CN111078867A - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN111078867A CN111078867A CN201811223396.0A CN201811223396A CN111078867A CN 111078867 A CN111078867 A CN 111078867A CN 201811223396 A CN201811223396 A CN 201811223396A CN 111078867 A CN111078867 A CN 111078867A
- Authority
- CN
- China
- Prior art keywords
- text
- event
- word
- different
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 4
- 230000003211 malignant effect Effects 0.000 description 4
- 206010035148 Plague Diseases 0.000 description 3
- 241000607479 Yersinia pestis Species 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类方法及装置,该方法包括:在从不同收集渠道收集到各个分别描述一个事件的文本后,判断预先构建的文本分类库中是否存在每个文本所描述的事件对应的事件文本集合,若存在,则将描述该事件的文本对应分配至相应地事件文本集合中,若不存在,则可以在文本分类库中为描述该事件的文本创建一个新的事件文本集合,再将描述该事件的文本分配至该新的事件文本集合中。可见,本申请在获取到描述某一事件的文本后,通过对文本分类库中是否存在该事件对应的事件文本集合进行判断,再根据判断结果,将该文本分配至对应事件下的事件文本集合中,进而可以将与该事件相关的各个文本进行聚类,丰富该事件对应的事件文本集合。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类方法及装置。
背景技术
目前,从事新闻挖掘和编辑工作的新闻工作者,非常关注新闻的价值性,因此,如何把突发的一些社会型的重大新闻进行及时捕获,以达到进一步追踪采访的目的,是当前需要解决的问题。
然而,现有技术方案一般是基于普通舆情来进行新闻捕获,具体地,新闻工作者在获知某新闻事件后,会通过大数据平台进行关键词搜索,从而得到与该关键字相关的新闻事件。但是,新闻工作者只能在已知某个新闻事件的基础上做进一步报道,而无法第一时间获知某个突发事件的未知新闻,更不能全面的获取某个新闻事件的全部素材。
发明内容
本申请实施例的主要目的在于提供一种文本分类方法及装置,能够将与同一事件相关的各个文本进行聚类。
本申请实施例提供了一种文本分类方法,包括:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
可选的,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
可选的,所述判断文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,包括:
确定每个所述文本所描述的事件所属的事件类型;
将每个文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
可选的,所述确定每个所述文本描述的事件所属的事件类型,包括:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
可选的,所述方法还包括:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
可选的,所述将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度,包括:
将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
确定大于预设相似度阈值的各个相似度对应的文本数量;
根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
可选的,所述方法还包括:
将所述事件文本集合中的各个文本,按照发布时间进行排序。
可选的,所述事件为新闻事件。
本申请实施例还提供了一种文本分类装置,包括:
文本收集单元,用于从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
集合判断单元,用于判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
文本分配单元,用于若预先构建的文本分类库中存在所述事件对应的事件文本集合,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
集合创建单元,用于若预先构建的文本分类库中不存在所述事件对应的事件文本集合,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
可选的,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
可选的,所述集合判断单元包括:
类型确定子单元,用于确定每个所述文本描述的事件所属的事件类型;
文本匹配子单元,用于将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
匹配度判断子单元,用于从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
集合确定子单元,用于若所述最大匹配度大于预设匹配阈值,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若所述最大匹配度是否不大于预设匹配阈值,则不存在所述事件对应的事件文本集合。
可选的,所述类型确定子单元包括:
标题分词子单元,用于将所述文本的标题进行分词处理,得到各个第一词语;
第一词语匹配子单元,用于将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
第一类型确定子单元,用于将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
可选的,所述类型确定子单元还包括:
正文分词子单元,用于若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
第二词语匹配子单元,用于将各个第二词语与所述词库中的各个词语集合进行匹配;
第二类型确定子单元,用于将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
可选的,所述文本匹配子单元包括:
相似度确定子单元,用于将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
文本数量确定子单元,用于确定大于预设相似度阈值的各个相似度对应的文本数量;
匹配度确定子单元,用于根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
可选的,所述装置还包括:
文本排序单元,用于将所述事件文本集合中的各个文本,按照发布时间进行排序。
可选的,所述事件为新闻事件。
本申请实施例还提供了一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时,执行上述任一项所述的方法。
本申请实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时,执行上述任一项所述的方法。
本申请实施例还提供了一种设备,所述设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时使所述处理器执行上述任一项所述的方法。
本申请实施例还提供了计算机程序产品,所述计算机程序产品在数据处理设备上执行时,使得所述数据处理设备执行上述任一项所述的方法。
本申请实施例提供的一种文本分类方法及装置,在从不同收集渠道收集到各个分别描述一个事件的文本后,判断预先构建的文本分类库中是否存在每个文本所描述的事件对应的事件文本集合,若存在,则将描述该事件的文本对应分配至相应地事件文本集合中,若不存在,则可以在文本分类库中为描述该事件的文本创建一个新的事件文本集合,再将描述该事件的文本分配至该新的事件文本集合中。可见,本申请在获取到描述某一事件的文本后,通过对文本分类库中是否存在该事件对应的事件文本集合进行判断,再根据判断结果,将该文本分配至对应事件下的事件文本集合中,进而可以将与该事件相关的各个文本进行聚类,丰富该事件对应的事件文本集合。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本分类方法的流程示意图;
图2为本申请实施例提供的判断文本分类库中是否存在某事件对应的事件文本集合的流程示意图;
图3为本申请实施例提供的将文本与不同事件文本集合进行匹配的流程示意图;
图4为本申请实施例提供的一种文本分类装置的结构示意图。
具体实施方式
在一些文本分类方法中,通常是基于普通的舆情,通过对某个已知的事件进行关键字配置后,再对大数据平台进行调度,以便实时获取该关键字相关的事件文本,这种获取事件文本的方式,只能在已知某个事件的基础上查询相关的事件文本,而无法第一时间获知某个突发事件,并且也无法将描述某个事件的所有文本进行聚类,进而无法对该事件后续的发展进行具体的追踪分析。比如,以新闻事件A为例,在获知新闻事件A后,现有的文本分类方式是通过对新闻事件A进行关键字配置后,再在大数据平台进行该关键词的搜索,从而得到与该关键字相关的新闻事件文本,其中,若新闻事件A为突发事件,用户因不能及时获知该事件,则无法查询到描述新闻事件A的相关文本,并且,这种文本分类方式无法将描述新闻事件A的所有文本进行聚类,即,无法全面的获取描述新闻事件A的新闻素材,进而无法对新闻事件A的后续发酵过程进行更具体的跟踪分析。
为解决上述缺陷,本申请实施例提供了一种文本分类方法,首先,预先建立一个文本分类库,该文本分类库包含了描述各个不同事件的文本集合,每个文本集合中的文本均是描述该文本集合对应的事件。由此,在获取到描述某个事件的文本后,可以在预先建立的文本分类库中,判断出是否存在该事件对应的文本集合,若存在,则可以将获取到的文本分配至文本分类库中该事件对应的文本集合,若不存在,则可以在文本分类库中为该事件建立一个其对应的新的文本集合,接着,再将获取到的文本分配至该新建立的文本集合中。在本申请实施例中,是以预先建立的文本分类库为基础,通过对文本分类库中是否存在某一事件对应的文本集合进行判断,再根据判断结果,将描述这一事件的文本分配至文本分类库中这一事件对应的文本集合中,进而可以将描述这一事件的文本与文本分类库中与描述事件的其他文本进行聚类,丰富文本分类库中这一事件对应的文本集合,以便可以对该事件后续的发展进行具体的追踪分析。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,为本实施例提供的一种文本分类方法的流程示意图,该方法包括以下步骤:
S101:从不同收集渠道收集待分类的各个文本,其中,所述文本是描述一个事件的文本。
在本实施例中,首先需要从各个不同收集渠道收集到待分类的各个文本,其中每一文本对应描述一个事件,这是由于不同的事件对应发酵的地点不同,如果仅仅通过单一渠道获取各个文本,会导致事件获取的时效性较低,以新闻事件“陕西榆林发生恶性事件多名学生被砍”为例,如果仅通过社会上人们口口相传的方式获取描述该新闻事件的相关文本,则并没有从第三方媒体(比如新闻网站、微博等网络自媒体)等渠道获取描述该事件的相关文本的时效性更高,随着互联网技术的快速发展,第三方媒体的资讯报道已逐渐成为了人们更加集中的关注点,由此,通过从各个不同收集渠道收集待分类的描述不同事件的各个文本,可以使得描述每一事件的文本更加全面、丰富。
S102:判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,其中,文本分类库包括不同具体事件对应的不同事件文本集合,而事件文本集合则包括描述对应具体事件的各个文本。
在本实施例中,通过步骤S101获取到描述不同事件的待分类的各个文本后,进一步可以在预先构建的、包括不同具体事件对应的不同事件文本集合的文本分类库中,判断出是否存在这些事件对应的事件文本集合,其中,每个事件文本集合包括了描述对应具体事件的各个文本。比如,假设具体事件为“陕西榆林发生恶性事件多名学生被砍”,则描述该具体事件的各个文本即可组成该事件对应的事件文本集合,存储在文本分类库中,类似的,文本分类库中还存储有其它不同的具体事件各自对应的事件文本集合。
具体来讲,可以预先建立一个文本分类库,该文本分类库由不同具体事件对应的文本集合组成,而其中每一具体事件对应的文本集合则是由描述该事件的各个文本组成。进而,在获取到描述某一事件的待分类的文本后,可以基于预先建立的文本分类库,判断其中是否存在该事件对应的事件文本集合,即,判断其中是否存在某一具体事件与该事件相同。
一种可选的实施方式是,该事件为新闻事件。在预先建立的文本分类库中,可以包含不同新闻事件对应的文本集合,且每个新闻事件对应的文本集合包括了描述该新闻事件的各个文本。进而,在获取到描述某个新闻事件的待分类的文本后,可以在预先建立的文本分类库中,查询出是否存在该新闻事件对应的事件文本集合。比如,以新闻事件“陕西榆林发生恶性事件多名学生被砍”为例,在获取到描述该新闻事件的待分类的文本后,可以在预先建立的文本分类库中,查询出是否存在该新闻事件“陕西榆林发生恶性事件多名学生被砍”对应的事件文本集合。
在本申请一些可能的实现方式中,文本分类库中的每一事件文本集合中的各个文本,可以按照发布时间进行排序。比如,当文本分类库中的具体事件为新闻事件时,则在其对应的事件文本集合中,可以将对其进行描述的每个新闻文本按照各自的发布时间进行排序,例如,按照发布时间的先后,进行正序排序,也可以按照发布时间的先后,进行倒序排序,以便可以将对该新闻事件进行描述的最新新闻文本排在最靠前的位置等,这样,如果在短时间内,发现文本分类库中某一事件文本集合中的文本出现爆发式增长,则可以认为该事件为热点事件,比如,若在短时间内,描述某一新闻事件的新闻文本激增,则说明该新闻事件为热点事件。并且,在将每一事件文本集合中的各个文本按照发布时间进行排序后,也使得用户能够按时间轴顺序更好的了解每一事件的发展脉络以及发展趋势等。需要说明的是,具体的排序规则,可根据实际情况进行设置,本申请对此不进行限定。
在本申请一些可能的实现方式中,文本分类库可以包括不同事件类型对应的类型文本集合,其中,类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
在本实现方式中,文本分类库中不仅可以包含不同具体事件对应的文本集合,还可以将不同具体事件按照各自所属的事件类型进行划分,进而使得每个事件类型可以对应一个类型文本集合,相应的,每个类型文本集合中包括了相应事件类型下的不同具体事件对应的文本集合。
举例说明:文本分类库中的具体事件所属的事件类型可以按照具体事件的属性分为灾害类、爆炸类、瘟疫类、自杀类等,需要说明的是,具体的事件类型,可根据实际情况进行设置,本申请实施例对此不进行限定。比如,以事件类型为“灾害类”为例,其下的(属于该事件类型的)不同的具体事件可以包括“A地区6.22特大水灾”、“B地区XX年秋季特大虫灾”、“C地区温泉酒店火灾”等,相应的,“灾害类”对应的类型文本集合则包括了“A地区6.22特大水灾”、“B地区XX年秋季特大虫灾”、“C地区温泉酒店火灾”等各个具体灾害事件对应的描述对应具体灾害事件的事件文本集合。
需要说明的是,对于收集到的各个文本所描述的各个事件,具体的判断文本分类库中是否存在每一事件对应的事件文本集合的实施方式请参见后续详细介绍。
还需要说明的是,通过步骤S102,若判断出文本分类库中存在某事件对应的事件文本集合,则可以继续执行步骤S103;若判断出文本分类库中不存在某事件对应的事件文本集合,则将继续执行步骤S104。
S103:若存在,则将所述文本分配至其所描述事件所对应的事件文本集合中。
在本实施例中,若通过步骤S102判断出预先构建的文本分类库中存在某事件对应的事件文本集合,则可以将收集到的描述该事件的各个文本分配至该事件对应的事件文本集合中,完成了该事件的各个文本的聚类,丰富了文本分类库中该事件对应的事件文本集合。
S104:若不存在,则在文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
在本实施例中,若通过步骤S102判断出文本分类库中不存在所述文本描述的事件对应的事件文本集合,则可以在预先建立的文本分类库中,为所述文本描述的事件创建一个新的事件文本集合,再将收集到的描述该事件的各个文本分配至该事件对应的该事件文本集合中,并且,后续可以将描述该事件的其他文本,通过步骤S101-S103的执行过程,分配到该事件文本集合中,使得该事件文本集合中的各个文本均为描述该事件的文本。从而完成了该事件的各个文本的聚类,丰富了文本分类库中该事件对应的事件文本集合。
进一步地,一种可选的实现方式是,在通过步骤S103/S104成功对一个待分类的文本进行分类后,还可以继续进行下一个待分类文本的分类,即重复执行步骤S101-S104的过程,实现下一个待分类文本的分类,以便将所有从不同收集渠道收集到的待分类的各个文本与其各自描述的事件相关的各个文本进行聚类,丰富文本分类库中各个事件对应的事件文本集合。
由上述实施例可以看出,本实施例提供的一种文本分类方法,在从不同收集渠道收集到各个分别描述一个事件的文本后,判断预先构建的文本分类库中是否存在每个文本所描述的事件对应的事件文本集合,若存在,则将描述该事件的文本对应分配至相应地事件文本集合中,若不存在,则可以在文本分类库中为描述该事件的文本创建一个新的事件文本集合,再将描述该事件的文本分配至该新的事件文本集合中。可见,本申请在获取到描述某一事件的文本后,通过对文本分类库中是否存在该事件对应的事件文本集合进行判断,再根据判断结果,将该文本分配至对应事件下的事件文本集合中,进而可以将与该事件相关的各个文本进行聚类,丰富该事件对应的事件文本集合。
接下来,对上述步骤S102的具体实施方式进行介绍。
在本申请一些可能的实现方式中,步骤S102具体可以包括步骤S201-S204,如图2所示:
步骤S201:确定每个所述文本描述的事件所属的事件类型。
在本实现方式中,通过步骤S101获取到描述某一事件的待分类的文本后,为了能够判断出文本分类库中是否存在该事件对应的事件文本集合,首先需要确定出该事件所属的事件类型,比如,需要确定出该事件所属的事件类型是灾害类、爆炸类,还是瘟疫类等,进而可通过继续执行后续步骤以判断出在该事件所属的事件类型下是否存在该事件对应的事件文本集合。
在本申请一些可能的实现方式中,步骤S201的具体实现过程可以包括下述步骤A-C:
步骤A:将所述文本的标题进行分词处理,得到各个第一词语。
在本实现方式中,为了确定某事件所属的事件类型,首先可以利用现有或未来出现的分词方法,对获取到的描述该事件的文本的标题进行分词处理,得到该文本标题中的各个词语,并将各个词语定义为第一词语。比如,假设该文本的标题为“陕西榆林多名学生被砍”,则可以通过自然语言处理(Natural Language Processing,简称NLP)技术对该文本的标题进行分词处理,得到各个第一词语为“陕西”、“榆林”、“多”、“名”、“学生”、“被”、“砍”。
步骤B:将各个第一词语与预先构建的词库进行匹配,其中,词库包括不同事件类型下对应的不同词语集合。
在本实现方式中,通过步骤A将获取到的描述该事件的文本的标题进行分词处理,得到各个第一词语后,可以将各个第一词语与预先构建的词库进行匹配,其中,该预先构建的词库中包括了不同事件类型下对应的不同词语集合,进而可以根据匹配结果,得到词库中不同词语集合与该文本的标题的匹配度,该匹配度表征了该文本标题与词库的每个词语集合中词语的匹配程度,若某一词语集合与该文本标题匹配度越高,则表明该词语集合中与该文本标题中词语的匹配度越大,反之亦然。
其中,在预先构建词库的过程中,可以首先收集大量的文本数据,比如新闻报道或者小说故事文本等,再利用现有或未来出现的分词方法,对这些获取到的大量文本进行分词处理,形成多个不同事件类型对应的不同词语集合,比如可以分别得到属于“灾害类”、“爆炸类”、“瘟疫类”等事件类型对应的词语集合,例如“灾害类”事件类型对应的词语集合可以包括“水灾”、“淹没”、“烧毁”、“腐蚀”等属于“灾害”类的词语。
对步骤B进行举例说明:基于步骤A中的举例,假设得到的描述某事件的文本的标题对应的各个第一词语为“陕西”、“榆林”、“多”、“名”、“学生”、“被”、“砍”,则可以将这些第一词语与预先构建的词库中的各个不同词语集合进行匹配,以判断出每个词语集合包含的第一词语的数量,即,判断出每个词语集合中可以包含“陕西”、“榆林”、“多”、“名”、“学生”、“被”、“砍”中的多少个词语,包含的数量越多,则表明该词语集合与文本标题“陕西榆林多名学生被砍”的匹配度越高。
步骤C:将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实现方式中,通过步骤B将各个第一词语与预先构建的词库进行匹配,得到词库中每个词语集合与描述该事件的文本的标题的匹配度后,可以将其中匹配度最高的词语集合对应的事件类型,作为该事件所属的事件类型,这是因为,若词语集合与描述该事件的文本的标题的匹配度最高,则表明该词语集合与该文本的标题的匹配程度最高,比如该词语集合中可能包含了最多数量的该文本标题中的第一词语,从而说明该词语集合对应事件类型很可能就是该文本所描述的事件对应的事件类型。
在本申请一些可能的实现方式中,步骤S201的具体实现过程还可以包括下述步骤D-F:
步骤D:若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语。
在本实现方式中,若按照上述步骤A-C,通过某收集文本的标题未匹配到其所描述事件所属的事件类型,则可以利用现有或未来出现的分词方法,对该文本的正文进行分词处理,得到该文本的正文中的各个词语,并将这些词语定义为第二词语。比如,假设该文本的正文为“2018年4月27日18时10分许,陕西榆林,米脂县第三中学学生放学途中遭犯罪嫌疑人袭击,造成19名学生受伤,其中7人死亡。目前,受伤学生正在全力救治中。”,则可以根据该文本的正文中每个词语的词性等属性,通过NLP对该文本的正文进行分词处理,得到对应的各个第二词语为“2018年”、“4月”、“27日”、“18时”、“10分”、“,”、“陕西”、“榆林”、“,”、“米脂县”、“第三”、“中学”、“学生”、“放学”“途中”、“遭”、“犯罪”、“嫌疑人”、“袭击”、“,”、“造成”、“19”、“名”、“学生”、“受伤”、“,”、“其中”、“7”、“人”、“死亡”、“。”、“目前”、“,”、“受伤”、“学生”、“正在”、“全力”、“救治”、“中”、“。”。
步骤E:将各个第二词语与所述词库中的各个词语集合进行匹配。
在本实现方式中,通过步骤D将某收集文本的正文进行分词处理,得到各个第二词语后,可以将各个第二词语与预先构建的词库中的各个词语集合进行匹配,得到词库中每个词语集合与该文本的正文的匹配度,具体的匹配过程与上述实现方式中该文本的标题与每个词语集合进行匹配的过程相类似,相关内容可参见上述步骤B,本申请在此不再赘述。
步骤F:将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实现方式中,若通过步骤E将各个第二词语与词库中的各个词语集合进行匹配,得到词库中每个词语集合与描述该事件的文本的正文的匹配度后,与上述实现方式类似,同理可以将其中匹配度最高的词语集合对应的事件类型,作为该事件所属的事件类型,这是因为,若词语集合与描述该事件的文本的正文的匹配度最高,则表明该词语集合与该文本的正文的匹配程度最高,比如该词语集合中可能包含了最多数量的该文本的正文中的第二词语,从而说明该词语集合对应事件类型很可能就是该文本所描述的事件对应的事件类型。
步骤S202:将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度。
在本实现方式中,通过步骤S201确定出某一所述文本所描述的事件所属的事件类型后,可以将描述该事件的文本与该事件所属的事件类型下的不同事件文本集合进行匹配,进而得到该文本与该事件类型下所有事件文本集合的集合匹配度,其中,集合匹配度表征了该文本与事件文本集合的匹配程度,由于每个不同的事件集合对应了不同的具体事件,所以,在得到该文本与每一事件文本集合的集合匹配度后,可以通过执行后续步骤,判断出在该事件类型下是否存在该文本所描述事件对应的事件文本集合。
在本申请一些可能的实现方式中,步骤S202具体可以包括步骤2021-2023,如图3所示:
步骤2021:将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定待匹配集合中的每一文本与该文本之间的相似度。
在本实现方式中,通过步骤S201确定出某一所述文本所描述的事件所属的事件类型后,可以将该事件类型下的不同事件文本集合分别作为待匹配集合,并确定出每一待匹配集合中每一文本与描述该事件的文本之间的相似度,该相似度表征了待匹配集合中每一文本与描述该事件的文本之间的文本重合程度,若某一文本与描述该事件的文本之间的相似度越高,则表明二者之间的文本重合程度越大,反之亦然。
举例说明:假设某一所述文本所描述的事件所属事件类型为“灾害类”,该类型下包含的不同事件文本集合分别为:对应描述“湖南地区中级火灾”和“哈尔滨温泉酒店火灾”的事件文本集合A和事件文本集合B,其中,事件文本集合A包含多篇描述“湖南地区中级火灾”的相关新闻文章,而事件文本集合B则包含了多篇描述“哈尔滨温泉酒店火灾”的相关新闻文章,进而可以将事件文本集合A和事件文本集合B分别作为待匹配集合,确定出这两个事件文本集合中每一篇新闻文章与描述该事件的文本之间的文字重合程度,若某一篇新闻文章与该文本之间的文字重合程度越大,则表明二者之间的相似度越高,反之亦然。
步骤2022:确定大于预设相似度阈值的各个相似度对应的文本数量。
在本实现方式中,通过步骤2021将某一所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,并确定出每一待匹配集合中每一文本与描述该事件的文本之间的相似度后,进一步可以确定出其中大于预设相似度阈值的各个相似度对应的文本数量,其中,预设相似度阈值指的是判定待匹配集合中的每一文本是否可以作为描述该事件的待分类文本的相似文的相似度临界值,若待匹配集合中的某一文本与描述该事件的待分类文本的相似度超过了相似度临界值,则可以表明待匹配集合中的该文本可以作为该待分类文本的相似文,若待匹配集合中的某一文本与描述该事件的待分类文本的相似度并未超过该相似度临界值,则可以表明待匹配集合中的该文本不能作为该待分类文本的相似文。比如,假设该预设相似度阈值为80%,则若确定出待匹配集合中的某一文本与该待分类文本的相似度超过了80%,则可以将二者称为相似文本,反之,若确定出待匹配集合中的某一文本与该待分类文本的相似度并未超过80%,则不能将二者称为相似文本。在确定出各个待匹配集合中大于预设相似度阈值的各个相似度对应的文本数量后,可继续执行后续步骤2023。
举例说明:基于上述步骤1021中的例子,假设预设相似度阈值为80%,通过步骤2021确定出描述“湖南地区中级火灾”的事件文本集合A中大于80%的相似度为85%和82%,其中,相似度85%对应的新闻文章为8篇,相似度82%对应的新闻文章为10篇;相应的,可以确定出描述“哈尔滨温泉酒店火灾”的事件文本集合A中大于80%的相似度为81%,其该相似度81%对应的新闻文章为9篇。
步骤2023:根据文本数量,确定这些待匹配集合对应的集合匹配度。
在本实现方式中,通过步骤2022确定出某一所述文本所描述的事件所属事件类型下各个待匹配集合中大于预设相似度阈值的各个相似度对应的文本数量后,进一步可以根据各个文本数量,确定出对应的各个待匹配集合对应的集和匹配度,其中,该集合匹配度指的是收集的待分类文本与每一待匹配集合的匹配程度,若某一待匹配集合中大于预设相似度阈值的各个相似度对应的文本数量占据整个待匹配集合的文本总数量的比重越大,则表明该待匹配集合与该待分类文本的集合匹配度越大,反之亦然。
举例说明:基于上述步骤1022中的例子,在确定出事件文本集合A中大于预设相似度阈值的各个相似度对应的新闻文章数量为18篇(8+10=18)且事件文本集合A的文本总数为20,而事件文本集合B中大于预设相似度阈值的各个相似度对应的新闻文章数量为9篇且事件文本集合B的文本总数为30,可以看出,事件文本集合A中大于预设相似度阈值的各个相似度对应的文本数量在事件文本集合A中的占比高于事件文本集合B,可以将事件文本集合A和事件文本集合B对应的占比,作为事件文本集合A与事件文本集合B各自对应的集合匹配度。
步骤S203:从各个集合匹配度中选择最大匹配度,并判断该最大匹配度是否大于预设匹配阈值。
在本实现方式中,通过步骤S202确定出某一所述文本所描述的事件所属事件类型下每一事件文本集合的集合匹配度后,可以从各个集合匹配度中选择最大匹配度,并判断该最大匹配度是否大于预设匹配阈值,其中,预设匹配阈值指的是预先设置的、判定事件文本集合是否为待分类文本所属分类的临界值,若某一事件文本集合的集合匹配度超过了该预设的临界值,则可以表明该事件文本集合是待分类文本所属的分类,即,该事件文本集合中包含的每一文本均是描述该待分类文本对应的事件。比如,假设该匹配阈值为70%,则若确定出某一事件文本集合对应的集合匹配度超过了70%,则可以判定该事件文本集合为待分类文本所属分类,即,该事件文本集合中有超过70%的文本是描述待分类文本对应的事件。反之,若确定出某一事件文本集合对应的集合匹配度未超过70%,则可以判定该事件文本集合并不是待分类文本所属的分类,即,该事件文本集合低于70%的文本是描述待分类文本对应的事件。
举例说明:基于上述步骤2023中的例子,假设预设匹配阈值为70%,则在确定出事件文本集合A中大于预设相似度阈值的各个相似度对应的新闻文章数量为18篇,事件文本集合B中大于预设相似度阈值的各个相似度对应的新闻文章数量为9篇后,假设事件文本集合A共包20篇新闻文章,以及事件文本集合B共包括30篇新闻,可以看出,事件文本集合A的集合匹配度为90%(18/20),事件文本集合B的集合匹配度为30%(9/30),从中选择最大匹配度(事件文本集合A的集合匹配度为90%)后,可以判断出该最大匹配度大于预设匹配阈值(90%>70%)。
步骤S204:若S203的判断结果为是,则确定该最大匹配度对应的事件文本集合为该文本所描述事件对应的事件文本集合,若S203的判断结果为否,则不存在所述事件对应的事件文本集合。
在本实现方式中,若通过步骤S203判断出最大匹配度大于预设匹配阈值,则表明该最大匹配度对应的事件文本集合中有超过预设匹配阈值的文本是描述待分类文本对应的事件的,进而可以确定该事件文本集合为待分类文本所描述事件对应的事件文本集合;相对应的,若通过步骤S203判断出最大匹配度并未大于预设匹配阈值,则表明该最大匹配度对应的事件文本集合中并没有超过预设匹配阈值的文本是描述待分类文本对应的事件的,进而可以确定出该事件文本集合并不是待分类文本所描述事件对应的事件文本集合。
基于以上文本分类方法,本申请实施例还提供了一种文本分类装置,如图4所示,该装置包括:
文本收集单元401,用于从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
集合判断单元402,用于判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
文本分配单元403,用于若预先构建的文本分类库中存在所述事件对应的事件文本集合,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
集合创建单元404,用于若预先构建的文本分类库中不存在所述事件对应的事件文本集合,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
在本申请一些可能的实现方式中,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
在本申请一些可能的实现方式中,所述集合判断单元402包括:
类型确定子单元,用于确定每个所述文本描述的事件所属的事件类型;
文本匹配子单元,用于将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
匹配度判断子单元,用于从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
集合确定子单元,用于若若所述最大匹配度大于预设匹配阈值,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若所述最大匹配度是否不大于预设匹配阈值,则不存在所述事件对应的事件文本集合。
在本申请一些可能的实现方式中,所述类型确定子单元包括:
标题分词子单元,用于将所述文本的标题进行分词处理,得到各个第一词语;
第一词语匹配子单元,用于将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
第一类型确定子单元,用于将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本申请一些可能的实现方式中,所述类型确定子单元还包括:
正文分词子单元,用于若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
第二词语匹配子单元,用于将各个第二词语与所述词库中的各个词语集合进行匹配;
第二类型确定子单元,用于将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本申请一些可能的实现方式中,所述文本匹配子单元包括:
相似度确定子单元,用于将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
文本数量确定子单元,用于确定大于预设相似度阈值的各个相似度对应的文本数量;
匹配度确定子单元,用于根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
在本申请一些可能的实现方式中,所述装置还包括:
文本排序单元,用于将所述事件文本集合中的各个文本,按照发布时间进行排序。
在本申请一些可能的实现方式中,所述事件为新闻事件。
由上述实施例可以看出,本实施例提供的一种文本分类装置,在从不同收集渠道收集到各个分别描述一个事件的文本后,对于其中的每一事件,判断预先构建的文本分类库中是否存在该事件对应的事件文本集合,若存在,则将描述该事件的文本对应分配至相应地事件文本集合中,若不存在,则可以在文本分类库中为描述该事件的文本创建一个新的事件文本集合,再将描述该事件的各个文本分配至该新的事件文本集合中。可见,本申请在获取到描述某一事件的文本后,通过对文本分类库中是否存在该事件对应的事件文本集合进行判断,再根据判断结果,将该文本分配至对应事件下的事件文本集合中,进而可以将与该事件相关的各个文本进行聚类,丰富该事件对应的事件文本集合。
所述文本分类装置包括处理器和存储器,上述文本收集单元、集合判断单元、文本分配单元和集合创建单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行文本分类,能够将与同一事件相关的各个文本进行聚类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现以下步骤:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
在本实施例的一种实现方式中,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
确定每个所述文本描述的事件所属的事件类型;
将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
确定大于预设相似度阈值的各个相似度对应的文本数量;
根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
将所述事件文本集合中的各个文本,按照发布时间进行排序。
在本实施例的一种实现方式中,所述事件为新闻事件。
本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,该程序运行时执行以下步骤:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
在本实施例的一种实现方式中,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
确定每个所述文本描述的事件所属的事件类型;
将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
确定大于预设相似度阈值的各个相似度对应的文本数量;
根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
在本实施例的一种实现方式中,该程序被处理器执行时还实现以下步骤:
将所述事件文本集合中的各个文本,按照发布时间进行排序。
在本实施例的一种实现方式中,所述事件为新闻事件。
本发明实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
在本实施例的一种实现方式中,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
在本实施例的一种实现方式中,处理器执行程序时还实现以下步骤:
确定每个所述文本描述的事件所属的事件类型;
将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
在本实施例的一种实现方式中,处理器执行程序时还实现以下步骤:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,处理器执行程序时还实现以下步骤:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,处理器执行程序时还实现以下步骤:
将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
确定大于预设相似度阈值的各个相似度对应的文本数量;
根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
在本实施例的一种实现方式中,处理器执行程序时还实现以下步骤:
将所述事件文本集合中的各个文本,按照发布时间进行排序。
在本实施例的一种实现方式中,所述事件为新闻事件。
本申请中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,使得数据处理设备执行如下方法步骤的程序:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
在本实施例的一种实现方式中,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
在本实施例的一种实现方式中,使得数据处理设备还执行如下方法步骤的程序:
确定每个所述文本描述的事件所属的事件类型;
将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
在本实施例的一种实现方式中,使得数据处理设备还执行如下方法步骤的程序:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,使得数据处理设备还执行如下方法步骤的程序:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
在本实施例的一种实现方式中,使得数据处理设备还执行如下方法步骤的程序:
将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
确定大于预设相似度阈值的各个相似度对应的文本数量;
根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
在本实施例的一种实现方式中,使得数据处理设备还执行如下方法步骤的程序:
将所述事件文本集合中的各个文本,按照发布时间进行排序。
在本实施例的一种实现方式中,所述事件为新闻事件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
2.根据权利要求1所述的方法,其特征在于,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
3.根据权利要求2所述的方法,其特征在于,所述判断文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,包括:
确定每个所述文本描述的事件所属的事件类型;
将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
4.根据权利要求3所述的方法,其特征在于,所述确定每个所述文本描述的事件所属的事件类型,包括:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
6.根据权利要求3所述的方法,其特征在于,所述将每个所述文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度,包括:
将每个所述文本所描述的事件所属事件类型下的不同事件文本集合分别作为待匹配集合,确定所述待匹配集合中的每一文本与该文本之间的相似度;
确定大于预设相似度阈值的各个相似度对应的文本数量;
根据所述文本数量,确定所述待匹配集合对应的集合匹配度。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
将所述事件文本集合中的各个文本,按照发布时间进行排序。
8.一种文本分类装置,其特征在于,包括:
文本收集单元,用于从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
集合判断单元,用于判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
文本分配单元,用于若预先构建的文本分类库中存在所述事件对应的事件文本集合,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
集合创建单元,用于若预先构建的文本分类库中不存在所述事件对应的事件文本集合,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
9.一种存储介质,其特征在于,所述存储介质上存储有程序,所述程序被处理器执行时,执行权利要求1-7任一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时,执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811223396.0A CN111078867A (zh) | 2018-10-19 | 2018-10-19 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811223396.0A CN111078867A (zh) | 2018-10-19 | 2018-10-19 | 一种文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111078867A true CN111078867A (zh) | 2020-04-28 |
Family
ID=70308468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811223396.0A Pending CN111078867A (zh) | 2018-10-19 | 2018-10-19 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078867A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708879A (zh) * | 2020-05-11 | 2020-09-25 | 北京明略软件系统有限公司 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
CN112100374A (zh) * | 2020-08-28 | 2020-12-18 | 清华大学 | 文本聚类方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577404A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 一种面向微博的全新突发事件发现方法 |
CN104035960A (zh) * | 2014-05-08 | 2014-09-10 | 东莞市巨细信息科技有限公司 | 互联网资讯信息热点预测方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN106250513A (zh) * | 2016-08-02 | 2016-12-21 | 西南石油大学 | 一种基于事件建模的事件个性化分类方法及系统 |
CN107609103A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种基于推特的事件检测方法 |
US20180096057A1 (en) * | 2016-10-03 | 2018-04-05 | Sap Se | Collecting event related tweets |
-
2018
- 2018-10-19 CN CN201811223396.0A patent/CN111078867A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577404A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 一种面向微博的全新突发事件发现方法 |
CN104035960A (zh) * | 2014-05-08 | 2014-09-10 | 东莞市巨细信息科技有限公司 | 互联网资讯信息热点预测方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
CN106250513A (zh) * | 2016-08-02 | 2016-12-21 | 西南石油大学 | 一种基于事件建模的事件个性化分类方法及系统 |
US20180096057A1 (en) * | 2016-10-03 | 2018-04-05 | Sap Se | Collecting event related tweets |
CN107609103A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种基于推特的事件检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708879A (zh) * | 2020-05-11 | 2020-09-25 | 北京明略软件系统有限公司 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
CN112100374A (zh) * | 2020-08-28 | 2020-12-18 | 清华大学 | 文本聚类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763193B2 (en) | Systems and method for performing contextual classification using supervised and unsupervised training | |
CN106897334B (zh) | 一种问题推送方法和设备 | |
Imran et al. | Coordinating human and machine intelligence to classify microblog communications in crises. | |
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
US20160034560A1 (en) | Method and system for securely storing private data in a semantic analysis system | |
US20120278275A1 (en) | Generating a predictive model from multiple data sources | |
CN111831629B (zh) | 一种数据处理方法及装置 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
CN110866110A (zh) | 基于人工智能的会议纪要生成方法、装置、设备及介质 | |
CN106991090B (zh) | 舆情事件实体的分析方法及装置 | |
US11132358B2 (en) | Candidate name generation | |
CN111159428A (zh) | 经济领域知识图谱事件关系自动抽取的方法和装置 | |
CN114004694A (zh) | 一种基于舆情信息的企业风险预警方法、设备及介质 | |
CN111078867A (zh) | 一种文本分类方法及装置 | |
US20210056131A1 (en) | Methods and systems for generating timelines for entities | |
CN109344325B (zh) | 基于智能会议平板的信息的推荐方法和装置 | |
US9020212B2 (en) | Automatically determining a name of a person appearing in an image | |
CN116522401B (zh) | 基于云数据安全的信息去标识化处理方法及系统 | |
CN103164491B (zh) | 一种数据处理和检索的方法及设备 | |
CN111428037B (zh) | 一种分析行为政策匹配性的方法 | |
CN110858214B (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
CN110019771B (zh) | 文本处理的方法及装置 | |
CN108363731B (zh) | 一种业务发布方法、装置以及电子设备 | |
Han et al. | A real-time knowledge extracting system from social big data using distributed architecture | |
CN112668302A (zh) | 虚假诉讼的判断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |
|
RJ01 | Rejection of invention patent application after publication |