CN107145516A - 一种文本聚类方法及系统 - Google Patents

一种文本聚类方法及系统 Download PDF

Info

Publication number
CN107145516A
CN107145516A CN201710225314.5A CN201710225314A CN107145516A CN 107145516 A CN107145516 A CN 107145516A CN 201710225314 A CN201710225314 A CN 201710225314A CN 107145516 A CN107145516 A CN 107145516A
Authority
CN
China
Prior art keywords
text
feature words
network
corporations
oriented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710225314.5A
Other languages
English (en)
Other versions
CN107145516B (zh
Inventor
李健
王富田
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Beijing Sinovoice Technology Co Ltd
Original Assignee
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP filed Critical BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority to CN201710225314.5A priority Critical patent/CN107145516B/zh
Publication of CN107145516A publication Critical patent/CN107145516A/zh
Application granted granted Critical
Publication of CN107145516B publication Critical patent/CN107145516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明实施例涉及一种文本聚类方法及系统;该方法包括:对各文本的内容预处理,获取各文本的各特征词;分别针对各文本,建立该文本的有向复杂子网络;其中,各网络节点为该文本的各特征词,各网络节点之间的有向边为各特征词在该文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在该文本中出现的频率;针对所有文本,建立有向复杂总网络;对该有向复杂总网络进行社团划分,生成各社团;分别针对各文本,计算该文本的有向复杂子网络属于各社团的概率,确定所属的社团;因此可以应用于无监督的文本聚类中,有助于提高文档归类的准确度;而且特征词维数低,计算复杂度低,降低了处理负担;还便于后续处理大量待分类文本。

Description

一种文本聚类方法及系统
技术领域
本发明涉及聚类分析,具体地涉及一种文本聚类方法及系统。
背景技术
文本聚类在舆情监控、情感分析、大数据预警等系统中有重要意义,如从包含大量垃圾或者冗余信息的文本中挖掘对自己有意义的信息,或者从大量的未知核心方向的文章中找出自己较关心的方向的那些文本。
目前比较成熟的文本聚类算法是利用文本向量的相似性作凝聚层次聚类计算得到,具体包括:对各文档预处理,包括分词、过滤停用词等;基于向量空间模型,利用特征选择和权重计算,将各文档映射到高维、稀疏矩阵中,建立文档-词语矩阵;通过计算各文档向量间相似性,来表达文档的相似性。该聚类方法需要人工对文档进行聚类信息的标注,无法应用到无监督的文本聚类中,忽略了词与词之间的语义关系,而且存在词频维数过高,计算复杂度高等问题。
发明内容
本发明实施例提供一种文本聚类方法及系统,以解决或部分解决上述的聚类方法无法应用到无监督的文本聚类中,忽略了词与词之间的语义关系,而且存在词频维数过高,计算复杂度高等问题。
第一方面,本发明实施例提供了一种文本聚类方法,具体可以包括:
对输入的各文本的内容进行预处理,获取各文本的各特征词;
分别针对各文本,建立所述文本的有向复杂子网络;其中,各网络节点为所述文本的各特征词,各网络节点之间的有向边为各特征词在所述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述文本中出现的频率;
针对所有文本,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率;
利用有向复杂网络的社团挖掘算法,对所述有向复杂总网络进行社团划分,生成各社团;
分别针对各文本,计算所述文本的有向复杂子网络属于各社团的概率,确定所述文本所属的社团。
另一方面,本发明实施例提供了一种文本聚类系统,具体可以包括:
预处理模块,用于对输入的各文本的内容进行预处理,获取各文本的各特征词;
子网络建立模块,用于分别针对各文本,建立所述文本的有向复杂子网络;其中,各网络节点为所述文本的各特征词,各网络节点之间的有向边为各特征词在所述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述文本中出现的频率;
总网络建立模块,用于针对所有文本,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率;
社团划分模块,用于利用有向复杂网络的社团挖掘算法,对所述有向复杂总网络进行社团划分,生成各社团;
社团确定模块,用于分别针对各文本,计算所述文本的有向复杂子网络属于各社团的概率,确定所述文本所属的社团。
这样,本发明实施例中,通过由文本内特征词之间的先后关系以及先后关系出现的频率,构成有向复杂网络,在社团划分的过程中利用了文本中特征词之间的先后关系(其中包含了文本语义信息),以及文本中特征词之间先后关系的频率(其中包含了文本中特征词的概率分布信息);因此,本发明实施例一方面无需进行聚类信息的标注,因此可以应用到无监督的文本聚类中,降低了处理负担;另一方面,聚类方法中涉及了文本语义信息、文本中特征词的概率分布信息、特征词之间的先后关系、特征词之间先后关系的频率,包含了词与词之间的语义关系,有助于提高文档归类的准确度;再一方面,因为上述文本聚类方法最大的特征词维数为所有文本的特征词的个数,因为相当于将所有文本读入一个总的文本来获取特征词,每一个特征词可能出现的频率较高,实际上特征词的个数是有限的,因此特征词维数低,计算复杂度低;还有,根据本发明实施例构建的文本聚类的社团模型,对于新的待分类文本,只需建立其有向复杂子网络,然后计算其属于各社团的概率,即可得到该文本的分类结果,便于后续处理大量待分类文本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的一种应用环境示意图;
图2示出了本发明实施例一的一种文本聚类方法的步骤示意图;
图3示出了本发明实施例一的一种文本聚类方法的有向复杂网络示意图;
图4示出了本发明实施例二的一种文本聚类方法的步骤示意图;
图5示出了本发明实施例三的一种文本聚类系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例可以应用于文本信息挖掘领域,即通过计算机对大量未知内容文本语料的自动聚类、自动摘要生成、文档自动整理、用户兴趣文档推荐、搜索引擎的搜索结果聚类等系统中,在一定程度上满足商业人员进行商业推荐、信息提供等方面的需求,以及情报人员对大量电子文档进行管理的需求等等。
参照图1所示,本发明实施例可以通过对大量的输入文本进行预处理、分词等操作,再根据文本的特征词之间的先后关系,构建有向复杂网络,进行文本聚类,得到对上述输入的文本的聚类结果以及文本聚类模型,即社团划分的结果;进一步地,对于新的待分类的文本,可以在进行预处理、文本分词等操作之后,根据上述文本聚类模型对该待分类文本进行文本分类,得到分类结果,因此本发明实施例便于后续处理大量待分类文本,例如可以应用于语音识别得到的大量文档的后续分类中,便于后续进一步分析优化语音识别模型。
【实施例一】
参照图2所示,示出了本发明实施例的一种文本聚类方法,具体可以包括:
步骤201:对输入的各文本的内容进行预处理,获取各文本的各特征词。
本发明实施例中,对输入的各文本的内容进行预处理,尽可能的去除各文本中不能被识别出的文字,不符合对应标准的文字,没有实际语义或内容无意义的文字;进一步地,还可以对各文本中进行分词处理,即将各文本中的文字序列按照设定的规范或词库切分成一个一个单独的词。
例如,对于示例性文本“北京时间3月28日晚,2018世界杯预选赛亚洲12强赛第7轮赛事展开,中国男足客场0-1负于伊朗队,中国男足进入2018世界杯仅剩理论可能。”而言,经过上述预处理之后,可以获得特征词为“2018世界杯”、“预选赛”、“中国男足”、“客场”“0-1”、“负于”“伊朗队”。
可以理解的是,本发明实施例中,上述文本可以是各类语言文本,如汉语文字、汉语拼音、英语、日语等等,或者互相混杂;也可以是语音文本通过语音识别之后的文本,也可以是其他形式。总之,本发明实施例对此不做限制。
步骤202:分别针对各文本,建立上述文本的有向复杂子网络;其中,各网络节点为上述文本的各特征词,各网络节点之间的有向边为各特征词在上述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在上述文本中出现的频率。
本发明实施例中,分别地针对上述输入的每一个文本,建立对应于该文本的有向复杂子网络。其中,对上述的一个文本而言,以上述文本中的各特征词为各网络节点,各特征词为互不相同的;以上述文本中各特征词之间的先后顺序的先后关系作为各网络节点的有向边;而上述有向边的权重即为各特征词之间的先后关系在上述文本中出现的频率。
例如,对于上述的示例性文本,参照图3所示,可以以上述获得的特征词“2018世界杯”、“预选赛”、“中国男足”、“客场”“0-1”、“负于”“伊朗队”分别为网络节点,而且,上述七个特征词之中,任意两个相邻的特征词之间就存在先后关系,且频率都为1,因此相应有向边的权重都为1;此外“伊朗队”与“中国男足”,“中国男足”与“2018世界杯”也存在先后关系,频率为1,相应有向边的权重为1。当然,在实际应用中,上述输入的文本中可以包含成百上千个词汇,经过预处理之后特征词也可以有几十或上百个,各特征词之间的先后关系出现的频率也可以不止一次;上述示例仅为了更详细地进行描述。
步骤203:针对所有文本,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率。
本发明实施例中,针对上述所有输入的文本,等同于将各文本内的内容放于同一个总的文本中,建立有向复杂总网络;其中,以总的文本的各特征词为各网络节点,以各特征词在总的文本中的先后关系为各网络节点之间的有向边,以各特征词在总的文本中的先后关系出现的频率为各网络节点之间的有向边的权重。
本发明实施例的一种实施方式中,可以将上述输入的各文本按照设定的顺序编号为第一文本、第二文本等等,在建立上述第一文本的有向复杂子网络时,可以同时建立有向复杂总网络,此时上述第一文本的有向复杂子网络与上述有向复杂总网络相同;在按照编号顺序,建立上述第二文本的有向复杂子网络时,可以在上述有向复杂总网络的基础上添加上述第二文本中的特征词以及先后关系,更新上述有向复杂总网络;如此,当最后一个文本的有向复杂子网络建立成功后,针对所有文本的有向复杂总网络也建立成功。
步骤204:利用有向复杂网络的社团挖掘算法,对上述有向复杂总网络进行社团划分,生成各社团。
在有向复杂网络中,网络节点间存在连接疏密的现象,将连接紧密的部分看作一个社团,其内部网络节点之间的连接较两个社团之间的节点间连接要更紧密些;因此在本实施例中,通过有向复杂网络的社团挖掘算法,对上述有向复杂总网络进行社团划分,生成各社团,各社团内的特征词之间的连接更紧密,相当于将上述总的文本中的各特征词划分为多个社团。
有向复杂网络的社团挖掘算法具有多种,例如删边法,可以基于设定指标,删除网络中的有向边,使网络呈现多个互不相连的连通分量作为社团;例如凝聚法,可以将每个节点都看作一个社团,基于设定指标,将每两个临社团进行合并,直到社团数量达到阈值或者设定指标不满足为止;例如谱平分法,将上述有向复杂网络转化为矩阵,因为不为零的特征值对应的特征向量的各元素中,同一社团的节点对应的元素是近似相等的,因此通过计算分析矩阵的特征值和特征向量,可以进行社团划分;此外,还有其它不同的算法,本实施例对此不做限制。
步骤205:分别针对各文本,计算上述文本的有向复杂子网络属于各社团的概率,确定上述文本所属的社团。
本发明实施例中,分别针对上述各文本,计算上述文本的有向复杂子网络属于各社团的概率,确定上述文本所属的社团。例如,上述有向复杂总网络被划分为甲、乙、丙、丁四个社团,对某一文本而言,分别计算该文本对应的有向复杂子网络属于上述四种社团的概率,则该文本属于概率最大的社团。
具体地,计算该文本对应的有向复杂子网络属于某一社团的概率,具有多种不同类型的算法,例如可以先确定该文本与该社团的共有的特征词;进而统计该文本对应的有向复杂子网络中所有网络节点的有向边的个数;再统计该文本对应的有向复杂子网络中,上述共有的特征词对应的有向边的个数;上述共有的特征词对应的有向边的个数与上述所有网络节点的有向边的个数的商,可以作为该文本对应的有向复杂子网络属于该社团的概率。当然,上述的计算方式仅是示例性的,本发明实施例中还可以采用其它的更准确或更有针对性的算法,对此不做限制。
综上,本发明实施例中,通过由文本内特征词之间的先后关系以及先后关系出现的频率,构成有向复杂网络,在社团划分的过程中利用了文本中特征词之间的先后关系(其中包含了文本语义信息),以及文本中特征词之间先后关系的频率(其中包含了文本中特征词的概率分布信息);因此,本发明实施例一方面无需进行聚类信息的标注,因此可以应用到无监督的文本聚类中,降低了处理负担;另一方面,聚类方法中涉及了文本语义信息、文本中特征词的概率分布信息、特征词之间的先后关系、特征词之间先后关系的频率,包含了词与词之间的语义关系,有助于提高文档归类的准确度;再一方面,因为上述文本聚类方法最大的特征词维数为所有文本的特征词的个数,因为相当于将所有文本读入一个总的文本来获取特征词,每一个特征词可能出现的频率较高,实际上特征词的个数是有限的,因此特征词维数低,计算复杂度低;还有,根据本发明实施例构建的文本聚类的社团模型,对于新的待分类文本,只需建立其有向复杂子网络,然后计算其属于各社团的概率,即可得到该文本的分类结果,便于后续处理大量待分类文本。
【实施例二】
参照图4所示,示出了本发明实施例的一种文本聚类方法,具体可以包括:
步骤401:对输入的各文本的内容进行内容过滤。
本发明实施例的一种实施方式中,对输入的各文本的内容进行预处理:统一编码格式为UTF-8(8-bit Unicode Transformation Format,万国码)无BOM(Byte Order Mark,字节顺序标记),过滤其中的火星文、表情、无意义字符、特殊字符等,并将标点为分隔符将文本进行分行。
步骤402:对过滤后的各文本进行分词,获取分词后的各文本的各特征词。
本发明实施例的一种实施方式中,可以按照设定的词库,对上述过滤后的各文本进行分词处理,获得各文本的各特征词。
本发明实施例的另一种实施方式中,还可以对上述分行的文本进行分词,去除其中的标点,并根据设定的停用词表去除文本中的停用词。
步骤403:分别针对各文本,以句为单位分析上述文本的各特征词之间的先后关系。
本发明实施例中,分别针对各文本,以句为单位分析上述文本的各特征词之间的先后关系。本发明实施例的一种实施方式中,在上述步骤401中,可以通过识别上述文本中的标点符号,如问号、感叹号、省略号、句号,甚至是分号、逗号等,将各文本识别为一个个完整的句子或者一个个短句,并通过空格或者其他方式进行标注;在上述步骤403中,可以通过识别上述标注,将上述文本以句为单位进行分析,分析每一句中的相邻的特征词之间的先后关系。
步骤404:分别针对各文本,统计上述文本的各特征词之间的先后关系,建立上述文本的有向复杂子网络;其中,各网络节点为上述文本的各特征词,各网络节点之间的有向边为各特征词在上述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在上述文本中出现的频率。
本发明实施例中,分别针对各文本,统计上述文本的各特征词之间的先后关系以及对应出现的频率,建立上述文本的有向复杂子网络。特别地,针对各文本中的孤立的特征词,可以进行删除,也可以作为孤立的网络节点加入上述文本的有向复杂子网络中。
步骤405:将上述各文本的有向复杂子网络按照所有文本的各特征词进行整合,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率。
本发明实施例的一种实施方式中,可以将上述各文本的有向复杂子网络按照所有文本的各特征词进行整合,例如将相同的网络节点(特征词)整合为一个网络节点,两个网络节点之间的有向关系也通过调节对应的权重进行整合,建立有向复杂总网络。
步骤406:利用有向复杂网络的社团挖掘算法,对上述有向复杂总网络进行社团划分,生成各社团。
本发明实施例的一种实施方式中,采用凝聚法对上述有向复杂总网络进行社团划分,生成各社团,可以包括以下步骤A、B、C、D:
A、初始化,将每个网络节点划分在不同的社团中;
B、针对每个网络节点,将每个网络节点尝试划分到与其连接的网络节点所在的社团中,计算此时的模块度,判断划分前后的模块度Q的差值ΔQ是否为正数,若为正数,则接受本次的划分;若不为正数,则放弃本次的划分;
其中,模块度Q为一种评价划分社团优劣的指标,可以为
其中,m为网络中所有有向边的权重之和;∑in为社团c内部的有向边的权重之和,∑tot为与社团c内部的网络节点连接的有向边的权重,包括社团c内部的有向边以及社团c外部的有向边;
C、重复以上的过程,直到不能再增大模块度Q为止;
D、构造新图,新图中的每个网络节点代表的是步骤C中划出来的每个社团,继续执行步骤B和步骤C,直到社团的结构不再改变为止。
步骤407:分别针对各文本,计算上述文本的有向复杂子网络属于各社团的概率,确定上述文本所属的社团。
优选地,上述计算上述文本的有向复杂子网络属于各社团的概率,确定上述文本所属的社团包括:
分别针对各社团,确定上述文本和上述社团的各共有特征词;
分别针对各社团,计算上述文本的有向复杂子网络中各上述共有特征词的权重;
分别针对各社团,计算上述社团中各上述共有特征词的权重;
分别针对各社团,根据上述文本的有向复杂子网络中各上述共有特征词的权重和上述社团中各上述共有特征词的权重,计算上述文本属于上述社团的概率;
比较上述文本属于各社团的概率,确定上述文本属于上述概率最大时对应的社团。
本发明实施例中,上述共有特征词的权重计算方法可以通过计算上述各共有特征词的介数来实现。上述共有特征词的介数,可以分为边介数和节点介数两种,节点介数定义为网络中所有最短路径中经过该网络节点的路径的数目占最短路径总数的比例;边介数定义为网络中所有最短路径中经过该边的路径的数目占最短路径总数的比例,介数反映了相应的节点或者边在整个网络中的作用和影响力,是一个重要的全局几何量。在计算上述介数的过程中,应该注意网络节点之间有向边的权重是应该考虑进去的。
因此,上述共有的特征词的介数,与上述各共有的特征词的介数之和,的商,可以作为为上述共有的特征词的权重;按照上述方法,可以得到上述文本的有向复杂子网络中各上述共有特征词的权重,以及上述社团中各上述共有特征词的权重。
进一步地,分别针对各社团,根据每一个上述共有特征词,计算上述文本中上述共有特征词的权重和上述社团中对应的共有特征词的权重的商,并求和,求和的结果可以作为上述文本属于上述社团的概率;比较上述文本属于上述各社团的概率,确定上述文本属于上述概率最大时对应的社团。
更进一步地,本发明实施例中,还可以通过比较上述各特征词的介数,确定对全局(各社团、各文本或所有文本)最关键的特征词,即核心词,便于后续文本信息的挖掘、整理。
可以理解的是,上述采用介数的权重来计算各文本属于各社团的概率,仅是本发明实施例的一种实施例方式;还可以采用入度或出度的权重来衡量,对于有向图,节点的入度是指进入该网络节点的有向边的权重之和;节点的出度是指从该网络节点出发的有向边的权重之和。
步骤408:对一待分类文本的内容进行预处理,获取上述待分类文本的各特征词。
上述步骤401-407已经建立了文本聚类模型,即社团划分结果;对于一个新的待分类文本,仅需要按照上述文本聚类模型,进行简单的处理,即可对该待分类文本进行分类,划分到上述某个社团中。
参照上述对输入的各文本的预处理方法,对一待分类文本的内容进行预处理,获取上述待分类文本的各特征词,这里不再赘述。
步骤409:建立上述待分类文本的有向复杂子网络;其中,各网络节点为上述待分类文本的各特征词,各网络节点之间的有向边为各特征词在上述待分类文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在上述待分类文本中出现的频率。
参照针对上述各文本建立有向复杂子网络的方法,对上述待分类文本建立有向复杂子网络,这里不再赘述。
步骤410:计算上述待分类文本的有向复杂子网络属于各社团的概率,确定上述待分类文本所属的社团。
参照上述计算各文本的有向复杂子网络属于各社团的概率方法,对上述待分类文本的有向复杂子网络属于各社团的概率进行计算,并确定上述待分类文本所属的社团,这里不再赘述。
综上,本发明实施例中,通过由文本内特征词之间的先后关系以及先后关系出现的频率,构成有向复杂网络,在社团划分的过程中利用了文本中特征词之间的先后关系(其中包含了文本语义信息),以及文本中特征词之间先后关系的频率(其中包含了文本中特征词的概率分布信息);因此,本发明实施例一方面无需进行聚类信息的标注,因此可以应用到无监督的文本聚类中,降低了处理负担;另一方面,聚类方法中涉及了文本语义信息、文本中特征词的概率分布信息、特征词之间的先后关系、特征词之间先后关系的频率,包含了词与词之间的语义关系,有助于提高文档归类的准确度;再一方面,因为上述文本聚类方法最大的特征词维数为所有文本的特征词的个数,因为相当于将所有文本读入一个总的文本来获取特征词,每一个特征词可能出现的频率较高,实际上特征词的个数是有限的,因此特征词维数低,计算复杂度低;还有,本发明实施例通过构建的文本聚类的社团模型,对新的待分类文本进行分类,通用性强,降低了处理负担。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
【实施例三】
参照图5所示,示出了本发明实施例的一种文本聚类系统,具体可以包括:
预处理模块501,用于对输入的各文本的内容进行预处理,获取各文本的各特征词。
优选地,上述预处理模块501具体可以包括:
过滤子模块,用于对输入的各文本的内容进行内容过滤;
分词子模块,用于对过滤后的各文本进行分词,获取分词后的各文本的各特征词。
子网络建立模块502,用于分别针对各文本,建立上述文本的有向复杂子网络;其中,各网络节点为上述文本的各特征词,各网络节点之间的有向边为各特征词在上述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在上述文本中出现的频率。
优选地,上述子网络建立模块502具体可以包括:
文本分析子模块,用于分别针对各文本,以句为单位分析上述文本的各特征词之间的先后关系;
先后关系子网络建立子模块,用于分别针对各文本,统计上述文本的各特征词之间的先后关系,建立上述文本的有向复杂子网络;其中,各网络节点为上述文本的各特征词,各网络节点之间的有向边为各特征词在上述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在上述文本中出现的频率。
总网络建立模块503,用于针对所有文本,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率。
优选地,上述总网络建立模块503具体可以包括:
先后关系总网络建立子模块,用于将上述各文本的有向复杂子网络按照所有文本的各特征词进行整合,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率。
社团划分模块504,用于利用有向复杂网络的社团挖掘算法,对上述有向复杂总网络进行社团划分,生成各社团。
社团确定模块505,用于分别针对各文本,计算上述文本的有向复杂子网络属于各社团的概率,确定上述文本所属的社团。
优选地,上述计算上述文本的有向复杂子网络属于各社团的概率,确定上述文本所属的社团包括:
分别针对各社团,确定上述文本和上述社团的各共有特征词;
分别针对各社团,计算上述文本的有向复杂子网络中各上述共有特征词的权重;
分别针对各社团,计算上述社团中各上述共有特征词的权重;
分别针对各社团,根据上述文本的有向复杂子网络中各上述共有特征词的权重和上述社团中各上述共有特征词的权重,计算上述文本属于上述社团的概率;
比较上述文本属于各社团的概率,确定上述文本属于上述概率最大时对应的社团。
上述系统具体还可以包括:
待分类文本预处理模块,用于对一待分类文本的内容进行预处理,获取上述待分类文本的各特征词;
待分类文本子网络建立模块,用于建立上述待分类文本的有向复杂子网络;其中,各网络节点为上述待分类文本的各特征词,各网络节点之间的有向边为各特征词在上述待分类文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在上述待分类文本中出现的频率;
待分类文本社团确定模块,用于计算上述待分类文本的有向复杂子网络属于各社团的概率,确定上述待分类文本所属的社团。
综上,本发明实施例中,通过由文本内特征词之间的先后关系以及先后关系出现的频率,构成有向复杂网络,在社团划分的过程中利用了文本中特征词之间的先后关系(其中包含了文本语义信息),以及文本中特征词之间先后关系的频率(其中包含了文本中特征词的概率分布信息);因此,本发明实施例一方面无需进行聚类信息的标注,因此可以应用到无监督的文本聚类中,降低了处理负担;另一方面,聚类方法中涉及了文本语义信息、文本中特征词的概率分布信息、特征词之间的先后关系、特征词之间先后关系的频率,包含了词与词之间的语义关系,有助于提高文档归类的准确度;再一方面,因为上述文本聚类方法最大的特征词维数为所有文本的特征词的个数,因为相当于将所有文本读入一个总的文本来获取特征词,每一个特征词可能出现的频率较高,实际上特征词的个数是有限的,因此特征词维数低,计算复杂度低;还有,本发明实施例通过构建的文本聚类的社团模型,对新的待分类文本进行分类,通用性强,降低了处理负担。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上上述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本聚类方法,其特征在于,所述方法包括:
对输入的各文本的内容进行预处理,获取各文本的各特征词;
分别针对各文本,建立所述文本的有向复杂子网络;其中,各网络节点为所述文本的各特征词,各网络节点之间的有向边为各特征词在所述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述文本中出现的频率;
针对所有文本,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率;
利用有向复杂网络的社团挖掘算法,对所述有向复杂总网络进行社团划分,生成各社团;
分别针对各文本,计算所述文本的有向复杂子网络属于各社团的概率,确定所述文本所属的社团。
2.根据权利要求1所述的方法,其特征在于,所述分别针对各文本,建立所述文本的有向复杂子网络的步骤包括:
分别针对各文本,以句为单位分析所述文本的各特征词之间的先后关系;
分别针对各文本,统计所述文本的各特征词之间的先后关系,建立所述文本的有向复杂子网络;其中,各网络节点为所述文本的各特征词,各网络节点之间的有向边为各特征词在所述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述文本中出现的频率。
3.根据权利要求1所述的方法,其特征在于,所述针对所有文本,建立有向复杂总网络的步骤包括:
将所述各文本的有向复杂子网络按照所有文本的各特征词进行整合,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率。
4.根据权利要求1所述的方法,其特征在于,所述计算所述文本的有向复杂子网络属于各社团的概率,确定所述文本所属的社团包括:
分别针对各社团,确定所述文本和所述社团的各共有特征词;
分别针对各社团,计算所述文本的有向复杂子网络中各所述共有特征词的权重;
分别针对各社团,计算所述社团中各所述共有特征词的权重;
分别针对各社团,根据所述文本的有向复杂子网络中各所述共有特征词的权重和所述社团中各所述共有特征词的权重,计算所述文本属于所述社团的概率;
比较所述文本属于各社团的概率,确定所述文本属于所述概率最大时对应的社团。
5.根据权利要求1所述的方法,其特征在于,所述对输入的各文本的内容进行预处理,获取各文本的各特征词的步骤包括:
对输入的各文本的内容进行内容过滤;
对过滤后的各文本进行分词,获取分词后的各文本的各特征词。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对一待分类文本的内容进行预处理,获取所述待分类文本的各特征词;
建立所述待分类文本的有向复杂子网络;其中,各网络节点为所述待分类文本的各特征词,各网络节点之间的有向边为各特征词在所述待分类文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述待分类文本中出现的频率;
计算所述待分类文本的有向复杂子网络属于各社团的概率,确定所述待分类文本所属的社团。
7.一种文本聚类系统,其特征在于,所述系统包括:
预处理模块,用于对输入的各文本的内容进行预处理,获取各文本的各特征词;
子网络建立模块,用于分别针对各文本,建立所述文本的有向复杂子网络;其中,各网络节点为所述文本的各特征词,各网络节点之间的有向边为各特征词在所述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述文本中出现的频率;
总网络建立模块,用于针对所有文本,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率;
社团划分模块,用于利用有向复杂网络的社团挖掘算法,对所述有向复杂总网络进行社团划分,生成各社团;
社团确定模块,用于分别针对各文本,计算所述文本的有向复杂子网络属于各社团的概率,确定所述文本所属的社团。
8.根据权利要求7所述的系统,其特征在于,所述子网络建立模块包括:
文本分析子模块,用于分别针对各文本,以句为单位分析所述文本的各特征词之间的先后关系;
先后关系子网络建立子模块,用于分别针对各文本,统计所述文本的各特征词之间的先后关系,建立所述文本的有向复杂子网络;其中,各网络节点为所述文本的各特征词,各网络节点之间的有向边为各特征词在所述文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述文本中出现的频率。
9.根据权利要求7所述的系统,其特征在于,所述总网络建立模块包括:
先后关系总网络建立子模块,用于将所述各文本的有向复杂子网络按照所有文本的各特征词进行整合,建立有向复杂总网络;其中,各网络节点为所有文本的各特征词,各网络节点之间的有向边为各特征词在所有文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所有文本中出现的频率。
10.根据权利要求7所述的系统,其特征在于,所述系统还包括:
待分类文本预处理模块,用于对一待分类文本的内容进行预处理,获取所述待分类文本的各特征词;
待分类文本子网络建立模块,用于建立所述待分类文本的有向复杂子网络;其中,各网络节点为所述待分类文本的各特征词,各网络节点之间的有向边为各特征词在所述待分类文本中的先后关系,各网络节点之间的有向边的权重为各特征词之间的先后关系在所述待分类文本中出现的频率;
待分类文本社团确定模块,用于计算所述待分类文本的有向复杂子网络属于各社团的概率,确定所述待分类文本所属的社团。
CN201710225314.5A 2017-04-07 2017-04-07 一种文本聚类方法及系统 Active CN107145516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710225314.5A CN107145516B (zh) 2017-04-07 2017-04-07 一种文本聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710225314.5A CN107145516B (zh) 2017-04-07 2017-04-07 一种文本聚类方法及系统

Publications (2)

Publication Number Publication Date
CN107145516A true CN107145516A (zh) 2017-09-08
CN107145516B CN107145516B (zh) 2021-03-19

Family

ID=59773534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710225314.5A Active CN107145516B (zh) 2017-04-07 2017-04-07 一种文本聚类方法及系统

Country Status (1)

Country Link
CN (1) CN107145516B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608962A (zh) * 2017-09-12 2018-01-19 电子科技大学 基于复杂网络的推特大选数据分析方法
CN109522460A (zh) * 2018-08-30 2019-03-26 中国电子进出口有限公司 一种基于社交网络社团划分的舆情监测方法及系统
CN109712011A (zh) * 2017-10-25 2019-05-03 北京京东尚科信息技术有限公司 社区发现方法和装置
CN109815401A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 一种应用于Web人物搜索的人名消歧方法
CN110298026A (zh) * 2018-03-22 2019-10-01 北京京东尚科信息技术有限公司 场景描述词的筛选方法和装置
CN111222136A (zh) * 2018-11-23 2020-06-02 中兴通讯股份有限公司 恶意应用归类方法、装置、设备及计算机可读存储介质
CN112101393A (zh) * 2019-06-18 2020-12-18 上海电机学院 一种风电场风机聚类方法及装置
TWI778442B (zh) * 2020-11-03 2022-09-21 財團法人資訊工業策進會 偵測文章目的之裝置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102411611A (zh) * 2011-10-15 2012-04-11 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102411611A (zh) * 2011-10-15 2012-04-11 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608962A (zh) * 2017-09-12 2018-01-19 电子科技大学 基于复杂网络的推特大选数据分析方法
CN109712011A (zh) * 2017-10-25 2019-05-03 北京京东尚科信息技术有限公司 社区发现方法和装置
CN109712011B (zh) * 2017-10-25 2022-01-07 北京京东尚科信息技术有限公司 社区发现方法和装置
CN110298026A (zh) * 2018-03-22 2019-10-01 北京京东尚科信息技术有限公司 场景描述词的筛选方法和装置
CN110298026B (zh) * 2018-03-22 2024-04-16 北京京东尚科信息技术有限公司 场景描述词的筛选方法和装置
CN109522460A (zh) * 2018-08-30 2019-03-26 中国电子进出口有限公司 一种基于社交网络社团划分的舆情监测方法及系统
CN111222136A (zh) * 2018-11-23 2020-06-02 中兴通讯股份有限公司 恶意应用归类方法、装置、设备及计算机可读存储介质
CN109815401A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 一种应用于Web人物搜索的人名消歧方法
CN112101393A (zh) * 2019-06-18 2020-12-18 上海电机学院 一种风电场风机聚类方法及装置
TWI778442B (zh) * 2020-11-03 2022-09-21 財團法人資訊工業策進會 偵測文章目的之裝置及方法

Also Published As

Publication number Publication date
CN107145516B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN107145516A (zh) 一种文本聚类方法及系统
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN110046634B (zh) 聚类结果的解释方法和装置
CN107515877A (zh) 敏感主题词集的生成方法和装置
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN103927302A (zh) 一种文本分类方法和系统
CN110287328A (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN106156163B (zh) 文本分类方法以及装置
CN112507699A (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN110569920A (zh) 一种多任务机器学习的预测方法
CN113011889A (zh) 账号异常识别方法、系统、装置、设备及介质
CN111310068A (zh) 基于动态图的社交网络节点分类方法
CN111368529B (zh) 基于边缘计算的移动终端敏感词识别方法、装置及系统
CN110427404A (zh) 一种区块链跨链数据检索系统
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN115965058A (zh) 神经网络训练方法、实体信息分类方法、装置及存储介质
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN108090040A (zh) 一种文本信息分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant