CN106294568A - 一种基于bp网络的中文文本分类规则生成方法及系统 - Google Patents
一种基于bp网络的中文文本分类规则生成方法及系统 Download PDFInfo
- Publication number
- CN106294568A CN106294568A CN201610602599.5A CN201610602599A CN106294568A CN 106294568 A CN106294568 A CN 106294568A CN 201610602599 A CN201610602599 A CN 201610602599A CN 106294568 A CN106294568 A CN 106294568A
- Authority
- CN
- China
- Prior art keywords
- document
- chinese
- network
- user
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于BP网络的中文文本分类规则生成方法及系统,该方法包括:对用户输入的中文文档进行处理,选取选定关键词;将每一个选定关键词的加权词频作为一个维度,构成对所述中文文档进行描述的向量空间,每篇中文文档都转换为所述向量空间中的一个向量,用这个向量来描述所述中文文档;利用SVD方法对所述向量构成的矩阵进行分解,实现对所述中文文档的聚类;在所述向量空间中,对用户输入的所有中文文档进行筛选,利用所述训练文档集对所述BP网络的连接权重进行训练,将训练好的BP网络连接权重矩阵作为分类规则输出。通过本方法可以提高基于BP网络的中文文档分类器的分类计算精度和运行稳定性,并降低了进行分类规则设计的难度和成本。
Description
技术领域
本发明涉及文本处理技术领域,具体涉及一种基于BP网络的中文文本分类规则生成方法及系统。
背景技术
文档分类,也称作文本分类或文本识别,是依据预先给定的类别标记集合,给待分类文档自动或手动分配一个或多个类别标记。文档分类是对非结构化文本信息的内容进行组织和管理的基础技术,随着互联网技术的发展,各类电子文本数据的数量出现了爆炸式的增长,采用手工进行文档分类已经无法适应文档管理的要求,采用统计学习方法的人工智能文档分类方法成为了自动文档分类的主要方式。文档分类能够帮助企业进行文档整理和分级管理,也可以帮助人们对文档进行信息检索、定位和分流。
实现文档分类需要设计一个能够自动进行信息处理的分类器。分类器的设计首先是信息处理流程的设计,即对待分类文档进行格式转化、从字符串中提取待分类文档的特征、能够依照分类规则对待分类文档进行类别标记;其次是分类规则的设计,依靠统计学习的方法获取输入的已分类的训练文档集的分类规律,并将其作为通用的分类规则,是目前分类器设计普遍采用的方法。信息处理流程设计主要影响分类器的运行速度,而分类规则的设计则决定了分类器对文档标记的正确性。
分类规则是分类器设计的核心问题,可是目前的文档分类器设计过程中采用的预先分类好的训练文档往往无法覆盖用户所需的全部文档类别,也难以适应社会环境、语言习惯变化而引起的用户文档中关键字和文档书写风格的变化。因此在自动文档分类中亟需一种自动生成文本分类规则的方法。
本发明提出并实现的一种基于BP网络的中文文档分类规则生成方法,该方法通过对用户输入文档集的预处理、聚类、手动类别调整和标签标记、关键词提取、训练样本选择、BP网络训练这一系列信息处理过程,可以自动输出文档分类规则文件。实现了训练文档集的交互式类别调整和筛选、基于关键词的文档特征提取、分类规则的自动生成。
现有技术中存在一种专利技术,用输入部、抽取部、存储部、对照部、学习部的组合实现了对训练文档集的抽出部分中的分类规则的生成。其具备:输入部,输入文档而作为样本对象文档;储存部,存储从所述样本对象文档针对每个分类类型抽出形成所述样本对象文档的部分、并且用于将分类对象的分类对象文档分类为多个所述分类类型中的某一个的分类规则的制作中使用的部分文本的抽出条件,其中,针对所述多个分类类型的每一个设定了所述抽出条件;对照部,对照所述储存部中储存的所述抽出条件、和输入到所述输入部的所述样本对象文档;抽出部,根据由所述对照部得到的对照结果,尝试从所述样本对象文档针对每个所述分类类型抽出所述部分文本的部分文本抽出;以及学习部,在通过所述抽出部的所述部分文本抽出了与所述分类类型对应的所述部分文本的情况下,进行使用了所抽出的所述部分文本的规定的机械学习,从而生成所述分类规则。
上述专利存在以下缺点:
(1)上述专利所用方法并不完全适用于中文文档的分类规则生成。中文文档的分类和英文和其他拼音文字分类存在的一个显著差异就是需要对文档进行中文分词。由于中文不是拼音文字,词汇之间不存在空格,所以需要将每一个单独的词从汉字序列中分离出来。而上述专利中并未对输入文档进行格式转换、分词等文档预处理操作。
(2)上述专利中的分类方法对每一个分类类型设置抽出条件,并尝试从样本对象文档中对每一个分类类型进行文本抽出。在分类类型较多时,需要设置多个抽出条件,并进行多次抽出。这样不仅多个抽出条件之间会产生逻辑交叠和冲突,而且抽取运算量很大。
(3)上述专利中并未明确“机器学习”采用了何种方法,目前文档分类的机器学习方法在进行多类别分类时普遍存在的需要预先指定类别数量、分类质量受训练样本分布影响严重、无法同时提取多类文档分类特征的缺陷。(应用最广泛的SVM分类器只能实现二分类,其实现多分类是通过多次进行二分类完成的。而KNN分类器必须首先指定类别数量,即K的值,且分类质量受训练样本分布影响严重。)
(4)现有中文文档分类方法不同时支持训练样本和关键词交互式选择,难以通过用户的干预提高分类规则的质量。
发明内容
为解决上述技术问题,本发明提供了一种基于BP网络的中文文本分类规则生成方法,该方法包括以下步骤:
(1)对用户输入的中文文档进行处理,得到第一字符串;
(2)从所述第一字符串选取关键词;
(3)将每一个关键词的加权词频作为一个维度,构成对所述中文文档进行描述的向量空间,从而每篇中文文档都转换为所述向量空间中的一个向量,用这个向量来描述所述中文文档;
(4)利用SVD方法对所述向量构成的矩阵进行分解,实现对所述中文文档的聚类;
(5)在所述向量空间中,对用户输入的所有中文文档进行筛选,形成所述BP网络的训练文档集;
(6)利用所述训练文档集对所述BP网络的连接权重进行训练,将训练好的BP网络连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
进一步,根据权利要求1所述的方法,所述步骤(1)对用户输入的中文文档进行处理具体包括:将用户输入的中文文档统一转换为标准的中文文档,将所述标准的中文文档进行分词形成第二字符串,删除所述第二字符串中的停止词,形成所述第一字符串。
进一步,所述步骤(2)从所述第一字符串选取关键词具体包括:选取具有实际语义词性的词汇作为备选关键词,然后采用改进的TF-IDF算法计算用户输入的中文文档集中的备选关键词的权重,对所述关键词的权重进行降序排序,将排序靠前的若干个备选关键词自动选择为关键词,或利用交互界面提供用户手动选择来选定关键词。
进一步,所述步骤(4)具体包括:利用SVD方法对所述向量构成的矩阵进行分解,实现对输入中文文档的聚类,依据奇异值的个数形成分解后的对角矩阵,所述奇异值个数即为聚类得到的类别数目,所述类别数目可以由用户通过交互式界面进行手动调节,通过文档聚类,为用户输入的所有中文文档提供了类别标记。
进一步,所述步骤(5)具体包括:在所述向量空间中,对用户输入的所有中文文档进行距离计算,根据设定的阈值判断属于同一类别的中文文档是否具有邻近关系,对于多篇存在邻近关系的同类别的中文文档,仅保留所述中文文档中最邻近所述向量空间中心位置的一篇中文文档作为训练文档,所述训练文档对应的文档向量及对应的类别标记形成了BP网络的训练文档集。
进一步,所述步骤(6)具体包括:选取多层网络结构,构建BP网络,利用所述训练文档集对所述BP网络的连接权重矩阵进行训练,在此训练过程中,设定BP网络中偏置量权重为常数,经过迭代学习的连接权重矩阵训练后,若所述BP网络输出的分类结果与实际类别标记的误差小于预先设定的阈值,则将训练好的所述BP网络的连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
为解决上述技术问题,本发明提供了一种基于BP网络的中文文本分类规则生成系统,该系统包括:
文档处理模块:对用户输入的中文文档进行处理,得到第一字符串;
关键词提取模块:从所述第一字符串选取关键词;
向量空间转换模块:将每一个关键词的加权词频作为一个维度,构成对所述中文文档进行描述的向量空间,从而每篇中文文档都转换为所述向量空间中的一个向量,用这个向量来描述所述中文文档;
文档聚类模块:利用SVD方法对所述向量构成的矩阵进行分解,实现对所述中文文档的聚类;
邻近文档筛选模块:在所述向量空间中,对用户输入的所有中文文档进行筛选,形成所述BP网络的训练文档集;
BP网络训练模块:利用所述训练文档集对所述BP网络的连接权重进行训练,将训练好的BP网络连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
进一步,根据权利要求7所述的系统,所述文档处理模块包括:文档转换模块,将用户输入的中文文档统一转换为标准的中文文档;停止词删除模块,将所述标准的中文文档进行分词形成第二字符串,删除所述第二字符串中的停止词,形成所述第一字符串。
进一步,所述关键词提取模块还包括:选取具有实际语义词性的词汇作为备选关键词,然后采用改进的TF-IDF算法计算用户输入的中文文档集中的备选关键词的权重,对所述关键词的权重进行降序排序,将排序靠前的若干个备选关键词自动选择为关键词,或利用交互界面提供用户手动选择来选定关键词。
进一步,所述文档聚类模块还包括:利用SVD方法对所述向量构成的矩阵进行分解,实现对输入中文文档的聚类,依据奇异值的个数形成分解后的对角矩阵,所述奇异值个数即为聚类得到的类别数目,所述类别数目可以由用户通过交互式界面进行手动调节,通过文档聚类,为用户输入的所有中文文档提供了类别标记。
进一步,所述邻近文档筛选模块还包括:在所述向量空间中,对用户输入的所有中文文档进行距离计算,根据设定的阈值判断属于同一类别的中文文档是否具有邻近关系,对于多篇存在邻近关系的同类别的中文文档,仅保留所述中文文档中最邻近所述向量空间中心位置的一篇中文文档作为训练文档,所述训练文档对应的文档向量及对应的类别标记形成了BP网络的训练文档集。
进一步,所述BP网络训练模块还包括:选取多层网络结构,构建BP网络,利用所述训练文档集对所述BP网络的连接权重矩阵进行训练,在此训练过程中,设定BP网络中偏置量权重为常数,经过迭代学习的连接权重矩阵训练后,若所述BP网络输出的分类结果与实际类别标记的误差小于预先设定的阈值,则将训练好的所述BP网络的连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
本发明的技术方案取得了以下技术效果:
1.通过多种信息处理模块的特定组合,实现了从用户输入的文档集合中提取文档分类规则的功能,提高了用户进行文档分类器设计和调整的效率,增强了基于BP网络的分类器在不同场合应用的适应性。
2.通过本方法提出的完整技术解决方案,可以提高基于BP网络的中文文档分类器的分类计算精度和运行稳定性,并降低了进行分类规则设计的难度和成本。
附图说明
图1是中文文档分类规则生成信息处理流程图
具体实施方式
名词解释:
神经网络:在计算机人工智能领域中特指人工神经网络(Artificial NeuralNetwork,ANN),是一种模仿生物神经网络的行为和结构特征,进行分布式并行信息处理的算法数学模型。
BP网络:Back Propagation神经网络,亦称作反向传播神经网络。是1986年由David Rumelhart和James McCelland提出的一种按照误差反向传播算法进行参数调整训练的多层前馈网络,是目前应用最广泛的神经网络模型,可以用于进行预测和分类。
SVM:Support Vector Machine,支持向量机,亦写作支撑向量机。是俄罗斯数学家Vladimir Vapnik在20世纪90年代提出的一种基于统计学习理论的分类算法。该算法在解决小样本非线性二分类问题时具有结构风险最小化的特性,可以在很大程度上避免维数增高带来的分类困难。
KNN:K-Nearest Neighbor,邻近算法,亦称作K最邻近算法。是依据距离最邻近的K个样本点的类别来决定一个未知样本点类别的分类算法。具有理论简单、计算易于实现的特点,但不适于解决多类样本交叠、各类样本规模不均衡的分类问题。
中文分词:是指将中文文档里的汉字序列切分为一个个单独的词。
停止词:stopword,是指在自然语言环境中出现频率很高,但对于与文档的语义和分类没有实际影响的词汇。例如英文中的“the”、“and”、“of”等,中文中的“这”、“的”、“了”、“至于”等。
词频:(Term Frequency,TF)在文档分类中指某一词语在给定的文件中出现的次数。
IDF:Inverse Document Frequency,逆文档频率。是衡量一个词语在指定文档集中的普遍重要性的统计指标,定义为一个文档集中所有文档数目除以包含指定关键词的文档数目的商再取以10为底的对数。
TF-IDF:Term Frequency-Inverse Document Frequency,词频-逆文档频率。是一种用于评价一个关键词在进行文档分类时重要程度的统计方法。其基本思想是一个关键词如果在一篇文档中的词频很高,而在其他文档中很少出现,则该关键词对于文档分类更重要。因此TF-IDF的值定义为词频(TF)与逆文档频率(IDF)两者的乘积。
词频向量:用多个关键词的词频来描述一篇文档,将其中每个关键词的词频视为该文档的一维属性,则可以用该文档在所有关键词的词频构成的高维空间中的词频向量作为该文档的描述。
SVD:Singular Value Decomposition,奇异值分解。是线性代数中的一种基本的矩阵分解,即将一个m×n阶矩阵转换成三个矩阵的乘积,其中包括一个m×m阶的酉矩阵(Unitary Matrix)、一个m×n阶的半正定对角矩阵、一个n×n阶的酉矩阵,其中半正定对角矩阵中的对角元素是原矩阵的奇异值。
为了解决上述技术问题,本发明中提出了基于BP网络的中文文档分类规则生成方法,针对用户存在大量、多类中文电子文档进行分类的需求,解决了文档分类器设计过程中分类规则生成的问题。本方法从分类规则生成的训练集来源、表现形式和提取方法三个方面的技术问题着手,采用多种信息处理步骤的组合形成了全新的中文文档分类规则生成解决方案。
首先,通过多来源文档的转换、分词、聚类和交互调节四个步骤的信息处理,将用户输入的多路径、多格式的无类别标记文档转换为统一格式,并进行筛选后存入与类别标记对应的多个子文件夹,这些子文件夹中的文档集合共同构成了分类训练集。
其次,以多个关键词词频构成的向量空间中的词频向量作为一篇文档的特征描述,以BP网络对加权词频向量进行运算的矩阵作为分类规则的表现形式。这样不仅节省了分类规则的存储空间,而且提高了分类器的运行效率,此外还可以通过对于关键词的权重调节和BP网络运算矩阵的参数调整可以方便地分类器的正确率。
再次,基于加权词频向量空间中的距离对相邻的训练文档进行归并,然后利用BP网络的训练算法进行统计学习,从训练文档中自动提取分类规则,作为可以泛化应用的BP网络分类器的分类规则。
本发明提出的中文文档分类规则生成方法的信息处理过程如图1所示,其中包括了文档格式转换、中文分词、去除停止词、关键词提取、向量空间转换、文档聚类、邻近文档筛选、BP网络训练共8个顺次进行的处理模块,通过这一系列的信息处理,生成了文档分类器所需的分类规则。下面对这8个信息处理模块逐一进行介绍:
(1)文档格式转换
将用户输入的不同类型的中文文档(如doc、docx、pdf、rtf等格式)统一转换为txt文本文档格式,便于后续模块进行统一处理。
(2)中文分词
对txt文本文档进行分词,将每一个单独的汉语词汇从连续的汉字序列中分离出来,并用空格或换行符作为词汇之间的间隔,然后将分词后的文档以字符串的形式传递给后续模块(3)。
(3)去除停止词
将分词后的字符串中的停止词删除。判断字符串中的一个词汇是否是停止词是基于该词汇与停止词列表中词汇的匹配结果。而停止词列表本身也是以txt文档的形式存储,便于进行手工调整。
(4)关键词提取
首先进行词性筛选,选取具有实际语义词性(即实词,如名词、动词、形容词、数词、量词、代词)的词汇作为备选关键词,而将无实际语义词性(即虚词如副词、介词、连词、助词、拟声词等)的词汇不作为备选关键词。然后采用了改进的TF-IDF算法计算用户输入文档集中的备选关键词的权重,依照降序对关键词进行排序,将排序靠前的若干个备选关键词自动选择为关键词,或利用交互界面提供给用户进行手动选择。
(5)向量空间转换
将每一个选定关键词的加权词频作为一个维度,可以构成对文档进行描述的向量空间。这样每一篇文档的特征都可以转换为向量空间中的一个向量,可以用这个向量来描述文档,从而便于进行数值计算和节省存储空间。
(6)文档聚类
利用SVD方法对用户输入的所有文档向量构成的矩阵进行分解,实现对输入文档的聚类。由于SVD是依据奇异值的个数形成分解后的对角矩阵,奇异值个数即为聚类得到的类别数目。因此这种聚类无需事先指定类别数目,克服了应用KNN和SVD需要事先确定类别数目的缺陷。此外还可以根据用户的经验和需求,通过交互式界面对聚类结果进行手动调节。通过文档聚类,为用户输入的所有文档提供了类别标记。
(7)邻近文档筛选
在关键词的词频向量空间中,对用户输入的所有文档进行距离计算,根据设定的阈值判断属于同一类别的文档是否具有邻近关系。对于多篇存在邻近关系的同类别的文档,仅保留位于所述向量空间中心位置的一篇文档作为训练文档。用户输入的所有文档通过这样的筛选后,剩余的文档向量及对应的类别标记就形成了BP网络的训练文档集。
(8)BP网络训练
选取多层网络结构,构建BP网络,利用训练文档集对网络的连接权重进行训练。在此训练过程中,设定BP网络中偏置量权重为常数,经过迭代学习的连接权重训练后,若网络输出的分类结果与实际类别标记的误差小于预先设定的阈值,则可以认为BP网络通过训练已经学习到了训练文档集中的分类规则。最后将训练好BP网络的连接权重矩阵作为分类规则输出,可供分类器在对新输入的未知文档进行分类时使用。
用户计算机或数据库中存在大量中文文档,其中包含多个业务门类的文档,但并未进行有效的分类,现用户需要对这些文档进行分类整理。应用本发明提出的方法可以提取出文档分类的规则,其具体实施过程描述如下:
首先,用户选取若干篇(例如100篇)包含各业务门类的文档作为输入,经过文档格式转换、中文分词、去除停止词之后,用户输入文档已经转换为统一格式的分词后文档。
其次,在关键词提取模块计算出各备选关键词的权重之后,通过交互式环境,用户可以结合自身业务知识和备选关键词的权重值进行选择,从而生成备选关键词的集合。
然后,通过向量空间转换和文档聚类模块的处理之后,用户输入的文档被划分到不同的类别之中(即被赋予了不同的类别标记),用户此时可以通过手动调节更改文档的类别标记(例如把一篇文档由“类别1”更改为“类别2”),也可以将一篇文档选择为训练文档或将其从训练文档集中剔除。
最后,经过邻近文档筛选和BP网络训练,获得的分类规则以指定的文件格式输出。用户即可以将此分类规则应用于由BP网络构成的分类器,从而完成对所有待分类文档的分类工作。进而还可以依据分类结果对文档进行权限管理、加密、销毁、转存等操作。
目前实现中文文本分类有多种技术方案,但是发明的解决方案的核心在于中文文本分类规则的提取方法,而不是分类器的设计方法。利用其他机器学习方法的分类器进行中文文本分类时,会有其相应的方式进行规则提取,但其信息处理的过程和步骤会与本发明不同。
本方法提取的分类规则以BP网络的连接权重矩阵的形式来表示,而对于基于其他机器学习方法的分类器,分类规则的表现形式和提取过程会与本发明有所差异。
通过本发明提供的实施方式,通过多种信息处理模块的特定组合,实现了从用户输入的文档集合中提取文档分类规则的功能,提高了用户进行文档分类器设计和调整的效率,增强了基于BP网络的分类器在不同场合应用的适应性,可以提高基于BP网络的中文文档分类器的分类计算精度和运行稳定性,并降低了进行分类规则设计的难度和成本。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应保护在本发明的保护范围之内。
Claims (12)
1.一种基于BP网络的中文文本分类规则生成方法,该方法包括以下步骤:
(1)对用户输入的中文文档进行处理,得到第一字符串;
(2)从所述第一字符串选取关键词;
(3)将每一个关键词的加权词频作为一个维度,构成对所述中文文档进行描述的向量空间,从而每篇中文文档都转换为所述向量空间中的一个向量,用这个向量来描述所述中文文档;
(4)利用SVD方法对所述向量构成的矩阵进行分解,实现对所述中文文档的聚类;
(5)在所述向量空间中,对用户输入的所有中文文档进行筛选,形成所述BP网络的训练文档集;
(6)利用所述训练文档集对所述BP网络的连接权重进行训练,将训练好的BP网络连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
2.根据权利要求1所述的方法,所述步骤(1)对用户输入的中文文档进行处理具体包括:将用户输入的中文文档统一转换为标准的中文文档,将所述标准的中文文档进行分词形成第二字符串,删除所述第二字符串中的停止词,形成所述第一字符串。
3.根据权利要求1所述的方法,所述步骤(2)从所述第一字符串选取关键词具体包括:选取具有实际语义词性的词汇作为备选关键词,然后采用改进的TF-IDF算法计算用户输入的中文文档集中的备选关键词的权重,对所述关键词的权重进行降序排序,将排序靠前的若干个备选关键词自动选择为关键词,或利用交互界面提供用户手动选择来选定关键词。
4.根据权利要求1所述的方法,所述步骤(4)具体包括:利用SVD方法对所述向量构成的矩阵进行分解,实现对输入中文文档的聚类,依据奇异值的个数形成分解后的对角矩阵,所述奇异值个数即为聚类得到的类别数目,所述类别数目可以由用户通过交互式界面进行手动调节,通过文档聚类,为用户输入的所有中文文档提供了类别标记。
5.根据权利要求1所述的方法,所述步骤(5)具体包括:在所述向量空间中,对用户输入的所有中文文档进行距离计算,根据设定的阈值判断属于同一类别的中文文档是否具有邻近关系,对于多篇存在邻近关系的同类别的中文文档,仅保留所述中文文档中最邻近所述向量空间中心位置的一篇中文文档作为训练文档,所述训练文档对应的文档向量及对应的类别标记形成了所述BP网络的训练文档集。
6.根据权利要求1所述的方法,所述步骤(6)具体包括:选取多层网络结构,构建所述BP网络,利用所述训练文档集对所述BP网络的连接权重矩阵进行训练,在此训练过程中,设定所述BP网络中偏置量权重为常数,经过迭代学习的连接权重矩阵训练后,若所述BP网络输出的分类结果与实际类别标记的误差小于预先设定的阈值,则将训练好的所述BP网络的连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
7.一种基于BP网络的中文文本分类规则生成系统,该系统包括:
文档处理模块:对用户输入的中文文档进行处理,得到第一字符串;
关键词提取模块:从所述第一字符串选取关键词;
向量空间转换模块:将每一个关键词的加权词频作为一个维度,构成对所述中文文档进行描述的向量空间,从而每篇中文文档都转换为所述向量空间中的一个向量,用这个向量来描述所述中文文档;
文档聚类模块:利用SVD方法对所述向量构成的矩阵进行分解,实现对所述中文文档的聚类;
邻近文档筛选模块:在所述向量空间中,对用户输入的所有中文文档进行筛选,形成所述BP网络的训练文档集;
BP网络训练模块:利用所述训练文档集对所述BP网络的连接权重进行训练,将训练好的BP网络连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
8.根据权利要求7所述的系统,所述文档处理模块包括:文档转换模块,将用户输入的中文文档统一转换为标准的中文文档;停止词删除模块,将所述标准的中文文档进行分词形成第二字符串,删除所述第二字符串中的停止词,形成所述第一字符串。
9.根据权利要求7所述的系统,所述关键词提取模块还包括:选取具有实际语义词性的词汇作为备选关键词,然后采用改进的TF-IDF算法计算用户输入的中文文档集中的备选关键词的权重,对所述关键词的权重进行降序排序,将排序靠前的若干个备选关键词自动选择为关键词,或利用交互界面提供用户手动选择来选定关键词。
10.根据权利要求7所述的系统,所述文档聚类模块还包括:利用SVD方法对所述向量构成的矩阵进行分解,实现对输入中文文档的聚类,依据奇异值的个数形成分解后的对角矩阵,所述奇异值个数即为聚类得到的类别数目,所述类别数目可以由用户通过交互式界面进行手动调节,通过文档聚类,为用户输入的所有中文文档提供了类别标记。
11.根据权利要求7所述的系统,所述邻近文档筛选模块还包括:在所述向量空间中,对用户输入的所有中文文档进行距离计算,根据设定的阈值判断属于同一类别的中文文档是否具有邻近关系,对于多篇存在邻近关系的同类别的中文文档,仅保留所述中文文档中最邻近所述向量空间中心位置的一篇中文文档作为训练文档,所述训练文档对应的文档向量及对应的类别标记形成了所述BP网络的训练文档集。
12.根据权利要求7所述的系统,所述BP网络训练模块还包括:选取多层网络结构,构建所述BP网络,利用所述训练文档集对所述BP网络的连接权重矩阵进行训练,在此训练过程中,设定所述BP网络中偏置量权重为常数,经过迭代学习的连接权重矩阵训练后,若所述BP网络输出的分类结果与实际类别标记的误差小于预先设定的阈值,则将训练好的所述BP网络的连接权重矩阵作为分类规则输出,用于分类器对新输入的未知中文文档进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610602599.5A CN106294568A (zh) | 2016-07-27 | 2016-07-27 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610602599.5A CN106294568A (zh) | 2016-07-27 | 2016-07-27 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106294568A true CN106294568A (zh) | 2017-01-04 |
Family
ID=57662659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610602599.5A Pending CN106294568A (zh) | 2016-07-27 | 2016-07-27 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294568A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
CN106815605A (zh) * | 2017-01-23 | 2017-06-09 | 上海上讯信息技术股份有限公司 | 一种基于机器学习的数据分类方法及设备 |
CN107506415A (zh) * | 2017-08-11 | 2017-12-22 | 北明智通(北京)科技有限公司 | 基于内容的大文本高阶语义张量化分类方法和系统 |
CN107562938A (zh) * | 2017-09-21 | 2018-01-09 | 重庆工商大学 | 一种法院智能审判方法 |
CN108334494A (zh) * | 2018-01-23 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 一种用户关系网络的构建方法和装置 |
CN108399213A (zh) * | 2018-02-05 | 2018-08-14 | 中国科学院信息工程研究所 | 一种面向用户个人文件的聚类方法及系统 |
CN109002561A (zh) * | 2018-08-27 | 2018-12-14 | 山东师范大学 | 基于样本关键词学习的文本自动分类方法、系统及介质 |
WO2019205319A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
CN110414000A (zh) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110955774A (zh) * | 2019-11-08 | 2020-04-03 | 武汉光谷信息技术股份有限公司 | 基于词频分布的文字分类方法、装置、设备及介质 |
CN111291071A (zh) * | 2020-01-21 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置及电子设备 |
CN112420025A (zh) * | 2020-11-09 | 2021-02-26 | 国网山东省电力公司临沂供电公司 | 一种用于电力调度的智能语音识别转化方法及系统 |
CN112507113A (zh) * | 2020-09-18 | 2021-03-16 | 青岛海洋科学与技术国家实验室发展中心 | 一种海洋大数据文本分类方法及系统 |
WO2021121158A1 (zh) * | 2020-06-10 | 2021-06-24 | 平安科技(深圳)有限公司 | 公文文件处理方法、装置、计算机设备及存储介质 |
CN113673210A (zh) * | 2020-05-13 | 2021-11-19 | 复旦大学 | 文档生成系统 |
CN114281928A (zh) * | 2020-09-28 | 2022-04-05 | 中国移动通信集团广西有限公司 | 基于文本数据的模型生成方法、装置及设备 |
CN117171428A (zh) * | 2023-08-04 | 2023-12-05 | 北京网聘信息技术有限公司 | 一种提升搜索和推荐结果准确性的方法 |
CN118535739A (zh) * | 2024-06-26 | 2024-08-23 | 上海建朗信息科技有限公司 | 基于关键词权重匹配的数据分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620853A (zh) * | 2008-07-01 | 2010-01-06 | 邹采荣 | 一种基于改进模糊矢量量化的语音情感识别方法 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN103559556A (zh) * | 2013-10-31 | 2014-02-05 | 浙江大学 | 一种在线预测电力系统负荷能力极限的方法 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN104899335A (zh) * | 2015-06-25 | 2015-09-09 | 四川友联信息技术有限公司 | 一种对网络舆情信息进行情感分类的方法 |
-
2016
- 2016-07-27 CN CN201610602599.5A patent/CN106294568A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620853A (zh) * | 2008-07-01 | 2010-01-06 | 邹采荣 | 一种基于改进模糊矢量量化的语音情感识别方法 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN103559556A (zh) * | 2013-10-31 | 2014-02-05 | 浙江大学 | 一种在线预测电力系统负荷能力极限的方法 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN104899335A (zh) * | 2015-06-25 | 2015-09-09 | 四川友联信息技术有限公司 | 一种对网络舆情信息进行情感分类的方法 |
Non-Patent Citations (1)
Title |
---|
王雅玡: "基于朴素贝叶斯和BP神经网络的中文文本分类问题研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
CN106815605A (zh) * | 2017-01-23 | 2017-06-09 | 上海上讯信息技术股份有限公司 | 一种基于机器学习的数据分类方法及设备 |
CN107506415B (zh) * | 2017-08-11 | 2020-07-21 | 北京智通云联科技有限公司 | 基于内容的大文本高阶语义张量化分类方法和系统 |
CN107506415A (zh) * | 2017-08-11 | 2017-12-22 | 北明智通(北京)科技有限公司 | 基于内容的大文本高阶语义张量化分类方法和系统 |
CN107562938A (zh) * | 2017-09-21 | 2018-01-09 | 重庆工商大学 | 一种法院智能审判方法 |
CN108334494A (zh) * | 2018-01-23 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 一种用户关系网络的构建方法和装置 |
CN108334494B (zh) * | 2018-01-23 | 2022-01-25 | 创新先进技术有限公司 | 一种用户关系网络的构建方法和装置 |
CN108399213A (zh) * | 2018-02-05 | 2018-08-14 | 中国科学院信息工程研究所 | 一种面向用户个人文件的聚类方法及系统 |
CN108399213B (zh) * | 2018-02-05 | 2022-04-01 | 中国科学院信息工程研究所 | 一种面向用户个人文件的聚类方法及系统 |
WO2019205319A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
CN109002561A (zh) * | 2018-08-27 | 2018-12-14 | 山东师范大学 | 基于样本关键词学习的文本自动分类方法、系统及介质 |
CN110414000B (zh) * | 2019-07-18 | 2022-12-20 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110414000A (zh) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110955774B (zh) * | 2019-11-08 | 2022-10-11 | 武汉光谷信息技术股份有限公司 | 基于词频分布的文字分类方法、装置、设备及介质 |
CN110955774A (zh) * | 2019-11-08 | 2020-04-03 | 武汉光谷信息技术股份有限公司 | 基于词频分布的文字分类方法、装置、设备及介质 |
CN111291071A (zh) * | 2020-01-21 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置及电子设备 |
CN111291071B (zh) * | 2020-01-21 | 2023-10-17 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置及电子设备 |
CN113673210A (zh) * | 2020-05-13 | 2021-11-19 | 复旦大学 | 文档生成系统 |
CN113673210B (zh) * | 2020-05-13 | 2023-12-01 | 复旦大学 | 文档生成系统 |
WO2021121158A1 (zh) * | 2020-06-10 | 2021-06-24 | 平安科技(深圳)有限公司 | 公文文件处理方法、装置、计算机设备及存储介质 |
CN112507113A (zh) * | 2020-09-18 | 2021-03-16 | 青岛海洋科学与技术国家实验室发展中心 | 一种海洋大数据文本分类方法及系统 |
CN114281928A (zh) * | 2020-09-28 | 2022-04-05 | 中国移动通信集团广西有限公司 | 基于文本数据的模型生成方法、装置及设备 |
CN112420025A (zh) * | 2020-11-09 | 2021-02-26 | 国网山东省电力公司临沂供电公司 | 一种用于电力调度的智能语音识别转化方法及系统 |
CN117171428A (zh) * | 2023-08-04 | 2023-12-05 | 北京网聘信息技术有限公司 | 一种提升搜索和推荐结果准确性的方法 |
CN117171428B (zh) * | 2023-08-04 | 2024-04-05 | 北京网聘信息技术有限公司 | 一种提升搜索和推荐结果准确性的方法 |
CN118535739A (zh) * | 2024-06-26 | 2024-08-23 | 上海建朗信息科技有限公司 | 基于关键词权重匹配的数据分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294568A (zh) | 一种基于bp网络的中文文本分类规则生成方法及系统 | |
Onan | Sentiment analysis on product reviews based on weighted word embeddings and deep neural networks | |
Abbas et al. | Multinomial Naive Bayes classification model for sentiment analysis | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN108009284A (zh) | 采用半监督卷积神经网络的法律文本分类方法 | |
CN107944480A (zh) | 一种企业行业分类方法 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN109766410A (zh) | 一种基于fastText算法的新闻文本自动分类系统 | |
CN109582963A (zh) | 一种基于极限学习机的档案自动分类方法 | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
Shetty et al. | Auto text summarization with categorization and sentiment analysis | |
Lande et al. | Using Part-of-Speech Tagging for Building Networks of Terms in Legal Sphere. | |
Alotaibi et al. | Spam and Sentiment Detection in Arabic Tweets Using MARBERT Model. | |
CN103268346A (zh) | 半监督分类方法及系统 | |
Kadhim et al. | Improving TF-IDF with singular value decomposition (SVD) for feature extraction on Twitter | |
Yana et al. | Sentiment analysis of facebook comments on indonesian presidential candidates using the naïve bayes method | |
Singh et al. | News classification system using machine learning approach | |
Maree et al. | Optimizing machine learning-based sentiment analysis accuracy in bilingual sentences via preprocessing techniques. | |
Alshahrani et al. | Applied Linguistics With Red-Tailed Hawk Optimizer-Based Ensemble Learning Strategy in Natural Language Processing | |
Azzam et al. | Text-based question routing for question answering communities via deep learning | |
Kusakin et al. | Classification of Short Scientific Texts | |
Ech-Chouyyekh et al. | Scientific paper classification using convolutional neural networks | |
CN114691993A (zh) | 基于时间序列的动态自适应话题跟踪方法、系统及装置 | |
Khabia et al. | A cluster based approach with n-grams at word level for document classification | |
Ashhab et al. | A Comparative Analysis of Deep Learning Approaches in Bangla Document Categorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |
|
RJ01 | Rejection of invention patent application after publication |