CN110347841A - 一种文档内容分类的方法、装置、存储介质及电子设备 - Google Patents

一种文档内容分类的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110347841A
CN110347841A CN201910650450.8A CN201910650450A CN110347841A CN 110347841 A CN110347841 A CN 110347841A CN 201910650450 A CN201910650450 A CN 201910650450A CN 110347841 A CN110347841 A CN 110347841A
Authority
CN
China
Prior art keywords
font
text data
discrete codes
font size
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910650450.8A
Other languages
English (en)
Other versions
CN110347841B (zh
Inventor
任翔远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shannon Huiyu Technology Co Ltd
Original Assignee
Beijing Shannon Huiyu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shannon Huiyu Technology Co Ltd filed Critical Beijing Shannon Huiyu Technology Co Ltd
Priority to CN201910650450.8A priority Critical patent/CN110347841B/zh
Publication of CN110347841A publication Critical patent/CN110347841A/zh
Application granted granted Critical
Publication of CN110347841B publication Critical patent/CN110347841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供了一种文档内容分类的方法、装置、存储介质及电子设备,其中,该方法包括:确定每个文本数据在文档内容中的位置信息,并生成文本数据的字体离散编码和字号离散编码;根据文本数据的位置信息、字体离散编码和字号离散编码生成文本数据的扩展特征;基于循环神经网络确定文本数据的语义信息;基于扩展特征和语义信息生成文本数据的深层特征,并根据深层特征确定文本数据所属的类别。通过本发明实施例提供的文档内容分类的方法、装置、存储介质及电子设备,可以挖掘文本数据的深层特征,可以解决在数据挖掘分类时的维度灾难问题;且采用具有离散特征的字体离散编码和字号离散编码,有利于区分不同的字体和字号。

Description

一种文档内容分类的方法、装置、存储介质及电子设备
技术领域
本发明涉及文档分类的技术领域,具体而言,涉及一种文档内容分类的方法、装置、存储介质及电子设备。
背景技术
随着信息技术的应用和发展,人们撰写创造了越来越多的文档,且文档中的文本内容多样。内容较多的文档一般会分为多个层级,比如目录、标题、正文等。
对于规范的文档,例如word格式的文档,可以比较容易地确定文档的每个层级的文本内容;但是现实是很多文档并没有统一的标准格式。由于文档内容的多样性,难以简单的通过人为总结的规则来判别文档中文本内容类别的问题。传统的方案是靠人工手动分层级;或者,基于文本在文档中的字体、字号等简单特征,对文本内容进行分类。传统方法由于需要人为参与理解并总结文档的内容,不仅效率低,且难以挖掘文档中文本的深层特征。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种文档内容分类的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种文档内容分类的方法,包括:
获取待分类的、包含多个文本数据的文档内容,并确定每个所述文本数据在所述文档内容中的位置信息;
确定所述文本数据的字体和字号,并生成所述文本数据的字体离散编码和字号离散编码;
根据所述文本数据的所述位置信息、所述字体离散编码和所述字号离散编码生成所述文本数据的扩展特征;
对所述文本数据进行分词处理,并确定所述文本数据的每个分词的词向量,基于循环神经网络确定所述文本数据的语义信息;
基于所述扩展特征和所述语义信息生成所述文本数据的深层特征,并根据所述深层特征确定所述文本数据所属的类别。
在一种可能的实现方式中,所述生成所述文本数据的字体离散编码和字号离散编码包括:
确定所述文档内容包含的字体种类数量m和字号种类数量n;
根据所述文本数据的字体和字号生成所述文本数据的m位的字体离散编码和n位的字号离散编码;其中,所述字体离散编码的每一位对应一种字体,且在所述字体离散编码中与所述文本数据的字体相对应的位为字体有效位,所述字体离散编码中除所述字体有效位之外的其他位均为零;所述字号离散编码的每一位对应一种字号,且在所述字号离散编码中与所述文本数据的字号相对应的位为字号有效位,所述字号离散编码中除所述字号有效位之外的其他位均为零。
在一种可能的实现方式中,所述生成所述文本数据的扩展特征包括:
将所述位置信息、所述字体离散编码和所述字号离散编码进行拼接处理,生成包含所述位置信息、所述字体离散编码和所述字号离散编码的拼接特征;基于预先训练好的编码器将所述拼接特征重构为所述文本数据的扩展特征。
在一种可能的实现方式中,所述根据所述深层特征确定所述文本数据所属的类别包括:
将所述深层特征分别作为多个不同的分类器的输入,并分别确定每个所述分类器的输出,所述分类器的输出包括所述文本数据属于每一种类别的概率;
对所有的所述分类器的输出进行线性回归处理,根据线性回归结果确定所述文本数据所属的类别。
在一种可能的实现方式中,所述类别包括标题类别;
在所述根据所述深层特征确定所述文本数据所属的类别之后,该方法还包括:
将所述文档内容中属于所述标题类别的文本数据作为标题文本数据,并对所述文档内容中所有的所述标题文本数据进行聚类处理;
根据所述聚类处理的结果确定所述文档内容包含的标题级别,并确定每个所述标题文本数据的标题级别。
第二方面,本发明实施例还提供了一种文档内容分类的装置,包括:
获取模块,用于获取待分类的、包含多个文本数据的文档内容,并确定每个所述文本数据在所述文档内容中的位置信息;
离散编码模块,用于确定所述文本数据的字体和字号,并生成所述文本数据的字体离散编码和字号离散编码;
扩展特征生成模块,用于根据所述文本数据的所述位置信息、所述字体离散编码和所述字号离散编码生成所述文本数据的扩展特征;
语义信息生成模块,用于对所述文本数据进行分词处理,并确定所述文本数据的每个分词的词向量,基于循环神经网络确定所述文本数据的语义信息;
分类模块,用于基于所述扩展特征和所述语义信息生成所述文本数据的深层特征,并根据所述深层特征确定所述文本数据所属的类别。
在一种可能的实现方式中,所述离散编码模块包括:
种类数量确定单元,用于确定所述文档内容包含的字体种类数量m和字号种类数量n;
离散编码单元,用于根据所述文本数据的字体和字号生成所述文本数据的m位的字体离散编码和n位的字号离散编码;其中,所述字体离散编码的每一位对应一种字体,且在所述字体离散编码中与所述文本数据的字体相对应的位为字体有效位,所述字体离散编码中除所述字体有效位之外的其他位均为零;所述字号离散编码的每一位对应一种字号,且在所述字号离散编码中与所述文本数据的字号相对应的位为字号有效位,所述字号离散编码中除所述字号有效位之外的其他位均为零。
在一种可能的实现方式中,所述扩展特征生成模块用于:
将所述位置信息、所述字体离散编码和所述字号离散编码进行拼接处理,生成包含所述位置信息、所述字体离散编码和所述字号离散编码的拼接特征;基于预先训练好的编码器将所述拼接特征重构为所述文本数据的扩展特征。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的文档内容分类的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的文档内容分类的方法。
本发明实施例上述第一方面提供的方案中,基于字体和字号生成文档内每个文本数据具有离散特性的字体离散编码和字号离散编码,并结合位置信息可以生成能够深层地体现文本数据的特征的扩展特性;同时提取出文本数据的具有深层语义的语义信息,根据扩展特性和语义信息生成文本数据的深层特性,最终基于深层特性来确定文本数据所述的类别。本实施例可以挖掘文本数据的深层特征,可以解决在数据挖掘分类时的维度灾难问题;且采用具有离散特征的字体离散编码和字号离散编码,在学习训练时可以增加字体与字体之间的距离以及字号与字号之间的距离,有利于区分不同的字体和字号。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种文档内容分类的方法的流程图;
图2示出了本发明实施例所提供的文档内容分类的方法中,确定文本数据所属的类别的具体方法的流程图;
图3示出了本发明实施例所提供的文档内容分类的方法中,对标题进行分级的具体方法的流程图;
图4示出了本发明实施例所提供的一种文档内容分类的装置的结构示意图;
图5示出了本发明实施例所提供的用于执行文档内容分类的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种文档内容分类的方法,参见图1所示,包括:
步骤101:获取待分类的、包含多个文本数据的文档内容,并确定每个文本数据在文档内容中的位置信息。
本发明实施例中,首先确定需要分类的文档,即待分类的文档内容;同时,该文档内容中会包含多个需要确定属于哪个类别的文本数据,即每个文本数据对应一个类别。其中,该文本数据具体可以为一句话或者一段话,或者是一段具有相同字体、字号的内容等。
同时,每个文本数据位于该文档内容的不同位置,例如第一个文本数据位于该文档内容的第一行,第二个文本数据位于该文档内容的第二行和第三行等。基于文本数据在文档内容中的位置即可确定该文本数据的位置信息。具体的,可以建立该文档内容的坐标系,确定该文本数据在该坐标系中的边界或边界坐标,将该边界或边界坐标作为该文本数据的位置信息。例如,可以将文本数据在该坐标系中的上下左右四个边界坐标(即文本数据开始位置的左上角坐标、左下角坐标,以及文本数据结束位置的右上角坐标和右下角坐标)组成的四维特征作为文本数据的位置信息。
步骤102:确定文本数据的字体和字号,并生成文本数据的字体离散编码和字号离散编码。
本发明实施例中,每个文本数据均具有相应的字体和字号,例如字体是“TimesNew Roman”,字号是“四号”等。同时,若文本数据中包含多种字体或字号,则将占比最高的、或者占比超过预设值的字体、字号作为该文本数据的字体和字号。例如,文本数据A包含字体a1和字体a2,若文本数据A中字体a1的字数大于字体a2的字数,则将字体a1作为文本数据A的字体;或者,若字体a1的字数在该文本数据A中的占比大于预设占比(例如80%),则将字体a1作为文本数据A的字体。在确定文本数据的字体和字号之后,即可生成具有离散特征的字体离散编码和字号离散编码。
可选的,上述“生成文本数据的字体离散编码和字号离散编码”包括:
步骤A1:确定文档内容包含的字体种类数量m和字号种类数量n。
步骤A2:根据文本数据的字体和字号生成文本数据的m位的字体离散编码和n位的字号离散编码;其中,字体离散编码的每一位对应一种字体,且在字体离散编码中与文本数据的字体相对应的位为字体有效位,字体离散编码中除字体有效位之外的其他位均为零;字号离散编码的每一位对应一种字号,且在字号离散编码中与文本数据的字号相对应的位为字号有效位,字号离散编码中除字号有效位之外的其他位均为零。
本发明实施例中,利用文档内容字体和字号的数量有限的特点,生成具有相应有效位的离散编码,该离散编码的每一位对应相应的字体或字号。具体的,若该文档内容包含m种字体,则文档内容中的文本数据的字体离散编码也是m位的,且在m位的字体离散编码中,与该文本数据对应的有效位是有效的数值,其他位均为零。例如,文档内容包含四种字体A、B、C、D,则该字体离散编码是4位的,且字体离散编码的每一位对应一种字体,该字体离散编码的第一位对应字体A,第二位对应字体B,以此类推;若有效位的有效数值为“1”,则字体离散编码也只有四种,分别是“1000”、“0100”、“0010”、“0001”。若文本数据的字体是字体B,则该文本数据的字体离散编码中的第2位是字体有效位,即该字体离散编码是“0100”。字号离散编码与该字体离散编码相类似,此处不做赘述。本发明实施例中,采用离散特征的字体离散编码和字号离散编码,在学习训练时可以增加字体与字体之间的距离以及字号与字号之间的距离,有利于区分不同的字体和字号。
步骤103:根据文本数据的位置信息、字体离散编码和字号离散编码生成文本数据的扩展特征。
本发明实施例中,利用位置信息、字体离散编码和字号离散编码来生成文本数据更加密集的特性,即扩展特性,该扩展特性可以更加深层地体现文本数据的特征。
可选的,上述“生成文本数据的扩展特征”的过程具体包括:将位置信息、字体离散编码和字号离散编码进行拼接处理,生成包含位置信息、字体离散编码和字号离散编码的拼接特征;基于预先训练好的编码器将拼接特征重构为文本数据的扩展特征。
本发明实施例中,在对位置信息、字体离散编码和字号离散编码进行拼接处理时,可以按照预先设置的拼接顺序,例如按照字体离散编码、字号离散编码、位置信息的顺序来进行拼接。比如,字体离散编码为“0100”,字号离散编码为“001”,位置信息为“2456”,则拼接后生成的拼接特征可以为“01000012456”。在确定拼接特征后,即可通过编码器对该拼接特征进行拼接处理,最终重构得到扩展特征。其中,该编码器具体可以为变分自动编码器(Variational Auto-Encoder,VAE),使用深度学习的变分自动编码器可以获得更加密集的特征表示。
步骤104:对文本数据进行分词处理,并确定文本数据的每个分词的词向量,基于循环神经网络确定文本数据的语义信息。
本发明实施例中,采用深度学习技术来挖掘该文本数据的深层语义。具体的,文本数据可以是一句话或一段话,其包含多个词,可以基于分词模型对该文本数据进行分词处理,从而可以确定文本数据的每个分词;或者直接将文本数据中的每个词作为一个分词。之后基于词向量模型可以确定每个分词的词向量,例如Word2Vec词向量等。同时,本实施例中基于循环神经网络可以获得该文本数据整个语义的编码,即语义信息,该语义信息是以分词为单位的深层信息。具体的,该循环神经网络可以是双向长短期记忆网络(BiLSTM)。
步骤105:基于扩展特征和语义信息生成文本数据的深层特征,并根据深层特征确定文本数据所属的类别。
本发明实施例中,将可以更加深层地体现文本数据的特征的扩展特性和具有深层语义的语义信息进行结合,从而生成文本数据的深层特征;其中,可以以拼接的方式生成深层特征。之后基于该深层特征即可确定文本数据所属的类别,具体可基于分类模型来确定文本数据的类别。其中,文本数据的类别可以包括目录类别、标题类别、正文类别、批注类别、页眉类别、尾注类别中的一项或多项。
本发明实施例提供的一种文档内容分类的方法,基于字体和字号生成文档内每个文本数据具有离散特性的字体离散编码和字号离散编码,并结合位置信息可以生成能够深层地体现文本数据的特征的扩展特性;同时提取出文本数据的具有深层语义的语义信息,根据扩展特性和语义信息生成文本数据的深层特性,最终基于深层特性来确定文本数据所述的类别。本实施例可以挖掘文本数据的深层特征,可以解决在数据挖掘分类时的维度灾难问题;且采用具有离散特征的字体离散编码和字号离散编码,在学习训练时可以增加字体与字体之间的距离以及字号与字号之间的距离,有利于区分不同的字体和字号。
在上述实施例的基础上,参见图2所示,上述步骤105“根据深层特征确定文本数据所属的类别”具体包括:
步骤1051:将深层特征分别作为多个不同的分类器的输入,并分别确定每个分类器的输出,分类器的输出包括文本数据属于每一种类别的概率。
步骤1052:对所有的分类器的输出进行线性回归处理,根据线性回归结果确定文本数据所属的类别。
本发明实施例中,预先生成多个不同的分类器,由该分类器分别判断该文本数据所述的类别,之后基于集成策略对每个分类器的输出进行组合,即进行线性回归处理,将最终处理的结果作为文本数据所属的类别。其中,该分类器具体可采用通过机器学习的支持向量机(SVM)、梯度提升树(GDBT)、随机森林(Random Forest)等,通过分类器进行分类后即可获得该文本数据是每一类别(目录、标题、正文等)的可能性。
本发明实施例中,利用多个分类器以及集成学习的方式最终确定文本数据的所属类别,分类结果更加准确。
在上述实施例的基础上,文本数据所属的类别包括标题类别;此时,在上述步骤105“根据深层特征确定文本数据所属的类别”之后,该方法还包括对标题进行分级的过程,参见图3所示,该过程具体包括:
步骤106:将文档内容中属于标题类别的文本数据作为标题文本数据,并对文档内容中所有的标题文本数据进行聚类处理。
步骤107:根据聚类处理的结果确定文档内容包含的标题级别,并确定每个标题文本数据的标题级别。
现有的一个文档内容中可能包含多级标题,比如一级标题、二级标题等,由于文档的多样性,每个文档内容具体包含几级标题是不确定的,从而给细分标题层级带来困难。本发明实施例中,通过聚类的方式来确定文档内容包含的标题的层级数量,即标题级别,进而可以细化每个文本数据的标题类别,确定文本数据的标题级别。
具体的,对属于标题类别的文本数据进行聚类处理,即可确定文档内容所包含的标题级别,即该文档内容共包含几个级别的标题;若该文档内容包含三个标题级别,则可以将标题类别细分为一级标题、二级标题和三级标题。本实施例可以有效解决因文档标题没有统一格式导致标题细化标注困难的问题,可以降低训练的标注成本。
其中,可以通过使用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的聚类方法)进行聚类,从而获得多级标题的分布,最后将同类的标题表示为同一级的标题,并确定每个标题文本数据所对应的标题级别。其中,在确定标题级别后,可以基于另一个分类器来确定标题文本数据的标题级别。
本发明实施例提供的一种文档内容分类的方法,基于字体和字号生成文档内每个文本数据具有离散特性的字体离散编码和字号离散编码,并结合位置信息可以生成能够深层地体现文本数据的特征的扩展特性;同时提取出文本数据的具有深层语义的语义信息,根据扩展特性和语义信息生成文本数据的深层特性,最终基于深层特性来确定文本数据所述的类别。本实施例可以挖掘文本数据的深层特征,可以解决在数据挖掘分类时的维度灾难问题;且采用具有离散特征的字体离散编码和字号离散编码,在学习训练时可以增加字体与字体之间的距离以及字号与字号之间的距离,有利于区分不同的字体和字号。利用多个分类器以及集成学习的方式最终确定文本数据的所属类别,分类结果更加准确。基于聚类方法识别多级标题,可以有效解决因文档标题没有统一格式导致标题细化标注困难的问题,可以降低训练的标注成本。
以上详细介绍了文档内容分类的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种文档内容分类的装置,参见图4所示,包括:
获取模块41,用于获取待分类的、包含多个文本数据的文档内容,并确定每个所述文本数据在所述文档内容中的位置信息;
离散编码模块42,用于确定所述文本数据的字体和字号,并生成所述文本数据的字体离散编码和字号离散编码;
扩展特征生成模块43,用于根据所述文本数据的所述位置信息、所述字体离散编码和所述字号离散编码生成所述文本数据的扩展特征;
语义信息生成模块44,用于对所述文本数据进行分词处理,并确定所述文本数据的每个分词的词向量,基于循环神经网络确定所述文本数据的语义信息;
分类模块45,用于基于所述扩展特征和所述语义信息生成所述文本数据的深层特征,并根据所述深层特征确定所述文本数据所属的类别。
在上述实施例的基础上,所述离散编码模块42包括:
种类数量确定单元,用于确定所述文档内容包含的字体种类数量m和字号种类数量n;
离散编码单元,用于根据所述文本数据的字体和字号生成所述文本数据的m位的字体离散编码和n位的字号离散编码;其中,所述字体离散编码的每一位对应一种字体,且在所述字体离散编码中与所述文本数据的字体相对应的位为字体有效位,所述字体离散编码中除所述字体有效位之外的其他位均为零;所述字号离散编码的每一位对应一种字号,且在所述字号离散编码中与所述文本数据的字号相对应的位为字号有效位,所述字号离散编码中除所述字号有效位之外的其他位均为零。
在上述实施例的基础上,所述扩展特征生成模块43用于:
将所述位置信息、所述字体离散编码和所述字号离散编码进行拼接处理,生成包含所述位置信息、所述字体离散编码和所述字号离散编码的拼接特征;基于预先训练好的编码器将所述拼接特征重构为所述文本数据的扩展特征。
在上述实施例的基础上,所述分类模块45包括:
预分类单元,用于将所述深层特征分别作为多个不同的分类器的输入,并分别确定每个所述分类器的输出,所述分类器的输出包括所述文本数据属于每一种类别的概率;
集成分类单元,用于对所有的所述分类器的输出进行线性回归处理,根据线性回归结果确定所述文本数据所属的类别。
在上述实施例的基础上,所述类别包括标题类别;该装置还包括聚类模块;
在所述分类模块45根据所述深层特征确定所述文本数据所属的类别之后,所述聚类模块用于:
将所述文档内容中属于所述标题类别的文本数据作为标题文本数据,并对所述文档内容中所有的所述标题文本数据进行聚类处理;根据所述聚类处理的结果确定所述文档内容包含的标题级别,并确定每个所述标题文本数据的标题级别。
本发明实施例提供的一种文档内容分类的装置,基于字体和字号生成文档内每个文本数据具有离散特性的字体离散编码和字号离散编码,并结合位置信息可以生成能够深层地体现文本数据的特征的扩展特性;同时提取出文本数据的具有深层语义的语义信息,根据扩展特性和语义信息生成文本数据的深层特性,最终基于深层特性来确定文本数据所述的类别。本实施例可以挖掘文本数据的深层特征,可以解决在数据挖掘分类时的维度灾难问题;且采用具有离散特征的字体离散编码和字号离散编码,在学习训练时可以增加字体与字体之间的距离以及字号与字号之间的距离,有利于区分不同的字体和字号。利用多个分类器以及集成学习的方式最终确定文本数据的所属类别,分类结果更加准确。基于聚类方法识别多级标题,可以有效解决因文档标题没有统一格式导致标题细化标注困难的问题,可以降低训练的标注成本。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的文档内容分类的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图5示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的文档内容分类的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文档内容分类的方法,其特征在于,包括:
获取待分类的、包含多个文本数据的文档内容,并确定每个所述文本数据在所述文档内容中的位置信息;
确定所述文本数据的字体和字号,并生成所述文本数据的字体离散编码和字号离散编码;
根据所述文本数据的所述位置信息、所述字体离散编码和所述字号离散编码生成所述文本数据的扩展特征;
对所述文本数据进行分词处理,并确定所述文本数据的每个分词的词向量,基于循环神经网络确定所述文本数据的语义信息;
基于所述扩展特征和所述语义信息生成所述文本数据的深层特征,并根据所述深层特征确定所述文本数据所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述生成所述文本数据的字体离散编码和字号离散编码包括:
确定所述文档内容包含的字体种类数量m和字号种类数量n;
根据所述文本数据的字体和字号生成所述文本数据的m位的字体离散编码和n位的字号离散编码;其中,所述字体离散编码的每一位对应一种字体,且在所述字体离散编码中与所述文本数据的字体相对应的位为字体有效位,所述字体离散编码中除所述字体有效位之外的其他位均为零;所述字号离散编码的每一位对应一种字号,且在所述字号离散编码中与所述文本数据的字号相对应的位为字号有效位,所述字号离散编码中除所述字号有效位之外的其他位均为零。
3.根据权利要求1所述的方法,其特征在于,所述生成所述文本数据的扩展特征包括:
将所述位置信息、所述字体离散编码和所述字号离散编码进行拼接处理,生成包含所述位置信息、所述字体离散编码和所述字号离散编码的拼接特征;基于预先训练好的编码器将所述拼接特征重构为所述文本数据的扩展特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述深层特征确定所述文本数据所属的类别包括:
将所述深层特征分别作为多个不同的分类器的输入,并分别确定每个所述分类器的输出,所述分类器的输出包括所述文本数据属于每一种类别的概率;
对所有的所述分类器的输出进行线性回归处理,根据线性回归结果确定所述文本数据所属的类别。
5.根据权利要求1-4任一所述的方法,其特征在于,所述类别包括标题类别;
在所述根据所述深层特征确定所述文本数据所属的类别之后,还包括:
将所述文档内容中属于所述标题类别的文本数据作为标题文本数据,并对所述文档内容中所有的所述标题文本数据进行聚类处理;
根据所述聚类处理的结果确定所述文档内容包含的标题级别,并确定每个所述标题文本数据的标题级别。
6.一种文档内容分类的装置,其特征在于,包括:
获取模块,用于获取待分类的、包含多个文本数据的文档内容,并确定每个所述文本数据在所述文档内容中的位置信息;
离散编码模块,用于确定所述文本数据的字体和字号,并生成所述文本数据的字体离散编码和字号离散编码;
扩展特征生成模块,用于根据所述文本数据的所述位置信息、所述字体离散编码和所述字号离散编码生成所述文本数据的扩展特征;
语义信息生成模块,用于对所述文本数据进行分词处理,并确定所述文本数据的每个分词的词向量,基于循环神经网络确定所述文本数据的语义信息;
分类模块,用于基于所述扩展特征和所述语义信息生成所述文本数据的深层特征,并根据所述深层特征确定所述文本数据所属的类别。
7.根据权利要求6所述的装置,其特征在于,所述离散编码模块包括:
种类数量确定单元,用于确定所述文档内容包含的字体种类数量m和字号种类数量n;
离散编码单元,用于根据所述文本数据的字体和字号生成所述文本数据的m位的字体离散编码和n位的字号离散编码;其中,所述字体离散编码的每一位对应一种字体,且在所述字体离散编码中与所述文本数据的字体相对应的位为字体有效位,所述字体离散编码中除所述字体有效位之外的其他位均为零;所述字号离散编码的每一位对应一种字号,且在所述字号离散编码中与所述文本数据的字号相对应的位为字号有效位,所述字号离散编码中除所述字号有效位之外的其他位均为零。
8.根据权利要求6所述的装置,其特征在于,所述扩展特征生成模块用于:
将所述位置信息、所述字体离散编码和所述字号离散编码进行拼接处理,生成包含所述位置信息、所述字体离散编码和所述字号离散编码的拼接特征;基于预先训练好的编码器将所述拼接特征重构为所述文本数据的扩展特征。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任意一项所述的文档内容分类的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任意一项所述的文档内容分类的方法。
CN201910650450.8A 2019-07-18 2019-07-18 一种文档内容分类的方法、装置、存储介质及电子设备 Active CN110347841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650450.8A CN110347841B (zh) 2019-07-18 2019-07-18 一种文档内容分类的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650450.8A CN110347841B (zh) 2019-07-18 2019-07-18 一种文档内容分类的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110347841A true CN110347841A (zh) 2019-10-18
CN110347841B CN110347841B (zh) 2021-07-02

Family

ID=68178872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650450.8A Active CN110347841B (zh) 2019-07-18 2019-07-18 一种文档内容分类的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110347841B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581381A (zh) * 2020-04-29 2020-08-25 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN112883189A (zh) * 2021-01-26 2021-06-01 浙江香侬慧语科技有限责任公司 基于标签描述的文本分类方法、装置、存储介质及设备
WO2023035787A1 (zh) * 2021-09-07 2023-03-16 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法
US10108695B1 (en) * 2015-08-03 2018-10-23 Amazon Technologies, Inc. Multi-level clustering for associating semantic classifiers with content regions
US20190130231A1 (en) * 2017-10-27 2019-05-02 Adobe Inc. Font recognition using triplet loss neural network training

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法
US10108695B1 (en) * 2015-08-03 2018-10-23 Amazon Technologies, Inc. Multi-level clustering for associating semantic classifiers with content regions
US20190130231A1 (en) * 2017-10-27 2019-05-02 Adobe Inc. Font recognition using triplet loss neural network training

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMULFO P. AZCARRAGA ET AL: "Tagging documents using neural networks based on local word features", 《2014 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
师军: "自然场景中文本检测识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581381A (zh) * 2020-04-29 2020-08-25 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN111581381B (zh) * 2020-04-29 2023-10-10 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN112883189A (zh) * 2021-01-26 2021-06-01 浙江香侬慧语科技有限责任公司 基于标签描述的文本分类方法、装置、存储介质及设备
WO2023035787A1 (zh) * 2021-09-07 2023-03-16 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Also Published As

Publication number Publication date
CN110347841B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
Šilić et al. Visualization of text streams: A survey
CN109388712A (zh) 一种基于机器学习的行业分类方法及终端设备
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN101877064B (zh) 图像分类方法及图像分类装置
US20170075983A1 (en) Subject-matter analysis of tabular data
CN110347841A (zh) 一种文档内容分类的方法、装置、存储介质及电子设备
Blagojevic et al. Using data mining for digital ink recognition: Dividing text and shapes in sketched diagrams
US11380033B2 (en) Text placement within images using neural networks
WO2021139316A1 (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN107741972A (zh) 一种图片的搜索方法、终端设备及存储介质
CN110489424A (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN110362832A (zh) 一种段落合并的方法、装置、存储介质及电子设备
CN115917613A (zh) 文档中文本的语义表示
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN110909768B (zh) 一种标注数据获取方法及装置
Gavval et al. CUDA-Self-Organizing feature map based visual sentiment analysis of bank customer complaints for Analytical CRM
US11423206B2 (en) Text style and emphasis suggestions
CN102136039B (zh) 一种建立地图模型的方法和设备
JP2023517518A (ja) ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル
CN112560490A (zh) 知识图谱关系抽取方法、装置、电子设备及存储介质
US20210271637A1 (en) Creating descriptors for business analytics applications
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
KR102553061B1 (ko) 인공지능을 이용한 홈페이지 레이아웃 제공 시스템 및 그 동작 방법
CN110348023A (zh) 一种中文文本分词的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant