CN112199499A - 文本划分方法、文本分类方法、装置、设备及存储介质 - Google Patents
文本划分方法、文本分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112199499A CN112199499A CN202011053820.9A CN202011053820A CN112199499A CN 112199499 A CN112199499 A CN 112199499A CN 202011053820 A CN202011053820 A CN 202011053820A CN 112199499 A CN112199499 A CN 112199499A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- predicted
- target
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000013145 classification model Methods 0.000 claims abstract description 63
- 239000013598 vector Substances 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000000638 solvent extraction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 description 1
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的一种文本划分方法、文本分类方法、装置、设备及存储介质,应用于计算机技术领域,所述方法包括:解析内容图像,获得文本格式的目标文本;根据所述目标文本中的换行符将所述目标文本划分为多个文本段;根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值;将所述待预测文本集合输入至目标文本分类模型以获取目标分类结果。本方案不仅避免了现有技术中简单以数据量进行划分导致数据丢失的问题,而且避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性。
Description
技术领域
本申请属于计算机技术领域,特别是涉及一种文本划分方法、文本分类方法、装置、设备及存储介质。
背景技术
随着电子信息技术的发展,传统的纸质文本已经无法满足人们的信息搜集和存储需求。但是例如简历、证书、身份证等信息文本仍然以纸质形式被人们广泛使用,因此如何从纸质文本中将有价值的文本信息进行提取和分类已成为信息搜索和存储的关键点之一。
现有技术中通常是采用规则模板以及关键字词典等方式,对纸质文本中提取的文本信息进行分类,以满足文本信息进行结构化存储,但是这种方式依赖于规则模板和关键字词典的适用性,也就是针对不同格式的文本需要专门制作规则模板和关键字词典,否则将会导致数据丢失等问题,显然这种方式的泛用性较差。因此相继出现了通过网络模型来对文本信息的语义进行识别来改善上述方式泛用性较差的问题。
通常由于语义识别模型由于无法同时识别数据量较大的文本信息,因此需要将文本信息进行按照数据量进行截断后再输入至语义识别模型进行识别。但是由于文本信息的上下文存在关联,因此这种方式容易导致输入文本分类模型的文本信息出现划分不合理、数据丢失的问题,使得文本分类模型对于文本信息的分类结果不准确。
发明内容
本申请提供一种文本划分方法、文本分类方法、装置、设备及存储介质,以解决现有技术中直接按照数据量对文本信息进行截断后输入文本提取模型进行分类的方式导致文本信息划分不合理、数据丢失,进而文本分类模型的分类结果也不准确的问题。
本申请第一方面提供一种文本划分方法,所述方法:
解析内容图像,获得文本格式的目标文本;
根据所述目标文本中的换行符将所述目标文本划分为多个文本段;
根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值。
本申请第二方面提供一种文本分类方法,包括:
通过所述文本划分方法获取待预测文本集合;
将所述待预测文本集合输入至预先训练的目标文本分类模型,所述目标文本分类模型至少包括:多层标签指针网络和多标签分类网络;
通过所述多层标签指针网络获取所述待预测文本集合的第一分类结果,以及通过所述多标签分类网络获取所述待预测文本集合的第二分类结果;
根据所述第一分类结果和第二分类结果,获取所述待预测文本集合的目标分类结果。
本申请第三方面提供一种文本划分装置,包括:
解析模块,被配置为解析内容图像,获得文本格式的目标文本;
划分模块,被配置为根据所述目标文本中的换行符将所述目标文本划分为多个文本段;
生成模块,被配置为根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值。
本申请实施例第四方面提供一种文本分类装置,包括:
获取模块,被配置为通过所述文本划分方法获取待预测文本集合;
输入模块,被配置为将所述待预测文本集合输入至预先训练的目标文本分类模型,所述目标文本分类模型至少包括:多层标签指针网络和多标签分类网络;
输出模块,被配置为通过所述多层标签指针网络获取所述待预测文本集合的第一分类结果,以及通过所述多标签分类网络获取所述待预测文本集合的第二分类结果;
结合模块,被配置为根据所述第一分类结果和第二分类结果,获取所述待预测文本集合的目标分类结果。
本申请第五方面提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文本划分方法或第二方面所述的文本分类方法。
本申请第六方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本划分方法或第二方面所述的文本分类方法。
针对现有技术,本申请具备如下优点:
本申请提供的一种文本划分方法、文本分类方法、装置、设备及存储介质,本方案通过将提取到的文本按照换行符划分为文本段后,以第一数据量阈值作为限制将文本以文本段为单位进行划分得到待预测文本集合,避免了现有技术中简单以数据量进行划分导致数据丢失的问题,以及通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值,避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅被配置为示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种文本划分方法的步骤流程图;
图2是本申请实施例提供的一种文本段划分方法的效果示意图;
图3是本申请实施例提供的另一种文本划分方法的步骤流程图;
图4是本申请实施例提供的一种分割线确定方法的步骤流程图;
图5是本申请实施例提供的一种分割线确定方法的效果示意图;
图6是本申请实施例提供的一种文本框排序方法的步骤流程图;
图7是本申请实施例提供的一种文本行划分方法的步骤流程图;
图8是本申请实施例提供的一种文本分类方法的步骤流程图;
图9是本申请实施例提供的一种文本分类模型的训练方法的步骤流程图;
图10是本申请实施例提供的一种文本分类模型的结构示意图;
图11是本申请实施例提供的一种模型输入方法的步骤流程图;
图12是本申请实施例提供的一种模型输出方法的步骤流程图;
图13是本申请实施例提供的一种模型验证方法的步骤流程图;
图14是本申请实施例提供的一种文本划分装置的结构框图;
图15是本申请实施例提供的一种文本分类装置的结构框图;
图16是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1是本申请实施例提供的一种文本划分方法的步骤流程图,所述方法包括:
步骤101,解析内容图像,获得文本格式的目标文本。
在本申请实施例中,内容图像是指包含有文本内容的图像数据,例如对于包含有文本内容的纸质文件拍摄或扫描得到的图像,或者是从视频中所提取的包含有文本内容的视频图像帧等,具体可以根据实际需求确定,只要内容图像中包含有可提取的文本内容即可,此处不做限定。
可以通过文字识别模型识别内容图像中的文本所在的位置,然后通过文本提取模型从所识别的文本所在的位置提取目标文本。
步骤102,根据所述目标文本中的换行符将所述目标文本划分为多个文本段。
在本申请实施例中,通常文本提取模型在对图像进行文本提取的过程中,若遇到目标文本未满一行就换行,则会给所提取的目标文本添加换行符,因此可以依据换行符将文本内容划分为多个文本段。
步骤103,根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值。
在本申请实施例中,第一数据量阈值是用于限制待预测文本集合的数量的数据量阈值,第二数据量阈值是待预测文本集合的最后一个文本段的数据量需要大于的数据量阈值。
在实际应用中,待预测文本集合的数据量并不是需要小于或等于该第一数据量阈值,而是可以略大于该第一数据量阈值的,这是因为每个文本段的数据量是不确定,因此会出现某待预测文本集合的数据量在添加某个文本段之前是小于第一数据量阈值的,而添加之后则会超过该第一数据量阈值,此时是允许待预测文本集合保留该文本段,以通过第一数据量阈值在保证所得到待预测文本集合的数据量不会太大的同时,也可以保证所得到待预测文本集合的数据量不会太小。
示例性的,参照图2,示出本申请实施例提供的一种文本段划分方法的效果示意图,其中包括有1-12个文本段,通过将文本段1-5、文本段6-7以及文本段8-12划分到一起,得到四个小于等于第一数据量阈值的待预测文本集合,需要说明的是,第一数据量阈值在此处以字符串长度的方式在图中展示。
第二数据量阈值是指待预测文本集合中最后一个文本段所需大于的数据量阈值。可以理解,标题也会作为一个文本段,是对应其之后文本段的概述和说明,属于之后文本段的关联内容,这种较短的文本内容有利于模型对于文本段的语义识别效果,而若将这种较短的文本段在集合划分过程中与其之后内容关联的文本段被划分开,将会影响后续文本分类模型的预测效果,因此可以通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值的方式来避免标题与其内容关联的文本段被划分到不同的待预测文本集合,可以有效提高待预测文本集合划分的合理性。
本申请提供的一种文本划分方法,通过将提取到的文本按照换行符划分为文本段后,以第一数据量阈值作为限制将文本以文本段为单位进行划分得到待预测文本集合,避免了现有技术中简单以数据量进行划分导致数据丢失的问题,以及通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值,避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性。
图3是本申请实施例提供的另一种文本划分方法的步骤流程图,所述方法包括:
步骤201,确定内容图像中的文本框。
在本申请实施例中,文本框是指内容图像中文本内容所在的框体区域。
在实际应用中可通过pdfminer(一种python语言提供的对于pdf格式的图像的解析器)、pdfbox(一种java语言提供的对于pdf格式的图像的解析器)等图像解析器对内容图像进行解析来确定内容图像中的文本框,因此需要预先将保证内容图像是pdf(PortableDocument Format,可携带文档格式),但是如果解析器可以支持其他图像格式,也可以将内容图像转换为所适配的其他图像格式,只要可以从内容图像中确定文本所在的文本框即可,此处不做限定。
步骤202,确定所述文本框中的分割线。
在本申请实施例中,分割线是指文本图像中对横向的文本内容进行边界划分的边线。可以理解,例如简历、产品介绍等内容图像普遍会采用横向版面的样式来进行内容布局,这就是使得内容图像中不仅存在竖向分布的文本框,还存在横向分布的文本框,而传统的图像解析器主要是依据竖向分布的文本框进行开发的,因此对于横向分布的文本框识别能力较弱,这就导致航向分布的多个文本框可能被划分为同一文本框,导致属于不同内容被划分到同一文本框后提取出来的文本内容出现不同内容相互穿插的数据乱行现象。
而如果多个文本框被划分到同一文本框,那么由多个文本框组成的文本框中将会存在用户区别多个文本框的分割线,这种分割线也是内容图像的制作者为了使得内容图像中的不同版面可以被有效区分设置的。在实际应用中,可以根据不同的版面预先设置分割线的位置,也可以通过依据不同版面的底色或者纹理差异来确定分割线的位置,具体分割线的确定方法可以根据实际需求确定,此处不做限定。
步骤203,根据所述分割线将所述文本框进行划分。
在本申请实施例中,依据所得到的分割线可以将原文本框进行划分,得到多个新的文本框,相对于原文本框,新得到的文本框划分更为准确。当然如果文本框中不存在分割线,也无需对文本框进行划分。
本申请实施例通过依据文本框中的分割线对文本框进行划分,使得所得到的文本框划分更为准确,避免由于现有解析器错误识别导致的数据乱行现象。
可选的,参照图4,所述步骤202,包括:
子步骤2021,获取所述文本框的坐标值。
在本申请实施例中,文本框的坐标值可以是对内容图像的整体尺寸进行量化得到的坐标系中的该文本框的坐标值,也可以是依据文本框的尺寸进行量化得到的坐标系中该文本框的坐标值,具体可以根据实际需求确定,此处不做限定。
子步骤2022,将所述坐标值中横坐标的众数所在的竖直线作为分割线。
在本申请实施例中,取文本框的横向边线的坐标值的众数,然后以该众数取所在坐标系的竖直线作为分割线。
示例性的,参照图5,示出一种分割线确定方法的效果示意图,其中该文本框的横坐标的取值范围为0到a,纵坐标的取值范围为0至b,则取0至a的众数A,以该A作为横坐标取坐标系的竖直线作为分割线,即可将文本框划分左右两个文本框。
步骤204,从划分后的文本框中提取文本格式的目标文本。
在本申请实施例中,可以采用现有的OCR(Optical Character Recognition,光学字符识别)技术等文本提取技术从划分后的文本框中提取目标文本。
本申请实施例直接依据文本框的坐标值的众数作为分割线,提高了分割线获取的效率。
可选的,参照图6,所述步骤204,包括;
子步骤2041,根据划分后的文本框的坐标值,获取划分后的文本框的权重。
在本申请实施例中,由于划分后的文本框之间的先后顺序直接会影响到后续文本识别的效果,因此需要对划分得到的文本框进行合理排序,才能保证后续提取出来的文本才能保持文本图像中的内容顺序。
可以根据文本框在内容图像中的坐标值来确定各划分后的文本框的权重,具体可以采用下述公式(1)来获取文本框的权重:
xy=y1+1/(x1+Δx) (1)
其中,xy为文本框的权重,y1为文本框的纵坐标的最大值,x1为文本框的横坐标的最大值,Δx为余量,该余量用于避免x1为0时权重无法计算。
子步骤2042,根据所述权重获取所述划分后的文本框的提取次序。
在本申请实施例中,根据所得到的各划分后的文本框的权重,从小到大进行排序,即可得到划分后的文本框的提取次序,该提取次序是指提取划分后的文本框中的文本的次序。
子步骤2043,按照所述提取次序从所述划分后的文本框中提取文本格式的目标文本。
在本申请实施例中,依据所得到的提取次序依次从划分后的文本框中即可提取文本格式的目标文本,由于提取次序是依据划分后的文本框的权重确定的,因此依据该提取次序提取的目标文本与内容图像中的文本内容的顺序一致。
本申请实施例通过依据文本框的坐标值来确定各文本框的权重,继而根据权重对文本框依次进行文本提取,从而保证了所提取目标文本的次序可以与内容图像中文本内容的排布一直,避免了文本提取过程中的乱序问题。
步骤205,根据所述目标文本中的空格符将所述目标文本划分为多个文本行。
在本申请实施例中,通常文本提取技术在对图像进行文本提取的过程中,会在所提取的每一行文本之后添加空格符,因此可以根据空格符将目标文本划分为多个文本行。
示例性,参照图7,示出本申请实施例提供的一种文本行划分方法的效果示意图,其中包括有1、2、3、4四个文本行,其中2和4未满一行,因此将1和2进行拼接成一个文本段,由3和4拼接成一个文本段。
步骤206,根据所述多个文本段中的换行符将所述多个文本行划分为多个文本段。
本申请实施例依据目标文本中的空格符和换行符将目标文本合理划分为多个文本段,保证了文本段提取的准确性,避免了由于直接按照数据量划分文本段导致数据丢失的问。
步骤207,创建初始文本集合。
在本申请实施例中,初始文本集合是用于通过添加文本段来得到待遇文本集合。具体的,可以通过创建内容窗口的形式来添加初始文本集合。
步骤208,遍历所述文本段,将当前遍历到的文本段添加到所述初始文本集合,直至添加后的初始文本集合的数据量大于第一数据量阈值,将添加后的初始文本集合作为候选文本集合。
在本申请实施例中,依据各文本段的先后顺序,依次遍历各个文本段,每次当前遍历到的文本段将被添加到初始文本集合中,并在每次添加后判断添加后的初始文本集合的数据量是否大于第一数据量阈值,若小于或等于第一数据量阈值,则继续遍历剩余的文本段,若大于第一数据量阈值,则停止执行遍历文本段的过程,将当前添加后的初始文本集合作为候选文本集合进入下述步骤209。
步骤209,在所述候选文本集合中的最后一个文本段的数据量大于第二数据量阈值时,将所述候选文本集合作为待预测文本集合。
在本申请实施例中,如果候选文本集合的最后一个文本段的数据量大于第二数据量阈值,则表明该最后一个文本段不是下一个文本段的关联内容,可以直接将该候选文本集合作为待预测文本集合
步骤210,在所述候选文本集合中的最后一个文本段的数据量小于或等于第二数据量阈值时,从所述候选文本集合中取出所述最后一个文本段,以将取出后的候选文本集合作为待预测文本集合。
在本申请实施例中,在将候选本文集合作为待预测文本集合之前,如果该候选文本集合中的最后一个文本段的数据量小于或等于第二数据量阈值,则将该文本段确定为下一个文本段的关联内容,从候选文本集合中取出该最后一个文本段,然后再将取出后的候选文本集合作为待预测的文本集合。
步骤211,在存在剩余的文本段时,利用所述剩余的文本段执行生成待预测文本集合的过程。
在本申请实施例中,在生成一个待预测文本集合后,如果还存在剩余的文本段,则利用剩余的文本段进入步骤207的步骤,继续划分待预测文本集合,直至所有文本段均被划分到所属的待预测文本集合。
本申请实施例通过依据第一数据量阈值来划分文本段,保证所得到的文本段的数据量不会过大,并且将根据第一数据量阈值得到的候选文本集合中的最后一个文本段的数据量大于第二数据量阈值的情况下,将该最后一个文本段添加到下一个生成的待预测文本集合中,保证了文本段与其关联的文本段可以处于同一待预测文本集合,有效提高了后续文本分类模型对该待预测文本集合进行分类的效果。
本申请提供的另一种文本划分方法,通过将提取到的文本按照换行符划分为文本段后,以第一数据量阈值作为限制将文本以文本段为单位进行划分得到待预测文本集合,避免了现有技术中简单以数据量进行划分导致数据丢失的问题,以及通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值,避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性。还通过依据文本框中的分割线对文本框进行划分,使得所得到的文本框划分更为准确,避免由于现有解析器错误识别导致的数据乱行现象。还通过依据文本框的坐标值来确定各文本框的权重,继而根据权重对文本框依次进行文本提取,从而保证了所提取目标文本的次序可以与内容图像中文本内容的排布一直,避免了文本提取过程中的乱序问题
图8是本申请实施例提供的一种文本分类方法的步骤流程图,所述方法包括:
步骤301,获取待预测文本集合。
在本申请实施例,通过图1至图7任一所述的文本分类方法获取待预测文本集合。
步骤302,将所述待预测文本集合输入至预先训练的目标文本分类模型,所述目标文本分类模型至少包括:多层标签指针网络和多标签分类网络。
在本申请实施例中,预先训练的目标文本分类模型,是通过预先标注有分类标签的样本文本集合对初始文本集合进行训练得到的。多层标签指针网络是指通过两个二分类网络生成两个0/1序列,来确定待预测文本集合中待抽取字段在序列中的包含有头位置指针和尾位置指针的边界进序列标注,并采用二分类网络来进行对所确定边界进行分类预测的网络模型,多层标签指针网络包含有多组二分网络,每组二分网络包含有两个二分类器,一个是用于对实体的起始位置进行分类,另一个是用于对实体的结束位置进行分类,一般预测的标签与二分网络的组数相等。多标签分类网络是一种全局标签分类器,用于预测当前文本中所包含的所有分类标签,通过卷积层来获取待预测文本集合中所包含的语义特征后,通过共享编码层进行最大池化后,接入全连接层来进行分类预测的网络模型。
步骤303,通过所述多层标签指针网络获取所述待预测文本集合的第一分类结果,以及通过所述多标签分类网络获取所述待预测文本集合的第二分类结果。
在本申请实施例中,通过多层标签指针网络和多标签分类网络分别可以获取待预测文本集合的第一分类结果和第二分类结果,第一分类结果和第二分类结果可能会存在些许差异。
步骤304,根据所述第一分类结果和第二分类结果,获取所述待预测文本集合的目标分类结果。
在本申请实施例中,具体可以将第一分类结果和第二分类结果进行相乘,即可得到该待预测文本结合的目标分类结果。
本申请实施例提供的一种文本分类方法,通过将提取到的文本按照换行符划分为文本段后,以第一数据量阈值作为限制将文本以文本段为单位进行划分得到待预测文本集合,避免了现有技术中简单以数据量进行划分导致数据丢失的问题,以及通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值,避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性。以及通过集成多层标签指针网络和多标签分类网络的文本分类模型进行文本分类,提高了文本分类的准确性。
图9是本申请实施例提供的一种文本提取模型的训练方法的步骤流程图,所述方法包括:
步骤401,给所述待预测文本集合标注分类标签,得到样本文本集合。
在本申请实施例中,分类标签是用于表示待预测文本集合中的文本信息所述的分类。该标注过程可以通过人工标注的方式,也可以是通过标签标注模型实现的,具体可以根据实际需求确定,此处不做限定。待预测文本集合在标注有分类标签后即可作为后续模型训练所需的样本文本集合。
步骤402,将所述样本文本集合输入至待训练的初始文本分类模型进行训练,所述初始文本分类模型至少包括:多层标签指针网络和多标签分类网络。
在本申请实施例中,初始文本分类模型是预先通过将多层标签指针网络和多标签分类网络结合得到的,从而使得该初始文本分类模型的训练过程是两种网络协同进行,有效地提高了模型训练的收效速度,提高了训练效率。
具体的,参照图10示出的一种文本提取模型的结构示意图,其中多层标签指针网络和多标签分类网络是并行设置的,也就是两种网络的训练过程并不相互干扰,但是会依据两种网络是输出结果来判别初始文本分类模型是否训练完成。
另外,图10中的编码器是用于提取样本文本集合中的语义向量,以将样本文本集合的语义向量输入至初始文本分类模型进行训练,具体的本申请实施例中的编码器可以是预训练语言模型。
可选的,参照图11,所述步骤402,包括:
步骤4021,将所述样本文本集合输入预训练语言模型,得到所述样本文本集合相对应的字嵌入矩阵和位置嵌入矩阵。
在本申请实施例中,预训练语言模型是一种预训练的语言表征模型,可以是BERT(Bidirectional Encoder Representation from Transformers,双向语言表征模型)、RoBERTa(a Robustly Optimized BERT Pretraining Approach,一种鲁棒优化的BERT预训练方法)、NEZHA(哪吒,一种基于BERT的中文预训练语言模型)等,具体可以根据实际需求确定,此处不做限定。
在样本文本集合中的样本文本输入至预训练语言模型后,首先会通过将输入的句子通过一个分词器进行分词,得到样本文本集合的分词序列,然后将分词序列进行编码,得到样本文本集合的字嵌入矩阵和位置嵌入矩阵。
步骤4022,将所述字嵌入矩阵和位置嵌入矩阵进行结合,得到输入嵌入向量。
在本申请实施例中,将字嵌入矩阵和位置嵌入矩阵进行向量相加,样本文本集合的输入嵌入向量。
h0=XWt+Wp (2)
其中,h0表示输入嵌入向量,Wt表示字嵌入矩阵,Wp表示位置嵌入矩阵,X表示样本分词的分词序列。
子步骤4023,根据所述输入嵌入向量,获取所述样本文本集合相对应的语义向量。
在本申请实施例中,可将样本文本集合的输入嵌入向量通过一个N层的Transformer(转换器)来得到样本文本集合的语义向量。
具体可通过以下公式(3)获得语义向量:
hl=Transformer(hl-1),l∈[1,N] (3)
其中,hl为语义向量,l为N层Transformer的层数,Transformer()为转换器的函数。
步骤4024,将所述语义向量输入至待训练的初始文本分类模型进行训练。本申请实施例通过对样本文本集合中的文本进行分词和编码后在提取语义向量,可以有效提高语义向量的质量,进而提高后续文本分类模型训练的效果。
步骤403,通过所述多层标签指针网络获取所述样本文本集合的第三分类结果,以及通过所述多标签分类网络获取所述样本文本集合的第四分类结果。
在本申请实施例中,该步骤与步骤303中通过目标文本分类模型来对输入文本集合进行预测的过程类型,为避免重复,此处不再赘述。
可选的,参照图12所述步骤403,包括:
子步骤4031,通过多层标签指针网络获取所述样本文本集合的语义向量,关于每个分类标签的起始位置概率值和截止位置概率值,作为第三分类结果。
在本申请实施例中,对于通过二分类网络序列化后的语义向量,多层标签指针网络将会针对语义向量输出关于每个分类标签的起始位置概率值和截止位置概率值,具体可以表示为下述公式(4)、(5):
其中,s表示起始位置,e表示截止位置,l表示标签,表示第i个语义向量的起始位置概率值,表示第i个语义向量的截止位置概率值,xi表示第i各语义向量, 为起止位置的偏置项,σ为激活函数, 分别为起止位置为可训练权重向量。
子步骤4032,通过多标签分类网络获取所述样本文本集合的语义向量,关于每个分类标签的分类概率值,作为第四分类结果。
在本申请实施例中,通过多标签分类网络中的多标签分类层来检测输入的样本分词中存在分类标签,具体可通过以下公式(6)进行最大池化:
xp=maxpooling(hs) (6)
其中,xp表示全局分类标签的概率,hs标识语义向量,maxpooling()表示池化层函数。
然后通过以下公式(7)获取第四分类结果:
pglobel=σ(Wgxp+bg) (7)
其中,Wg表示预设可训练的分类层权重向量,bg表示偏置项,σ表示激活函数,g表示全局分类标签。
步骤404,根据所述第三分类结果、第四分类结果以及分类标签,获取训练后所述初始文本分类模型的损失值。
在本申请实施例中,首先将第三分类结果和第四分类结果结合得到样本分类结果,然后将该样本分类结果与样本文本集合的分类标签进行比较,接得到训练后的初始文本分类模型的损失值。
可选的,参照图13,所述步骤404,包括:
子步骤4041,将所述起始位置概率值和截止位置概率值分别与所述分类概率值进行结合,得到所述语义向量关于每个分类标签的目标起始位置概率值和目标截止位置概率值。
在本申请实施例中,通过以下公式(8)和公式(9)将所述第三分类结果和第四分类结果进行结合:
子步骤4042,根据所述样本文本集合的语义向量,关于每个分类标签的目标起始位置概率值、标准起始位置概率值、目标截止位置概率值、标准截止位置概率值,获取训练后所述初始文本分类模型的损失值。
在本申请实施例中,可通过以下公式(10)计算得到损失值:
步骤405,在所述损失值小于损失值阈值的情况下,将训练后的所述初始文本分类模型作为目标文本分类模型。
本申请实施例提供的一种文本分类模型的训练方法,通过采用多层标签指针网络和多标签分类网络进行协同训练得到文本分类模型,提高了文本分类模型的收敛速度,有效提高了文本分类模型的训练效率以及模型效果。
在本申请实施例中,损失值阈值可以是人为设置的,也可以是通过统计分析得到的,具体可以根据实际需求确定,此处不做限定。
图14是本申请实施例提供的一种文本提取装置50的结构框图,所述装置包括:
解析模块501,被配置为解析内容图像,获得文本格式的目标文本;
划分模块502,被配置为根据所述目标文本中的换行符将所述目标文本划分为多个文本段;
生成模块503,被配置为根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值。
可选的,所述划分模块502,还被配置为:
创建初始文本集合;
遍历所述文本段,将当前遍历到的文本段添加到所述初始文本集合,直至添加后的初始文本集合的数据量大于第一数据量阈值,将添加后的初始文本集合作为候选文本集合;
在所述候选文本集合中的最后一个文本段的数据量大于第二数据量阈值时,将所述候选文本集合作为待预测文本集合;
在所述候选文本集合中的最后一个文本段的数据量小于或等于第二数据量阈值时,从所述候选文本集合中取出所述最后一个文本段,以将取出后的候选文本集合作为待预测文本集合;
在存在剩余的文本段时,利用所述剩余的文本段执行生成待预测文本集合的过程。
可选的,所述划分模块502,还被配置为:
根据所述目标文本中的空格符将所述目标文本划分为多个文本行;
根据所述多个文本段中的换行符将所述多个文本行划分为多个文本段。
可选的,所述解析模块501,还被配置为:
确定内容图像中的文本框;
确定所述文本框中的分割线;
根据所述分割线将所述文本框进行划分;
从划分后的文本框中提取文本格式的目标文本。
可选的,所述解析模块501,还被配置为:
获取所述文本框的坐标值;
将所述坐标值中横坐标的众数所在的竖直线作为分割线。
可选的,所述解析模块501,还被配置为:
根据划分后的文本框的坐标值,获取划分后的文本框的权重;
根据所述权重获取所述划分后的文本框的提取次序;
按照所述提取次序从所述划分后的文本框中提取文本格式的目标文本。
本申请提供的一种文本提取装置,通过将提取到的文本按照换行符划分为文本段后,以第一数据量阈值作为限制将文本以文本段为单位进行划分得到待预测文本集合,避免了现有技术中简单以数据量进行划分导致数据丢失的问题,以及通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值,避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性。
图15是本申请实施例提供的一种文本分类装置60的结构框图,所述装置包括:
获取模块601,被配置为通过图1至图7所述的文本划分方法获取待预测文本集合;
输入模块602,被配置为将所述待预测文本集合输入至预先训练的目标文本分类模型,所述目标文本分类模型至少包括:多层标签指针网络和多标签分类网络;
输出模块603,被配置为通过所述多层标签指针网络获取所述待预测文本集合的第一分类结果,以及通过所述多标签分类网络获取所述待预测文本集合的第二分类结果;
结合模块604,被配置为根据所述第一分类结果和第二分类结果,获取所述待预测文本集合的目标分类结果。
可选的,所述装置还包括预先训练模块,被配置为:
给所述待预测文本集合标注分类标签,得到样本文本集合;
将所述样本文本集合输入至待训练的初始文本分类模型进行训练,所述初始文本分类模型至少包括:多层标签指针网络和多标签分类网络;
通过所述多层标签指针网络获取所述样本文本集合的第三分类结果,以及通过所述多标签分类网络获取所述样本文本集合的第四分类结果;
根据所述第三分类结果、第四分类结果以及分类标签,获取训练后所述初始文本分类模型的损失值;
在所述损失值小于损失值阈值的情况下,将训练后的所述初始文本分类模型作为目标文本分类模型。
可选的,所述装置还包括预先训练模块,还被配置为:
将所述样本文本集合输入预训练语言模型,得到所述样本文本集合相对应的字嵌入矩阵和位置嵌入矩阵;
将所述字嵌入矩阵和位置嵌入矩阵进行结合,得到输入嵌入向量;
根据所述输入嵌入向量,获取所述样本文本集合相对应的语义向量;
将所述语义向量输入至待训练的初始文本分类模型进行训练。
可选的,所述装置还包括预先训练模块,还被配置为:
通过多层标签指针网络获取所述样本文本集合的语义向量,关于每个分类标签的起始位置概率值和截止位置概率值,作为第三分类结果。
通过多标签分类网络获取所述样本文本集合的语义向量,关于每个分类标签的分类概率值,作为第四分类结果。
可选的,所述装置还包括预先训练模块,还被配置为:
将所述起始位置概率值和截止位置概率值分别与所述分类概率值进行结合,得到所述语义向量关于每个分类标签的目标起始位置概率值和目标截止位置概率值;
根据所述样本文本集合的语义向量,关于每个分类标签的目标起始位置概率值、标准起始位置概率值、目标截止位置概率值、标准截止位置概率值,获取训练后所述初始文本分类模型的损失值。
本申请实施例提供的一种文本分类装置,通过将提取到的文本按照换行符划分为文本段后,以第一数据量阈值作为限制将文本以文本段为单位进行划分得到待预测文本集合,避免了现有技术中简单以数据量进行划分导致数据丢失的问题,以及通过保证待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值,避免数据量较小的标题信息可以与其关联的下文划分到同一待预测文本集合,提高划分文本的合理性,进而提高了文本分类模型预测的准确性
对于上述系统的实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,如图16所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,被配置为存放计算机程序;
处理器701,被配置为执行存储器703上所存放的程序时,实现上述图1至图7中所述的文本划分方法或图8至图13所述的文本分类方法。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口被配置为上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本划分方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本划分方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非被配置为限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (15)
1.一种文本划分方法,其特征在于,所述方法包括:
解析内容图像,获得文本格式的目标文本;
根据所述目标文本中的换行符将所述目标文本划分为多个文本段;
根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,包括:
创建初始文本集合;
遍历所述文本段,将当前遍历到的文本段添加到所述初始文本集合,直至添加后的初始文本集合的数据量大于第一数据量阈值,将添加后的初始文本集合作为候选文本集合;
在所述候选文本集合中的最后一个文本段的数据量大于第二数据量阈值时,将所述候选文本集合作为待预测文本集合;
在所述候选文本集合中的最后一个文本段的数据量小于或等于第二数据量阈值时,从所述候选文本集合中取出所述最后一个文本段,以将取出后的候选文本集合作为待预测文本集合;
在存在剩余的文本段时,利用所述剩余的文本段执行生成待预测文本集合的过程。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中的换行符将所述目标文本划分为多个文本段,包括:
根据所述目标文本中的空格符将所述目标文本划分为多个文本行;
根据所述多个文本段中的换行符将所述多个文本行划分为多个文本段。
4.根据权利要求1所述的方法,其特征在于,所述解析内容图像,获得文本格式的目标文本,包括:
确定内容图像中的文本框;
确定所述文本框中的分割线;
根据所述分割线将所述文本框进行划分;
从划分后的文本框中提取文本格式的目标文本。
5.根据权利要求4所述的方法,其特征在于,所述确定所述文本框中的分割线,包括:
获取所述文本框的坐标值;
将所述坐标值中横坐标的众数所在的竖直线作为分割线。
6.根据权利要求4所述的方法,其特征在于,所述从划分后的文本框中提取文本格式的目标文本,包括:
根据划分后的文本框的坐标值,获取划分后的文本框的权重;
根据所述权重获取所述划分后的文本框的提取次序;
按照所述提取次序从所述划分后的文本框中提取文本格式的目标文本。
7.一种文本分类方法,其特征在于,所述方法包括:
通过权利要求1至6中任一所述文本划分方法获取待预测文本集合;
将所述待预测文本集合输入至预先训练的目标文本分类模型,所述目标文本分类模型至少包括:多层标签指针网络和多标签分类网络;
通过所述多层标签指针网络获取所述待预测文本集合的第一分类结果,以及通过所述多标签分类网络获取所述待预测文本集合的第二分类结果;
根据所述第一分类结果和第二分类结果,获取所述待预测文本集合的目标分类结果。
8.根据权利要求1所述的方法,其特征在于,所述目标信息提取模型是通过以下步骤训练得到的:
给所述待预测文本集合标注分类标签,得到样本文本集合;
将所述样本文本集合输入至待训练的初始文本分类模型进行训练,所述初始文本分类模型至少包括:多层标签指针网络和多标签分类网络;
通过所述多层标签指针网络获取所述样本文本集合的第三分类结果,以及通过所述多标签分类网络获取所述样本文本集合的第四分类结果;
根据所述第三分类结果、第四分类结果以及分类标签,获取训练后所述初始文本分类模型的损失值;
在所述损失值小于损失值阈值的情况下,将训练后的所述初始文本分类模型作为目标文本分类模型。
9.根据权利要求8所述的方法,其特征在于,所述将所述样本文本集合输入至待训练的初始文本分类模型进行训练,包括:
将所述样本文本集合输入预训练语言模型,得到所述样本文本集合相对应的字嵌入矩阵和位置嵌入矩阵;
将所述字嵌入矩阵和位置嵌入矩阵进行结合,得到输入嵌入向量;
根据所述输入嵌入向量,获取所述样本文本集合相对应的语义向量;
将所述语义向量输入至待训练的初始文本分类模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述通过所述多层标签指针网络获取所述样本文本集合的第三分类结果,以及通过所述多标签分类网络获取所述样本文本集合的第四分类结果,包括:
通过多层标签指针网络获取所述样本文本集合的语义向量,关于每个分类标签的起始位置概率值和截止位置概率值,作为第三分类结果;
通过多标签分类网络获取所述样本文本集合的语义向量,关于每个分类标签的分类概率值,作为第四分类结果。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第三分类结果、第四分类结果以及分类标签,获取训练后所述初始文本分类模型的损失值,包括:
将所述起始位置概率值和截止位置概率值分别与所述分类概率值进行结合,得到所述语义向量关于每个分类标签的目标起始位置概率值和目标截止位置概率值;
根据所述样本文本集合的语义向量,关于每个分类标签的目标起始位置概率值、标准起始位置概率值、目标截止位置概率值、标准截止位置概率值,获取训练后所述初始文本分类模型的损失值。
12.一种文本提取装置,其特征在于,所述装置包括:
解析模块,被配置为解析内容图像,获得文本格式的目标文本;
划分模块,被配置为根据所述目标文本中的换行符将所述目标文本划分为多个文本段;
生成模块,被配置为根据第一数据量阈值将所述多个文本段依次划分为多个待预测文本集合,所述待预测文本集合中的最后一个文本段的数据量大于第二数据量阈值。
13.一种文本分类装置,其特征在于,所述装置包括:
获取模块,被配置为通过权利要求1至6中任一所述文本划分方法获取待预测文本集合;
输入模块,被配置为将所述待预测文本集合输入至预先训练的目标文本分类模型,所述目标文本分类模型至少包括:多层标签指针网络和多标签分类网络;
输出模块,被配置为通过所述多层标签指针网络获取所述待预测文本集合的第一分类结果,以及通过所述多标签分类网络获取所述待预测文本集合的第二分类结果;
结合模块,被配置为根据所述第一分类结果和第二分类结果,获取所述待预测文本集合的目标分类结果。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6中任一所述的文本划分方法或权利要求7至11中任一所述的文本分类方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一所述的文本划分方法或权利要求7至11中任一所述的文本分类方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011053820.9A CN112199499B (zh) | 2020-09-29 | 2020-09-29 | 文本划分方法、文本分类方法、装置、设备及存储介质 |
US17/332,478 US11966455B2 (en) | 2020-09-29 | 2021-05-27 | Text partitioning method, text classifying method, apparatus, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011053820.9A CN112199499B (zh) | 2020-09-29 | 2020-09-29 | 文本划分方法、文本分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199499A true CN112199499A (zh) | 2021-01-08 |
CN112199499B CN112199499B (zh) | 2024-06-18 |
Family
ID=74008054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011053820.9A Active CN112199499B (zh) | 2020-09-29 | 2020-09-29 | 文本划分方法、文本分类方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11966455B2 (zh) |
CN (1) | CN112199499B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486147A (zh) * | 2021-07-07 | 2021-10-08 | 中国建设银行股份有限公司 | 一种文本处理方法、装置、电子设备及计算机可读介质 |
CN114387592A (zh) * | 2022-03-22 | 2022-04-22 | 佛山沧科智能科技有限公司 | 一种复杂背景下字符定位和识别方法 |
WO2023137920A1 (zh) * | 2022-01-18 | 2023-07-27 | 平安科技(深圳)有限公司 | 语义截断检测方法、装置、设备和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615654A (zh) * | 2014-12-30 | 2015-05-13 | 中国联合网络通信有限公司广东省分公司 | 一种文本摘要获取方法及装置 |
CN106202518A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 基于chi和分类别关联规则算法的短文本分类方法 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN109271598A (zh) * | 2018-08-01 | 2019-01-25 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
CN109858036A (zh) * | 2019-02-26 | 2019-06-07 | 科大讯飞股份有限公司 | 一种文书划分方法及装置 |
CN110019794A (zh) * | 2017-11-07 | 2019-07-16 | 腾讯科技(北京)有限公司 | 文本资源的分类方法、装置、存储介质及电子装置 |
CN111552777A (zh) * | 2020-04-24 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 一种音频识别方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046355B (zh) * | 2019-04-25 | 2023-02-24 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
-
2020
- 2020-09-29 CN CN202011053820.9A patent/CN112199499B/zh active Active
-
2021
- 2021-05-27 US US17/332,478 patent/US11966455B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615654A (zh) * | 2014-12-30 | 2015-05-13 | 中国联合网络通信有限公司广东省分公司 | 一种文本摘要获取方法及装置 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN106202518A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 基于chi和分类别关联规则算法的短文本分类方法 |
CN110019794A (zh) * | 2017-11-07 | 2019-07-16 | 腾讯科技(北京)有限公司 | 文本资源的分类方法、装置、存储介质及电子装置 |
CN109271598A (zh) * | 2018-08-01 | 2019-01-25 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
CN109858036A (zh) * | 2019-02-26 | 2019-06-07 | 科大讯飞股份有限公司 | 一种文书划分方法及装置 |
CN111552777A (zh) * | 2020-04-24 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 一种音频识别方法、装置、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486147A (zh) * | 2021-07-07 | 2021-10-08 | 中国建设银行股份有限公司 | 一种文本处理方法、装置、电子设备及计算机可读介质 |
WO2023137920A1 (zh) * | 2022-01-18 | 2023-07-27 | 平安科技(深圳)有限公司 | 语义截断检测方法、装置、设备和计算机可读存储介质 |
CN114387592A (zh) * | 2022-03-22 | 2022-04-22 | 佛山沧科智能科技有限公司 | 一种复杂背景下字符定位和识别方法 |
CN114387592B (zh) * | 2022-03-22 | 2022-07-22 | 佛山沧科智能科技有限公司 | 一种复杂背景下字符定位和识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220101060A1 (en) | 2022-03-31 |
US11966455B2 (en) | 2024-04-23 |
CN112199499B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021203581A1 (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN112199499B (zh) | 文本划分方法、文本分类方法、装置、设备及存储介质 | |
CN109657221B (zh) | 一种文档段落排序方法、排序装置、电子设备及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113901954A (zh) | 一种文档版面的识别方法、装置、电子设备及存储介质 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN113076961B (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
US20220301285A1 (en) | Processing picture-text data | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN115759039A (zh) | 文档处理方法、装置、电子设备和存储介质 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN115410185A (zh) | 一种多模态数据中特定人名及单位名属性的提取方法 | |
JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN113255369A (zh) | 文本相似度分析的方法、装置及存储介质 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN113268578B (zh) | 文本语义的识别方法、装置、计算机设备及存储介质 | |
CN114743199A (zh) | 文本内容的输出方法及装置、电子设备 | |
CN111767727B (zh) | 数据处理方法及装置 | |
CN117671697A (zh) | 基于智能数字员工的城市舆情内容采集方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |