CN113362026A - 文本处理方法及装置 - Google Patents
文本处理方法及装置 Download PDFInfo
- Publication number
- CN113362026A CN113362026A CN202110626958.1A CN202110626958A CN113362026A CN 113362026 A CN113362026 A CN 113362026A CN 202110626958 A CN202110626958 A CN 202110626958A CN 113362026 A CN113362026 A CN 113362026A
- Authority
- CN
- China
- Prior art keywords
- text
- segment
- text segment
- category
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 44
- 238000013145 classification model Methods 0.000 claims abstract description 80
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 239000012634 fragment Substances 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 100
- 238000000034 method Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000005192 partition Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 102100032202 Cornulin Human genes 0.000 description 5
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供文本处理方法及装置,其中所述文本处理方法包括:确定待处理文本中的至少一个文本区域;对至少一个文本区域中的文本内容进行识别,确定至少一个文本区域中的文本片段;将至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。本方案提供的文本处理方法对待处理文本的格式不进行限制,该方法将待处理文本中提取的文本片段按照类别进行划分,并为每个文本片段打上类别标签,在后续进行信息提取时,不需要从整个待处理文本中筛选需要的内容,而是根据类别标签从相应的文本片段中提取信息,不仅减少了工作量,而且能够提高文本抽取的准确性,提高信息抽取的效率,且可以避免抽取得到错误的文本内容。
Description
技术领域
本说明书涉及数据处理技术领域,特别涉及文本处理方法及装置。
背景技术
文本处理可以是对文本内容进行识别,以提取出文本中的文字信息。例如,在简历信息的抽取中,可以从简历中抽取出需要的文字信息。例如,可以抽取出学习经历、工作经历等信息。
但现有技术是从整个文本中提取文字信息,不仅工作量大,还可能会将不同类别的信息混淆,例如将工作经历的公司名称抽取成项目经历的公司名称,导致提取出的文字信息出错,因此,需要更简单更便捷的方法进行文本处理。
发明内容
有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
确定待处理文本中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
第一确定模块,被配置为确定待处理文本中的至少一个文本区域;
第二确定模块,被配置为对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
第三确定模块,被配置为将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
确定待处理文本中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
本说明书提供的文本处理方法,确定待处理文本中的至少一个文本区域;对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。本方案提供的文本处理方法对待处理文本的格式不进行限制,该方法将待处理文本中提取的文本片段按照类别进行划分,并为每个文本片段打上类别标签,在后续进行信息提取时,不需要从整个待处理文本中筛选需要的内容,而是根据类别标签从相应的文本片段中提取信息,不仅减少了工作量,而且能够提高文本抽取的准确性,提高信息抽取的效率。
附图说明
图1A是本说明书一实施例提供的一种文本处理方法的流程图;
图1B是本说明书一实施例提供的一种目标检测模型的结构图;
图2是本说明书一实施例提供的一种文本页面的示意图;
图3是本说明书一实施例提供的另一种文本页面的示意图;
图4是本说明书一实施例提供的一种跨页的文本片段的示意图;
图5是本说明书一实施例提供的另一种跨页的文本片段的示意图;
图6是本说明书一实施例提供的又一种跨页的文本片段的示意图;
图7是本说明书一实施例提供的一种应用于简历信息提取的文本处理方法的处理流程图;
图8是本说明书一实施例提供的一种简历的示意图;
图9是本说明书一实施例提供的一种文本处理装置的结构示意图;
图10是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
文本分类模型:用于对输入的文本进行分类,确定输入文本的类别标签。
类别置信度:类别置信度与参考类别对应,表示文本属于该参考类别的概率。
词单元:对输入文本做任何实际处理前,都需要将其分割成诸如字、标点符号、数字或字母等语言单元,这些语言单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等;对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字等。
词嵌入处理:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量的处理过程。
word2vec:进行词嵌入处理的一种方法,是Mikolov在Bengio Neural NetworkLanguage Model(NNLM)的基础上构建的一种高效的词向量训练方法。即通过使用该方法可以对文本进行词嵌入处理,得到文本的词向量。
特征提取层:用于提取输入文本的特征的网络层。
注意力层:可以包括注意力机制,以词单元为单位进行注意力计算。例如,对文本片段中的多个词单元之间进行注意力计算。
全连接层:Fully Connected Layer,可以认为是一个分类器。
文本特征向量:对文本片段进行特征提取得到的文本的向量表示形式。
格式特征向量:对格式信息进行特征提取得到的格式信息的向量表示形式。
第一融合特征向量:文本片段的句子级的向量表示。
第二融合特征向量:文本片段的融合了格式信息的句子级的向量表示。
yolov4:是在原有yolov目标检测架构的基础上,采用了近些年CNN(Convolutional Neural Network,卷积神经网络)领域中一些优化策略,从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面进行优化后得到的一种目标检测算法。
Fast R-CNN:(Fast Region-based Convolutional Neural Network,基于快速区域的卷积神经网络),是一种基于区域的目标检测算法。
RPN:(Region Proposal Network,区域生成网络),可以用于在图像中确定存在目标的区域。
OCR:(Optical Character Recognition,光学字符识别),是指电子设备检查纸上打印的字符或分析处理电子版文本中的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
CRNN:(Convolutional RecurrentNeural Network,卷积循环神经网络),可以用于进行文字识别。
在本说明书中,提供了一种文本处理方法,本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1A示出了根据本说明书一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤102:确定待处理文本中的至少一个文本区域。
在本申请实施例中,待处理文本可以是PDF(Portable Document Format,可携带文档格式)文本,也可以是图像。若获取的待处理文本不是上述两种格式,可以将待处理文本转换为上述两种格式再进行处理。例如,可以通过lidre office工具将待处理文本转换为PDF格式的文本。因此,可以认为本方案对待处理文本的格式不进行限制。以待处理文本是简历为例,通过本步骤的方法,可以对不同文件格式的简历进行分区域处理,即本说明书提供的方法对任意文件格式的简历都是通用的。
在本申请实施例中,为了便于后续对文本中的内容进行抽取,且避免从整个待处理文本中抽取文本内容比较复杂,可以先对待处理文本进行分块,即确定待处理文本中存在文本的区域作为文本区域,且每个待处理文本可以包括至少一个文本区域。
在一些实施例中,可以通过目标检测模型确定待处理文本中的至少一个文本区域。例如,目标检测模型可以是yolov4模型、Fast R-CNN、Efficient DET、CenterNet、CTPN等等,本申请实施例对此不作限定。
以目标检测模型是Yolov4为例,参见图1B,图1B是根据一示例性实施例示出的一种目标检测模型的结构图。该目标检测模型包括Backbone网络、Neck层和Head层。Backbone网络是在不同图像细粒度上聚合并形成图像特征的卷积神经网络,可以由多个CSPDarknet53网络组成;Neck层是一系列混合和组合图像特征的网络层,并将图像特征传递到预测层;Head层也称预测层,用于对图像特征进行预测,生成边界框并预测类别。将待处理文本(图片)经过数据增强和预处理后输入Backbone网络中进行特征提取,Backbone网络中可以包括三个特征层,分别是中间层,中下层和底层,通过层层特征提取,可以得到待处理文本的三层的图像特征,将该三层的图像特征输入Neck层进行一系列混合和组合处理,可以得到处理后的图像特征,然后将处理后的图像特征输入Head层,Head层可以包括PANet,能够提取出三个通道的输出特征向量,该输出特征向量包含生成的多个候选区域和区域特征。利用配置的先验框对输出特征向量进行解码,可以得到包含多个预测框和预测类别的候选区域。最后通过非极大值抑制算法对多个预测框进行处理,可以得到最终输出的检测框坐标以及对应的类别信息,基于检测框坐标,将类别为文字的检测框所在的区域确定为文字区域。
本申请实施例中使用的目标检测模型均是训练完成且准确率较高的目标检测模型。作为一种示例,可以通过大量带有文字区域标签的样本文本来对目标检测模型进行训练,使得目标检测模型具有识别文字区域的功能。值得注意的是,模型训练用到的样本文本越多,则目标检测模型的文字区域识别效果越好。
需要说明的是,上述仅是以目标检测模型是Yolov4为例对确定待处理文本的至少一个文本区域进行说明,在另一些实施例中,可以通过上述提到的任一目标检测模型实现本步骤,本申请实施例对此不做限定。
作为一种示例,若待处理文本包括至少两个文本页面,则可以将该至少两个文本页面分别输入目标检测模型中,确定每个文本页面的至少一个文本区域。例如,参见图2,图2示出的是一种包括两个文本区域的文本页面的示意图。
本申请实施例中,可以通过目标检测模型对待处理文本进行目标检测,确定待处理文本中存在文字的文本区域,并且对不同的文本区域进行划分,便于对待处理文本中的内容进行抽取。
步骤104:对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段。
在本申请实施例中,确定文本区域后,为了便于后续提取文本内容时可以从相应的文本区域准确地提取到需要的内容,可以识别文本区域中的文本内容,即确定每个文本区域记载的内容。
在一些实施例中,可以通过文本识别算法对文本区域的文本内容进行识别。例如,文本识别算法可以是OCR算法。或者,可以通过文本识别模型对文本区域的文本内容进行识别。例如,文本识别模型可以是CRNN模型。
以通过文本识别模型对文本区域的文本内容进行识别,且文本识别模型是CRNN模型为例,CRNN模型可以包括卷积层,循环层和转录层。卷积层使用Resnet-34网络,将文本区域(图像)输入该卷积层,则卷积层可以对该图像进行特征提取,可以提取出文本区域的特征序列;循环层使用双向RNN(BiLSTM)对特征序列进行预测,对特征序列中的每个特征向量进行学习,将卷积层输出的特征序列输入该循环层,该循环层可以对特征序列进行预测,输出预测标签(真实值)分布;转录层使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列,再通过去重、整合等操作将该标签序列转换成最终的识别结果,即可以得到文本区域的文本片段。
本申请实施例中使用的文本识别模型均是训练完成且准确率较高的文本识别模型。作为一种示例,可以通过大量带有正确的文本片段的样本文本来对文本识别模型进行训练,使得文本识别模型具有识别文本的功能。值得注意的是,模型训练用到的样本文本越多,则文本识别模型的文本识别效果越好。
需要说明的是,上述仅是以文本识别模型是CRNN模型为例对文本内容识别进行说明,在另一些实施例中,还可以通过OCR算法实现本步骤,本申请实施例对此不做限定。
作为一种示例,若一个文本页面中包括至少两个文本区域,则可以将该至少两个文本区域分别输入文本识别模型中,确定每个文本区域的文本片段。例如,参见图2,图2示出的是一种包括两个文本区域的文本页面的示意图,第一个文本区域中包括文本片段“XXXX”,第二个文本区域中包括文本片段“YYY”。
本申请实施例中,可以通过文本识别模型对文本区域中的文本内容进行识别,确定文本区域中的文字内容,得到每个文本区域对应的文本片段。
步骤106:将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
作为一种示例,类别标签可以用于表征文本片段的主题,即根据类别标签大致可以确定该文本片段主要描述的内容。
在本申请实施例中,确定每个文本区域记载的文本片段后,可以为每个文本区域的文本片段打标签,即确定每个文本片段的类别标签。如此,在后续抽取文本内容时,不需要从整个待处理文本中筛选需要的内容,而是可以根据需求从标签对应的文本片段中抽取文本内容,能够提高文本抽取的准确性,提高文本抽取的效率,且可以避免得到错误的文本内容。
在实施中,将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签的具体实现可以包括:将每个文本区域中的文本片段输入文本分类模型,确定每个文本片段的多个类别置信度,其中,每个文本片段的每个类别置信度用于表征所述文本片段属于参考类别的概率;基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签。
也就是说,可以将每个文本片段输入文本分类模型中,确定每个文本片段分别属于各个参考类别的概率,则每个文本片段可以得到多个概率,并且,根据每个文本片段的多个概率,可以确定每个文本片段的类别标签。
例如,假设文本片段是“教育经历20XX年-20XX年在XX大学就读,专业XXXXXX”,则将该文本片段输入文本分类模型中,可以确定该文本片段的类别标签是教育经历。
本申请实施例中,使用的文本分类模型是预先训练完成且准确率比较高的模型。作为一种示例,可以通过大量带类别标签的样本文本片段对该文本分类模型进行训练,使得文本分类模型可以具有为输入的文本片段确定类别标签的功能。值得注意的是,模型训练用到的样本文本越多,则文本分类模型的分类准确率越高。
以待处理文本是简历为例,由于简历文本的书写方式比较多样,仅根据简历中的小标题进行分类不仅太过单一,而且对于不同书写方式的简历,分类的结果可能会差距很大,很难统一进行管理。本申请实施例使用文本分类模型,根据文本片段进行分类,可以认为是根据文本的语义信息进行分类,分类准确性更高,并且通过模型进行分类,得到的类别标签比较好统计,便于管理。
在一些实施例中,所述文本分类模型可以包括特征提取层、注意力层和全连接层,将每个文本区域中的文本片段输入文本分类模型,确定每个文本片段属于多个参考类别的类别置信度的具体实现可以包括:将每个文本片段输入所述特征提取层,得到每个文本片段的文本特征向量;将每个文本片段的文本特征向量输入所述注意力层,得到每个文本片段的第一融合特征向量;将所述第一融合特征向量输入所述全连接层进行分类,确定每个文本片段属于多个参考类别的类别置信度。
也就是说,可以将每个文本片段输入特征提取层进行特征提取,可以提取到每个文本片段的文本特征向量,将每个文本片段的文本特征向量输入注意力层,对每个文本片段的文本特征向量做自注意力计算,得到每个文本片段结合该文本片段中每个词的特征向量的第一融合特征向量,将该第一融合特征向量输入全连接层,通过该全连接层确定每个文本片段属于多个参考类别的概率。
在本申请一个可选的实施方式中,将每个文本片段输入特征提取层后,可以先对每个文本片段进行分词处理,得到每个文本片段的多个词单元,然后对每个词单元进行词嵌入处理,可以得到每个词单元的特征向量,将同一个文本片段的多个词单元的特征向量拼接,则可以得到该文本片段的文本特征向量。
作为一种示例,可以根据预先编制的词表对文本片段进行分词处理。示例性地,在预先编制的词表中,若文本片段是中文文本,可以将一个字、一个标点符号作为一个词单元。若文本片段是外语文本,可以将一个单词、一个标点符号作为一个词单元。若文本片段中包括数字,可以将一个数字作为一个词单元。例如,假设文本片段是“在校期间多次获得奖学金”,将该文本片段进行分词处理后,可以得到多个词单元分别是[在]、[校]、[期]、[间]、[多]、[次]、[获得]、[奖学金]。
作为一种示例,可以通过one-hot(独热)编码或者word2vec编码的方式对上述多个词单元中每个词单元进行词嵌入处理,得到每个词单元的特征向量。然后将多个词单元的特征向量按照词单元在文本片段中的排序进行拼接,可以得到文本片段的文本特征向量。例如,假设文本片段的多个词单元分别是[学]、[生]、[会],且该三个词单元对应的特征向量均是1×n的矩阵,则可以得到文本片段的文本特征向量是3×n的矩阵。
在本申请一个可选的实施方式中,将每个文本片段的文本特征向量输入注意力层,每个文本特征向量包括多个词单元的特征向量。对于任一参考文本片段,可以在自注意力层将该参考文本片段的每个词单元的特征向量与其他词单元的特征向量进行注意力计算,可以得到结合该参考文本片段的上下文信息的第一融合特征向量,该第一融合特征向量是与整个参考文本片段对应的句子级的特征向量。
在本申请一个可选的实施方式中,全连接层可以称为Fully Connected Layer,且该全连接层中包括激活函数。示例性地,该激活函数可以是Softmax函数。一般来说,Softmax将会计算每个目标类别在所有可能的类别中的概率。使用Softmax的主要优点是输出概率的范围,该范围为0到1,所有概率的和将等于1。对于参考文本片段来说,可以用矩阵表示该参考文本片段的第一融合特征向量,则第一融合特征向量可以是1×M的矩阵,该1×M的矩阵可以称为第一融合特征向量的矩阵表示,将该1×M的矩阵与全连接层的参数组成的转换矩阵M×N相乘,可以得到一个1×N的矩阵,该矩阵中每一列的数值表示参考文本片段与参考类别的相关性分值,再将该1×N的矩阵输入激活函数进行处理,可以得到每个参考类别可能是参考文本片段的类别标签的概率,即可以得到参考文本片段的多个类别置信度。
本申请实施例中,可以通过文本分类模型对文本片段进行分类,并确定每个文本片段的类别标签,如此,若需要从待处理文本中查询文本内容,可以根据需要查询的内容的类别标签,从该类别标签对应的文本片段中查询,可以避免查询出错误的文本内容,且能够更加精准地定位需要查询的文本内容,可以提高查询效率。
需要说明的是,在根据置信度确定类别标签时,可以根据是否将置信度与预设阈值进行比较分为两种情况。
第一种情况:将置信度与预设阈值进行比较,且根据置信度和预设阈值的大小关系确定每个文本片段的类别标签。
在实施中,若所述待处理文本包括至少两个文本页面,其中,每个文本页面包括至少一个文本区域,且每个文本区域包括至少一个文本片段,对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段之后,还包括:按照从上到下从左到右的顺序,对参考文本页面中至少一个文本区域进行编号,根据每个文本区域的编号确定相应的文本片段的布局顺序,其中,所述参考文本页面是所述至少两个文本页面中的任意一个。
相应地,在一种可能的实现方式中,基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签的具体实现可以包括:
判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
若否,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置;
若确定所述参考文本片段是所述参考文本页面中的第一个文本片段,判断所述参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度;
若是,以所述参考文本页面的上一个文本页面中最后一个文本片段的类别标签为所述参考文本片段的类别标签。
需要说明的是,预设阈值可以由用户根据实际需求进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
也就是说,若待处理文本包括至少两个文本页面,且每个文本页面通过目标检测可以得到至少一个文本区域,对每个文本区域进行文本识别,可以提取出该文本区域中的文本片段,则在待处理文本包括至少两个文本页面的情况下,待处理文本中可以包括至少两个文本片段。识别得到参考文本页面的文本片段后,还可以基于文本片段在参考文本页面中的位置,按照从上到下从左到右的顺序对参考文本页面中的文本区域进行编号,且可以根据编号顺序确定文本片段的布局顺序。
示例性地,参见图3,图3示出的是另一种文本页面的示意图。假设图3是参考文本页面,且该参考文本页面包括4个文本区域,可以按照从上到下从左到右的顺序将该4个文本区域分别编号为1、2、3、4,且可以将编号确定为每个文本区域的文本片段在参考文本页面中的布局顺序,则编号为1的文本区域的文本片段在该参考页面中的布局顺序是1,以此类推,可以确定该参考文本页面中每个文本片段的布局顺序。
在该种情况下,对于参考文本片段来说,根据类别置信度确定类别标签需要先判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,若没有,则说明该参考文本片段的多个类别置信度均小于预设阈值,可以认为该参考文本片段的多个类别置信度均不太准确,不能直接基于这些类别置信度确定参考文本片段的类别标签。并且,参考文本片段在参考文本页面的布局顺序不同,确定类别标签的方式不同。因此,可以根据参考文本片段的布局顺序确定该参考文本片段在参考文本页面的位置,若参考文本片段是该参考文本页面的第一个文本片段,即参考文本页面的布局顺序是1,可以认为该参考文本片段可能是跨页的文本片段。则可以判断该参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的,若是,可以认为确定的该参考文本页面的上一个文本页面的最后一个文本片段的类别标签比较准确,又因为若参考文本片段是跨页的文本片段,则参考文本片段的类别标签与上一个文本页面的最后一个文本片段的类别标签相同,因此,可以将上一个文本页面中最后一个文本片段的类别标签确定为该参考文本片段的类别标签。
示例性地,参见图4,图4是一种跨页的文本片段的示意图。假设参考文本片段是文本片段A,该文本片段A的多个类别置信度均小于预设阈值,且该文本片段A是参考文本页面a中的第一个文本片段,并且,参考文本页面a的上一个文本页面b中最后一个文本片段B的多个类别置信度中存在大于预设阈值的类别置信度,可以将文本片段B的类别标签确定为该文本片段A的类别标签。
本申请实施例中,在参考文本页面中第一个文本片段的类别置信度均小于预设阈值的情况下,可以认为该第一个文本片段可能是跨页的文本片段,则可以判断上一个文本页面的最后一个文本片段的类别置信度中是否存在大于预设阈值的情况,若是,则可以认为该最后一个文本片段的类别标签比较准确,因此,可以将该最后一个文本片段的类别标签确定为该参考文本页面中第一个文本片段的类别标签。如此,可以在出现分页的情况下准确地确定出每个文本片段的类别标签,提高确定的文本标签的准确率。
在一些实施例中,判断所述参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若否,将所述参考文本片段与所述参考文本页面的上一个文本页面中最后一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
也就是说,在判断上一个文本页面中最后一个文本片段的多个类别置信度中不存在大于预设阈值的类别置信度的情况下,说明该最后一个文本片段的内容可能比较少,或者最后一个文本片段的内容可能与主题关联不大,因此,文本分类模型无法确定该最后一个文本片段的类别标签,则可以将该参考文本片段和该最后一个文本片段合并得到合并文本片段,将该合并文本片段输入文本分类模型中,可以确定合并文本片段的类别标签。
示例性的,参见图5,图5是另一种跨页的文本片段的示意图。假设参考文本片段是文本片段A,该文本片段A的多个类别置信度均小于预设阈值,且该文本片段A是参考文本页面a中的第一个文本片段,并且,参考文本页面a的上一个文本页面b中最后一个文本片段B的多个类别置信度均小于预设阈值,可以将文本片段B和文本片段A合并得到合并文本片段,并将合并文本片段输入文本分类模型中,得到合并文本片段的类别标签。
作为一种示例,可以将合并文本片段输入文本分类模型,确定该合并文本片段的多个类别置信度,并将最大类别置信度对应的参考类别确定为该合并文本片段的类别标签。
需要说明的是,将合并文本片段输入文本分类模型,确定合并文本片段多个类别置信度的实现过程与确定每个文本片段的多个类别置信度的实现过程相同,其具体实现可以参见确定每个文本片段的多个类别置信度的相关描述,本申请实施例对此不做限定。
本申请实施例中,在参考文本页面中第一个文本片段的类别置信度均小于预设阈值的情况下,可以认为该第一个文本片段可能是跨页的文本片段,则可以判断上一个文本页面的最后一个文本片段的类别置信度中是否存在大于预设阈值的情况,若否,则可以认为该最后一个文本片段的类别标签也不够准确,该最后一个文本片段可能是跨页的文本片段,因此,可以将该最后一个文本片段和参考文本片段合并,确定合并得到的合并文本片段的类别标签。如此,可以在出现分页的情况下准确地确定出每个文本片段的类别标签,提高确定的文本标签的准确率。
需要说明的是,上述是在参考文本片段是参考文本页面的第一个文本片段的情况下确定参考文本片段的类别标签的具体实现,接下来说明在参考文本片段是参考文本页面的最后一个文本片段的情况下如何确定参考文本片段的类别标签。
在一些实施例中,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置之后,还包括:
若确定所述参考文本片段是所述参考文本页面中的最后一个文本片段,判断所述参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
若是,以所述参考文本页面的下一个文本页面中第一个文本片段的类别标签为所述参考文本片段的类别标签。
也就是说,对于参考文本片段来说,在参考文本片段的多个类别置信度均小于预设阈值的情况下,若根据参考文本片段的布局顺序确定参考文本片段是该参考文本页面的最后一个文本片段,可以认为该参考文本片段可能是跨页的文本片段。则可以判断该参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的,若是,可以认为确定的下一个文本页面的第一个文本片段的类别标签比较准确,又因为若参考文本片段是跨页的文本片段,则参考文本片段的类别标签与下一个文本页面的第一个文本片段的类别标签相同,因此,可以将下一个文本页面中第一个文本片段的类别标签确定为该参考文本片段的类别标签。
示例性地,参见图6,图6是又一种跨页的文本片段的示意图。假设参考文本片段是文本片段B,该文本片段B的多个类别置信度均小于预设阈值,且该文本片段B是参考文本页面b中的最后一个文本片段,并且,参考文本页面b的下一个文本页面a中第一个文本片段A的多个类别置信度中存在大于预设阈值的类别置信度,可以将文本片段A的类别标签确定为该文本片段B的类别标签。
本申请实施例中,在参考文本页面中最后一个文本片段的类别置信度均小于预设阈值的情况下,可以认为该最后一个文本片段可能是跨页的文本片段,则可以判断下一个文本页面的第一个文本片段的类别置信度中是否存在大于预设阈值的情况,若是,则可以认为该第一个文本片段的类别标签比较准确,因此,可以将该第一个文本片段的类别标签确定为该参考文本页面中最后一个文本片段的类别标签。如此,可以在出现分页的情况下准确地确定出每个文本片段的类别标签,提高确定的文本标签的准确率。
在一些实施例中,判断所述参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若否,将所述参考文本片段与所述参考文本页面的下一个文本页面中第一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
也就是说,在判断下一个文本页面中第一个文本片段的多个类别置信度中不存在大于预设阈值的类别置信度的情况下,说明该第一个文本片段的内容可能比较少,或者第一个文本片段的内容可能与主题关联不大,因此,文本分类模型无法确定该第一个文本片段的类别标签,则可以将该第一个文本片段和该参考文本片段合并得到合并文本片段,将该合并文本片段输入文本分类模型中,可以确定合并文本片段的类别标签。
示例性地,参见图5,假设参考文本片段是文本片段B,该文本片段B的多个类别置信度均小于预设阈值,且该文本片段B是参考文本页面b中的最后一个文本片段,并且,参考文本页面b的下一个文本页面a中第一个文本片段A的多个类别置信度均小于预设阈值,可以将文本片段B和文本片段A合并得到合并文本片段,并将合并文本片段输入文本分类模型中,得到合并文本片段的类别标签。
作为一种示例,可以将合并文本片段输入文本分类模型,确定该合并文本片段的多个类别置信度,并将最大类别置信度对应的参考类别确定为该合并文本片段的类别标签。
需要说明的是,将合并文本片段输入文本分类模型,确定合并文本片段多个类别置信度的实现过程与确定每个文本片段的多个类别置信度的实现过程相同,其具体实现可以参见确定每个文本片段的多个类别置信度的相关描述,本申请实施例对此不做限定。
本申请实施例中,在参考文本页面中最后一个文本片段的类别置信度均小于预设阈值的情况下,可以认为该第一个文本片段可能是跨页的文本片段,则可以判断上一个文本页面的第一个文本片段的类别置信度中是否存在大于预设阈值的情况,若否,则可以认为第一个文本片段的类别标签也不够准确,该第一个文本片段可能是跨页的文本片段,因此,可以将该参考文本片段和第一个文本片段合并,确定合并得到的合并文本片段的类别标签。如此,可以在出现分页的情况下准确地确定出每个文本片段的类别标签,提高确定的文本标签的准确率。
需要说明的是,上述是在参考文本片段是参考文本页面的第一个文本片段或最后一个文本片段的情况下确定参考文本片段的类别标签的具体实现,接下来说明在参考文本片段是参考文本页面的中间一个文本片段的情况下如何确定参考文本片段的类别标签。其中,中间文本片段是除了第一个文本片段和最后一个文本片段之外的文本片段。
在一些实施例中,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置之后,还包括:
若确定所述参考文本片段不是所述参考文本页面的第一个文本片段或最后一个文本片段,判断所述参考文本片段的上一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度;
若是,以所述参考文本片段的上一个文本片段的类别标签为所述参考文本片段的类别标签。
也就是说,若参考文本片段是参考文本页面的中间文本片段,可以认为该参考文本片段对应的文本区域可能分得不太准确,可能是将一个类别的文本区域分成了两个甚至更多个文本区域,因此,可以根据布局顺序判断该参考文本片段的上一个文本片段的多个类别置信度中是否存在大于预设阈值的,若是,可以认为确定的该上一个文本片段的类别标签比较准确,又因为若参考文本片段分区错误的文本片段,则参考文本片段的类别标签与上一个文本页片段的类别标签相同,因此,可以将上一个文本片段的类别标签确定为该参考文本片段的类别标签。
本申请实施例中,在参考文本片段的类别置信度均小于预设阈值的情况下,可以认为该参考文本片段可能是分区错误的文本片段,则可以判断上一个文本片段的类别置信度中是否存在大于预设阈值的情况,若是,则可以认为该上一个文本片段的类别标签比较准确,又因为若参考文本片段是分区错误的文本片段,则参考文本片段的类别标签与上一个文本片段的类别标签相同,因此,可以将该上一个文本片段的类别标签确定为该参考文本片段的类别标签。如此,可以在出现分区错误的情况下准确地确定出每个文本片段的类别标签,提高确定的文本标签的准确率。
在一些实施例中,判断所述参考文本片段的上一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若否,将所述参考文本片段与所述参考文本片段的上一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
也就是说,在判断上一个文本片段的多个类别置信度中不存在大于预设阈值的类别置信度的情况下,说明该上一个文本片段可能也是分区错误的文本文本片段,因此,文本分类模型无法准确确定该上一个文本片段的类别标签,则可以将该参考文本片段和该上一个文本片段合并得到合并文本片段,将该合并文本片段输入文本分类模型中,可以确定合并文本片段的类别标签。
作为一种示例,可以将合并文本片段输入文本分类模型,确定该合并文本片段的多个类别置信度,并将最大类别置信度对应的参考类别确定为该合并文本片段的类别标签。
需要说明的是,将合并文本片段输入文本分类模型,确定合并文本片段多个类别置信度的实现过程与确定每个文本片段的多个类别置信度的实现过程相同,其具体实现可以参见确定每个文本片段的多个类别置信度的相关描述,本申请实施例对此不做限定。
本申请实施例中,在参考文本片段的类别置信度均小于预设阈值的情况下,可以认为该参考文本片段可能是分区错误的文本片段,则可以判断上一个文本片段的类别置信度中是否存在大于预设阈值的情况,若否,则可以认为该上一个文本片段的类别标签也不够准确,该上一个文本片段也可能是分区错误的文本片段,又因为若参考文本片段和上一个文本片段均是分区错误的文本片段,则参考文本片段和上一个文本片段可能属于同一个类别,因此,可以将该上一个文本片段和参考文本片段合并,确定合并得到的合并文本片段的类别标签。如此,可以在出现分区错误的情况下准确地确定出每个文本片段的类别标签,提高确定的文本标签的准确率。
需要说明的是,上述是在参考文本片段的多个类别置信度中不存在大于预设阈值的类别置信度的情况下确定参考文本片段的类别标签的具体实现,接下来说明在参考文本片段的多个类别置信度中存在大于预设阈值的类别置信度的情况下如何确定参考文本片段的类别标签。
在另一种可能的实现方式中,判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若是,从大于所述预设阈值的类别置信度中确定最大类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
将所述最大类别置信度对应的参考类别确定为所述参考文本片段的类别标签。
也就是说,若参考文本片段的多个类别置信度中存在大于预设阈值的类别置信度,可以认为该文本片段对应的文本区域的划分是比较准确的,且该文本片段不是跨页的文本片段,因此,可以从大于预设阈值的类别置信度中确定最大类别置信度,将最大类别置信度对应的参考类别确定为该参考文本片段的类别标签。
示例性地,假设参考文本片段包括5个类别置信度,且分别是0.5、0.6、0.88、0.85、0.5,假设预设阈值是0.8,可以确定存在大于预设阈值的类别置信度0.85和0.88,则可以将0.88对应的参考类别工作经历确定为该参考文本片段的类别标签。
本申请实施例中,在参考文本片段的多个类别置信度中存在大于预设阈值的类别置信度的情况下,可以认为通过文本分类模型能够准确地确定该参考文本片段的类别标签,并且,可以确定最大类别置信度对应的参考类别为参考文本片段的类别标签。如此,可以准确地确定出每个文本片段的类别标签。
需要说明的是,上述是对需要与预设阈值进行比较的第一种情况的描述,接下来对不需要与预设阈值进行比较的第二种情况进行描述。
第二种情况:直接根据多个类别置信度确定每个文本片段的类别标签,不需要与预设阈值进行比较。
在实施中,基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签的具体实现可以包括:将每个文本片段的多个类别置信度中最大的类别置信度对应的参考类别确定为该文本片段的类别标签。
在该种情况下,由于类别置信度表示的是:参考文本的类别标签是该参考类别的概率,因此,可以将参考文本片段中最大的概率对应的参考类别确定为该参考文本片段的类别标签。例如,假设参考文本片段包括5个类别置信度,且分别是0.5、0.6、0.88、0.85、0.5,可以确定最大的类别置信度是0.88,假设0.88对应的参考类别是奖罚制度,则可以将奖罚制度确定为该参考文本片段的类别标签。
在本申请实施例中,可以不将多个类别置信度与预设阈值进行比较,直接选择最大类别置信度对应的参考类别为类别标签,则可以减少计算量,提高确定类别标签的效率。
在实施中,有些文本区域可以包括副标题或小标题,且这些副标题或小标题可能与正文的格式不同,由于这些副标题或小标题通常可以总结该文本区域的文本片段,因此,为了提高确定类别标签的准确率,还可以将文本片段的格式信息输入文本分类模型中,以便于模型可以获取到文本片段的格式信息,在确定类别标签时可以考虑到格式信息,进而实现更准确的分类。
在该种情况下,将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签之前,还包括:
确定所述至少一个文本区域中的文本片段的格式信息。
相应地,将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签的具体实现可以包括:将所述至少一个文本区域中的文本片段和所述文本片段的格式信息输入文本分类模型,确定每个文本片段的类别标签。
也就是说,可以在确定文本片段的类别标签时考虑文本片段的格式信息。因此,可以获取至少一个文本区域中的文本片段的格式信息,并将该格式信息和文本片段一起输入文本分类模型,可以得到每个文本片段的类别标签。
作为一种示例,可以通过预先训练好的格式识别模型提取文本片段的格式信息。例如,该格式信息可以包括加粗、字号、下划线、斜体等等。
作为一种示例,可以通过带有格式信息的样本文本对格式识别模型进行训练,使得格式识别模型具有识别文本的格式信息的功能。
示例性地,假设参考文本片段包括“XXXYYZZZZ”,且“XXX”是加粗的,则通过格式识别模型可以识别出该格式信息。可以将“XXXYYZZZZ”和“XXX加粗”输入文本分类模型中,则该文本分类模型可以确定该参考文本片段的类别标签是XXX。
本申请实施例中,由于文本片段中比较重要的词或可以表达主题的词通常会有不同于其他文字的格式信息,因此通过文本片段和格式信息确定文本片段的类别标签,可以提高确定文本标签的准确率。
在一些实施例中,所述文本分类模型包括特征提取层、注意力层和全连接层,将所述至少一个文本区域中的文本片段和所述文本片段的格式信息输入文本分类模型,确定每个文本片段的类别标签的具体实现可以包括:将每个文本片段和每个文本片段的格式信息输入所述特征提取层,得到每个文本片段的文本特征向量和每个格式信息的格式特征向量;将所述文本特征向量和所述格式特征向量输入所述注意力层,得到每个文本片段的结合对应的格式特征向量的第二融合特征向量;将每个文本片段的第二融合特征向量输入所述全连接层进行分类,确定每个文本片段属于多个参考类别的类别置信度;基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签。
也就是说,可以将每个文本片段和格式信息输入特征提取层进行特征提取,可以提取到每个文本片段的文本特征向量,以及格式信息的格式特征向量,将每个文本特征向量和格式特征向量输入注意力层,对每个文本片段的文本特征向量和与该文本片段对应的格式特征向量做注意力计算,可以得到每个文本片段结合该文本片段的格式特征向量的第二融合特征向量,将该第二融合特征向量输入全连接层,通过该全连接层确定每个文本片段属于多个参考类别的概率。
作为一种示例,将每个文本片段输入特征提取层后,可以先对每个文本片段进行分词处理,得到每个文本片段的多个词单元,然后对每个词单元进行词嵌入处理,可以得到每个词单元的特征向量,将同一个文本片段的多个词单元的特征向量拼接,则可以得到该文本片段的文本特征向量。同理,可以对格式信息进行分词处理,得到每个格式信息的多个词单元,然后对每个词单元进行词嵌入处理,可以得到每个词单元的特征向量,将同一个格式信息的多个词单元的特征向量拼接,则可以得到该格式信息的格式特征向量。
作为一种示例,将每个文本片段的文本特征向量和格式特征向量输入注意力层。对于任一参考文本片段,由于参考文本片段的格式信息包括是参考文本片段中某个词单元的格式,因此,可以将格式不同的词单元的特征向量和与其对应的格式特征向量进行注意力计算,则可以得到结合该参考文本片段的格式特征向量的第二融合特征向量,该第二融合特征向量是与整个参考文本片段对应的句子级的特征向量。
作为一种示例,全连接层可以称为Fully Connected Layer,且该全连接层中包括激活函数。示例性地,该激活函数可以是Softmax函数。该Softmax函数可以计算每个目标类别在所有可能的类别中的概率。且通过Softmax对输入进行归一化处理后,输出的概率的范围是0到1,所有概率的和等于1。对于参考文本片段来说,可以用矩阵表示该参考文本片段的第二融合特征向量,则第二融合特征向量可以是1×M的矩阵,该1×M的矩阵可以称为第二融合特征向量的矩阵表示,将该1×M的矩阵与全连接层的参数组成的转换矩阵M×N相乘,可以得到一个1×N的矩阵,该矩阵中每一列的数值表示参考文本片段与参考类别的相关性分值,再将该1×N的矩阵输入激活函数进行处理,可以得到每个参考类别可能是参考文本片段的类别标签的概率,即可以得到参考文本片段的多个类别置信度。
本申请实施例中,可以基于文本片段和格式信息,通过文本分类模型对文本片段进行分类,并确定每个文本片段的类别标签,在分类的过程中考虑文本片段的格式信息,可以提高分类的准确性。并且,确定每个文本片段的类别标签后,若需要从待处理文本中查询文本内容,可以根据需要查询的内容的类别标签,从该类别标签对应的文本片段中查询,可以避免查询出错误的文本内容,且能够更加精准地定位需要查询的文本内容,可以提高查询效率。
需要说明的是,通过上述描述已经可以实现本申请提供的文本处理方法,接下来对确定文本片段的标签后,如何根据标签查询需要的文本内容的具体实现进行说明。
在一些实施例中,若想要根据标签查询需要的文本内容,所述方法还包括:接收查询指令,其中,所述查询指令包括待查询类别标签;响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段。
也就是说,若用户想要查询待处理文本中的文本内容,可以通过交互界面点击查询选项,则终端接收到查询指令,且该查询指令中包括待查询类别标签,然后可以根据该待查询类别标签获取目标文本片段。
以待处理文本是简历为例,假设想要查询多个面试者的学历信息,则用户可以通过交互界面点击查询选项,且可以选择待查询标签“学习经历”,则终端可以接收到包括“学习经历”的查询指令,可以获取与该“学习经历”对应的目标文本片段。
本申请实施例中,将待处理文本划分为多个文本片段,并确定每个文本片段的类别标签,如此,在接收到查询指令时,可以根据类别标签精准快速地查询到想要的内容,提高了信息查询效率。
进一步地,接收查询指令之前,还包括:将每个文本片段的类别标签与每个文本片段对应存储至数据库,其中,所述数据库包括至少一个不同类别的文本片段;
相应地,响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段的具体实现可以包括:响应于所述查询指令,从所述数据库中查询所述待查询类别标签对应的文本片段,并以所述文本片段为目标文本片段。
作为一种示例,数据库可以是终端上配置的数据库,或者,数据库可以是其他设备配置的数据库。
也就是说,在确定每个文本片段的类别标签后,可以将文本片段与其对应的类别标签对应存储至数据库。在该种情况下,接收到查询指令后,可以从数据库中查询与待查询类别标签对应的文本片段,并将查询到的文本片段确定为目标文本片段。
例如,假设待处理文本是XX合同,且该XX合同在经过上述处理后可以划分为甲方信息、乙方信息、合同期限等,且可以将每个类别标签和对应的文本片段存储至数据库中。若想要查询的是工作内容,则可以从数据库中查询与“合同期限”对应的文本片段,并将与“合同期限”对应的文本片段作为目标文本片段。
需要说明的是,若同一个待处理文本中存在类别标签相同的至少两个文本片段,可以将该至少两个文本片段合并为合并文本片段,并将该合并文本片段与该类别标签对应存储至数据库。
本申请实施例中,将文本片段和其对应的类别标签对应存储至数据库,可便于后续根据类别标签查询文本片段,提高查询效率。
进一步地,所述查询指令还包括预设条件,响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段之后,还包括:根据所述预设条件对所述目标文本片段进行筛选,获取满足所述预设条件的文本片段。
也就是说,在一些情况下,可能查询指令中还包括预设条件,在根据待查询标签确定目标文本片段后,可以根据预设条件对目标文本片段进行进一步筛选,将满足预设条件的文本片段筛选出来。
本申请实施例中,确定目标文本片段后可以按照预设条件对目标文本片段进行筛选,在确定待查询类别标签的情况下,还能够按照各种条件或规则查询文本内容,使得文本查询更加灵活和精准。
在一些实施例中,所述预设条件包括关键字,获取满足所述预设条件的文本片段的具体实现可以包括:获取所述目标文本片段中存在所述关键字的文本片段。
也就是说,预设条件可能是关键字,则可以确定要查询的是与待查询类别标签对应,且包括关键字的文本片段,即可以获取目标文本片段中包括关键字的文本片段。
例如,假设目标文本片段的数量是3个,且待查询类别标签是“学习经历”,关键字是“硕士”,且目标文本片段1包括“本科XXXX大学”,目标文本片段2包括“本科XX大学硕士YY大学”,目标文本片段3包括“学历本科”,则可以确定包括关键字的是目标文本片段1和2,则可以获取目标文本片段1和目标文本片段2。
本说明书提供的文本处理方法,可以确定待处理文本中的至少一个文本区域;对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。本方案提供的文本处理方法对待处理文本的格式不进行限制,该方法将待处理文本中提取的文本片段按照类别进行划分,并为每个文本片段打上类别标签,在后续进行信息提取时,不需要从整个待处理文本中筛选需要的内容,而是根据类别标签从相应的文本片段中提取信息,不仅减少了工作量,而且能够提高文本抽取的准确性,提高信息抽取的效率,且可以避免抽取得到错误的文本内容。
下述结合附图7,以本说明书提供的文本处理方法在简历信息提取中的应用为例,对所述文本处理方法进行进一步说明。其中,图7示出了本说明书一实施例提供的一种应用简历信息提取的文本处理方法的处理流程图,具体包括以下步骤:
步骤702:将获取的简历转换成PDF格式,并确定格式转换后的简历中每个页面的至少一个文本区域。
由于简历文件格式多样,如doc、docx、pdf、wps等,从不同格式的文件提取文字的方法往往不同,造成效果差异,缺少通用方法。并且简历信息抽取往往是基于篇章级,由于简历书写样式多样,基于篇章的信息抽取往往出现不同类别的信息混淆,例如把工作经历的公司名称抽成项目经历的公司名称。因此,在本申请实施例中,可以预先对简历文本进行分区域并确定每个文本区域的文本片段的标签(例如先将文本拆分成工作经历和项目经历),在此基础上抽取公司名称、职位等,就可以避免出现混淆。
例如,参见图8,图8是一种简历的示意图。参见图8,该简历包括两个页面,可以确定第一页中有四个文本区域,第二页有两个文本区域。
步骤704:对至少一个文本区域中的文本内容进行识别,确定该至少一个文本区域中的文本片段。
继续参见图8,对第一页的四个文本区域中的文本内容进行识别,可以得到第一页中第一个文本区域的文本片段是“姓名:张三年龄:30电话:1xxxxxxxxxx邮箱:xxxxx@xx.com籍贯:xx省现住址:xx市xx区”,第二个文本区域的文本片段“求职意向职业:高级财务经理期望薪资:20k-25k”,第三个文本区域的文本片段是“教育经历学校名称:北京某大学就读时间:20xx.09-20xx.06专业:计算机技术学位:硕士研究生”,第四个文本区域的文本片段是“工作经历公司名称:北京某公司职位:高级财务经理在职时间:20xx.07-至今税前月薪:15k-20k工作描述:1.xxxxxxxxxx;”。对第二页的两个文本区域中的文本内容进行识别,可以得到第二页中第一个文本区域的文本片段是“2.xxxxxxxxxxxxxxxxxxxx;3.xxxxxxxxxxxxxxxxxxxx。”第二页中第二个文本区域的文本片段是“自我评价乐观向上、善于沟通和聆听,xxxx,有xx经验,擅长xxx,能有效满足公司需求。”
步骤706:按照从上到下从左到右的顺序,对参考文本页面中至少一个文本区域进行编号,根据每个文本区域的编号确定相应的文本片段的布局顺序。
继续参见图8,对第一页中四个文本区域分别进行编号,以及对第二页中四个文本区域分别进行编号。
步骤708:确定参考文本页面中至少一个文本区域中的文本片段的格式信息。
继续参见图8,以第一页中编号是4的文本区域为例,确定该文本区域的格式信息是“工作经历”这四个字加粗且字号是二号,“公司名称”、“职位”、“在职时间”和“税前月薪”这几个字加粗且字号是四号。以第二页中编号是1的文本区域为例,确定该文本区域的格式信息是“2.xxxxxxxxxxxxxxxxxxxx;3.xxxxxxxxxxxxxxxxxxxx”这些字的字号均是四号。
步骤710:将该参考文本页面中至少一个文本区域中的文本片段和所述文本片段的格式信息输入文本分类模型,确定每个文本片段的多个类别置信度。
例如,假设多个类别包括个人信息、教育经历、工作经历、项目经历、自我评价、求职意向。以第一页中文本区域1的文本片段为例,假设将该文本片段和其格式信息输入文本分类模型,可以得到文本区域1的文本片段的六个类别置信度,该6个类别置信度是该文本片段分别属于上述6个类别的概率。
步骤712:判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,若否,执行步骤714,若是,执行步骤728。
步骤714:根据该参考文本片段的布局顺序判断该参考文本片段在参考文本页面中的位置。
步骤716:若确定所述参考文本片段是所述参考文本页面中的第一个文本片段,判断所述参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,若是,执行步骤718,若否,执行步骤720。
以图8的第二页中文本区域1的文本片段为参考文本片段,以预设阈值是0.8为例。作为一种示例,若该文本片段的6个类别置信度分别是0.02、0.03、0.7、0.15、0.04、0.06,其中,0.02表示该文本片段的类别是个人信息的概率,0.03表示该文本片段的类别是教育经历的概率,0.7表示该文本片段的类别是工作经历的概率,0.15表示该文本片段的类别是项目经历的概率,0.04表示该文本片段的类别是自我评价的概率,0.06表示该文本片段的类别是求职意向的概率。可以确定该6个类别置信度中不存在大于预设阈值的类别置信度,且该参考文本片段是第二页中第一个文本片段,可以继续判断第一页中最后一个文本片段的多个类别置信度。
步骤718:以所述参考文本页面的上一个文本页面中最后一个文本片段的类别标签为所述参考文本片段的类别标签。
继续上述步骤716的举例,作为一种示例,假设图8第一页中最后一个文本片段,即第一页中文本区域4的文本片段的6个类别置信度分别是0.02、0.03、0.85、0.05、0.01、0.04,其中,0.02表示该文本片段的类别是个人信息的概率,0.03表示该文本片段的类别是教育经历的概率,0.8表示该文本片段的类别是工作经历的概率,0.05表示该文本片段的类别是项目经历的概率,0.01表示该文本片段的类别是自我评价的概率,0.04表示该文本片段的类别是求职意向的概率。可以确定该6个类别置信度中存在大于预设阈值的类别置信度,则可以确定该第一页中文本区域4的文本片段的类别标签是工作经历,则可以将该参考文本片段即第二页中文本区域1的文本片段的类别标签确定为工作经历。
步骤720:将参考文本片段与该参考文本页面的上一个文本页面中最后一个文本片段合并,得到合并文本片段,将该合并文本片段输入文本分类模型,确定合并文本片段的类别标签。
继续上述步骤716的举例,作为另一种示例,假设图8第一页中最后一个文本片段,即第一页中文本区域4的文本片段的6个类别置信度分别是0.02、0.03、0.75、0.15、0.01、0.04,其中,0.02表示该文本片段的类别是个人信息的概率,0.03表示该文本片段的类别是教育经历的概率,0.75表示该文本片段的类别是工作经历的概率,0.15表示该文本片段的类别是项目经历的概率,0.01表示该文本片段的类别是自我评价的概率,0.04表示该文本片段的类别是求职意向的概率。可以确定该6个类别置信度中不存在大于预设阈值的类别置信度,则可以将第一页中最后一个文本片段和第二页中第一个文本片段进行合并,得到合并文本片段,将合并文本片段输入文本分类模型,确定合并文本片段的类别标签。
步骤722:若确定所述参考文本片段是所述参考文本页面中的最后一个文本片段,判断所述参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,若是,执行步骤724,若否,执行步骤726。
以图8的第一页中文本区域4的文本片段为参考文本片段,假设该文本片段的6个置信度均小于预设阈值,可以判断第二页中文本区域1的文本片段的多个类别置信度。
步骤724:以所述参考文本页面的下一个文本页面中第一个文本片段的类别标签为所述参考文本片段的类别标签。
继续上述步骤722的举例,作为一种示例,假设图8第二页中文本区域1的文本片段的6个类别置信度分别是0.02、0.03、0.85、0.05、0.01、0.04,其中,0.02表示该文本片段的类别是个人信息的概率,0.03表示该文本片段的类别是教育经历的概率,0.8表示该文本片段的类别是工作经历的概率,0.05表示该文本片段的类别是项目经历的概率,0.01表示该文本片段的类别是自我评价的概率,0.04表示该文本片段的类别是求职意向的概率。可以确定该6个类别置信度中存在大于预设阈值的类别置信度,则可以确定该第二页中文本区域1的文本片段的类别标签是工作经历,进而可以将第一页中文本区域4的文本片段的类别标签确定为工作经历。
步骤726:将所述参考文本片段与所述参考文本页面的下一个文本页面中第一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
继续上述步骤722的举例,作为另一种示例,假设图8第二页中文本区域1的文本片段的6个类别置信度分别是0.02、0.03、0.75、0.15、0.01、0.04,其中,0.02表示该文本片段的类别是个人信息的概率,0.03表示该文本片段的类别是教育经历的概率,0.75表示该文本片段的类别是工作经历的概率,0.15表示该文本片段的类别是项目经历的概率,0.01表示该文本片段的类别是自我评价的概率,0.04表示该文本片段的类别是求职意向的概率。可以确定该6个类别置信度中不存在大于预设阈值的类别置信度,则可以将第一页中最后一个文本片段和第二页中第一个文本片段进行合并,得到合并文本片段,将合并文本片段输入文本分类模型,确定合并文本片段的类别标签。
步骤728:从大于所述预设阈值的类别置信度中确定最大类别置信度,将所述最大类别置信度对应的参考类别确定为所述参考文本片段的类别标签。
以图8第一页中文本区域1的文本片段为参考文本片段,以预设阈值是0.3为例,若该文本片段的6个类别置信度分别是0.9、0.015、0.025、0.02、0.03、0.01,其中,0.9表示该文本片段的类别是个人信息的概率,0.015表示该文本片段的类别是教育经历的概率,0.025表示该文本片段的类别是工作经历的概率,0.02表示该文本片段的类别是项目经历的概率,0.03表示该文本片段的类别是自我评价的概率,0.01表示该文本片段的类别是求职意向的概率,该6个类别置信度中存在大于预设阈值的类别置信度,且大于预设阈值的类别置信度中的最大类别置信度是0.9,则可以将个人信息确定为该参考文本片段的类别标签。
步骤730:将每个文本片段的类别标签与每个文本片段对应存储至数据库,其中,所述数据库包括至少一个不同类别的文本片段。
步骤732:接收查询指令,其中,所述查询指令包括待查询类别标签。
例如,接收查询指令,该查询指令中包括的待查询类别标签是“教育经历”。
步骤734:响应于所述查询指令,从所述数据库中查询所述待查询类别标签对应的文本片段,并以所述文本片段为目标文本片段。
例如,可以从数据库中查询与“教育经历”对应的文本片段,假设文本片段包括文本片段A“教育经历学校名称:北京某大学就读时间:20xx.09-20xx.06学位:硕士研究生”和文本片段B“教育经历学校名称:南京某大学就读时间:20xx.09-20xx.06学位:学士”,则可以将该文本片段A和文本片段B确定为目标文本片段。
步骤736:根据所述预设条件对所述目标文本片段进行筛选,获取满足所述预设条件的文本片段。
继续上述举例,假设预设条件是包括关键字“硕士”,则可以将目标文本片段中的文本片段A确定为满足预设条件的文本片段。
本说明书提供的文本处理方法,确定待处理文本中的至少一个文本区域;对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。本方案提供的文本处理方法对待处理文本的格式不进行限制,该方法将待处理文本中提取的文本片段按照类别进行划分,并为每个文本片段打上类别标签,在后续进行信息提取时,不需要从整个待处理文本中筛选需要的内容,而是根据类别标签从相应的文本片段中提取信息,不仅减少了工作量,而且能够提高文本抽取的准确性,提高信息抽取的效率,且可以避免抽取得到错误的文本内容。
与上述方法实施例相对应,本说明书还提供了文本处理装置实施例,图9示出了本说明书一实施例提供的一种文本处理装置的结构示意图。如图9所示,该装置包括:
第一确定模块902,被配置为确定待处理文本中的至少一个文本区域;
第二确定模块904,被配置为对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
第三确定模块906,被配置为将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
可选地,第三确定模块906,被配置为:
将每个文本区域中的文本片段输入文本分类模型,确定每个文本片段的多个类别置信度,其中,每个文本片段的每个类别置信度用于表征所述文本片段属于参考类别的概率;
基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签。
可选地,第二确定模块904还被配置为:
若所述待处理文本包括至少两个文本页面,其中,每个文本页面包括至少一个文本区域,且每个文本区域包括至少一个文本片段,按照从上到下从左到右的顺序,对参考文本页面中至少一个文本区域进行编号,根据每个文本区域的编号确定相应的文本片段的布局顺序,其中,所述参考文本页面是所述至少两个文本页面中的任意一个;
相应地,第三确定模块906被配置为:
判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
若否,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置;
若确定所述参考文本片段是所述参考文本页面中的第一个文本片段,判断所述参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度;
若是,以所述参考文本页面的上一个文本页面中最后一个文本片段的类别标签为所述参考文本片段的类别标签。
可选地,第三确定模块906还配置为:
若否,将所述参考文本片段与所述参考文本页面的上一个文本页面中最后一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
可选地,第三确定模块906还配置为:
若确定所述参考文本片段是所述参考文本页面中的最后一个文本片段,判断所述参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
若是,以所述参考文本页面的下一个文本页面中第一个文本片段的类别标签为所述参考文本片段的类别标签。
可选地,第三确定模块906还配置为:
若否,将所述参考文本片段与所述参考文本页面的下一个文本页面中第一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
可选地,第三确定模块906还配置为:
若确定所述参考文本片段不是所述参考文本页面的第一个文本片段或最后一个文本片段,判断所述参考文本片段的上一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度;
若是,以所述参考文本片段的上一个文本片段的类别标签为所述参考文本片段的类别标签。
可选地,第三确定模块906还配置为:
若否,将所述参考文本片段与所述参考文本片段的上一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
可选地,第三确定模块906还配置为:
若是,从大于所述预设阈值的类别置信度中确定最大类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
将所述最大类别置信度对应的参考类别确定为所述参考文本片段的类别标签。
可选地,第三确定模块906,被配置为:
将每个文本片段的多个类别置信度中最大的类别置信度对应的参考类别确定为该文本片段的类别标签。
可选地,所述装置还包括:
接收模块,被配置为接收查询指令,其中,所述查询指令包括待查询类别标签;
获取模块,被配置为响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段。
可选地,接收模块还被配置为:
将每个文本片段的类别标签与每个文本片段对应存储至数据库,其中,所述数据库包括至少一个不同类别的文本片段;
相应地,获取模块还被配置为:
响应于所述查询指令,从所述数据库中查询所述待查询类别标签对应的文本片段,并以所述文本片段为目标文本片段。
可选地,获取模块还被配置为:
所述查询指令还包括预设条件,根据所述预设条件对所述目标文本片段进行筛选,获取满足所述预设条件的文本片段。
可选地,获取模块被配置为:
所述预设条件包括关键字,获取所述目标文本片段中存在所述关键字的文本片段。
可选地,第三确定模块906,被配置为:
所述文本分类模型包括特征提取层、注意力层和全连接层,将每个文本片段输入所述特征提取层,得到每个文本片段的文本特征向量;
将每个文本片段的文本特征向量输入所述注意力层,得到每个文本片段的第一融合特征向量;
将所述第一融合特征向量输入所述全连接层进行分类,确定每个文本片段属于多个参考类别的类别置信度。
可选地,第三确定模块906还被配置为:
确定所述至少一个文本区域中的文本片段的格式信息;
将所述至少一个文本区域中的文本片段和所述文本片段的格式信息输入文本分类模型,确定每个文本片段的类别标签。
可选地,第三确定模块906被配置为:
所述文本分类模型包括特征提取层、注意力层和全连接层,将每个文本片段和每个文本片段的格式信息输入所述特征提取层,得到每个文本片段的文本特征向量和每个格式信息的格式特征向量;
将所述文本特征向量和所述格式特征向量输入所述注意力层,得到每个文本片段的结合对应的格式特征向量的第二融合特征向量;
将每个文本片段的第二融合特征向量输入所述全连接层进行分类,确定每个文本片段属于多个参考类别的类别置信度;
基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签。
本方案提供的文本处理方法对待处理文本的格式不进行限制,该方法将待处理文本中提取的文本片段按照类别进行划分,并为每个文本片段打上类别标签,在后续进行信息提取时,不需要从整个待处理文本中筛选需要的内容,而是根据类别标签从相应的文本片段中提取信息,不仅减少了工作量,而且能够提高文本抽取的准确性,提高信息抽取的效率,且可以避免抽取得到错误的文本内容。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
图10示出了根据本说明书一实施例提供的一种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接,数据库1050用于保存数据。
计算设备1000还包括接入设备1040,接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。
其中,处理器1020用于执行如下计算机可执行指令:
确定待处理文本中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
确定待处理文本中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (20)
1.一种文本处理方法,其特征在于,包括:
确定待处理文本中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
2.如权利要求1所述的文本处理方法,其特征在于,将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签,包括:
将每个文本区域中的文本片段输入文本分类模型,确定每个文本片段的多个类别置信度,其中,每个文本片段的每个类别置信度用于表征所述文本片段属于参考类别的概率;
基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签。
3.如权利要求2所述的文本处理方法,其特征在于,若所述待处理文本包括至少两个文本页面,其中,每个文本页面包括至少一个文本区域,且每个文本区域包括至少一个文本片段,对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段之后,还包括:
按照从上到下从左到右的顺序,对参考文本页面中至少一个文本区域进行编号,根据每个文本区域的编号确定相应的文本片段的布局顺序,其中,所述参考文本页面是所述至少两个文本页面中的任意一个;
相应地,基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签,包括:
判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
若否,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置;
若确定所述参考文本片段是所述参考文本页面中的第一个文本片段,判断所述参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度;
若是,以所述参考文本页面的上一个文本页面中最后一个文本片段的类别标签为所述参考文本片段的类别标签。
4.如权利要求3所述的文本处理方法,其特征在于,判断所述参考文本页面的上一个文本页面中最后一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若否,将所述参考文本片段与所述参考文本页面的上一个文本页面中最后一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
5.如权利要求3所述的文本处理方法,其特征在于,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置之后,还包括:
若确定所述参考文本片段是所述参考文本页面中的最后一个文本片段,判断所述参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
若是,以所述参考文本页面的下一个文本页面中第一个文本片段的类别标签为所述参考文本片段的类别标签。
6.如权利要求5所述的文本处理方法,其特征在于,判断所述参考文本页面的下一个文本页面中第一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若否,将所述参考文本片段与所述参考文本页面的下一个文本页面中第一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
7.如权利要求3所述的文本处理方法,其特征在于,根据所述参考文本片段的布局顺序判断所述参考文本片段在所述参考文本页面中的位置之后,还包括:
若确定所述参考文本片段不是所述参考文本页面的第一个文本片段或最后一个文本片段,判断所述参考文本片段的上一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度;
若是,以所述参考文本片段的上一个文本片段的类别标签为所述参考文本片段的类别标签。
8.如权利要求7所述的文本处理方法,其特征在于,判断所述参考文本片段的上一个文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若否,将所述参考文本片段与所述参考文本片段的上一个文本片段合并,得到合并文本片段,将所述合并文本片段输入所述文本分类模型中,确定所述合并文本片段的类别标签。
9.如权利要求3所述的文本处理方法,其特征在于,判断参考文本片段的多个类别置信度中是否存在大于预设阈值的类别置信度之后,还包括:
若是,从大于所述预设阈值的类别置信度中确定最大类别置信度,其中,所述参考文本片段是所述参考文本页面中任一文本片段;
将所述最大类别置信度对应的参考类别确定为所述参考文本片段的类别标签。
10.如权利要求2所述的文本处理方法,其特征在于,基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签,包括:
将每个文本片段的多个类别置信度中最大的类别置信度对应的参考类别确定为所述文本片段的类别标签。
11.如权利要求1-10任一项所述的文本处理方法,其特征在于,所述方法还包括:
接收查询指令,其中,所述查询指令包括待查询类别标签;
响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段。
12.如权利要求11所述的文本处理方法,其特征在于,接收查询指令之前,还包括:
将每个文本片段的类别标签与每个文本片段对应存储至数据库,其中,所述数据库包括至少一个不同类别的文本片段;
相应地,响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段,包括:
响应于所述查询指令,从所述数据库中查询所述待查询类别标签对应的文本片段,并以所述文本片段为目标文本片段。
13.如权利要求11所述的文本处理方法,其特征在于,所述查询指令还包括预设条件,响应于所述查询指令,获取所述待查询类别标签对应的目标文本片段之后,还包括:
根据所述预设条件对所述目标文本片段进行筛选,获取满足所述预设条件的文本片段。
14.如权利要求13所述的文本处理方法,其特征在于,所述预设条件包括关键字,获取满足所述预设条件的文本片段,包括:
获取所述目标文本片段中存在所述关键字的文本片段。
15.如权利要求2所述的文本处理方法,其特征在于,所述文本分类模型包括特征提取层、注意力层和全连接层,将每个文本区域中的文本片段输入文本分类模型,确定每个文本片段属于多个参考类别的类别置信度,包括:
将每个文本片段输入所述特征提取层,得到每个文本片段的文本特征向量;
将每个文本片段的文本特征向量输入所述注意力层,得到每个文本片段的第一融合特征向量;
将所述第一融合特征向量输入所述全连接层进行分类,确定每个文本片段属于多个参考类别的类别置信度。
16.如权利要求1所述的文本处理方法,其特征在于,将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签之前,还包括:
确定所述至少一个文本区域中的文本片段的格式信息;
相应地,将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签,包括:
将所述至少一个文本区域中的文本片段和所述文本片段的格式信息输入文本分类模型,确定每个文本片段的类别标签。
17.如权利要求16所述的文本处理方法,其特征在于,所述文本分类模型包括特征提取层、注意力层和全连接层,将所述至少一个文本区域中的文本片段和所述文本片段的格式信息输入文本分类模型,确定每个文本片段的类别标签,包括:
将每个文本片段和每个文本片段的格式信息输入所述特征提取层,得到每个文本片段的文本特征向量和每个格式信息的格式特征向量;
将所述文本特征向量和所述格式特征向量输入所述注意力层,得到每个文本片段的结合对应的格式特征向量的第二融合特征向量;
将每个文本片段的第二融合特征向量输入所述全连接层进行分类,确定每个文本片段属于多个参考类别的类别置信度;
基于每个文本片段的多个类别置信度,确定每个文本片段的类别标签。
18.一种文本处理装置,其特征在于,包括:
第一确定模块,被配置为确定待处理文本中的至少一个文本区域;
第二确定模块,被配置为对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
第三确定模块,被配置为将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
19.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
确定待处理文本中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本片段;
将所述至少一个文本区域中的文本片段输入文本分类模型,确定每个文本片段的类别标签。
20.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至17任意一项所述文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110626958.1A CN113362026B (zh) | 2021-06-04 | 2021-06-04 | 文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110626958.1A CN113362026B (zh) | 2021-06-04 | 2021-06-04 | 文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362026A true CN113362026A (zh) | 2021-09-07 |
CN113362026B CN113362026B (zh) | 2024-08-23 |
Family
ID=77532493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110626958.1A Active CN113362026B (zh) | 2021-06-04 | 2021-06-04 | 文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362026B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387431A (zh) * | 2022-01-12 | 2022-04-22 | 杭州电子科技大学 | 基于语义分析的多行文字纸质表格ocr方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776495A (zh) * | 2016-11-23 | 2017-05-31 | 北京信息科技大学 | 一种文档逻辑结构重建方法 |
CN107844468A (zh) * | 2017-10-16 | 2018-03-27 | 平安科技(深圳)有限公司 | 表格信息跨页识别方法、电子设备及计算机可读存储介质 |
CN109766438A (zh) * | 2018-12-12 | 2019-05-17 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN111639487A (zh) * | 2020-04-30 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 基于分类模型的字段抽取方法、装置、电子设备及介质 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN112287111A (zh) * | 2020-12-18 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
CN112380825A (zh) * | 2020-11-17 | 2021-02-19 | 平安科技(深圳)有限公司 | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 |
CN112668316A (zh) * | 2020-11-17 | 2021-04-16 | 国家计算机网络与信息安全管理中心 | word文档关键信息抽取方法 |
-
2021
- 2021-06-04 CN CN202110626958.1A patent/CN113362026B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776495A (zh) * | 2016-11-23 | 2017-05-31 | 北京信息科技大学 | 一种文档逻辑结构重建方法 |
CN107844468A (zh) * | 2017-10-16 | 2018-03-27 | 平安科技(深圳)有限公司 | 表格信息跨页识别方法、电子设备及计算机可读存储介质 |
CN109766438A (zh) * | 2018-12-12 | 2019-05-17 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN111639487A (zh) * | 2020-04-30 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 基于分类模型的字段抽取方法、装置、电子设备及介质 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN112380825A (zh) * | 2020-11-17 | 2021-02-19 | 平安科技(深圳)有限公司 | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 |
CN112668316A (zh) * | 2020-11-17 | 2021-04-16 | 国家计算机网络与信息安全管理中心 | word文档关键信息抽取方法 |
CN112287111A (zh) * | 2020-12-18 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387431A (zh) * | 2022-01-12 | 2022-04-22 | 杭州电子科技大学 | 基于语义分析的多行文字纸质表格ocr方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113362026B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN110705265A (zh) | 合同条款风险识别方法以及装置 | |
CN110781672B (zh) | 基于机器智能的题库生产方法及系统 | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN114090776A (zh) | 文档解析方法、系统及装置 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN111144102A (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
CN115114916A (zh) | 用户反馈数据的分析方法、装置及计算机设备 | |
CN118093689A (zh) | 基于rpa多模态文档解析与结构化处理系统 | |
CN113362026B (zh) | 文本处理方法及装置 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN113868389B (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN114896404A (zh) | 文档分类方法及装置 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |