CN112699923A - 文档分类预测方法、装置、计算机设备及存储介质 - Google Patents

文档分类预测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112699923A
CN112699923A CN202011521171.0A CN202011521171A CN112699923A CN 112699923 A CN112699923 A CN 112699923A CN 202011521171 A CN202011521171 A CN 202011521171A CN 112699923 A CN112699923 A CN 112699923A
Authority
CN
China
Prior art keywords
document
sample
training
vector
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011521171.0A
Other languages
English (en)
Inventor
刘玉
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011521171.0A priority Critical patent/CN112699923A/zh
Publication of CN112699923A publication Critical patent/CN112699923A/zh
Priority to PCT/CN2021/125227 priority patent/WO2022134805A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Abstract

本发明涉及分类模型技术领域,揭露了一种文档分类预测方法、装置、计算机设备及存储介质。该方法通过接收包含目标文档的预测请求指令;通过预设文档解析模型对目标文档进行文档解析,得到与目标文档对应的文字信息以及与文字信息对应的坐标信息;将文字信息以及坐标信息输入至预设预训练语言模型中,对文字信息以及坐标信息进行向量提取,得到与目标文档对应的文档表示向量;获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个样本文档向量关联一个文档类别;确定文档表示向量与各样本文档向量之间的文档向量距离,并根据各文档向量距离确定目标文档对应的文档类别。本发明提高了文档分类的效率。

Description

文档分类预测方法、装置、计算机设备及存储介质
技术领域
本发明涉及分类模型技术领域,尤其涉及一种文档分类预测方法、装置、计算机设备及存储介质。
背景技术
目前各个领域中均包括数以万计的pdf文档,例如在学术领域存在pdf 论文,在专业领域中存在pdf数据报告等。在越来越多pdf文档产生过后,如何对这些pdf文档进行有效分类并且对新文档进行文档类别预测是一种挑战。
现有技术中的文档分类模型一般都需要大量的标注数据进行训练,才拥有较为可观的分类精度,但是这些文档分类模型容易受到数据不平衡的影响,例如某种类别的训练数据很少,则模型在这个分类上的分类精度会较低,进而导致文档分类准确率较低,并且人工标注数据需要花费大量的时间,不利于模型在各个领域中进行部署应用。
发明内容
本发明实施例提供一种文档分类预测方法、装置、计算机设备及存储介质,以解决人工标注数据较少导致文档分类准确率较低的问题。
一种文档分类预测方法,包括:
接收包含目标文档的预测请求指令;
通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
一种文档分类预测装置,包括:
预测请求指令接收模块,用于接收包含目标文档的预测请求指令;
文档解析模块,用于通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
第一向量提取模块,用于将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
文档向量集获取模块,用于获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
文档类别确定模块,用于确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档分类预测方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文档分类预测方法。
上述文档分类预测方法、装置、计算机设备及存储介质,该方法通过接收包含目标文档的预测请求指令;通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
本发明通过引入文档的文字信息以及对应的坐标信息,并根据该文字信息和坐标信息对应的文档表示向量,与样本文档向量之间的文档向量距离确定目标文档的文档类别。如此,在样本文档较少的情况下,依然可以对新的文档进行分类,如遇到与样本文档均不匹配的情况下,可以视为一个新的文档类别,进而在不断对新的文档进行分类的过程中,可以补足各个文档类别下的文档数量,而不需要不断更换预设文档解析模型或者预设预训练语言模型对新的文档进行分类,提高了文档分类的效率以及便捷性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文档分类预测方法的一应用环境示意图;
图2是本发明一实施例中文档分类预测方法的一流程图;
图3是本发明一实施例中文档分类预测方法中步骤S50的一流程图;
图4是本发明一实施例中文档分类预测方法的另一流程图;
图5是本发明一实施例中文档分类预测装置的一原理框图;
图6是本发明一实施例中文档分类预测装置的另一原理框图;
图7是本发明一实施例中文档分类预测装置中文档类别确定模块的一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文档分类预测方法,该文档分类预测方法可应用如图1所示的应用环境中。具体地,该文档分类预测方法应用在文档分类预测系统中,该文档分类预测系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决人工标注数据较少导致文档分类准确率较低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文档分类预测方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:接收包含目标文档的预测请求指令;
可以理解地,该预测请求指令可以为预设发送方(如目标文档的撰写者,或者文档管理人员)发送的指令。在本实施例中,目标文档指的是具有规律性标题,且暂未进行文档分类的文档;其中,规律性标题指的是存在若干填充区域的标题,如公司名称区域,年份区域;该规律性标题可供文档创建者按照填充区域中需要填入的内容,并结合文档内容进行填充。示例性地,如《荣盛石化(公司名称区域):2020年(年份区域)半年度报告》类似样式的文档。
S20:通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
其中,预设文档解析模型用于提取目标文档的文字信息以及坐标信息,示例性地,当目标文档为pdf文档时,该预设文档解析模型可以为基于 PyMuPDF(一个开源的pdf解析软件)的解析模型。文字信息指的是目标文档中前五页的文字内容。坐标信息指的是前五页内容中各字词所处的页码以及对应页码中的具体位置。
具体地,通过所述预设文档解析模型,抽取所述目标文档中前五页的文字内容,得到所述文字信息;将所述文字信息中各个字词所属的页码以及处于该页码中的位置信息关联记录为所述坐标信息。可以理解地,由于预设文档解析模型一般仅支持只支持512长度的输入,因此无法将真个pdf所包含的文字作为输入,其次前五页一般都会包含文章的标题,而标题是判断pdf类别的一个重要信息。
S30:将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
其中,预设预训练语言模型可以为LayoutLM模型。
具体地,在通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息之后,将所述文字信息以及所述坐标信息输入至预训练语言模型中,以根据文字信息以及坐标信息生成与该目标文档对应的目标单词序列,该目标单词序列表征目标文档中各个按照坐标信息排序的单词;进而通过预设特征表示方法,确定该目标单词序列对应的目标高阶特征,并对该目标高阶特征进行平均池化处理,得到文档表示向量。
S40:获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
其中,样本文档向量集是通过将样本文档输入至预设预训练语言模型之后,得到与各样本文档对应的样本文档向量的集合。
可以理解地,预设预训练语言模型训练完成之后,将所有样本文档分别输入至预设文档解析模型中,以对各样本文档进行文档解析,得到与样本文档对应的样本文字信息以及与样本文字信息对应的样本坐标信息;进而将样本文字信息以及样本坐标信息输入至预设预训练语言模型中,对文字信息以及坐标信息进行向量提取,得到与各样本文档对应的样本文档向量。
进一步地,在获取各样本文档之后,可以根据样本文档关联的文档标题确定各样本文档的分类,进而对各个样本文档进行分类,使得一个样本文档关联一个文档类别。
S50:确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
具体地,在获取样本文档向量集之后,确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
在一实施例中,如图3所示,所述样本文档向量还关联一个样本文档;所述根据各所述文档向量距离确定所述目标文档对应的文档类别,包括:
S501:自文档向量距离小于或等于预设距离阈值的所述样本文档中选取预设数量的样本文档,并将被选取的样本文档记录为候选文档;
其中,预设数量可以根据具体场景进行确定,示例性地,该预设数量可以为10个,20个等。预设距离阈值可以为0.5、0.7等
可以理解地,在确定所述文档表示向量与各所述样本文档向量之间的文档向量距离之后,选取预设数量,且文档向量距离小于或等于预设距离阈值的样本文档作为候选文档。在文档向量距离小于或等于预设距离阈值的样本文档的个数不满足预设数量时,则将所有满足文档向量距离小于或等于预设距离阈值这一条件的样本文档作为候选文档即可。
进一步地,若文档向量距离均大于预设距离阈值,则表征当前与样本文档关联的文档类别中无法表征目标文档的文档类别,进而根据目标文档的文档标题建立一个新的文档类别,并将该目标文档分类至该新的文档类别下,待下一次接收包含新的目标文档的预测请求指令时,若新的目标文档的文档向量,与目标文档的文档表示向量之间的文档向量距离小于或等于预设距离阈值时,则可以将目标文档的文档类别作为该新的目标文档的文档类别,提高了文档分类的效率。
S502:获取同一文档类别的候选文档在所有所述候选文档中的占比,将占比最高的文档类别记录为所述目标文档的文档类别。
可以理解地,在自文档向量距离小于或等于预设距离阈值的所述样本文档中选取预设数量的样本文档,并将被选取的样本文档记录为候选文档之后,获取同一文档类别的候选文档在所有所述候选文档中的占比,将占比最高的文档类别记录为所述目标文档的文档类别。
在本实施例中,通过引入文档的文字信息以及对应的坐标信息,并根据该文字信息和坐标信息对应的文档表示向量,与样本文档向量之间的文档向量距离确定目标文档的文档类别。如此,在样本文档较少的情况下,依然可以对新的文档进行分类,如遇到与样本文档均不匹配的情况下,可以视为一个新的文档类别,进而在不断对新的文档进行分类的过程中,可以补足各个文档类别下的文档数量,而不需要不断更换预设文档解析模型或者预设预训练语言模型对新的文档进行分类,提高了文档分类的效率以及便捷性。
在一实施例中,如图4所示,所述将所述文字信息以及所述坐标信息输入至预设预训练语言模型中之前,还包括:
S01:获取训练文档三元组;所述样本文档三元组包含训练文档、与所述训练文档对应的正样本文档以及与所述样本文档对应的负样本文档;
其中,正样本文档指的是具有与训练文档相同文档类别的文档。负样本文档指的是不具有与训练文档相同文档类别的文档。
S02:将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量;
示例性地,该初始语言模型可以为LayoutLM模型。该步骤的详细解释参见下述实施例。
在一实施例中,所述将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量,包括:
S011:分别提取所述训练文档、正样本文档以及负样本文档的单词序列,得到与所述训练文档对应的训练单词序列、与所述正样本文档对应的正样本单词序列,以及与所述负样本文档对应的负样本单词序列;
其中,单词序列指的是训练文档、正样本文档以及负样本文档中各字词以及对应的排序关系。示例性地,假设分别提取所述训练文档、正样本文档以及负样本文档的单词序列之后,得到的训练单词序列为
Figure RE-GDA0002986846790000091
(其中 a代表的是训练文档,x为训练文档的单词序列长度),由于在初始语言模型中需要区分一个文档的开头(下述的[CLS])以及结尾(下述的[SEP]),因此最终的训练单词序列为
Figure RE-GDA0002986846790000092
同理,假设得到的正样本单词序列为
Figure RE-GDA0002986846790000093
(其中p代表的正样本文档,y为正样本文档的单词序列长度),最终的正样本单词序列为
Figure RE-GDA0002986846790000094
同理,假设得到的负样本单词序列为
Figure RE-GDA0002986846790000095
(其中n代表的负样本文档,s为负样本文档的单词序列长度),最终的负样本单词序列为
Figure RE-GDA0002986846790000096
S012:通过预设特征表示方法,确定与所述训练单词序列中各单词对应的训练高阶特征,与所述正样本单词序列中各单词对应的正样本高阶特征,以及与所述负样本单词序列中各单词对应的负样本高阶特征;
具体地,可以通过如下表达式,确定各单词序列中各个单词对应的高阶特征表示:
Figure RE-GDA0002986846790000101
Figure RE-GDA0002986846790000102
Figure RE-GDA0002986846790000103
其中,i表征第i个单词。
Figure RE-GDA0002986846790000104
为训练高阶特征;
Figure RE-GDA0002986846790000105
为正样本高阶特征;
Figure RE-GDA0002986846790000106
为负样本高阶特征。
S013:分别对所述训练高阶特征、正样本高阶特征以及负样本高阶特征进行平均池化处理,得到所述第一训练向量、第二训练向量以及所述第三训练向量。
具体地,在确定与所述训练单词序列中各单词对应的训练高阶特征,与所述正样本单词序列中各单词对应的正样本高阶特征,以及与所述负样本单词序列中各单词对应的负样本高阶特征之后,通过平均池化处理方法,以得到第一训练向量、第二训练向量以及所述第三训练向量。
可选地,可以通过下述表达式确定:
Figure RE-GDA0002986846790000107
Figure RE-GDA0002986846790000108
Figure RE-GDA0002986846790000109
其中,MEAN_POOLINGi()为平均池化函数;i表征第i个单词;Sa为第一训练向量;Sp为第二训练向量;Sn为第三训练向量。
S03:根据所述第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值。
具体地,在分别对所述训练高阶特征、正样本高阶特征以及负样本高阶特征进行平均池化处理,得到所述第一训练向量、第二训练向量以及所述第三训练向量,根据第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值。
在一实施例中,步骤S03中,所述根据所述第一训练向量、第二样本向量以及第三训练向量,确定所述语言模型的总损失值,包括:
确定所述第一训练向量与所述第二样本向量之间的第一文档距离;同时确定所述第一训练向量与所述第三训练向量之间的第二文档距离;
根据所述第一文档距离以及所述第二文档距离,通过三重损失函数确定所述总损失值。
其中,第一文档距离以及第二文档距离的实质均为欧几里得距离。
具体地,可以根据如下三重损失函数确定总损失值:
L=max(||Sa-Sp||-||Sa-Sn||+ε,0)
其中,Sa为第一训练向量;Sp为第二训练向量;Sn为第三训练向量。 ||Sa-Sp||为第一文档距离;||Sa-Sn||为第二文档距离;ε为实数,在本实施例中取1。该总损失的直观含义即,使得正样本文档离训练文档的距离越来越近,负样本文档离训练文档的距离越来越远,进而提高模型的文档分类精度。
S04:在所述总损失值未达到预设的收敛条件时,更新迭代所述初始语言模型的初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始语言模型记录为所述预设预训练语言模型。
可以理解地,该收敛条件可以为总损失值小于设定阈值的条件,也即在总损失值小于设定阈值时,停止训练;收敛条件还可以为总损失值经过了 10000次计算后值为很小且不会再下降的条件,也即总损失值经过10000次计算后值很小且不会下降时,停止训练,并将收敛之后的所述初始语言模型记录为所述预设预训练语言模型。
进一步地,根据训练文档三元组中的训练文档、正样本文档以及负样本文档确定总损失值之后,在总损失值未达到预设的收敛条件时,根据该总损失值调整初始语言模型的初始参数,并将该训练文档三元组重新输入至调整初始参数后的初始语言模型中,以在该训练文档三元组对应的总损失值达到预设的收敛条件时,选取另一个训练文档三元组(如更换其中的负样本文档或者正样本文档),并执行步骤S01至S04,得到与该训练文档三元组对应的总损失值,并在该总损失值未达到预设的收敛条件时,根据该总损失值再次调整初始语言模型的初始参数,使得该训练文档三元组对应的总损失值达到预设的收敛条件。
如此,在通过所有训练文档三元组对初始语言模型进行训练之后,使得初始语言模型输出的结果可以不断向准确的结果靠拢,让识别准确率越来越高,直至所有训练文档三元组对应的总损失值均达到预设的收敛条件时,将收敛之后的所述初始语言模型记录为所述预设预训练语言模型。
进一步地,在本实施例中还可以采用adam优化器,该优化器基于梯度下降的参数更新方式,进而在总损失值小于设定阈值的条件时,会不断更新初始参数。
在一实施例中,所述获取样本文档三元组之前,还包括:
(1)获取预设样本文档集合;所述样本文档集合中包含至少一个样本文档;一个所述样本文档关联一个文档标题;
其中,该预设样本文档集合中的样本文档可以通过常规的爬虫技术,从各大网站上将所有pdf文档爬取下来,爬取的信息包括样本文档,以及与样本文档关联的文档标题。
(2)对各所述文档标题进行归一化处理,并根据归一化处理之后的各文档标题,对各所述样本文档进行文档分类,得到与各所述样本文档对应的文档类别;
具体地,在一实施例中,所述对各所述文档标题进行归一化处理,包括:
检测所述文档标题中是否包含预设特殊符号;
在所述文档标题中包含所述预设特殊符号时,剔除所述预设特殊符号,以及处于所述预设特殊符号之前的所有字符,得到剔除标题;
其中,该预设特殊符号可以为“:”。可以理解地,虽然每一个pdf文档的内容均不相同,但是内容的结构大多数是一致的,例如《XXX公司:2020 年度报告》类似的pdf文档,在“:”之前的文字内容仅仅只是限定某个公司的报告,因此该预设特殊符号以及在预设特殊符号之前的所有字符均应该剔除处理,不影响后续文档分类。
检测所述剔除标题中是否包含预设年份字符和/或预设次数字符;
在所述剔除标题中包含所述预设年份字符和/或预设次数字符时,将第一预设字符代替所述预设年份字符,且将第二预设字符代替所述预设次数字符,进而表征所述文档标题归一化处理完毕。
可以理解地,预设年份字符即为标题中包含年份的字符;预设次数字符即为标题中涵盖表征次数样式的字符,如《XXX公司:2020年度第X季度报告》。第一预设字符以及第二预设字符可以选用英文字符亦或者其它特殊字符进行代替,第一预设字符以及第二预设字符是为了消除年份以及次数对文档分类的影响。
示例性地,在剔除所述预设特殊符号,以及处于所述预设特殊符号之前的所有字符,得到剔除标题之后,剔除标题为《关于召开2020年度第八次会议公告》,则可以将其中的2020替换成X;八可以替换成Y,则替换后为《关于召开X年度第Y次会议公告》。
进一步地,在对各文档标题进行归一化处理之后,并根据归一化处理之后的各文档标题,对各所述样本文档进行文档分类,也即根据归一化处理之后的各文档标题中字符之间的匹配度进行文档分类,将匹配度高于预设阈值的文档分为一类,进而得到与各样本文档对应的文档类别。其中,预设阈值可以设定为90%,95%等。
示例性地,若文档分类的结果中存在众多类别,则可以选取样本文档最多的前500个文档类别,剩余文档类别则进行去除处理,避免文档类别过多,对计算机系统造成负担。
(3)自各所述文档类别中选取一个文档类别作为正文档类别;自除所述正文档类别之外的其它文档类别中选取一个文档类别作为负文档类别;
(4)自所述正文档类别中选取一个样本文档并记录为所述训练文档;同时,自所述正文档类别中选取除所述训练文档外的一个样本文档并记录为所述正样本文档;自所述负文档类别中选取一个样本文档并记录为所述负样本文档;
(5)根据所述训练文档、正样本文档以及所述负样本文档构建所述训练文档三元组。
可以理解地,在根据归一化处理之后的各文档标题,对各所述样本文档进行文档分类,得到与各所述样本文档对应的文档类别之后,可以从各个文档类别中选取任何一个文档类别中选取一个样本文档作为训练文档,再从该文档类别中选取一个文档作为正样本文档;再从除已选取的文档类别之外的其它文档类别中,选取一个文档类别,再从该文档类别中选取一个样本文档作为负样本文档。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文档分类预测装置,该文档分类预测装置与上述实施例中文档分类预测方法一一对应。如图5所示,该文档分类预测装置包括预测请求指令接收模块10、文档解析模块20、第一向量提取模块30、文档向量集获取模块40和文档类别确定模块50。各功能模块详细说明如下:
预测请求指令接收模块10,用于接收包含目标文档的预测请求指令;
文档解析模块20,用于通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
第一向量提取模块30,用于将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
文档向量集获取模块40,用于获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
文档类别确定模块50,用于确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
优选地,如图6所示,所述文档分类预测装置还包括:
文档三元组获取模块01,用于获取训练文档三元组;所述样本文档三元组包含训练文档、与所述训练文档对应的正样本文档以及与所述样本文档对应的负样本文档;
第二向量提取模块02,用于将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量;
总损失值确定模块03,用于根据所述第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值;
语言模型训练模块04,用于在所述总损失值未达到预设的收敛条件时,更新迭代所述初始语言模型的初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始语言模型记录为所述预设预训练语言模型。
优选地,所述第二向量提取模块包括:
单词序列提取单元,用于分别提取所述训练文档、正样本文档以及负样本文档的单词序列,得到与所述训练文档对应的训练单词序列、与所述正样本文档对应的正样本单词序列,以及与所述负样本文档对应的负样本单词序列;
高阶特征确定单元,用于通过预设特征表示方法,确定与所述训练单词序列中各单词对应的训练高阶特征,与所述正样本单词序列中各单词对应的正样本高阶特征,以及与所述负样本单词序列中各单词对应的负样本高阶特征;
平均池化处理单元,用于分别对所述训练高阶特征、正样本高阶特征以及负样本高阶特征进行平均池化处理,得到所述第一训练向量、第二训练向量以及所述第三训练向量。
优选地,所述文档分类预测装置还包括:
样本文档集合获取模块,用于获取预设样本文档集合;所述样本文档集合中包含至少一个样本文档;一个所述样本文档关联一个文档标题;
归一化处理模块,用于对各所述文档标题进行归一化处理,并根据归一化处理之后的各文档标题,对各所述样本文档进行文档分类,得到与各所述样本文档对应的文档类别;
文档类别选取模块,用于自各所述文档类别中选取一个文档类别作为正文档类别;自除所述正文档类别之外的其它文档类别中选取一个文档类别作为负文档类别;
文档选取模块,用于自所述正文档类别中选取一个样本文档并记录为所述训练文档;同时,自所述正文档类别中选取除所述训练文档外的一个样本文档并记录为所述正样本文档;自所述负文档类别中选取一个样本文档并记录为所述负样本文档;
三元组构建模块,用于根据所述训练文档、正样本文档以及所述负样本文档构建所述训练文档三元组。
优选地,所述归一化处理模块包括:
特殊符号检测单元,用于检测所述文档标题中是否包含预设特殊符号;
字符剔除单元,用于在所述文档标题中包含所述预设特殊符号时,剔除所述预设特殊符号,以及处于所述预设特殊符号之前的所有字符,得到剔除标题;
特殊字符检测单元,用于检测所述剔除标题中是否包含预设年份字符和/ 或预设次数字符;
字符替代单元,用于在所述剔除标题中包含所述预设年份字符和/或预设次数字符时,将第一预设字符代替所述预设年份字符,且将第二预设字符代替所述预设次数字符,进而表征所述文档标题归一化处理完毕。
优选地,如图7所示,文档类别确定模块50包括:
样本文档选取单元501,用于自文档向量距离小于或等于预设距离阈值的所述样本文档中选取预设数量的样本文档,并将被选取的样本文档记录为候选文档;
文档类别确定单元502,用于获取同一文档类别的候选文档在所有所述候选文档中的占比,将占比最高的文档类别记录为所述目标文档的文档类别。
关于文档分类预测装置的具体限定可以参见上文中对于文档分类预测方法的限定,在此不再赘述。上述文档分类预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中文档分类预测方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文档分类预测方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中文档分类预测方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中文档分类预测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档分类预测方法,其特征在于,包括:
接收包含目标文档的预测请求指令;
通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
2.如权利要求1所述的文档分类预测方法,其特征在于,所述将所述文字信息以及所述坐标信息输入至预设预训练语言模型中之前,还包括:
获取训练文档三元组;所述样本文档三元组包含训练文档、与所述训练文档对应的正样本文档以及与所述样本文档对应的负样本文档;
将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量;
根据所述第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值;
在所述总损失值未达到预设的收敛条件时,更新迭代所述初始语言模型的初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始语言模型记录为所述预设预训练语言模型。
3.如权利要求2所述的文档分类预测方法,其特征在于,所述将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量,包括:
分别提取所述训练文档、正样本文档以及负样本文档的单词序列,得到与所述训练文档对应的训练单词序列、与所述正样本文档对应的正样本单词序列,以及与所述负样本文档对应的负样本单词序列;
通过预设特征表示方法,确定与所述训练单词序列中各单词对应的训练高阶特征,与所述正样本单词序列中各单词对应的正样本高阶特征,以及与所述负样本单词序列中各单词对应的负样本高阶特征;
分别对所述训练高阶特征、正样本高阶特征以及负样本高阶特征进行平均池化处理,得到所述第一训练向量、第二训练向量以及所述第三训练向量。
4.如权利要求2所述的文档分类预测方法,其特征在于,所述根据所述第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值,包括:
确定所述第一训练向量与所述第二训练向量之间的第一文档距离;同时确定所述第一训练向量与所述第三训练向量之间的第二文档距离;
根据所述第一文档距离以及所述第二文档距离,通过三重损失函数确定所述总损失值。
5.如权利要求2所述的文档分类预测方法,其特征在于,所述获取样本文档三元组之前,还包括:
获取预设样本文档集合;所述样本文档集合中包含至少一个样本文档;一个所述样本文档关联一个文档标题;
对各所述文档标题进行归一化处理,并根据归一化处理之后的各文档标题,对各所述样本文档进行文档分类,得到与各所述样本文档对应的文档类别;
自各所述文档类别中选取一个文档类别作为正文档类别;自除所述正文档类别之外的其它文档类别中选取一个文档类别作为负文档类别;
自所述正文档类别中选取一个样本文档并记录为所述训练文档;同时,自所述正文档类别中选取除所述训练文档外的一个样本文档并记录为所述正样本文档;自所述负文档类别中选取一个样本文档并记录为所述负样本文档;
根据所述训练文档、正样本文档以及所述负样本文档构建所述训练文档三元组。
6.如权利要求5所述的文档分类预测方法,其特征在于,所述对各所述文档标题进行归一化处理,包括:
检测所述文档标题中是否包含预设特殊符号;
在所述文档标题中包含所述预设特殊符号时,剔除所述预设特殊符号,以及处于所述预设特殊符号之前的所有字符,得到剔除标题;
检测所述剔除标题中是否包含预设年份字符和/或预设次数字符;
在所述剔除标题中包含所述预设年份字符和/或预设次数字符时,将第一预设字符代替所述预设年份字符,且将第二预设字符代替所述预设次数字符,进而表征所述文档标题归一化处理完毕。
7.如权利要求1所述的文档分类预测方法,其特征在于,所述样本文档向量还关联一个样本文档;所述根据各所述文档向量距离确定所述目标文档对应的文档类别,包括:
自文档向量距离小于或等于预设距离阈值的所述样本文档中选取预设数量的样本文档,并将被选取的样本文档记录为候选文档;
获取同一文档类别的候选文档在所有所述候选文档中的占比,将占比最高的文档类别记录为所述目标文档的文档类别。
8.一种文档分类预测装置,其特征在于,包括:
预测请求指令接收模块,用于接收包含目标文档的预测请求指令;
文档解析模块,用于通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
第一向量提取模块,用于将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
文档向量集获取模块,用于获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
文档类别确定模块,用于确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述文档分类预测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文档分类预测方法。
CN202011521171.0A 2020-12-21 2020-12-21 文档分类预测方法、装置、计算机设备及存储介质 Pending CN112699923A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011521171.0A CN112699923A (zh) 2020-12-21 2020-12-21 文档分类预测方法、装置、计算机设备及存储介质
PCT/CN2021/125227 WO2022134805A1 (zh) 2020-12-21 2021-10-21 文档分类预测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011521171.0A CN112699923A (zh) 2020-12-21 2020-12-21 文档分类预测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112699923A true CN112699923A (zh) 2021-04-23

Family

ID=75509652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011521171.0A Pending CN112699923A (zh) 2020-12-21 2020-12-21 文档分类预测方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112699923A (zh)
WO (1) WO2022134805A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505579A (zh) * 2021-06-03 2021-10-15 北京达佳互联信息技术有限公司 文档处理方法、装置、电子设备及存储介质
WO2022134805A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 文档分类预测方法、装置、计算机设备及存储介质
WO2024055864A1 (zh) * 2022-09-16 2024-03-21 北京来也网络科技有限公司 结合rpa和ai实现ia的分类模型的训练方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587175B (zh) * 2022-12-08 2023-03-14 阿里巴巴达摩院(杭州)科技有限公司 人机对话及预训练语言模型训练方法、系统及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN110298338B (zh) * 2019-06-20 2021-08-24 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN112016273B (zh) * 2020-09-03 2024-03-12 平安科技(深圳)有限公司 文档目录生成方法、装置、电子设备及可读存储介质
CN112699923A (zh) * 2020-12-21 2021-04-23 深圳壹账通智能科技有限公司 文档分类预测方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134805A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 文档分类预测方法、装置、计算机设备及存储介质
CN113505579A (zh) * 2021-06-03 2021-10-15 北京达佳互联信息技术有限公司 文档处理方法、装置、电子设备及存储介质
WO2024055864A1 (zh) * 2022-09-16 2024-03-21 北京来也网络科技有限公司 结合rpa和ai实现ia的分类模型的训练方法及装置

Also Published As

Publication number Publication date
WO2022134805A1 (zh) 2022-06-30

Similar Documents

Publication Publication Date Title
CN111160017B (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN109871446B (zh) 意图识别中的拒识方法、电子装置及存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
WO2022227162A1 (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN112926654A (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112380837A (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN111859916A (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN113704436A (zh) 基于会话场景的用户画像标签挖掘方法及装置
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN109992778B (zh) 基于机器学习的简历文档判别方法及装置
CN117093682A (zh) 意图识别方法、装置、计算机设备及存储介质
CN111552810A (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN113806613B (zh) 训练图像集生成方法、装置、计算机设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40049342

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination