CN113901817A - 文档分类方法、装置、计算机设备和存储介质 - Google Patents
文档分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113901817A CN113901817A CN202111006981.7A CN202111006981A CN113901817A CN 113901817 A CN113901817 A CN 113901817A CN 202111006981 A CN202111006981 A CN 202111006981A CN 113901817 A CN113901817 A CN 113901817A
- Authority
- CN
- China
- Prior art keywords
- processed
- document
- contract
- text
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013145 classification model Methods 0.000 claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 96
- 230000015654 memory Effects 0.000 claims description 38
- 230000002457 bidirectional effect Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006403 short-term memory Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及文档分类方法、装置、计算机设备和存储介质。所述方法包括:获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。本发明通过已训练的合同分类模型,在语义层面提取待处理文档的多个属性和多个实体关系,并确定目标类别,提高了文档分类的准确性。
Description
技术领域
本申请涉及文本分类技术领域,特别是涉及文档分类方法、装置、计算机设备和存储介质。
背景技术
在金融行业,无法离开对文档的处理,需要规范管理合同文档,对于特殊的合同文档,需要赋予特殊权限。规范管理合同文档,以及赋予特殊合同文档特殊权限的前提是,对文档进行分类,以选取出合同文档。
现有的文档分类方法包括:关键字匹配法和正则表达式法。关键字匹配方法通过预先设定制定字段以及出现次数,如“合同”、“协议”等字样,对文件进行识别判断,如文档包括指定字段,并且包括指定字段的数量达到预设数量,则判断其为合同文档;正则表达式法,根据特定公式组合判断文档是否为合同类。
现有的文档分类方法,没有做到语义层面的识别,经常发生误报和漏报,导致文档分类的准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够对文档进行语义层面的特征提取,以提高文档分类准确性的文档分类方法、装置、计算机设备和存储介质。
一种文档分类方法,所述方法包括:
获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
在其中一个实施例中,所述获取待处理文档,包括:
监控文档外发接口和/或文档存储接口,获取发送至所述文档外发接口和/或所述文档存储接口的待处理文档。
在其中一个实施例中,所述对所述待处理文档进行预处理,得到待处理文本,包括:
提取所述待处理文档中的所有文字;
剔除所述所有文字中的异常文字,得到待处理文本。
在其中一个实施例中,所述提取模块包括命名实体提取模块和第一双向长短期记忆模块;所述将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,包括:
将所述待处理文本输入所述命名实体提取模块,得到所述待处理文本的多个命名实体;
将所述多个命名实体输入所述第一双向长短期记忆模块,得到所述待处理文档的多个属性和多个实体关系。
在其中一个实施例中,所述命名实体提取模块包括:BERT模块、第二双向长短期记忆模块和条件随机场模块,所述将所述待处理文本输入已训练的合同分类模型中的提取模块,得到多个命名实体,包括:
将待处理文本输入所述BERT模块,得到所述待处理文本的文本特征;
将所述文本特征输入所述第二双向长短期记忆模块,得到所述待处理文本中双向文本特征;
将所述双向文本特征输入所述条件随机场模块,得到多个命名实体。
在其中一个实施例中,所述基于所述多个属性、多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,包括:
对所述多个属性和所述多个实体关系进行编码,得到多个属性编码和多个实体关系编码;
将所述多个属性编码和所述多个实体关系编码输入分类模块,得到所述待处理文档的目标类别。
在其中一个实施例中,所述已训练的合同分类模型是基于合同训练集中的训练合同文档确定训练文本,将所述训练文本输入待训练的合同分类模型,得到所述训练合同文档的训练类别和置信度,基于所述训练合同文档的训练类别和置信度训练所述合同分类模型,直到训练完成得到的。
一种文档分类装置,所述装置包括:
待处理文本获取模块,用于获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
属性和实体关系提取模块,用于将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
分类模块,用于基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
上述文档分类方法、装置、计算机设备和存储介质,所述文档分类方法,获取待处理文档中的待处理文本,通过待处理文本,在语义层面,提取所述待处理文档的多个属性和多个实体关系,根据分类模块、待处理文档的多个属性和多个实体关系,确定目标类别,本方法从语义层面对进行分类,提高了文档分类的准确性。
附图说明
图1为本发明一个实施例中文档分类方法的流程示意图;
图2为本发明另一个实施例中文档分类方法的流程示意图;
图3为本发明另一个实施例中文档分类装置的示意图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文档分类方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,获取待处理文档,对所述待处理文档进行预处理,得到待处理文本。
具体地,所述获取待处理文档,可以是获取外发文档,将外发文档作为待处理文档,或者,获取上传到服务器的文档,将上传到服务器的文档作为待处理文档,或者,获取保存到预设位置的文档,将保存到预设位置的文档作为待处理文档。
对所述待处理文档进行预处理,用于根据待处理文档得到待处理文本,对所述待处理文档进行预处理包括:提取所述待处理文档中的所有文字内容,并对提取的所有文字内容进行清洗,得到待处理文本。
步骤102,将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系。
其中,所述已训练的合同分类模型,是基于合同训练集对待训练的合同分类模型进行训练得到的,对待训练的合同分类模型进行训练的过程会在后文介绍。
所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系。实体是具有特定属性的物体,命名实体是以名称为标识的实体,例如,人名、地名、甲方、乙方、时期等。命名实体识别是信息抽取、问答系统、语义分析等应用的重要过程。
若干命名实体属于同一属性,例如,甲方和乙方的属性均为合同主体,预付款和总金额的属性均为金额,地名的属性为地址。属性表示为(命名实体-属性-属性值),例如,(东方明珠-地名-上海),(预付款-金额-50000)。
实体关系包括:亲属关系、买卖合同关系、借贷合同关系等。例如,命名实体:甲方(购货商)与乙方(生产商)之间存在买卖合同关系,甲方(银行)和乙方(借贷人)之间存在借贷合同关系。实体关系表示为(命名实体-关系-命名实体),例如,(甲方-买卖合同关系-乙方)
所述提取模块包括:命名实体提取模块和第一双向长短期记忆模块,通过命名实体提取模块,提取所述待处理文本中的多个命名实体,通过第一双向长短期记忆模块,提取多个命名实体的多个属性,以及两个命名实体之间的实体关系。
步骤103,基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别。
具体地,所述已训练的合同分类模型,是基于合同训练集对待训练的合同分类模型进行训练得到的,因此得到的目标类别,所述目标类别为合同类别,或者非合同类别。所述分类模块可以通过卷积神经网络实现。确定所述多个属性的编码,以及多个实体关系的编码,将多个属性的编码和多个实体关系的编码输入分类模块,得到待处理文档的目标类别。
上述文档分类方法中,获取待处理文档中的待处理文本,通过待处理文本,在语义层面,提取所述待处理文档的多个属性和多个实体关系,根据分类模块、待处理文档的多个属性和多个实体关系,确定目标类别,本方法从语义层面对进行分类,提高了文档分类的准确性。
在一个实施例中,步骤101中获取待处理文档的过程包括:
步骤111、监控文档外发接口和/或文档存储接口,获取发送至所述文档外发接口和/或所述文档存储接口的待处理文档。
具体地,所述文档外发接口用于将文档发送到另一局域网内的终端,所述另一局域网,是指与执行所述文档分类方法的终端所处的局域网不同的局域网。
例如,将文档发送到另一局域网内的终端,需要将文档上传到文档外发接口,通过文档外发接口发送文档;若监控到有文档发送到文档外发接口,则获取发送到所述文档外发接口的文档,将获取的文档作为待处理文档。
文档存储接口用于将文档存储至执行所述文档分类方法的终端的内存中。将文档存储于终端内存中,需要将文档发送到文档存储接口,通过文档存储接口将文档存储在内存的指定路径中。若监控到有文档发送到文档存储接口,则获取发送到所述文档存储接口的文档,将获取的文档作为待处理文档。
在另一种实现方式中,步骤101中获取待处理文档的过程还包括:
步骤121,监控文档上传接口,获取发送至所述文档上传接口的待处理文档。
所述文档上传接口,用于将文档上传到服务器中保存,或者将文档上传到服务器中进行后续处理,所述服务器可以是云服务器。
例如,将文档上传到云服务器保存,需要将文档发送到文档上传接口,通过文档上传接口将文档上传到云服务器;若监控到有文档发送到文档上传接口,则获取发送到所述文档上传接口的文档,将获取的文档作为待处理文档。
在一个实施例中,步骤101中对所述待处理文档进行预处理,得到待处理文本的过程包括:
步骤112、提取所述待处理文档中的所有文字;
步骤113、剔除所述所有文字中的异常文字,得到待处理文本。
具体地,所述待处理文档包括word格式文档、txt格式文档、pdf格式文档等。对所述待处理文档进行去噪处理,得到去噪文档,对去噪文档进行数据解析,以提取所有文字。扫描所有文字,以确定异常文字,异常文字包括重复文字,将所有文字中的异常文字剔除,得到待处理文本。
在一个实施例中,所述提取模块包括命名实体提取模块和第一双向长短期记忆模块,步骤102包括:
步骤201,将所述待处理文本输入所述命名实体提取模块,得到所述待处理文本的多个命名实体。
具体地,通过自然语言处理提取待处理文本的文本特征,将文本特征输入循环神经网络,得到双向文本特征,根据双向文本特征和条件随机场得到所述待处理文本的多个命名实体。
所述命名实体提取模块包括:BERT模块、第二双向长短期记忆模块和条件随机场模块,步骤201包括:
步骤211、将待处理文本输入所述BERT模块,得到所述待处理文本的文本特征。
具体地,BERT模块中的分词器(tokenizer)将待处理文本划分为词块,并且通过BERT模块的词嵌入矩阵,将词块转换为词向量,也就是说,BERT将待处理文本处理为多个词向量。将待处理文本对应的多个词向量输入BERT模块,通过BERT模块输出文本特征,所述文本特征是向量形式。
步骤212、将所述文本特征输入所述第二双向长短期记忆模块,得到所述待处理文本中双向文本特征。
具体地,所述第二双向长短期记忆模块(Bi-LSTM)包括两个独立的长短期记忆模块(LSTM),所述文本特征分别以正序和逆序输入两个独立的LSTM进行特征提取,两个独立的LSTM各自输出一个特征向量,将两个特征向量拼接,得到双向文本特征。由于所述文本特征分别以正序和逆序输入两个独立的LSTM进行特征提取,第二双向长短期记忆模块可以获取到所述待处理文本中的上下文信息。所述双向文本特征是向量形式,所述双向文本特征包括每个词向量属于每种命名实体的概率。
步骤213、将所述双向文本特征输入所述条件随机场模块,得到多个命名实体。
具体地,条件随机场模块(Conditional Random Field,CRF)是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。将双向文本特征输入条件随机场模块,通过条件随机场模块进行解码,得到标注序列。所述标注序列包括多个标注,多个标注与多个词向量一一对应,每个词向量的标注用于反映词向量对应的命名实体。标注序列包括的多个标注包括命名实体起始标注,命名实体非起始标注和非命名实体标注,根据标注序列中的命名实体起始标注,命名实体非起始标注和非命名实体标注,以及多个词向量,可以确定多个命名实体。所述多个命名实体是向量形式。
步骤202,将所述多个命名实体输入所述第一双向长短期记忆模块,得到所述待处理文档的多个属性和多个实体关系。
具体地,所述第一双向长短期记忆模块包括两个独立的长短期记忆模块(LSTM),所述多个命名实体分别以正序和逆序输入第一双向长短期记忆模块包括的两个长短期记忆模块,得到所述待处理文档的多个属性和多个实体关系。
在一个实施例中,步骤103包括:
步骤301,对所述多个属性和所述多个实体关系进行编码,得到多个属性编码和多个实体关系编码。
具体地,可以通过ResNet50对多个属性和多个实体关系进行编码,将多个属性和多个实体关系输入ResNet50,得到多个属性编码和多个实体关系编码,其中,多个属性和多个属性编码一一对应,多个实体关系和多个实体关系编码一一对应。
步骤302,将所述多个属性编码和所述多个实体关系编码输入分类模块,得到所述待处理文档的目标类别。
具体地,所述分类模块可以是卷积神经网络,将所述多个属性编码和所述多个实体关系输入分类模块,得到所述待处理文档的目标类别。
为所述待处理文档配置目标类别对应的目标类别标识,目标类别标识隐写在数据中,不会随着文档的传输、修改而消失,可以实现文档的全生命周期跟踪。
例如,若待处理文档是发送到文档外发接口的文档,确定所述待处理为文档的目标类别(合同类别或者非合同类别),为待处理文档配置目标类别标识(合同标识或者非合同标识),再外发所述待处理文档。通过所述类别标识可以在文档外发接口查询外发的所有合同文档,或者非合同文档。
若待处理文档是发送到文档存储接口的文档,确定所述待处理为文档的目标类别(合同类别或者非合同类别),为待处理文档配置类别标识(合同标识或者非合同标识),再将所述待处理文档存储至内存。通过所述类别标识可以在内存中查询所有合同文档,或者非合同文档。
若待处理文档是发送到文档上传接口的文档,确定所述待处理为文档的目标类别(合同类别或者非合同类别),为待处理文档配置类别标识(合同标识或者非合同标识),再将所述待处理文档上传至服务器。通过所述类别标识可以在服务器中查询所有合同文档,或者非合同文档。
接下来,介绍已训练的合同分类模型的训练过程。所述已训练的合同分类模型是基于合同训练集中的训练合同文档确定训练文本,将所述训练文本输入待训练的合同分类模型,得到所述训练合同文档的训练类别和置信度,基于所述训练合同文档的训练类别和置信度训练所述合同分类模型,直到训练完成得到的。
具体地,已训练的合同分类模型的训练过程,包括:
S1,在合同训练集中获取训练合同文档,对训练合同文档进行预处理,得到训练文本。
具体地,合同训练集中包括多个训练合同文档,训练合同文档是合同类比的文档。对训练合同文档进行预处理,包括:提取所述训练合同文档中的所有文字,剔除所有文字中的异常文字,得到训练文本。对训练合同文档进行预处理,得到训练文本的过程,与步骤112和步骤113的过程相同,因此,可以参见步骤步骤112和步骤113的说明。
S2,将所述训练文本输入待训练的合同分类模型,确定所述训练合同文档的训练类别和置信度。
具体地,所述待训练的合同分类模型包括待训练的提取模块和分类模块,待训练的提取模块包括待训练的命名实体提取模块和第一双向长短期记忆模块,待训练的命名实体提取模块包括:待训练的BERT模块、第二双向长短期记忆模块和条件随机场模块,待训练的分类模块为待训练的卷积神经网络,也就是说,所述待训练的合同分类模型与已训练的合同分类模型的模型结构相同。
具体地,步骤S2包括:
S21,将所述训练文本输入待训练的命名实体提取模块,得到多个合同类命名实体;
S22,将所述多个合同类命名实输入待训练的第一双向长短期记忆模块,得到多个合同类属性和多个合同类实体关系;
合同类命名实体是在合同文档中提取的,合同类命名实体例如包括:甲方、乙方、营业机构、金额、合同编号等;合同类实体关系例如包括:买卖合同关系、借贷合同关系、保险关系等,其中,提取的合同类实体关系可以表示为(生厂商-买卖合同关系-购货商);合同类属性是合同类命名实体的属性,例如,预付款和服务费的属性均为金额,其中,提取的合同类属性可以表示为:(预付款-金额-50000)。
S23,基于所述多个合同类属性、所述多个合同类实体关系和待训练的分类模块,确定所述训练合同文档的训练类别和置信度。
步骤S23中基于所述多个合同类属性、所述多个合同类实体关系和待训练的分类模块,确定所述训练合同文档的训练类别的过程,与步骤103的过程相同,因此,步骤S23中基于所述多个合同类属性、所述多个合同类实体关系和待训练的分类模块,确定所述训练合同文档的训练类别的过程可以参见步骤103的说明。
待训练的分类模块包括softmax层,通过softmax层得到置信度,
S3,基于所述训练合同文档的训练类别和置信度训练所述合同分类模型,直到训练完成,得到已训练的合同分类模型,其中,所述已训练的合同分类模型用于对捕获的文档进行分类。
具体地,若所述置信度不满足预设训练条件,则获取所述训练合同文档的参考类别,根据所述训练合同文档的参考类别和训练类别调整所述合同分类模型的模型参数,并重复上述确定所述训练合同文档的训练类别和置信度的过程,直至确定的置信度满足所述预设训练条件。
所述合同训练集包括多个训练合同文档,以及每个训练合同文档的参考类别,所述参考类别为合同类别。所述预设训练条件为:置信度大于或等于0.9。
在一个实施例中,每间隔预设周期获取所述预设周期内通过所述文档分类方法确定目标类别的待处理文档,判断每个待处理文档分类是否正确,获取分类不正确的待处理文档,作为误报文档;将获取的所有误报文档中属于合同类的文档加入合同训练集,并继续执行步骤S1至步骤S3,提高合同分类模型的准确性。判断每个待处理文档分类是否正确,是确定待处理文档的真实类别与目标类别是否一致,例如,待处理文档的真实类别为非合同类别,目标类别为合同类别,则待处理文档的分类错误。待处理文档的真实类别可以人工确定。
参见图2,待训练的合同分类模型的训练过程包括:
a1,基于合同训练集中的训练合同文档确定训练文本;
a2,训练文本输入待训练的合同分类模型,得到训练类别和置信度;
a3,判断置信度是否满足预设条件,若否则进入步骤a4,若否则进入步骤a5;
a4,根据训练类别修改待训练的合同分类模型的模型参数;
a5,得到已训练的合同分类模型。
得到已训练的合同分类模型后,基于已训练的合同分类模型进行文档分类,包括:
b1,根据待处理文档确定待处理文本;
b2,待处理文本输入已训练的合同分类模型,得到待处理文档的目标类别;
b3,间隔预设周期,获取预设周期内的所有待处理文档;
b4,判断待处理文档的分类是否正确,若不正确,进入步骤b5;
b5,判断待处理文档是否为合同类文档,若是,则进入步骤b6;
b6,将待处理文档加入合同训练集,并进入步骤a1,继续训练合同分类模型。
上述文档分类方法中,获取待处理文档中的待处理文本,通过待处理文本,在语义层面,提取所述待处理文档的多个属性和多个实体关系,根据分类模块、待处理文档的多个属性和多个实体关系,确定目标类别,本方法从语义层面对进行分类,提高了文档分类的准确性。
每间隔预设时长每间隔预设周期获取所述预设周期内通过所述文档分类方法确定目标类别的待处理文档,判断每个待处理文档分类是否正确,获取分类不正确的待处理文档,作为误报文档;将获取的所有误报文档中属于合同类的文档加入合同训练集,并训练合同分类模型,进一步提高合同分类模型的准确性。
在一个实施例中,如图3所示,提供了一种文档分类装置,包括:待处理文本获取模块、属性和实体关系提取模块和分类模块,其中:
待处理文本获取模块,用于获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
属性和实体关系提取模块,用于将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
分类模块,用于基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
在一个实施例中,所述文档分类装置还包括训练模块,训练模块,用于基于合同训练集中的训练合同文档确定训练文本,将所述训练文本输入待训练的合同分类模型,得到所述训练合同文档的训练类别和置信度,基于所述训练合同文档的训练类别和置信度训练所述合同分类模型,直到训练完成得到的已训练的合同分类模型。
关于文档分类装置的具体限定可以参见上文中对于文档分类方法的限定,在此不再赘述。上述文档分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文档分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文档分类方法,其特征在于,所述方法包括:
获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理文档,包括:
监控文档外发接口和/或文档存储接口,获取发送至所述文档外发接口和/或所述文档存储接口的待处理文档。
3.根据权利要求1所述的方法,其特征在于,所述对所述待处理文档进行预处理,得到待处理文本,包括:
提取所述待处理文档中的所有文字;
剔除所述所有文字中的异常文字,得到待处理文本。
4.根据权利要求1所述的方法,其特征在于,所述提取模块包括命名实体提取模块和第一双向长短期记忆模块;所述将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,包括:
将所述待处理文本输入所述命名实体提取模块,得到所述待处理文本的多个命名实体;
将所述多个命名实体输入所述第一双向长短期记忆模块,得到所述待处理文档的多个属性和多个实体关系。
5.根据权利要求4所述的方法,其特征在于,所述命名实体提取模块包括:BERT模块、第二双向长短期记忆模块和条件随机场模块,所述将所述待处理文本输入已训练的合同分类模型中的提取模块,得到多个命名实体,包括:
将待处理文本输入所述BERT模块,得到所述待处理文本的文本特征;
将所述文本特征输入所述第二双向长短期记忆模块,得到所述待处理文本中双向文本特征;
将所述双向文本特征输入所述条件随机场模块,得到多个命名实体。
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个属性、多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,包括:
对所述多个属性和所述多个实体关系进行编码,得到多个属性编码和多个实体关系编码;
将所述多个属性编码和所述多个实体关系编码输入分类模块,得到所述待处理文档的目标类别。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述已训练的合同分类模型是基于合同训练集中的训练合同文档确定训练文本,将所述训练文本输入待训练的合同分类模型,得到所述训练合同文档的训练类别和置信度,基于所述训练合同文档的训练类别和置信度训练所述合同分类模型,直到训练完成得到的。
8.一种文档分类装置,其特征在于,所述装置包括:
待处理文本获取模块,用于获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;
属性和实体关系提取模块,用于将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;
分类模块,用于基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111006981.7A CN113901817A (zh) | 2021-08-30 | 2021-08-30 | 文档分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111006981.7A CN113901817A (zh) | 2021-08-30 | 2021-08-30 | 文档分类方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901817A true CN113901817A (zh) | 2022-01-07 |
Family
ID=79188553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111006981.7A Pending CN113901817A (zh) | 2021-08-30 | 2021-08-30 | 文档分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901817A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056877A (zh) * | 2023-07-18 | 2023-11-14 | 深圳有方信息技术有限公司 | 电子文档脱密后防篡改处理方法、终端设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110688549A (zh) * | 2019-07-02 | 2020-01-14 | 特斯联(北京)科技有限公司 | 一种基于知识体系图谱构建的人工智能分类方法与系统 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
-
2021
- 2021-08-30 CN CN202111006981.7A patent/CN113901817A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110688549A (zh) * | 2019-07-02 | 2020-01-14 | 特斯联(北京)科技有限公司 | 一种基于知识体系图谱构建的人工智能分类方法与系统 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056877A (zh) * | 2023-07-18 | 2023-11-14 | 深圳有方信息技术有限公司 | 电子文档脱密后防篡改处理方法、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN114357174B (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN113887214B (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN117910648A (zh) | 企业违约预测方法、装置及计算设备 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113010785A (zh) | 用户推荐方法及设备 | |
CN115393870A (zh) | 一种文本信息处理方法、装置、设备及存储介质 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN113536788A (zh) | 信息处理方法、装置、存储介质及设备 | |
CN113220947A (zh) | 对事件特征进行编码的方法和装置 | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
CN114817526B (zh) | 文本分类方法及装置、存储介质、终端 | |
US20240338957A1 (en) | Training of machine learning models using content masking techniques | |
CN113111168B (zh) | 基于深度学习模型接处警文本户籍地信息提取方法和装置 | |
CN115408524A (zh) | 情报分类模型的训练方法及装置、电子设备、存储介质 | |
CN115630184A (zh) | 图像内容风险语义识别方法、装置、计算机设备和介质 | |
CN113869714A (zh) | 考勤记录方法、装置、计算机设备及存储介质 | |
CN118070805A (zh) | 信息判别方法、装置、计算机设备及存储介质 | |
CN116610956A (zh) | 金融合同识别模型的更新方法、装置、设备及存储介质 | |
CN116541702A (zh) | 一种样本标签生成方法、模型训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |