CN113936289A - 刀具合同的识别方法、装置、电子设备及介质 - Google Patents

刀具合同的识别方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113936289A
CN113936289A CN202111545571.XA CN202111545571A CN113936289A CN 113936289 A CN113936289 A CN 113936289A CN 202111545571 A CN202111545571 A CN 202111545571A CN 113936289 A CN113936289 A CN 113936289A
Authority
CN
China
Prior art keywords
contract
word segmentation
target
tool
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111545571.XA
Other languages
English (en)
Inventor
康欣尧
王亚楠
赵旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AVIC INTERNATIONAL E-BUSINESS Inc
Original Assignee
AVIC INTERNATIONAL E-BUSINESS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AVIC INTERNATIONAL E-BUSINESS Inc filed Critical AVIC INTERNATIONAL E-BUSINESS Inc
Priority to CN202111545571.XA priority Critical patent/CN113936289A/zh
Publication of CN113936289A publication Critical patent/CN113936289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种刀具合同的识别方法,获取目标合同;对所述目标合同进行特征提取,得到目标分词特征;将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。本发明公开的刀具合同的识别方法、装置、电子设备及介质,能够有效提高刀具采购合同的识别准确率,且还能够识别效率。

Description

刀具合同的识别方法、装置、电子设备及介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种刀具合同的识别方法、装置、电子设备及介质。
背景技术
在航空工业中,对刀具商品的名称和规格型号等有特殊规范,在进行刀具采购时通常需要在刀具专区进行采购,为了对刀具采购行为进行监管,需要通过对刀具采购合同进行监测。
现有技术在对刀具采购合同进行监测时,是通过专业人员的个人经验来进行判断的,而个人经验的不同判断标准也不一致,导致会出现对刀具采购合同的识别准确度较低的问题。
发明内容
本发明实施例提供一种刀具合同的识别方法、装置、电子设备及介质,能够有效提高刀具采购合同的识别准确率,且还能够识别效率。
本发明实施例第一方面提供一种刀具合同的识别方法,所述方法包括:
获取目标合同;
对所述目标合同进行特征提取,得到目标分词特征;
将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
可选的,所述对所述目标合同进行特征提取,得到目标分词特征,包括:
对所述目标合同进行分词,得到目标分词集;
利用所述目标分词集对所述目标合同进行特征提取,得到所述目标分词特征。
可选的,所述刀具分类模型的训练步骤包括:
获取训练样本集,其中,所述训练样本集包括刀具合同集和非刀具合同集;
获取所述训练样本集中的每个训练样本的训练分词特征;
利用每个训练样本的训练分词特征对初始模型进行训练,得到满足约束条件的模型作为所述刀具分类模型,其中,所述初始模型包括所述N个分类器。
可选的,所述获取所述训练样本集中的每个训练样本的训练分词特征,包括:
获取与所述训练样本集对应的刀具分词库;
利用所述刀具分词库对每个训练样本进行分词,得到每个训练样本的训练分词集;
基于每个训练样本的训练分词集进行特征提取,得到每个训练样本的训练分词特征。
可选的,所述利用每个训练样本的训练分词特征对初始模型进行训练,得到满足约束条件的模型作为所述刀具分类模型,包括:
针对每个训练样本,将训练样本的训练分词特征输入到所述N个分类器中,得到训练样本的分类结果集,根据训练样本的训练分类结果集,确定训练样本的最终分类结果,所述训练分类结果集包括与所述N个分类器对应的N个分类结果;
基于每个训练样本的最终分类结果,对所述N个分类器中每个分类器的权重进行调整,直至调整至查全率不小于设定值时,将查全率不小于设定值对应的模型作为所述刀具分类模型。
可选的,所述将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,包括:
将所述目标分词特征输入到所述N个分类器中,得到所述目标合同的预测分类结果集;
根据所述目标合同的预测分类结果集,确定所述目标合同是否为所述刀具合同。
本发明实施例第二方面还提供一种刀具合同的识别装置,所述装置包括:
合同获取单元,用于获取目标合同;
特征提取单元,用于对所述目标合同进行特征提取,得到目标分词特征;
预测单元,用于将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
可选的,所述特征提取单元,用于对所述目标合同进行分词,得到目标分词集;
利用所述目标分词集对所述目标合同进行特征提取,得到所述目标分词特征。
本发明实施例第三方面提供了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面提供的刀具合同的识别方法对应的操作指令。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的刀具合同的识别方法对应的步骤。
本申请实施例中的上述一个或至少一个技术方案,至少具有如下技术效果:
基于上述技术方案,对目标合同进行特征提取,得到目标分词特征;将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同;如此,将对目标合同进行特征提取到的目标分词特征输入到刀具分类模型中,从而确定出目标合同是否为刀具合同,进行实现了通过机器自动对目标合同是否为刀具合同进行判断,从而提高了识别效率,且刀具分类模型是通过N个分类器预测出预测分类结果集,使得预测出的预测分类结果集的准确度更高,在预测分类结果集的准确度更高的基础,使得基于预测分类结果集确定出目标合同是否为刀具合同的准确度也会随之提高,即提高了识别准确率。
附图说明
图1为本申请实施例提供的一种刀具合同的识别方法的流程示意图;
图2为本申请实施例提供的刀具分类模型训练方法的流程示意图;
图3为本申请实施例提供的刀具分类模型训练方法的整体流程图;
图4为本申请实施例提供的一种刀具合同的识别装置的方框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本申请实施例提供一种刀具合同的识别方法,所述方法包括:
S101、获取目标合同;
S102、对所述目标合同进行特征提取,得到目标分词特征;
S103、将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
本说明书实施例中一种刀具合同的识别方法可以应用于用户终端或服务器中,其中,用户终端例如可以是智能手机、智能手表、平板电脑和笔记本电脑等,服务器例如可以是平板电脑、笔记本电脑和台式电脑等。
其中,在步骤S101中,可以接收用户的选取操作,响应选取操作,获取选取操作对应的合同为目标合同。其中,选取操作例如可以是点击合同的单击或双击操作等。当然,也可以在合同文件夹中随机选取一个合同作为目标合同,本说明书不作具体限制。
例如,以笔记本电脑A为例,在启动A之后,获取针对A中合同文件夹中合同B的点击操作时,响应该点击操作,将合同B作为目标合同。
在获取到目标合同之后,执行步骤S102。
在步骤S102中,可以对目标合同进行分词,得到目标分词集;利用目标分词集对目标合同进行特征提取,得到目标分词特征。
具体来讲,在得到目标分词集之后,可以采用TFIDF方法和信息增益方法等文本特征提取方法对目标分词集进行特征提取,提取到的特征作为目标分词特征。
具体地,在对目标合同进行分词时,可以首先获取航空刀具领域的刀具语料库,基于刀具语料库创建出刀具分词库,然后使用刀具分词库对目标合同进行分词,得到目标分词集。由于刀具分词库是基于刀具语料库创建出的,而刀具语料库属于航空刀具领域,使得刀具分词库与航空刀具领域匹配度更高,如此,在使用刀具分词库分词得到的目标分词集的准确度更高。以及,在目标分词集的准确度更高的基础上,使得基于目标分词集得到的目标分词特征的准确度也会随之提高。
在获取到目标分词特征之后,执行步骤S103。
在执行步骤S103之前,需要预先训练刀具分类模型,而在训练刀具分类模型时,如图2所示,刀具分类模型的训练步骤包括:
S201、获取训练样本集,其中,训练样本集包括刀具合同集和非刀具合同集;
具体来讲,可以首先获取刀具合同集和非刀具合同集,刀具合同集中包含有多个刀具合同,非刀具合同集中包括有多个非刀具合同,再根据刀具合同集和非刀具合同集,组成训练样本集。
S202、获取训练样本集中的每个训练样本的训练分词特征;
具体来讲,可以首先获取与训练样本集对应的刀具分词库,再利用刀具分词库对每个训练样本进行分词,得到每个训练样本的训练分词集;基于每个训练样本的训练分词集进行特征提取,得到每个训练样本的训练分词特征。
具体地,在获取刀具分词库时,可以根据训练样本集,此时,语料库包括训练样本集;再对商品名称和商品描述等进行分词,并结合航空工业刀具标准,形成商品的分词库作为刀具分词库。
其中,获取每个训练样本的训练分词特征可以具体参考步骤S102的叙述,为了说明书的简洁,在此就不再赘述了。
S203、利用每个训练样本的训练分词特征对初始模型进行训练,得到满足约束条件的模型作为刀具分类模型,其中,初始模型包括N个分类器。
具体来讲,约束条件可以是查全率不小于设定值,也可以预测准确度不小于设定准确度等。其中,设定值和设定准确度可以根据实际需求设定,也可以由人工或设备自行设定,本说明书不作具体限制。下面具体以查全率不小于设定值为例。
具体地,针对每个训练样本,将训练样本的训练分词特征输入到N个分类器中,得到训练样本的分类结果集,根据训练样本的训练分类结果集,确定训练样本的最终分类结果,训练分类结果集包括与N个分类器对应的N个分类结果;基于每个训练样本的最终分类结果,对N个分类器中每个分类器的权重进行调整,直至调整至查全率不小于设定值时,将查全率不小于设定值对应的模型作为刀具分类模型。
本说明书实施例中,N个分类器可以包括采用KNN算法的第一分类器、采用朴素贝叶斯算法的第二分类器、采用SVM算法的第三分类器和采用随机森林算法的第四分类器等分类器中的至少两种。
具体来讲,将每个训练样本的训练分词特征输入到N个分类器中进行验证,并计算每个子分类器及模型的查全率用R表示,其中,R对应的公式1具体为:
Figure DEST_PATH_IMAGE001
公式1
其中,公式1中TP表征预测结果为刀具合同,真实结果也是刀具合同的数量;FN表征预测结果为非刀具合同, 但真实结果是刀具合同的数量;TP+FN表征真实结果为刀具合同的总数量。
具体地,在使用N个分类器进行模型训练过程中,根据每个分类器的查全率调整分类器的权重,每个分类器的权重为:
Figure 837734DEST_PATH_IMAGE002
公式2
其中,公式2中
Figure DEST_PATH_IMAGE003
表示第j个分类器的查全率,N表示分类器个数,
Figure 817192DEST_PATH_IMAGE004
表示第i个分类器的查全率,
Figure DEST_PATH_IMAGE005
表示n个分类器的查全率求和。
如此,通过公式2调整每个分类器的权重,再使用调整权重后的每个分类器继续训练,得到模型新的查全率;通过不断的迭代训练,直至检测到模型的查全率不小于设定值例如为98%和96%等,将查全率不小于设定值的模型作为刀具分类模型。如此,通过刀具合同集和非刀具合同集进行模型训练,使得训练得到的刀具分类模型的预测准确度更高,使得在目标分词特征输入到刀具分类模型中,确定出目标合同是否为刀具合同的准确度更高。
例如,参见图3,首先执行步骤A1、获取训练样本集,训练样本集包括非刀具合同集30和刀具合同集31;再执行步骤A2,对训练样本集中每个训练样本进行特征提取,得到每个训练样本的训练分词特征;接下来执行步骤A3,利用每个训练样本的训练分词特征对N个分类器进行训练,N个分类器包括SVM分类器32、KNN分类器33、NB分类器34和随机森林分类器35,将每个训练样本的训练分词特征输入到SVM分类器32、KNN分类器33、NB分类器34和随机森林分类器35中,得到训练样本的N个训练分类结果;接着执行步骤A4,基于训练样本的N个训练分类结果,得到每个训练样本的最终分类结果,再根据每个训练样本的最终分类结果,获取到模型的查全率,基于查全率对N个分类器的权重进行调整,直至调整至模型的查全率不小于设定值,则将查全率不小于设定值的模型作为刀具分类模型。
例如,若N个训练分类结果依次为SVM分类器32预测为刀具合同的概率为85%,KNN分类器33预测为刀具合同的概率为-65%,NB分类器34预测为刀具合同的概率为78%和随机森林分类器35预测为刀具合同的概率为95%,然后将85%,-65%,78%和95%分别与对应权重相乘,得到4个乘积之和作为每个训练样本的最终分类结果。
如此,在获取到刀具分类模型之后,执行步骤S103。此时,将目标分词特征输入到N个分类器中,得到目标合同的预测分类结果集;再根据目标合同的预测分类结果集,确定目标合同是否为刀具合同。
本申请实施例中的上述一个或至少一个技术方案,至少具有如下技术效果:
基于上述技术方案,对目标合同进行特征提取,得到目标分词特征;将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同;如此,将对目标合同进行特征提取到的目标分词特征输入到刀具分类模型中,从而确定出目标合同是否为刀具合同,进行实现了通过机器自动对目标合同是否为刀具合同进行判断,从而提高了识别效率,且刀具分类模型是通过N个分类器预测出预测分类结果集,使得预测出的预测分类结果集的准确度更高,在预测分类结果集的准确度更高的基础,使得基于预测分类结果集确定出目标合同是否为刀具合同的准确度也会随之提高,即提高了识别准确率。
针对上述实施例提供一种刀具合同的识别方法,本申请实施例还对应提供一种刀具合同的识别装置,请参考图4,该装置包括:
合同获取单元401,用于获取目标合同;
特征提取单元402,用于对所述目标合同进行特征提取,得到目标分词特征;
预测单元403,用于将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
在一种可选的实施方式中,特征提取单元402,用于对所述目标合同进行分词,得到目标分词集;利用所述目标分词集对所述目标合同进行特征提取,得到所述目标分词特征。
在一种可选的实施方式中,还包括:
模型训练单元,用于获取训练样本集,其中,所述训练样本集包括刀具合同集和非刀具合同集;获取所述训练样本集中的每个训练样本的训练分词特征;利用每个训练样本的训练分词特征对初始模型进行训练,得到满足约束条件的模型作为所述刀具分类模型,其中,所述初始模型包括所述N个分类器。
在一种可选的实施方式中,所述模型训练单元,用于获取与所述训练样本集对应的刀具分词库;利用所述刀具分词库对每个训练样本进行分词,得到每个训练样本的训练分词集;基于每个训练样本的训练分词集进行特征提取,得到每个训练样本的训练分词特征。
在一种可选的实施方式中,所述模型训练单元,用于针对每个训练样本,将训练样本的训练分词特征输入到所述N个分类器中,得到训练样本的分类结果集,根据训练样本的训练分类结果集,确定训练样本的最终分类结果,所述训练分类结果集包括与所述N个分类器对应的N个分类结果;基于每个训练样本的最终分类结果,对所述N个分类器中每个分类器的权重进行调整,直至调整至查全率不小于设定值时,将查全率不小于设定值对应的模型作为所述刀具分类模型。
在一种可选的实施方式中,预测单元403,用于将所述目标分词特征输入到所述N个分类器中,得到所述目标合同的预测分类结果集;根据所述预测分类结果集,确定所述目标合同是否为所述刀具合同。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于刀具合同的识别方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/展现(I/ O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为展现和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于展现音频信号。
I/ O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种刀具合同的识别方法,所述方法包括:
获取目标合同;
对所述目标合同进行特征提取,得到目标分词特征;
将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种刀具合同的识别方法,其特征在于,所述方法包括:
获取目标合同;
对所述目标合同进行特征提取,得到目标分词特征;
将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
2.如权利要求1所述的方法,其特征在于,所述对所述目标合同进行特征提取,得到目标分词特征,包括:
对所述目标合同进行分词,得到目标分词集;
利用所述目标分词集对所述目标合同进行特征提取,得到所述目标分词特征。
3.如权利要求2所述的方法,其特征在于,所述刀具分类模型的训练步骤包括:
获取训练样本集,其中,所述训练样本集包括刀具合同集和非刀具合同集;
获取所述训练样本集中的每个训练样本的训练分词特征;
利用每个训练样本的训练分词特征对初始模型进行训练,得到满足约束条件的模型作为所述刀具分类模型,其中,所述初始模型包括所述N个分类器。
4.如权利要求3所述的方法,其特征在于,所述获取所述训练样本集中的每个训练样本的训练分词特征,包括:
获取与所述训练样本集对应的刀具分词库;
利用所述刀具分词库对每个训练样本进行分词,得到每个训练样本的训练分词集;
基于每个训练样本的训练分词集进行特征提取,得到每个训练样本的训练分词特征。
5.如权利要求4所述的方法,其特征在于,所述利用每个训练样本的训练分词特征对初始模型进行训练,得到满足约束条件的模型作为所述刀具分类模型,包括:
针对每个训练样本,将训练样本的训练分词特征输入到所述N个分类器中,得到训练样本的分类结果集,根据训练样本的训练分类结果集,确定训练样本的最终分类结果,所述训练分类结果集包括与所述N个分类器对应的N个分类结果;
基于每个训练样本的最终分类结果,对所述N个分类器中每个分类器的权重进行调整,直至调整至查全率不小于设定值时,将查全率不小于设定值对应的模型作为所述刀具分类模型。
6.如权利要求5所述的方法,其特征在于,所述将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,包括:
将所述目标分词特征输入到所述N个分类器中,得到所述目标合同的预测分类结果集;
根据所述预测分类结果集,确定所述目标合同是否为所述刀具合同。
7.一种刀具合同的识别装置,其特征在于,所述装置包括:
合同获取单元,用于获取目标合同;
特征提取单元,用于对所述目标合同进行特征提取,得到目标分词特征;
预测单元,用于将所述目标分词特征输入到预训练的刀具分类模型中,得到所述目标合同的预测分类结果集,并根据所述预测分类结果集,确定所述目标合同是否为刀具合同,其中,所述刀具分类模型包括N个分类器,所述预测分类结果集中包括与所述N个分类器对应的N个分类结果,N为大于1的整数。
8.如权利要求7所述的装置,其特征在于,所述特征提取单元,用于对所述目标合同进行分词,得到目标分词集;
利用所述目标分词集对所述目标合同进行特征提取,得到所述目标分词特征。
9.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1~6任一所述方法对应的操作指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6任一所述方法对应的步骤。
CN202111545571.XA 2021-12-17 2021-12-17 刀具合同的识别方法、装置、电子设备及介质 Pending CN113936289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111545571.XA CN113936289A (zh) 2021-12-17 2021-12-17 刀具合同的识别方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111545571.XA CN113936289A (zh) 2021-12-17 2021-12-17 刀具合同的识别方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN113936289A true CN113936289A (zh) 2022-01-14

Family

ID=79289165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111545571.XA Pending CN113936289A (zh) 2021-12-17 2021-12-17 刀具合同的识别方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113936289A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统
CA3015450A1 (en) * 2016-02-22 2017-08-31 Tata Consultancy Services Limited Method and system for contract management in a data marketplace
CN107992941A (zh) * 2017-12-28 2018-05-04 武汉璞华大数据技术有限公司 一种合同条款分类方法
US20210034340A1 (en) * 2019-07-31 2021-02-04 Capital One Services, Llc Systems for determining regulatory compliance of smart contracts

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3015450A1 (en) * 2016-02-22 2017-08-31 Tata Consultancy Services Limited Method and system for contract management in a data marketplace
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统
CN107992941A (zh) * 2017-12-28 2018-05-04 武汉璞华大数据技术有限公司 一种合同条款分类方法
US20210034340A1 (en) * 2019-07-31 2021-02-04 Capital One Services, Llc Systems for determining regulatory compliance of smart contracts

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付彬 等: ""Boosting算法中基分类器权重的动态赋值"", 《广西师范大学学报:自然科学版》 *

Similar Documents

Publication Publication Date Title
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN108073303B (zh) 一种输入方法、装置及电子设备
CN107291772B (zh) 一种搜索访问方法、装置及电子设备
CN107315487B (zh) 一种输入处理方法、装置及电子设备
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN112148923B (zh) 搜索结果的排序方法、排序模型的生成方法、装置及设备
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
EP4068119A1 (en) Model training method and apparatus for information recommendation, electronic device and medium
CN112784142A (zh) 一种信息推荐方法及装置
CN111046927A (zh) 标注数据的处理方法、装置、电子设备及存储介质
CN112784151B (zh) 一种确定推荐信息的方法及相关装置
CN107436896B (zh) 一种输入推荐方法、装置及电子设备
CN112768064A (zh) 疾病预测装置及设备、症状信息处理方法、装置及设备
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN112149653B (zh) 信息处理方法、装置、电子设备及存储介质
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质
CN113936289A (zh) 刀具合同的识别方法、装置、电子设备及介质
CN111898019B (zh) 信息推送方法及装置
CN113946228A (zh) 语句推荐方法、装置、电子设备和可读存储介质
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN112241486A (zh) 多媒体信息获取方法及装置
CN114338587B (zh) 一种多媒体数据处理方法、装置、电子设备及存储介质
CN109213799B (zh) 一种细胞词库的推荐方法和装置
CN112989172B (zh) 内容推荐方法、装置、计算机设备及存储介质
CN117350824B (zh) 电子元件信息上传及展示方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220114