CN113688232A - 招标文本分类方法、装置、存储介质及终端 - Google Patents

招标文本分类方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN113688232A
CN113688232A CN202110780598.0A CN202110780598A CN113688232A CN 113688232 A CN113688232 A CN 113688232A CN 202110780598 A CN202110780598 A CN 202110780598A CN 113688232 A CN113688232 A CN 113688232A
Authority
CN
China
Prior art keywords
label
text
bidding
loss value
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110780598.0A
Other languages
English (en)
Other versions
CN113688232B (zh
Inventor
潘帅
陈家银
张伟
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202110780598.0A priority Critical patent/CN113688232B/zh
Publication of CN113688232A publication Critical patent/CN113688232A/zh
Application granted granted Critical
Publication of CN113688232B publication Critical patent/CN113688232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0605Supply or demand aggregation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种招标文本分类方法,包括:获取待分类的目标招标文本;将目标招标文本输入预先训练的层级多标签模型中;其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的;输出目标招标文本对应的第一层级标签与第二层级标签。因此,采用本申请实施例,能够有效的提升招标文本分类的准确度,进一步提高企业商情挖掘的质量。

Description

招标文本分类方法、装置、存储介质及终端
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种招标文本分类方法、装置、存储介质及终端。
背景技术
随着国家对招投标电子化流程的加快推进,越来越多的企业开始重视电子招标信息中涵盖的海量商情信息。将招标文本进行标签化,是提高利用招标信息进行商情挖掘一个必要手段。在招标文本分类场景中,以招标方式为分类依据,每一条招标信息可以存在多个标签,并且每个标签之间可能存在信息依赖,这些依赖特征使得标签之间存在树结构。这在技术上可转化为招标文本的层级多标签分类问题。
在现有技术中,主流的分类方法主要为文本特征方法,文本特征方法通过文本编码器提取文本特征,将文本特征直接通过全连接层映射到标签维度进行预测。这些方法利用文本信息,学习了文本与标签之间的关系,但是忽略了标签自身之间存在的关系,与此同时,标签之间的层级结构导致处于叶子节点的标签文本数量要远远小于处于根节点的标签文本数量,造成样本不平衡问题,从而降低了招标文本分类的准确度,进而降低了企业商情挖掘的质量。
发明内容
本申请实施例提供了一种招标文本分类方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种招标文本分类方法,方法包括:
获取待分类的目标招标文本;
将目标招标文本输入预先训练的层级多标签模型中;
其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的;
输出目标招标文本对应的第一层级标签与第二层级标签。
可选的,按照以下步骤生成预先训练的层级多标签模型,包括:
收集并预处理招标文本数据;
获取预设第一层级标签与预设第二层级标签;
采用统计分布将预处理后的招标文本数据中的字进行编码,生成固定维度的字词向量;
采用统计分布将预设第一层级标签进行编码,生成标签嵌入向量;
根据固定维度的字词向量与标签嵌入向量生成预先训练的层级多标签模型。
可选的,根据固定维度的字词向量与标签嵌入向量生成预先训练的层级多标签模型,包括:
将固定维度的字词向量输入卷积神经网络,输出固定维度的字词向量对应的文本特征;
根据文本特征计算第一层级标签的损失值;
将文本特征与标签嵌入向量以并列的方式连接,生成目标特征;
根据目标特征计算第二层级标签的损失值;
将第一层级标签的损失值与第二层级标签的损失值做和,生成目标损失值;
当目标损失值达到最小时,生成预先训练的层级多标签模型。
可选的,卷积神经网络至少包括嵌入层、卷积层以及池化层;
将固定维度的字词向量输入卷积神经网络,输出固定维度的字词向量对应的文本特征,包括:
嵌入层将固定维度的字词向量进行降维处理,生成降维后的字词向量;
卷积层提取降维后的字词向量的特征,得到初始特征;
池化层筛选初始特征,输出固定维度的字词向量对应的文本特征。
可选的,根据文本特征计算第一层级标签的损失值,包括:
采用文本特征预测第一层标签,生成预测的第一层级标签;
计算预测的第一层级标签对应的概率值;
根据第一层级标签对应的概率值计算预设第一层级标签与预测的第一层级标签之间的误差,生成第一层级标签的损失值。
可选的,根据目标特征计算第二层级标签的损失值,包括:
采用目标特征预测第二层标签,生成预测的第二层级标签;
计算预测的第二层级标签对应的概率值;
根据第二层级标签对应的概率值计算预设第二层级标签与预测的第二层级标签之间的误差,生成第二层级标签的损失值。
可选的,收集并预处理招标文本数据,包括:
收集招标文本数据;
识别招标文本数据中各招标文本的字符长度;
当字符长度大于预设长度时,截取各招标文本在预设长度中的字符后生成目标招标文本数据;
或者,
当字符长度小于预设长度时,采用预设字符填补各招标文本,直到各招标文本的长度到达预设长度后生成目标招标文本数据;
接收数据标注指令,基于数据标注指令针对目标招标文本数据进行标注后生成预处理后的文本数据。
第二方面,本申请实施例提供了一种招标文本分类装置,装置包括:
招标文本获取模块,用于获取待分类的目标招标文本;
招标文本输入模块,用于将目标招标文本输入预先训练的层级多标签模型中;
其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的;
层级标签输出模块,用于输出目标招标文本对应的第一层级标签与第二层级标签。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,招标文本分类装置首先获取待分类的目标招标文本,然后将目标招标文本输入预先训练的层级多标签模型中;其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的,最后输出目标招标文本对应的第一层级标签与第二层级标签。由于本申请将每一层级的标签作为一个单独的任务进行预测,在预测当前层级的下一层级时,将当前层级的预设标签对应的向量与收集的招标文本数据对应的文本特征进行拼接后进行预测,通过这种方法,模型能够在上级标签的先验知识下,学习下级标签,从而能够正确的学习到更深层次的标签结构,并减轻样本不平衡问题,使得能够有效的提升分类准确度,提高企业商情挖掘的质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种招标文本分类方法的流程示意图;
图2是本申请实施例提供的一种招标文本标签层级树结构图;
图3是本申请实施例提供的一种模型分类流程图;
图4是本申请实施例提供的一种层级多标签模型训练方法的流程示意图;
图5是本申请实施例提供的一种网络结构示意图;
图6是本申请实施例提供的一种招标文本分类装置的装置示意图;
图7是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请提供了一种招标文本分类方法、装置、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于本申请将每一层级的标签作为一个单独的任务进行预测,在预测当前层级的下一层级时,将当前层级的预设标签对应的向量与收集的招标文本数据对应的文本特征进行拼接后进行预测,通过这种方法,模型能够在上级标签的先验知识下,学习下级标签,从而能够正确的学习到更深层次的标签结构,并减轻样本不平衡问题,使得能够有效的提升分类准确度,提高企业商情挖掘的质量,下面采用示例性的实施例进行详细说明。
下面将结合附图1-附图5,对本申请实施例提供的招标文本分类方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的招标文本分类装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的招标文本分类装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
请参见图1,为本申请实施例提供了一种招标文本分类方法的流程示意图。
如图1所示,本申请实施例的方法可以包括以下步骤:
S101,获取待分类的目标招标文本;
其中,招标文本是用语言文字描述的相关商业项目信息。语言就是采用一套具有共同处理规则来进行表达的沟通指令,指令会以视觉、声音或者触觉方式来传递,这种指令具体是指人类沟通所使用的自然语言。文本,是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合,一个文本可以是一个句子、一个段落或者一个篇章。
通常,本申请中招标文本分类可以看成多标签招标文本分类,可视为一种层级多标签文本分类任务,是将输入文本分配多个标签,且每个标签之间存在信息依赖关系,这种关系构成了标签之间的树结构,如图2所示。
以图2为例,招标类和中标类标签为第一层级标签,招标公告和中标公示等为第二层级标签,同时招标类与招标公告,中标类与中标公示互为父节点与子节点关系。根据树结构的特性,可以得出以下结论:若子节点已知,可以以自下而上的方式知道其父节点,若父节点已知,则可以以自上而下的方式限定子节点所在类别。
以招标类为例,若已知招标文本属于招标公告,那么其一定属于招标类,若已知招标文本属于招标类,则可以限定该招标文本一定属于招标公告或招标询价等。多标签招标文本分类任务的难点在于:标签之间树结构使得处于子节点的标签样本量要远远少于处于父节点的标签样本量,导致了样本不平衡问题。该问题使得模型在训练时被父节点标签样本的信息所主导,仅学习到少量子节点标签样本的信息,在预测子节点标签时准确度低。因此,学习标签之间的层级结构对模型提高预测子节点标签的准确度非常重要。本发明的目的为让模型更好的学习到标签之间的层级结构,提升模型的预测准确度,降低样本不平衡性的影响。
需要说明的是,本申请针对的招标文本的标签层级深度为2,每一个招标文本存在2个标签(一层一个标签)。本申请提出了一种多任务学习框架,将2个层级的标签各作为一个单独的任务进行预测;模型采用自上而下的学习与预测方式,并且为第二层级的输入特征提供了第一层级标签的先验知识。模型在学习与预测第二层级的标签时,由于已知其父类节点的先验知识,模型可以将预测的范围缩小至子树,从而沿着正确的路径学习到整体的标签结构。通过这种方式,本发明能够有效的提升多标签招标文本分类任务的分类准确度,尤其是处于第二层次的标签,减轻样本不平衡问题带来的影响,并提高企业商情挖掘的质量。其中先验知识为上级标签嵌入向量。
在一种可能的实现方式中,在进行招标文本分类时,首先从线上数据中心或者本地数据中心获取待分类的目标招标文本。
进一步的,当在线上数据中心获取时,可以通过网络爬虫或应用程序编程接口获取。当在本地数据中心获取时,可以通过接收用户选择的招标文本进行获取。具体的获取方式可根据实际场景进行选择,此处不做具体限定。
S102,将目标招标文本输入预先训练的层级多标签模型中;
其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的。
通常,预先训练的层级多标签模型是预先训练好的用于分类任务的数学模型,该模型可以将招标文本分类后得到多个层级的标签。
在一种可能的实现方式中,用户终端获取目标招标文本,目标招标文本获取的详细内容请参考步骤S101,此处不再赘述,当用户终端检测到目标招标文本后,通过有线或者无线的方式将目标招标文本传输至服务器,服务器中保存有预先训练的层级多标签模型,服务器接收到目标招标文本数据后通过内部程序将目标招标文本输入至预先训练的层级多标签模型中进行分类。
S103,输出目标招标文本对应的第一层级标签与第二层级标签。
其中,第一层级标签与第二层级标签可以看作是图2中的标签,第一层级标签为招标类、中标类。第二层级标签为招标公告、招标询价、中标公示以及成交公告。
在本申请实施例中,经过模型处理,输出目标招标文本对应的至少两层级标签,两层级标签至少包括第一层级标签与第二层级标签。
进一步地,在服务器接收到目标招标文本后首先加载预先训练的层级多标签模型,将目标招标文本经过预先训练的层级多标签模型进行处理后得到第一层级标签与第二层级标签,得到的第一层级标签与第二层级标签可以用于商业分析,知识图谱构建等任务。
例如图3所示,图3是本申请提供的一种招标文本分类过程的过程示意框图,首先收集招标文本数据进行数据标注及处理,得到标注后的数据,然后将标注后的数据进行向量处理生成文本嵌入向量,然后根据文本嵌入向量进行模型训练,生成训练好的层级多标签模型,其次将待预测文本输入层级多标签模型中,输出待预测文本对应的第一层级标签与第二层级标签,最后结束。
在本申请实施例中,招标文本分类装置首先获取待分类的目标招标文本,然后将目标招标文本输入预先训练的层级多标签模型中;其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的,最后输出目标招标文本对应的第一层级标签与第二层级标签。由于本申请将每一层级的标签作为一个单独的任务进行预测,在预测当前层级的下一层级时,将当前层级的预设标签对应的向量与收集的招标文本数据对应的文本特征进行拼接后进行预测,通过这种方法,模型能够在上级标签的先验知识下,学习下级标签,从而能够正确的学习到更深层次的标签结构,并减轻样本不平衡问题,使得能够有效的提升分类准确度,提高企业商情挖掘的质量。
请参见图4,为本申请实施例提供了一种层级多标签模型训练过程的流程示意图。如图4所示,本申请实施例的模型训练方法可以包括以下步骤:
S201,收集并预处理招标文本数据;
其中,招标文本数据为大量历史的招标文本。
在一种可能的实现方式中,首先收集招标文本数据,然后识别招标文本数据中各招标文本的字符长度;当字符长度大于预设长度时,截取各招标文本在预设长度中的字符后生成目标招标文本数据;或者当字符长度小于预设长度时,采用预设字符填补各招标文本,直到各招标文本的长度到达预设长度后生成目标招标文本数据;最后接收数据标注指令,并基于数据标注指令针对目标招标文本数据进行标注后生成预处理后的文本数据。
例如,给定输入训练集T={(T1,y1),(T2,y2),...,(TN,yN)},其中Ti={x1,x2,...,xn}为第i个文本,N为训练集中的样本数量,n为文本长度,yi为第i个文本的标签。通过均匀分布生成的文本嵌入向量结果用X={ω1,ω2,...,ωn}表示,文本的标签嵌入向量用
Figure BDA0003156664090000091
表示。通常文本前200个字包含了整段文本的大部分关键信息,因此本发明取max(n)=200,若文本长度超过200,则向后截断。
S202,获取预设第一层级标签与预设第二层级标签;
通常,预设第一层级标签与预设第二层级标签可以看作为实际标签,是用户提前设定好的,该标签可以缓存在内存中。
在一种可能的实现方式中,在收集并预处理完招标文本数据后,可以从内存中获取缓存的预设标签。
S203,采用统计分布将预处理后的招标文本数据中的字进行编码,生成固定维度的字词向量;
通常,生成文本向量的方法主要分为两种,第一种是基于统计分布随机生成固定维度的字向量或词向量,另一种是通过语言预训练模型如Bert,XLNet,GloVe,word2vec等生成具有前后语义关系的字向量或词向量,然而语言预训练模型需要大量的高质量的招标文本数据进行训练,这种方法耗时大,成本高,对生产环境的要求严苛。
在一种可能的实现方式中,出于实际生产效率的考虑,本申请采用均匀分布对所有出现的字进行编码,编码后字词向量的长度为128。
S204,采用统计分布将预设第一层级标签进行编码,生成标签嵌入向量;
在本申请实施例中,本申请采用与文本嵌入向量相同的方式对标签进行嵌入,不同于文本嵌入向量,标签嵌入向量的长度为10。这是因为标签的数量少,长度为10的向量足以对标签进行表征,同时增加向量长度会增加模型的计算量。需要说明的是,第一层标签不存在上级标签,而招标文本只存在2个层级,因此本发明只对第一层级的所有标签进行嵌入,将第一层级的标签嵌入向量作为第二层级的先验知识。
S205,根据固定维度的字词向量与标签嵌入向量生成预先训练的层级多标签模型。
在本申请实施例中,在根据固定维度的字词向量与标签嵌入向量生成预先训练的层级多标签模型时,首先将固定维度的字词向量输入卷积神经网络,输出固定维度的字词向量对应的文本特征,然后根据文本特征计算第一层级标签的损失值,并将文本特征与标签嵌入向量以并列的方式连接,生成目标特征,再根据目标特征计算第二层级标签的损失值,其次将第一层级标签的损失值与第二层级标签的损失值做和,生成目标损失值,最后当目标损失值达到最小时,生成预先训练的层级多标签模型。
进一步的,卷积神经网络至少包括嵌入层、卷积层以及池化层。将固定维度的字词向量输入卷积神经网络,输出固定维度的字词向量对应的文本特征时,首先嵌入层将固定维度的字词向量进行降维处理,生成降维后的字词向量,然后卷积层提取降维后的字词向量的特征,得到初始特征,最后池化层筛选初始特征,输出固定维度的字词向量对应的文本特征。
例如,在卷积神经网络CNN中,嵌入层将固定维度的字词向量进行降维处理,生成降维后的字词向量,特征提取层采用n-gram CNN对文本进行特征提取,用
Figure BDA0003156664090000111
表示卷积核,Xi:i+g+1代表g个字嵌入向量,dw代表字向量的维度。
经过卷积处理提取的特征可表示为:
ci=F⊙Xi:i+g+1+b,
其中⊙代表逐元素乘法,
Figure BDA0003156664090000112
代表偏差。假设每一个卷积核有f个滤波器,则第i个通道下的特征可以表示为
Figure BDA0003156664090000113
池化层采用k-max pooling对卷积后的特征进行筛选,筛选过程可以表示为:
P=max(k,[C1,C2,...,Cn-g+1]),
假设一共有K个卷积核,则最终的输出文本特征表示为O=[P1,P2,...,PK]。
进一步地,根据文本特征计算第一层级标签的损失值时,首先采用文本特征预测第一层标签,生成预测的第一层级标签,然后计算预测的第一层级标签对应的概率值,最后根据第一层级标签对应的概率值计算预设第一层级标签与预测的第一层级标签之间的误差,生成第一层级标签的损失值。
例如,由于第一层标签不存在上级标签,因此在此任务中,直接使用文本特征进行预测,Level1中第k个标签的概率的计算如下:
Figure BDA0003156664090000114
bk第一层第k个偏差,wk1代表全连接层的第k个标签的权重。实数
其中
Figure BDA0003156664090000115
u为文本特征的维度。本发明使用交叉熵损失函数来衡量真实标签与预测标签之间的误差,假设第一层标签的数量为m1,则第一层的损失计算为:
Figure BDA0003156664090000116
进一步地,根据目标特征计算第二层级标签的损失值时,首先采用目标特征预测第二层标签,生成预测的第二层级标签,然后计算预测的第二层级标签对应的概率值,最后根据第二层级标签对应的概率值计算预设第二层级标签与预测的第二层级标签之间的误差,生成第二层级标签的损失值。
例如,第二层标签预测任务中,为输入文本特征提供了第一层标签的先验知识,文本特征与标签特征以并列的方式连接,新构造特征的表达如下:
Figure BDA0003156664090000121
其中
Figure BDA0003156664090000122
代表并列连接符号。使用新构造的特征对文本的第二层标签进行预测,Level2中第k个标签的概率的计算如下:
Figure BDA0003156664090000123
其中
Figure BDA0003156664090000124
h为标签特征的维度,假设第二层标签的数量为m2,则第二层的损失计算为:
Figure BDA0003156664090000125
例如,在生成目标损失值时,本发明使用Adam作为学习器,使用联合损失函数进行梯度下降法优化。联合损失函数的表达如下:
L=L1+L2
本发明使用P@1和P@2作为衡量标准,P@1代表预测第一层标签的精确度,P@2代表预测第二层标签的精确度。令TPk代表所有预测为第k层标签的样本中,结果为正确的,FPk代表所有预测为第k层标签的样本中,结果为错误的,则P@k可以表示为:
Figure BDA0003156664090000126
例如图5所示,图5是本申请提供的一种网络结构图,首先招标文本输入卷积神经网络,经过嵌入层、特征提取层以及池化层处理后,输出文本特征,根据文本特征预测第一层标签,得到第一层预测标签。与此同时,第一层实际标签经过向量化表示得到第一层实际标签向量,将第一层实际标签向量作为先验知识与文本特征拼接得到拼接特征,根据拼接特征预测第二层向量,得到第二层预测标签,最后根据预测标签与实际标签之间的误差来确定模型的损失值,多次预测后当输出的损失值不再变化时,生成训练好的模型。
在本申请实施例中,招标文本分类装置首先获取待分类的目标招标文本,然后将目标招标文本输入预先训练的层级多标签模型中;其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的,最后输出目标招标文本对应的第一层级标签与第二层级标签。由于本申请将每一层级的标签作为一个单独的任务进行预测,在预测当前层级的下一层级时,将当前层级的预设标签对应的向量与收集的招标文本数据对应的文本特征进行拼接后进行预测,通过这种方法,模型能够在上级标签的先验知识下,学习下级标签,从而能够正确的学习到更深层次的标签结构,并减轻样本不平衡问题,使得能够有效的提升分类准确度,提高企业商情挖掘的质量。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图6,其示出了本发明一个示例性实施例提供的招标文本分类装置的结构示意图。该招标文本分类装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括招标文本获取模块10、招标文本输入模块20、层级标签输出模块30。
招标文本获取模块10,用于获取待分类的目标招标文本;
招标文本输入模块20,用于将目标招标文本输入预先训练的层级多标签模型中;
其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的;
层级标签输出模块30,用于输出目标招标文本对应的第一层级标签与第二层级标签。
需要说明的是,上述实施例提供的招标文本分类装置在执行招标文本分类方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的招标文本分类装置与招标文本分类方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,招标文本分类装置首先获取待分类的目标招标文本,然后将目标招标文本输入预先训练的层级多标签模型中;其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的,最后输出目标招标文本对应的第一层级标签与第二层级标签。由于本申请将每一层级的标签作为一个单独的任务进行预测,在预测当前层级的下一层级时,将当前层级的预设标签对应的向量与收集的招标文本数据对应的文本特征进行拼接后进行预测,通过这种方法,模型能够在上级标签的先验知识下,学习下级标签,从而能够正确的学习到更深层次的标签结构,并减轻样本不平衡问题,使得能够有效的提升分类准确度,提高企业商情挖掘的质量。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的招标文本分类方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的招标文本分类方法。
请参见图7,为本申请实施例提供了一种终端的结构示意图。如图7所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及招标文本分类应用程序。
在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的招标文本分类应用程序,并具体执行以下操作:
获取待分类的目标招标文本;
将目标招标文本输入预先训练的层级多标签模型中;
其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的;
输出目标招标文本对应的第一层级标签与第二层级标签。
在一个实施例中,处理器1001在执行训练层级多标签模型方法时,具体执行以下操作:
收集并预处理招标文本数据;
获取预设第一层级标签与预设第二层级标签;
采用统计分布将预处理后的招标文本数据中的字进行编码,生成固定维度的字词向量;
采用统计分布将预设第一层级标签进行编码,生成标签嵌入向量;
根据固定维度的字词向量与标签嵌入向量生成预先训练的层级多标签模型。
在一个实施例中,处理器1001在执行根据固定维度的字词向量与标签嵌入向量生成预先训练的层级多标签模型时,具体执行以下操作:
将固定维度的字词向量输入卷积神经网络,输出固定维度的字词向量对应的文本特征;
根据文本特征计算第一层级标签的损失值;
将文本特征与标签嵌入向量以并列的方式连接,生成目标特征;
根据目标特征计算第二层级标签的损失值;
将第一层级标签的损失值与第二层级标签的损失值做和,生成目标损失值;
当目标损失值达到最小时,生成预先训练的层级多标签模型。
在一个实施例中,处理器1001在执行将固定维度的字词向量输入卷积神经网络,输出固定维度的字词向量对应的文本特征时,具体执行以下操作:
嵌入层将固定维度的字词向量进行降维处理,生成降维后的字词向量;
卷积层提取降维后的字词向量的特征,得到初始特征;
池化层筛选初始特征,输出固定维度的字词向量对应的文本特征。
在一个实施例中,处理器1001在执行根据文本特征计算第一层级标签的损失值时,具体执行以下操作:
采用文本特征预测第一层标签,生成预测的第一层级标签;
计算预测的第一层级标签对应的概率值;
根据第一层级标签对应的概率值计算预设第一层级标签与预测的第一层级标签之间的误差,生成第一层级标签的损失值。
在一个实施例中,处理器1001在执行根据目标特征计算第二层级标签的损失值时,具体执行以下操作:
采用目标特征预测第二层标签,生成预测的第二层级标签;
计算预测的第二层级标签对应的概率值;
根据第二层级标签对应的概率值计算预设第二层级标签与预测的第二层级标签之间的误差,生成第二层级标签的损失值。
在一个实施例中,处理器1001在执行收集并预处理招标文本数据时,具体执行以下操作:
收集招标文本数据;
识别招标文本数据中各招标文本的字符长度;
当字符长度大于预设长度时,截取各招标文本在预设长度中的字符后生成目标招标文本数据;
或者,
当字符长度小于预设长度时,采用预设字符填补各招标文本,直到各招标文本的长度到达预设长度后生成目标招标文本数据;
接收数据标注指令,基于数据标注指令针对目标招标文本数据进行标注后生成预处理后的文本数据。
在本申请实施例中,招标文本分类装置首先获取待分类的目标招标文本,然后将目标招标文本输入预先训练的层级多标签模型中;其中,预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,第一层级标签的损失值是根据文本特征生成的,第二层级标签的损失值是根据文本特征与标签嵌入向量拼接后生成的,文本特征是根据收集的招标文本数据生成的,标签嵌入向量是根据预设第一层级标签生成的,最后输出目标招标文本对应的第一层级标签与第二层级标签。由于本申请将每一层级的标签作为一个单独的任务进行预测,在预测当前层级的下一层级时,将当前层级的预设标签对应的向量与收集的招标文本数据对应的文本特征进行拼接后进行预测,通过这种方法,模型能够在上级标签的先验知识下,学习下级标签,从而能够正确的学习到更深层次的标签结构,并减轻样本不平衡问题,使得能够有效的提升分类准确度,提高企业商情挖掘的质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种招标文本分类方法,其特征在于,所述方法包括:
获取待分类的目标招标文本;
将所述目标招标文本输入预先训练的层级多标签模型中;
其中,所述预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,所述第一层级标签的损失值是根据文本特征生成的,所述第二层级标签的损失值是根据所述文本特征与标签嵌入向量拼接后生成的,所述文本特征是根据收集的招标文本数据生成的,所述标签嵌入向量是根据预设第一层级标签生成的;
输出所述目标招标文本对应的第一层级标签与第二层级标签。
2.根据权利要求1所述的方法,其特征在于,按照以下步骤生成预先训练的层级多标签模型,包括:
收集并预处理招标文本数据;
获取预设第一层级标签与预设第二层级标签;
采用统计分布将预处理后的所述招标文本数据中的字进行编码,生成固定维度的字词向量;
采用统计分布将所述预设第一层级标签进行编码,生成标签嵌入向量;
根据所述固定维度的字词向量与所述标签嵌入向量生成预先训练的层级多标签模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述固定维度的字词向量与所述标签嵌入向量生成预先训练的层级多标签模型,包括:
将所述固定维度的字词向量输入卷积神经网络,输出所述固定维度的字词向量对应的文本特征;
根据所述文本特征计算所述第一层级标签的损失值;
将所述文本特征与所述标签嵌入向量以并列的方式连接,生成目标特征;
根据所述目标特征计算所述第二层级标签的损失值;
将所述第一层级标签的损失值与所述第二层级标签的损失值做和,生成目标损失值;
当所述目标损失值达到最小时,生成预先训练的层级多标签模型。
4.根据权利要求3所述的方法,其特征在于,所述卷积神经网络至少包括嵌入层、卷积层以及池化层;
所述将所述固定维度的字词向量输入卷积神经网络,输出所述固定维度的字词向量对应的文本特征,包括:
嵌入层将所述固定维度的字词向量进行降维处理,生成降维后的字词向量;
卷积层提取所述降维后的字词向量的特征,得到初始特征;
池化层筛选所述初始特征,输出所述固定维度的字词向量对应的文本特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本特征计算所述第一层级标签的损失值,包括:
采用所述文本特征预测第一层标签,生成预测的第一层级标签;
计算所述预测的第一层级标签对应的概率值;
根据所述第一层级标签对应的概率值计算所述预设第一层级标签与所述预测的第一层级标签之间的误差,生成第一层级标签的损失值。
6.根据权利要求3所述的方法,其特征在于,所述根据所述目标特征计算所述第二层级标签的损失值,包括:
采用所述目标特征预测第二层标签,生成预测的第二层级标签;
计算所述预测的第二层级标签对应的概率值;
根据所述第二层级标签对应的概率值计算所述预设第二层级标签与所述预测的第二层级标签之间的误差,生成第二层级标签的损失值。
7.根据权利要求2所述的方法,其特征在于,所述收集并预处理招标文本数据,包括:
收集招标文本数据;
识别所述招标文本数据中各招标文本的字符长度;
当所述字符长度大于预设长度时,截取所述各招标文本在预设长度中的字符后生成目标招标文本数据;
或者,
当所述字符长度小于预设长度时,采用预设字符填补所述各招标文本,直到所述各招标文本的长度到达所述预设长度后生成目标招标文本数据;
接收数据标注指令,基于所述数据标注指令针对所述目标招标文本数据进行标注后生成预处理后的文本数据。
8.一种招标文本分类装置,其特征在于,所述装置包括:
招标文本获取模块,用于获取待分类的目标招标文本;
招标文本输入模块,用于将所述目标招标文本输入预先训练的层级多标签模型中;
其中,所述预先训练的层级多标签模型是基于第一层级标签的损失值与第二层级标签的损失值生成的,所述第一层级标签的损失值是根据文本特征生成的,所述第二层级标签的损失值是根据所述文本特征与标签嵌入向量拼接后生成的,所述文本特征是根据收集的招标文本数据生成的,所述标签嵌入向量是根据预设第一层级标签生成的;
层级标签输出模块,用于输出所述目标招标文本对应的第一层级标签与第二层级标签。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-7任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项的方法步骤。
CN202110780598.0A 2021-07-09 2021-07-09 招标文本分类方法、装置、存储介质及终端 Active CN113688232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780598.0A CN113688232B (zh) 2021-07-09 2021-07-09 招标文本分类方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780598.0A CN113688232B (zh) 2021-07-09 2021-07-09 招标文本分类方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN113688232A true CN113688232A (zh) 2021-11-23
CN113688232B CN113688232B (zh) 2023-10-27

Family

ID=78577001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780598.0A Active CN113688232B (zh) 2021-07-09 2021-07-09 招标文本分类方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN113688232B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469111A (zh) * 2023-06-08 2023-07-21 江西师范大学 一种文字生成模型训练方法及目标文字生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332155A1 (en) * 2014-05-16 2015-11-19 Cisco Technology, Inc. Predictive path characteristics based on non-greedy probing
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN111324695A (zh) * 2020-02-06 2020-06-23 中科鼎富(北京)科技发展有限公司 一种多任务学习方法及装置
CN111737521A (zh) * 2020-08-04 2020-10-02 北京微播易科技股份有限公司 一种视频分类方法和装置
US20200394567A1 (en) * 2019-06-14 2020-12-17 The Toronto-Dominion Bank Target document template generation
CN112417145A (zh) * 2019-08-23 2021-02-26 武汉Tcl集团工业研究院有限公司 文本多分类模型的生成方法、文本处理方法、设备及介质
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332155A1 (en) * 2014-05-16 2015-11-19 Cisco Technology, Inc. Predictive path characteristics based on non-greedy probing
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
US20200394567A1 (en) * 2019-06-14 2020-12-17 The Toronto-Dominion Bank Target document template generation
CN112417145A (zh) * 2019-08-23 2021-02-26 武汉Tcl集团工业研究院有限公司 文本多分类模型的生成方法、文本处理方法、设备及介质
CN111324695A (zh) * 2020-02-06 2020-06-23 中科鼎富(北京)科技发展有限公司 一种多任务学习方法及装置
CN111737521A (zh) * 2020-08-04 2020-10-02 北京微播易科技股份有限公司 一种视频分类方法和装置
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469111A (zh) * 2023-06-08 2023-07-21 江西师范大学 一种文字生成模型训练方法及目标文字生成方法
CN116469111B (zh) * 2023-06-08 2023-09-15 江西师范大学 一种文字生成模型训练方法及目标文字生成方法

Also Published As

Publication number Publication date
CN113688232B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN109960726B (zh) 文本分类模型构建方法、装置、终端及存储介质
CN109271521B (zh) 一种文本分类方法及装置
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN114676704A (zh) 句子情感分析方法、装置、设备以及存储介质
CN114385780A (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN114970540A (zh) 训练文本审核模型的方法和装置
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
CN116089886A (zh) 信息处理方法、装置、设备及存储介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113806538B (zh) 标签提取模型训练方法、装置、设备与存储介质
CN113568739B (zh) 用户资源额度分配方法、装置及电子设备
CN115618043A (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
CN115345669A (zh) 文案生成方法、装置、存储介质及计算机设备
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
CN112364649A (zh) 命名实体的识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant