CN114254109B - 用于确定行业类别的方法及装置 - Google Patents

用于确定行业类别的方法及装置 Download PDF

Info

Publication number
CN114254109B
CN114254109B CN202111534796.5A CN202111534796A CN114254109B CN 114254109 B CN114254109 B CN 114254109B CN 202111534796 A CN202111534796 A CN 202111534796A CN 114254109 B CN114254109 B CN 114254109B
Authority
CN
China
Prior art keywords
text
sample
product information
target text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111534796.5A
Other languages
English (en)
Other versions
CN114254109A (zh
Inventor
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202111534796.5A priority Critical patent/CN114254109B/zh
Publication of CN114254109A publication Critical patent/CN114254109A/zh
Application granted granted Critical
Publication of CN114254109B publication Critical patent/CN114254109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

本发明实施例公开了一种用于确定行业类别的方法及装置、电子设备、计算机可读存储介质和计算机程序,包括:获取目标文本;对目标文本进行数据提取,获得与目标文本相关联的产品信息;以及基于经过训练的分类处理模型对产品信息进行分类处理,以确定目标文本的行业类别。本发明实施例为用户确定招投标数据的行业类别提供了便利,方便用户获取特定行业类别的招投标数据,降低了用户对于招投标数据的数据获取成本。

Description

用于确定行业类别的方法及装置
技术领域
本发明涉及信息处理技术领域,尤其是一种用于确定行业类别的方法及装置、电子设备、计算机可读存储介质和计算机程序。
背景技术
目前,招投标文件通常按照时间顺序被发布在招投标公示网站上。在某些情况下,以招标主体或以政府服务平台的方式对招投标文件进行分类。然而,这种情况下,用户无法获取招投标文件的准确的行业类别。
发明内容
针对于现有技术中的问题,本发明要解决招投标文件发布时缺乏明确的行业类别,从而导致无法根据招投标文本中行业类别进行数据筛选、过滤、统计和分析等进行数据加工。
为了解决现有技术中无法确定招投标文本的行业类别的问题,提出了本发明。本发明的实施例提供了一种用于确定行业类别的方法及装置、电子设备、计算机可读存储介质和计算机程序。
根据本发明实施例的一个方面,提供了一种确定行业类别的方法,包括:
获取目标文本;其中,所述目标文本包括:目标招标文本和/或目标投标文本;
对所述目标文本进行数据提取,获得与所述目标文本相关联的产品信息;
将所述产品信息输入经过训练的分类处理模型,得到所述目标文本的行业类别。
可选地,在所述获取目标文本之前还包括:
获取多个样本文本;其中,所述样本文本包括:样本招标文本和/或样本投标文本;
对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息;其中,多个样本文本的产品信息构成第一训练数据集;
基于所述第一训练数据集对预先设定的分类处理模型进行训练,从而获得经过训练的分类处理模型。
可选地,还包括:
提取每个样本文本的标题;
将每个样本文本的标题添加到第一训练数据集中。
可选地,还包括:
获取每个样本文本的正文内容;
对每个样本文本的正文内容的起始处开始的第一预定数量的连续字符进行提取,获得每个样本文本的第一预定数量的连续字符;
将每个样本文本的第一预定数量的连续字符添加到第一训练数据集中。
可选地,还包括:
获取每个样本文本的正文内容;
对正文内容进行关键词统计,以确定正文内容中每个关键词的词频;
基于正文内容中每个关键词的词频,为每个样本文本确定第二预定数量的选定关键词;
将每个样本文本的第二预定数量的选定关键词添加到第一训练数据集中。
可选地,对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息,包括:
获取每个样本文本的正文内容;
根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取,从而获得每个样本文本的产品信息。
可选地,在根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取之前,还包括:
基于通用的产品字典和专用的产品字典,构建经过融合的产品字典;
基于经过融合的产品字典对每个样本文本的正文内容中的产品信息进行标记,从而获取多个样本文本的第二训练数据集;
根据所述第二训练数据集对预先设定的产品信息提取模型进行训练,从而获得经过训练的产品信息提取模型。
可选地,所述产品信息提取模型用于提取产品信息,包括:
所述产品信息提取模型为正文内容中每个位置处的字符生成标签并且在标签中标记字符的产品信息概率;
对正文内容中每个位置处的字符的标签进行遍历,根据字符的产品信息概率,获取作为产品信息的多个字符;
将作为产品信息的多个字符确定为正文内容的产品信息。
可选地,所述获取每个样本文本的正文内容,包括:
确定每个样本文本的数据格式;
根据每个样本文本的数据格式对样本文本进行内容解析,从而获得每个样本文本的正文内容。
可选地,在获取目标文本之后还包括:
提取目标文本的标题、提取目标文本的从正文内容的起始处开始的第一预定数量的连续字符和提取目标文本中第二预定数量的选定关键词;
基于经过训练的分类处理模型对所述目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量的选定关键词进行分类处理,以确定所述目标文本的行业类别。
可选地,所述确定所述目标文本的行业类别,包括:
所述分类处理模型基于目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量计算目标文本与每个行业类别的匹配概率;
将匹配概率最大的行业类别,确定为目标文本的行业类别。
可选地,还包括,根据每个样本文本的第二预定数量的选定关键词确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
可选地,还包括,根据每个样本文本的产品信息确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
根据本发明的另一方面,提供一种确定行业类别的装置,包括:
获取单元,用于获取目标文本;其中,所述目标文本包括:目标招标文本和/或目标投标文本;
提取单元,用于对所述目标文本进行数据提取,获得与所述目标文本相关联的产品信息;
处理单元,用于将所述产品信息输入经过训练的分类处理模型,得到所述目标文本的行业类别。
基于本发明实施例的又一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的方法。
基于本发明实施例的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的方法。
基于本发明实施例的又一个方面,提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现任一实施例所述的方法。
基于本发明上述实施例提供的用于确定行业类别的方法及装置、电子设备、计算机可读存储介质和计算机程序,获取目标文本;其中,所述目标文本包括:目标招标文本和/或目标投标文本;对所述目标文本进行数据提取,获得与所述目标文本相关联的产品信息;以及将所述产品信息输入经过训练的分类处理模型,得到所述目标文本的行业类别。由此,本发明实施例为用户对招投标文本内容进行行业分类提供了便利,方便用户获取特定行业类别的招投标文本,减少了用户获取所需招投标文本的时间成本,降低了用户对于招投标文件的阅读成本。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明一示例性实施例提供的确定行业类别的方法的流程图;
图2是本发明一示例性实施例提供的确定行业类别的装置的结构图;
图3是本发明一示例性实施例提供的电子设备的结构。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
图1是本发明一示例性实施例提供的用于确定行业类别的方法的流程图。由于现有技术中招投标文件的公示方式,使用户无法通过行业类别对招投标数据进行有效地筛选和过滤,并且用户也无法针对不同行业类别的招投标文件进行统计和分析,以根据统计和分析的结果进行数据加工。本发明实施例获取包括目标招标文本和/或目标投标文本的目标文本,通过对目标文本进行数据提取,获得与目标文本相关联的产品信息,并且进而将产品信息输入经过训练的分类处理模型,得到目标文本的行业类别。本发明对确定招投标文件的行业类别进行举例说明,但本发明不仅应用于确定招投标文件的行业类别。本发明实施例可应用在电子设备上,如图1所示,方法包括以下步骤:
步骤101,获取目标文本。在一个实施例中,目标文本可以包括:目标招标文本和/或目标投标文本。
可选地,在获取目标文本之前还包括:
获取多个样本文本;其中,样本文本包括:样本招标文本和/或样本投标文本;对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息;其中,多个样本文本的产品信息构成第一训练数据集;基于第一训练数据集对预先设定的分类处理模型进行训练,从而获得经过训练的分类处理模型。经过训练的分类处理模型,用于确定目标文本的行业类别。
其中,对于对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息,作为一个实施例,本发明首先获取样本招标文本和/或样本投标文本。如获取第一样本招标文本:A幼儿园安全设备采购招标,第二样本招标文本:B医院医疗器械采购招标。
第一样本招标文本示例如下:
A幼儿园安全设备采购招标
A集团幼儿园为安全防护需要,现需要招标采购。
采购项目:保安服、警棍、防护钢叉、监控视频摄像头、红外防盗系统。
采购数量:保安服200套,警棍50根,防护钢叉50根、监控视频摄像头100个,红外防盗系统20套。
投标保证金:2000元
投标单位资质要求:具有独立法人资格的经济实体
投标日期:2021年1月5日至2021年1月12日
联系人:王老师
联系电话:010-8536****
第二样本招标文本示例如下:
B医院医疗器械采购招标
B医院为医院运营需要,现需要招标采购。
采购项目:显微外科设备、接触治疗机、电疗设备、超声设备、超声雾化器。
采购数量:显微外科设备20台、接触治疗机10台、电疗设备30台、超声设备25台、超声雾化器50台。
投标保证金:30000元
投标单位资质要求:具有独立法人资格的经济实体
投标日期:2021年5月6日至2021年5月18日
联系人:李医生
联系电话:153********
作为一个实施例,本发明对第一样本招标文本进行产品信息的提取,第一样本招标文本提取的产品信息为安全设备。本发明对第二样本招标文本进行产品信息提取,第二样本招标文本提取的产品信息为医疗设备。本发明将产品信息(以及可能的标题、第一预定数量的连续字符和第二预定数量的选定关键词)作为第一训练数据集(例如,分类训练数据集D1),对分类处理模型进行训练,获得经过训练后的分类处理模型。
可选地,还包括:提取每个样本文本的标题;将每个样本文本的标题添加到第一训练数据集中。将标题添加到第一训练数据集中对分类处理模型进行训练,能够使分类处理模型学习到标题的特征,标题特征与目标文本的分类具有一定的关联性,将标题添加到第一训练数据集,有利于提高分类处理模型对目标文本进行分类的准确性。
作为一个实施例,本发明的提取样本招标文本和/或样本投标文本的标题,如提取第一样本招标文本的标题“A幼儿园安全设备采购招标”,以及提取第二样本招标文本的标题“B医院医疗器械采购招标”。本发明可以将标题添加作为分类训练数据集D1中的一部分。
可选地,还包括:获取每个样本文本的正文内容;对每个样本文本的正文内容的起始处开始的第一预定数量的连续字符进行提取,获得每个样本文本的第一预定数量的连续字符;将每个样本文本的第一预定数量的连续字符添加到第一训练数据集中。将样本文本的第一预定数量的连续字符添加到第一训练数据集中对分类处理模型进行训练,能够使分类处理模型学习到连续字符的特征,连续字符与目标文本的分类具有一定的关联性,将连续字符添加到第一训练数据集,有利于提高分类处理模型对目标文本进行分类的准确性。
作为一个实施例,本发明的提取样本招标文本和/或样本投标文本的正文内容,如提取第一样本招标文本的正文内容的起始处开始,如128或256个连续字符进行数据提取,将提取出的连续字符作为样本文本的第一预定数量的连续字符。本发明可以将第一预定数量的连续字符添加作为分类训练数据集D1中的一部分。
可选地,还包括:获取每个样本文本的正文内容;对正文内容进行关键词统计,以确定正文内容中每个关键词的词频;基于正文内容中每个关键词的词频,为每个样本文本确定第二预定数量的选定关键词;将每个样本文本的第二预定数量的选定关键词添加到第一训练数据集中。将样本文本中选定的关键词添加到第一训练数据集中对分类处理模型进行训练,能够使分类处理模型学习到选定的关键词的特征,选定的关键词与目标文本的分类具有一定的关联性,将选定的关键词添加到第一训练数据集,有利于提高分类处理模型对目标文本进行分类的准确性。
作为一个实施例,本发明通过使用TF-IDF模型抽取样本招标文本和/或样本投标文本中的前10个关键词,基于关键词的词频,确定词频超过第二预定数量的关键词为选定关键词。本发明使用空格将选定关键词连接作为分类训练数据集D1的一部分。TF-IDF模型中,TF是词频,IDF是逆文本频率指数。建立步骤包括:首先将一篇招投标文本进行分词,然后计算每个词在文本中出现的次数,这个次数就是TF。本发明将关键词出的次数超过第二预定数量,如5次时,选定此关键词作为分类训练数据集D1的一部分。
作为一个实施例,本发明通过计算每个词在所有样本招标文本和/或样本投标文本中出现的文本次数,根据这个次数可求得IDF。TF与IDF的积就是这个词的权重,权重大小代表词的关键程度。本发明将结果超过预定数值的选定关键词作为分类训练数据集D1的一部分。
可选地,对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息,包括:获取每个样本文本的正文内容;根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取,从而获得每个样本文本的产品信息。产品信息提取模型对样本文本中的产品信息进行准确提取。
作为一个实施例,本发明获取样本招标文本和/或样本投标文本中的正文内容,通过经过训练的产品信息提取模型对正文内容进行数据提取,获取正文中的产品信息,如获取“A幼儿园安全设备采购招标”中的保安服、监控视频摄像头等产品信息。本发明将产品信息作为样本招标文本和/或样本投标文本的关键信息,同时将产品信息作为分类训练数据集D1的一部分。
可选地,在根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取之前,还包括:
基于通用的产品字典和专用的产品字典,构建经过融合的产品字典;
基于经过融合的产品字典对每个样本文本的正文内容中的产品信息进行标记,从而获取多个样本文本的第二训练数据集;
根据第二训练数据集对预先设定的产品信息提取模型进行训练,从而获得经过训练的产品信息提取模型。通过融合的产品字典,提取出的产品信息更为准确,将融合的产品字典提取出的产品信息作为第二训练数据集对产品信息提取模型进行训练,使得产品信息提取模型学习到经过融合的产品字典中更为丰富的产品信息,有利于提高产品信息提取模型提取产品信息的准确性。
作为一个实施例,本发明首先通过的产品字典和专用的产品字典,建立经过融合的产品字典。通用的产品字典为各领域普通使用的通用字典,专用的产品字典是特定领域的专业词典,融合的产品字典相当于融合了两个字典的字段。本发明使用BIO的标记方式,对样本招标文本和/或样本投标文本的产品信息进行标记,得到产品信息抽取训练数据集D2。BIO标记是命名实体识别任务中的通用标记方式,B表示实体的开头字符,I表示实体的非开头字符,O表示非实体的字符。例如“A幼儿园安全设备采购招标”的标注为“O O O O OO O O O B-PD I-PD I-PD I-PD I-PD O O O O O O O O O O O O O”,其中O代表非产品信息标记;B-PD代表产品信息的第一个字符标记;I-PD代表产品信息的非第一个字符标记。
应当了解的是,分类训练数据集D1可以仅包括多个样本文本的产品信息。此外,分类训练数据集D1可以包括多个样本文本的产品信息、以及以下内容中的至少一个:多个样本文本的标题、多个样本文本的第一预定数量的连续字符和多个样本文本的第二预定数量的选定关键词。
即,本发明的分类训练数据集D1,包括多个样本文本中的产品信息。可替换地,本发明的分类训练数据集D1,包括多个样本文本中的产品信息,以及以下内容中的至少一个:多个样本文本的标题、从多个样本文本的正文内容的起始处开始的第一预定数量的连续字符和多个样本文本中第二预定数量的选定关键词。本发明使用预训练语言模型ERNIE构建分类处理模型,基于分类训练数据集D1对所构建(或预先设定)的分类处理模型进行训练,以获得经过训练的分类处理模型。
本发明实施例通过预训练语言模型ERNIE构建分类处理模型。然后使用分类训练数据集D1,输入到预训练语言模型ERNIE中进行训练,即可实现分类处理模型构建。
作为一个实施例,产品信息提取模型为正文内容中每个位置处的字符生成标签并且在标签中标记字符的产品信息概率;对正文内容中每个位置处的字符的标签进行遍历,根据字符的产品信息概率,获取作为产品信息的多个字符;将作为产品信息的多个字符确定为正文内容的产品信息。
可选地,其中获取每个样本文本的正文内容包括:
确定每个样本文本的数据格式;
根据每个样本文本的数据格式对样本文本进行内容解析,从而获得每个样本文本的正文内容。实现对不同数据格式的样本文本内容的解析,获取不同格式样本文本的正文内容。
作为一个实施例,本发明的样本招标文本和/或样本投标文本可以包括WORD格式、HTML格式或PDF格式等。本发明根据样本招标文本和/或样本投标文本的数据格式对文件文本进行内容解析,获取每个样本招标文本和/或样本投标文本的正文内容。
或者,本发明对样本招标文本和/或样本投标文本的文本数据进行处理,如将HTML格式文本转换为WORD格式,或者将PDF格式转换为WORD格式。通过转换后的WORD格式的文本文件获取正文内容。
步骤102,对目标文本进行数据提取,获得与目标文本相关联的产品信息。本发明基于产品信息抽取训练数据集D2,基于训练数据集D2,使用BiLSTM-CRF方法构建产品信息提取模型,进而得到招投标文本中的产品信息。例如,根据训练数据集D2对预先设定的产品信息提取模型进行训练,从而获得经过训练的产品信息提取模型。
BiLSTM-CRF为业界流行的命名实体识别方法,通过构建训练数据集以及数据标签,使用pytorch深度学习框架搭建BiLSTM-CRF网络模型;然后使用训练集对网络模型进行训练,生成产品信息抽取模型。
步骤103,将产品信息输入经过训练的分类处理模型,得到目标文本的行业类别。
作为一个实施例,本发明可以在对目标文本进行数据提取,获得与目标文本相关联的产品信息;并将产品信息输入经过训练的分类处理模型,得到目标文本的行业类别之外,还可以使用目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符以及目标文本中第二预定数量的选定关键词来确定目标文本的行业类别。通过这种方式,可以使得所确定的行业类别更为准确。
作为一个实施例,基于经过训练的分类处理模型对目标文本的产品信息、目标文本的标题、目标文本的从正文内容的任意位置开始的第一预定数量的连续字符和目标文本的第二预定数量的选定关键词进行分类处理,以确定目标文本的行业类别。
为此,作为一个实施例,在获取目标文本之后还包括:提取目标文本的标题、提取目标文本的从正文内容的起始处开始的第一预定数量的连续字符和提取目标文本中第二预定数量的选定关键词;
基于经过训练的分类处理模型对目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量的选定关键词进行分类处理,以确定目标文本的行业类别。
作为一个实施例,本发明的分类处理模型基于目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量计算目标文本与每个行业类别的匹配概率;将匹配概率最大的行业类别,确定为目标文本的行业类别。
作为一个实施例,还包括,根据每个样本文本的第二预定数量的选定关键词确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
作为一个实施例,还包括,根据每个样本文本的产品信息确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
在一个具体实例中,针对目标文本,将新目标招标文本和/或目标投标文本的【产品信息文本、标题、正文文本前126/或256个字符、关键词文本】输入到分类处理模型中,获得对应的行业类别。或者,针对新的目标招标文本和/或目标投标文本,将新目标招标文本和/或目标投标文本的【产品信息文本】输入到分类处理模型中,获得对应的行业类别。
本发明的实施例可以准确地对招投标文本进行行业分类,一方面使得用户可以通过行业类别对招投标数据进行有效地筛选过滤,降低了用户搜索数据的使用成本;另一方面通过对不同行业类别的数据进行统计分析,为用户提供了宏观的行业分析数据。本发明实施例的行业类别分类的实施例不仅考虑了产品信息,还可以考虑标题、正文文本以及关键词,增强了训练数据的文本特征信息,进而使得分类处理模型更易区分不同行业类别。
图2是本发明一示例性实施例提供的用于确定行业类别的装置的结构图。如图2所示,本发明提供一种用于确定行业类别的装置,包括:
获取单元201,用于获取目标文本;其中,目标文本包括:目标招标文本和/或目标投标文本。
提取单元202,用于对目标文本进行数据提取,获得与目标文本相关联的产品信息。
处理单元203,用于将产品信息输入经过训练的分类处理模型,得到目标文本的行业类别。
优选地,装置还包括训练单元,用于:
获取多个样本文本;其中,样本文本包括:样本招标文本和/或样本投标文本;
对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息;其中,多个样本文本的产品信息构成第一训练数据集;
基于第一训练数据集对预先设定的分类处理模型进行训练,从而获得经过训练的分类处理模型。
优选地,装置还包括训练单元,用于:
提取每个样本文本的标题;
将每个样本文本的标题添加到第一训练数据集中。
优选地,装置还包括训练单元,用于:
获取每个样本文本的正文内容;
对每个样本文本的正文内容的起始处开始的第一预定数量的连续字符进行提取,获得每个样本文本的第一预定数量的连续字符;
将每个样本文本的第一预定数量的连续字符添加到第一训练数据集中。
优选地,装置还包括训练单元,用于:
获取每个样本文本的正文内容;
对正文内容进行关键词统计,以确定正文内容中每个关键词的词频;
基于正文内容中每个关键词的词频,为每个样本文本确定第二预定数量的选定关键词;
将每个样本文本的第二预定数量的选定关键词添加到第一训练数据集中。
优选地,装置还包括训练单元,用于:
对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息,包括:
获取每个样本文本的正文内容;
根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取,从而获得每个样本文本的产品信息。
优选地,装置还包括训练单元,用于:
基于通用的产品字典和专用的产品字典,构建经过融合的产品字典;
基于经过融合的产品字典对每个样本文本的正文内容中的产品信息进行标记,从而获取多个样本文本的第二训练数据集;
根据第二训练数据集对预先设定的产品信息提取模型进行训练,从而获得经过训练的产品信息提取模型。
优选地,装置还包括训练单元,用于通过产品信息提取模型用于提取产品信息,包括:
产品信息提取模型为正文内容中每个位置处的字符生成标签并且在标签中标记字符的产品信息概率;
对正文内容中每个位置处的字符的标签进行遍历,根据字符的产品信息概率,获取作为产品信息的多个字符;
将作为产品信息的多个字符确定为正文内容的产品信息。
优选地,装置还包括训练单元,用于:
根据每个样本文本的第二预定数量的选定关键词确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
优选地,装置还包括训练单元,用于:
根据每个样本文本的产品信息确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
优选地,提取单元还用于:提取目标文本的标题、提取目标文本的从正文内容的起始处开始的第一预定数量的连续字符和提取目标文本中第二预定数量的选定关键词;
处理单元还用于:基于经过训练的分类处理模型对目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量的选定关键词进行分类处理,以确定目标文本的行业类别。
优选地,处理单元还用于确定所述目标文本的行业类别,包括:
分类处理模型基于目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和/或目标文本的第二预定数量计算目标文本与每个行业类别的匹配概率;
将匹配概率最大的行业类别,确定为目标文本的行业类别。
示例性电子设备
图3是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图3图示了根据本公开实施例的电子设备的框图。如图3所示,电子设备30包括一个或多个处理器31和存储器32。
处理器31可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器32可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器31可以运行程序指令,以实现上文的本公开的各个实施例的软件程序的确定行业类别的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置33和输出装置34,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置33还可以包括例如键盘、鼠标等等。
该输出装置34可以向外部输出各种信息。该输出设备54可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的确定行业类别的方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的确定行业类别的方法中的步骤。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种确定行业类别的方法,其特征在于,包括:
获取目标文本;其中,所述目标文本包括:目标招标文本和/或目标投标文本;
对所述目标文本进行数据提取,获得与所述目标文本相关联的产品信息;
将所述产品信息输入经过训练的分类处理模型,得到所述目标文本的行业类别;
并且,在获取目标文本之后还包括:
提取所述目标文本的标题、提取所述目标文本的从正文内容的起始处开始的第一预定数量的连续字符和提取所述目标文本中第二预定数量的选定关键词;
所述将所述产品信息输入经过训练的分类处理模型,得到所述目标文本的行业类别,包括:
将所述目标文本的产品信息、所述目标文本的标题、所述目标文本的从正文内容的起始处开始的第一预定数量的连续字符和所述目标文本的第二预定数量的选定关键词输入经过训练的分类处理模型,以确定所述目标文本的行业类别;
所述分类处理模型基于目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量的选定关键词计算目标文本与每个行业类别的匹配概率;将匹配概率最大的行业类别,确定为目标文本的行业类别。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标文本之前还包括:
获取多个样本文本;其中,所述样本文本包括:样本招标文本和/或样本投标文本;
对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息;其中,多个样本文本的产品信息构成第一训练数据集;
基于所述第一训练数据集对预先设定的分类处理模型进行训练,从而获得经过训练的分类处理模型。
3.根据权利要求2所述的方法,其特征在于,还包括:
提取每个样本文本的标题;
将每个样本文本的标题添加到第一训练数据集中。
4.根据权利要求2所述的方法,其特征在于,还包括:
获取每个样本文本的正文内容;
对每个样本文本的正文内容的起始处开始的第一预定数量的连续字符进行提取,获得每个样本文本的第一预定数量的连续字符;
将每个样本文本的第一预定数量的连续字符添加到第一训练数据集中。
5.根据权利要求2所述的方法,其特征在于,
还包括:
获取每个样本文本的正文内容;
对正文内容进行关键词统计,以确定正文内容中每个关键词的词频;
基于正文内容中每个关键词的词频,为每个样本文本确定第二预定数量的选定关键词;
将每个样本文本的第二预定数量的选定关键词添加到第一训练数据集中。
6.根据权利要求2所述的方法,其特征在于,
对每个样本文本进行数据提取,获得与每个样本文本相关联的产品信息,包括:
获取每个样本文本的正文内容;
根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取,从而获得每个样本文本的产品信息。
7.根据权利要求6所述的方法,其特征在于,在根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取之前,还包括:
基于通用的产品字典和专用的产品字典,构建经过融合的产品字典;
基于经过融合的产品字典对每个样本文本的正文内容中的产品信息进行标记,从而获取多个样本文本的第二训练数据集;
根据所述第二训练数据集对预先设定的产品信息提取模型进行训练,从而获得经过训练的产品信息提取模型。
8.根据权利要求7所述的方法,其特征在于,所述根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取,从而获得每个样本文本的产品信息,包括:
根据经过训练的产品信息提取模型为正文内容中每个位置处的字符生成标签并且在标签中标记字符的产品信息概率;
对正文内容中每个位置处的字符的标签进行遍历,根据字符的产品信息概率,获取作为产品信息的多个字符;
将作为产品信息的多个字符确定为正文内容的产品信息。
9.根据权利要求5所述的方法,其特征在于,还包括,根据每个样本文本的第二预定数量的选定关键词确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
10.根据权利要求6所述的方法,其特征在于,还包括,根据每个样本文本的产品信息确定每个样本信息的类别信息,将每个样本信息的类别信息添加到第一训练数据集中。
11.一种确定行业类别的装置,其特征在于,包括:
获取单元,用于获取目标文本;其中,所述目标文本包括:目标招标文本和/或目标投标文本;
提取单元,用于对所述目标文本进行数据提取,获得与所述目标文本相关联的产品信息;
处理单元,用于将所述产品信息输入经过训练的分类处理模型,得到所述目标文本的行业类别;
并且,所述提取单元还用于:提取所述目标文本的标题、提取所述目标文本的从正文内容的起始处开始的第一预定数量的连续字符和提取所述目标文本中第二预定数量的选定关键词;
所述处理单元还用于:将所述目标文本的产品信息、所述目标文本的标题、所述目标文本的从正文内容的起始处开始的第一预定数量的连续字符和所述目标文本的第二预定数量的选定关键词输入经过训练的分类处理模型,以确定所述目标文本的行业类别;所述分类处理模型基于目标文本的产品信息、目标文本的标题、目标文本的从正文内容的起始处开始的第一预定数量的连续字符和目标文本的第二预定数量的选定关键词计算目标文本与每个行业类别的匹配概率;将匹配概率最大的行业类别,确定为目标文本的行业类别。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令实现上述权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10任一项所述的方法。
CN202111534796.5A 2021-12-15 2021-12-15 用于确定行业类别的方法及装置 Active CN114254109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111534796.5A CN114254109B (zh) 2021-12-15 2021-12-15 用于确定行业类别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111534796.5A CN114254109B (zh) 2021-12-15 2021-12-15 用于确定行业类别的方法及装置

Publications (2)

Publication Number Publication Date
CN114254109A CN114254109A (zh) 2022-03-29
CN114254109B true CN114254109B (zh) 2023-09-19

Family

ID=80792360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111534796.5A Active CN114254109B (zh) 2021-12-15 2021-12-15 用于确定行业类别的方法及装置

Country Status (1)

Country Link
CN (1) CN114254109B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737969A (zh) * 2023-08-11 2023-09-12 河北省科学院应用数学研究所 测评机构市场竞争特征数据的处理方法、装置及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368464A (zh) * 2017-07-28 2017-11-21 深圳数众科技有限公司 一种获取招标产品信息的方法及装置
CN112036184A (zh) * 2020-08-31 2020-12-04 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN113010638A (zh) * 2021-02-25 2021-06-22 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113420145A (zh) * 2021-05-11 2021-09-21 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113515629A (zh) * 2021-06-02 2021-10-19 中国神华国际工程有限公司 一种文档分类方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580290B (zh) * 2019-09-12 2022-12-13 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368464A (zh) * 2017-07-28 2017-11-21 深圳数众科技有限公司 一种获取招标产品信息的方法及装置
CN112036184A (zh) * 2020-08-31 2020-12-04 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN113010638A (zh) * 2021-02-25 2021-06-22 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113420145A (zh) * 2021-05-11 2021-09-21 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113515629A (zh) * 2021-06-02 2021-10-19 中国神华国际工程有限公司 一种文档分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114254109A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
US11301732B2 (en) Processing image-bearing electronic documents using a multimodal fusion framework
US10474752B2 (en) System and method for slang sentiment classification for opinion mining
US10824816B2 (en) Semantic parsing method and apparatus
CN111191428A (zh) 评论信息处理方法、装置、计算机设备和介质
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN111782793A (zh) 智能客服处理方法和系统及设备
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN114254109B (zh) 用于确定行业类别的方法及装置
CN113626561A (zh) 一种元器件的型号识别方法、装置、介质和设备
CN112464927A (zh) 一种信息提取方法、装置及系统
CN111949785A (zh) 查询语句管理方法和装置、可读存储介质、电子设备
CN110705308A (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
US20220222443A1 (en) Technical document issues scanner
Satirapiwong et al. Information extraction for different layouts of invoice images
CN114743012B (zh) 一种文本识别方法及装置
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
CN111274382A (zh) 文本分类方法、装置、设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN115455179B (zh) 敏感词汇检测方法、装置、设备及存储介质
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN117131426B (zh) 基于预训练的品牌识别方法、装置及电子设备
CN116860939A (zh) 基于人工智能的客服售后服务方法、装置、设备及介质
CN114912445A (zh) 识别案源线索文本数据的方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant