CN115563289B - 行业分类标签生成方法、装置、电子设备和可读介质 - Google Patents

行业分类标签生成方法、装置、电子设备和可读介质 Download PDF

Info

Publication number
CN115563289B
CN115563289B CN202211554253.4A CN202211554253A CN115563289B CN 115563289 B CN115563289 B CN 115563289B CN 202211554253 A CN202211554253 A CN 202211554253A CN 115563289 B CN115563289 B CN 115563289B
Authority
CN
China
Prior art keywords
information
text
patent text
feature vector
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211554253.4A
Other languages
English (en)
Other versions
CN115563289A (zh
Inventor
刘欣然
王哲
舒光斌
岳丰
孙天洋
李昭
方兴
宋群力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Citic Securities Co ltd
Original Assignee
Citic Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Citic Securities Co ltd filed Critical Citic Securities Co ltd
Priority to CN202211554253.4A priority Critical patent/CN115563289B/zh
Publication of CN115563289A publication Critical patent/CN115563289A/zh
Application granted granted Critical
Publication of CN115563289B publication Critical patent/CN115563289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)

Abstract

本公开的实施例公开了行业分类标签生成方法、装置、电子设备和可读介质。该方法的一具体实施方式包括:获取目标主体对应的专利文本集合和物品获取信息集合;对专利文本进行信息提取,以生成专利文本信息;生成针对目标主体的、与专利相关的专利特征向量;以专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对专利特征向量集合中的专利特征向量进行聚类;生成物品获取特征向量集合和标签特征向量集合;对专利特征向量组集合、物品获取特征向量集合和标签特征向量集合进行向量融合;生成针对目标主体的至少一个行业分类标签。该实施方式提高了针对企业主体的标签标注效率,实现了对企业主体的高效率的领域定位。

Description

行业分类标签生成方法、装置、电子设备和可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及行业分类标签生成方法、装置、电子设备和可读介质。
背景技术
行业分类标签生成,是指生成表征企业主体对应标签的一种技术。通过生成企业主体对应的行业分类标签,可以快速地对企业主体进行领域定位。目前,在进行行业分类标签生成时,通常是采用人工的方式进行手动标签标注,或针对企业主体的名称进行关键词提取,以得到企业主体对应的行业分类标签。
然而,发明人发现,当采用上述方式时,经常会存在如下技术问题:
第一,企业主体的数量,及企业主体所属的行业分类数量众多,采用人工的方式进行手动标签标注,标签标注效率低下,导致无法高效地对企业主体进行领域定位;
第二,采用对企业主体的名称进行关键词提取的方式,当企业主体的名称与企业主体对应的实际领域关联度不大时,生成的行业分类标签的准确率低;
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了行业分类标签生成方法、装置、电子设备和可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种行业分类标签生成方法,该方法包括:获取目标主体对应的专利文本集合和物品获取信息集合,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合中的专利文本的专利状态为目标状态;对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,上述专利文本信息集合中的专利文本信息包括:分类信息;根据上述专利文本信息集合,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合;以上述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;根据上述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合;对上述专利特征向量组集合、上述物品获取特征向量集合和上述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合;根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签。
第二方面,本公开的一些实施例提供了一种行业分类标签生成装置,装置包括:获取单元,被配置成获取目标主体对应的专利文本集合和物品获取信息集合,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合中的专利文本的专利状态为目标状态;信息提取单元,被配置成对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,上述专利文本信息集合中的专利文本信息包括:分类信息;第一生成单元,被配置成根据上述专利文本信息集合,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合;聚类单元,被配置成以上述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;第二生成单元,被配置成根据上述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合;向量融合单元,被配置成对上述专利特征向量组集合、上述物品获取特征向量集合和上述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合;第三生成单元,被配置成根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
行业分类标签生成,是指生成表征企业主体对应标签的一种技术,通过对企业主体进行行业分类标签确定,可以很好地对企业主体进行领域定位,对于后续向企业主体开展相关业务,有着积极的作用。当前,存在着行业数量和分类标签数量巨大的问题,现有技术中,存在以下几种方式进行行业分类标签生成:第一,采用人工标注的方式进行标签标注,但标注效率低下,无法有效地解决庞大的行业分类标签生成的的需求。第二,针对企业主体的名称进行关键词提取,但当企业主体的名称与企业主体的实际领域不一致时,得到的关键词的准确度较差。第三,采用常见的机器学习模型进行关键词提取,然而此类方法未全面有效地考虑企业主体相关数据,使得提取得到的关键词的准确度无法保证。第四,采用单一的关键词提取步骤(如采用TF-IDF的方式),对关键词进行提取,此类方法未考虑到不同数据的数据特性,使得提取得到的关键词的质量参差不齐。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的行业分类标签生成方法,提高了针对企业主体的标签标注效率,实现了对企业主体的高效率的领域定位。具体来说,造成针对企业主体的标签标注效率低下,以及对企业主体的领域定位效率低下的原因在于:企业主体的数量,及企业主体所属的行业分类数量众多,采用人工的方式进行手动标签标注,标签标注效率低下,导致无法高效地对企业主体进行领域定位。基于此,本公开的一些实施例的行业分类标签生成方法,首先,获取目标主体对应的专利文本集合和物品获取信息集合,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合中的专利文本的专利状态为目标状态。实际情况中,处于目标状态的专利文本在一定程度上能够表征目标主体的当前研发方向,侧面涵盖了目标主体所属的行业分类,同时,物品获取信息表征了目标主体在物资上的转移信息,侧面涵盖了目标主体所属的行业分类。接着,对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,上述专利文本信息集合中的专利文本信息包括:分类信息。通过信息提取,以得到专利文本的内容。接着,根据上述专利文本信息集合,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合。从而实现专利文本信息的向量化表征。此外,以上述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心。通过聚类,实现了相同分类类别的专利的聚簇。除此之外,根据上述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合。从而实现了物品获取信息的向量化表征。接着,对上述专利特征向量组集合、上述物品获取特征向量集合和上述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合。从而得到专利角度和物资转移角度的融合向量。最后,根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签。通过此种方式,提高了针对企业主体的标签标注效率,实现了对企业主体的高效率的领域定位。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是本公开的一些实施例的行业分类标签生成方法的一个应用场景的示意图;
图2是根据本公开的行业分类标签生成方法的一些实施例的流程图;
图3是子专利文本的页面示意图;
图4是横线识别结果示意图;
图5是向量处理层的网络结构示意图;
图6是根据本公开的行业分类标签生成装置的一些实施例的结构示意图;
图7是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开中所涉及的企业主体的相关信息(如,物品获取信息集合)的收集、存储、使用等操作,在执行相应操作之前,相关组织或个人已尽到包括开展信息安全影响评估、向企业主体履行告知义务、事先征得企业主体的授权同意等义务。
下面将参考附图并结合实施例来详细说明本公开。
图1是本公开的一些实施例的行业分类标签生成方法的一个应用场景的示意图。
在图1的应用场景中,首先,计算设备101可以获取目标主体对应的专利文本集合102和物品获取信息集合103,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合102中的专利文本的专利状态为目标状态;其次,计算设备101可以对上述专利文本集合102中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合104,其中,上述专利文本信息集合104中的专利文本信息包括:分类信息;接着,计算设备101可以根据上述专利文本信息集合104,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合105;进一步,计算设备101可以以上述专利文本信息集合104中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合105中的专利特征向量进行聚类,以生成专利特征向量组集合106,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;此外,计算设备101可以根据上述物品获取信息集合103,生成物品获取特征向量集合107和标签特征向量集合108;除此之外,计算设备101可以对上述专利特征向量组集合106、上述物品获取特征向量集合107和上述标签特征向量集合108进行向量融合,以生成融合向量,得到融合向量集合109;最后,计算设备101可以根据上述融合向量集合109和预先训练的行业分类标签预测模型110,生成针对上述目标主体的至少一个行业分类标签111。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
继续参考图2,示出了根据本公开的行业分类标签生成方法的一些实施例的流程200。该行业分类标签生成方法,包括以下步骤:
步骤201,获取目标主体对应的专利文本集合和物品获取信息集合。
在一些实施例中,行业分类标签生成方法的执行主体(例如图1所示的计算设备101)可以通过有线连接,或无线连接的方式获取目标主体对应的专利文本集合和物品获取信息集合。其中,上述目标主体为待进行行业分类标签生成的主体。实践中,上述目标主体可以是企业主体。上述专利文本集合中的专利文本的专利状态为目标状态。实践中,上述目标状态可以为专利公开状态。上述物品获取信息集合中的物品获取信息可以是上述目标主体在预设时间段内的物资流转数据。例如,上述预设时间段可以是当前时间为时间结束点、为期半年的时间段。实践中,物资流转数据可以是上述目标主体的物品相关的交易数据。
作为示例,上述执行主体可以通过爬虫爬取的方式,获取上述目标主体对应的专利文本集合。上述执行主体可以以上述目标主体对应的主体标识码为检索词,从预先构建的物资流转数据库中,读取上述目标主体对应的物品获取信息集合。上述主体标识码可以是标识上述目标主体的唯一性的标识码。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,对专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合。
在一些实施例中,上述执行主体可以对专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合。其中,专利文本信息可以是专利文本内包含的数据。专利文本信息集合中的专利文本包括:分类信息。分类信息表征专利文本的专利类型。实践中,分类信息表征的专利类型可以是以下任意一种:发明专利类型,外观专利类型,实用新型专利类型。
作为示例,上述执行主体可以通过EAST(Efficient and Accuracy Scene Text)文本检测模型,对专利文本进行信息提取,以生成专利文本信息。
可选地,上述专利文本信息集合中的专利文本信息还包括:专利类别,专利申请日期、专利状态和关键词集合。其中,专利类别表征专利文本的IPC(International PatentClassification,国际专利分类)分类。专利申请日期表征专利文本的申请日。专利状态表征专利文本的当前状态。实践中,专利状态可以包括但不限于以下任意一项:专利未公开状态,专利授权状态,专利终止状态,专利实质审查状态,专利无效状态。关键词集合中的关键词为专利文本对应的核心词。
在一些实施例的一些可选的实现方式中,上述执行主体对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,包括:
第一步,对上述专利文本进行文本截取,得到目标页数对应的子专利文本。
其中,上述目标页数为上述专利文本的文本首页对应的页数。上述子专利文本为上述专利文本中目标页数对应的专利文本页面。
作为示例,上述子专利文本的页面示意图可以如图3所示,其中,图3所示的子专利文本可以是上述专利文本的文本首页对应页面。上述子专利文本可以包括但不限于:授权公告号,授权公告日,申请号,同一申请的已公布的文献号,申请公布号,申请公布日,专利权人,地址,发明人,专利代理机构,专利代理师,分类号,对比文件,发明名称,摘要和摘要附图。
第二步,对上述子专利文本进行文本分割,得到第一子专利文本和第二子专利文本。
其中,上述第一子专利文本是上述子专利文本中的上半部分的页面。上述第二子专利文本是上述子专利文本中的下半部分的页面。
作为示例,首先,上述执行主体可以对上述子专利文本进行横线识别,以得到至少一根横线。然后,上述执行主体可以将上述至少一根横线中最上侧的横线作为分割线,对上述子专利文本进行文本分割,以生成上述第一子专利文本和上述第二子专利文本。其中,上述执行主体可以通过以下代码对上述子专利文本进行横线识别:
import matplotlib.pyplot as plt
import cv2
import numpy as np
img1=cv2.imread("img1.png",1)
img2=cv2.cvtColor(img1,cv2.COLOR_BGR2GRAY)
img3=cv2.adaptiveThreshold(~img2,255,
cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
cv2.THRESH_BINARY,15,-10)
rows,cols=img3.shape
scale=20
kernel=cv2.getStructuringElement(cv2.MORPH_RECT,(cols//scale,1))
eroded=cv2.erode(img3,kernel,iterations=1)
dilatedcol=cv2.dilate(eroded,kernel,iterations=1)
plt.imshow(dilatedcol,cmap='gray')
plt.axis('off')
plt.show()
例如,通过上述代码对上述子专利文本进行横线识别后的横线识别结果示意图可以如图4所示,其中,图4所示的横线识别结果示意图中包括10根横线。其中,上述执行主体可以将10根横线中,最上侧的横线作为分割线,对上述子专利文本进行文本分割,以生成上述第一子专利文本和上述第二子专利文本。
第三步,对上述第一子专利文本进行类别模板匹配,以生成上述专利文本信息包括的专利类别和上述专利文本对应的申请公布号。
第四步,根据上述申请公布号,抓取上述专利文本对应的实时专利状态,作为上述专利文本信息包括的专利状态。
其中,上述执行主体可以通过预先构建的爬虫代码,抓取上述申请公布号对应的专利文本的实时专利状态,作为上述专利文本信息包括的专利状态。
第五步,对上述第二子专利文本进行文本定位识别,以确定上述专利文本信息包括的专利申请日期和上述专利文本对应的分类编号
其中,上述执行主体可以通过文本定位识别模型,对上述第二子专利文本进行文本定位识别,以确定上述专利文本信息包括的专利申请日期和上述专利文本对应的分类编号。实践中,上述文本定位识别模型可以是SVTR(Scene Text Recognition with SingleVisual Model)模型。
第六步,对上述分类编号进行编号映射,以确定上述专利文本信息包括的分类信息。
其中,上述执行主体可以根据预设的映射表,确定上述分类编号对应的分类信息。映射表中包含了预先收集的分类编号和对应的分类信息。
第七步,响应于确定上述专利文本对应的专利类型与目标类型相同,对上述专利文本包含的图进行图定位,得到至少一张图。
其中,上述目标类型可以是外观专利类型。其中,上述执行主体可以通过图定位模型对上述专利文本包含的图进行图定位。例如,上述图定位模型可以是Xception模型。实践中,上述图定位模型的训练样本可以包括训练图像和图像位置坐标。其中,训练图像中可以包括子图像。训练图像中除子图像以外的区域的色值相同。例如,色值均为白色对应的色值。图像位置坐标为子图像在训练图像中的位置坐标。例如,图像位置坐标可以包括一组子图像的对角点的坐标。又如,图像位置坐标可以包括子图像的四个角点的坐标。
作为示例,首先,上述执行主体可以通过图定位模型定位上述专利文本中的图,并输出图对应的角点坐标。然后,上述执行主体可以将角点坐标所围成的区域确定为上述至少一张图中的图。
第八步,对上述至少一张图中的每张图执行以下第一关键词确定步骤:
第一子步骤,对上述图进行图特征提取,以生成图特征信息。
其中,上述执行主体可以通过图特征提取模型,对上述图进行图特征提取,以生成上述图特征信息。实践中,上述图特征信息可以用向量的形式表征。例如,上述图特征提取模型可以是FPN(Feature Pyramid Networks,特征金字塔网络)模型。
第二子步骤,将上述图特征信息输入至预先训练的图关键词映射模型,以生成专利文本信息包括的关键词集合。
其中,上述图关键词提取模型可以是多分类模型。例如,上述多分类模型可以是连接有多分类层的卷积神经网络模型。实践中,图特征提取模型和上述图关键词提取模型可以组合成关键词提取模型,以用于生成关键词集合。
第九步,响应于确定上述专利文本对应的专利类型与上述目标类型不相同,执行以下第二关键词确定步骤:
第一子步骤,对上述专利文本进行文本识别,以生成识别后文本信息。
其中,上述执行主体可以通过ASTER模型,对上述专利文本进行文本识别,以生成识别后文本信息。
第二子步骤,对上述识别后文本信息词分割,以生成候选关键词,得到候选关键词集合。
实践中,上述执行主体可以通过结巴分词,对上述识别后文本信息词分割,以生成候选关键词,得到候选关键词集合。候选关键词集合中可以存在重复的候选关键词。
第三子步骤,确定上述候选关键词集合中的每个候选关键词在上述专利文本中的词重要度。
实践中,上述执行主体可以通过将候选关键词的词频作为候选关键词的词重要程度。例如,词频可以是候选关键词在候选关键词集合中出现的次数与上述候选关键词集合中的候选关键词的数量的比值。
第四子步骤,从上述候选关键词集合中筛选出对应的词重要度满足词筛选条件的候选关键词,作为上述专利文本信息包括的关键词集合中的关键词。
其中,上述词筛选条件可以是候选关键词对应的词重要程度大于预设阈值。实践中,预设阈值可以根据实际需要进行人工设定。可选地,上述词筛选条件可以包括:第一词筛选条件、第二词筛选条件和第三词筛选条件。其中,第一词筛选条件可以是:候选关键词对应的词重要程度大于预设阈值。第二词筛选条件可以是:候选关键词非停用词表中的停用词。第三词筛选条件为:候选关键词的词性为预设词性。实践中,预设词性可以是名词。
第五子步骤,确定上述专利文本是否存在关联的专利文本。
其中,上述执行主体可以对第一子专利文本进行文本定位识别,以确定上述专利文本是否存在关联的专利文本。实践中,关联的专利文本可以是专利文本对应的对比文件。
第六子步骤,响应于确定上述专利文本存在关联的专利文本,将与上述专利文本存在关联的专利文本,作为关联专利文本,得到关联专利文本集合。
第七子步骤,对于上述关联专利文本集合中的每个关联专利文本进行关键词抽取,以生成目标关键词组,得到目标关键词组集合。
其中,上述执行主体可以采用上述第一子步骤至第二子步骤的方式,对上述关联专利文本进行关键词抽取,以生成目标关键词组。
第八子步骤,对上述目标关键词组集合中的目标关键词进行关键词去重,得到去重后关键词,作为上述专利文本信息包括的关键词集合中的关键词。
上述步骤202中的可选地内容作为本公开的一个发明点,解决了背景技术提及的技术问题二“采用对企业主体的名称进行关键词提取的方式,当企业主体的名称与企业主体对应的实际领域关联度不大时,生成的行业分类标签的准确率低”。实际情况中,企业主体的名称存在与其对应的实际领域关联度不大的情况,采用对企业主体的名称进行关键词提取的方式虽然提取速度快,但生成的行业分类标签的准确率低。基于此,本公开考虑到目标主体的专利文本与其的实际领域之间的关联性,因此,设置对专利文本的信息提取步骤。首先,本申请考虑到专利文本的基础信息如,专利类别,专利申请日期和专利状态能够表征专利文本本身的存在参考意义,因此设置了相应的提取步骤,在提取中,由于基础信息的排版基本固定,因此,先对专利文本进行分割,在分别对分割得到的第一子专利文本和第二子专利文本进行单独的信息提取。接着,考虑到不同类型的专利文本所包含的内容的存在差异,如外观专利类型的专利文本中包含较多的图。发明专利类型的专利文本包含较多的文字。因此,本公开针对目标类型(外观专利类型)的专利文本设置了图识别步骤,针对非目标类型的专利文本设置了文本识别步骤,从而提高针对不同类型的专利文本的信息提取效率,完善了提取流程。通过此种方式大大提高了针对专利文本的特征提取能力。侧面保证了后续的基于专利文本的特征的行业分类标签的生成准确度。
步骤203,根据专利文本信息集合,生成针对目标主体的、与专利相关的专利特征向量,得到专利特征向量集合。
在一些实施例中,上述执行主体可以根据专利文本信息集合,生成针对目标主体的、与专利相关的专利特征向量,得到专利特征向量集合。
作为示例,对于专利文本信息集合中的中的每个专利文本信息,上述执行主体可以通过SBERT模型,对上述专利文本信息进行向量化处理,以生成上述专利文本信息对应的、针对目标主体的、与专利相关的专利特征向量。
步骤204,以专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合。
在一些实施例中,上述执行主体可以以专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合。其中,专利特征向量组中的各个专利特征向量对应相同的簇中心。实践中,上述执行主体可以通过DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise,具有噪声的基于密度的聚类方法)算法,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合。
步骤205,根据物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合。
在一些实施例中,上述执行主体可以根据物品获取信息集合,通过各种方式,生成物品获取特征向量集合和标签特征向量集合。其中,物品获取特征向量是对物品获取信息进行向量化处理得到的特征向量。标签特征向量可以是对物品获取信息对应的主体(例如,企业主体)的分类标签进行向量化处理得到的特征向量。
在一些实施例的一些可选的实现方式中,上述执行主体根据物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合,可以包括以下步骤:
第一步,从上述物品获取信息集合中筛选出不满足筛选条件的物品获取信息,作为候选物品获取信息,得到候选物品获取信息集合。
其中,上述筛选条件为:物品获取信息存在信息缺失。
第二步,对上述候选物品获取信息集合中的每个候选物品获取信息进行信息编码,以生成物品获取特征向量,得到上述物品获取特征向量集合。实践中,上述候选物品获取信息往往为离散型数值数据。因此,上述执行主体可以对上述候选物品获取信息进行归一化处理,以生成物品获取特征向量。
第三步,根据上述物品获取信息集合,确定与上述目标主体相关联的至少一个关联主体,得到关联主体信息集合。
其中,对于上述物品获取信息集合中的每个物品获取信息,上述执行主体可以将上述物品获取信息对应的物资的物资交换方中、除上述目标主体外的主体,作为关联主体,得到关联主体信息。
第四步,确定上述关联主体信息集合中每个关联主体信息对应的关联主体的候选分类标签组,得到候选分类标签组集合。
其中,上述执行主体可以读取预先构建的、上述关联主体信息对应的关联主体对应的至少一个行业分类标签,作为上述关联主体信息对应的候选分类标签组。实践中,关联主体对应的至少一个行业分类标签可以存储在预先构建的行业分类标签树中。行业分类标签树中的行业分类标签包括:第一类行业分类标签和第二类行业分类标签。其中,第一类行业分类标签是通过有监督的方式训练得到机器学习模型,并通过训练后的机器学习模型对行业类别进行识别得到的。例如,机器学习模型可以是卷积神经网络。第二类行业分类标签可以是通过预训练模型对行业类别进行识别得到的。例如,预训练模型可以是经过迁移学习得到的机器学习学习模型,如BERT模型。此外,第一类行业分类标签和第二类行业分类标签可以通过等级分类模型进行标签等级确定。实践中,标签包括:1级标签和2级标签。等级分类模型可以是二分类模型。1级标签对应的行业分类标签可以涵盖多个2级标签对应的行业分类标签。并且,上述执行主体还可以通过关系识别模型,确定不同行业类别标签之间的隶属关系,从而确定不同行业类别标签在行业分类标签树中的连接关系。实践中,关系识别模型可以是连接有二分类层的神经网络模型。除此之外,对于行业分类标签树中的行业分类标签的添加,对于待添加的行业分类标签,上述执行主体可以计算待添加的行业分类标签与上述行业分类标签树中的行业分类标签的相似度,当相似度大于相似度阈值时,可以将添加的待行业分类标签与上述行业分类标签树中对应相似度较高的行业分类标签进行标签替换更新。当相似度小于等于相似度阈值时,可以采用关系识别模型确定待添加的行业分类标签与行业分类标签树中的行业分类标签之间的隶属关系,以此确定待添加的行业分类标签在行业分类标签树中的位置。
第五步,对上述候选分类标签组集合中的候选分类标签进行分类标签去重,得到去重后分类标签集合。
第六步,对上述去重后分类标签集合中的每个去重后分类标签进行标签编码,以生成标签特征向量,得到上述标签特征向量集合。
其中,上述执行主体可以采用独热编码的方式,对上述去重后分类标签进行标签编码,以生成标签特征向量。
步骤206,对专利特征向量组集合、物品获取特征向量集合和标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合。
在一些实施例中,上述执行主体可以对专利特征向量组集合、物品获取特征向量集合和标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合。
作为示例,上述执行主体可以将专利特征向量组集合、物品获取特征向量集合和标签特征向量集合进行向量拼接,以生成上述融合向量集合。
在一些实施例的一些可选的实现方式中,上述执行主体可以对专利特征向量组集合、物品获取特征向量集合和标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集,可以包括以下步骤:
对于上述专利特征向量组集合中的每个专利特征向量组,执行以下向量融合步骤:
第一子步骤,对上述专利特征向量组中的各个专利特征向量进行向量拼接,以生成拼接后专利特征向量。
第二子步骤,将上述拼接后专利特征向量、上述物品获取特征向量集合和上述标签特征向量集合进行向量拼接,以生成融合向量。
实践中,首先,上述执行主体可以将物品获取特征向量集合中的各个物品获取特征向量进行向量拼接,以生成拼接后物品获取特征向量。其次,上述执行主体可以将标签特征向量集合中的各个标签特征向量进行向量拼接,以生成拼接后标签特征向量。最后,上述执行主体可以将拼接后专利特征向量、上述拼接后物品获取特征向量和上述拼接后标签特征向量进行向量拼接,以生成融合向量。
可选地,再将拼接后专利特征向量、上述物品获取特征向量集合和上述标签特征向量集合进行向量拼接之前,上述执行主体可以对拼接后专利特征向量进行向量对齐,以保证各个专利特征向量组对应的拼接后专利特征向量的向量长度一致。
步骤207,根据融合向量集合和预先训练的行业分类标签预测模型,生成针对目标主体的至少一个行业分类标签。
在一些实施例中,上述执行主体可以根据融合向量集合和预先训练的行业分类标签预测模型,生成针对目标主体的至少一个行业分类标签。其中,上述行业分类标签预测模型可以是用于预测行业分类标签的模型。实践中,上述行业分类标签预测模型包括向量处理模型和预测模型。其中,上述向量处理模型包括:向量处理层和Transformer层。上述预测模型可以是Softmax层。实践中,上述向量处理层的网络结构可以如图5所示,其中,向量处理层包括:卷积层A、卷积层B、卷积层C、卷积层D、卷积层E、卷积层F、卷积层G、特征拼接层和降采样层。其中,卷积层A、卷积层C、卷积层E和卷积层F的卷积核大小相同,即卷积核的大小为1×1。卷积层B和卷积层G的卷积核大小相同,即卷积核的大小为3×3。卷积层D的卷积核大小为5×5。特征拼接层采用Concat的拼接方式对卷积层A、卷积层B、卷积层D和卷积层F输出的特征向量进行拼接。降采样层采用ResNet网络的结构。
上述向量处理层通过设置四通道,即,通道1:卷积层A;通道2:卷积层B和卷积层C;通道3:卷积层D和卷积层E;通道4:卷积层F和卷积层G,以及不同的卷积核大小的卷积层实现不同尺度的特征提取,可以得到更好的特征表征。此外,考虑到融合向量的向量维度较高,为了降低后续特征处理的计算复杂度,通过设置降采样层对特征的维度进行降低,以此达到降低计算复杂度的目的。
可选的,对上述至少一个行业分类标签中的每个行业分类标签,上述执行主体可以执行以下校验步骤:
第一步,响应于确定上述行业分类标签的标签置信度大于第一阈值或小于第二阈值,将上述行业分类标签发送至信息校验端,以使得校验人员校验上述行业分类标签与上述目标主体的关联度。
其中,上述信息校验端可以是以供校验人员人工校验上述行业分类标签与上述目标主体的关联度的终端。上述第一阈值可以是预设的最大阈值。上述第二阈值可以是预设的最小阈值。上述第一阈值大于上述第二阈值。
第二步,响应于确定上述行业分类标签的标签置信度大于等于第二阈值、且小于等于第一阈值,根据预设的抽检策略信息,确定是否对上述行业分类标签进行抽检。
其中,上述抽检策略信息可以表征抽样策略。实践中,抽检策略信息可以包括:抽样方式和抽样比例。
第三步,响应于确定对上述行业分类标签进行抽检,将上述行业分类标签发送至上述信息校验端。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的行业分类标签生成方法,提高了针对企业主体的标签标注效率,实现了对企业主体的高效率的领域定位。具体来说,造成针对企业主体的标签标注效率低下,以及对企业主体的领域定位效率低下的原因在于:企业主体的数量,及企业主体所属的行业分类数量众多,采用人工的方式进行手动标签标注,标签标注效率低下,导致无法高效地对企业主体进行领域定位。基于此,本公开的一些实施例的行业分类标签生成方法,首先,获取目标主体对应的专利文本集合和物品获取信息集合,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合中的专利文本的专利状态为目标状态。实际情况中,处于目标状态的专利文本在一定程度上能够表征目标主体的当前研发方向,侧面涵盖了目标主体所属的行业分类,同时,物品获取信息表征了目标主体在物资上的转移信息,侧面涵盖了目标主体所属的行业分类。接着,对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,上述专利文本信息集合中的专利文本信息包括:分类信息。通过信息提取,以得到专利文本的内容。接着,根据上述专利文本信息集合,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合。从而实现专利文本信息的向量化表征。此外,以上述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心。通过聚类,实现了相同分类类别的专利的聚簇。除此之外,根据上述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合。从而实现了物品获取信息的向量化表征。接着,对上述专利特征向量组集合、上述物品获取特征向量集合和上述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合。从而得到专利角度和物资转移角度的融合向量。最后,根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签。通过此种方式,提高了针对企业主体的标签标注效率,实现了对企业主体的高效率的领域定位。
进一步参考图6,作为对上述各图所示方法的实现,本公开提供了一种行业分类标签生成装置的一些实施例,这些装置实施例与图2所示的那些方法实施例相对应,该行业分类标签生成装置具体可以应用于各种电子设备中。
如图6所示,一些实施例的行业分类标签生成装置600包括:获取单元601、信息提取单元602、第一生成单元603、聚类单元604、第二生成单元605、向量融合单元606和第三生成单元607。其中,获取单元601,被配置成获取目标主体对应的专利文本集合和物品获取信息集合,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合中的专利文本的专利状态为目标状态;信息提取单元602,被配置成对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,上述专利文本信息集合中的专利文本信息包括:分类信息;第一生成单元603,被配置成根据上述专利文本信息集合,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合;聚类单元604,被配置成以上述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;第二生成单元605,被配置成根据上述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合;向量融合单元606,被配置成对上述专利特征向量组集合、上述物品获取特征向量集合和上述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合;第三生成单元607,被配置成根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签。
可以理解的是,该行业分类标签生成装置600中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于行业分类标签生成装置600及其中包含的单元,在此不再赘述。
下面参考图7,其示出了适于用来实现本公开的一些实施例的电子设备(如图1所示的计算设备101)700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器702中的程序或者从存储装置708加载到随机访问存储器703中的程序而执行各种适当的动作和处理。在随机访问存储器703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从只读存储器702被安装。在该计算机程序被处理装置701执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标主体对应的专利文本集合和物品获取信息集合,其中,上述目标主体为待进行行业分类标签生成的主体,上述专利文本集合中的专利文本的专利状态为目标状态;对上述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,上述专利文本信息集合中的专利文本信息包括:分类信息;根据上述专利文本信息集合,生成针对上述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合;以上述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对上述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;根据上述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合;对上述专利特征向量组集合、上述物品获取特征向量集合和上述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合;根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、信息提取单元、第一生成单元、聚类单元、第二生成单元、向量融合单元和第三生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第三生成单元还可以被描述为“根据上述融合向量集合和预先训练的行业分类标签预测模型,生成针对上述目标主体的至少一个行业分类标签的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种行业分类标签生成方法,包括:
获取目标主体对应的专利文本集合和物品获取信息集合,其中,所述目标主体为待进行行业分类标签生成的主体,所述专利文本集合中的专利文本的专利状态为目标状态;
对所述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,所述专利文本信息集合中的专利文本信息包括:分类信息,专利类别,专利申请日期,专利状态和关键词集合;
根据所述专利文本信息集合,生成针对所述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合;
以所述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对所述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;
根据所述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合;
对所述专利特征向量组集合、所述物品获取特征向量集合和所述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合;
根据所述融合向量集合和预先训练的行业分类标签预测模型,生成针对所述目标主体的至少一个行业分类标签;
其中,所述对所述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,包括:
对所述专利文本进行文本截取,得到目标页数对应的子专利文本;
对所述子专利文本进行文本分割,得到第一子专利文本和第二子专利文本;
对所述第一子专利文本进行类别模板匹配,以生成所述专利文本信息包括的专利类别和所述专利文本对应的申请公布号;
根据所述申请公布号,抓取所述专利文本对应的实时专利状态,作为所述专利文本信息包括的专利状态;
对所述第二子专利文本进行文本定位识别,以确定所述专利文本信息包括的专利申请日期和所述专利文本对应的分类编号;
对所述分类编号进行编号映射,以确定所述专利文本信息包括的分类信息;
响应于确定所述专利文本对应的专利类型与目标类型相同,对所述专利文本包含的图进行图定位,得到至少一张图;
对所述至少一张图中的每张图执行以下第一关键词确定步骤:
对所述图进行图特征提取,以生成图特征信息;
将所述图特征信息输入至预先训练的图关键词映射模型,以生成专利文本信息包括的关键词集合;
响应于确定所述专利文本对应的专利类型与所述目标类型不相同,执行以下第二关键词确定步骤:
对所述专利文本进行文本识别,以生成识别后文本信息;
对所述识别后文本信息词分割,以生成候选关键词,得到候选关键词集合;
确定所述候选关键词集合中的每个候选关键词在所述专利文本中的词重要度;
从所述候选关键词集合中筛选出对应的词重要度满足词筛选条件的候选关键词,作为所述专利文本信息包括的关键词集合中的关键词;
确定所述专利文本是否存在关联的专利文本;
响应于确定所述专利文本存在关联的专利文本,将与所述专利文本存在关联的专利文本,作为关联专利文本,得到关联专利文本集合;
对于所述关联专利文本集合中的每个关联专利文本进行关键词抽取,以生成目标关键词组,得到目标关键词组集合;
对所述目标关键词组集合中的目标关键词进行关键词去重,得到去重后关键词,作为所述专利文本信息包括的关键词集合中的关键词。
2.根据权利要求1所述的方法,其中,所述方法还包括:
对所述至少一个行业分类标签中的每个行业分类标签,执行以下校验步骤:
响应于确定所述行业分类标签的标签置信度大于第一阈值或小于第二阈值,将所述行业分类标签发送至信息校验端,以使得校验人员校验所述行业分类标签与所述目标主体的关联度;
响应于确定所述行业分类标签的标签置信度大于等于第二阈值、且小于等于第一阈值,根据预设的抽检策略信息,确定是否对所述行业分类标签进行抽检;
响应于确定对所述行业分类标签进行抽检,将所述行业分类标签发送至所述信息校验端。
3.根据权利要求2所述的方法,其中,所述根据所述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合,包括:
从所述物品获取信息集合中筛选出不满足筛选条件的物品获取信息,作为候选物品获取信息,得到候选物品获取信息集合,其中,所述筛选条件为:物品获取信息存在信息缺失;
对所述候选物品获取信息集合中的每个候选物品获取信息进行信息编码,以生成物品获取特征向量,得到所述物品获取特征向量集合;
根据所述物品获取信息集合,确定与所述目标主体相关联的至少一个关联主体,得到关联主体信息集合;
确定所述关联主体信息集合中每个关联主体信息对应的关联主体的候选分类标签组,得到候选分类标签组集合;
对所述候选分类标签组集合中的候选分类标签进行分类标签去重,得到去重后分类标签集合;
对所述去重后分类标签集合中的每个去重后分类标签进行标签编码,以生成标签特征向量,得到所述标签特征向量集合。
4.根据权利要求3所述的方法,其中,所述对所述专利特征向量组集合、所述物品获取特征向量集合和所述标签特征向量集合进行向量融合,以生成融合向量,包括:
对于所述专利特征向量组集合中的每个专利特征向量组,执行以下向量融合步骤:
对所述专利特征向量组中的各个专利特征向量进行向量拼接,以生成拼接后专利特征向量;
将所述拼接后专利特征向量、所述物品获取特征向量集合和所述标签特征向量集合进行向量拼接,以生成融合向量。
5.一种行业分类标签生成装置,包括:
获取单元,被配置成获取目标主体对应的专利文本集合和物品获取信息集合,其中,所述目标主体为待进行行业分类标签生成的主体,所述专利文本集合中的专利文本的专利状态为目标状态;
信息提取单元,被配置成对所述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,得到专利文本信息集合,其中,所述专利文本信息集合中的专利文本信息包括:分类信息,专利类别,专利申请日期,专利状态和关键词集合;
第一生成单元,被配置成根据所述专利文本信息集合,生成针对所述目标主体的、与专利相关的专利特征向量,得到专利特征向量集合;
聚类单元,被配置成以所述专利文本信息集合中的专利文本信息包括的分类信息为簇中心,对所述专利特征向量集合中的专利特征向量进行聚类,以生成专利特征向量组集合,其中,专利特征向量组中的各个专利特征向量对应相同的簇中心;
第二生成单元,被配置成根据所述物品获取信息集合,生成物品获取特征向量集合和标签特征向量集合;
向量融合单元,被配置成对所述专利特征向量组集合、所述物品获取特征向量集合和所述标签特征向量集合进行向量融合,以生成融合向量,得到融合向量集合;
第三生成单元,被配置成根据所述融合向量集合和预先训练的行业分类标签预测模型,生成针对所述目标主体的至少一个行业分类标签;
其中,所述对所述专利文本集合中的每个专利文本进行信息提取,以生成专利文本信息,包括:
对所述专利文本进行文本截取,得到目标页数对应的子专利文本;
对所述子专利文本进行文本分割,得到第一子专利文本和第二子专利文本;
对所述第一子专利文本进行类别模板匹配,以生成所述专利文本信息包括的专利类别和所述专利文本对应的申请公布号;
根据所述申请公布号,抓取所述专利文本对应的实时专利状态,作为所述专利文本信息包括的专利状态;
对所述第二子专利文本进行文本定位识别,以确定所述专利文本信息包括的专利申请日期和所述专利文本对应的分类编号;
对所述分类编号进行编号映射,以确定所述专利文本信息包括的分类信息;
响应于确定所述专利文本对应的专利类型与目标类型相同,对所述专利文本包含的图进行图定位,得到至少一张图;
对所述至少一张图中的每张图执行以下第一关键词确定步骤:
对所述图进行图特征提取,以生成图特征信息;
将所述图特征信息输入至预先训练的图关键词映射模型,以生成专利文本信息包括的关键词集合;
响应于确定所述专利文本对应的专利类型与所述目标类型不相同,执行以下第二关键词确定步骤:
对所述专利文本进行文本识别,以生成识别后文本信息;
对所述识别后文本信息词分割,以生成候选关键词,得到候选关键词集合;
确定所述候选关键词集合中的每个候选关键词在所述专利文本中的词重要度;
从所述候选关键词集合中筛选出对应的词重要度满足词筛选条件的候选关键词,作为所述专利文本信息包括的关键词集合中的关键词;
确定所述专利文本是否存在关联的专利文本;
响应于确定所述专利文本存在关联的专利文本,将与所述专利文本存在关联的专利文本,作为关联专利文本,得到关联专利文本集合;
对于所述关联专利文本集合中的每个关联专利文本进行关键词抽取,以生成目标关键词组,得到目标关键词组集合;
对所述目标关键词组集合中的目标关键词进行关键词去重,得到去重后关键词,作为所述专利文本信息包括的关键词集合中的关键词。
6.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的方法。
CN202211554253.4A 2022-12-06 2022-12-06 行业分类标签生成方法、装置、电子设备和可读介质 Active CN115563289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211554253.4A CN115563289B (zh) 2022-12-06 2022-12-06 行业分类标签生成方法、装置、电子设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211554253.4A CN115563289B (zh) 2022-12-06 2022-12-06 行业分类标签生成方法、装置、电子设备和可读介质

Publications (2)

Publication Number Publication Date
CN115563289A CN115563289A (zh) 2023-01-03
CN115563289B true CN115563289B (zh) 2023-03-07

Family

ID=84770475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211554253.4A Active CN115563289B (zh) 2022-12-06 2022-12-06 行业分类标签生成方法、装置、电子设备和可读介质

Country Status (1)

Country Link
CN (1) CN115563289B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315738A (zh) * 2017-07-05 2017-11-03 山东大学 一种文本信息的创新度评估方法
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN112148952A (zh) * 2020-09-28 2020-12-29 腾讯科技(深圳)有限公司 一种任务执行方法、装置、设备及计算机可读存储介质
CN112487794A (zh) * 2019-08-21 2021-03-12 顺丰科技有限公司 行业分类方法、装置、终端设备及存储介质
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
KR20210123898A (ko) * 2020-04-06 2021-10-14 (주)비타소프트 멀티 레이블 분류 기반 상표 이미지 검색 방법과 이 방법을 적용한 상표 이미지 검색 시스템
CN114297387A (zh) * 2021-12-31 2022-04-08 智慧芽信息科技(苏州)有限公司 训练样本标注方法及装置、分类模型训练方法及装置
CN115238076A (zh) * 2022-08-03 2022-10-25 江西理工大学 提高多层级专利文本分类效果的方法、设备及存储介质
WO2022227207A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315738A (zh) * 2017-07-05 2017-11-03 山东大学 一种文本信息的创新度评估方法
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN112487794A (zh) * 2019-08-21 2021-03-12 顺丰科技有限公司 行业分类方法、装置、终端设备及存储介质
KR20210123898A (ko) * 2020-04-06 2021-10-14 (주)비타소프트 멀티 레이블 분류 기반 상표 이미지 검색 방법과 이 방법을 적용한 상표 이미지 검색 시스템
CN112148952A (zh) * 2020-09-28 2020-12-29 腾讯科技(深圳)有限公司 一种任务执行方法、装置、设备及计算机可读存储介质
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
WO2022227207A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN114297387A (zh) * 2021-12-31 2022-04-08 智慧芽信息科技(苏州)有限公司 训练样本标注方法及装置、分类模型训练方法及装置
CN115238076A (zh) * 2022-08-03 2022-10-25 江西理工大学 提高多层级专利文本分类效果的方法、设备及存储介质

Also Published As

Publication number Publication date
CN115563289A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN109543690B (zh) 用于提取信息的方法和装置
CN111582409B (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
CN113141360B (zh) 网络恶意攻击的检测方法和装置
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN113705733A (zh) 医疗票据图像处理方法及装置、电子设备、存储介质
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
Chen et al. Intelligent welding defect detection model on improved r-cnn
Sridharan et al. Recognition of font and tamil letter in images using deep learning
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN115563289B (zh) 行业分类标签生成方法、装置、电子设备和可读介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN113780239A (zh) 虹膜识别方法、装置、电子设备和计算机可读介质
Chen et al. Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow
CN112418321A (zh) 标志图像的识别方法和装置
CN112926368A (zh) 一种识别障碍物的方法和装置
CN111091198A (zh) 一种数据处理方法及装置
CN110909737A (zh) 图片文字识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant