CN112733549A - 一种基于多重语义融合的专利价值信息分析方法、装置 - Google Patents
一种基于多重语义融合的专利价值信息分析方法、装置 Download PDFInfo
- Publication number
- CN112733549A CN112733549A CN202011625601.3A CN202011625601A CN112733549A CN 112733549 A CN112733549 A CN 112733549A CN 202011625601 A CN202011625601 A CN 202011625601A CN 112733549 A CN112733549 A CN 112733549A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- text
- inputting
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000013145 classification model Methods 0.000 claims abstract description 57
- 238000012360 testing method Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 62
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于多重语义融合的专利价值信息分析方法、装置,方法包括如下步骤:从专利数据库中获取专利的数值信息、文本信息和图像信息,并进行预处理;将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;根据三种分类器的分类结果,分析专利价值;本发明提出的方法运用前沿的深度学习技术,对专利的非结构化数据特征、文本语义特征以及图像特征等多重特征进行提取和分析,实现全方位专利价值评估,整个分析过程不依赖专家经验,速度快,且准确度高。
Description
技术领域
本发明涉及专利价值分析领域,特别是指一种基于多重语义融合的专利价值信息分析方 法、装置。
背景技术
目前关于专利价值的分析基本是通过从业多年的相关领域专家的评定方式进行,这种评 定方式很大程度上依赖于专家经验,主观性强,给专利价值的分析带来了很大的风险,且这 个过程速度慢,效率低,花费巨大。现有技术中缺乏系统的、面向大众的有效专利价值分析 方法。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于多重语义融合的专利 价值信息分析方法,该方法运用前沿的深度学习技术,对专利的非结构化数据特征、文本语 义特征以及图像特征等多重特征进行提取和分析,实现全方位对专利价值进行评估,整个分 析过程不依赖于专家经验,便捷速度快,且准确度高。
本发明采用如下技术方案:
一种基于多重语义融合的专利价值信息分析方法,其特征在于,包括如下步骤:
从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文 本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后 的图像信息;
将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输 入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试 集输入训练好的语义分类模型Bert,提取文本语义特征;
将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输 入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像 信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入 MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
根据三种分类器的分类结果,分析专利价值。
具体地,所述专利的数值信息包括但不限于:数值信息包括:引用次数、专利权利要求、 同组引用次数、被引用专利数量、公开年、申请年、5年内被引用次数、3年内被引用次数、 简单同族被引用专利总数、引用专利数量、PatSnap同族被引用专利总数、INPADOC同族被引 用专利总数、文献代码、受理局、专利类型、简单法律状态、IPC主分类号、诉讼案件数、非专利引用文献数量、当前申请人数量、非专利引用文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息包括但不限于:专利摘要附图和专利说明书附图。
具体地,所述文本语义特征包括:语义特征。
具体地,所述图像特征包括:纹理特征、形状特征。
具体地,所述XGBoost分类器、MLP分类器和ResNet分类器的训练方法为:采用机器学 习中半监督学习算法Tri-training。
具体地,所述根据三种分类器的分类结果,分析专利价值;具体包括:
三种分类器的分类结果均为高,则专利为高价值专利;
三种分类器的分类结果中有一种或两种分类器的分类结果为高,则专利为中价值专利;
三种分类器的分类结果中均为低,则专利为低价值专利。
本发明实施例另一方面提供一种基于多重语义融合的专利价值信息分析装置,包括:
信息获取和预处理模块:用于从专利数据库中获取专利的数值信息、文本信息和图像信 息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预 处理后的文本信息和预处理后的图像信息;
文本语义特征提取模块:用于将预处理后的文本信息分为文本信息训练集和文本信息测 试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型 Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;
图像特征提取模块:用于将预处理后的图像信息分为图像信息训练集和图像信息测试集, 所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型 DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
分类模块:用于将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文 本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
价值分析模块:用于根据三种分类器的分类结果,分析专利价值。
本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器 上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实 现上述基于多重语义融合的专利价值信息分析方法步骤。
本发明实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储 有计算机程序,所述计算机程序被处理器执行时实现基于多重语义融合的专利价值信息分析 方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明采用语义分类模型Bert以及图像分类模型Densenet,对专利的非结构化数 据特征、文本语义特征以及图像特征等多重特征进行提取和分析,实现全方位对专利价值进 行评估,整个分析过程不依赖于专家经验,便捷速度快,且准确度高。
(2)从专利数据库中获取专利的数值信息、文本信息和图像信息,具体包括:数值信息 包括:引用次数、专利权利要求项数、同族引用次数、被引用专利数量、公开年、申请年、5 年内被引用次数、3年内被引用次数、简单同族被引用专利总数、引用专利数量、PatSnap同 族被引用专利总数、INPADOC同族被引用专利总数、文献代码、受理局、专利类型、简单法 律状态、IPC主分类号、诉讼案件数、非专利引用文献数量、当前申请人数量、非专利引用 文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族 成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息 包括但不限于:专利摘要附图和专利说明书附图;利用这些信息进行分析处理,详细且全面。
(3)本发明实施例在进行专利价值的分类时,不同类型的特征采用不同的分类器进行处 理,充分体现不同分类器的分类优势,提高分类准确性,从而实现专利价值的准确分析。
附图说明
图1为本发明实施例的方法的整体流程图;
图2为本发明实施例的方法的结构框图;
图3为本发明实施例提供的装置示意图;
图4为本发明实施例提供的一种电子设备的示意图;
图5为本发明实施例提供的计算机可读存储介质的示意图。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
如图1,本发明实施例提供一种基于多重语义融合的专利价值信息分析方法流程图,图2 为本发明实施例的方法的结构框图;具体包括如下步骤:
S101:从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信 息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预 处理后的图像信息;
具体地,所述专利的数值信息包括但不限于:数值信息包括:引用次数、专利权利要求项 数、同族引用次数、被引用专利数量、公开年、申请年、5年内被引用次数、3年内被引用次 数、简单同族被引用专利总数、引用专利数量、PatSnap同族被引用专利总数、INPADOC同族 被引用专利总数、文献代码、受理局、专利类型、简单法律状态、IPC主分类号、诉讼案件 数、非专利引用文献数量、当前申请人数量、非专利引用文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息包括但不限于:专利摘要附图和专利说明书附图。
其中将获取的数值信息、文本信息和图像信息进行预处理,对于获取的专利的数值信息, 如引用次数、专利权利要求项数,同族引用次数等,将其中的数值拼接得到一个数值向量; 对于获取的文本信息,如专利摘要、专利标题,以专利标题:{},专利摘要{}”的格式进行拼 接;对于专利信息中的图像信息,将其中的摘要附图和说明书附图的图像大小均修改为特定 尺寸。
S102:将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训 练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信 息测试集输入训练好的语义分类模型Bert,提取文本语义特征;
将预处理后的文本信息分为文本信息训练集和文本信息测试集,对于训练集,专利的价 值已经预先由相关领域专家进行分析,并给出相应的标签标记;送入语义分类模型Bert中进 行训练;得到训练好的语义分类模型Bert,将所述文本信息测试集输入训练好的语义分类模 型Bert,提取文本语义特征;文本语义特征包括:语义特征。
模型Bert,是深度学习在自然语言处理领域的最新模型,在自然语言处理领域表现出优 异的性能;BERT模型是一个预训练语言表示模型(pre-trained languagerepresentations model)。所谓预训练语言表示模型,就是先用这个模型在可与最终任务无关的大数据集上训 练处语言的表示,然后将学到的知识(表示)用到任务相关的语言表示上。这样做的原因是 考虑到(1)若任务相关的数据集可能很小,小数据无法反映出语言间的复杂关系,同样也很 容易让复杂的深度网络模型过拟合;(2)若任务相关的数据集很大,大数据上的训练时间很 长,要在短时间内、特别是有限计算资源下利用深度网络学到相关的信息是困难的。基于特 征的方法利用预训练好的模型提取文本特征,并将所提取的特征作为额外的特征加入到针对 特定任务的表示模型之中;基于微调的方法则是使用特定任务的数据集和标签来微调预训练 好的模型(网络)参数,从而使得预训练的模型能够适应特定任务。
S103:将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训 练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所 述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
将预处理后的图像信息分为图像信息训练集和图像信息测试集,对于训练集,专利的价 值已经预先由相关领域专家进行分析,并给出相应的标签标记;送入图像分类模型DenseNett 中进行训练;得到训练好的图像分类模型DenseNet,提取图像特征,具体地,所述图像特征 包括:纹理特征、形状特征。
S104:将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特 征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
一个专利具有很多种信息,专利的价值也不是通过专利的单一信息进行判定,需要综合 多种信息来评估分析专利的价值,而目前的分类器中针对不同的类型的特征表现的性能也大 不相同,为了能够实现准确的分类和专利价值信息分析,在本发明实施例中,不同类型的特 征采用不同的分类器模型,实现不同类型特征的准确分类,并根据多种分类器的分类结果共 同评估专利的价值,从而实现专利价值的准确分析。
S105:根据三种分类器的分类结果,分析专利价值。
具体地,所述根据三种分类器的分类结果,分析专利价值;具体包括:
三种分类器的分类结果均为高,则专利为高价值专利;
三种分类器的分类结果中有一种或两种分类器的分类结果为高,则专利为中价值专利;
三种分类器的分类结果中均为低,则专利为低价值专利。
具体地,所述XGBoost分类器、MLP分类器和ResNet分类器的训练方法为:采用机器学 习中半监督学习算法Tri-training。
如图3,本发明实施例另一方面提供一种基于多重语义融合的专利价值信息分析装置30, 包括:
信息获取和预处理模301:用于从专利数据库中获取专利的数值信息、文本信息和图像 信息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、 预处理后的文本信息和预处理后的图像信息;
文本语义特征提取模块302:用于将预处理后的文本信息分为文本信息训练集和文本信 息测试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类 模型Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;
图像特征提取模块303:用于将预处理后的图像信息分为图像信息训练集和图像信息测 试集,所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类 模型DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
分类模块304:用于将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器, 文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
价值分析模块305:用于根据三种分类器的分类结果,分析专利价值。
如图4所示,本发明实施例提供了一种电子设备400,存储器410、处理器420及存储在 存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现以下步骤:
从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文 本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后 的图像信息;
将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输 入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试 集输入训练好的语义分类模型Bert,提取文本语义特征;
将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输 入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像 信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入 MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
根据三种分类器的分类结果,分析专利价值。
在具体实施过程中,处理器420执行计算机程序411时,可以实现图1对应的实施例中 任一实施方式。
如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511, 该计算机程序511被处理器执行时实现如下步骤:
从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文 本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后 的图像信息;
将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输 入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试 集输入训练好的语义分类模型Bert,提取文本语义特征;
将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输 入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像 信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入 MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
根据三种分类器的分类结果,分析专利价值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计 算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存 储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所 提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易 失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、 电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随 机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得, 诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率 SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、 存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储 器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性 的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还 包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要 素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素 的过程、装置、物品或者方法中还存在另外的相同要素。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对 本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (9)
1.一种基于多重语义融合的专利价值信息分析方法,其特征在于,包括如下步骤:
从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后的图像信息;
将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;
将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
根据三种分类器的分类结果,分析专利价值。
2.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述专利的数值信息包括但不限于:数值信息包括:引用次数、专利权利要求项数、同族引用次数、被引用专利数量、公开年、申请年、5年内被引用次数、3年内被引用次数、简单同族被引用专利总数、引用专利数量、PatSnap同族被引用专利总数、INPADOC同族被引用专利总数、文献代码、受理局、专利类型、简单法律状态、IPC主分类号、诉讼案件数、非专利引用文献数量、当前申请人数量、非专利引用文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息包括但不限于:专利摘要附图和专利说明书附图。
3.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述文本语义特征包括:语义特征。
4.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述图像特征包括:纹理特征、形状特征。
5.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述XGBoost分类器、MLP分类器和ResNet分类器的训练方法为:采用机器学习中半监督学习算法Tri-training。
6.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述根据三种分类器的分类结果,分析专利价值;具体包括:
三种分类器的分类结果均为高,则专利为高价值专利;
三种分类器的分类结果中有一种或两种分类器的分类结果为高,则专利为中价值专利;
三种分类器的分类结果中均为低,则专利为低价值专利。
7.一种基于多重语义融合的专利价值信息分析装置,其特征在于,包括:
信息获取和预处理模块:用于从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后的图像信息;
文本语义特征提取模块:用于将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;
图像特征提取模块:用于将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;
分类模块:用于将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;
价值分析模块:用于根据三种分类器的分类结果,分析专利价值。
8.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现权利要求1至6任一所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625601.3A CN112733549B (zh) | 2020-12-31 | 2020-12-31 | 一种基于多重语义融合的专利价值信息分析方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625601.3A CN112733549B (zh) | 2020-12-31 | 2020-12-31 | 一种基于多重语义融合的专利价值信息分析方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733549A true CN112733549A (zh) | 2021-04-30 |
CN112733549B CN112733549B (zh) | 2024-03-01 |
Family
ID=75609852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011625601.3A Active CN112733549B (zh) | 2020-12-31 | 2020-12-31 | 一种基于多重语义融合的专利价值信息分析方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733549B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344121A (zh) * | 2021-06-29 | 2021-09-03 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN114913372A (zh) * | 2022-05-10 | 2022-08-16 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别算法 |
Citations (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002092229A (ja) * | 2000-09-14 | 2002-03-29 | Sony Corp | アイデア価値評価装置、アイデア運用装置およびそれらの方法 |
US6556992B1 (en) * | 1999-09-14 | 2003-04-29 | Patent Ratings, Llc | Method and system for rating patents and other intangible assets |
CN1494021A (zh) * | 2002-11-01 | 2004-05-05 | 鸿富锦精密工业(深圳)有限公司 | 专利自动分类与展示系统及方法 |
JP2005032136A (ja) * | 2003-07-10 | 2005-02-03 | Nissan Motor Co Ltd | 特許評価方法及び特許評価システム |
WO2007052460A1 (ja) * | 2005-10-31 | 2007-05-10 | Ird Corp. | 情報処理装置、及び情報処理方法 |
CN102541888A (zh) * | 2010-12-20 | 2012-07-04 | 鸿富锦精密工业(深圳)有限公司 | 专利电子文件解析系统及方法 |
KR20120123784A (ko) * | 2011-05-02 | 2012-11-12 | 서울대학교산학협력단 | 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법 |
KR20130098957A (ko) * | 2013-08-07 | 2013-09-05 | (주)이암허브 | 명세서의 품질 평가방법, 평가시스템 및 명세서 품질평가 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 |
KR20140022282A (ko) * | 2012-08-14 | 2014-02-24 | 최승욱 | 특허 분석 방법, 특허 분석 장치 및 특허 분석 시스템 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN106485612A (zh) * | 2016-10-12 | 2017-03-08 | 南方电网科学研究院有限责任公司 | 一种专利价值评估系统及价值评估方法 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
US20170140240A1 (en) * | 2015-07-27 | 2017-05-18 | Salesforce.Com, Inc. | Neural network combined image and text evaluator and classifier |
WO2017113232A1 (zh) * | 2015-12-30 | 2017-07-06 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的产品分类方法及装置 |
CN107679153A (zh) * | 2017-09-27 | 2018-02-09 | 国家电网公司信息通信分公司 | 一种专利分类方法及装置 |
US20180075556A1 (en) * | 2015-04-09 | 2018-03-15 | Masayuki SHOBAYASHI | Information processing device, method and program |
CN108416535A (zh) * | 2018-03-27 | 2018-08-17 | 中国科学技术大学 | 基于深度学习的专利价值评估的方法 |
CN108897805A (zh) * | 2018-06-15 | 2018-11-27 | 江苏大学 | 一种专利文本自动分类方法 |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN109840668A (zh) * | 2017-11-27 | 2019-06-04 | 韩国发明振兴会 | 利用结构方程模型的专利评价方法以及执行该方法的系统 |
CN109885681A (zh) * | 2019-01-25 | 2019-06-14 | 中译语通科技股份有限公司 | 一种基于计算机科技文献数据库的专利价值度计算方法 |
CN110162631A (zh) * | 2019-05-17 | 2019-08-23 | 中山大学 | 面向triz发明原理的中文专利分类方法、系统及储存介质 |
CN110414753A (zh) * | 2018-04-27 | 2019-11-05 | 南方电网科学研究院有限责任公司 | 一种知识产权价值评估系统及其方法 |
CN110458466A (zh) * | 2019-08-16 | 2019-11-15 | 内蒙古大学 | 基于数据挖掘和异构知识关联的专利估值方法、估值系统 |
CN111221970A (zh) * | 2019-12-31 | 2020-06-02 | 论客科技(广州)有限公司 | 基于行为结构和语义内容联合分析的邮件分类方法及装置 |
CN111861046A (zh) * | 2019-04-02 | 2020-10-30 | 南京大学 | 基于大数据和深度学习的专利价值智能评估系统 |
-
2020
- 2020-12-31 CN CN202011625601.3A patent/CN112733549B/zh active Active
Patent Citations (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556992B1 (en) * | 1999-09-14 | 2003-04-29 | Patent Ratings, Llc | Method and system for rating patents and other intangible assets |
JP2002092229A (ja) * | 2000-09-14 | 2002-03-29 | Sony Corp | アイデア価値評価装置、アイデア運用装置およびそれらの方法 |
CN1494021A (zh) * | 2002-11-01 | 2004-05-05 | 鸿富锦精密工业(深圳)有限公司 | 专利自动分类与展示系统及方法 |
JP2005032136A (ja) * | 2003-07-10 | 2005-02-03 | Nissan Motor Co Ltd | 特許評価方法及び特許評価システム |
WO2007052460A1 (ja) * | 2005-10-31 | 2007-05-10 | Ird Corp. | 情報処理装置、及び情報処理方法 |
CN102541888A (zh) * | 2010-12-20 | 2012-07-04 | 鸿富锦精密工业(深圳)有限公司 | 专利电子文件解析系统及方法 |
KR20120123784A (ko) * | 2011-05-02 | 2012-11-12 | 서울대학교산학협력단 | 확률론적 특허 인용 분석에 기반한 미래 유망 특허 탐색 장치 및 그 방법 |
KR20140022282A (ko) * | 2012-08-14 | 2014-02-24 | 최승욱 | 특허 분석 방법, 특허 분석 장치 및 특허 분석 시스템 |
KR20130098957A (ko) * | 2013-08-07 | 2013-09-05 | (주)이암허브 | 명세서의 품질 평가방법, 평가시스템 및 명세서 품질평가 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
US20180075556A1 (en) * | 2015-04-09 | 2018-03-15 | Masayuki SHOBAYASHI | Information processing device, method and program |
US20170140240A1 (en) * | 2015-07-27 | 2017-05-18 | Salesforce.Com, Inc. | Neural network combined image and text evaluator and classifier |
WO2017113232A1 (zh) * | 2015-12-30 | 2017-07-06 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的产品分类方法及装置 |
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN106485612A (zh) * | 2016-10-12 | 2017-03-08 | 南方电网科学研究院有限责任公司 | 一种专利价值评估系统及价值评估方法 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
CN107679153A (zh) * | 2017-09-27 | 2018-02-09 | 国家电网公司信息通信分公司 | 一种专利分类方法及装置 |
CN109840668A (zh) * | 2017-11-27 | 2019-06-04 | 韩国发明振兴会 | 利用结构方程模型的专利评价方法以及执行该方法的系统 |
CN108416535A (zh) * | 2018-03-27 | 2018-08-17 | 中国科学技术大学 | 基于深度学习的专利价值评估的方法 |
CN110414753A (zh) * | 2018-04-27 | 2019-11-05 | 南方电网科学研究院有限责任公司 | 一种知识产权价值评估系统及其方法 |
CN108897805A (zh) * | 2018-06-15 | 2018-11-27 | 江苏大学 | 一种专利文本自动分类方法 |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN109885681A (zh) * | 2019-01-25 | 2019-06-14 | 中译语通科技股份有限公司 | 一种基于计算机科技文献数据库的专利价值度计算方法 |
CN111861046A (zh) * | 2019-04-02 | 2020-10-30 | 南京大学 | 基于大数据和深度学习的专利价值智能评估系统 |
CN110162631A (zh) * | 2019-05-17 | 2019-08-23 | 中山大学 | 面向triz发明原理的中文专利分类方法、系统及储存介质 |
CN110458466A (zh) * | 2019-08-16 | 2019-11-15 | 内蒙古大学 | 基于数据挖掘和异构知识关联的专利估值方法、估值系统 |
CN111221970A (zh) * | 2019-12-31 | 2020-06-02 | 论客科技(广州)有限公司 | 基于行为结构和语义内容联合分析的邮件分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
林弘杰: "基于深度学习的专利价值评估方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 12, pages 140 - 56 * |
王英瑜: "基于深度学习的专利文本分析方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 9, pages 138 - 1420 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344121A (zh) * | 2021-06-29 | 2021-09-03 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN113344121B (zh) * | 2021-06-29 | 2023-10-27 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN114913372A (zh) * | 2022-05-10 | 2022-08-16 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别算法 |
CN114913372B (zh) * | 2022-05-10 | 2023-05-26 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112733549B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN113377936B (zh) | 智能问答方法、装置及设备 | |
CN108182175B (zh) | 一种文本质量指标获取方法及装置 | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN105426354A (zh) | 一种句向量的融合方法和装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112733549A (zh) | 一种基于多重语义融合的专利价值信息分析方法、装置 | |
CN113705733A (zh) | 医疗票据图像处理方法及装置、电子设备、存储介质 | |
CN112417862A (zh) | 知识点预测方法、系统和可读存储介质 | |
CN110728117A (zh) | 基于机器学习和自然语言处理的段落自动识别方法及系统 | |
CN113312476A (zh) | 一种文本自动打标签方法及其装置和终端 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN112580329B (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114003692A (zh) | 合同文本信息的处理方法、装置、计算机设备及存储介质 | |
CN117520561A (zh) | 直升机装配领域知识图谱构建的实体关系抽取方法及系统 | |
CN116541528A (zh) | 招聘领域知识图谱构建的打标签方法和系统 | |
CN110852103A (zh) | 一种命名实体识别方法及装置 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN116150308A (zh) | 识别模型的训练方法、识别方法和装置 | |
CN106815592B (zh) | 文本数据处理方法及装置和错别字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |