CN117271800B - 一种专利的产业信息挖掘方法、挖掘系统及存储介质 - Google Patents

一种专利的产业信息挖掘方法、挖掘系统及存储介质 Download PDF

Info

Publication number
CN117271800B
CN117271800B CN202311270200.4A CN202311270200A CN117271800B CN 117271800 B CN117271800 B CN 117271800B CN 202311270200 A CN202311270200 A CN 202311270200A CN 117271800 B CN117271800 B CN 117271800B
Authority
CN
China
Prior art keywords
node
text data
entity
current
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311270200.4A
Other languages
English (en)
Other versions
CN117271800A (zh
Inventor
王建
李�浩
王佐成
吕孝忠
张晞曈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Space Research Institute
Original Assignee
Data Space Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Space Research Institute filed Critical Data Space Research Institute
Priority to CN202311270200.4A priority Critical patent/CN117271800B/zh
Publication of CN117271800A publication Critical patent/CN117271800A/zh
Application granted granted Critical
Publication of CN117271800B publication Critical patent/CN117271800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于专利数据图谱构建技术领域,尤其涉及一种专利的产业信息挖掘方法、挖掘系统及存储介质。挖掘方法包括:S1,从各大专利数据库中抓取专利文献,并对各篇专利文献进行预处理后,得到对应的各条专利文本数据;一篇专利文献得到一条专利文本数据;S2,各条专利文本数据都包括申请信息和内容信息,从各条专利文本数据的申请信息和内容信息中抽取词语/字形成当前专利文本数据的网状图谱,并将存在引用关系的专利文本数据的网状图谱连接起来;S3,基于各条专利文本数据的网状图谱的节点进行节点特征值计算后,对各条专利文本数据对应的专利文献进行产业分类。本发明能够对专利进行高效且准确的产业信息挖掘,降低挖掘过程中的人工成本。

Description

一种专利的产业信息挖掘方法、挖掘系统及存储介质
技术领域
本发明属于专利数据图谱构建技术领域,尤其涉及一种专利的产业信息挖掘方法、挖掘系统及存储介质。
背景技术
近年来,随着技术的不断发展和市场竞争的加剧,产业竞争已经从产品和服务层面升级到了创新和知识层面。因此,精准对专利进行产业信息挖掘已经成为许多企业的焦点。专利的产业信息包括专利的技术方案、专利的相关著录信息、专利所属的行业分类。所以挖掘专利的产业信息可以为企业提供更精准的市场分析和预测,同时,企业可以通过给相关专利支付费用来进一步实现市场规划,反过来也促进了产学研的成果转化。
现有技术中,主要是人工根据企业的行业分类以及市场布局,来通过关键词检索或IPC分类号初步查找对应的专利文献后,将各专利文献中的著录信息、技术方案内容提取出来并精简技术方案,汇总成各专利文献的产业信息。
但是,专利文献上的IPC分类号所涵盖的技术领域比较宽泛,且与行业分类并不是完全一致的,有些IPC分类号涵盖多个类别的行业,无法直接对应至特定的行业中,需要人工再根据各专利文献中的技术方案内容来对号入座各个类别的行业,耗时费力,且存在较强的主观性;且仅先通过IPC分类号或关键词来初步查找对应的专利文献,有可能会漏掉最前沿、存在领域交叉的专利文献,这不利于企业的市场分析和预测。例如,对于智能家居行业的专利文献,IPC号分类往往只能归为电子学或计算机技术领域。再者,人工对专利文献提取并精简技术方案的周期长、主观性强、不同的人精简的结果质量也不一样。所以,现有技术无法在快速进行专利的产业信息挖掘的同时,还保持较高的准确性。
发明内容
本发明的目的是克服上述现有技术的不足,提供一种专利的产业信息挖掘方法,能够对专利进行高效的产业信息挖掘,同时保证产业信息的准确性,降低挖掘过程中的人工成本。
为实现上述目的,本发明采用了以下技术方案:
一种专利的产业信息挖掘方法,包括以下步骤:
S1,从各大专利数据库中抓取专利文献,并对各篇专利文献进行预处理后,得到对应的各条专利文本数据;一篇专利文献得到一条专利文本数据;
S2,各条专利文本数据都包括申请信息和内容信息,从各条专利文本数据的申请信息和内容信息中抽取词语/字形成当前专利文本数据的网状图谱,并将存在引用关系的专利文本数据的网状图谱连接起来;
S3,基于各条专利文本数据的网状图谱的节点进行节点特征值计算后,对各条专利文本数据对应的专利文献进行产业分类。
优选的,S1中具体还包括以下子步骤:
S11,先将从各大专利数据库中抓取的专利文献翻译成中文后,再与本地数据库内的已存储的专利文献进行比对,若当前抓取的专利文献与本地数据库内已存储的专利文献内容重复,则丢弃当前专利文献,否则将当前抓取的专利文献的副本存储于本地数据库内,同时,对当前抓取的专利文献进行数据清洗;
S12,对当前专利文献进行数据清洗,去除各篇专利文献中的非法字符,纠正拼写错误后形成专利文本数据;
非法字符指空格、图片、下划线、反斜杠、非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。
优选的,S2中具体还包括以下子步骤:
S21,从各条专利文本数据中的发明名称、发明人、申请人、专利分类号这些结构化信息里通过正则表达式抽取对应的结构化申请信息;
S22,对非结构化的信息中进行词语/字的抽取,形成结构化的内容信息,从各条专利文本数据中的非结构化信息里抽取实体、实体间的关系,形成若干个“头部实体-实体间的关系-尾部实体”的三元组结构;
专利文本数据中非结构化的信息包括权利要求书、说明书部分的文本内容;
S23,围绕当前专利文献的发明名称,结构化申请信息与三元组结构,形成当前专利文献的网状图谱。
优选的,S22中具体还包括以下子步骤:
S221,预先定义实体类型、实体间的关系类型;
S222,选取若干条专利文本数据,对这些专利文本数据中的实体、实体间的关系进行人工标注后形成训练数据集,采用具有监督学习算法的抽取模型基于训练数据集进行训练,使用训练后的抽取模型在未标注的专利文本数据文本上自动进行实体间的关系以及实体的识别与抽取后,输出“头部实体-实体间的关系-尾部实体”的三元组结构;
S223,基于当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构,计算当前抽取模型的损失函数,并根据损失函数对抽取模型进行优化。
优选的,S222中具体还包括以下子步骤:
S222a,选取若干条专利文本数据,人工标注这些专利文本数据中的实体、实体间的关系在对应专利文本数据中的索引位置后形成训练数据集,采用两阶段提示学习算法的抽取模型基于训练数据集进行初步训练,来训练抽取模型从专利文本数据中抽取出实体、实体间的关系,并输出对应索引位置;
S222b,初步训练结束后,使用抽取模型正式进行实体抽取:
将当前未标注的专利文本数据送入抽取模型内,抽取模型将当前专利文本数据从左往右依次转化为对应的内容集C,C={C1,C2,...,Cj,...,Cm},
抽取模型根据预先定义的实体类型设定好当前专利文本数据的第一段提示集P(k),P(k)={Pk1,Pk2,...,Pki,...,Pkn},
其中,Cj表示当前内容集C中的第j位所对应的字符;1≤j≤m,且j、m均为正整数,P(k)表示第k种实体类型对应的第一段提示集,Pki表示当前第一段提示集P(k)中的第i个位置对应的字符,1≤k,1≤i≤n,且k、i、n均为正整数,各条专利文本数据、实体类型的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应内容集C、第一段提示集P(k)内的一个字符;
依次将不同的第一段提示集P(k)与当前内容集C拼接在一起,形成当前内容集C的k个第一段输入文本T(k):
T(k)={[CLS],Pk1,Pk2,...,Pki,...,Pkn,[SEP],C1,C2,...,Cj,...,Cm,[SEP]},经过初步训练的抽取模型对T(k)进行实体抽取,若当前专利文本数据中存在满足第一段提示集P(k)的实体,则抽取模型输出各实体在当前专利文本数据中的索引位置,输出的索引位置形式为[起始索引位置,结束索引位置],内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同,则表示这个实体只有一个字符,且输出的索引位置均大于0;否则,抽取模型输出[-1,-1],代表当前专利文本数据中不存在满足第一段提示集P(k)的实体,
其中,[CLS]表示句子的开始字符,[SEP]表示句子间的分割符,以及句子的结尾字符;
S222c,抽取模型分别将从当前专利文本数据中抽取出的实体作为头部实体,对满足实体间的关系的尾部实体进行抽取:
抽取模型分别将从S222b中抽取出的实体作为头部实体,和预先定义的实体间的关系类型组合成当前专利文本数据的第二段提示集P′(o),P′(o)={P′o1,P′o2,...,P′oj,...,P′oq},
其中,P′(o)表示当前实体和第o种实体间的关系类型所对应的第二段提示集,P′oj表示当前提第二段示集P′(o)中的第j个位置对应的字符,1≤o,1≤j≤q,且o、j、q均为正整数,各实体间的关系的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应第二段示集P′(o)内的一个字符;
依次将不同的第二段示集P′(o)与当前内容集C拼接在一起,形成当前内容集C的o个第二段输入文本T′(o):
T′(o)={[CLS],P′o1,P′o2,...,P′oj,...,P′oq,[SEP],C1,C2,...,Cj,...,Cm,[SEP]},
抽取模型对T′(o)进行实体间的关系抽取,若当前专利文本数据中存在满足第二段示集P′(o)的实体间的关系,则抽取模型输出满足第二段提示集P′(o)的各个尾部实体在当前专利文本数据中的索引位置,输出的索引位置形式为[起始索引位置,结束索引位置],内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同,则表示这个实体只有一个字符,且输出的索引位置均大于0;否则,抽取模型输出[-1,-1],代表当前专利文本数据中不存在满足第二段示集P′(o)的尾部实体,
其中,[CLS]表示句子的开始字符,[SEP]表示句子间的分割符,以及句子的结尾字符;
S222d,根据从当前专利文本数据中抽取头部实体、实体间的关系类型、尾部实体,抽取模型输出若干个“头部实体索引位置-实体间的关系-尾部实体索引位置”的索引位置结构;
S222e,三元组输出模块根据抽取模型输出的索引位置结构,在当前专利文本数据中抽取出对应索引位置的头部实体、部实体,形成“头部实体-实体间的关系-尾部实体”的三元组结构。
优选的,S223中具体还包括以下子步骤:
S223a,在当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构所对应的第一段提示集P(k)、第二段提示集P′(o)、内容集C,采用编码器进行编码,输出为隐层向量表示集H,
H=Encoder([CLS],Pk1,Pk2,...,Pki,...,Pkn,P′o1,P′o2,...,P′oj,...,P′oq,[SEP],C1,C2,...,Cj,...,Cm,[SEP])={H1,H2,...,Ht,...,H(m+n+q+3)},
其中,[CLS]表示句子的开始字符;[SEP]表示句子间的分割符以及句子的结尾字符;Encoder表示编码器的编码处理,编码处理后的输出与输入的元素个数相同,本发明中,输入为(m+n+q+3)个元素,经编码处理后,输出的隐层向量也是(m+n+q+3)个,Ht表示输出的第t个隐层向量表示,1≤t≤(m+n+q+3),且t、m、n、q均为正整数;
S223b,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>
S223c,将经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Ht属于当前三元组结构所对应的专利文本数据开头的概率向量pstart;将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Ht属于当前三元组结构所对应的专利文本数据结尾的概率向量pend
S223d,基于当前三元组结构所对应的专利文本数据,以及该专利文本数据使用当前抽取模型所输出的N个三元组结构,计算当前抽取模型的损失函数Lθ
其中,Sr表示当前专利文本数据在步骤S222所输出的第r个三元组结构;N为当前专利文本数据所输出的三元组结构的总个数,其中1≤r≤N,且r、N均为正整数;表示在概率向量pstart里分别取出与三元组结构Sr中的头部实体、尾部实体所对应的起始索引位置处的维度上的向量值,/>表示在概率向量pend里分别取出与三元组结构Sr中头部实体、尾部实体所对应的结束索引位置处的维度上的向量值;
S223e,对损失函数Lθ求导后得到梯度方向,再回到S222,根据梯度下降的方向不断调整抽取模型内的参数,用调整后的抽取模型从下一条专利文本数据中抽取并形成新的若干个三元组结构。
优选的,S23中还包括以下内容:
围绕当前专利文献的发明名称这个节点,以指向目标节点的直线/曲线来表示节点间的关系,得到各申请信息作为目标节点与当前专利文献的发明名称节点之间为“申请”关系;各三元组结构中的实体作为目标节点与当前专利文献的发明名称节点之间为“内容”关系;
同时,将三元组结构中的关系也以指向目标节点的直线/曲线来表示,即头部实体所表示的节点通过直线/曲线指向尾部实体所表示的目标节点,并将不同三元组结构中的相同实体重合为一个节点,形成当前专利文献的网状图谱;
其中,相同的实体指两个及以上三元组结构中的头部实体,或两个及以上三元组结构中的尾部实体,或两个及以上三元组结构的头部和尾部实体;
若当前专利文献存在包含引用关系的三元组结构,则将包含引用关系的三元组结构里的尾部实体,也即文献类实体作为目标节点,则目标节点与当前专利文献的发明名称节点之间为引用关系。
优选的,在S3后还包括以下子步骤:
S31,选取若干个专利文献的网状图谱,根据网状图谱,按照专利文献的直接相关程度从高到低,人工标注出各专利文献的所对应的w个行业,形成训练集,采用具有RGCN的节点特征处理模型基于训练集进行初步训练,来训练节点特征处理模型根据当前专利文献网状图谱中的各节点计算出与各行业的匹配度;
S32,使用经过初步训练的节点特征处理模型,在节点特征处理模型的隐藏层中对当前专利文献网状图谱中各个实体所表示的节点进行特征值计算,即对各实体节点进行特征值计算:
其中,表示网状图谱中第(l+1)层的第a个节点的特征值,/>表示网状图谱中第l层的第a个节点的特征值,/>表示网状图谱中第l层的第a个节点自身的权重,/>表示网状图谱中,关系e在第l层中的权重,/>表示网状图谱中与第l层的第a个节点之间存在关系e时的邻居节点b的特征值,/>表示网状图谱中,第l层的节点a和邻居节点之间为关系e时的邻居节点的集合,/>表示集合/>中的节点总数量,σ表示ReLU激活函数,各节点之间的关系即为各个实体间的关系类型,R表示所有实体间的关系类型的集合,各网状图谱中的每一层的节点均是从左往右进行标号,各网状图谱中,从发明名称的节点出发,经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数;l≥1,a≥1,b≥1,且l、a、b为正整数,/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数,网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的;
若第(l+1)层的实体节点总数量v大于第l层的实体节点总数量z,则第(l+1)层中从第(z+1)个节点至第v个节点用如下公式进行特征值计算:
,其中,表示网状图谱中第(l+1)层的第u个节点的特征值,/>表示网状图谱中第l层的第z个节点的特征值,/>表示网状图谱中第l层的第z个节点自身的权重,/>表示网状图谱中,关系e2在第l层中的权重,/>表示网状图谱中与第l层的第z个节点之间存在关系e1时的邻居节点b2的特征值,/>表示网状图谱中,第l层的节点z和邻居节点之间为关系e2时的邻居节点的集合,/>表示集合/>中的节点总数量,σ表示ReLU激活函数,各节点之间的关系即为各个实体间的关系类型,R表示所有实体间的关系类型的集合,各网状图谱中的每一层的节点均是从左往右进行标号,各网状图谱中,从发明名称的节点出发,经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数,l≥1,(z+1)≤u≤v,且l、z、v均为正整数,网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的;/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数;
S33,节点特征处理模型的隐藏层将当前专利文献网状图谱中计算出的各实体节点的特征值后输出至节点特征处理模型的激活层中,激活层中随机初始化行业分类权重的向量表示中的维数与行业分类的数量相同,激活层使用softmax激活函数对同一篇专利文献的各实体节点的特征值计算后求和,再将求和结果基于行业分类权重的向量表示/>映射成行业匹配度向量/>后输出至节点特征处理模型的输出层,
行业匹配度向量中不同的维度代表不同的行业,各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分;
S34,节点特征处理模型的输出层按前专利文献与各行业的匹配度得分降序输出前F个行业,作为当前专利文献排名前F的对应行业;
S35,基于当前专利文献所对应的降序排列的F个对应行业,计算当前节点特征处理模型的损失函数L:
其中,g为预设常数,g=1,y表示当前专利文献所对应的网状图谱中的各个实体节点的集合,表示当前专利文献所对应的网状图谱中第l层的第a个节点的特征值,a,l∈y表示实体节点特征值/>所取的是集合y中的节点;
对损失函数L求导后得到梯度方向,再回到S32,根据梯度下降的方向不断调整节点特征处理模型内的参数,用调整后的节点特征处理模型计算下一篇专利文献的网状图谱中实体节点的特征值。
本发明还提供一种专利的产业信息挖掘系统,包括:
抓取模块、预处理模块、抽取和图谱生成模块、行业分类模块;
抓取模块用于从各大专利数据库中抓取专利文献,并将抓取的专利文献送至预处理模块内;
预处理模块用于各篇专利文献进行预处理生成专利文本数据后送入抽取模块内;
抽取和图谱生成模块用于从各条专利文本数据的申请信息和内容信息中抽取词语/字后形成当前专利文本数据的网状图谱,并将各网状图谱送入行业分类模块;
行业分类模块用于根据对各条专利文本数据的网状图谱中的节点进行特征计算后进行产业分类;
各模块被编程或配置以执行如上述的一种专利的产业信息挖掘方法的步骤。
本发明还提供一种计算机可读存储介质,其特征在于:计算机可读存储介质存储有被编程或配置以执行如上述的一种专利的产业信息挖掘方法的计算机程序。
本发明的有益效果在于:
(1)相较于现有技术对专利文献中的产业信息进行人工挖掘而言,本发明的抽取模型在当前专利文本数据非结构化的内容信息中,采用先后两个阶段完成对实体、实体间的关系的抽取,即第一阶段先抽取不同类型的实体,第一阶段中将第一阶段抽取出的各实体分别作为头部实体,与不同的实体间的关系相组合,再抽取尾部实体,最终输出当前专利文本数据的内容信息中所对应的所有三元组结构。本发明在抽取并形成三元组结构的同时,直接利用生成的三元组结构来计算当前关抽取模型的损失函数,基于损失函数来优化从新一条专利文本数据中抽取并形成三元组结构的抽取模型,提高三元组结构中实体、实体间的关系的准确性,缩短输出三元组结构的时间。也即本发明不仅可以及时将新公开的专利文献转化为多个结构化的三元组形式,高效地把专利文献的技术方案提取并精简后,直观地显示在网状图谱中,而且在得到当前专利文献的三元组结构的过程中,也在不断提高后续新生成的三元组结构的准确性和效率。专利文献被转化为网状图谱后,其信息更为结构化,表达能力更强,更易于企业全面把控各篇专利文献的技术内容和进行市场分析。
(2)本发明在得到一篇专利文献的网状图谱后,采用节点特征处理模型,基于实体节点进行特征计算后,再对当前专利文献网状图谱中的各实体节点进行激活函数计算、求和,最终将求和的数值映射成各个维度代表不同行业的行业匹配度向量,而行业匹配度各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分,并降序输出当前专利文献对应的行业。因为本发明的行业分类,是基于实体节点进行特征计算,所以行业分类结果是基于当前专利文献的技术方案内容进行精准地分类,同时,本发明的采用节点特征处理模型,对能够更好地捕捉实体节点之间的复杂关系,进一步提高行业分类的精确性。
(3)本发明在按匹配度降序输出与当前专利文献所对应行业的同时,直接利用当前的输出结果来计算当前节点特征处理模型的损失函数,基于损失函数来优化计算下一篇专利文献的网状图谱中实体节点的特征值,提高对专利文献进行行业分类的准确性,缩短分类时间。。
(4)本发明的一种专利的产业信息挖掘方法,能够快速、准确地构建出一篇专利文献的网状图谱并基于网状图谱对专利文献进行精确高效的行业分类,并且本发明在网状图谱中全面的融入了专利文献的著录信息和技术方案等内容,使专利文献的网状图谱可以更直观的表达完备的信息,便于后续企业基于这些专利的产业信息进行后续的时长预测和分析。同时,本发明自动对专利文献进行产业信息挖掘、生成对应的网状图谱、进行行业分类,节约了大量的人工成本,且避免了人工在进行专利产业信息挖掘的过程中会因个人主观性而影响挖掘结果的质量,本发明的分类结果的准确性高且也是较为稳定。
(5)本发明可以对各大平台、专利数据库的专利文献进行穷尽式地产业信息挖掘,基于专利文献的技术方案,做到不遗漏任何一篇最前沿、可能相关的专利文献,避免了人工在进行专利产业信息挖掘的初期根据IPC分类号查找专利文献时可能存在的遗漏的情况,具有极高的时效性,为各企业进行后续的市场开拓提供有力的保障。
附图说明
图1为本发明的一种专利的产业信息挖掘方法的流程图;
图2为采用本发明的产业信息挖掘方法得到的专利文本数据的网状图谱;
图3为本发明专利的产业信息挖掘方法与人工挖掘之间的效率对比曲线图;
图4为本发明一种专利的产业信息挖掘方法与人工挖掘所得到产业信息的准确率对比曲线图。
具体实施方式
为使本发明的技术方案更加清晰明确,下面结合附图对本发明进行清楚、完整地描述,本领域普通技术人员在没有做出创造性劳动前提下对本发明技术方案的技术特征进行等价替换和常规推理得出的方案均落入本发明的保护范围。
如图1所示的一种专利的产业信息挖掘方法的流程图,包括以下步骤:
S1,从各大专利数据库中抓取专利文献,并对各篇专利文献进行预处理后,得到对应的各条专利文本数据;一篇专利文献得到一条专利文本数据;
S2,各条专利文本数据都包括申请信息和内容信息,从各条专利文本数据的申请信息和内容信息中抽取词语/字形成当前专利文本数据的网状图谱,并将存在引用关系的专利文本数据的网状图谱连接起来;
S3,基于各条专利文本数据的网状图谱的节点进行节点特征值计算后,对各条专利文本数据对应的专利文献进行产业分类。
在S1中,还包括以下子步骤:
S11,先将从各大专利数据库中抓取的专利文献翻译成中文后,再与本地数据库内的已存储的专利文献进行比对,若当前抓取的专利文献与本地数据库内已存储的专利文献内容重复,则丢弃当前专利文献,否则将当前抓取的专利文献的副本存储于本地数据库内,同时,对当前抓取的专利文献进行数据清洗。
在S11中,本地数据库的存在,是用于对新抓取的本地数据库进行预处理的第一步,也就是去重,内容重复的专利文献只有一篇能够保留在本地数据库内,这避免了同一篇专利文献在后续步骤中被重复的计算处理,达到减少计算开销和内存占用的目的。
本实施例中,抓取专利文献的专利数据库包括但不限于中国国家知识产权局、美国专利商标局和欧洲专利局。
S12,对当前专利文献进行数据清洗,去除各篇专利文献中的非法字符,纠正拼写错误后形成专利文本数据。
非法字符指空格、图片、下划线、反斜杠等非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。
对各篇专利文献进行数据清洗后,可以将专利文献转化为高准确性、高完整性的专利文本数据,便于后续抽取实体和实体间的关系。
在S2中,还包括以下子步骤:
S21,从各条专利文本数据中的发明名称、发明人、申请人、专利分类号这些结构化信息里通过正则表达式抽取对应的结构化申请信息;
正则表达式抽取结构化信息为现有技术。
S22,对非结构化的信息中进行词语/字的抽取,形成结构化的内容信息,从各条专利文本数据中的非结构化信息里抽取实体、实体间的关系,形成若干个“头部实体-实体间的关系-尾部实体”的三元组结构;
专利文本数据中非结构化的信息包括权利要求书、说明书部分的文本内容;
S23,围绕当前专利文献的发明名称,结构化申请信息与三元组结构,形成当前专利文献的网状图谱。
在S22中还包括以下子步骤:
S221,预先定义实体类型、实体间的关系类型;
本发明中,实体类型包括工艺类实体、算法类实体、系统类实体、领域类实体、装置类实体、功能类实体、形状类实体、文献类实体等;
本发明中,实体间的关系类型包括包含关系、连接连通关系、方向位置关系、功能关系、类属关系、顺序关系、引用关系等。
工艺类实体例如注入工艺、焊接工艺;算法类实体例如模拟退火算法、LSTM算法;系统类实体例如图像处理系统、人脸识别系统;领域类实体例如医疗领域、机器人领域;装置类实体例如感应电路、旋钮;功能类实体例如文本分类、信息抽取;形状类实体例如锥形、圆形;文献类实体例如期刊论文号、专利号、期刊论文名称、专利名称。
包含关系例如头部实体包含尾部实体,或者头部实体是由尾部实体组成的;连接连通关系例如头部实体固定/连接在尾部实体上;方向位置关系例如头部实体在尾部实体之上/下/内部/外部;功能关系例如采用头部实体来达到尾部实体的目标;类属关系例如尾部实体是头部实体的一个子类;顺序关系例如先执行头部实体,再执行尾部实体;引用关系例如当前专利作为头部实体引用作为尾部实体的文献类实体;
S222,选取若干条专利文本数据,对这些专利文本数据中的实体、实体间的关系进行人工标注后形成训练数据集,采用具有监督学习算法的抽取模型基于训练数据集进行训练,使用训练后的抽取模型在未标注的专利文本数据文本上自动进行实体间的关系以及实体的识别与抽取后,输出“头部实体-实体间的关系-尾部实体”的三元组结构;
优选的,在S222后还有步骤S223:
S223,基于当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构,计算当前抽取模型的损失函数,并根据损失函数对抽取模型进行优化。
在S222中还包括以下子步骤:
S222a,选取若干条专利文本数据,人工标注这些专利文本数据中的实体、实体间的关系在对应专利文本数据中的索引位置后形成训练数据集,采用两阶段提示学习算法的抽取模型基于训练数据集进行初步训练,来训练抽取模型从专利文本数据中抽取出实体、实体间的关系,并输出对应索引位置;
S222b,初步训练结束后,使用抽取模型正式进行实体抽取:
将当前未标注的专利文本数据送入抽取模型内,抽取模型将当前专利文本数据从左往右依次转化为对应的内容集C,C={C1,C2,...,Cj,...,Cm},
抽取模型根据预先定义的实体类型设定好当前专利文本数据的第一段提示集P(k),P(k)={Pk1,Pk2,...,Pki,...,Pkn},
其中,Cj表示当前内容集C中的第j位所对应的字符;1≤j≤m,且j、m均为正整数,P(k)表示第k种实体类型对应的第一段提示集,Pki表示当前第一段提示集P(k)中的第i个位置对应的字符,1≤k,1≤i≤n,且k、i、n均为正整数,各条专利文本数据、实体类型的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应内容集C、第一段提示集P(k)内的一个字符;
依次将不同的第一段提示集P(k)与当前内容集C拼接在一起,形成当前内容集C的k个第一段输入文本T(k):
T(k)={[CLS],Pk1,Pk2,...,Pki,...,Pkn,[SEP],C1,C2,...,Cj,...,Cm,[SEP]},经过初步训练的抽取模型对T(k)进行实体抽取,若当前专利文本数据中存在满足第一段提示集P(k)的实体,则抽取模型输出各实体在当前专利文本数据中的索引位置,输出的索引位置形式为[起始索引位置,结束索引位置],内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同,则表示这个实体只有一个字符,且输出的索引位置均大于0;否则,抽取模型输出[-1,-1],代表当前专利文本数据中不存在满足第一段提示集P(k)的实体,
其中,[CLS]表示句子的开始字符,[SEP]表示句子间的分割符,以及句子的结尾字符;
S222c,抽取模型分别将从当前专利文本数据中抽取出的实体作为头部实体,对满足实体间的关系的尾部实体进行抽取:
抽取模型分别将从S222b中抽取出的实体作为头部实体,和预先定义的实体间的关系类型组合成当前专利文本数据的第二段提示集P′(o),P′(o)={P′o1,P′o2,...,P′oj,...,P′oq},
其中,P′(o)表示当前实体和第o种实体间的关系类型所对应的第二段提示集,P′oj表示当前提第二段示集P′(o)中的第j个位置对应的字符,1≤o,1≤j≤q,且o、j、q均为正整数,各实体间的关系的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应第二段示集P′(o)内的一个字符;
依次将不同的第二段示集P′(o)与当前内容集C拼接在一起,形成当前内容集C的o个第二段输入文本T′(o):
T′(o)={[CLS],P′o1,P′o2,...,P′oj,...,P′oq,[SEP],C1,C2,...,Cj,...,Cm,[SEP]},
抽取模型对T′(o)进行实体间的关系抽取,若当前专利文本数据中存在满足第二段示集P′(o)的实体间的关系,则抽取模型输出满足第二段提示集P′(o)的各个尾部实体在当前专利文本数据中的索引位置,输出的索引位置形式为[起始索引位置,结束索引位置],内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同,则表示这个实体只有一个字符,且输出的索引位置均大于0;否则,抽取模型输出[-1,-1],代表当前专利文本数据中不存在满足第二段示集P′(o)的尾部实体,
其中,[CLS]表示句子的开始字符,[SEP]表示句子间的分割符,以及句子的结尾字符;
S222d,根据从当前专利文本数据中抽取头部实体、实体间的关系类型、尾部实体,抽取模型输出若干个“头部实体索引位置-实体间的关系-尾部实体索引位置”的索引位置结构;
S222e,三元组输出模块根据抽取模型输出的索引位置结构,在当前专利文本数据中抽取出对应索引位置的头部实体、部实体,形成“头部实体-实体间的关系-尾部实体”的三元组结构。
下面对S222b~S222e举例说明:当前未标注的专利文本数据为“像素电路包括素子电路(100)和驱动电路(110)”,抽取模型根据“装置类实体”设定好当前专利文本数据的第一段提示集P(1),P(1)={P11,P12,P13,P14,P15}={装,置,类,实,体},形成第一段输入文本T(1)={[CLS],P11,P12,P13,P14,P15,[SEP],C1,C2,...,Cj,...,C21,[SEP]}={[CLS],装,置,类,实,体,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]},抽取模型输出满足第一段提示集P(1)的各实体在当前专利文本数据中的索引位置,即输出[1,4]、[7,10]、[15,18],即对应的实体分别为像素电路、素子电路、驱动电路。
接着,抽取模型根据“工艺类实体”设定好当前专利文本数据的第一段提示集P(2),P(2)={P21,P22,P23,P24,P25}={工,艺,类,实,体},这样输入文本T(2)={[CLS],P21,P22,P23,P24,P25,[SEP],C1,C2,...,Cj,...,C21,[SEP]}={[CLS],工,艺,类,实,体,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]},抽取模型输出满足第一段提示集P(2)的各实体在当前专利文本数据中的索引位置,即输出[-1,-1],即当前专利文本数据中不存在满足第一段提示集P(2)的实体。
抽取模型后续还根据预先定义的其他实体类型,对当前专利文本数据进行实体抽取,这里不再重复描述。
抽取模型将“像素电路”作为头部实体,和预先定义的实体间的关系类型“包含”组合成当前专利文本数据的第二段提示集P′(1),P′(1)={P′11,P′12,P′13,P′14,P′15,P′16}={像,素,电,路,包,含},形成第二段输入文本T′(1)={[CLS],P′11,P′12,P′13,P′14,P′15,P′16,[SEP],C1,C2,...,Cj,...,C21,[SEP]}
={[CLS],像,素,电,路,包,含,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]},
抽取模型输出满足第二段提示集P′(1)的各个尾部实体在当前专利文本数据中的索引位置,即输出[7,10]、[15,18],即对应的尾部实体分别为素子电路、驱动电路。
接着,抽取模型将“素子电路”作为头部实体,和预先定义的实体间的关系类型“包含”组合成当前专利文本数据的第二段提示集P′(2),P′(2)={P′21,P′22,P′23,P′24,P′25,P′26}={素,子,电,路,包,含},形成第二段输入文本T′(2)={[CLS],P′21,P′22,P′23,P′24,P′25,P′26,[SEP],C1,C2,...,Cj,...,C21,[SEP]}
={[CLS],素,子,电,路,包,含,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]},抽取模型输出[-1,-1],即当前专利文本数据中不存在满足第二段提示集P′(2)的尾部实体。
抽取模型后续还将从当前专利文本数据中抽取出的其他实体作为头部实体,对满足实体间的关系的尾部实体进行抽取,这里不再重复描述。
抽取模型最终输出“[1,4]-包,含-[7,10]”、“[1,4]-包,含-[15,18]”等的索引位置结构,对应三元组输出模块输出“素子电路-包含-素子电路”、“素子电路-包含-驱动电路”等三元组结构。
在S223中,还包括以下子步骤:
S223a,在当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构所对应的第一段提示集P(k)、第二段提示集P′(o)、内容集C,采用编码器进行编码,输出为隐层向量表示集H,
H=Encoder([CLS],Pk1,Pk2,...,Pki,...,Pkn,P′o1,P′o2,...,P′oj,...,P′oq,[SEP],C1,C2,...,Cj,...,Cm,[SEP])={H1,H2,...,Ht,...,H(m+n+q+3)},
其中,[CLS]表示句子的开始字符;[SEP]表示句子间的分割符以及句子的结尾字符;Encoder表示编码器的编码处理,编码处理后的输出与输入的元素个数相同,本发明中,输入为(m+n+q+3)个元素,经编码处理后,输出的隐层向量也是(m+n+q+3)个,Ht表示输出的第t个隐层向量表示,1≤t≤(m+n+q+3),且t、m、n、q均为正整数。
采用编码器对输入进行编码处理为现有技术,这里不再赘述。
当一个三元组结构确定时,该三元组结构就可以唯一对应第一段提示集P(k)和第二段提示集P′(o)。
S223b,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>
在本发明中,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>以及基于线性权重法进行映射均为现有技术,这里不再赘述。
S223c,将经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Ht属于当前三元组结构所对应的专利文本数据开头的概率向量pstart;将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Ht属于当前三元组结构所对应的专利文本数据结尾的概率向量pend
/>
S223d,基于当前三元组结构所对应的专利文本数据,以及该专利文本数据使用当前抽取模型所输出的N个三元组结构,计算当前抽取模型的损失函数Lθ
其中,Sr表示当前专利文本数据在步骤S222所输出的第r个三元组结构;N为当前专利文本数据所输出的三元组结构的总个数,其中1≤r≤N,且r、N均为正整数;表示在概率向量pstart里分别取出与三元组结构Sr中的头部实体、尾部实体所对应的起始索引位置处的维度上的向量值,/>表示在概率向量pend里分别取出与三元组结构Sr中头部实体、尾部实体所对应的结束索引位置处的维度上的向量值。
S223e,对损失函数Lθ求导后得到梯度方向,再回到S222,根据梯度下降的方向不断调整抽取模型内的参数,用调整后的抽取模型从下一条专利文本数据中抽取并形成新的若干个三元组结构。
本实施例中,根据梯度下降的方向所不断调整当前抽取模型内的参数包括:将第一段提示集P(k)、第二段提示集P′(o)、内容集C内的字符转化成向量形式的编码参数;如何基于第一段提示集P(k)、第二段提示集P′(o)来确定内容集C中的头部实体、尾部实体的索引位置等。
在S23中还包括以下内容:
围绕当前专利文献的发明名称这个节点,以指向目标节点的直线/曲线来表示节点间的关系,得到各申请信息作为目标节点与当前专利文献的发明名称节点之间为“申请”关系;各三元组结构中的实体作为目标节点与当前专利文献的发明名称节点之间为“内容”关系;
同时,将三元组结构中的关系也以指向目标节点的直线/曲线来表示,即头部实体所表示的节点通过直线/曲线指向尾部实体所表示的目标节点,并将不同三元组结构中的相同实体重合为一个节点,以此来减少冗余节点,形成当前专利文献的网状图谱;
其中,相同的实体指两个及以上三元组结构中的头部实体,或两个及以上三元组结构中的尾部实体,或两个及以上三元组结构的头部和尾部实体;
若当前专利文献存在包含引用关系的三元组结构,则将包含引用关系的三元组结构里的尾部实体,也即文献类实体作为目标节点,目标节点与当前专利文献的发明名称节点之间为引用关系;此时存在引用关系的专利文本数据的网状图谱就被连接起来了,如图2所示。
本发明的抽取模型在当前专利文本数据非结构化的内容信息中,采用先后两个阶段完成对实体、实体间的关系的抽取,即第一阶段先抽取不同类型的实体,第一阶段中将第一阶段抽取出的各实体分别作为头部实体,与不同的实体间的关系相组合,再抽取尾部实体,最终输出当前专利文本数据的内容信息中所对应的所有三元组结构。本发明在抽取并形成三元组结构的同时,直接利用生成的三元组结构来计算当前关抽取模型的损失函数,基于损失函数来优化从新一条专利文本数据中抽取并形成三元组结构的抽取模型,提高三元组结构中实体、实体间的关系的准确性,缩短输出三元组结构的时间。也即本发明不仅可以及时将新公开的专利文献转化为多个结构化的三元组形式,高效地把专利文献的技术方案提取并精简后,直观地显示在网状图谱中,而且在得到当前专利文献的三元组结构的过程中,也在不断提高后续新生成的三元组结构的准确性和效率。专利文献被转化为网状图谱后,其信息更为结构化,表达能力更强,更易于企业全面把控各篇专利文献的技术内容和进行市场分析。
在S3中还包括以下子步骤:
S31,选取若干个专利文献的网状图谱,根据网状图谱,按照专利文献的直接相关程度从高到低,人工标注出各专利文献的所对应的w个行业,形成训练集,采用具有RGCN的节点特征处理模型基于训练集进行初步训练,来训练节点特征处理模型根据当前专利文献网状图谱中的各节点计算出与各行业的匹配度;
本实施例中,产业分类采用GB/T 4754-2017的国民经济行业分类,w取8;
S32,使用经过初步训练的节点特征处理模型,在节点特征处理模型的隐藏层中对当前专利文献网状图谱中各个实体所表示的节点(下面简称实体节点)进行特征值计算:
其中,表示网状图谱中第(l+1)层的第a个节点的特征值,/>表示网状图谱中第l层的第a个节点的特征值,/>表示网状图谱中第l层的第a个节点自身的权重,/>表示网状图谱中,关系e在第l层中的权重,/>表示网状图谱中与第l层的第a个节点之间存在关系e时的邻居节点b的特征值,/>表示网状图谱中,第l层的节点a和邻居节点之间为关系e时的邻居节点的集合,/>表示集合/>中的节点总数量,σ表示ReLU激活函数,各节点之间的关系即为各个实体间的关系类型,R表示所有实体间的关系类型的集合,各网状图谱中的每一层的节点均是从左往右进行标号,各网状图谱中,从发明名称的节点出发,经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数,l≥1,a≥1,b≥1,且l、a、b为正整数,网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的;
的取值为(0,1);
和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数;
若第(l+1)层的实体节点总数量v大于第l层的实体节点总数量z,则第(l+1)层中从第(z+1)个节点至第v个节点用如下公式进行特征值计算:
其中,表示网状图谱中第(l+1)层的第u个节点的特征值,/>表示网状图谱中第l层的第z个节点的特征值,/>表示网状图谱中第l层的第z个节点自身的权重,/>表示网状图谱中,关系e2在第l层中的权重,/>表示网状图谱中与第l层的第z个节点之间存在关系e1时的邻居节点b2的特征值,/>表示网状图谱中,第l层的节点z和邻居节点之间为关系e2时的邻居节点的集合,/>表示集合/>中的节点总数量,σ表示ReLU激活函数,各节点之间的关系即为各个实体间的关系类型,R表示所有实体间的关系类型的集合,各网状图谱中的每一层的节点均是从左往右进行标号,各网状图谱中,从发明名称的节点出发,经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数,l≥1,(z+1)≤u≤v,且l、z、v均为正整数,网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的;
的取值为(0,1);
和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数。
S33,节点特征处理模型的隐藏层将当前专利文献网状图谱中计算出的各实体节点的特征值后输出至节点特征处理模型的激活层中,激活层中随机初始化行业分类权重的向量表示 中的维数与行业分类的数量相同,激活层使用softmax激活函数对同一篇专利文献的各实体节点的特征值计算后求和,再将求和结果基于行业分类权重的向量表示/>映射成行业匹配度向量/>后输出至节点特征处理模型的输出层,
行业匹配度向量中不同的维度代表不同的行业,各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分,
S34,节点特征处理模型的输出层按当前专利文献与各行业的匹配度得分降序输出前F个行业,作为当前专利文献排名前F的对应行业。
本实施例中,F取5。
可选的,在S34后还包括S35:
S35,基于当前专利文献所对应的降序排列的F个对应行业,计算当前节点特征处理模型的损失函数L:
其中,g为设定的常数,本实施例中g=1,y表示当前专利文献所对应的网状图谱中的各个实体节点的集合,表示当前专利文献所对应的网状图谱中第l层的第a个节点的特征值,a,l∈y表示实体节点特征值/>所取的是集合y中的节点;
对损失函数L求导后得到梯度方向,再回到S32,根据梯度下降的方向不断调整节点特征处理模型内的参数,用调整后的节点特征处理模型计算下一篇专利文献的网状图谱中实体节点的特征值。
本发明在得到一篇专利文献的网状图谱后,采用节点特征处理模型,基于实体节点进行特征计算后,再对当前专利文献网状图谱中的各实体节点进行激活函数计算、求和,最终将求和的数值映射成各个维度代表不同行业的行业匹配度向量,而行业匹配度各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分,并降序输出当前专利文献对应的行业。因为本发明的行业分类,是基于实体节点进行特征计算,所以行业分类结果是基于当前专利文献的技术方案内容进行精准地分类,同时,本发明的采用节点特征处理模型,对能够更好地捕捉实体节点之间的复杂关系,进一步提高行业分类的精确性。
本发明在按匹配度降序输出与当前专利文献所对应行业的同时,直接利用当前的输出结果来计算当前节点特征处理模型的损失函数,基于损失函数来优化计算下一篇专利文献的网状图谱中实体节点的特征值,提高对专利文献进行行业分类的准确性,缩短分类时间。
本发明的一种专利的产业信息挖掘方法,能够快速、准确地构建出一篇专利文献的网状图谱并基于网状图谱对专利文献进行精确高效的行业分类,并且本发明在网状图谱中全面的融入了专利文献的著录信息和技术方案等内容,使专利文献的网状图谱可以更直观的表达完备的信息,便于后续企业基于这些专利的产业信息进行后续的时长预测和分析。同时,本发明自动对专利文献进行产业信息挖掘、生成对应的网状图谱、进行行业分类,节约了大量的人工成本,且避免了人工在进行专利产业信息挖掘的过程中会因个人主观性而影响挖掘结果的质量,本发明的分类结果的准确性高且也是较为稳定。本发明可以对各大平台、专利数据库的专利文献进行穷尽式地产业信息挖掘,基于专利文献的技术方案,做到不遗漏任何一篇最前沿、可能相关的专利文献,避免了人工在进行专利产业信息挖掘的初期根据IPC分类号查找专利文献时可能存在的遗漏的情况,具有极高的时效性,为各企业进行后续的市场开拓提供有力的保障。
任意抓取3000篇专利文献,分别采用本发明的产业信息挖掘方法和人工挖掘的方法,来形成各专利文献的网状图谱,并对各专利文献进行行业分类,以高质量、多次复核的人工检验结果为标准,分别得到如图3所示的本发明的产业信息挖掘方法与人工挖掘之间的效率对比曲线图,以及图4所示的本发明的产业信息挖掘方法与人工挖掘所得到产业信息的准确率对比曲线图,从图3-图4可以直观的看出,采用本发明的产业信息挖掘方法来形成各专利文献的网状图谱,并对各专利文献进行行业分类的效率明显高于人工挖掘;且随着专利文献数量的增多,形成各专利文献网状图谱、对各专利文献进行行业分类的准确性也在不断稳定提升,尤其是在专利文献超过1500篇后,其准确性明显超过人工挖掘;而人工挖掘所得到的专利文献网状图谱,以及对各专利文献所进行的行业分类准确率不稳定,这与人工挖掘的评判标准不一有关,并且随着专利文献数量增大,人工挖掘的准确性明显降低。
本发明还提供一种专利的产业信息挖掘系统,包括:
抓取模块、预处理模块、抽取和图谱生成模块、行业分类模块;
抓取模块用于从各大专利数据库中抓取专利文献,并将抓取的专利文献送至预处理模块内;
预处理模块用于各篇专利文献进行预处理生成专利文本数据后送入抽取模块内;
抽取和图谱生成模块用于从各条专利文本数据的申请信息和内容信息中抽取词语/字后形成当前专利文本数据的网状图谱,并将各网状图谱送入行业分类模块;
行业分类模块用于根据对各条专利文本数据的网状图谱中的节点进行特征计算后进行产业分类;
各模块被编程或配置以执行上述一种专利的产业信息挖掘方法的步骤。
本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有被编程或配置以执行上述的一种专利的产业信息挖掘方法的计算机程序。
本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (6)

1.一种专利的产业信息挖掘方法,其特征在于,包括以下步骤:
S1,从各大专利数据库中抓取专利文献,并对各篇专利文献进行预处理后,得到对应的各条专利文本数据;一篇专利文献得到一条专利文本数据;
S2,各条专利文本数据都包括申请信息和内容信息,从各条专利文本数据的申请信息和内容信息中抽取词语/字形成当前专利文本数据的网状图谱,并将存在引用关系的专利文本数据的网状图谱连接起来;
S3,基于各条专利文本数据的网状图谱的节点进行节点特征值计算后,对各条专利文本数据对应的专利文献进行产业分类;
S2中具体还包括以下子步骤:
S21,从各条专利文本数据中的发明名称、发明人、申请人、专利分类号这些结构化信息里通过正则表达式抽取对应的结构化申请信息;
S22,对非结构化的信息中进行词语/字的抽取,形成结构化的内容信息,从各条专利文本数据中的非结构化信息里抽取实体、实体间的关系,形成若干个“头部实体-实体间的关系-尾部实体”的三元组结构;
专利文本数据中非结构化的信息包括权利要求书、说明书部分的文本内容;
S23,围绕当前专利文献的发明名称,结构化申请信息与三元组结构,形成当前专利文献的网状图谱;
S22中具体还包括以下子步骤:
S221,预先定义实体类型、实体间的关系类型;
S222,选取若干条专利文本数据,对这些专利文本数据中的实体、实体间的关系进行人工标注后形成训练数据集,采用具有监督学习算法的抽取模型基于训练数据集进行训练,使用训练后的抽取模型在未标注的专利文本数据文本上自动进行实体间的关系以及实体的识别与抽取后,输出“头部实体-实体间的关系-尾部实体”的三元组结构;
S223,基于当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构,计算当前抽取模型的损失函数,并根据损失函数对抽取模型进行优化;
S222中具体还包括以下子步骤:
S222a,选取若干条专利文本数据,人工标注这些专利文本数据中的实体、实体间的关系在对应专利文本数据中的索引位置后形成训练数据集,采用两阶段提示学习算法的抽取模型基于训练数据集进行初步训练,来训练抽取模型从专利文本数据中抽取出实体、实体间的关系,并输出对应索引位置;
S222b,初步训练结束后,使用抽取模型正式进行实体抽取:
将当前未标注的专利文本数据送入抽取模型内,抽取模型将当前专利文本数据从左往右依次转化为对应的内容集C,C={C1,C2,...,Cj,...,Cm},
抽取模型根据预先定义的实体类型设定好当前专利文本数据的第一段提示集P(k),P(k)={Pk1,Pk2,...,Pki,...,Pkn},
其中,Cj表示当前内容集C中的第j位所对应的字符;1≤j≤m,且j、m均为正整数,P(k)表示第k种实体类型对应的第一段提示集,Pki表示当前第一段提示集P(k)中的第i个位置对应的字符,1≤k,1≤i≤n,且k、i、n均为正整数,各条专利文本数据、实体类型的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应内容集C、第一段提示集P(k)内的一个字符;
依次将不同的第一段提示集P(k)与当前内容集C拼接在一起,形成当前内容集C的k个第一段输入文本T(k):
T(k)={[CLS],Pk1,Pk2,...,Pki,...,Pkn,[SEP],C1,C2,...,Cj,...,Cm,[SEP]},经过初步训练的抽取模型对T(k)进行实体抽取,若当前专利文本数据中存在满足第一段提示集P(k)的实体,则抽取模型输出各实体在当前专利文本数据中的索引位置,输出的索引位置形式为[起始索引位置,结束索引位置],内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同,则表示这个实体只有一个字符,且输出的索引位置均大于0;否则,抽取模型输出[-1,-1],代表当前专利文本数据中不存在满足第一段提示集P(k)的实体,
其中,[CLS]表示句子的开始字符,[SEP]表示句子间的分割符,以及句子的结尾字符;
S222c,抽取模型分别将从当前专利文本数据中抽取出的实体作为头部实体,对满足实体间的关系的尾部实体进行抽取:
抽取模型分别将从S222b中抽取出的实体作为头部实体,和预先定义的实体间的关系类型组合成当前专利文本数据的第二段提示集P′(o),P′(o)={P′o1,P′o2,...,P′oj,...,P′oq},
其中,P′(o)表示当前实体和第o种实体间的关系类型所对应的第二段提示集,P′oj表示当前提第二段示集P′(o)中的第j个位置对应的字符,1≤o,1≤j≤q,且o、j、q均为正整数,各实体间的关系的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应第二段示集P′(o)内的一个字符;
依次将不同的第二段示集P′(o)与当前内容集C拼接在一起,形成当前内容集C的o个第二段输入文本T′(o):
T′(o)={[CLS],P′o1,P′o2,...,P′oj,...,P′oq,[SEP],C1,C2,...,Cj,...,Cm,[SEP]},
抽取模型对T′(o)进行实体间的关系抽取,若当前专利文本数据中存在满足第二段示集P′(o)的实体间的关系,则抽取模型输出满足第二段提示集P′(o)的各个尾部实体在当前专利文本数据中的索引位置,输出的索引位置形式为[起始索引位置,结束索引位置],内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同,则表示这个实体只有一个字符,且输出的索引位置均大于0;否则,抽取模型输出[-1,-1],代表当前专利文本数据中不存在满足第二段示集P′(o)的尾部实体,
其中,[CLS]表示句子的开始字符,[SEP]表示句子间的分割符,以及句子的结尾字符;
S222d,根据从当前专利文本数据中抽取头部实体、实体间的关系类型、尾部实体,抽取模型输出若干个“头部实体索引位置-实体间的关系-尾部实体索引位置”的索引位置结构;
S222e,三元组输出模块根据抽取模型输出的索引位置结构,在当前专利文本数据中抽取出对应索引位置的头部实体、部实体,形成“头部实体-实体间的关系-尾部实体”的三元组结构;
S223中具体还包括以下子步骤:
S223a,在当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构所对应的第一段提示集P(k)、第二段提示集P′(o)、内容集C,采用编码器进行编码,输出为隐层向量表示集H,
H=Encoder([CLS],Pk1,Pk2,...,Pki,...,Pkn,P′o1,P′o2,...,P′oj,...,P′oq,[SEP],C1,C2,...,Cj,...,Cm,[SEP])={H1,H2,...,Ht,...,H(m+n+q+3)},
其中,[CLS]表示句子的开始字符;[SEP]表示句子间的分割符以及句子的结尾字符;Encoder表示编码器的编码处理,编码处理后的输出与输入的元素个数相同,本发明中,输入为(m+n+q+3)个元素,经编码处理后,输出的隐层向量也是(m+n+q+3)个,Ht表示输出的第t个隐层向量表示,1≤t≤(m+n+q+3),且t、m、n、q均为正整数;
S223b,随机初始化得到开始空间的线性变化权重结束空间的线性变化权重将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间,记为/>
S223c,将经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Ht属于当前三元组结构所对应的专利文本数据开头的概率向量pstart;将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示Ht属于当前三元组结构所对应的专利文本数据结尾的概率向量pend
S223d,基于当前三元组结构所对应的专利文本数据,以及该专利文本数据使用当前抽取模型所输出的N个三元组结构,计算当前抽取模型的损失函数Lθ
其中,Sr表示当前专利文本数据在步骤S222所输出的第r个三元组结构;N为当前专利文本数据所输出的三元组结构的总个数,其中1≤r≤N,且r、N均为正整数;表示在概率向量pstart里分别取出与三元组结构Sr中的头部实体、尾部实体所对应的起始索引位置处的维度上的向量值,/>表示在概率向量pend里分别取出与三元组结构Sr中头部实体、尾部实体所对应的结束索引位置处的维度上的向量值;
S223e,对损失函数Lθ求导后得到梯度方向,再回到S222,根据梯度下降的方向不断调整抽取模型内的参数,用调整后的抽取模型从下一条专利文本数据中抽取并形成新的若干个三元组结构。
2.根据权利要求1所述的一种专利的产业信息挖掘方法,其特征在于,S1中具体还包括以下子步骤:
S11,先将从各大专利数据库中抓取的专利文献翻译成中文后,再与本地数据库内的已存储的专利文献进行比对,若当前抓取的专利文献与本地数据库内已存储的专利文献内容重复,则丢弃当前专利文献,否则将当前抓取的专利文献的副本存储于本地数据库内,同时,对当前抓取的专利文献进行数据清洗;
S12,对当前专利文献进行数据清洗,去除各篇专利文献中的非法字符,纠正拼写错误后形成专利文本数据;
非法字符指空格、图片、下划线、反斜杠、非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。
3.根权利要求2所述的一种专利的产业信息挖掘方法,其特征在于,S23中还包括以下内容:
围绕当前专利文献的发明名称这个节点,以指向目标节点的直线/曲线来表示节点间的关系,得到各申请信息作为目标节点与当前专利文献的发明名称节点之间为“申请”关系;各三元组结构中的实体作为目标节点与当前专利文献的发明名称节点之间为“内容”关系;
同时,将三元组结构中的关系也以指向目标节点的直线/曲线来表示,即头部实体所表示的节点通过直线/曲线指向尾部实体所表示的目标节点,并将不同三元组结构中的相同实体重合为一个节点,形成当前专利文献的网状图谱;
其中,相同的实体指两个及以上三元组结构中的头部实体,或两个及以上三元组结构中的尾部实体,或两个及以上三元组结构的头部和尾部实体;
若当前专利文献存在包含引用关系的三元组结构,则将包含引用关系的三元组结构里的尾部实体,也即文献类实体作为目标节点,则目标节点与当前专利文献的发明名称节点之间为引用关系。
4.根权利要求3所述的一种专利的产业信息挖掘方法,其特征在于,在S3后还包括以下子步骤:
S31,选取若干个专利文献的网状图谱,根据网状图谱,按照专利文献的直接相关程度从高到低,人工标注出各专利文献的所对应的w个行业,形成训练集,采用具有RGCN的节点特征处理模型基于训练集进行初步训练,来训练节点特征处理模型根据当前专利文献网状图谱中的各节点计算出与各行业的匹配度;
S32,使用经过初步训练的节点特征处理模型,在节点特征处理模型的隐藏层中对当前专利文献网状图谱中各个实体所表示的节点进行特征值计算,即对各实体节点进行特征值计算:
其中,表示网状图谱中第(l+1)层的第a个节点的特征值,/>表示网状图谱中第l层的第a个节点的特征值,/>表示网状图谱中第l层的第a个节点自身的权重,/>表示网状图谱中,关系e在第l层中的权重,/>表示网状图谱中与第l层的第a个节点之间存在关系e时的邻居节点b的特征值,/>表示网状图谱中,第l层的节点a和邻居节点之间为关系e时的邻居节点的集合,/>表示集合/>中的节点总数量,σ表示ReLU激活函数,各节点之间的关系即为各个实体间的关系类型,R表示所有实体间的关系类型的集合,各网状图谱中的每一层的节点均是从左往右进行标号,各网状图谱中,从发明名称的节点出发,经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数;l≥1,a≥1,b≥1,且l、a、b为正整数,/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数,网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的;
若第(l+1)层的实体节点总数量v大于第l层的实体节点总数量z,则第(l+1)层中从第(z+1)个节点至第v个节点用如下公式进行特征值计算:
其中,表示网状图谱中第(l+1)层的第u个节点的特征值,/>表示网状图谱中第l层的第z个节点的特征值,/>表示网状图谱中第l层的第z个节点自身的权重,/>表示网状图谱中,关系e2在第l层中的权重,/>表示网状图谱中与第l层的第z个节点之间存在关系e1时的邻居节点b2的特征值,/>表示网状图谱中,第l层的节点z和邻居节点之间为关系e2时的邻居节点的集合,/>表示集合/>中的节点总数量,σ表示ReLU激活函数,各节点之间的关系即为各个实体间的关系类型,R表示所有实体间的关系类型的集合,各网状图谱中的每一层的节点均是从左往右进行标号,各网状图谱中,从发明名称的节点出发,经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数,l≥1,(z+1)≤u≤v,且l、z、v均为正整数,网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的;/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数;
S33,节点特征处理模型的隐藏层将当前专利文献网状图谱中计算出的各实体节点的特征值后输出至节点特征处理模型的激活层中,激活层中随机初始化行业分类权重的向量表示 中的维数与行业分类的数量相同,激活层使用softmax激活函数对同一篇专利文献的各实体节点的特征值计算后求和,再将求和结果基于行业分类权重的向量表示映射成行业匹配度向量/>后输出至节点特征处理模型的输出层,
行业匹配度向量中不同的维度代表不同的行业,各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分;
S34,节点特征处理模型的输出层按前专利文献与各行业的匹配度得分降序输出前F个行业,作为当前专利文献排名前F的对应行业;
S35,基于当前专利文献所对应的降序排列的F个对应行业,计算当前节点特征处理模型的损失函数L:
其中,g为预设常数,g=1,y表示当前专利文献所对应的网状图谱中的各个实体节点的集合,表示当前专利文献所对应的网状图谱中第l层的第a个节点的特征值,a,l∈y表示实体节点特征值/>所取的是集合y中的节点;
对损失函数L求导后得到梯度方向,再回到S32,根据梯度下降的方向不断调整节点特征处理模型内的参数,用调整后的节点特征处理模型计算下一篇专利文献的网状图谱中实体节点的特征值。
5.一种专利的产业信息挖掘系统,其特征在于,包括:
抓取模块、预处理模块、抽取和图谱生成模块、行业分类模块;
抓取模块用于从各大专利数据库中抓取专利文献,并将抓取的专利文献送至预处理模块内;
预处理模块用于各篇专利文献进行预处理生成专利文本数据后送入抽取模块内;
抽取和图谱生成模块用于从各条专利文本数据的申请信息和内容信息中抽取词语/字后形成当前专利文本数据的网状图谱,并将各网状图谱送入行业分类模块;
行业分类模块用于根据对各条专利文本数据的网状图谱中的节点进行特征计算后进行产业分类;
各模块被编程或配置以执行如权利要求1-4中任意一项所述的一种专利的产业信息挖掘方法的步骤。
6.一种计算机可读存储介质,其特征在于:计算机可读存储介质存储有被编程或配置以执行如权利要求1-4中任意一项所述的一种专利的产业信息挖掘方法的计算机程序。
CN202311270200.4A 2023-09-27 2023-09-27 一种专利的产业信息挖掘方法、挖掘系统及存储介质 Active CN117271800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311270200.4A CN117271800B (zh) 2023-09-27 2023-09-27 一种专利的产业信息挖掘方法、挖掘系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311270200.4A CN117271800B (zh) 2023-09-27 2023-09-27 一种专利的产业信息挖掘方法、挖掘系统及存储介质

Publications (2)

Publication Number Publication Date
CN117271800A CN117271800A (zh) 2023-12-22
CN117271800B true CN117271800B (zh) 2024-05-03

Family

ID=89200562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311270200.4A Active CN117271800B (zh) 2023-09-27 2023-09-27 一种专利的产业信息挖掘方法、挖掘系统及存储介质

Country Status (1)

Country Link
CN (1) CN117271800B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
WO2020122546A1 (ko) * 2018-12-12 2020-06-18 오종학 특허와 논문 데이터를 활용한 국가 및 기업들의 과학 기술력 진단 및 예측 방법
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN113592568A (zh) * 2021-09-30 2021-11-02 深圳前海环融联易信息科技服务有限公司 一种商机挖掘方法、装置、计算机设备及存储介质
CN113849656A (zh) * 2021-08-11 2021-12-28 合肥工业大学 基于聚类图谱的技术文本挖掘方法和系统
CN116484852A (zh) * 2023-04-18 2023-07-25 安徽理工大学 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
CN116775812A (zh) * 2023-07-05 2023-09-19 中国中医科学院中医药信息研究所 一种基于自然语音处理的中医药专利分析与挖掘工具

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891701B2 (en) * 2011-04-15 2021-01-12 Rowan TELS Corp. Method and system for evaluating intellectual property

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
WO2020122546A1 (ko) * 2018-12-12 2020-06-18 오종학 특허와 논문 데이터를 활용한 국가 및 기업들의 과학 기술력 진단 및 예측 방법
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN113849656A (zh) * 2021-08-11 2021-12-28 合肥工业大学 基于聚类图谱的技术文本挖掘方法和系统
CN113592568A (zh) * 2021-09-30 2021-11-02 深圳前海环融联易信息科技服务有限公司 一种商机挖掘方法、装置、计算机设备及存储介质
CN116484852A (zh) * 2023-04-18 2023-07-25 安徽理工大学 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
CN116775812A (zh) * 2023-07-05 2023-09-19 中国中医科学院中医药信息研究所 一种基于自然语音处理的中医药专利分析与挖掘工具

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"国内外专利法律信息挖掘研究综述";廖花林 等;《高校图书馆工作》;20210315;第41卷(第2期);第28-35页 *

Also Published As

Publication number Publication date
CN117271800A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110442684B (zh) 一种基于文本内容的类案推荐方法
CN108804530B (zh) 对图像的区域加字幕
CN110188227B (zh) 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN108038122B (zh) 一种商标图像检索的方法
CN110222140A (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110287323B (zh) 一种面向目标的情感分类方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN111598041A (zh) 一种用于物品查找的图像生成文本方法
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN112214993B (zh) 基于图神经网络的文档处理方法、装置和存储介质
CN112329444A (zh) 融合文本和传播结构的早期谣言检测方法
CN115269899A (zh) 基于遥感知识图谱的遥感影像统筹系统
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索系统
CN111522963A (zh) 一种基于公安知识图谱引擎的智能助理应用交互方法
CN117271800B (zh) 一种专利的产业信息挖掘方法、挖掘系统及存储介质
Hu et al. On-line handwritten mathematical expression recognition method based on statistical and semantic analysis
CN112612900A (zh) 一种知识图谱指导的多张场景图像生成方法
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN114065769B (zh) 情感原因对抽取模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant