CN117271800B

CN117271800B - 一种专利的产业信息挖掘方法、挖掘系统及存储介质

Info

Publication number: CN117271800B
Application number: CN202311270200.4A
Authority: CN
Inventors: 王建; 李�浩; 王佐成; 吕孝忠; 张晞曈
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-05-03
Anticipated expiration: 2043-09-27
Also published as: CN117271800A

Abstract

本发明属于专利数据图谱构建技术领域，尤其涉及一种专利的产业信息挖掘方法、挖掘系统及存储介质。挖掘方法包括：S1，从各大专利数据库中抓取专利文献，并对各篇专利文献进行预处理后，得到对应的各条专利文本数据；一篇专利文献得到一条专利文本数据；S2，各条专利文本数据都包括申请信息和内容信息，从各条专利文本数据的申请信息和内容信息中抽取词语/字形成当前专利文本数据的网状图谱，并将存在引用关系的专利文本数据的网状图谱连接起来；S3，基于各条专利文本数据的网状图谱的节点进行节点特征值计算后，对各条专利文本数据对应的专利文献进行产业分类。本发明能够对专利进行高效且准确的产业信息挖掘，降低挖掘过程中的人工成本。

Description

一种专利的产业信息挖掘方法、挖掘系统及存储介质

技术领域

本发明属于专利数据图谱构建技术领域，尤其涉及一种专利的产业信息挖掘方法、挖掘系统及存储介质。

背景技术

近年来，随着技术的不断发展和市场竞争的加剧，产业竞争已经从产品和服务层面升级到了创新和知识层面。因此，精准对专利进行产业信息挖掘已经成为许多企业的焦点。专利的产业信息包括专利的技术方案、专利的相关著录信息、专利所属的行业分类。所以挖掘专利的产业信息可以为企业提供更精准的市场分析和预测，同时，企业可以通过给相关专利支付费用来进一步实现市场规划，反过来也促进了产学研的成果转化。

现有技术中，主要是人工根据企业的行业分类以及市场布局，来通过关键词检索或IPC分类号初步查找对应的专利文献后，将各专利文献中的著录信息、技术方案内容提取出来并精简技术方案，汇总成各专利文献的产业信息。

但是，专利文献上的IPC分类号所涵盖的技术领域比较宽泛，且与行业分类并不是完全一致的，有些IPC分类号涵盖多个类别的行业，无法直接对应至特定的行业中，需要人工再根据各专利文献中的技术方案内容来对号入座各个类别的行业，耗时费力，且存在较强的主观性；且仅先通过IPC分类号或关键词来初步查找对应的专利文献，有可能会漏掉最前沿、存在领域交叉的专利文献，这不利于企业的市场分析和预测。例如，对于智能家居行业的专利文献，IPC号分类往往只能归为电子学或计算机技术领域。再者，人工对专利文献提取并精简技术方案的周期长、主观性强、不同的人精简的结果质量也不一样。所以，现有技术无法在快速进行专利的产业信息挖掘的同时，还保持较高的准确性。

发明内容

本发明的目的是克服上述现有技术的不足，提供一种专利的产业信息挖掘方法，能够对专利进行高效的产业信息挖掘，同时保证产业信息的准确性，降低挖掘过程中的人工成本。

为实现上述目的，本发明采用了以下技术方案：

一种专利的产业信息挖掘方法，包括以下步骤：

S1，从各大专利数据库中抓取专利文献，并对各篇专利文献进行预处理后，得到对应的各条专利文本数据；一篇专利文献得到一条专利文本数据；

S2，各条专利文本数据都包括申请信息和内容信息，从各条专利文本数据的申请信息和内容信息中抽取词语/字形成当前专利文本数据的网状图谱，并将存在引用关系的专利文本数据的网状图谱连接起来；

S3，基于各条专利文本数据的网状图谱的节点进行节点特征值计算后，对各条专利文本数据对应的专利文献进行产业分类。

优选的，S1中具体还包括以下子步骤：

S11，先将从各大专利数据库中抓取的专利文献翻译成中文后，再与本地数据库内的已存储的专利文献进行比对，若当前抓取的专利文献与本地数据库内已存储的专利文献内容重复，则丢弃当前专利文献，否则将当前抓取的专利文献的副本存储于本地数据库内，同时，对当前抓取的专利文献进行数据清洗；

S12，对当前专利文献进行数据清洗，去除各篇专利文献中的非法字符，纠正拼写错误后形成专利文本数据；

非法字符指空格、图片、下划线、反斜杠、非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。

优选的，S2中具体还包括以下子步骤：

S21，从各条专利文本数据中的发明名称、发明人、申请人、专利分类号这些结构化信息里通过正则表达式抽取对应的结构化申请信息；

S22，对非结构化的信息中进行词语/字的抽取，形成结构化的内容信息，从各条专利文本数据中的非结构化信息里抽取实体、实体间的关系，形成若干个“头部实体-实体间的关系-尾部实体”的三元组结构；

专利文本数据中非结构化的信息包括权利要求书、说明书部分的文本内容；

S23，围绕当前专利文献的发明名称，结构化申请信息与三元组结构，形成当前专利文献的网状图谱。

优选的，S22中具体还包括以下子步骤：

S221，预先定义实体类型、实体间的关系类型；

S222，选取若干条专利文本数据，对这些专利文本数据中的实体、实体间的关系进行人工标注后形成训练数据集，采用具有监督学习算法的抽取模型基于训练数据集进行训练，使用训练后的抽取模型在未标注的专利文本数据文本上自动进行实体间的关系以及实体的识别与抽取后，输出“头部实体-实体间的关系-尾部实体”的三元组结构；

S223，基于当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构，计算当前抽取模型的损失函数，并根据损失函数对抽取模型进行优化。

优选的，S222中具体还包括以下子步骤：

S222a，选取若干条专利文本数据，人工标注这些专利文本数据中的实体、实体间的关系在对应专利文本数据中的索引位置后形成训练数据集，采用两阶段提示学习算法的抽取模型基于训练数据集进行初步训练，来训练抽取模型从专利文本数据中抽取出实体、实体间的关系，并输出对应索引位置；

S222b，初步训练结束后，使用抽取模型正式进行实体抽取：

将当前未标注的专利文本数据送入抽取模型内，抽取模型将当前专利文本数据从左往右依次转化为对应的内容集C，C＝{C₁,C₂,...,C_j,...,C_m}，

抽取模型根据预先定义的实体类型设定好当前专利文本数据的第一段提示集P(k)，P(k)＝{P_k1,P_k2,...,P_ki,...,P_kn}，

其中，C_j表示当前内容集C中的第j位所对应的字符；1≤j≤m，且j、m均为正整数，P(k)表示第k种实体类型对应的第一段提示集，P_ki表示当前第一段提示集P(k)中的第i个位置对应的字符,1≤k，1≤i≤n，且k、i、n均为正整数，各条专利文本数据、实体类型的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应内容集C、第一段提示集P(k)内的一个字符；

依次将不同的第一段提示集P(k)与当前内容集C拼接在一起，形成当前内容集C的k个第一段输入文本T(k)：

T(k)＝{[CLS],P_k1,P_k2,...,P_ki,...,P_kn,[SEP],C₁,C₂,...,C_j,...,C_m,[SEP]},经过初步训练的抽取模型对T(k)进行实体抽取，若当前专利文本数据中存在满足第一段提示集P(k)的实体，则抽取模型输出各实体在当前专利文本数据中的索引位置，输出的索引位置形式为[起始索引位置,结束索引位置]，内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同，则表示这个实体只有一个字符，且输出的索引位置均大于0；否则，抽取模型输出[-1,-1]，代表当前专利文本数据中不存在满足第一段提示集P(k)的实体，

其中，[CLS]表示句子的开始字符，[SEP]表示句子间的分割符，以及句子的结尾字符；

S222c，抽取模型分别将从当前专利文本数据中抽取出的实体作为头部实体，对满足实体间的关系的尾部实体进行抽取：

抽取模型分别将从S222b中抽取出的实体作为头部实体，和预先定义的实体间的关系类型组合成当前专利文本数据的第二段提示集P′(o)，P′(o)＝{P′_o1,P′_o2,...,P′_oj,...,P′_oq}，

其中，P′(o)表示当前实体和第o种实体间的关系类型所对应的第二段提示集，P′_oj表示当前提第二段示集P′(o)中的第j个位置对应的字符,1≤o，1≤j≤q，且o、j、q均为正整数，各实体间的关系的文本内容中的每个汉字、标点、连续的阿拉伯数字均分别对应第二段示集P′(o)内的一个字符；

依次将不同的第二段示集P′(o)与当前内容集C拼接在一起，形成当前内容集C的o个第二段输入文本T′(o)：

T′(o)＝{[CLS],P′_o1,P′_o2,...,P′_oj,...,P′_oq,[SEP],C₁,C₂,...,C_j,...,C_m,[SEP]},

抽取模型对T′(o)进行实体间的关系抽取，若当前专利文本数据中存在满足第二段示集P′(o)的实体间的关系，则抽取模型输出满足第二段提示集P′(o)的各个尾部实体在当前专利文本数据中的索引位置，输出的索引位置形式为[起始索引位置,结束索引位置]，内容集C中的单个字符C_j所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同，则表示这个实体只有一个字符，且输出的索引位置均大于0；否则，抽取模型输出[-1,-1]，代表当前专利文本数据中不存在满足第二段示集P′(o)的尾部实体，

S222d，根据从当前专利文本数据中抽取头部实体、实体间的关系类型、尾部实体，抽取模型输出若干个“头部实体索引位置-实体间的关系-尾部实体索引位置”的索引位置结构；

S222e，三元组输出模块根据抽取模型输出的索引位置结构，在当前专利文本数据中抽取出对应索引位置的头部实体、部实体，形成“头部实体-实体间的关系-尾部实体”的三元组结构。

优选的，S223中具体还包括以下子步骤：

S223a，在当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构所对应的第一段提示集P(k)、第二段提示集P′(o)、内容集C，采用编码器进行编码，输出为隐层向量表示集H，

H＝Encoder([CLS],P_k1,P_k2,...,P_ki,...,P_kn,P′_o1,P′_o2,...,P′_oj,...,P′_oq,[SEP],C₁,C₂,...,C_j,...,Cm,[SEP])＝{H₁,H₂,...,H_t,...,H_(m+n+q+3)},

其中，[CLS]表示句子的开始字符；[SEP]表示句子间的分割符以及句子的结尾字符；Encoder表示编码器的编码处理，编码处理后的输出与输入的元素个数相同，本发明中，输入为(m+n+q+3)个元素，经编码处理后，输出的隐层向量也是(m+n+q+3)个，H_t表示输出的第t个隐层向量表示，1≤t≤(m+n+q+3)，且t、m、n、q均为正整数；

S223b，随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>

S223c，将经过Softmax函数计算，得到隐层向量表示集H中各隐层向量表示H_t属于当前三元组结构所对应的专利文本数据开头的概率向量p_start；将/>经过Softmax函数计算,得到隐层向量表示集H中各隐层向量表示H_t属于当前三元组结构所对应的专利文本数据结尾的概率向量p_end：

S223d，基于当前三元组结构所对应的专利文本数据，以及该专利文本数据使用当前抽取模型所输出的N个三元组结构，计算当前抽取模型的损失函数L_θ：

其中，S_r表示当前专利文本数据在步骤S222所输出的第r个三元组结构；N为当前专利文本数据所输出的三元组结构的总个数，其中1≤r≤N，且r、N均为正整数；表示在概率向量p_start里分别取出与三元组结构S_r中的头部实体、尾部实体所对应的起始索引位置处的维度上的向量值，/>表示在概率向量p_end里分别取出与三元组结构S_r中头部实体、尾部实体所对应的结束索引位置处的维度上的向量值；

S223e，对损失函数L_θ求导后得到梯度方向，再回到S222，根据梯度下降的方向不断调整抽取模型内的参数，用调整后的抽取模型从下一条专利文本数据中抽取并形成新的若干个三元组结构。

优选的，S23中还包括以下内容：

围绕当前专利文献的发明名称这个节点，以指向目标节点的直线/曲线来表示节点间的关系，得到各申请信息作为目标节点与当前专利文献的发明名称节点之间为“申请”关系；各三元组结构中的实体作为目标节点与当前专利文献的发明名称节点之间为“内容”关系；

同时，将三元组结构中的关系也以指向目标节点的直线/曲线来表示，即头部实体所表示的节点通过直线/曲线指向尾部实体所表示的目标节点，并将不同三元组结构中的相同实体重合为一个节点，形成当前专利文献的网状图谱；

其中，相同的实体指两个及以上三元组结构中的头部实体，或两个及以上三元组结构中的尾部实体，或两个及以上三元组结构的头部和尾部实体；

若当前专利文献存在包含引用关系的三元组结构，则将包含引用关系的三元组结构里的尾部实体，也即文献类实体作为目标节点，则目标节点与当前专利文献的发明名称节点之间为引用关系。

优选的，在S3后还包括以下子步骤：

S31，选取若干个专利文献的网状图谱，根据网状图谱，按照专利文献的直接相关程度从高到低，人工标注出各专利文献的所对应的w个行业，形成训练集，采用具有RGCN的节点特征处理模型基于训练集进行初步训练，来训练节点特征处理模型根据当前专利文献网状图谱中的各节点计算出与各行业的匹配度；

S32，使用经过初步训练的节点特征处理模型，在节点特征处理模型的隐藏层中对当前专利文献网状图谱中各个实体所表示的节点进行特征值计算，即对各实体节点进行特征值计算：

其中，表示网状图谱中第(l+1)层的第a个节点的特征值，/>表示网状图谱中第l层的第a个节点的特征值，/>表示网状图谱中第l层的第a个节点自身的权重，/>表示网状图谱中,关系e在第l层中的权重，/>表示网状图谱中与第l层的第a个节点之间存在关系e时的邻居节点b的特征值，/>表示网状图谱中，第l层的节点a和邻居节点之间为关系e时的邻居节点的集合，/>表示集合/>中的节点总数量，σ表示ReLU激活函数，各节点之间的关系即为各个实体间的关系类型，R表示所有实体间的关系类型的集合，各网状图谱中的每一层的节点均是从左往右进行标号，各网状图谱中，从发明名称的节点出发，经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数；l≥1，a≥1，b≥1,且l、a、b为正整数，/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数，网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的；

若第(l+1)层的实体节点总数量v大于第l层的实体节点总数量z，则第(l+1)层中从第(z+1)个节点至第v个节点用如下公式进行特征值计算：

，其中，表示网状图谱中第(l+1)层的第u个节点的特征值，/>表示网状图谱中第l层的第z个节点的特征值，/>表示网状图谱中第l层的第z个节点自身的权重，/>表示网状图谱中，关系e2在第l层中的权重，/>表示网状图谱中与第l层的第z个节点之间存在关系e1时的邻居节点b2的特征值，/>表示网状图谱中，第l层的节点z和邻居节点之间为关系e2时的邻居节点的集合，/>表示集合/>中的节点总数量，σ表示ReLU激活函数，各节点之间的关系即为各个实体间的关系类型，R表示所有实体间的关系类型的集合，各网状图谱中的每一层的节点均是从左往右进行标号，各网状图谱中，从发明名称的节点出发，经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数，l≥1，(z+1)≤u≤v,且l、z、v均为正整数，网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的；/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数；

S33，节点特征处理模型的隐藏层将当前专利文献网状图谱中计算出的各实体节点的特征值后输出至节点特征处理模型的激活层中，激活层中随机初始化行业分类权重的向量表示中的维数与行业分类的数量相同，激活层使用softmax激活函数对同一篇专利文献的各实体节点的特征值计算后求和，再将求和结果基于行业分类权重的向量表示/>映射成行业匹配度向量/>后输出至节点特征处理模型的输出层，

行业匹配度向量中不同的维度代表不同的行业，各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分；

S34，节点特征处理模型的输出层按前专利文献与各行业的匹配度得分降序输出前F个行业，作为当前专利文献排名前F的对应行业；

S35，基于当前专利文献所对应的降序排列的F个对应行业，计算当前节点特征处理模型的损失函数L：

其中，g为预设常数，g＝1，y表示当前专利文献所对应的网状图谱中的各个实体节点的集合，表示当前专利文献所对应的网状图谱中第l层的第a个节点的特征值,a,l∈y表示实体节点特征值/>所取的是集合y中的节点；

对损失函数L求导后得到梯度方向，再回到S32，根据梯度下降的方向不断调整节点特征处理模型内的参数，用调整后的节点特征处理模型计算下一篇专利文献的网状图谱中实体节点的特征值。

本发明还提供一种专利的产业信息挖掘系统，包括：

抓取模块、预处理模块、抽取和图谱生成模块、行业分类模块；

抓取模块用于从各大专利数据库中抓取专利文献，并将抓取的专利文献送至预处理模块内；

预处理模块用于各篇专利文献进行预处理生成专利文本数据后送入抽取模块内；

抽取和图谱生成模块用于从各条专利文本数据的申请信息和内容信息中抽取词语/字后形成当前专利文本数据的网状图谱，并将各网状图谱送入行业分类模块；

行业分类模块用于根据对各条专利文本数据的网状图谱中的节点进行特征计算后进行产业分类；

各模块被编程或配置以执行如上述的一种专利的产业信息挖掘方法的步骤。

本发明还提供一种计算机可读存储介质，其特征在于：计算机可读存储介质存储有被编程或配置以执行如上述的一种专利的产业信息挖掘方法的计算机程序。

本发明的有益效果在于：

(1)相较于现有技术对专利文献中的产业信息进行人工挖掘而言，本发明的抽取模型在当前专利文本数据非结构化的内容信息中，采用先后两个阶段完成对实体、实体间的关系的抽取，即第一阶段先抽取不同类型的实体，第一阶段中将第一阶段抽取出的各实体分别作为头部实体，与不同的实体间的关系相组合，再抽取尾部实体，最终输出当前专利文本数据的内容信息中所对应的所有三元组结构。本发明在抽取并形成三元组结构的同时，直接利用生成的三元组结构来计算当前关抽取模型的损失函数，基于损失函数来优化从新一条专利文本数据中抽取并形成三元组结构的抽取模型，提高三元组结构中实体、实体间的关系的准确性，缩短输出三元组结构的时间。也即本发明不仅可以及时将新公开的专利文献转化为多个结构化的三元组形式，高效地把专利文献的技术方案提取并精简后，直观地显示在网状图谱中，而且在得到当前专利文献的三元组结构的过程中，也在不断提高后续新生成的三元组结构的准确性和效率。专利文献被转化为网状图谱后，其信息更为结构化，表达能力更强，更易于企业全面把控各篇专利文献的技术内容和进行市场分析。

(2)本发明在得到一篇专利文献的网状图谱后，采用节点特征处理模型，基于实体节点进行特征计算后，再对当前专利文献网状图谱中的各实体节点进行激活函数计算、求和，最终将求和的数值映射成各个维度代表不同行业的行业匹配度向量，而行业匹配度各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分，并降序输出当前专利文献对应的行业。因为本发明的行业分类，是基于实体节点进行特征计算，所以行业分类结果是基于当前专利文献的技术方案内容进行精准地分类，同时，本发明的采用节点特征处理模型，对能够更好地捕捉实体节点之间的复杂关系，进一步提高行业分类的精确性。

(3)本发明在按匹配度降序输出与当前专利文献所对应行业的同时，直接利用当前的输出结果来计算当前节点特征处理模型的损失函数，基于损失函数来优化计算下一篇专利文献的网状图谱中实体节点的特征值，提高对专利文献进行行业分类的准确性，缩短分类时间。。

(4)本发明的一种专利的产业信息挖掘方法，能够快速、准确地构建出一篇专利文献的网状图谱并基于网状图谱对专利文献进行精确高效的行业分类，并且本发明在网状图谱中全面的融入了专利文献的著录信息和技术方案等内容，使专利文献的网状图谱可以更直观的表达完备的信息，便于后续企业基于这些专利的产业信息进行后续的时长预测和分析。同时，本发明自动对专利文献进行产业信息挖掘、生成对应的网状图谱、进行行业分类，节约了大量的人工成本，且避免了人工在进行专利产业信息挖掘的过程中会因个人主观性而影响挖掘结果的质量，本发明的分类结果的准确性高且也是较为稳定。

(5)本发明可以对各大平台、专利数据库的专利文献进行穷尽式地产业信息挖掘，基于专利文献的技术方案，做到不遗漏任何一篇最前沿、可能相关的专利文献，避免了人工在进行专利产业信息挖掘的初期根据IPC分类号查找专利文献时可能存在的遗漏的情况，具有极高的时效性，为各企业进行后续的市场开拓提供有力的保障。

附图说明

图1为本发明的一种专利的产业信息挖掘方法的流程图；

图2为采用本发明的产业信息挖掘方法得到的专利文本数据的网状图谱；

图3为本发明专利的产业信息挖掘方法与人工挖掘之间的效率对比曲线图；

图4为本发明一种专利的产业信息挖掘方法与人工挖掘所得到产业信息的准确率对比曲线图。

具体实施方式

为使本发明的技术方案更加清晰明确，下面结合附图对本发明进行清楚、完整地描述，本领域普通技术人员在没有做出创造性劳动前提下对本发明技术方案的技术特征进行等价替换和常规推理得出的方案均落入本发明的保护范围。

如图1所示的一种专利的产业信息挖掘方法的流程图，包括以下步骤：

在S1中，还包括以下子步骤：

S11，先将从各大专利数据库中抓取的专利文献翻译成中文后，再与本地数据库内的已存储的专利文献进行比对，若当前抓取的专利文献与本地数据库内已存储的专利文献内容重复，则丢弃当前专利文献，否则将当前抓取的专利文献的副本存储于本地数据库内，同时，对当前抓取的专利文献进行数据清洗。

在S11中，本地数据库的存在，是用于对新抓取的本地数据库进行预处理的第一步，也就是去重，内容重复的专利文献只有一篇能够保留在本地数据库内，这避免了同一篇专利文献在后续步骤中被重复的计算处理，达到减少计算开销和内存占用的目的。

本实施例中，抓取专利文献的专利数据库包括但不限于中国国家知识产权局、美国专利商标局和欧洲专利局。

S12，对当前专利文献进行数据清洗，去除各篇专利文献中的非法字符，纠正拼写错误后形成专利文本数据。

非法字符指空格、图片、下划线、反斜杠等非阿拉伯数字且不满足汉语文字和汉语文章符号使用规则的字符。

对各篇专利文献进行数据清洗后，可以将专利文献转化为高准确性、高完整性的专利文本数据，便于后续抽取实体和实体间的关系。

在S2中，还包括以下子步骤：

正则表达式抽取结构化信息为现有技术。

在S22中还包括以下子步骤：

S221，预先定义实体类型、实体间的关系类型；

本发明中，实体类型包括工艺类实体、算法类实体、系统类实体、领域类实体、装置类实体、功能类实体、形状类实体、文献类实体等；

本发明中，实体间的关系类型包括包含关系、连接连通关系、方向位置关系、功能关系、类属关系、顺序关系、引用关系等。

工艺类实体例如注入工艺、焊接工艺；算法类实体例如模拟退火算法、LSTM算法；系统类实体例如图像处理系统、人脸识别系统；领域类实体例如医疗领域、机器人领域；装置类实体例如感应电路、旋钮；功能类实体例如文本分类、信息抽取；形状类实体例如锥形、圆形；文献类实体例如期刊论文号、专利号、期刊论文名称、专利名称。

包含关系例如头部实体包含尾部实体，或者头部实体是由尾部实体组成的；连接连通关系例如头部实体固定/连接在尾部实体上；方向位置关系例如头部实体在尾部实体之上/下/内部/外部；功能关系例如采用头部实体来达到尾部实体的目标；类属关系例如尾部实体是头部实体的一个子类；顺序关系例如先执行头部实体，再执行尾部实体；引用关系例如当前专利作为头部实体引用作为尾部实体的文献类实体；

优选的，在S222后还有步骤S223：

在S222中还包括以下子步骤：

S222b，初步训练结束后，使用抽取模型正式进行实体抽取：

抽取模型对T′(o)进行实体间的关系抽取，若当前专利文本数据中存在满足第二段示集P′(o)的实体间的关系，则抽取模型输出满足第二段提示集P′(o)的各个尾部实体在当前专利文本数据中的索引位置，输出的索引位置形式为[起始索引位置,结束索引位置]，内容集C中的单个字符Cj所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同，则表示这个实体只有一个字符，且输出的索引位置均大于0；否则，抽取模型输出[-1,-1]，代表当前专利文本数据中不存在满足第二段示集P′(o)的尾部实体，

下面对S222b～S222e举例说明：当前未标注的专利文本数据为“像素电路包括素子电路(100)和驱动电路(110)”，抽取模型根据“装置类实体”设定好当前专利文本数据的第一段提示集P(1)，P(1)＝{P₁₁,P₁₂,P₁₃,P₁₄,P₁₅}＝{装,置,类,实,体}，形成第一段输入文本T(1)＝{[CLS],P₁₁,P₁₂,P₁₃,P₁₄,P₁₅,[SEP],C₁,C₂,...,C_j,...,C₂₁,[SEP]}＝{[CLS],装,置,类,实,体,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]}，抽取模型输出满足第一段提示集P(1)的各实体在当前专利文本数据中的索引位置，即输出[1,4]、[7,10]、[15,18]，即对应的实体分别为像素电路、素子电路、驱动电路。

接着，抽取模型根据“工艺类实体”设定好当前专利文本数据的第一段提示集P(2)，P(2)＝{P₂₁,P₂₂,P₂₃,P₂₄,P₂₅}＝{工,艺,类,实,体}，这样输入文本T(2)＝{[CLS],P₂₁,P₂₂,P₂₃,P₂₄,P₂₅,[SEP],C₁,C₂,...,C_j,...,C₂₁,[SEP]}＝{[CLS],工,艺,类,实,体,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]}，抽取模型输出满足第一段提示集P(2)的各实体在当前专利文本数据中的索引位置，即输出[-1,-1]，即当前专利文本数据中不存在满足第一段提示集P(2)的实体。

抽取模型后续还根据预先定义的其他实体类型，对当前专利文本数据进行实体抽取，这里不再重复描述。

抽取模型将“像素电路”作为头部实体，和预先定义的实体间的关系类型“包含”组合成当前专利文本数据的第二段提示集P′(1)，P′(1)＝{P′₁₁,P′₁₂,P′₁₃,P′₁₄,P′₁₅,P′₁₆}＝{像,素,电,路,包,含}，形成第二段输入文本T′(1)＝{[CLS],P′₁₁,P′₁₂,P′₁₃,P′₁₄,P′₁₅,P′₁₆,[SEP],C₁,C₂,...,C_j,...,C₂₁,[SEP]}

＝{[CLS],像,素,电,路,包,含,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]}，

抽取模型输出满足第二段提示集P′(1)的各个尾部实体在当前专利文本数据中的索引位置，即输出[7,10]、[15,18]，即对应的尾部实体分别为素子电路、驱动电路。

接着，抽取模型将“素子电路”作为头部实体，和预先定义的实体间的关系类型“包含”组合成当前专利文本数据的第二段提示集P′(2)，P′(2)＝{P′₂₁,P′₂₂,P′₂₃,P′₂₄,P′₂₅,P′₂₆}＝{素,子,电,路,包,含}，形成第二段输入文本T′(2)＝{[CLS],P′₂₁,P′₂₂,P′₂₃,P′₂₄,P′₂₅,P′₂₆,[SEP],C₁,C₂,...,C_j,...,C₂₁,[SEP]}

＝{[CLS],素,子,电,路,包,含,[SEP],像,素,电,路,包,括,素,子,电,路,(,100,),和,驱,动,电,路,(,110,),[SEP]}，抽取模型输出[-1,-1]，即当前专利文本数据中不存在满足第二段提示集P′(2)的尾部实体。

抽取模型后续还将从当前专利文本数据中抽取出的其他实体作为头部实体，对满足实体间的关系的尾部实体进行抽取，这里不再重复描述。

抽取模型最终输出“[1,4]-包，含-[7,10]”、“[1,4]-包，含-[15,18]”等的索引位置结构，对应三元组输出模块输出“素子电路-包含-素子电路”、“素子电路-包含-驱动电路”等三元组结构。

在S223中，还包括以下子步骤：

H＝Encoder([CLS],P_k1,P_k2,...,P_ki,...,P_kn,P′_o1,P′_o2,...,P′_oj,...,P′_oq,[SEP],C₁,C₂,...,C_j,...,C_m,[SEP])＝{H₁,H₂,...,H_t,...,H_(m+n+q+3)},

其中，[CLS]表示句子的开始字符；[SEP]表示句子间的分割符以及句子的结尾字符；Encoder表示编码器的编码处理，编码处理后的输出与输入的元素个数相同，本发明中，输入为(m+n+q+3)个元素，经编码处理后，输出的隐层向量也是(m+n+q+3)个，H_t表示输出的第t个隐层向量表示，1≤t≤(m+n+q+3)，且t、m、n、q均为正整数。

采用编码器对输入进行编码处理为现有技术，这里不再赘述。

当一个三元组结构确定时，该三元组结构就可以唯一对应第一段提示集P(k)和第二段提示集P′(o)。

在本发明中，随机初始化得到开始空间的线性变化权重结束空间的线性变化权重/>以及基于线性权重法进行映射均为现有技术，这里不再赘述。

/>

其中，S_r表示当前专利文本数据在步骤S222所输出的第r个三元组结构；N为当前专利文本数据所输出的三元组结构的总个数，其中1≤r≤N，且r、N均为正整数；表示在概率向量p_start里分别取出与三元组结构S_r中的头部实体、尾部实体所对应的起始索引位置处的维度上的向量值，/>表示在概率向量p_end里分别取出与三元组结构S_r中头部实体、尾部实体所对应的结束索引位置处的维度上的向量值。

本实施例中，根据梯度下降的方向所不断调整当前抽取模型内的参数包括：将第一段提示集P(k)、第二段提示集P′(o)、内容集C内的字符转化成向量形式的编码参数；如何基于第一段提示集P(k)、第二段提示集P′(o)来确定内容集C中的头部实体、尾部实体的索引位置等。

在S23中还包括以下内容：

同时，将三元组结构中的关系也以指向目标节点的直线/曲线来表示，即头部实体所表示的节点通过直线/曲线指向尾部实体所表示的目标节点，并将不同三元组结构中的相同实体重合为一个节点，以此来减少冗余节点，形成当前专利文献的网状图谱；

若当前专利文献存在包含引用关系的三元组结构，则将包含引用关系的三元组结构里的尾部实体，也即文献类实体作为目标节点，目标节点与当前专利文献的发明名称节点之间为引用关系；此时存在引用关系的专利文本数据的网状图谱就被连接起来了，如图2所示。

本发明的抽取模型在当前专利文本数据非结构化的内容信息中，采用先后两个阶段完成对实体、实体间的关系的抽取，即第一阶段先抽取不同类型的实体，第一阶段中将第一阶段抽取出的各实体分别作为头部实体，与不同的实体间的关系相组合，再抽取尾部实体，最终输出当前专利文本数据的内容信息中所对应的所有三元组结构。本发明在抽取并形成三元组结构的同时，直接利用生成的三元组结构来计算当前关抽取模型的损失函数，基于损失函数来优化从新一条专利文本数据中抽取并形成三元组结构的抽取模型，提高三元组结构中实体、实体间的关系的准确性，缩短输出三元组结构的时间。也即本发明不仅可以及时将新公开的专利文献转化为多个结构化的三元组形式，高效地把专利文献的技术方案提取并精简后，直观地显示在网状图谱中，而且在得到当前专利文献的三元组结构的过程中，也在不断提高后续新生成的三元组结构的准确性和效率。专利文献被转化为网状图谱后，其信息更为结构化，表达能力更强，更易于企业全面把控各篇专利文献的技术内容和进行市场分析。

在S3中还包括以下子步骤：

本实施例中，产业分类采用GB/T 4754-2017的国民经济行业分类，w取8；

S32，使用经过初步训练的节点特征处理模型，在节点特征处理模型的隐藏层中对当前专利文献网状图谱中各个实体所表示的节点(下面简称实体节点)进行特征值计算：

其中，表示网状图谱中第(l+1)层的第a个节点的特征值，/>表示网状图谱中第l层的第a个节点的特征值，/>表示网状图谱中第l层的第a个节点自身的权重，/>表示网状图谱中,关系e在第l层中的权重，/>表示网状图谱中与第l层的第a个节点之间存在关系e时的邻居节点b的特征值，/>表示网状图谱中，第l层的节点a和邻居节点之间为关系e时的邻居节点的集合，/>表示集合/>中的节点总数量，σ表示ReLU激活函数，各节点之间的关系即为各个实体间的关系类型，R表示所有实体间的关系类型的集合，各网状图谱中的每一层的节点均是从左往右进行标号，各网状图谱中，从发明名称的节点出发，经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数，l≥1，a≥1，b≥1,且l、a、b为正整数，网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的；

的取值为(0,1)；

和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数；

其中，表示网状图谱中第(l+1)层的第u个节点的特征值，/>表示网状图谱中第l层的第z个节点的特征值，/>表示网状图谱中第l层的第z个节点自身的权重，/>表示网状图谱中，关系e2在第l层中的权重，/>表示网状图谱中与第l层的第z个节点之间存在关系e1时的邻居节点b2的特征值，/>表示网状图谱中，第l层的节点z和邻居节点之间为关系e2时的邻居节点的集合，/>表示集合/>中的节点总数量，σ表示ReLU激活函数，各节点之间的关系即为各个实体间的关系类型，R表示所有实体间的关系类型的集合，各网状图谱中的每一层的节点均是从左往右进行标号，各网状图谱中，从发明名称的节点出发，经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数，l≥1，(z+1)≤u≤v,且l、z、v均为正整数，网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的；

的取值为(0,1)；

和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数。

行业匹配度向量中不同的维度代表不同的行业，各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分，

S34，节点特征处理模型的输出层按当前专利文献与各行业的匹配度得分降序输出前F个行业，作为当前专利文献排名前F的对应行业。

本实施例中，F取5。

可选的，在S34后还包括S35：

其中，g为设定的常数，本实施例中g＝1，y表示当前专利文献所对应的网状图谱中的各个实体节点的集合，表示当前专利文献所对应的网状图谱中第l层的第a个节点的特征值,a,l∈y表示实体节点特征值/>所取的是集合y中的节点；

本发明在得到一篇专利文献的网状图谱后，采用节点特征处理模型，基于实体节点进行特征计算后，再对当前专利文献网状图谱中的各实体节点进行激活函数计算、求和，最终将求和的数值映射成各个维度代表不同行业的行业匹配度向量，而行业匹配度各维度上的取值即为当前专利文献与各维度所代表的行业的匹配度得分，并降序输出当前专利文献对应的行业。因为本发明的行业分类，是基于实体节点进行特征计算，所以行业分类结果是基于当前专利文献的技术方案内容进行精准地分类，同时，本发明的采用节点特征处理模型，对能够更好地捕捉实体节点之间的复杂关系，进一步提高行业分类的精确性。

本发明在按匹配度降序输出与当前专利文献所对应行业的同时，直接利用当前的输出结果来计算当前节点特征处理模型的损失函数，基于损失函数来优化计算下一篇专利文献的网状图谱中实体节点的特征值，提高对专利文献进行行业分类的准确性，缩短分类时间。

本发明的一种专利的产业信息挖掘方法，能够快速、准确地构建出一篇专利文献的网状图谱并基于网状图谱对专利文献进行精确高效的行业分类，并且本发明在网状图谱中全面的融入了专利文献的著录信息和技术方案等内容，使专利文献的网状图谱可以更直观的表达完备的信息，便于后续企业基于这些专利的产业信息进行后续的时长预测和分析。同时，本发明自动对专利文献进行产业信息挖掘、生成对应的网状图谱、进行行业分类，节约了大量的人工成本，且避免了人工在进行专利产业信息挖掘的过程中会因个人主观性而影响挖掘结果的质量，本发明的分类结果的准确性高且也是较为稳定。本发明可以对各大平台、专利数据库的专利文献进行穷尽式地产业信息挖掘，基于专利文献的技术方案，做到不遗漏任何一篇最前沿、可能相关的专利文献，避免了人工在进行专利产业信息挖掘的初期根据IPC分类号查找专利文献时可能存在的遗漏的情况，具有极高的时效性，为各企业进行后续的市场开拓提供有力的保障。

任意抓取3000篇专利文献，分别采用本发明的产业信息挖掘方法和人工挖掘的方法，来形成各专利文献的网状图谱，并对各专利文献进行行业分类，以高质量、多次复核的人工检验结果为标准，分别得到如图3所示的本发明的产业信息挖掘方法与人工挖掘之间的效率对比曲线图，以及图4所示的本发明的产业信息挖掘方法与人工挖掘所得到产业信息的准确率对比曲线图，从图3-图4可以直观的看出，采用本发明的产业信息挖掘方法来形成各专利文献的网状图谱，并对各专利文献进行行业分类的效率明显高于人工挖掘；且随着专利文献数量的增多，形成各专利文献网状图谱、对各专利文献进行行业分类的准确性也在不断稳定提升，尤其是在专利文献超过1500篇后，其准确性明显超过人工挖掘；而人工挖掘所得到的专利文献网状图谱，以及对各专利文献所进行的行业分类准确率不稳定，这与人工挖掘的评判标准不一有关，并且随着专利文献数量增大，人工挖掘的准确性明显降低。

本发明还提供一种专利的产业信息挖掘系统，包括：

各模块被编程或配置以执行上述一种专利的产业信息挖掘方法的步骤。

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有被编程或配置以执行上述的一种专利的产业信息挖掘方法的计算机程序。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种专利的产业信息挖掘方法，其特征在于，包括以下步骤：

S3，基于各条专利文本数据的网状图谱的节点进行节点特征值计算后，对各条专利文本数据对应的专利文献进行产业分类；

S2中具体还包括以下子步骤：

S23，围绕当前专利文献的发明名称，结构化申请信息与三元组结构，形成当前专利文献的网状图谱；

S22中具体还包括以下子步骤：

S221，预先定义实体类型、实体间的关系类型；

S223，基于当前抽取模型输出的“头部实体-实体间的关系-尾部实体”三元组结构，计算当前抽取模型的损失函数，并根据损失函数对抽取模型进行优化；

S222中具体还包括以下子步骤：

S222b，初步训练结束后，使用抽取模型正式进行实体抽取：

T(k)＝{[CLS],P_k1,P_k2,...,P_ki,...,P_kn,[SEP],C₁,C₂,...,C_j,...,C_m,[SEP]},经过初步训练的抽取模型对T(k)进行实体抽取，若当前专利文本数据中存在满足第一段提示集P(k)的实体，则抽取模型输出各实体在当前专利文本数据中的索引位置，输出的索引位置形式为[起始索引位置,结束索引位置]，内容集C中的单个字符C_j所对应的字符位置就是索引位置j,当输出的某个实体索引位置中起始索引位置与结束索引位置相同，则表示这个实体只有一个字符，且输出的索引位置均大于0；否则，抽取模型输出[-1,-1]，代表当前专利文本数据中不存在满足第一段提示集P(k)的实体，

S222e，三元组输出模块根据抽取模型输出的索引位置结构，在当前专利文本数据中抽取出对应索引位置的头部实体、部实体，形成“头部实体-实体间的关系-尾部实体”的三元组结构；

S223中具体还包括以下子步骤：

S223b，随机初始化得到开始空间的线性变化权重结束空间的线性变化权重将隐层向量表示集H与开始空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>将隐层向量表示集H与结束空间的参数矩阵/>基于线性权重法映射到开始空间，记为/>

2.根据权利要求1所述的一种专利的产业信息挖掘方法，其特征在于，S1中具体还包括以下子步骤：

3.根权利要求2所述的一种专利的产业信息挖掘方法，其特征在于，S23中还包括以下内容：

4.根权利要求3所述的一种专利的产业信息挖掘方法，其特征在于，在S3后还包括以下子步骤：

其中，表示网状图谱中第(l+1)层的第u个节点的特征值，/>表示网状图谱中第l层的第z个节点的特征值，/>表示网状图谱中第l层的第z个节点自身的权重，/>表示网状图谱中，关系e2在第l层中的权重，/>表示网状图谱中与第l层的第z个节点之间存在关系e1时的邻居节点b2的特征值，/>表示网状图谱中，第l层的节点z和邻居节点之间为关系e2时的邻居节点的集合，/>表示集合/>中的节点总数量，σ表示ReLU激活函数，各节点之间的关系即为各个实体间的关系类型，R表示所有实体间的关系类型的集合，各网状图谱中的每一层的节点均是从左往右进行标号，各网状图谱中，从发明名称的节点出发，经过网状图谱中最短的路径到达目标节点时所包含的边数或距离即为当前目标节点所在的层数，l≥1，(z+1)≤u≤v,且l、z、v均为正整数，网状图谱中第一层的各实体节点的特征值为节点特征处理模型的通过随机初始化设定的；/>和/>是节点特征处理模型在进行实体节点特征值计算时自动初始化生成的常数；

S33，节点特征处理模型的隐藏层将当前专利文献网状图谱中计算出的各实体节点的特征值后输出至节点特征处理模型的激活层中，激活层中随机初始化行业分类权重的向量表示中的维数与行业分类的数量相同，激活层使用softmax激活函数对同一篇专利文献的各实体节点的特征值计算后求和，再将求和结果基于行业分类权重的向量表示映射成行业匹配度向量/>后输出至节点特征处理模型的输出层，

5.一种专利的产业信息挖掘系统，其特征在于，包括：

各模块被编程或配置以执行如权利要求1-4中任意一项所述的一种专利的产业信息挖掘方法的步骤。

6.一种计算机可读存储介质，其特征在于：计算机可读存储介质存储有被编程或配置以执行如权利要求1-4中任意一项所述的一种专利的产业信息挖掘方法的计算机程序。