CN110175224A - 基于语义链接异构信息网络嵌入的专利推荐方法及装置 - Google Patents

基于语义链接异构信息网络嵌入的专利推荐方法及装置 Download PDF

Info

Publication number
CN110175224A
CN110175224A CN201910476853.5A CN201910476853A CN110175224A CN 110175224 A CN110175224 A CN 110175224A CN 201910476853 A CN201910476853 A CN 201910476853A CN 110175224 A CN110175224 A CN 110175224A
Authority
CN
China
Prior art keywords
text
database
word
node
heterogeneous information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910476853.5A
Other languages
English (en)
Other versions
CN110175224B (zh
Inventor
张燕平
李爽
陈喜
赵姝
钱付兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910476853.5A priority Critical patent/CN110175224B/zh
Publication of CN110175224A publication Critical patent/CN110175224A/zh
Application granted granted Critical
Publication of CN110175224B publication Critical patent/CN110175224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于语义链接异构信息网络嵌入的专利推荐方法及装置,方法包括:1)、针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利;2)、根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接;3)、获取所述异构信息网络中各个专利节点的特征向量;4)、获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。应用本发明实施例,可以使推荐的专利更准确。

Description

基于语义链接异构信息网络嵌入的专利推荐方法及装置
技术领域
本发明涉及一种专利推荐方法及装置,更具体涉及基于语义链接异构信息网络嵌入的专利推荐方法及装置。
背景技术
根据美国专利商标局的统计数据,技术创新的快速发展和知识产权保护的重要性推动了每年提交的专利申请数量的显着增加。随着授权专利和专利申请数量的不断增加,在专利申请前的预检索过程,以及专利的审查过程中,对被审查专利现有技术检索,即专利引用推荐已成为申请人和专利审查员所面对的一项非常具有挑战性的任务。
近年来,许多科研工作者对此展开了研究。专利的现有技术检索方法是基于信息网络的专利引文推荐。基于信息网络的推荐都是单纯的将专利书目信息构成同质信息网络或者异构信息网络,然后再进行随机游走寻找与被审查专利最相关专利,这类方法往往获得不了深层次的语义,从而导致针对被审查专利的推荐结果不佳。
发明内容
本发明所要解决的技术问题在于提供了基于语义链接异构信息网络嵌入的专利推荐方法及装置,以解决现有技术中针对被审查专利的推荐结果不佳的技术问题。
本发明是通过以下技术方案解决上述技术问题的:
本发明实施例提供了基于语义链接异构信息网络嵌入的专利推荐方法,所述方法包括:
1)、针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利;
2)、根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接,其中,所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点,节点之间通过边相互连接的网络,所述著录项目信息包括:专利、发明人、授权人以及分类号中的一种或组合;节点之间的边的类型包括:语义链接、引用、撰写、属于以及拥有;
3)、获取所述异构信息网络中各个专利节点的特征向量;
4)、获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。
可选的,所述步骤1),包括:
利用word2vec模型,获取专利数据库中各个专利文本中各个单词的词向量;
针对专利数据库中的各个专利文本中各个单词,统计每个单词的词频以及计算逆文档频率,并利用公式,计算各个单词的权重,其中,
TF-IDF(w,ti)为单词w在专利文本ti的权重;ti为专利数据库中的第i个专利文本;tf(w,ti)为单词w在专利文本ti中的词频;idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率,且|T|为专利数据库中专利文本的总数量;nw为所有的专利文本构成的文本集中出现单词w的专利文本的数量;∑为求和函数;
利用公式,获取专利数据库中的各个专利文本的文本向量,其中,
为专利数据库中的各个专利文本的文本向量;为单词w的词向量;
针对专利数据库中的每一个专利,利用公式,计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度,其中,
CCS1(ti,tj)为所述专利文本ti与除所述专利以外的其他专利文本tj之间的文本相似度;为专利数据库中任意专利文本的文本向量;为专利数据库中除所述专利以外的其他专利文本tj(ti≠tj)的文本向量;|| ||为向量的模;
根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列;并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。
可选的,word2vec模型的训练过程包括:
依次对样本专利文本中的关键词进行标记、去除样本专利文本中的停用词,并进行词性还原处理;
将专利文本的集合和样本专利文本中每个单词作为样本集合,训练word2vec模型。
可选的,使用边将被审查专利与异构信息网络中的其他专利连接时,所述方法还包括:
当节点之间的关系为语义链接关系时,边的权重为文本内容相似度;当两个节点之间的边不是语义链接关系,边的权重赋值为预先设置的边权重的最大值。
可选的,所述步骤3),包括:
利用node2vec模型获取异构信息网络中各个专利节点的特征向量。
本发明实施例提供了基于语义链接异构信息网络嵌入的专利推荐装置,所述装置包括:
第一获取模块,用于针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利;
添加模块,用于根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接,其中,所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点,节点之间通过边相互连接的网络,所述著录项目信息包括:专利、发明人、授权人以及分类号中的一种或组合;节点之间的边的类型包括:语义链接、引用、撰写、属于以及拥有;
第二获取模块,用于获取所述异构信息网络中各个专利节点的特征向量;
获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。
可选的,所述第一获取模块,用于:
利用预先训练的word2vec模型,获取专利数据库中各个专利文本中各个单词的词向量;
针对专利数据库中的各个专利文本中各个单词,统计每个单词的词频以及计算逆文档频率,并利用公式,计算各个单词的权重,其中,
TF-IDF(w,ti)为单词w在专利文本ti的权重;ti为专利数据库中的第i个专利文本;tf(w,ti)为单词w在专利文本ti中的词频;idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率,且|T|为专利数据库中专利文本的总数量;nw为所有的专利文本构成的文本集中出现单词w的专利文本的数量;∑为求和函数;
利用公式,获取专利数据库中的各个专利文本的文本向量,其中,
为专利数据库中的各个专利文本的文本向量;为单词w的词向量;
针对专利数据库中的每一个专利,利用公式,计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度,其中,
CCS1(ti,tj)为所述专利文本ti与除所述专利以外的其他专利文本tj之间的文本相似度;为专利数据库中任意专利文本的文本向量;为专利数据库中除所述专利以外的其他专利文本tj(ti≠tj)的文本向量;|| ||为向量的模;
根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列;并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。
可选的,word2vec模型的训练过程包括:
依次对样本专利文本中的关键词进行标记、去除样本专利文本中的停用词,并进行词性还原处理;
将专利文本的集合和样本专利文本中每个单词作为样本集合,训练word2vec模型。
可选的,添加模块,用于:
当节点之间的关系为语义链接关系时,边的权重为文本内容相似度;当两个节点之间的边不是语义链接关系,边的权重赋值为预先设置的边权重的最大值。
可选的,所述第二获取模块,用于:
利用node2vec模型获取异构信息网络中各个专利节点的特征向量。
本发明相比现有技术具有以下优点:
应用本发明实施例,使用专利数据库中专利的著录项目信息和所获取的语义链接构建异构信息网络,再利用node2vec挖掘专利文本的深层次语义信息,并根据专利节点的特征向量的余弦相似度进行专利推荐,相对于现有技术,可以利用专利文本的深层次的语义,使专利推荐结果更准确。
附图说明
图1为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法的流程示意图;
图2为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法整体架构示意图;
图3为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法中异构信息网络模式的示意图;
图4为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐装置的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了基于语义链接异构信息网络嵌入的专利推荐方法及装置,下面首先就本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法进行介绍。
图1为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法的流程示意图,如图1所示,所述方法包括:
S101:针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利。
具体的,本步骤可以包括以下步骤:
A:首先由word2vec模型得到各专利文本每个单词的词向量:依次对样本专利文本中的单词进行标记、去除样本专利文本中的停用词,并进行词性还原处理;将处理过的文本通过word2vec模型训练,得到每个单词的词向量。
通常情况下,去除停用词操作可以为:去掉文本中比较常用的单词比如:the,a,of,and等。
词性还原处理可以为:通过Python中的nltk工具包,去掉单词的词缀,提取单词的主干部分,比如将drove处理为drive,将driving处理为drive。
在实际应用中,本发明实施例使用的word2vec模型为Skip-Gram模型,该模型的参数设置:向量的维度200维,最小词频为5,迭代15次,其他参数设为默认值。
word2vec模型是简单化的神经网络,输入是One-Hot Vector,即一位有效编码;word2vec模型的隐藏层没有激活函数,是线性的单元;word2vec模型的输出层维度跟word2vec模型的输入层维度一样,word2vec模型的输出层用的是Softmax回归函数。当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,如隐藏层的权重矩阵。
在实际应用中,通常使用样本专利的主题名称、说明书摘要、权利要求中的关键词训练word2vec模型。
在实际应用中,例如被审查专利为P1,其中包括了若干个单词。word2vec模型为小型的神经网络,因此,可以将被审查专利文本中的各个单词识别出来,并进行向量化,得到各个单词的词向量。
B:针对专利数据库中的各个专利文本中各个单词,统计每个单词的词频以及计算逆文档频率,并利用公式,计算各个单词的权重,其中,
TF-IDF(w,ti)为单词w在专利文本ti的权重;ti为专利数据库中的第i个专利文本;tf(w,ti)为单词w在专利文本ti中的词频;idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率,且|T|为专利数据库中专利文本的总数量;nw为所有的专利文本构成的文本集中出现单词w的专利文本的数量;∑为求和函数;
C:利用公式,获取专利数据库中的各个专利文本的文本向量,其中,
为专利数据库中的各个专利文本的文本向量;为单词w的词向量。
对于专利数据库中的其他专利,也是按照上述方法获取专利数据库中的各个专利文本的文本向量。专利数据库中专利的文本向量可以是预先获取的,在本发明实施例中直接调用,以提高效率。
D:针对专利数据库中的每一个专利,利用公式,计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度,其中,
CCS1(ti,tj)为所述专利文本ti与除所述专利以外的其他专利文本tj之间的文本相似度;为专利数据库中任意专利文本的文本向量;为专利数据库中除所述专利以外的其他专利文本tj(ti≠tj)的文本向量;|| ||为向量的模。
具体的,专利文本ti为需要计算与其它专利文本之间的文本相似度的待计算专利。
利用上述公式,可以得到专利数据库中每一个专利与其他专利的文本内容相似度。
E:根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列;并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。
将D步骤中得到数据库中任意一个专利的x个文本内容相似度值按照相似度从高到低的顺序进行排序,得到文本相似度序列,将该序列的前10个或者20个专利作为该专利的语义链接。
S102:根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接,其中,所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点,节点之间通过边相互连接的网络,所述著录项目信息包括:专利引文、发明人、授权人以及分类号中的一种或组合;节点之间的边的类型包括:语义链接、引用、撰写、属于以及拥有。
图2为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法整体架构示意图,如图2所示,
图3为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法中异构信息网络模式的示意图,包括所构异构信息网络所有的节点类型和边类型。如图3所示,构建的异构信息网络中的节点类型有:专利、发明者、授权人、分类号;异构信息网络中边类型有:语义链接、引用、写、属于、拥有五种,其中,
语义链接关系是指专利文本内容之间的相似关系,它由S101步骤获得;
如图2所示,专利P1为被审查专利,专利P2、专利P3、专利P4、专利P5、专利P6、专利P7为专利数据库中的其他专利,专利P1和专利P7具有共同的发明人I1;专利P1、专利P4、专利P7具有共同的分类号;专利P1、专利P6具有共同的授权人,即专利权人。
专利引文关系是指专利引用专利,这种引用可以是发明者在撰写专利说明书时的引用专利,也可以是审查员在审查专利申请时的引用专利;如P6,其在专利撰写时引用了其他专利,然后审查员在审查时候将P3或者P7作为对比文件进行审查。
写关系是指发明人提供了该专利文本的技术方案;
属于关系是指专利-分类号,即专利哪个分类号;
拥有关系是指专利权人拥有该专利。
示例性的,在构建所述异构信息网络的时候,各个节点之间的边的权重可以按照以下方式赋值:
1、当节点之间的关系为语义链接关系时,边的权重为文本内容相似度,即步骤D中公式Csim()的结果作为节点连接的边的权重。
2、如果两个节点之间的边不是语义链接关系,可以将该边的权重赋值为设定值,例如,可以为预先设置的边权重的最大值,可以为1.0。
S103:获取所述异构信息网络中各个专利节点的特征向量。
具体的,可以使用网络表示学习方法和获取异构信息网络中各个专利节点的特征向量,例如,可以使用DW(Deepwalk,深度游走)模型、LINE模型、Node2vec模型、SDNE(structural Deep Network Embedding,结构深层网络嵌入)模型中的一种。
在实际应用中,本发明利用node2vec模型获取异构信息网络中各个专利节点的特征向量。
node2vec模型通过引入两个参数p和q,将宽度优先搜索和深度优先搜索引入随机游走序列的生成过程。宽度优先搜索注重临近的节点,并刻画了相对局部的一种网络表示,宽度优先中的节点一般会出现很多次,从而降低刻画中心节点的邻居节点的方差;深度优先搜索反应了更高层面上的节点间的同质性,即深度优先搜索能够探究图中的结构性质,而宽度优先搜索则能够探究出内容上的相似性。
在本发明实施例中,node2vec模型的参数设置为:向量维度:128维,滑动窗口大小为3;随机游走的步长为10;每个节点游走的次数为10次。
S104:获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。
在实际应用中,可以利用现有的余弦相似度公式计算异构信息网络中各个专利节点的特征向量与被审查专利的特征向量之间的余弦相似度。
然后,按照余弦相似度从高到低的顺序将x个余弦相似度进行排序,将排序后得到的序列中前20个专利,作为待推荐专利进行推荐。
应用本发明图1所示实施例,使用专利数据库中专利的著录项目信息和所获取得语义链接构建异构信息网络,再利用node2vec挖掘专利文本的深层次语义信息,并根据专利节点的特征向量的余弦相似度进行专利推荐,相对于现有技术,可以利用专利文本的深层次的语义,使专利推荐结果更准确。
与本发明图1所示实施例相对应,本发明实施例还提供了基于语义链接异构信息网络嵌入的专利推荐装置。
图4为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐装置的结构示意图,如图4所示,所述装置包括:
第一获取模块401,用于针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利;
添加模块402,用于根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接,其中,所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点,节点之间通过边相互连接的网络,所述著录项目信息包括:专利、发明人、授权人以及分类号中的一种或组合;节点之间的边的类型包括:语义链接关系、引用、撰写、属于以及拥有;
第二获取模块403,用于获取所述异构信息网络中各个专利节点的特征向量;
获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。
应用本发明图4所示实施例,使用专利数据库中专利的著录项目信息和所获取的语义链接构建异构信息网络,再利用node2vec挖掘专利文本的深层次语义信息,并根据专利节点的特征向量的余弦相似度进行专利推荐,相对于现有技术,可以利用专利文本的深层次的语义,使专利推荐结果更准确。
在本发明实施例的一种具体实施方式中,所述第一获取模块401,用于:
利用预先训练的word2vec模型,获取专利数据库中各个专利文本中各个单词的词向量;
针对专利数据库中的各个专利文本中各个单词,统计每个单词的词频以及计算逆文档频率,并利用公式,计算各个单词的权重,其中,
TF-IDF(w,ti)为单词w在专利文本ti的权重;ti为专利数据库中的第i个专利文本;tf(w,ti)为单词w在专利文本ti中的词频;idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率,且|T|为专利数据库中专利文本的总数量;nw为所有的专利文本构成的文本集中出现单词w的专利文本的数量;∑为求和函数;
利用公式,获取专利数据库中的各个专利文本的文本向量,其中,
为专利数据库中的各个专利文本的文本向量;为单词w的词向量;
针对专利数据库中的每一个专利,利用公式,计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度,其中,
CCS1(ti,tj)为所述专利文本ti与除所述专利以外的其他专利文本tj之间的文本相似度;为专利数据库中任意专利文本的文本向量;为专利数据库中除所述专利以外的其他专利文本tj(ti≠tj)的文本向量;|| ||为向量的模;
根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列;并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。
在本发明实施例的一种具体实施方式中,word2vec模型的训练过程包括:
依次对样本专利文本中的关键词进行标记、去除样本专利文本中的停用词,并进行词性还原处理;
将专利文本的集合和样本专利文本中每个单词作为样本集合,训练word2vec模型。
在本发明实施例的一种具体实施方式中,添加模块402,用于:
当节点之间的关系为语义链接关系时,边的权重为文本内容相似度;当两个节点之间的边不是语义链接关系,边的权重赋值为预先设置的边权重的最大值。
在本发明实施例的一种具体实施方式中,所述第二获取模块403,用于:
利用node2vec模型获取异构信息网络中各个专利节点的特征向量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于语义链接异构信息网络嵌入的专利推荐方法,其特征在于,所述方法包括:
1)、针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利;
2)、根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接,其中,所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点,节点之间通过边相互连接的网络,所述著录项目信息包括:专利、发明人、授权人以及分类号中的一种或组合;节点之间的边的类型包括:语义链接关系、引用、撰写、属于以及拥有;
3)、获取所述异构信息网络中各个专利节点的特征向量;
4)、获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。
2.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法,其特征在于,所述步骤1),包括:
利用word2vec模型,获取专利数据库中各个专利文本中各个单词的词向量;
针对专利数据库中的各个专利文本中各个单词,统计每个单词的词频以及计算逆文档频率,并利用公式,计算各个单词的权重,其中,
TF-IDF(w,ti)为单词w在专利文本ti的权重;ti为专利数据库中的第i个专利文本;tf(w,ti)为单词w在专利文本ti中的词频;idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率,且T为专利数据库中专利文本的总数量;nw为所有的专利文本构成的文本集中出现单词w的专利文本的数量;∑为求和函数;
利用公式,获取专利数据库中的各个专利文本的文本向量,其中,
为专利数据库中的各个专利文本的文本向量;为单词w的词向量;
针对专利数据库中的每一个专利,利用公式,计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度,其中,
CCS1(ti,tj)为所述专利文本ti与除所述专利以外的其他专利文本tj之间的文本相似度;为专利数据库中任意专利文本的文本向量;为专利数据库中除所述专利以外的其他专利文本tj(ti≠tj)的文本向量;|| ||为向量的模;
根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列;并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。
3.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法,其特征在于,word2vec模型的训练过程包括:
依次对样本专利文本中的关键词进行标记、去除样本专利文本中的停用词,并进行词性还原处理;
将专利文本的集合和样本专利文本中每个单词作为样本集合,训练word2vec模型。
4.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法,其特征在于,使用边将被审查专利与异构信息网络中的其他专利连接时,所述方法还包括:
当节点之间的关系为语义链接关系时,边的权重为文本内容相似度;当两个节点之间的边不是语义链接关系,边的权重赋值为预先设置的边权重的最大值。
5.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法,其特征在于,所述步骤3),包括:
利用node2vec模型获取异构信息网络中各个专利节点的特征向量。
6.基于语义链接异构信息网络嵌入的专利推荐装置,其特征在于,所述装置包括:
第一获取模块,用于针对专利数据库中的每个专利,将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接,且所述专利数据库中包括被审查专利;
添加模块,用于根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络,并使用边将异构信息网络中的各个节点连接,其中,所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点,节点之间通过边相互连接的网络,所述著录项目信息包括:专利、发明人、授权人以及分类号中的一种或组合;节点之间的边的类型包括:语义链接、引用、撰写、属于以及拥有;
第二获取模块,用于获取所述异构信息网络中各个专利节点的特征向量;
获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度,将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。
7.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置,其特征在于,所述第一获取模块,用于:
利用word2vec模型,获取专利数据库中各个专利文本中各个单词的词向量;
针对专利数据库中的各个专利文本中各个单词,统计每个单词的词频以及计算逆文档频率,并利用公式,计算各个单词的权重,其中,
TF-IDF(w,ti)为单词w在专利文本ti的权重;ti为专利数据库中的第i个专利文本;tf(w,ti)为单词w在专利文本ti中的词频;idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率,且|T|为专利数据库中专利文本的总数量;nw为所有的专利文本构成的文本集中出现单词w的专利文本的数量;∑为求和函数;
利用公式,获取专利数据库中的各个专利文本的文本向量,其中,
为专利数据库中的各个专利文本的文本向量;为单词w的词向量;
针对专利数据库中的每一个专利,利用公式,计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度,其中,
CCS1(ti,tj)为所述专利文本ti与除所述专利以外的其他专利文本tj之间的文本相似度;为专利数据库中任意专利文本的文本向量;为专利数据库中除所述专利以外的其他专利文本tj(ti≠tj)的文本向量;|| ||为向量的模;
根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列;并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。
8.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置,其特征在于,word2vec模型的训练过程包括:
依次对样本专利文本中的关键词进行标记、去除样本专利文本中的停用词,并进行词性还原处理;
将专利文本的集合和样本专利文本中每个单词作为样本集合,训练word2vec模型。
9.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置,其特征在于,添加模块,用于:
当节点之间的关系为语义链接关系时,边的权重为文本内容相似度;当两个节点之间的边不是语义链接关系,边的权重赋值为预先设置的边权重的最大值。
10.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置,其特征在于,所述第二获取模块,用于:
利用node2vec模型获取异构信息网络中各个专利节点的特征向量。
CN201910476853.5A 2019-06-03 2019-06-03 基于语义链接异构信息网络嵌入的专利推荐方法及装置 Active CN110175224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910476853.5A CN110175224B (zh) 2019-06-03 2019-06-03 基于语义链接异构信息网络嵌入的专利推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910476853.5A CN110175224B (zh) 2019-06-03 2019-06-03 基于语义链接异构信息网络嵌入的专利推荐方法及装置

Publications (2)

Publication Number Publication Date
CN110175224A true CN110175224A (zh) 2019-08-27
CN110175224B CN110175224B (zh) 2022-09-30

Family

ID=67697817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910476853.5A Active CN110175224B (zh) 2019-06-03 2019-06-03 基于语义链接异构信息网络嵌入的专利推荐方法及装置

Country Status (1)

Country Link
CN (1) CN110175224B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851714A (zh) * 2019-11-07 2020-02-28 安徽大学 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112069290A (zh) * 2020-07-27 2020-12-11 中国科学院计算机网络信息中心 基于图局部结构和文本语义相似性的学术论文推荐方法
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112529302A (zh) * 2020-12-15 2021-03-19 中国人民大学 专利申请授权成功率的预测方法、系统及电子设备
CN112948581A (zh) * 2021-02-05 2021-06-11 中国科学技术大学 专利自动分类方法、装置、电子设备及存储介质
WO2021139325A1 (zh) * 2020-01-09 2021-07-15 腾讯科技(深圳)有限公司 媒体信息推荐方法、装置、电子设备及存储介质
CN113159357A (zh) * 2020-01-07 2021-07-23 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN115641009A (zh) * 2022-11-14 2023-01-24 安徽大学 基于专利异构信息网络挖掘竞争者的方法及装置
CN116775849A (zh) * 2023-08-23 2023-09-19 成都运荔枝科技有限公司 一种线上问题处理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
US20170293686A1 (en) * 2014-12-17 2017-10-12 Bogazici Universitesi Content sensitive document ranking method by analyzing the citation contexts
CN109325132A (zh) * 2018-12-11 2019-02-12 平安科技(深圳)有限公司 专家知识推荐方法、装置、计算机设备及存储介质
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
US20170293686A1 (en) * 2014-12-17 2017-10-12 Bogazici Universitesi Content sensitive document ranking method by analyzing the citation contexts
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN109325132A (zh) * 2018-12-11 2019-02-12 平安科技(深圳)有限公司 专家知识推荐方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
傅俊英等: "基于专利异构网络的中小企业潜在合作伙伴研究――以石墨烯领域为例", 《情报学报》 *
夏冰等: "综合词位置和语义信息的专利文本相似度计算", 《计算机工程与设计》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851714A (zh) * 2019-11-07 2020-02-28 安徽大学 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN113159357B (zh) * 2020-01-07 2023-11-24 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN113159357A (zh) * 2020-01-07 2021-07-23 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
US12056176B2 (en) 2020-01-09 2024-08-06 Tencent Technology (Shenzhen) Company Limited Media information recommendation method and apparatus, electronic device, and storage medium
WO2021139325A1 (zh) * 2020-01-09 2021-07-15 腾讯科技(深圳)有限公司 媒体信息推荐方法、装置、电子设备及存储介质
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112069290A (zh) * 2020-07-27 2020-12-11 中国科学院计算机网络信息中心 基于图局部结构和文本语义相似性的学术论文推荐方法
CN112069290B (zh) * 2020-07-27 2022-07-12 中国科学院计算机网络信息中心 基于图局部结构和文本语义相似性的学术论文推荐方法
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112529302A (zh) * 2020-12-15 2021-03-19 中国人民大学 专利申请授权成功率的预测方法、系统及电子设备
CN112948581B (zh) * 2021-02-05 2022-09-06 中国科学技术大学 专利自动分类方法、装置、电子设备及存储介质
CN112948581A (zh) * 2021-02-05 2021-06-11 中国科学技术大学 专利自动分类方法、装置、电子设备及存储介质
CN115641009A (zh) * 2022-11-14 2023-01-24 安徽大学 基于专利异构信息网络挖掘竞争者的方法及装置
CN115641009B (zh) * 2022-11-14 2023-05-05 安徽大学 基于专利异构信息网络挖掘竞争者的方法及装置
CN116775849A (zh) * 2023-08-23 2023-09-19 成都运荔枝科技有限公司 一种线上问题处理系统及方法
CN116775849B (zh) * 2023-08-23 2023-10-24 成都运荔枝科技有限公司 一种线上问题处理系统及方法

Also Published As

Publication number Publication date
CN110175224B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN110175224A (zh) 基于语义链接异构信息网络嵌入的专利推荐方法及装置
Adoma et al. Comparative analyses of bert, roberta, distilbert, and xlnet for text-based emotion recognition
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
CN106610955A (zh) 基于词典的多维度情感分析方法
Pota et al. A subword-based deep learning approach for sentiment analysis of political tweets
Balli et al. Sentimental analysis of Twitter users from Turkish content with natural language processing
CN108345633A (zh) 一种自然语言处理方法及装置
Haydar et al. Sentiment extraction from bangla text: A character level supervised recurrent neural network approach
CN116501861B (zh) 基于层级bert模型与标签迁移的长文本摘要生成方法
CN115329085A (zh) 一种社交机器人分类方法及系统
Hasanati et al. Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter
CN114036938B (zh) 一种融合主题信息和词向量提取文本特征的新闻分类方法
Uddin et al. Extracting severe negative sentence pattern from bangla data via long short-term memory neural network
Krishna et al. Disaster tweet classification: a majority voting approach using machine learning algorithms
Wang et al. Beyond word2vec: Distance-graph tensor factorization for word and document embeddings
Chauhan et al. Implementing lda topic modelling technique to study user reviews in tourism
KR20200040032A (ko) 양방향 lstm―attention 기반 한국어 게시글 분류 방법
CN114817533A (zh) 基于时间特征的弹幕情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant