CN112686042A - 基于主题驱动的专利推荐方法、系统、设备及存储介质 - Google Patents

基于主题驱动的专利推荐方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN112686042A
CN112686042A CN202110030170.4A CN202110030170A CN112686042A CN 112686042 A CN112686042 A CN 112686042A CN 202110030170 A CN202110030170 A CN 202110030170A CN 112686042 A CN112686042 A CN 112686042A
Authority
CN
China
Prior art keywords
theme
model
word
inventor
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110030170.4A
Other languages
English (en)
Inventor
刘伟
杨尚伟
谭铧铧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Motorcycle (automobile) Intellectual Property Information Center
Original Assignee
Chongqing Motorcycle (automobile) Intellectual Property Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Motorcycle (automobile) Intellectual Property Information Center filed Critical Chongqing Motorcycle (automobile) Intellectual Property Information Center
Priority to CN202110030170.4A priority Critical patent/CN112686042A/zh
Publication of CN112686042A publication Critical patent/CN112686042A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于主题驱动的专利推荐方法、系统、设备及存储介质,其中,方法包括:获取候选专利和待测专利的主题信息、发明人信息和申请人信息,根据主题信息获取采样单词,将发明人、申请人和采样单词分别与主题进行关联;构建主题模型并将关联后的发明人、申请人、采样单词和主题输入,训练主题模型,构成动态主题模型,将待测专利的主题信息输入动态主题模型,获取待测专利的文本特征表示,并将其输入训练后的词嵌入模型,获取待测专利和候选专利的文本嵌入量,并计算获取候选专利的相似度,根据相似度进行排序,获取待测专利的相似专利。本发明能够扩大专利匹配的有效范围和提高单词之间的关联性,从而提高专利推荐的精确度。

Description

基于主题驱动的专利推荐方法、系统、设备及存储介质
技术领域
本发明涉及专利推荐技术领域,尤其涉及一种基于主题驱动的专利推荐方法、系统、设备及存储介质。
背景技术
专利推荐是一种推荐专利文件的技术,该专利文件包含与给定目标专利相似的内容。近年来,以协助检索专利,分析专利文件,申请新发明专利等为目的的自动专利推荐已成为一种新的流行研究领域。
目前主流的专利推荐算法主要包含以下几大类:
(1)基于内容的推荐。它主要是根据推荐专利的元数据,发现专利之间的相关性,然后基于用户以往的喜好记录,推荐给用户相似的专利。
(2)协同过滤的推荐。它主要是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的专利,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选推荐专利。
(3)基于知识的推荐。它主要是是根据用户指定的需求,系统给出设计方案,利用已有的知识,根据不同的相似度衡量方法检索出相似的专利,或依据明确定义的推荐规则的集合获取推荐专利集合进行推荐。
如上所述,目前针对专利的推荐方式主要问题有:
方法(1)简单易于实现,但是未能考虑专利内容本身的语义关联性,结果稀疏且无法按语义主题层次进行精准推荐;方法(2)推荐结果新颖扩展性强,但是由于用户评分行为信息较难以获得,存在数据稀疏和冷启动问题,同时由于用户之间的差异性,结果中可能出现一些与用户目标不相关的推荐结果,推荐结果不精准;方法(3)精准捕获用户需求能获得较好的推荐效果,但是用户本身需求存在不确定性和广泛性,无法对所有用户需求进行分析处理,导致方法难以实现和局限性。
因此,专利推荐的关键是解决专利语言术语和用户定义术语之间关键字不匹配问题。目前解决关键字不匹配问题的方法有三种:
(1)基于关键字的方法,例如查询关键字提取或查询扩展,以通过自动扩展关键字列表来匹配关键字或短语以找到相关专利。现有的专利搜索和分析系统,例如GooglePatent1,Patentics2,PriorArtSearch3等,都是基于这些方法的。在学术领域,引入了查询关键词提取技术来匹配单词或短语以找到相关专利。对于具有相同含义的单词问题,已经提出了一种使用词库自动将相似词包含在关键词中的方法,但是该方法需要词库的手动管理和扩展。响应于此,已经对相关反馈进行了初步搜索,并在初始搜索中使用前K个搜索结果来扩展关键字集。该方法仍然需要筛选初始搜索结果以调整搜索结果并获得具有相同含义的更准确的单词。对于这个问题,有人使用WordNet和Wikipedia作为知识库,以基于语义的概念丰富初始查询。此外,有科学家开发并验证基于文本的专利相似性度量,这也是基于关键字的专利相似性度量。不考虑语义的基于关键词的专利推荐有很大的局限性。最重要的一点是查询的专利中可能只有很少或没有相同的关键字,但是两个专利文件之间的主要思想可能非常相似。
(2)主题模型能够自动提取专利的关键字和主要思想,用于相关专利推荐。有人研究了如何将文本转换为基于单词袋(BOW)的单词列表或矢量数字列表,并通过挖掘全文所暗示的主题来推荐专利。有人研究了如何使用潜在狄利克雷分配和狄利克雷多项式回归来描述专利文件并分析其相似性。主题模型还忽略了单词的共现信息;因此,所获得的语义信息不够准确。
(3)嵌入方法不仅考虑BOW中的词频,还考虑单词共现信息,可以提取文本所隐含的语义信息并返回表示专利文献语义含义的嵌入矩阵。有人研究了使用Word2vec在搜索结果中自动识别用于扩展查询的相关单词的可能性。有人研究如何使用Word2vec或其他模型提取特征向量以获取专利中文本的语义信息,并最终使用特征向量来搜索或推荐专利。嵌入代表查询专利的单词,然后基于矢量的表示分析检索到的专利与查询专利之间的语义相似性。试图将卷积神经网络与词嵌入方法结合起来以发现专利,嵌入模型以一个嵌入结果学习每个单词或文档,这导致无法在不同上下文中区分同一单词的多种含义。
综上所述,现有技术中的专利推荐方法不能够利用专利的异质性增强单词之间的区别或关联,导致专利推荐的精确度低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于主题驱动的专利推荐方法、系统、设备及存储介质。
基于主题驱动的专利推荐方法,包括以下步骤:对候选专利和待测专利进行预处理,分别获取候选专利和待测专利的主题信息、发明人信息和申请人信息;对候选专利的所述主题信息进行采样,获取采样单词;将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取申请人-主题分布、发明人-主题分布和采样单词-主题分布;构建主题模型,向所述主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型;将待测专利的主题信息输入所述动态主题模型,获取待测专利的文本特征表示;构建词嵌入模型,通过候选专利的采样单词对所述词嵌入模型进行训练,获取训练后的词嵌入模型;将所述待测专利的文本特征表示输入所述训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量;根据所述待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利。
在其中一个实施例中,所述将候选专利的申请人、发明人和采样单词分别与主题进行关联,具体包括:将每个专利和发明人采用均匀分布进行关联,将发明人和主题、采样单词和主题、申请人和主题均采用多项分布进行关联。
在其中一个实施例中,在所述将候选专利的申请人、发明人和采样单词分别与主题进行关联之后,还包括:根据申请人、发明人和采样单词与主题之间的分布,将候选专利D的对数-似然函数写为:
Figure BDA0002891650140000031
其中,D表示候选专利,包括有若干专利d,x表示发明人,z表示主题,w表示采样单词,c表示申请人,θ表示发明人-主题分布,φ表示主题-采样单词分布,ψ表示主题-申请人分布,a为常数,Nd表示专利d中的字数,Ad表示专利d中的发明人数量,mxz表示发明人x在主题z出现的次数,
Figure BDA0002891650140000032
表示采样单词wj在主题z出现的次数,nzc表示申请人c在主题z出现的次数。
在其中一个实施例中,在所述构建主题模型,向所述主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型,具体包括:在特定时间间隔内将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取多个相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布;将相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入主题模型中,对主题模型进行训练;在相邻时间间隔中,将前一时间的主题模型作为当前时间的主题模型的先验,获取动态主题模型。
在其中一个实施例中,所述将相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入主题模型中,对主题模型进行训练,还包括:通过吉布斯采样算法对所述主题模型进行参数估计。
在其中一个实施例中,通过所述动态主题模型,分别获取发明人、采样单词和申请人在主题z中出现的概率,公式为:
Figure BDA0002891650140000041
Figure BDA0002891650140000042
Figure BDA0002891650140000043
其中,
Figure BDA0002891650140000044
表示发明人在主题z中出现的概率,
Figure BDA0002891650140000045
表示采样单词在主题z中出现的概率,
Figure BDA0002891650140000046
表示申请人c在主题z中出现的概率,τ表示用来控制前一时间的主题模型对当前时间的主题模型的影响参数,α、β和μ均为超参数,α=50/K,β=0.01,μ=0.01。
在其中一个实施例中,一个发明人在主题z中出现的概率,采用的公式为:
Figure BDA0002891650140000047
其中,Ad表示专利d中的发明人数量,α、β和μ均为超参数。
基于主题驱动的专利推荐系统,包括:预处理模块,用于对候选专利和待测专利进行预处理,分别获取候选专利和待测专利的主题信息、发明人信息、申请人信息;主题采样模块,用于对候选专利的所述主题信息进行采样,获取采样单词;主题关联模块,用于将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取申请人-主题分布、发明人-主题分布和采样单词-主题分布;主题模型构建模块,用于构建主题模型,向所述主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型;特征获取模块,用于将待测专利的主题信息输入所述动态主题模型,获取待测专利的文本特征表示;词嵌入模型构建模块,用于构建词嵌入模型,通过候选专利的采样单词对所述词嵌入模型进行训练,获取训练后的词嵌入模型;嵌入量获取模块,用于将所述待测专利的文本特征表示输入所述训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量;相似度计算模块,用于根据所述待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利。
一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各个实施例中所述的基于主题驱动的专利推荐方法的步骤。
一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各个实施例中所述的基于主题驱动的专利推荐方法的步骤。
相比于现有技术,本发明的优点及有益效果在于:
1、通过发明人、申请人和采样单词分别与主题之间的关系,通过专利与专利之间的关系,扩大专利匹配的有效范围,提高专利推荐的精确度。
2、通过词嵌入模型,在不同的上下文中同时区分同一单词的含义,并关联多个表达相同含义的单词,利用专利之间的异质性,增加专利上下文中采样单词的语义,提高单词之间的关联性,从而提高专利推荐的精确度。
附图说明
图1为一个实施例中基于主题驱动的专利推荐方法的流程示意图;
图2为一个实施例中基于主题驱动的专利推荐系统的结构示意图;
图3为一个实施例中设备的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在一个实施例中,如图1所示,提供了一种基于主题驱动的专利推荐方法,包括以下步骤:
步骤S101,对候选专利和待测专利进行预处理,分别获取候选专利和待测专利的主题信息、发明人信息和申请人信息。
具体地,候选专利可以包括数据库中的多个专利,分别对候选专利和待测专利进行预处理,预处理可以是分词处理,获取候选专利单词集和待测专利单词集,然后根据候选专利和待测专利的单词集中提取候选专利和待测专利的主题信息、发明人信息和申请人信息。
其中,主题信息中包含有该专利的主题,主题可以是专利文本中撰写的专利主题或者是该专利对应的专利分类,发明人信息中包含有该专利的所有发明人,申请人信息包含有该专利的所有申请人。
步骤S102,对候选专利的主题信息进行采样,获取采样单词。
具体地,主题信息包括有专利文本中撰写的专利主题和/或是该专利对应的专利分类,根据主题信息进行采样,获取采样单词,采样单词可以有若干个。
步骤S103,将候选专利的申请人、发明人和采样单词分别与主题进行关联,分别获取申请人-主题分布、发明人-主题分布和采样单词-主题分布。
具体地,由于申请人对其经营范围内的技术较为精通,因此,为了给核心技术提供更加全面有效的保护,就很可能会在同一主题范围内申请多件相关专利,因此,可以通过获取申请人-主题分布,增强相同申请人和特定主题之间的关联性。同理,获取发明人-主题分布,也可以增强相同发明人和特定主题之间的关联性。
此外,相同的主题范围内,通常采用的是近似含义的采样单词组成,从而获取采样单词的近义词,通过获取采样单词-主题分布,增强词与词之间的关联性。
步骤S104,构建主题模型,向主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型。
具体地,构建主题模型,将相同时间间隔内获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入该主题模型,对主题模型进行训练。在相邻时间间隔内,将前一时间训练好的主题模型作为当前时间训练好的主题模型的先验,从而提高主题模型的计算精确度。
具体地,可以采用高斯分布、狄利克雷分布或伽玛分布作为先验分布,其中,采用高斯分布的效果最好。
步骤S105,将待测专利的主题信息输入动态主题模型,获取待测专利的文本特征表示。
具体地,将待测专利的主题信息输入动态主题模型,根据动态主题模型进行计算,获取待测专利的文本特征表示。
步骤S106,构建词嵌入模型,通过候选专利的采样单词对词嵌入模型进行训练,获取训练后的词嵌入模型。
具体地,对于每个采样过程,由于申请人-主题分布是针对该专利的所有申请人的,因此当对结果进行更新时,有必要考虑一个专利对应多个申请人的情况,可以通过构建词嵌入模型,通过候选专利的采样单词对词嵌入模型进行训练,获取训练后的词嵌入模型,通过词嵌入模型实现主题模型。
步骤S107,将待测专利的文本特征表示输入训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量。
具体地,将待测专利的文本特征表示输入训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量。
步骤S108,根据待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利。
具体地,根据待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据候选专利的相似度大小对候选专利进行排序,并根据排序由大到小显示对应的候选专利,获取待测专利的相似专利。
其中,可以采用TOP-K推荐方法对相似专利进行排序,只显示相似度在前K个的候选专利,作为待测专利的相似专利。
在本实施例中,通过对候选专利和待测专利进行预处理,获取候选专利和待测专利的主题信息、发明人信息和申请人信息,对候选专利的主题信息进行采样,获取采样单词,将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取申请人-主题分布、发明人-主题分布和采样单词-主题分布,构建主题模型,并输入相同时间间隔内获取申请人-主题分布、发明人-主题分布和采样单词-主题分布,对主题模型进行训练,获取动态主题模型,将待测专利的主题信息输入动态主题模型获取待测专利的文本特征表示,构建词嵌入模型,通过候选专利的采样单词对词嵌入模型进行训练,获取训练后的词嵌入模型,并输入待测专利的文本特征表示,获取待测专利和候选专利的文本嵌入量,根据待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利,能够根据发明人、申请人和采样单词分别与主题之间的关系和词嵌入模型,增加专利上下文中采样单词的语义,提高专利推荐的精确度。
其中,步骤S103具体包括:将每个专利和发明人采用均匀分布进行关联,将发明人和主题、采样单词和主题、申请人和主题均采用多项分布进行关联。
其中,步骤S103之后,还包括:根据申请人、发明人和采样单词与主题之间的分布,将候选专利D的对数-似然函数写为:
Figure BDA0002891650140000081
其中,D表示候选专利,包括有若干专利d,x表示发明人,z表示主题,w表示采样单词,c表示申请人,θ表示发明人-主题分布,φ表示主题-采样单词分布,ψ表示主题-申请人分布,a为常数,Nd表示专利d中的字数,Ad表示专利d中的发明人数量,mxz表示发明人x在主题z出现的次数,
Figure BDA0002891650140000082
表示采样单词wj在主题z出现的次数,nzc表示申请人c在主题z出现的次数。
具体地,通过上述对数-似然函数能够根据发明人、采样单词和申请人与主题之间的分布关系推断出专利在发明人、主题、采样单词和申请人各个部分的概率。
其中,步骤S104具体包括:在特定时间间隔内将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取多个相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布;将相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入主题模型中,对主题模型进行训练;在相邻时间间隔中,将前一时间的主题模型作为当前时间的主题模型的先验,获取动态主题模型。
具体地,可以预先设置时间间隔,在相同时间间隔内获取申请人-主题分布、发明人-主题分布和采样单词-主题分布,将其输入构建好的主题模型中,对主题模型进行训练;在相邻时间间隔中,将前一时间的主题模型作为当前时间的主题模型的先验,从而获取动态主题模型,先验具有平滑效应,能够使得相邻时间间隔的主题模型相似,从而构成动态主题模型。
其中,还包括:通过吉布斯采样算法对主题模型进行参数估计。
具体地,为了学习动态主题模型,可以使用吉布斯采样算法对主题模型进行参数估计。
具体地,通过所述动态主题模型,分别获取发明人、采样单词和申请人在主题z中出现的概率,公式为:
Figure BDA0002891650140000091
Figure BDA0002891650140000092
Figure BDA0002891650140000093
其中,
Figure BDA0002891650140000094
表示发明人在主题z中出现的概率,
Figure BDA0002891650140000095
表示采样单词在主题z中出现的概率,
Figure BDA0002891650140000096
表示申请人c在主题z中出现的概率,τ表示用来控制前一次的主题模型对当前时间的主题模型的影响参数,α、β和μ均为超参数,α=50/K,β=0.01,μ=0.01。
具体地,利用动态主题模型,可以推断一个发明人x在主题z时的概率,一个采样单词w在主题z时的概率,以及一个申请人c在主题z时的概率。
其中,α、β和μ可以预先进行设置
其中,一个发明人在主题z中出现的概率:
Figure BDA0002891650140000097
其中,Ad表示专利d中的发明人数量,α、β和μ均为超参数。
具体地,由于每个抽样过程,发明人-主题的分布是针对所有发明人的,因此当用候选专利进行更新时,有必要考虑一个专利对应多个发明人的情况,通过式(5)计算一个发明人具有对应主题的专利的概率。
如图2所示,提供了一种基于主题驱动的专利推荐系统20,包括:预处理模块21、主题采样模块22、主题关联模块23、主题模型构建模块24、特征获取模块25、词嵌入模型构建模块26、嵌入量获取模块27和相似度计算模块28,其中:
预处理模块21,用于对候选专利和待测专利进行预处理,分别获取候选专利和待测专利的主题信息、发明人信息和申请人信息;
主题采样模块22,用于对候选专利的所述主题信息进行采样,获取采样单词;
主题关联模块23,用于将候选专利的申请人、发明人和采样单词分别与主题进行关联,分别获取申请人-主题分布、发明人-主题分布和采样单词-主题分布;
主题模型构建模块24,用于构建主题模型,向主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型;
特征获取模块25,用于将待测专利的主题信息输入动态主题模型,获取待测专利的文本特征表示;
词嵌入模型构建模块26,用于构建词嵌入模型,通过候选专利的采样单词对词嵌入模型进行训练,获取训练后的词嵌入模型;
嵌入量获取模块27,用于将待测专利的文本特性表示输入所述训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量;
相似度计算模块28,用于根据待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利。
在一个实施例中,主题模型构建模块24还用于:在特定时间间隔内将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取多个相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布;将相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入主题模型中,对主题模型进行训练;在相邻时间间隔中,将前一时间的主题模型作为当前时间的主题模型的先验,获取动态主题模型。
在一个实施例中,提供了一种设备,该设备可以是服务器,其内部结构图可以如图3所示。该设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该设备的数据库用于存储配置模板,还可用于存储目标网页数据。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于主题驱动的专利推荐方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还可以提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法,所述计算机可以为上述提到的基于主题驱动的专利推荐系统的一部分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.基于主题驱动的专利推荐方法,其特征在于,包括以下步骤:
对候选专利和待测专利进行预处理,分别获取候选专利和待测专利的主题信息、发明人信息和申请人信息;
对候选专利的所述主题信息进行采样,获取采样单词;
将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取申请人-主题分布、发明人-主题分布和采样单词-主题分布;
构建主题模型,向所述主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型;
将待测专利的主题信息输入所述动态主题模型,获取待测专利的文本特征表示;
构建词嵌入模型,通过候选专利的采样单词对所述词嵌入模型进行训练,获取训练后的词嵌入模型;
将所述待测专利的文本特征表示输入所述训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量;
根据所述待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利。
2.根据权利要求1所述的基于主题驱动的专利推荐方法,其特征在于,所述将候选专利的申请人、发明人和采样单词分别与主题进行关联,具体包括:将每个专利和发明人采用均匀分布进行关联,将发明人和主题、采样单词和主题、申请人和主题均采用多项分布进行关联。
3.根据权利要求1所述的基于主题驱动的专利推荐方法,其特征在于,在所述将候选专利的申请人、发明人和采样单词分别与主题进行关联之后,还包括:根据申请人、发明人和采样单词与主题之间的分布,将候选专利D的对数-似然函数写为:
Figure FDA0002891650130000011
其中,D表示候选专利,包括有若干专利d,x表示发明人,z表示主题,w表示采样单词,c表示申请人,θ表示发明人-主题分布,φ表示主题-采样单词分布,ψ表示主题-申请人分布,a为常数,Nd表示专利d中的字数,Ad表示专利d中的发明人数量,mxz表示发明人x在主题z出现的次数,nzwj表示采样单词wj在主题z出现的次数,nzc表示申请人c在主题z出现的次数。
4.根据权利要求1所述的基于主题驱动的专利推荐方法,其特征在于,在所述构建主题模型,向所述主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型,具体包括:
在特定时间间隔内将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取多个相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布;
将相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入主题模型中,对主题模型进行训练;
在相邻时间间隔中,将前一时间的主题模型作为当前时间的主题模型的先验,获取动态主题模型。
5.根据权利要求4所述的基于主题驱动的专利推荐方法,其特征在于,所述将相同时间间隔内的申请人-主题分布、发明人-主题分布和采样单词-主题分布输入主题模型中,对主题模型进行训练,还包括:通过吉布斯采样算法对所述主题模型进行参数估计。
6.根据权利要求5所述的基于主题驱动的专利推荐方法,其特征在于,通过所述动态主题模型,分别获取发明人、采样单词和申请人在主题z中出现的概率,公式为:
Figure FDA0002891650130000021
Figure FDA0002891650130000022
Figure FDA0002891650130000023
其中,
Figure FDA0002891650130000024
表示发明人在主题z中出现的概率,
Figure FDA0002891650130000025
表示采样单词在主题z中出现的概率,
Figure FDA0002891650130000026
表示申请人c在主题z中出现的概率,τ表示用来控制前一时间的主题模型对当前时间的主题模型的影响参数,α、β和μ均为超参数,α=50/K,β=0.01,μ=0.01。
7.根据权利要求6所述的基于主题驱动的专利推荐方法,其特征在于,一个发明人在主题z中出现的概率,采用的公式为:
Figure FDA0002891650130000031
其中,Ad表示专利d中的发明人数量,α、β和μ均为超参数。
8.基于主题驱动的专利推荐系统,其特征在于,包括:
预处理模块,用于对候选专利和待测专利进行预处理,分别获取候选专利和待测专利的主题信息、发明人信息、申请人信息;
主题采样模块,用于对候选专利的所述主题信息进行采样,获取采样单词;
主题关联模块,用于将候选专利的申请人、发明人和采样单词分别与主题进行关联,获取申请人-主题分布、发明人-主题分布和采样单词-主题分布;
主题模型构建模块,用于构建主题模型,向所述主题模型中输入相同时间间隔获取的申请人-主题分布、发明人-主题分布和采样单词-主题分布进行训练,获取动态主题模型;
特征获取模块,用于将待测专利的主题信息输入所述动态主题模型,获取待测专利的文本特征表示;
词嵌入模型构建模块,用于构建词嵌入模型,通过候选专利的采样单词对所述词嵌入模型进行训练,获取训练后的词嵌入模型;
嵌入量获取模块,用于将所述待测专利的文本特征表示输入所述训练后的词嵌入模型,获取待测专利的文本嵌入量和候选专利的文本嵌入量;
相似度计算模块,用于根据所述待测专利的文本嵌入量计算与候选专利的文本嵌入量之间的相似度,根据相似度对候选专利进行排序,并根据排序显示对应的候选专利,获取待测专利的相似专利。
9.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110030170.4A 2021-01-11 2021-01-11 基于主题驱动的专利推荐方法、系统、设备及存储介质 Withdrawn CN112686042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110030170.4A CN112686042A (zh) 2021-01-11 2021-01-11 基于主题驱动的专利推荐方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110030170.4A CN112686042A (zh) 2021-01-11 2021-01-11 基于主题驱动的专利推荐方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112686042A true CN112686042A (zh) 2021-04-20

Family

ID=75457195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110030170.4A Withdrawn CN112686042A (zh) 2021-01-11 2021-01-11 基于主题驱动的专利推荐方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112686042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668236A (zh) * 2024-01-25 2024-03-08 山东省标准化研究院(Wto/Tbt山东咨询工作站) 一种专利标准融合系统的分析方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668236A (zh) * 2024-01-25 2024-03-08 山东省标准化研究院(Wto/Tbt山东咨询工作站) 一种专利标准融合系统的分析方法、系统及存储介质
CN117668236B (zh) * 2024-01-25 2024-04-16 山东省标准化研究院(Wto/Tbt山东咨询工作站) 一种专利标准融合系统的分析方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN106874279B (zh) 生成应用类别标签的方法及装置
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
US9645987B2 (en) Topic extraction and video association
US20080319973A1 (en) Recommending content using discriminatively trained document similarity
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN106708929B (zh) 视频节目的搜索方法和装置
CN112559684A (zh) 一种关键词提取及信息检索方法
WO2016114790A1 (en) Reading difficulty level based resource recommendation
Van Atteveldt et al. Studying political decision making with automatic text analysis
CN106570196B (zh) 视频节目的搜索方法和装置
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
CN113127736A (zh) 一种基于搜索历史记录的分类推荐方法及装置
CN112686042A (zh) 基于主题驱动的专利推荐方法、系统、设备及存储介质
Alzhrani Political Ideology Detection of News Articles Using Deep Neural Networks.
WO2021150313A1 (en) Contrastive learning for question answering (qa)
Ezzat et al. Topicanalyzer: A system for unsupervised multi-label arabic topic categorization
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Menaha et al. Finding experts in community question answering system using trie string matching algorithm with domain knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210420