CN109740947A - 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 - Google Patents
基于专利数据的专家挖掘方法、系统、存储介质及电子终端 Download PDFInfo
- Publication number
- CN109740947A CN109740947A CN201910015925.6A CN201910015925A CN109740947A CN 109740947 A CN109740947 A CN 109740947A CN 201910015925 A CN201910015925 A CN 201910015925A CN 109740947 A CN109740947 A CN 109740947A
- Authority
- CN
- China
- Prior art keywords
- expert
- data
- subdomains
- digging
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于专利数据的专家挖掘方法、系统、存储介质及电子终端,其具体包括:构建目标领域的专利池;建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。本发明基于人工智能技术对专利数据进行分析和挖掘,从而能够高效获得特定领域全球科技专家信息,大量减少人工标注成本,大幅降低目标专利漏检的可能性,且解决专利IPC分类不够贴合行业的问题。
Description
技术领域
本发明涉及数据挖掘领域,特别是涉及基于专利数据的专家挖掘方法、系统、存储介质及电子终端。
背景技术
人才作为国家发展的核心竞争力,一直以来都是世界各国竞相争夺的焦点。人才挖掘作为数据挖掘在业务方向上的一个分支,也具有属于统计学、机器学习、数据库、人工智能等技术学科交叉的特点,特别是对于科技专家类人才的挖掘,更是需要人工智能技术予以辅助。
用于挖掘科技专家的数据来源非常广泛,例如科技文献数据、专利数据或者获奖信息等等。其中,专利数据因其能够体现出科技专家的创新能力与知识财产保护意识而被广受青睐。
但是,现有技术就如何利用专利数据挖掘科技人才这方面做的还不够智能,导致无法有效、准确且快速地完成科技专家的挖掘任务。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供基于专利数据的专家挖掘方法、系统、存储介质及电子终端,用于解决现有技术中专利IPC分类不够贴合行业,无法有效挖掘专家的问题。
为实现上述目的及其他相关目的,本发明提供一种基于专利数据的专家挖掘方法,其包括:S1:构建目标领域的专利池;S2:建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;S3:对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。
于本发明的一实施例中,步骤S1包括:S11:扩展适用于所述目标领域的目标领域检索词以形成检索词集合;S12:利用所述检索词集合中的检索词进行专利检索,以构建目标领域的专利池。
于本发明的一实施例中,在执行步骤S12之前,先执行:滤除所述检索词集合中的噪声数据,以获得滤除噪音数据后的检索词集合。
于本发明的一实施例中,步骤S11包括:基于词嵌入算法将基于所述目标领域检索词检索得到的专利文本转换为词向量;计算各词向量与所述目标领域检索词之间的相似度,并将其中符合相似度要求的词向量所对应的词汇放入所述检索词集合中。
于本发明的一实施例中,步骤S11包括:利用外部语义资源获取所述目标领域检索词的关联词;所述关联词包括上位词和/或下位词。
于本发明的一实施例中,步骤S13包括:利用滤除噪音数据后的检索词集合中的检索词进行专利摘要检索;按照专利号将检索结果中隶属于同一专利的多个专利版本中与所构建的专利池关联度不符合要求的专利版本排除。
于本发明的一实施例中,步骤S2包括:S21:通过专利IPC分类号对专利池中的各专利做初步分类;S22:从初步分类结果中抽取多个种子专利;S23:按照预设分支方向对所述种子专利进行标注,并利用词嵌入算法将种子专利的专利摘要转换为相应的专利向量;S24:利用标注结果和专利向量并基于监督学习算法建立专利领域分类模型。
于本发明的一实施例中,步骤S3包括:对各子领域中的各项专利进行价值评价以获得每一项专利相应的价值分值;S32:计算该子领域中隶属于同一专家的多项专利的价值分值平均值,该计算结果值用作挖掘该子领域中专家的衡量标准;S33:基于匹配算法将名称表述方式不同的专利申请人进行标准化处理。
于本发明的一实施例中,步骤S31包括:基于Patent Rank算法对中文专利进行价值评价;其中,所述价值评价包括法律价值评价、技术价值评价或经济价值评价中的任一种或多种组合。
于本发明的一实施例中,步骤S31包括:利用引证与被引证得分以及多国申请数量得分,计算英文专利的价值分值;所述英文专利的价值分值被表示为:
S(p)=k·PR(p)+(1-k)·F(p);其中,PR(p)标识引证与被引证获得的得分k表示调整权重的参数;F(p)表示多国申请数量得分,其被表示为基于参数f(c)来进行分段的且与参数b(c)相关的分段函数;其中,参数f(c)表示多国专利局专利申请国数,参数b(c)表示多国专利局是否申请别国专利。
为实现上述目的及其他相关目的,本发明提供一种基于专利数据的专家挖掘系统,包括:专利池构建模块,用于构建目标领域的专利池;模型建立模块,用于建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;评价及挖掘模块,用于对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。
为实现上述目的及其他相关目的,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述专家挖掘方法。
为实现上述目的及其他相关目的,本发明提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述专家挖掘方法。
如上所述,本发明的基于专利数据的专家挖掘方法、系统、存储介质及电子终端,具有以下有益效果:本发明基于人工智能技术对专利数据进行分析和挖掘,从而能够高效获得特定领域全球科技专家信息,大量减少人工标注成本,大幅降低目标专利漏检的可能性,且解决专利IPC分类不够贴合行业的问题。此外,本发明融合人工智能技术和专利大数据进行专家挖掘,利用本发明提供的技术方案不仅能够压缩挖掘专家的成本,还能够快速定位全球顶尖人才专家,准确获取专家信息资源,建立大规模专家库平台,为人才引进和储备提供强有力的技术后盾。
附图说明
图1a显示为本发明一实施例中基于专利数据的专家挖掘方法的流程示意图。
图1b显示为本发明一实施例中构建目标领域专利池的流程示意图。
图2显示为本发明一实施例中建立专利领域分类模型的流程示意图。
图3显示为本发明一实施例中评价并挖掘专家的流程示意图。
图4显示为本发明一实施例中基于专利数据的专家挖掘系统的示意图。
图5显示为本发明一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
再者,如同在本文中所使用的,单数形式“一”、““一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提供基于专利数据的专家挖掘方法、系统、存储介质及电子终端,本发明基于人工智能技术对专利数据进行分析和挖掘,从而能够高效获得特定领域全球科技专家信息,大量减少人工标注成本,大幅降低目标专利漏检的可能性,且解决专利IPC分类不够贴合行业的问题。
专利数据作为科技专家的依据来源,具有丰富的半结构化数据特性,主要包括如下三点:其一,结构化的著录项信息,包括标题、IPC分类号、申请人信息、发明人信息等等;其二,非结构化的文本信息,包括摘要、技术领域、背景技术、发明内容、说明书附图等等;其三,其它结构化信息,包括法律状态、引证与被引证信息、同族专利等等。
从数据资源利用的角度看,除了上述半结构化数据特性便于数据挖掘这一大优势之外,专利数据还具有如下多种优势:规范的语言表述更易于进行自然语言处理,海量专利数据足以检验算法和模型的性能,基于同族专利和工人翻译而形成的天然双语平行语料库,可用于将中文适用于英文模型。下文,将结合具体的实施例说明本发明技术方案的工作原理。
如图1a所示,展示本发明一实施例中基于专利数据的专家挖掘方法的流程示意图。需要指出的是,本发明中的方法可可应用于智能终端或者控制器;所述智能终端例如可采用台式电脑、本地服务器或者云端服务器等固定智能终端,也可采用手机、pad电脑、笔记本电脑、智能手环等移动智能终端;所述控制器例如可采用MCU控制器、FPGA控制器、DSP控制器、SoC控制器或者ARM控制器等等。所述基于专利数据的专家挖掘方法具体包括:
在步骤S1中,构建目标领域的专利池。于本实施例中,为构建目标领域的专利池,需具体执行如图1b所示的步骤S11、步骤S12、步骤S13。
在步骤S11中,扩展适用于所述目标领域的目标领域检索词以形成检索词集合。扩展检索词主要是针对传统专利检索行业中容易产生漏检问题而设置的环节。举例来说,摘要字段中包含“人工智能”的专利在全球范围内目前只能检索到7000余件,但事实上与人工智能的专利早已远超60万件。这是因为专利的记述内容更偏向具体的技术点,比起像关键字“人工智能”这样较为抽象的概念,专利中更倾向于出现类似于“机器学习”、“深度学习”或者“机器学习”分支方向中的一个具体方法,例如“支持向量机”等词汇。因此,扩展关键词成为构建目标领域的专利池这一任务中极为重要的一步。
在一实施例中,采用相似词汇作为扩展的检索词,具体包括:基于词嵌入算法将基于所述目标领域检索词检索得到的专利文本转换为词向量;计算各词向量与所述目标领域检索词之间的相似度,并将其中符合相似度要求的词向量所对应的词汇放入所述检索词集合中。
所述词嵌入技术是自然语言处理(NLP)中语言模型与表征学习技术的统称,概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,因词嵌入技术已为现有,故不再赘述。
在一实施例中,采用上位词和/或下位词作为扩展的检索词,具体包括:利用外部语义资源获取所述目标领域检索词的关联词;所述关联词包括上位词和/或下位词。以维基百科作为所述外部语义资源为例,借助维基百科等外部语义资源,利用其被层级化的分类数据和文本中的is-a关系抽取目标领域关键词的上、下位词汇进行扩充,所述is-a关系是指类的父子继承关系。
在步骤S12中:利用所述检索词集合中的检索词进行专利检索,以构建目标领域的专利池,其具体包括:利用滤除噪音数据后的检索词集合中的检索词进行专利摘要检索;按照专利号将检索结果中隶属于同一专利的多个专利版本中与所构建的专利池关联度不符合要求的专利版本排除。
优选的,在执行步骤S12之前,先执行:滤除所述检索词集合中的噪声数据,以获得滤除噪音数据后的检索词集合。扩展后的检索词通常包含有重复词条、同义词条或者切词错误等噪音数据,故需对扩展后的检索词汇做进一步的整理。整理内容包括去除重复词条、合并同义词条、修正切词错误等等。
具体的,通过收集、整理过的检索词集合,对全球专利数据进行抓取并初步建立目标领域相关的专利池。于本实施例中,考虑到发明内容、实施例等字段的文本数据噪音大,故仅对摘要部分进行检索。另外值得注意的是,一篇专利可能含有公开、公告两个或以上版本,这些多版本数据需在建立专利池的阶段进行修正和排除,以免影响后续的建模。
在步骤S2中:建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型。
专利的著录项目信息中包含有IPC分类号信息,但该分类是以专利所涉及的科技原理等要素由专利审查员进行人工分类的,存在与实际产品、技术的领域有偏差的问题;此外,可作为专利领域判别科技人才的另一重要依据的技术领域,也由于各专利撰写粒度的不同而无法满足要求。例如,同样属于脑科学领域的两篇专利,可能出现“本发明涉及脑科学应用技术”(申请号:201310111544.0)和“本发明涉及脑-机接口”(申请号:201210543210.6)。
专利领域判别的过程本质是对专利进行分类的一个过程,利用人工智能技术对数据进行分类的方式主要有无监督学习算法和监督学习算法,所述无监督学习算法包括K-means、DBSCAN等等,所述监督学习算法包括朴素贝叶斯(Bayes)、支持向量机(Support Vector Machine,SVM)等等。下文以图2所示的步骤S21~S24中支持向量机SVM算法为例解释说明专利领域分类的方式。
在步骤S21中:通过专利IPC分类号对专利池中的各专利做初步分类,即通过IPC分类号将专利池中的专利按照子领域进行初步分类。
在步骤S22中:从初步分类结果中抽取多个种子专利。优选的,在考虑数据量和偏离度等要素的基础上抽取种子专利,以减少生成的专利模型因样本少而导致的过拟合影响。
在步骤S23中:按照预设分支方向对所述种子专利进行标注,并利用词嵌入算法将种子专利的专利摘要转换为相应的专利向量。需要说明的是,对种子专利进行标注的任务可手工完成也可通过自动标注完成,例如可采用基于规则的标注算法等等。
在步骤S24中:利用标注结果和专利向量并基于监督学习算法建立专利领域分类模型。所述监督学习算法是一种从标签化训练数据集中推断出函数的机器学习算法,监督学习算法的类型包括支持向量机SVM算法、线性回归算法、朴素贝叶斯算法或者决策树算法等等。
以支持向量机SVM算法为例,基于词嵌入技术将专利摘要转换为专利向量,并和人工标注结果结合,通过SVM分类器建立专利领域分类模型。其中,专利向量被表示为:N表示通过计算TF-IDF值所获得的得分最高的前N个名词或名词短语,Vk表示第k个单词的向量表示。
在一实施例中,建立专利领域分类模型后还需测评并调整所述专利领域分类模型,将该模型应用于专利池中的专利。需要说明的是,本步骤中的专利主要是指中文专利,即该模型在进行版本翻译前适用于中文专利。通过平行语料库的翻译版本,将所述专利领域分类模型应用于专利池中的非中文专利,例如英文专利。
在步骤S3中:对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。为评价并挖掘专家,需具体执行下文S31~S32中各个步骤。
在步骤S31中:对各子领域中的各项专利进行价值评价以获得每一项专利相应的价值分值。
对于中文专利,可采用知识产权行业权威算法PatentRank算法,从专利的法律价值、技术价值、经济价值三个维度进行分值化计算。
对于非中文专利,以英文为例,由于PatentRank算法仅适用于中文专利,且经由各国专利局交换而来的各国专利英文版本仅著录项信息较为全面和完整,故本实施例中将英文专利采用引证与被引证得分以及多国申请数量得分这两个维度的加权平均来进行评价。其中,引证与被引证得分主要参考PageRank算法,而多国申请数量得分计算公式被表示为:S(p)=k·PR(p)+(1-k)·F(p);其中,S(p)为英文专利的综合得分,PR(p)为通过引证与被引证获得的得分,F(p)为通过多国申请数量得分,k为调整权重的参数。
在一实施例中,PR(p)表示引证与被引证获得的得分,k表示调整权重的参数;F(p)表示多国申请数量得分,其被表示为基于参数f(c)来进行分段的且与参数b(c)相关的分段函数;其中,参数f(c)表示多国专利局专利申请国数,参数b(c)表示多国专利局是否申请别国专利。
具体的,F(p)被表示为:b(c)代表多国专利局是否申请别国专利,若有申请则b(c)=1,若无申请则b(c)=0。于本实施例中,f(c)为五国专利局(中国、美国、欧洲专利局、日本、韩国)专利申请国数。
在步骤S32中:计算该子领域中隶属于同一专家的多项专利的价值分值平均值,该计算结果值用作挖掘该子领域中专家的衡量标准。
评价完的专利按照<申请人,专家>的维度进行聚合,将专家各专利得分的平均值作为该专家的得分,需指出的是,专利的申请人可以是工作单位也可是个人申请,视不同专利而定。
在步骤S33中:基于匹配算法将名称表述方式不同的专利申请人进行标准化处理。
在对申请人进行聚合的过程中,通常存在申请人表述不统一的情况或者录入错误等情况,特别当申请人是工作单位时,单位名称不统一的情况较多。例如“宝洁公司”在不同的专利中存在“P&G公司”和“普罗格特-甘布尔公司”等情况,再例如“鸿海精密工业股份有限公司”被误录入为“鸭海精密工业股份有限公司”等等。
因此,本实施例利用在姓名和实体命名匹配任务中具有较大优势的Jaro-WinklerDistance算法与手工作业相结合的方法,事先将不同表述的申请人进行标准化处理,从而避免申请人因表述不统一或录入错误等情况而造成的评价失真。
优选的,通过设置专利数量阈值进行专家初步筛选,再根据专家得分由高到低排序以便按照需求挑选出符合要求的相应人数的专家,以避免因专利数量过少而导致数据偏离,产生误判专家领域或专家得分等情况。
如图4所示,展示本发明一实施例中基于专利数据的专家挖掘系统的结构示意图。所述系统包括专利池构建模块41、模型建立模块42、评价及挖掘模块43,所述专利池构建模块41用于构建目标领域的专利池,所述模型建立模块42用于建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型,所述评价及挖掘模块43用于对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,模型建立模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上模型建立模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图4所示,展示本发明一实施例中电子终端的结构示意图。本实例提供的电子终端,包括:处理器51、存储器52、收发器53、通信接口54和系统总线55;存储器52和通信接口54通过系统总线55与处理器51和收发器53连接并完成相互间的通信,存储器52用于存储计算机程序,通信接口54和收发器53用于和其他设备进行通信,处理器51用于运行计算机程序,使电子终端执行如上基于专利数据的专家挖掘方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral PomponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上,本发明提供基于专利数据的专家挖掘方法、系统、存储介质及电子终端,本发明基于人工智能技术对专利数据进行分析和挖掘,从而能够高效获得特定领域全球科技专家信息,大量减少人工标注成本,大幅降低目标专利漏检的可能性,且解决专利IPC分类不够贴合行业的问题。此外,本发明融合人工智能技术和专利大数据进行专家挖掘,利用本发明提供的技术方案不仅能够压缩挖掘专家的成本,还能够快速定位全球顶尖人才专家,准确获取专家信息资源,建立大规模专家库平台,为人才引进和储备提供强有力的技术后盾。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (13)
1.一种基于专利数据的专家挖掘方法,其特征在于,包括:
S1:构建目标领域的专利池;
S2:建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;
S3:对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。
2.根据权利要求1所述的基于专利数据的专家挖掘方法,其特征在于,步骤S1包括:
S11:扩展适用于所述目标领域的目标领域检索词以形成检索词集合;
S12:利用所述检索词集合中的检索词进行专利检索,以构建目标领域的专利池。
3.根据权利要求2所述的基于专利数据的专家挖掘方法,其特征在于,在执行步骤S12之前,先执行:
滤除所述检索词集合中的噪声数据,以获得滤除噪音数据后的检索词集合。
4.根据权利要求2所述的基于专利数据的专家挖掘方法,其特征在于,步骤S11包括:
基于词嵌入算法将基于所述目标领域检索词检索得到的专利文本转换为词向量;
计算各词向量与所述目标领域检索词之间的相似度,并将其中符合相似度要求的词向量所对应的词汇放入所述检索词集合中。
5.根据权利要求2所述的基于专利数据的专家挖掘方法,其特征在于,步骤S11包括:
利用外部语义资源获取所述目标领域检索词的关联词;所述关联词包括上位词和/或下位词。
6.根据权利要求3所述的基于专利数据的专家挖掘方法,其特征在于,包括:
利用滤除噪音数据后的检索词集合中的检索词进行专利摘要检索;
按照专利号将检索结果中隶属于同一专利的多个专利版本中与所构建的专利池关联度不符合要求的专利版本排除。
7.根据权利要求1所述的基于专利数据的专家挖掘方法,其特征在于,步骤S2包括:
S21:通过专利IPC分类号对专利池中的各专利做初步分类;
S22:从初步分类结果中抽取多个种子专利;
S23:按照预设分支方向对所述种子专利进行标注,并利用词嵌入算法将种子专利的专利摘要转换为相应的专利向量;
S24:利用标注结果和专利向量并基于监督学习算法建立专利领域分类模型。
8.根据权利要求1所述的基于专利数据的专家挖掘方法,其特征在于,步骤S3包括:
S31:对各子领域中的各项专利进行价值评价以获得每一项专利相应的价值分值;
S32:计算该子领域中隶属于同一专家的多项专利的价值分值平均值,该计算结果值用作挖掘该子领域中专家的衡量标准;
S33:基于匹配算法将名称表述方式不同的专利申请人进行标准化处理。
9.根据权利要求8所述的基于专利数据的专家挖掘方法,其特征在于,步骤S31包括:
基于Patent Rank算法对中文专利进行价值评价;其中,所述价值评价包括法律价值评价、技术价值评价或经济价值评价中的任一种或多种组合。
10.根据权利要求8所述的基于专利数据的专家挖掘方法,其特征在于,步骤S31包括:
利用引证与被引证得分以及多国申请数量得分,计算英文专利的价值分值;所述英文专利的价值分值被表示为:S(p)=k·PR(p)+(1-k)·F(p);
其中,PR(p)表示引证与被引证获得的得分,k表示调整权重的参数;F(p)表示多国申请数量得分,其被表示为基于参数f(c)来进行分段的且与参数b(c)相关的分段函数;其中,参数f(c)表示多国专利局专利申请国数,参数b(c)表示多国专利局是否申请别国专利。
11.一种基于专利数据的专家挖掘系统,其特征在于,包括:
专利池构建模块,用于构建目标领域的专利池;
模型建立模块,用于建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;
评价及挖掘模块,用于对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的基于专利数据的专家挖掘方法。
13.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至10中任一项所述的基于专利数据的专家挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910015925.6A CN109740947A (zh) | 2019-01-08 | 2019-01-08 | 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910015925.6A CN109740947A (zh) | 2019-01-08 | 2019-01-08 | 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109740947A true CN109740947A (zh) | 2019-05-10 |
Family
ID=66363836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910015925.6A Pending CN109740947A (zh) | 2019-01-08 | 2019-01-08 | 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740947A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419106A (zh) * | 2020-12-10 | 2021-02-26 | 国家电网有限公司信息通信分公司 | 一种专利运营标的价值评价结果生成方法及设备 |
CN112966107A (zh) * | 2021-03-05 | 2021-06-15 | 泉州市中韵智汇科技有限公司 | 一种融合大数据及svm算法的企业知识产权信息管理系统 |
CN114595271A (zh) * | 2022-02-24 | 2022-06-07 | 贵州具京网络科技有限公司 | 一种大数据挖掘方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081668A (zh) * | 2011-01-24 | 2011-06-01 | 熊晶 | 基于领域本体的信息检索优化方法 |
CN102663010A (zh) * | 2012-03-20 | 2012-09-12 | 复旦大学 | 基于标注语义的个性化图像浏览与推荐方法及系统 |
US20150178847A1 (en) * | 2013-12-25 | 2015-06-25 | Raytec Co., Ltd. | Apparatus and method for patent portfolio management |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
CN106776978A (zh) * | 2016-12-06 | 2017-05-31 | 北京赛时科技有限公司 | 专家库建立办法和装置 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN108763445A (zh) * | 2018-05-25 | 2018-11-06 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
CN108763520A (zh) * | 2018-05-31 | 2018-11-06 | 杭州电子科技大学 | 一种面向技术领域的专业人才搜索方法 |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN109102197A (zh) * | 2018-08-23 | 2018-12-28 | 佛山市木记信息技术有限公司 | 专利价值评估体系 |
-
2019
- 2019-01-08 CN CN201910015925.6A patent/CN109740947A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081668A (zh) * | 2011-01-24 | 2011-06-01 | 熊晶 | 基于领域本体的信息检索优化方法 |
CN102663010A (zh) * | 2012-03-20 | 2012-09-12 | 复旦大学 | 基于标注语义的个性化图像浏览与推荐方法及系统 |
US20150178847A1 (en) * | 2013-12-25 | 2015-06-25 | Raytec Co., Ltd. | Apparatus and method for patent portfolio management |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106776978A (zh) * | 2016-12-06 | 2017-05-31 | 北京赛时科技有限公司 | 专家库建立办法和装置 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN108763445A (zh) * | 2018-05-25 | 2018-11-06 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
CN108763520A (zh) * | 2018-05-31 | 2018-11-06 | 杭州电子科技大学 | 一种面向技术领域的专业人才搜索方法 |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN109102197A (zh) * | 2018-08-23 | 2018-12-28 | 佛山市木记信息技术有限公司 | 专利价值评估体系 |
Non-Patent Citations (1)
Title |
---|
魏保志 主编: "《专利审查研究2010》", 31 October 2011, 知识产权出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419106A (zh) * | 2020-12-10 | 2021-02-26 | 国家电网有限公司信息通信分公司 | 一种专利运营标的价值评价结果生成方法及设备 |
CN112966107A (zh) * | 2021-03-05 | 2021-06-15 | 泉州市中韵智汇科技有限公司 | 一种融合大数据及svm算法的企业知识产权信息管理系统 |
CN114595271A (zh) * | 2022-02-24 | 2022-06-07 | 贵州具京网络科技有限公司 | 一种大数据挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609052B (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN107368468B (zh) | 一种运维知识图谱的生成方法及系统 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
US9740736B2 (en) | Linking ontologies to expand supported language | |
US11709999B2 (en) | Method and apparatus for acquiring POI state information, device and computer storage medium | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
US11409642B2 (en) | Automatic parameter value resolution for API evaluation | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN107436875A (zh) | 文本分类方法及装置 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN103049532A (zh) | 基于突发事件应急管理的知识库引擎构建及其查询方法 | |
CN106777335A (zh) | 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 | |
CN109740947A (zh) | 基于专利数据的专家挖掘方法、系统、存储介质及电子终端 | |
JP2015121896A (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
CN105740227A (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN112116331A (zh) | 一种人才推荐方法及装置 | |
CN110046981A (zh) | 一种信用评估方法、装置及存储介质 | |
JP2015121895A (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN110442730A (zh) | 一种基于deepdive的知识图谱构建方法 | |
Aristodemou et al. | A literature review on the state-of-the-art on intellectual property analytics | |
CN107169523A (zh) | 自动确定机构的所属行业类别的方法、存储设备及终端 | |
Schröder et al. | Supporting land reuse of former open pit mining sites using text classification and active learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190510 |
|
RJ01 | Rejection of invention patent application after publication |