CN113254601B - 面向知识产权的科技资源画像构建方法、装置和存储介质 - Google Patents
面向知识产权的科技资源画像构建方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113254601B CN113254601B CN202110763158.4A CN202110763158A CN113254601B CN 113254601 B CN113254601 B CN 113254601B CN 202110763158 A CN202110763158 A CN 202110763158A CN 113254601 B CN113254601 B CN 113254601B
- Authority
- CN
- China
- Prior art keywords
- data
- intellectual property
- scientific
- word segmentation
- technological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 73
- 230000011218 segmentation Effects 0.000 claims abstract description 64
- 238000005516 engineering process Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 17
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Animal Behavior & Ethology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种面向知识产权的科技资源画像构建方法、装置和存储介质,所述方法包括:获取结构化的知识产权科技资源数据;对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据;基于专利文本特征数据得到分词向量和字符向量,将其作为原始输入文本输入双向长短时循环网络模型,并将其输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;利用结构化的知识产权科技资源数据和实体识别结果构建实体间关系;基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像。
Description
技术领域
本发明涉及自然语言处理技术领域和知识图谱技术领域,具体是一种面向知识产权的科技资源画像构建方法、装置和存储介质。
背景技术
近年来,越来越多的学者注意到科技资源信息的重要性。一些研究者从海量的科技资源数据中抽取实体属性和关系,从而实现科技资源中的用户画像(如企业画像)。科技资源画像是对科技信息进行标签化的过程,通过对科技资源数据进行收集与分析,构建出对科技资源的多个角度标签化的描述,综合科技资源所有的标签,勾勒出对科技资源的画像。欧洲科学家采用系统Euro-CRIS构建了统一的描述模型CERIF,来构建多类科技资源的画像。科技资源画像构建方法主要有基于本体(如主体本体或领域本体等)或概念的构建方法、基于主题或话题的构建方法、基于用户兴趣或偏好的构建方法、基于语义挖掘的构建方法等。这些方法虽然能够对科技资源进行画像,但是由于受到外部因素质量的影响和限制,也并没有在构建画像中得到满意的改进。
目前有几大科技资源服务系统可以为用户提供较为全面的服务,例如谷歌学术搜索(Google Scholar)、微软学术搜索(Microsoft Academic Search)、中国知网等。这些知识服务平台,主要通过检索算法帮助用户获取科技文本信息。这些平台主要依赖数据优势,为用户提供搜索服务,但这些平台只是返回一些文本信息,没有针对这些非结构化的科技资源进行深层次挖掘分析,不方便用户掌握知识产权中蕴含的发展规律。如果用户需要对搜索结果进一步分析,则需要借助外部工具,无法实现科技资源画像的构建,也即不能为用户提供科技资源画像服务。
科技资源包括专利信息、论文信息、标准信息等以及与这些信息相关的关键字、日期、作者、单位、发表刊物(会议)等多属性信息。其中,专利信息属于知识产权信息,知识产权通常是指国家赋予创造者对其智力成果在一定时期内享有的专有权或独占权,主要涉及专利、商标、著作权等。面向知识产权的科技资源画像有助于用户掌握知识产权中蕴含的发展规律,并对知识产权信息进行科学分析提供重要支持。然而,目前还难于基于知识产权信息实现科技资源的精准画像。
因此,如何实现精准的面向知识产权的科技资源画像,还是一个有待解决的问题。
发明内容
针对现有技术中存在的问题,本发明实施例提供了一种面向知识产权的科技资源画像构建方法和装置,通过爬虫技术、深度学习方法、知识图谱技术来实现包括知识产权在内的科技资源的精准画像。
本发明的一个方面,提供了一种面向知识产权的科技资源画像构建方法,该方法包括以下步骤:
获取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括专利数据;
对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据;
基于专利文本特征数据得到分词向量和字符向量,将分词向量和字符向量作为原始输入文本输入双向长短时循环网络模型,并将其隐藏层的输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;
利用所述结构化的知识产权科技资源数据和实体识别结果构建实体间关系;
基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像。
在本发明一些实施方式中,所述获取结构化的知识产权科技资源数据的步骤包括:利用爬虫技术从web页面中提取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括单位专利数据和个人专利数据;
所述对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据包括:
去掉无用数据,所述无用数据包括以下信息中的至少一种:停用词、标点和内容短于预定长度的数据;
去除重复专利数据;
将得到的专利数据进行分词处理;
针对分词处理后获得的分词生成唯一化标识,并进行词性标注,从而形成专利文本特征数据。
在本发明一些实施方式中,将得到的专利数据进行分词处理之前,所述对获得的知识产权科技资源数据进行数据预处理还包括:将繁体的专利文本数据转换为简体专利文本数据;
所述将得到的专利数据进行分词处理包括利用jieba分词得到文本分词。
在本发明一些实施方式中,所述将其输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果,包括:
将所述双向长短时循环网络模型的输出向量矩阵作为分词词性注意力模型的值项特征矩阵;
将原始输入文本对应的分词词性特征矩阵向量作为键值特征矩阵;
将BLSTM隐藏层输出向量的一个列向量作为查询项特征矩阵;
将所述值项特征矩阵、键值特征矩阵和查询项特征矩阵输入所述字符级别的注意力模型得到注意力相关输出值;
将所述注意力相关输出值经全连接层后得到条件随机场层的输入特征矩阵,该输入特征矩阵经条件随机场层后得到实体识别结果。
在本发明一些实施例中,所述注意力相关输出值符合以下公式:
其中,表示为对于一个句子的n个汉字进行实体名分类的权重值,1表示维度;是注意力层的输出值;为键值特征矩阵的元素,为查询项特征矩阵的元素,为值项特征矩阵的元素, 为词性特征向量的维数,是用来进行归一化处理的分类函;
所述条件随机场层的输入特征矩阵符合以下公式:
在本发明一些实施例中,所述方法还包括:将实体别结果存储至MySQL数据库;
输入特征矩阵经CRF层后得到实体识别结果包括:
其中,A是状态转移矩阵,代表标签转移到标签的转移分数,表示第i个词映射到第i个标签的非归一化概率,即概率。利用极大似然的方法求得的最大值,这样可获得最佳的输出标签序列。最后预测标签转换为单标签向量生成期望的标签结果。利用梯度下降进行实体识别模型的训练,从而得到专利文本数据的实体识别模型。
在本发明一些实施例中,所述利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像,包括:
基于实体识别结果和构建的实体间关系,统计反映技术热度的实体与单位或个人之间的关系数,通过Echarts技术将单位或个人隐藏在科技实体的影响力转化为知识图谱;
统计数据库中识别的实体出现次数,按照词频出现次数对识别的实体进行排名,利用Echarts技术基于排名构造热点词云;
统计分析科技资源历年发表数量,利用Echarts绘制出每年科技资源的发表趋势图;
基于所述知识图谱、热点词云和发表趋势图生成知识产权科技资源数据知识图谱。
在本发明一些实施例中,所述方法还包括:通过利用梯度下降进行实体识别模型的训练,得到所述经训练的实体识别模型,所述实体识别模型包括BLSTM层、注意力层和条件随机场层。
本发明的另一方面,提供了一种面向知识产权的科技资源画像构建装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明的又一方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。
本发明实施例提供的面向知识产权的科技资源画像构建方法和装置,通过数据爬虫技术、数据过滤、数据预处理等技术,完成对科技资源的数据获取;通过结合分词词性、双向长短时循环网络和注意力机制,实现科技资源的实体识别;并进一步结合知识图谱、Echarts技术完成了对科技资源画像的构建。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中面向知识产权的科技资源画像构建方法的框架示意图。
图2为本发明一实施例中面向知识产权的科技资源画像构建方法的流程示意图。
图3为本发明一实施例中科技资源的画像构建框图示意。
图4为本发明一实施例中科技资源数据获取和处理流程示意图。
图5为本发明一实施例中结合分词词性的注意力机制的命名实体识别方法原理图。
图6为本发明实施例中引入分词词性的注意力机制层结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
为了实现基于知识产权信息实现科技资源的精准画像,本发明提供了一种面向知识产权的科技资源画像构建方法,该方法主要包括;对包括知识产权在内的科技数据的获取、命名实体的识别和科技资源画像的构建。更具体地可通过数据爬虫技术、包括数据过滤、分词处理在内的数据预处理等技术,完成对科技资源的数据获取;通过结合分词词性、双向长短时循环网络和注意力机制,利用有监督方法对数据进行学习与训练,实现科技资源的实体识别,并进一步获取实体间的关系;此外,可基于实体识别结果和实体间的关系,基于数据统计获得知识图谱,并基于多特征聚集、时空聚集、语义特征、集合模拟等多视角可视化方法,利用Echarts等技术完成对科技资源画像的构建。也即,本发明的方法集成了多种技术,如爬虫技术、双向长短时记忆网络、注意力机制、知识图谱等,来构建面向知识产权的科技资源画像。
图1为本发明一实施例中面向知识产权的科技资源画像构建方法的框架示意图。如图1所示,该框架主要包括:科技资源的获取和处理模块、实体识别和实体间关系构建模块和科技资源画像构建模块。
科技资源的获取和处理模块,该模块主要用于获得结构化的知识产权科技资源数据并进行数据预处理,以得到结构化的专利文本特征数据。知识产权科技资源数据可包括单位专利和个人专利,这些单位专利和个人专利可以包括已经授权的专利,也可以包括已经公开但尚未授权的在审查程序中的专利申请。
实体识别和实体间关系构建模块用于基于获取的专利文本特征数据根据注意力机制实现实体识别,并基于结构化的专利文本特征数据获得实体间的关系。
科技资源画像构建模块用于利用neo4j图数据库存储已经获取的实体以及实体关系,利用统计分析来反映技术的热度、单位或个人的影响力、热点词云等,并利用Echarts实现统计信息的多视角可视化,由此产生知识图谱、发展趋势图和热点词云图等,这些图可作为科技资源画像,从而完成科技资源画像的构建。
图2为本发明一实施例中面向知识产权的科技资源画像构建方法的流程示意图。图3为与图2对应的科技资源的画像构建框图示意,如图3所示,本发明在获取到科技资源数据之后,先进行数据预处理(如去掉无用或重复的数据),然后基于结合了注意力模型的双向长短时循环网络(Bi-directional Long Short Term Memory Network,BLSTM)模型来实现实体识别,并进一步构建实体之间的关系,将实体识别结果和实体间的关系存储在neo4j图数据库中;进一步地,基于neo4j图数据库中存储的实体识别结果和实体间的关系利用数据统计进行统计分析,并基于统计分析结果来利用Echarts技术形成科技资源画像进行展示。科技资源画像的内容可包括科技资源的知识图谱、科技资源的发展趋势和科技资源的热点词云等等,但并不限于此。如图2所示,该面向知识产权的科技资源画像构建方法包括以下步骤:
步骤S110,获取知识产权科技资源数据,所述知识产权科技资源数据包括专利数据。
本步骤中,对于以专利为代表的知识产权科技资源数据的获取,可使用scrapy框架进行数据抓取。可配置代理池,分多线程抓取页面,实现对单位专利和个人专利的高效获取。
Scrapy框架是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,可用于抓取web站点并从页面中提取结构化的数据。通过 Scrapy 框架可以比较容易地实现一个爬虫,抓取指定网站的页面内容,得到结构化数据。
在使用Scrapy框架进行数据抓取过程中,可使用布隆过滤器判断页面是否被访问过,并用正则匹配出抓取的下一个站点。对于专利文本进行正则截取,同时对单位或个人与专利的关系进行爬取,获取专利类型的科技资源数据。还可以通过其他现有技术来获取知识产权科技资源数据。
获取到的结构化的知识产权科技资源数据可包括专利的申请人个人、申请单位等信息。除了结构化数据之外,还可以获取非结构化数据,例如包括专利摘要、专利正文等。
步骤S120,对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据。
知识产权由于具有地域性,技术领域具有很大的差异性,知识产权科技资源具有分布多源、信息分散、结构多样的特点,或者说,知识产权科技资源具有分布式、松耦合、异构结构的特点,针对这些特点,本发明实施例可进行数据预处理,以形成对专利等科技数据信息的唯一化标识,获得专利文本特征集,实现分布式、松耦合、异构结构的统一访问和管理。
例如,在本发明实施例中,在获取到知识产权科技资源原始数据后,可通过构建信任网络(例如创建爬取网络黑白名单,记录无效数据到hash散列等)对科技资源大数据进行评估,去除无关和虚假的内容,以便将有效的内容进行进一步的处理。
作为示例,对获得的知识产权科技资源数据进行数据预处理还可包括:
(1)去掉无用数据,例如,利用正则表达式可过滤掉停用词和/或标点,此外,还可去掉内容过短的数据,如内容短于预定长度的数据。
(2)去除重复专利数据。例如,专利申请号/专利号和公开号都相同的两个专利为重复专利,重复专利可只保留一份。
(3)对专利文本进行繁体到简体的转化处理,即将繁体的专利文本数据转换为简体专利文本数据,以减少同义文本的影响。
(4)将得到的专利数据进行分词处理。
例如,将中文专利数据进行中文分词处理。中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。
本步骤可通过现有的分词算法来实现,例如可将专利文本数据利用jieba(结巴)分词得到文本分词,在此不再赘述。
(5)针对分词处理后获得的单词生成唯一化标识(ID),从而形成专利文本特征数据。
针对分词后的单词生成ID后,可构造分词字典,用于MySQL存储,每个分词可用自己ID进行存储,得到一系列由ID符号构成的文档。
如图4所示,分词后形成的专利文本特征数据和分词字典等可作为科技资源数据存储在MySQL数据库中。同时可利用Elasticsearch搜索服务器实现数据的快速索引。分词字典可以存储在Redis服务器中。
步骤S130,基于专利文本特征数据得到分词向量和字符向量,将分词向量和字符向量(或称字向量)作为原始输入文本输入双向长短时循环网络(Bi-directional LongShort Term Memory Network,BLSTM)模型,并将其隐藏层的输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果。
本步骤中,可以利用Word2Vec得到分词向量和字符向量。得到分词向量和字符向量后,可利用BLSTM模型来实现实体识别,所述实体例如可以包括申请主体实体、地名实体、时间实体、技术实体等,但本发明并不限于此。
分词处理后,还要对得到的分词进行词性标注。词性标注是自然语言处理的基础工作之一,是大多数后续工作的前提。词性标注的目的是给句子中的所有单词确定一种词性分类。词性分类例如包括形容词(/a)、动词(/v)、名词(/n)、动名词(/vn)、副词(/d)等等。可以采用现有的词性标注工具,如ICTCLAS等实现词性标注,但本发明并不限于该词性标注工具。
对于专利文本数据的实体识别,本发明实施例在BLSTM网络与条件随机场(Conditional random field, CRF)序列标注模型的基础上,引入了分词后词性标注结果的注意力机制,提出了一种结合分词词性的注意力机制的命名实体识别算法。通过BLSTM网络和结合了分词词性注意力和字符注意力机制的注意力机制,在将专利文本数据利用jieba分词得到文本分词后,利用Word2Vec得到的分词向量和字符向量表示作为BLSTM网络的模型初始输入,然后经过字符级别的注意力机制,并融合分词词性注意力机制,随后进行一次全连接层操作得到输出特征,再输入到CRF层解决标注问题,最后得到输出为从专利文本中识别出的实体向量。通过结合分词词性向量,引入注意力机制,提高了科技大数据的实体识别准确率。本发明实施例中,结合分词词性的注意力机制的命名实体识别方法如图5所示。
参见图5,该算法的输入为专利文本的字符向量(如多个字符向量word1,word2,word3,……)和分词向量(如多个分词向量nr,ns,nt,……),其中字符向量是从一个均匀分布中随机采样得到的随机采样值。假设一个句子存在n个汉字,且每个汉字的特征向量为m,则句子的输入向量为。句子的输入向量要输入到BLSTM模型,经BLSTM模型后得到输出结果h n,k 。其中n为句子中汉字的个数,为BLSTM隐藏层输出的维度。
h n,k 是BLSTM隐藏层输出向量,作为注意力层(attention层)的输入向量。得到BLSTM隐藏层输出的向量h n,k 后,将h n,k 融入引入分词词性的注意力机制层中,其中注意力机制层的原理如图6所示。
注意力模型涉及3个矩阵,Q(Query)特征矩阵、K(Key)特征矩阵和V(Value)特征矩阵,通过计算Query特征矩阵和Key特征矩阵的相似性或者相关性,得到Key特征矩阵对应的Value特征矩阵的权重系数,然后对Value特征矩阵各元素进行加权求和,便得到最终的注意力数值。本发明实施例中,Value特征矩阵为输入的原始矩阵,即Value特征矩阵与输入向量矩阵是一样的。Query特征矩阵为BLSTM隐藏层输出向量h n,k 的一个列向量。而对于向量矩阵Key而言,其是由原始输入文本的分词词性特征生成而来的。对于输入长度为n个汉字的文本,经过分词后每个词均有自己的词性标注结果,对于该词的每个汉字也都继承该词性标注结果,现在利用均匀分布进行初始化每个词性的特征向量,其中词性特征向量的维数应与BLSTM隐藏层输出的维度一样,则对于一个句子其分词后词性标注的特征矩阵向量为,其为Key矩阵的原始向量结果,其中, 为词性特征向量的维数。利用注意力模型中矩阵Q(Query)、K(Key)、V(Value)之间的关系,可以得到下公式(1)、(2)。
其中,是用来进行归一化处理的分类函数;的数学含义表示为对于一个句子的n个汉字进行实体名分类的权重值,1表示维度。然后利用权重值与Value矩阵进行乘积运算,得到,其是attention层的输出值。在将输出值输入到CRF(条件随机场)层之前需要进行一次全连接层操作,其计算如公式(3)所示。
将全连接层的输出特征再输入到条件随机场(Conditional Random Fields,CRF)层。CRF层是给定一组输入序列条件下另一组输出序列的条件概率分布模型(是给定随机变量X条件下,随机变量Y的马尔科夫随机场)。设X={x1,x2,x3,....xn},Y={y1,y2,y3,....yn}均为线性链表示的随机变量序列,若在给定随机变量序列X的情况下,随机变量序列Y的条件概率P(Y,X)构成条件随机场。在CRF中,Y在i时刻的状态与其前后时刻,即y(i-1)与y(i+1)均相关。计算如下面的公式(4)所示:
其中,A是状态转移矩阵,代表从第i个标签转移到第i+1个标签的概率,表示第i个词映射到第i个标签的非归一化概率。利用极大似然的方法求得的最大值,这样可获得最佳的输出标签序列。最后预测标签转换为单标签向量生成期望的标签结果,即实体向量结果。通过利用梯度下降进行实体识别模型的训练,可得到专利文本数据的实体识别模型,该实体识别模型包括BLSTM层、注意力层和条件随机场层。本发明通过利用有监督方法对数据进行学习与训练,提高了科技资源的实体识别的准确率。
本发明实施例中,可以从专利摘要等非结构化的知识产权数据中,运用基于深度学习的命名实体识别算法获取专利文本中的实体,如技术实体。
步骤S140,利用所述结构化的知识产权科技资源数据和实体识别结果构建实体间关系。
利用实体识别模型对现有的知识产权数据进行实体抽取得到实体识别结果后,进一步利用爬取到的申请单位或个人等结构化数据可构建与抽取的实体间的关系,进一步利用neo4j图数据库存储已经获取的实体以及实体间关系,从而为知识图谱的创建以及进一步科技资源画像的构建提供必要的技术支持。
例如,基于专利中的实体识别结果,可以建立申请人与识别出的技术实体之间的关联关系。
步骤S150,基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像。
本发明利用统计分析方法,同时结合Echarts技术生成知识图谱、科技资源发展趋势、科技资源热点词云等等,从而完成对科技资源画像的构建。
更具体地,得到专利文本数据的实体和实体间关系后,可进行知识产权知识融合,集成融合的多源异构知识产权数据中抽取出的实体、属性和关系等知识,形成统一的知识表示。
本发明实施例中,可采用数据统计分析法,利用前文得到的实体、实体间关系,统计反映技术热度的实体与单位或个人之间的关系数,可以通过Echarts技术将单位或个人隐藏在科技实体的影响力以持久化的知识图谱形式可视化,完成科技大数据知识图谱的构建。
进一步,可利用统计分析方法来统计科技资源历年发表数量,利用Echarts绘制出每年科技资源(专利)的发表趋势图,从而方便用户跟踪科技资源发表热点。
进一步,还可以统计MySQL数据库中识别的实体出现次数,按照词频出现次数对识别的实体进行排名,前预定的名次,如取top25,用于构造热点词云,利用Echarts技术来基于热点词云进行科技资源画像。Echarts是基于JavaScript的数据可视化图表库,能基于统计数据提供直观,生动,可交互,可个性化定制的数据可视化图表。
由此,可实现对包含知识图谱、科技资源发表趋势、科技资源热点词云等的知识产权资源画像的构建。
本发明针对科技资源内部关联关系复杂性问题,采用深度学习方法、实体关系识别、数据挖掘与统计等技术,实现科技资源的精准画像,帮助用户获取数据背后隐藏的价值。
本发明提出了一种面向知识产权的科技资源画像构建方法,实现了科技资源数据获取、实体识别与关系构建、面向知识产权的科技资源画像,构建了面向知识产权的科技资源画像系统,其中包括科技资源的知识图谱、科技资源的发展趋势画像和科技资源的热点词云等。本发明的方法尤其适用于中文自然语言处理、知识图谱领域,可以处理不同来源的专利文本,实现专利文本的画像构建。
本发明的面向知识产权的科技资源画像构建方法,是首次在面向知识产权的科技资源中提出的构建画像的方法,主要由知识产权资源实体的各种属性、实体间的关联关系以及由属性和关系挖掘得到的高维度信息特征构成,可以通过精准画像从海量知识产权数据中获取重要的信息,掌握知识产权中蕴含的发展规律,为之后对知识产权信息进行科学分析提供重要的支持。
与上述方法相应地,本发明还提供了一种面向知识产权的科技资源画像构建装置,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述边缘计算服务器部署方法的步骤。
本发明实施例提供的面向知识产权的科技资源画像构建方法和装置,通过数据爬虫技术、数据过滤、数据预处理等技术,完成对科技资源的数据获取;通过结合分词词性、双向长短时循环网络和注意力机制,实现科技资源的实体识别;并进一步结合知识图谱、Echarts技术完成了对科技资源画像的构建。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如光盘、U盘、软盘、硬盘等。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种面向知识产权的科技资源画像构建方法,其特征在于,该方法包括以下步骤:
获取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括专利数据;
对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据,所述数据预处理包括采用jiaba分词器进行分词处理,并针对分词处理后获得的分词生成唯一化标识,并进行词性标注;
基于专利文本特征数据得到分词向量和字符向量,将分词向量和字符向量作为原始输入文本输入双向长短时循环网络BLSTM模型,并将其隐藏层的输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;
利用所述结构化的知识产权科技资源数据和实体识别结果构建实体间关系;
基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像;
所述将其输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果,包括:
将所述双向长短时循环网络模型的输出向量矩阵作为分词词性注意力模型的值项特征矩阵;
将原始输入文本对应的分词词性特征矩阵向量作为键值特征矩阵;
将BLSTM隐藏层输出向量的一个列向量作为查询项特征矩阵;
将所述值项特征矩阵、键值特征矩阵和查询项特征矩阵输入所述字符级别的注意力模型得到注意力相关输出值;
将所述注意力相关输出值经全连接层后得到条件随机场层的输入特征矩阵,该输入特征矩阵经条件随机场层后得到实体识别结果。
2.根据权利要求1所述的方法,其特征在于,
所述获取结构化的知识产权科技资源数据的步骤包括:利用爬虫技术从web页面中提取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括单位专利数据和个人专利数据;
所述对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据包括:
去掉无用数据,所述无用数据包括以下信息中的至少一种:停用词、标点和内容短于预定长度的数据;
去除重复专利数据。
4.根据权利要求1所述的方法,其特征在于,所述利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像,包括:
基于实体识别结果和构建的实体间关系,统计反映技术热度的实体与单位或个人之间的关系数,通过Echarts技术将单位或个人隐藏在科技实体的影响力转化为知识图谱;
统计数据库中识别的实体出现次数,按照词频出现次数对识别的实体进行排名,利用Echarts技术基于排名构造热点词云;
统计分析科技资源历年发表数量,利用Echarts绘制出每年科技资源的发表趋势图;
基于所述知识图谱、热点词云和发表趋势图生成知识产权科技资源数据知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过利用梯度下降进行实体识别模型的训练,得到经训练的实体识别模型,所述实体识别模型包括BLSTM层、注意力层和条件随机场层。
6.一种面向知识产权的科技资源画像构建装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至5中任意一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763158.4A CN113254601B (zh) | 2021-07-06 | 2021-07-06 | 面向知识产权的科技资源画像构建方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763158.4A CN113254601B (zh) | 2021-07-06 | 2021-07-06 | 面向知识产权的科技资源画像构建方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254601A CN113254601A (zh) | 2021-08-13 |
CN113254601B true CN113254601B (zh) | 2022-06-07 |
Family
ID=77190774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763158.4A Active CN113254601B (zh) | 2021-07-06 | 2021-07-06 | 面向知识产权的科技资源画像构建方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254601B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840645A (zh) * | 2022-07-04 | 2022-08-02 | 北京邮电大学 | 专家学者科技资源信息的文本语义检索方法及装置 |
CN116882495B (zh) * | 2023-02-27 | 2024-02-09 | 中央民族大学 | 一种基于动态知识图谱的前沿基因技术安全画像方法 |
CN115860283B (zh) * | 2023-02-28 | 2023-05-02 | 北京信立方科技发展股份有限公司 | 基于知识工作者画像的贡献度预测方法及装置 |
CN116226408B (zh) * | 2023-03-27 | 2023-12-19 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200127A1 (en) * | 2002-04-18 | 2003-10-23 | Mcqueen Talmadge Keith | Job site problem solution systems with internet interface |
CN108664615A (zh) * | 2017-05-12 | 2018-10-16 | 华中师范大学 | 一种面向学科教育资源的知识图谱构建方法 |
CN111708893A (zh) * | 2020-05-15 | 2020-09-25 | 北京邮电大学 | 基于知识图谱的科技资源整合方法及系统 |
-
2021
- 2021-07-06 CN CN202110763158.4A patent/CN113254601B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113254601A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254601B (zh) | 面向知识产权的科技资源画像构建方法、装置和存储介质 | |
Gong et al. | Natural language inference over interaction space | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
US11886815B2 (en) | Self-supervised document representation learning | |
Rani et al. | An efficient CNN-LSTM model for sentiment detection in# BlackLivesMatter | |
Sun et al. | Deep learning-based methods for natural hazard named entity recognition | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
Pfahler et al. | Semantic search in millions of equations | |
Peng et al. | Image to LaTeX with graph neural network for mathematical formula recognition | |
Henderi et al. | Unsupervised Learning Methods for Topic Extraction and Modeling in Large-scale Text Corpora using LSA and LDA | |
Feng et al. | Ontology semantic integration based on convolutional neural network | |
Du et al. | A convolutional attentional neural network for sentiment classification | |
Song et al. | Sparse multi-modal topical coding for image annotation | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 | |
Singh et al. | Next-LSTM: a novel LSTM-based image captioning technique | |
Pfahler et al. | Self-Supervised Pretraining of Graph Neural Network for the Retrieval of Related Mathematical Expressions in Scientific Articles | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
Zhu et al. | Construction of transformer substation fault knowledge graph based on a depth learning algorithm | |
Sato et al. | Text classification and transfer learning based on character-level deep convolutional neural networks | |
Zhang et al. | Towards one-size-fits-many: multi-context attention network for diversity of entity resolution tasks | |
Cho et al. | Design of image generation system for DCGAN-based kids' book text | |
Sevim et al. | Multi-class document image classification using deep visual and textual features | |
Yu et al. | Learning cross space mapping via DNN using large scale click-through logs | |
Liu et al. | Practical skills of business english correspondence writing based on data mining algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |