CN114880477A - 一种专利技术演化脉络的提取方法 - Google Patents
一种专利技术演化脉络的提取方法 Download PDFInfo
- Publication number
- CN114880477A CN114880477A CN202210620493.3A CN202210620493A CN114880477A CN 114880477 A CN114880477 A CN 114880477A CN 202210620493 A CN202210620493 A CN 202210620493A CN 114880477 A CN114880477 A CN 114880477A
- Authority
- CN
- China
- Prior art keywords
- word
- association
- node
- nodes
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000003058 natural language processing Methods 0.000 claims abstract description 4
- 239000002131 composite material Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 3
- 230000003472 neutralizing effect Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种专利技术演化脉络的提取方法,涉及文本信息处理技术,该方法基于自然语言处理对每个专利文本进行语义分析,借鉴联想记忆机制将专利文本中的主从权利要求引用关系转变为上下位语义关联关系,同时联合共现关系构造时间维度和空间维度上的词语节点之间的全局联想网络,此外引入TextRank方法计算全局联想网络中的词语节点的节点权重,通过节点权重和边联想强度提取得到的专利技术演化脉络。提取到的专利技术演化脉络可以清晰地指示专利技术的演化发展过程,分析不同时间的技术研究热点,并且为知识推荐提供个性化的服务,提供的信息更丰富且又有价值,对个性化知识推荐具有显著的价值意义。
Description
技术领域
本发明涉及文本信息处理技术领域,尤其是一种专利技术演化脉络的提取方法。
背景技术
近年来,专利文献数量暴增并且呈现快速增长态势,一方面展现了各界对保护科学技术所有权的重视;另一方面也展现了专利技术的创新与发展速度的加快,技术领域逐渐细化,创新过程日益复杂。通常地,任何一种技术都不会凭空产生或凭空消亡,必然是在已有技术的基础上经过一定的生命周期从产生走向消亡,这样一个技术生命周期的更迭过程展现的正是领域技术演化发展过程。因此,分析基于时间片划分的专利文献集合,可以有效地展示某领域技术的演化脉络。
技术演化脉络分析可以定义为根据时间的有序发展,描述技术的变化过程,其作为专利文本挖掘的重要内容之一,不仅能够有效体现某时间段内的技术研究热点,为国家和企业技术发展提供决策支持;同时也能够生成时空维度上的技术演化序列对,应用于知识推荐等个性化服务。传统的专利技术演化脉络分析更多的关注不同时间阶段中专利文本数量的变化,是一种基于宏观的研究,虽然可以清晰展示技术所处的生命周期,但是提供的信息量有限。
发明内容
本发明人针对上述问题及技术需求,提出了一种专利技术演化脉络的提取方法,本发明的技术方案如下:
一种专利技术演化脉络的提取方法,该方法包括:
构建专利样本集,专利样本集中包括若干专利文本;
基于自然语言处理对每个专利文本进行语义分析,构建得到专利文本的局部联想网络,局部联想网络指示专利文本中包括的词语节点之间的语义联想关系以及联想强度;
对所有专利文本的局部联想网络按照专利文本的申请日的先后顺序合并得到所有专利文本的全局联想网络,全局联想网络指示专利样本集中所有专利文本包含的所有语义联想关系及其联想强度,以及同一个词语节点随着时间顺序的继承演化关系;
基于词语节点之间在时间维度和空间维度的相互影响、利用时空维度TextRank模型计算得到全局联想网络中的各个词语节点的节点权重;
基于各个词语节点的节点权重以及每两个词语节点之间的联想强度,确定通过全局联想网络指示的语义联想关系和继承演化关系形成的词语节点之间的各条联想演化路径的路径联想强度,并根据路径联想强度确定词语节点之间的最优联想演化路径,由不同词语节点之间的最优联想演化路径提取得到专利技术演化脉络。
其进一步的技术方案为,构建得到专利文本的局部联想网络,包括对于专利文本:
确定专利文本中所有存在直接语义联想关系的词语节点对,以及确定专利文本中所有通过各自的中介线索词存在间接语义联想关系的词语节点对,直接语义联想关系指示由词语节点对中的一个词语节点直接语义联想得到另一个词语节点,间接语义联想关系指示由词语节点对中的一个词语节点通过对应的中介线索词间接语义联想得到另一个词语节点;
对得到的所有存在直接语义联想关系词语节点对进行合并去重,并根据词语节点对中两个词语节点的相对位置索引确定词语节点对之间的语义联想关系的联想强度,构建得到专利文本的局部联想网络,局部联想网络中包括若干个互不相同的词语节点,且每个词语节点与至少一个其他词语节点存在语义联想关系,每两个词语节点之间的语义联想关系具有相应的联想强度。
其进一步的技术方案为,对于专利文本中任意的词语节点wmn和词语节点wmn':
当词语节点wmn和词语节点wmn'位于专利文本的同一个段落内的同一个句子中时,确定词语节点wmn和词语节点wmn'构成一对存在直接语义联想关系的词语节点对,且直接语义联想关系指示由相对位置在前的词语节点wmn直接语义联想得到相对位置在后的词语节点wmn';
和/或,当词语节点wmn位于上位段落Pm内的句子Smj中、词语节点wmn'位于下位段落Pm'内的句子Sm'j'中,下位段落Pm'引用上位段落Pm,且句子Smj中和句子Sm'j'中存在同一个中介线索词wt时,确定词语节点wmn和词语节点wmn'通过中介线索词wt构成一对存在间接语义联想关系的词语节点对,且间接语义联想关系指示由相对位置在前的词语节点wmn通过中介线索词wt间接语义联想得到相对位置在后的词语节点wmn',其中中介线索词wt与词语节点wmn和词语节点wmn'不同。
其进一步的技术方案为,由词语节点a语义联想得到词语节点b的语义联想关系的联想强度为:
其中,Rd(a,b)表示词语节点a和词语节点b之间的直接语义联想关系的强度,Rs(a,b)表示词语节点a和词语节点b之间的间接语义联想关系的强度;
当词语节点a和词语节点b之间仅存在间接语义联想关系时,Rd(a,b)=0;当词语节点a和词语节点b之间存在至少一组直接语义联想关系时,每组直接语义联想关系的强度Rd(a,b)=Ia-Ib,Ia是直接语义联想关系中的词语节点a的相对位置索引,Ib是直接语义联想关系中的词语节点b的相对位置索引;
当词语节点a和词语节点b之间仅存在直接语义联想关系时,Rs(a,b)=0;当词语节点a和词语节点b之间存在至少一组间接语义联想关系时,每组间接语义联想关系的强度 是间接语义联想关系中的词语节点a的相对位置索引,是间接语义联想关系中的词语节点b的相对位置索引,是与词语节点a位于同一个段落内的同一个句子中的中介线索词c的相对位置索引,是与词语节点b位于同一个段落内的同一个句子中的中介线索词c的相对位置索引。
其进一步的技术方案为,专利样本集中的所有专利文本的申请日覆盖若干个连续的时间段,合并得到所有专利文本的全局联想网络,包括:
对申请日位于同一个时间段内的所有专利文本的局部联想网络中的相同的词语节点进行合并去重,得到各个时间段的段内联想网络,段内联想网络指示申请日位于同一个时间段内的所有专利文本包含的所有语义联想关系及对应的联想强度;
确定每一个时间段的段内联想网络中的词语节点继承演化相邻的前一个时间段的段内联想网络中的相同的词语节点,得到每相邻两个时间段之间的相同的词语节点的继承演化关系,合并得到全局联想网络。
其中,d为阻尼系数且d<1,反映词语节点在空间维度受到的影响,是时间段t的段内联想网络中指向词语节点Vi的词语节点Vj的节点权重,是词语节点Vj指向词语节点Vi的权重,表示词语节点Vj在时间段t内指向其他词语节点的权重之和;
反映词语节点在时间维度受到的影响,表示时间段t-1的段内联想网络中的词语节点Vi的权重,表示词语节点Vi在时间段t-1内指向其他词语节点的权重之和,时间段t-1内的词语节点Vi对时间段t内的词语节点Vi完全影响。
其进一步的技术方案为,该方法还包括:
基于全局联想网络中各个词语节点的节点权重,以及每两个词语节点之间的联想强度得到全局联想网络中两个词语节点之间的复合权重;
根据每两个词语节点之间的复合权重对全局联想网络中的所有词语节点进行AP聚类,并保留AP聚类中心包含的词语节点作为技术词节点,保留全局联想网络中的技术词节点及之间的语义联想关系,筛选得到技术词联想网络;
则基于技术词联想网络得到技术词节点之间的最优联想演化路径,合并得到专利技术演化脉络。
其进一步的技术方案为,词语节点Vi和词语节点Vj之间的复合权重CWij为:
其中,Uij表示词语节点Vi和词语节点Vj之间的联想强度,S(Vi)表示词语节点Vi的节点权重,S(Vi)表示词语节点Vj的节点权重,len代表全局联想网络中包含的词语节点的个数,k为参数,S(Vk)表示任意的词语节点Vk的节点权重。
其进一步的技术方案为,根据路径联想强度确定词语节点之间的最优联想演化路径,包括:
确定词语节点Vi和词语节点Vj之间形成的每条联想演化路径的路径联想强度RWij为:
其中,S(Vi)表示词语节点Vi的节点权重,S(Vi)表示词语节点Vj的节点权重,Uij表示词语节点Vi和词语节点Vj之间的联想强度,M是词语节点Vi和词语节点Vj之间形成的联想演化路径所经过的词语节点的总数。
其进一步的技术方案为,提取得到专利技术演化脉络,包括:
从第一个时间段的段内联想网络中的任意一个词语节点为起点,若相邻两个时间段的段内联想网络中存在具有继承演化关系的词语节点,则通过相邻两个时间段的段内联想网络中存在继承演化关系的词语节点,确定一个时间段内的词语节点与其相邻的另一个时间段内的词语节点之间的最优联想演化路径;若相邻两个时间段的段内联想网络中不存在具有继承演化关系的词语节点,则以下一个时间段的段内联想网络中的任意一个词语节点为起点,直至对所有时间段的段内联想网络完成处理;
将第一最优联想演化路径的尾部与第二最优联想演化路径的首部相连接形成一条最优联想演化路径,合并所有最优联想演化路径得到专利技术演化脉络;第一最优联想演化路径的路径终点的词语节点与第二最优联想演化路径的路径起点的词语节点相同。
本发明的有益技术效果是:
本申请公开了一种专利技术演化脉络的提取方法,该方法通过语义分析专利文本,借鉴“联想记忆”机制,将专利文本中的主从权利要求引用关系转变为上下位语义关联关系,同时联合共现关系构造时间维度和空间维度上的词语节点之间的全局联想网络,此外引入TextRank方法计算全局联想网络中的词语节点的节点权重,通过节点权重和边联想强度提取得到的专利技术演化脉络可以清晰地指示专利技术的演化发展过程,分析不同时间的技术研究热点,并且为知识推荐提供个性化的服务,提供的信息更丰富且又有价值,可以给用户生成具有时间上连续的技术演化序列,辅助用户进行技术发展脉络的理解与学习,对个性化知识推荐具有显著的价值意义。
附图说明
图1是一个实施例中的专利技术演化脉络的提取方法的流程图。
图2是一个实施例中的构建一个专利文本的局部联想网络的方法流程图。
图3是一个实例中的构建一个专利文本的局部联想网络的示意图。
图4是一个实例中构建得到的一个专利文本的局部联想网络的示意图。
图5是由各个专利文本的局部联想网络得到全局联想网络的示意图。
图6是另一个实施例中的专利技术演化脉络的提取方法的流程图。
图7是一个实例中的提取得到的专利技术演化脉络的部分示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本申请公开了一种专利技术演化脉络的提取方法,该方法包括如下步骤,请参考图1所示的流程图:
步骤100,构建专利样本集,专利样本集中包括若干专利文本,专利样本集中的专利文本的申请日在时间维度上各不相同。
由于本申请的方法是为了提取专利技术演化脉络,因此在构建专利样本集时,选取的专利文本往往都是具有技术相关性的,因此在实际操作时,为了保证专利文本的技术相关性,可以参考IPC分类标准来提取具有技术相关性的专利文本,也即提取申请日在预定时间段内的相同IPC分类层次下的专利文本来构建得到专利样本集,这里的IPC分类层次根据实际需要可以是部、大类、小类、大组、小组中的任意一种。比如提取申请日在2010-2015年之间的IPC分类号为H04N的专利文本,这些专利文本都属于图像通信技术领域。
通过上述可以提取到专利申请文件,但原始的专利申请文件包含的内容较多,而专利申请文件中反映专利技术信息的内容主要记载在专利标题和权利要求书中,因此在一个实施例中,对专利申请文件通过JSON转化工具获取专利标题和权利要求书作为专利文本,从而可以在保留有效信息的基础上减少冗余信息,减少后续数据处理量。
可选的,在获取到专利标题和权利要求书后,并不直接作为专利文本,而是经过数据去噪处理后再作为专利文本,数据去噪处理用于去除专利标题和权利要求书中包含符号、链接、乱码在内的噪声数据。
构建得到的专利样本集中的所有专利文本的申请日覆盖若干个连续的时间段,由此可以确定每个专利文本的申请日所在的时间段,也可以确定申请日在同一个时间段内的所有专利文本。各个时间段连续且不重叠,各个时间段的时间长度可以相同也可以不同,每个时间段内包含的专利文本的数量可以相同也可以不同,本申请对此不做限定。
步骤200,基于自然语言处理对每个专利文本进行语义分析,构建得到每个专利文本的局部联想网络。每个专利文本的局部联想网络指示该专利文本中包括的词语节点之间的语义联想关系以及联想强度。
构建得到局部联想网络的方法包括如下步骤,请参考图2所示的流程图:
步骤210,首对专利文本执行分词处理,得到专利文本由若干个词语节点形成的词语序列,分词处理可以采用常规的结巴分词的方法实现,本申请不详细赘述。
步骤220,确定专利文本中所有存在直接语义联想关系的词语节点对,以及确定专利文本中所有通过各自的中介线索词存在间接语义联想关系的词语节点对。其中,直接语义联想关系指示由词语节点对中的一个词语节点直接语义联想得到另一个词语节点,间接语义联想关系指示由词语节点对中的一个词语节点通过对应的中介线索词间接语义联想得到另一个词语节点。
人脑中的知识通常是以联想记忆的形式存在,定义其他知识到目标知识的联想语义支撑度来解释建构关系。本申请将这种联想记忆机制运用到知识网络的构造,将段落中的词语节点看作神经元联想对象,将同一段落内的词间共现关系看作一种直接语义联想关系,而不同段落间的词间关系看作一种间接语义联想关系。
对于直接语义联想关系,该实施例将直接语义联想关系定义为专利文本的段落内词语节点的共现关系,即一句话中先后出现的两个词语节点间存在直接语义联想关系,并且是由前一个词语节点联想到后一个词语节点。
对于间接语义联想关系,考虑到专利文本具有固定的格式,权利要求分为独立权利要求和从属权利要求,独立权利要求从技术整体进行描述内容及其特征,通常可以单独存在。而从属权利要求其内容编写分为两部分,一是引用部分,引用前文中提到的权利要求条目,例如“根据权利要求2所述”;二是特征部分,进一步补充独立权利要求的内容,并且对引用部分添加额外的限定特征。因此专利文本中可以将不同的权利要求作为不同的段落,根据权利要求之间的引用关系就能确定段落之间的上下位关系,突破联想空间的局限性,产生不同段落间的上下层级联想关系,即作为间接联想关系。
因此,对于专利文本中任意的词语节点wmn和词语节点wmn':
当词语节点wmn和词语节点wmn'位于专利文本的同一个段落内的同一个句子中时,确定词语节点wmn和词语节点wmn'构成一对存在直接语义联想关系的词语节点对,且直接语义联想关系指示由相对位置在前的词语节点wmn直接语义联想得到相对位置在后的词语节点wmn'。
和/或,当词语节点wmn位于上位段落Pm内的句子Smj中、词语节点wmn'位于下位段落Pm'内的句子Sm'j'中,下位段落Pm'引用上位段落Pm,且句子Smj中和句子Sm'j'中存在同一个中介线索词wt时,确定词语节点wmn和词语节点wmn'通过中介线索词wt构成一对存在间接语义联想关系的词语节点对,且间接语义联想关系指示由相对位置在前的词语节点wmn通过中介线索词wt间接语义联想得到相对位置在后的词语节点wmn',其中,中介线索词wt与词语节点wmn和词语节点wmn'不同。其中,当下位段落Pm'对应的权利要求引用上位段落Pm对应的权利要求时,表示下位段落Pm'引用上位段落Pm。
对于词语节点wmn和词语节点wmn'形成的一组直接语义联想关系,可以根据两个词语节点的相对位置索引得到该组直接语义联想关系的强度 是直接语义联想关系中的词语节点wmn的相对位置索引,是直接语义联想关系中的词语节点wmn'的相对位置索引。
对于词语节点wmn和词语节点wmn'形成的一组直接语义联想关系,可以根据两个词语节点以及中介线索词的相对位置索引得到该组间接语义联想关系的强度 是间接语义联想关系中的词语节点wmn的相对位置索引,是间接语义联想关系中的词语节点wmn'的相对位置索引,是与词语节点wmn位于同一个段落Pm内的同一个句子Smj中的中介线索词wt的相对位置索引,是与词语节点wmn'位于同一个段落Pm'内的同一个句子Sm'j'中的中介线索词wt的相对位置索引。
步骤230,对得到的所有存在直接语义联想关系词语节点对进行合并去重,并根据词语节点对中两个词语节点的相对位置索引确定词语节点对之间的语义联想关系的联想强度,构建得到专利文本的局部联想网络。
通过步骤220可以得到专利文本中所有存在语义联想关系的词语节点对,但有些词语节点会重复出现在专利文本的各个段落和句子中,因此确定得到的这些词语节点对中会存在重复的内容,主要会存在如下两种重复情况:(1)两组词语节点对中有一个词语节点重复,比如词语节点wmn和词语节点wmn'存在直接语义联想关系,词语节点wmn和词语节点wm′n也存在直接语义联想关系,则这两组词语节点对中存在重复的词语节点wmn。(2)两个词语节点之间存在多组语义联想关系,包括直接语义联想关系和/或间接语义联想关系。比如,位于段落Pm1内同一个句子中的词语节点wmn和词语节点wmn'存在一组直接语义联想关系1,位于段落Pm2内同一个句子中的词语节点wmn和词语节点wmn'存在一组直接语义联想关系2,位于段落Pm3内的词语节点wmn和位于段落Pm4内的词语节点wmn'存在一组间接语义联想关系3,则同一组词语节点对wmn和wmn'之间共存在三组语义联想关系。
该实施例会针对上述两种重复情况都进行合并处理,合并去重各个词语节点对中重复的词语节点、同一个词语节点仅保留一个,同时合并相同的词语节点对之间的语义联想关系,由于间接语义联想关系还需要使用到中介线索词,不同的间接语义联想关系中使用的中介线索词可能不同,因此一般间接语义联想关系是互不相同的、不进行合并,而是对多组直接语义联想关系进行合并以保留唯一一组直接语义联想关系。由此得到的局部联想网络中包括若干个互不相同的词语节点,且每个词语节点与至少一个其他词语节点存在语义联想关系,也即局部联想网络中去除了专利文本中不与任何其他词语节点存在语义联想关系的独立的词语节点。
而局部联想网络中的每两个词语节点之间的语义联想关系具有相应的联想强度。由于局部联想网络中的词语节点是对原始的专利文本中的词语节点做了去重合并后的结果,因此为了区分,以词语节点a和词语节点b来描述局部联想网络中的任意一个词语节点对,有两种情况:
(1)若词语节点a和词语节点b在原始的专利文本中有且仅有一组语义联想关系,也即未经过语义联想关系的合并操作,那么词语节点a和词语节点b之间的联想强度是直接按照上述计算公式得到一组语义联想关系的强度。
(2)若词语节点a和词语节点b在原始的专利文本中有多组语义联想关系,那么其在局部联想网络中的语义联想关系的联想强度是由原始的多组语义联想关系的强度合并得到的。
上述两种情况可以统一描述为:由词语节点a语义联想得到词语节点b的语义联想关系的联想强度为:
其中,Rd(a,b)表示词语节点a和词语节点b之间的直接语义联想关系的强度,Rs(a,b)表示词语节点a和词语节点b之间的间接语义联想关系的强度。
当词语节点a和词语节点b之间仅存在间接语义联想关系、不存在任何直接语义联想关系时,Rd(a,b)=0。当词语节点a和词语节点b之间存在至少一组直接语义联想关系时,每组直接语义联想关系的强度Rd(a,b)=Ia-Ib,Ia是直接语义联想关系中的词语节点a的相对位置索引,Ib是直接语义联想关系中的词语节点b的相对位置索引。计算方法与上述步骤220类似。
当词语节点a和词语节点b之间仅存在直接语义联想关系、不存在任何间接语义联想关系时,Rs(a,b)=0。当词语节点a和词语节点b之间存在至少一组间接语义联想关系时,每组间接语义联想关系的强度 是间接语义联想关系中的词语节点a的相对位置索引,是间接语义联想关系中的词语节点b的相对位置索引,是与词语节点a位于同一个段落内的同一个句子中的中介线索词c的相对位置索引,是与词语节点b位于同一个段落内的同一个句子中的中介线索词c的相对位置索引。计算方法与上述步骤220类似。
为了保证联想强度的一致性,消除某些特殊节点带来的不良影响,在一个实施例中还对不同的语义联想关系的联想强度进行归一化处理,实现词语节点间的量级一致,联想强度Uab归一化后的值为其中,max{U}是所有语义联想关系的联想强度的最大值,min{U}是所有语义联想关系的联想强度的最小值。
请参考图3所示的构造一个专利文本的局部联想网络的示意图,在图3的(a)中,一个上位段落P1包含两个下位段落P2和P3,段落P1、P2和P3中分别包括三个词语节点。如图(b)所示,每一个段落内的三个词语节点的两两之间的实线箭头表示了两个词语节点之间的直接语义联想关系。如图(c)所示,不同段落内的词语节点之间的虚线箭头表示两个词语节点之间的间接语义联想关系。最终对所有词语节点之间的所有语义联想关系进行融合去重,得到专利文本的局部联想网络,如图(d)所示。
在一个实例中,对一个专利文本构建得到的局部联想网络如图4所示,不同词语节点之间的箭头表示两者之间的语义联想关系,由箭头起点的词语节点可以语义联想得到箭头终点的词语节点,且每一组语义联想关系都有相应的联想强度。
步骤300,对所有专利文本的局部联想网络按照专利文本的申请日的先后顺序合并得到所有专利文本的全局联想网络。得到的全局联想网络指示专利样本集中所有专利文本包含的所有语义联想关系及其联想强度,以及同一个词语节点随着时间顺序的继承演化关系。
在一个实施例中,如上所述,所有专利文本的申请日被划分为若干个实际段,则该步骤包括如下两部分:
对申请日位于同一个时间段内的所有专利文本:将这些专利文本的局部联想网络中的相同的词语节点进行合并去重,得到各个时间段的段内联想网络,段内联想网络指示申请日位于同一个时间段内的所有专利文本包含的所有语义联想关系及对应的联想强度。
对不同时间段的段内联想网络:确定每一个时间段的段内联想网络中的词语节点继承演化相邻的前一个时间段的段内联想网络中的相同的词语节点,得到每相邻两个时间段之间的相同的词语节点的继承演化关系,合并得到全局联想网络。
以一个简单的示例,假设仅包含两个时间段分别为第一时间段和第二时间段,第一时间段和第二时间段相邻且第一时间段在前。第一时间段内包含专利文本1和专利文本2,第二时间段内包含专利文本3和专利文本4,则由专利文本1和专利文本2的局部联想网络合并得到第一时间段的段内联想网络,由专利文本3和专利文本4的局部联想网络合并得到第二时间段的段内联想网络,继而由到第一时间段的段内联想网络和第二时间段的段内联想网络合并得到全局联想网络的示意图如图5所示。全局联想网络中的实线箭头表示词语节点之间的语义联想关系、虚线箭头表示词语节点之间的继承演化关系。
步骤400,基于词语节点之间在时间维度和空间维度的相互影响、利用时空维度TextRank模型计算得到全局联想网络中的各个词语节点的节点权重。
全局联想网络中各个词语节点之间的联想强度由各个专利文本的局部联想网络得到,这属于局部性特征。除此之外,还需要确定全局联想网络中的各个词语节点的节点权重,这属于全局性特征。
全局联想网络不仅在空间维度上指示同一个时间段的段内联想网络中的词语节点的语义联想关系,还在时间维度上指示不同时间段的段内联想网络中的词语节点之间的继承演化关系。因此在计算全局性的各个词语节点的节点权重时,不仅考虑同一个时间段的段内联想网络中不同词语节点之间的空间维度的互相影响,还考虑上个时间段的段内联想网络中的词语对当前时间段的段内联想网络中的词语在时间维度的影响。
其中,d为阻尼系数且d<1,比如可以设置为0.85。反映词语节点在空间维度受到的影响,是时间段t的段内联想网络中指向词语节点Vi的词语节点Vj的节点权重,是词语节点Vj指向词语节点Vi的权重,表示词语节点Vj在时间段t内指向其他词语节点的权重之和;
反映词语节点在时间维度受到的影响,表示时间段t-1的段内联想网络中的词语节点Vi的权重,表示词语节点Vi在时间段t-1内指向其他词语节点的权重之和,时间段t-1内的词语节点Vi对时间段t内的词语节点Vi完全影响。因此时间段t中的词语节点Vi是对相邻的上一个时间段t-1中相同的词语节点Vi的继承演化,并且在继承演化的同时,也继承了时间段t-1中该词语节点Vi的权重影响。
步骤500,基于各个词语节点的节点权重以及每两个词语节点之间的联想强度,确定通过全局联想网络指示的语义联想关系和继承演化关系形成的词语节点之间的各条联想演化路径的路径联想强度,并根据路径联想强度确定词语节点之间的最优联想演化路径,由不同词语节点之间的最优联想演化路径提取得到专利技术演化脉络。
实际操作的方式可以是:从第一个时间段的段内联想网络中的任意一个词语节点为起点,若相邻两个时间段的段内联想网络中存在具有继承演化关系的词语节点,则通过相邻两个时间段的段内联想网络中存在继承演化关系的词语节点,确定一个时间段内的词语节点与其相邻的另一个时间段内的词语节点之间的最优联想演化路径,原则是用尽可能少的最优联想演化路径覆盖尽可能多的词语节点,通常此时可以获得多条最优联想演化路径。从第二个时间段开始,同样执行上述操作寻找相邻两个时间段内的词语节点的最优联想演化路径,若相邻两个时间段的段内联想网络中不存在具有继承演化关系的词语节点,则以下一个时间段的段内联想网络中的任意一个词语节点为起点,直至对所有时间段的段内联想网络完成处理。
另外,为了描述演化脉络的连贯性,将第一最优联想演化路径的尾部与第二最优联想演化路径的首部相连接形成一条最优联想演化路径,合并所有最优联想演化路径得到专利技术演化脉络,第一最优联想演化路径的路径终点的词语节点与第二最优联想演化路径的路径起点的词语节点相同。若一条最优联想演化路径的路径起点的词语节点与上一个时间段内的所有最优联想演化路径的路径终点的词语节点都不相同,则当前一条最优联想演化路径作为整体专利技术演化脉络的一条独立脉络,由此可以生成多条技术演化脉络涵盖技术不同细化方向,并且技术演化脉络覆盖全局联想网络中全部词语节点。
对于分别位于两个相邻的时间段的段内联想网络中的词语节点Vi和词语节点Vj,词语节点Vi和词语节点Vj之间存在的联想演化路径有两类:
静态联想演化路径:作为路径起点的词语节点Vi和作为路径终点的词语节点Vj相同,则在相邻时间段的两个段内联想网络中,相同的词语节点间生成一条独立的静态联想演化路径。静态联想演化路径一般是唯一的。
动态联想演化路径:作为路径起点的词语节点Vi和作为路径终点的词语节点Vj不同,则在相邻时间段的两个段内联想网络中,两个不同的词语节点间生成一条动态联想演化路径。两个词语节点之间可能存在多条动态联想演化路径,因此需要从中选择一条作为最优联想演化路径。比如图5所示的全局联想网络中,词语节点A和词语节点N作为相邻两个时间段内的词语节点,两者间存在两条动态联想演化路径:A-D-G-J-N和A-D-F-H-K-N。
该实施例选择最优联想演化路径的方法时:词语节点Vi和词语节点Vj之间可能会形成多条联想演化路径,形成的每条联想演化路径的路径联想强度RWij为:则将词语节点Vi和词语节点Vj之间形成的各条联想演化路径中路径联想强度平均值最大的作为词语节点Vi和词语节点Vj之间的最优联想演化路径。其中,S(Vi)表示词语节点Vi的节点权重,S(Vi)表示词语节点Vj的节点权重,Uij表示词语节点Vi和词语节点Vj之间的联想强度,M是词语节点Vi和词语节点Vj之间形成的联想演化路径所经过的词语节点的总数。
可选的在一个实施例中,上述步骤500并不直接基于全局联想网络来提取专利技术演化脉络,而是进一步对全局联想网络中的词语节点进行挖掘筛选,选出更具有技术代表性的专利技术词,则该方法还包括如下步骤,请参考图6:
步骤610,基于全局联想网络中各个词语节点的节点权重,以及每两个词语节点之间的联想强度得到全局联想网络中两个词语节点之间的复合权重。
词语节点Vi和词语节点Vj之间的复合权重CWij为:
其中,Uij表示词语节点Vi和词语节点Vj之间的联想强度,S(Vi)表示词语节点Vi的节点权重,S(Vi)表示词语节点Vj的节点权重,len代表全局联想网络中包含的词语节点的个数,k为参数,S(Vk)表示任意的词语节点Vk的节点权重。
步骤620,根据每两个词语节点之间的复合权重对全局联想网络中的所有词语节点进行AP聚类,并保留AP聚类中心包含的词语节点作为技术词节点,保留全局联想网络中的技术词节点及之间的语义联想关系,对全局联想网络进一步筛选得到技术词联想网络。
则上述步骤500中,基于技术词联想网络得到技术词节点之间的最优联想演化路径,合并得到专利技术演化脉络。也即基于各个技术词节点的节点权重以及每两个技术词节点之间的联想强度,确定通过技术词联想网络指示的语义联想关系和继承演化关系形成的技术词节点之间的各条联想演化路径的路径联想强度,并根据路径联想强度确定技术词节点之间的最优联想演化路径,由不同技术词节点之间的最优联想演化路径提取得到专利技术演化脉络,且得到的专利技术演化脉络覆盖技术词联想网络中全部的技术词节点。具体操作与上述通过全局联想网络实现的方法是类似的,该实施例不再赘述。
最终可以将抽取的专利技术演化脉络作为知识的词义发展脉络进行保存,图7中给出了一个实例中的部分专利技术演化脉络的细节展示。
以上的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
Claims (10)
1.一种专利技术演化脉络的提取方法,其特征在于,所述方法包括:
构建专利样本集,所述专利样本集中包括若干专利文本;
基于自然语言处理对每个专利文本进行语义分析,构建得到所述专利文本的局部联想网络,所述局部联想网络指示所述专利文本中包括的词语节点之间的语义联想关系以及联想强度;
对所有专利文本的局部联想网络按照专利文本的申请日的先后顺序合并得到所有专利文本的全局联想网络,所述全局联想网络指示所述专利样本集中所有专利文本包含的所有语义联想关系及其联想强度,以及同一个词语节点随着时间顺序的继承演化关系;
基于词语节点之间在时间维度和空间维度的相互影响、利用时空维度TextRank模型计算得到所述全局联想网络中的各个词语节点的节点权重;
基于各个词语节点的节点权重以及每两个词语节点之间的联想强度,确定通过所述全局联想网络指示的语义联想关系和继承演化关系形成的词语节点之间的各条联想演化路径的路径联想强度,并根据路径联想强度确定词语节点之间的最优联想演化路径,由不同词语节点之间的最优联想演化路径提取得到专利技术演化脉络。
2.根据权利要求1所述的方法,其特征在于,构建得到所述专利文本的局部联想网络,包括对于所述专利文本:
确定所述专利文本中所有存在直接语义联想关系的词语节点对,以及确定所述专利文本中所有通过各自的中介线索词存在间接语义联想关系的词语节点对,所述直接语义联想关系指示由词语节点对中的一个词语节点直接语义联想得到另一个词语节点,所述间接语义联想关系指示由词语节点对中的一个词语节点通过对应的中介线索词间接语义联想得到另一个词语节点;
对得到的所有存在直接语义联想关系的词语节点对进行合并去重,并根据词语节点对中两个词语节点的相对位置索引确定所述词语节点对之间的语义联想关系的联想强度,构建得到所述专利文本的局部联想网络,所述局部联想网络中包括若干个互不相同的词语节点,且每个词语节点与至少一个其他词语节点存在语义联想关系,每两个词语节点之间的语义联想关系具有相应的联想强度。
3.根据权利要求2所述的方法,其特征在于,对于所述专利文本中任意的词语节点wmn和词语节点wmn':
当词语节点wmn和词语节点wmn'位于所述专利文本的同一个段落内的同一个句子中时,确定词语节点wmn和词语节点wmn'构成一对存在直接语义联想关系的词语节点对,且所述直接语义联想关系指示由相对位置在前的词语节点wmn直接语义联想得到相对位置在后的词语节点wmn';
和/或,当词语节点wmn位于上位段落Pm内的句子Smj中、词语节点wmn'位于下位段落Pm'内的句子Sm'j'中,所述下位段落Pm'引用所述上位段落Pm,且句子Smj中和句子Sm'j'中存在同一个中介线索词wt时,确定词语节点wmn和词语节点wmn'通过中介线索词wt构成一对存在间接语义联想关系的词语节点对,且所述间接语义联想关系指示由相对位置在前的词语节点wmn通过中介线索词wt间接语义联想得到相对位置在后的词语节点wmn',其中中介线索词wt与词语节点wmn和词语节点wmn'不同。
4.根据权利要求3所述的方法,其特征在于,由词语节点a语义联想得到词语节点b的语义联想关系的联想强度为:
其中,Rd(a,b)表示词语节点a和词语节点b之间的直接语义联想关系的强度,Rs(a,b)表示词语节点a和词语节点b之间的间接语义联想关系的强度;
当词语节点a和词语节点b之间仅存在间接语义联想关系时,Rd(a,b)=0;当词语节点a和词语节点b之间存在至少一组直接语义联想关系时,每组直接语义联想关系的强度Rd(a,b)=Ia-Ib,Ia是所述直接语义联想关系中的词语节点a的相对位置索引,Ib是所述直接语义联想关系中的词语节点b的相对位置索引;
5.根据权利要求1所述的方法,其特征在于,所述专利样本集中的所有专利文本的申请日覆盖若干个连续的时间段,所述合并得到所有专利文本的全局联想网络,包括:
对申请日位于同一个时间段内的所有专利文本的局部联想网络中的相同的词语节点进行合并去重,得到各个时间段的段内联想网络,所述段内联想网络指示申请日位于同一个时间段内的所有专利文本包含的所有语义联想关系及对应的联想强度;
确定每一个时间段的段内联想网络中的词语节点继承演化相邻的前一个时间段的段内联想网络中的相同的词语节点,得到每相邻两个时间段之间的相同的词语节点的继承演化关系,合并得到所述全局联想网络。
6.根据权利要求5所述的方法,其特征在于,所述全局联想网络中的时间段t的段内联想网络中的词语节点Vi的节点权重St(Vi t)为:
其中,d为阻尼系数且d<1,反映词语节点Vi t在空间维度受到的影响,是时间段t的段内联想网络中指向词语节点Vi的词语节点Vj的节点权重,是词语节点Vj指向词语节点Vi的权重,表示词语节点Vj在时间段t内指向其他词语节点的权重之和;
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述全局联想网络中各个词语节点的节点权重,以及每两个词语节点之间的联想强度得到所述全局联想网络中两个词语节点之间的复合权重;
根据每两个词语节点之间的复合权重对所述全局联想网络中的所有词语节点进行AP聚类,并保留AP聚类中心包含的词语节点作为技术词节点,保留所述全局联想网络中的技术词节点及之间的语义联想关系,筛选得到技术词联想网络;
则基于所述技术词联想网络得到技术词节点之间的最优联想演化路径,合并得到专利技术演化脉络。
10.根据权利要求5所述的方法,其特征在于,所述提取得到专利技术演化脉络,包括:
从第一个时间段的段内联想网络中的任意一个词语节点为起点,若相邻两个时间段的段内联想网络中存在具有继承演化关系的词语节点,则通过相邻两个时间段的段内联想网络中存在继承演化关系的词语节点,确定一个时间段内的词语节点与其相邻的另一个时间段内的词语节点之间的最优联想演化路径;若相邻两个时间段的段内联想网络中不存在具有继承演化关系的词语节点,则以下一个时间段的段内联想网络中的任意一个词语节点为起点,直至对所有时间段的段内联想网络完成处理;
将第一最优联想演化路径的尾部与第二最优联想演化路径的首部相连接形成一条最优联想演化路径,合并所有最优联想演化路径得到所述专利技术演化脉络;所述第一最优联想演化路径的路径终点的词语节点与所述第二最优联想演化路径的路径起点的词语节点相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620493.3A CN114880477A (zh) | 2022-06-02 | 2022-06-02 | 一种专利技术演化脉络的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620493.3A CN114880477A (zh) | 2022-06-02 | 2022-06-02 | 一种专利技术演化脉络的提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114880477A true CN114880477A (zh) | 2022-08-09 |
Family
ID=82680613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210620493.3A Pending CN114880477A (zh) | 2022-06-02 | 2022-06-02 | 一种专利技术演化脉络的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880477A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881400A (zh) * | 2015-05-19 | 2015-09-02 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
CN110502640A (zh) * | 2019-07-30 | 2019-11-26 | 江南大学 | 一种基于建构的概念词义发展脉络的提取方法 |
CN114491060A (zh) * | 2021-12-28 | 2022-05-13 | 永中软件股份有限公司 | 动态联想知识网络的更新方法、语义纠错方法 |
-
2022
- 2022-06-02 CN CN202210620493.3A patent/CN114880477A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881400A (zh) * | 2015-05-19 | 2015-09-02 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
CN110502640A (zh) * | 2019-07-30 | 2019-11-26 | 江南大学 | 一种基于建构的概念词义发展脉络的提取方法 |
CN114491060A (zh) * | 2021-12-28 | 2022-05-13 | 永中软件股份有限公司 | 动态联想知识网络的更新方法、语义纠错方法 |
Non-Patent Citations (1)
Title |
---|
黄兆欣: "半结构化文档特征抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109844742B (zh) | 分析系统 | |
CN113239181A (zh) | 基于深度学习的科技文献引文推荐方法 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
Al Wazrah et al. | Sentiment analysis using stacked gated recurrent unit for arabic tweets | |
CN110502640A (zh) | 一种基于建构的概念词义发展脉络的提取方法 | |
CN110472043B (zh) | 一种针对评论文本的聚类方法及装置 | |
JP6447161B2 (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
KR101975419B1 (ko) | 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법 | |
JP6946842B2 (ja) | モデル学習装置、変換装置、方法、及びプログラム | |
CN112269868A (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
JPWO2007060780A1 (ja) | 発想支援装置、発想支援方法および発想支援用プログラム | |
CN113961685A (zh) | 信息抽取方法及装置 | |
JP6239344B2 (ja) | テキスト処理装置、テキスト処理方法およびプログラム | |
KR20200088088A (ko) | 단어 속성 분류 장치 및 방법 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN115994535A (zh) | 文本处理方法及装置 | |
JP2004318510A (ja) | 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法 | |
JP7031462B2 (ja) | 分類プログラム、分類方法、および情報処理装置 | |
Martins et al. | Evotype: Evolutionary type design | |
CN114880477A (zh) | 一种专利技术演化脉络的提取方法 | |
CN111475607A (zh) | 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法 | |
KR102540665B1 (ko) | 한국어 언어 모델에 기반한 핵심문장 추출장치 및 그 방법 | |
KR102534131B1 (ko) | 대화 형식 기반의 도서 추천 서비스 제공 방법 및 그를 위한 장치 | |
CN115169368A (zh) | 基于多文档的机器阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220809 |
|
RJ01 | Rejection of invention patent application after publication |