CN115640375A - 专利文献中的技术问题抽取方法及相关设备 - Google Patents
专利文献中的技术问题抽取方法及相关设备 Download PDFInfo
- Publication number
- CN115640375A CN115640375A CN202211242396.1A CN202211242396A CN115640375A CN 115640375 A CN115640375 A CN 115640375A CN 202211242396 A CN202211242396 A CN 202211242396A CN 115640375 A CN115640375 A CN 115640375A
- Authority
- CN
- China
- Prior art keywords
- technical problem
- extraction
- sentence
- statement
- extraction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 263
- 238000005516 engineering process Methods 0.000 claims abstract description 56
- 230000014509 gene expression Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001125 extrusion Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 10
- 230000007812 deficiency Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种专利文献中的技术问题抽取方法及相关设备,目标专利文献的专利内容部分和背景技术部分中出现的关于技术问题的表述具有不同的语义特点,其中,专利内容部分包括发明内容和发明内容。根据专利内容部分中的句子具有固定表述的语义特点,预先构建技术问题抽取模型,采用该技术问题抽取模型从专利内容部分抽取技术问题,避免了直接采用技术问题抽取模型从背景技术部分抽取技术问题,从而消除了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,进而提高了技术问题抽取的有效性和精确性。
Description
技术领域
本申请涉及文本数据分析技术领域,尤其涉及一种专利文献中的技术问题抽取方法及相关设备。
背景技术
近年来,随着专利文献量的日益递增,对专利文献进行深加工的需求已经越来越迫切。专利文献的主体内容主要包括技术领域、背景技术、发明内容和发明内容、附图说明以及具体实施方式等部分。对专利主体内容进行精细化的解构能有效的帮助用户从海量的专利文献数据中寻找目标技术方案。专利文献中的技术问题是描述该专利所在的领域目前存在的未解决的问题、缺陷和不足,专利文献就是针对这些不足之处所做的改进。
通常,对于技术问题的抽取,一般采用基于规则或基于机器学习的方法在整个专利文献中抽取完成。但是,专利文献中的不同部分具有不同的语义特征,所以在基于单个抽取方法对整个专利文献中的技术问题进行抽取时,单个抽取方法对专利文献中的不同部分有不同的方法适应性,造成了抽取技术问题结果的低效率和不准确。
发明内容
有鉴于此,本申请的目的在于提出一种专利文献中的技术问题抽取方法及相关设备,用以解决或部分解决上述技术问题。
基于上述目的,本申请的第一方面提供了一种专利文献中的技术问题抽取方法,包括:
获取目标专利文献的专利内容部分和背景技术部分;
从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。
本申请的第二方面提供了一种专利文献中的技术问题抽取装置,包括:
获取模块,被配置为获取目标专利文献的专利内容部分和背景技术部分;
抽取模块,被配置为从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。
本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述方法。
从上面所述可以看出,本申请提供的专利文献中的技术问题抽取方法及相关设备,目标专利文献的专利内容部分和背景技术部分中出现的关于技术问题的表述具有不同的语义特点,其中,专利内容部分包括发明内容和发明内容。根据专利内容部分中的句子具有固定表述的语义特点,预先构建技术问题抽取模型,采用该技术问题抽取模型从专利内容部分抽取技术问题,避免了直接采用技术问题抽取模型从背景技术部分抽取技术问题,从而消除了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,进而提高了技术问题抽取的有效性和精确性。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为背景技术部分中的技术问题的示意图;
图1b为专利内容部分中的技术问题的示意图;
图2a为本申请实施例的专利文献中的技术问题抽取方法的流程示意图;
图2b为步骤202的步骤展开示意图;
图2c为本申请实施例的实体识别模型的训练流程图;
图3为本申请另一个实施例的专利文献中的技术问题抽取方法的流程示意图;
图4a为本申请实施例的专利文献中的技术问题抽取装置的结构示意图;
图4b为本申请实施例的抽取模块的结构示意图;
图5为本申请实施例的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术所述,专利文献中的技术问题是描述该专利所在的领域目前存在的未解决的问题、缺陷和不足,专利文献就是针对这些不足之处所做的改进。专利技术问题一般出现在专利说明书的“背景技术”和/或“发明内容”的开头部分,并且,也会出现在专利说明书的上述部分中找不到专利技术问题的情况。对专利的技术问题进行分析,能够帮助研发人员更清晰的了解一个领域存在的问题和不足,提高了专利分析工作的效率,减少了研发人员调研的工作量,从而推动创新的进程。
技术问题一般存在于“背景技术”或“发明内容”中,根据对技术问题数据分析,在“发明内容”中的技术问题往往表述更为精确、简练。因此,优先从“发明内容”部分抽取,若“发明内容”部分没有抽取到技术问题,再从“背景技术”部分抽取技术问题。根据对专利文献的数据统计,有80%的技术问题存在于“背景技术”中,如图1a所示,专利A技术问题存在于“背景技术”中。另外有20%的专利,其技术问题存在于“发明内容”中。如图1b所示,专利B技术问题存在于“发明内容”中。
对技术问题的抽取,不仅仅只是抽取描述问题的句子,往往还需要短语,词等不同粒度的表述以适应不同的应用场景。其中语句级别的技术问题是最全面完整的描述,短语级别的技术问题是更简练的问题描述,而词级别的技术问题适合对批量专利进行问题聚类分析。因此,技术问题的抽取首先需要在专利文献中定位到专利问题描述句,再从语句里抽取问题短语和问题词。从而形成从粗到细的完整技术问题抽取结果。
目前,还没有一套完整的,抽取不同粒度技术问题的方法和系统,最常见的抽取系统是直接抽取句子或词,忽略的短语级别的技术问题抽取。而抽取句子和词级别的技术问题,最常见的抽取方法包括基于规则的抽取方法以及基于传统机器学习的抽取方法,这两类方法抽取的效果比较差,早已不能满足精度需求。
基于规则的抽取方法:主要通过制定关联规则、情感词典、主题词词典进行抽取,或者利用句法规则进行抽取加文本过滤的方式。该方法需要耗费大量的时间来制定规则和词典,不仅耗时耗力,而且存在效率低、工作周期长以及人工成本高的缺点。
基于传统机器学习的抽取方法:该方法主要通过传统的机器学习分类算法和信息抽取方法来抽取技术问题,包括最大熵模型,条件随机场、支持向量机等算法。但是这类方法需要人工进行复杂的特征工程,特征选择的好坏直接决定了模型的效果。该方法不适合数据量大的专利信息抽取任务,并且抽取的准确率也不高。
因此,传统的技术问题抽取方法往往只关注技术问题句子或技术问题词,目前缺少一套从粗到细(从技术问题句,到技术问题短语,再到技术问题词),完整的提取技术问题的系统。并且,传统的方法抽取精度和成本都存在很大的缺陷。
如图2a所示,本实施例的方法包括:
步骤201,获取目标专利文献的专利内容部分和背景技术部分。
在该步骤中,目标专利文献指的是针对技术问题所做的改进文献。本实施例优选的目标专利文献可以是包括技术问题的,针对技术问题所述的改进文献。专利内容部分指的是表示具体如何解决技术问题的部分,本实施例优选的专利内容部分可以是目标专利文献中,表示具体如何解决技术问题的部分。背景技术部分指的是表示专利技术方案背景的部分,本实施例优选的背景技术部分可以是目标专利文献中,表示专利技术方案背景的部分。例如,目标专利文献可以是发明专利或发明专利的说明书部分,专利内容部分可以是说明书部分中标注有“发明内容”或“发明内容”标签的段落,背景技术部分可以是说明书部分中标注有“背景技术”标签的段落。这样,为后续技术问题的提取提供数据基础。
步骤202,从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。
在该步骤中,技术问题抽取模型指的是能够从文本数据中抽取技术问题的模型,本实施例优选的技术问题抽取模型可以是能够从专利内容部分或背景技术部分对应的文本数据中抽取技术问题的模型。例如,技术问题抽取模型可以是基于神经网络构建的模型,也可以是结合目标专利文献中文本数据特点构建的模型,还可以是结合目标专利文献中文本数据特点构建的神经网络模型。
通过上述方案,目标专利文献的专利内容部分和背景技术部分中出现的关于技术问题的表述具有不同的语义特点,其中,专利内容部分包括发明内容和发明内容。根据专利内容部分中的句子具有固定表述的语义特点,预先构建技术问题抽取模型,采用该技术问题抽取模型从专利内容部分抽取技术问题,避免了直接采用技术问题抽取模型从背景技术部分抽取技术问题,从而消除了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,进而提高了技术问题抽取的有效性和精确性。
在一些实施例中,如图2b所示,步骤202具体包括:
步骤2021,采用所述技术问题抽取模型从所述专利内容部分抽取得到第一语句抽取结果。
步骤2022,根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题。
在上述方案中,第一语句抽取结果指的是抽取技术问题所需要的语句,本实施例优选的第一语句抽取结果可以是通过技术问题抽取模型获取到的,抽取技术问题所需要的语句。
通过上述方案,为后续是否从背景技术部分抽取所述技术问题提供判断基础。
在一些实施例中,所述根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题,包括:
步骤20221,判断所述第一语句抽取结果中是否存在所述技术问题对应的语句,得到第一判断结果。
步骤20222,响应于确定所述第一判断结果为存在所述技术问题对应的语句,根据所述第一语句抽取结果生成所述技术问题抽取结果。
步骤20223,响应于确定所述第一判断结果为不存在所述技术问题对应的语句,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,根据所述第二语句抽取结果生成所述技术问题抽取结果。
在上述方案中,第一判断结果指的是第一语句抽取结果中是否存在技术问题对应的语句,本实施例优选的第一判断结果可以是抽取技术问题所需要的语句是否是技术问题对应的语句。第二语句抽取结果指的是背景技术部分中技术问题对应的语句,本实施例优选的第二语句抽取结果可以是通过背景技术抽取模型获取的,背景技术部分中技术问题对应的语句。
背景技术抽取模型指的是能够从背景技术部分的文本数据中抽取技术问题的模型,本实施例优选的背景技术抽取模型可以是能够从目标专利文献中的背景技术部分对应的文本数据中抽取技术问题的模型。例如,背景技术抽取模型可以是基于语义关系构建的模型,也可以是结合背景技术部分中文本数据特点构建的模型,还可以是结合背景技术部分中文本数据特点构建的语义关系模型。
通过上述方案,采用不同的模型有选择地从专利内容部分或背景技术部分抽取技术问题,增加了技术问题抽取模型对专利说明书不同部分中技术问题抽取的适应性,避免了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,从而提高了技术问题抽取的有效性和精确性。
在一些实施例中,所述技术问题抽取模型包括神经网络模型,步骤2021 具体包括:
获取所述专利内容部分中的第一分隔符,并根据所述第一分隔符顺序抽取所述专利内容部分中的多个第一语句;
将所述多个第一语句中预定数量的第一语句作为所述神经网络模型的输入;
采用所述神经网络模型对所述多个第一语句进行分类,得到分类结果,其中,所述分类结果包括:第一问题特征语句和非第一问题特征语句,所述第一问题特征语句为抽取所述技术问题所需要的语句;
将所述第一问题特征语句作为所述第一语句抽取结果。
在上述方案中,第一分隔符指的是专利内容部分的分隔符,本实施例优选的第一分隔符可以是专利内容部分中的语句分隔符,例如,专利内容部分的句号、感叹号、分号、回车。第一语句指的是专利内容部分的语句,本实施例优选的第一语句可以是专利内容部分的两个连续第一分隔符之间的语句。第一问题特征语句指的是抽取技术问题所需要的语句,本实施例优选的第一问题特征语句可以是通过技术问题抽取模型获取到的,抽取技术问题所需要的语句。
神经网络模型指的是能够对数据进行分类的模型,本实施例优选的神经网络模型可以是能够对专利内容部分数据进行二分类的模型。
由于“专利内容部分”中的句子数往往特别多,而技术问题一般在该部分的开头位置。因此预定数量可以取多个第一语句的前五句输入神经网络模型。
具体的,由于“发明内容”中的关于技术问题的表述一般形式比较固定,相对抽取起来比较容易,因此,在建模的时候可以将其当作一个分类任务来处理,对每个句子进行二分类预测,即输入是第一语句,输出是第一语句是否为抽取技术问题所需要的语句。神经网络模型可以选择TextCNN(Text Convolutional Neural Network,文本卷积神经网络),FastText(一种开源的词向量与文本分类工具),BLSTM(Bi-directional Long Short TermMemory,双向长短期记忆网络),就能取得很好的效果,而无需使用更复杂的BERT(Bidirectional Encoder Representation from Transformers,双向编码表征模型) 等预训练模型。
通过上述方案,根据专利内容部分关于技术问题的语句具有固定表述的特点,采用神经网络模型对专利内容部分中的第一语句进行分类,增加了技术问题抽取模型对专利内容部分中技术问题抽取的适应性。
在一些实施例中,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,包括:
采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果;
判断所述第三语句抽取结果中是否存在所述技术问题对应的语句,得到第二判断结果;
响应于确定所述第二判断结果为存在所述技术问题对应的语句,将所述第三语句抽取结果作为所述第二语句抽取结果;
响应于确定所述第二判断结果为不存在所述技术问题对应的语句,对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果。
在上述方案中,第二问题特征语句指的是通过背景技术抽取模型获取到的,抽取技术问题所需要的语句,本实施例优选的第二问题特征语句可以是通过背景技术抽取模型从背景技术部分获取到的,抽取技术问题所需要的语句。第三语句抽取结果指的是能够用于得到第二判断结果的语句,本实施例优选的第三语句抽取结果可以是进行匹配处理后的第二问题特征语句。第二判断结果指的是能够为后续得到第二语句抽取结果提供参考的判断结果,本实施例优选的第二判断结果可以是第三语句抽取结果中是否存在技术问题对应的语句。
通过上述方案,由于技术问题抽取模型适用于具有固定表述的发明内容部分的技术问题抽取,而背景技术部分具有与发明内容部分不同的语义特点,采用不同的算法有选择地从背景技术部分抽取技术问题,避免了发明内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响。
在一些实施例中,所述采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果,包括:
获取所述背景技术部分中的第二分隔符,并根据所述第二分隔符抽取所述背景技术部分中的多个第二语句;
将所述第二分隔符替换为起始标记和分隔标记;
根据所述起始标记和所述分隔标记采用所述背景技术抽取模型对所述第二语句进行编码,得到与所述第二语句一一对应的句向量;
采用挤压函数对所述句向量进行打分,得到打分结果;
将所述打分结果大于预定分数的第二语句作为所述第二问题特征语句;
根据所述背景技术部分中序列号或预先设置的关键词或基于所述关键词构建的第一正则表达式对所述第二问题特征语句进行匹配,得到第三语句抽取结果。
在上述方案中,第二分隔符指的是背景技术部分的分隔符,本实施例优选的第二分隔符可以是背景技术部分中的语句分隔符,例如,背景技术部分的句号、感叹号、分号、回车。第二语句指的是背景技术部分的语句,本实施例优选的第二语句可以是背景技术部分的两个连续第二分隔符之间的语句。
起始标记可以是[CLS],分隔标记可以是[SEP],将每个第二语句前的[CLS] 标记进入背景技术抽取模型后的输出向量,作为该第二语句的句向量表征。例如:回到图1a,背景技术中“当皮带的张力不足时,皮带很容易出现打滑。而张力过大时,很容易损伤各种辅机的轴承。”,输入到模型的序列为“[CLS] 当皮带的张力不足时,皮带很容易出现打滑[SEP][CLS]而张力过大时,很容易损伤各种辅机的轴承。[SEP]”。通过挤压函数sigmoid(一种S形函数)对每个句向量进行打分后,取打分结果大于0.5的第二语句都作为第二问题特征语句。
具体的,由于“背景技术”往往存在多个段落,各个段落的句子之间存在上下文语义关系,在抽取技术问题时,通常需要捕捉这些上下文语义关系才能最终确定。例如,回到图1a,在专利A的“背景技术”中,如果不看上下文,【0002】段中的句2和句3都属于描述负面问题的句子,这种句子很容易被模型判别为技术问题句,但是如果结合整个背景技术上下文句子的语义,就可以看出,该专利的技术问题句是【0003】段中的句子。这样,“背景技术”中的技术问题存在上下文语义关系,如果使用神经网络模型来抽取的话,无法捕捉到上下文的语义关系,从而影响抽取的效果。本实施例可以采用BertSum(一种抽取式摘要模型)模型来抽取背景技术部分中技术问题,结合背景技术部分中的语义关系构建背景技术抽取模型。
具体的,BertSum可以由句子编码层和输出判断层组成,其中,句子编码层通过BERT模型获取第二语句的句向量,输出判断层可以通过挤压函数 sigmoid为句向量打分,也可以采用transformer(一种注意力模型),LSTM(Long Short Term Memory,双向长短期记忆网络)为句向量打分。
根据序列号或预先设置的关键词或基于所述关键词构建的第一正则表达式对所述第二问题特征语句进行匹配。具体的,对于第二问题特征语句中连续序列号的抽取,如果第二问题特征语句的抽取丢失了其中的一句,则可以通过匹配将其补充进来。匹配也可以通过一些关键词或基于该关键词构建的第一正则表达式来完成,从而对第二问题特征语句进行优化。
例如:背景技术部分中的文本为“但是,这些方法存在以下不足:1.效率比较低,不够人性化;2.大大缩短了使用寿命;3.对环境造成了污染。”,经过第二分隔符后有三条第二语句,如果背景技术抽取模型只抽取了第一和第三条第二语句作为第二问题特征语句,那么,就可以根据序列号把漏抽取的第二个第二语句补充进来。
通过上述方案,提高了背景技术部分中技术问题抽取的效率和准确度。
在一些实施例中,所述对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果,包括:
获取所述背景技术部分对应的特征词语;
根据所述特征词语组合构建第二正则表达式;
根据所述第二正则表达式对所述多个第二语句进行匹配,得到所述第二语句抽取结果。
在上述方案中,特征词语指的是能够反映技术问题的词语,本实施例优选的特征词语可以是技术问题中的表示否定的词语。第二正则表达式指的能够匹配技术问题的表达式,本实施例优选的第二正则表达式可以是根据表示否定的词语构建的正则表达式。例如,第二正则表达式可以是“有(以下|一些|很多)(不足|不足之处|缺点|缺陷|有待改进之处).*”。
通过上述方案,提高了背景技术部分中技术问题抽取的稳定性和准确度。
在一些实施例中,所述根据所述第一语句抽取结果生成所述技术问题抽取结果包括:
采用预先训练得到的实体识别模型对所述第一语句抽取结果进行实体抽取,得到所述技术问题对应的第一单元词;
根据第一单元词中在所述第一语句抽取结果中的位置生成所述技术问题对应的第一短语;
将所述第一语句抽取结果、所述第一单元词和所述第一短语合并作为所述技术问题抽取结果。
在上述方案中,实体识别模型指的是能够从技术问题对应的语句中获取词语的模型,本实施例优选的实体识别模型可以是NER(Named Entity Recognition,命名实体识别)模型,例如,BERT+CRF(Conditional Random Fields,概率图模型),BERT是一种预训练语言模型,能够非常快速且充分地拟合训练数据,CRF是一种的概率图模型,能够捕捉到标签之间的转移依赖关系。
第一单元词指的是能够表示技术问题的词语,本实施例优选的第一单元词可以是专利内容部分中的问题对象、问题属性和问题词,问题对象:可以是现实中具体的实物、或是一种计算机的算法、或者一种药物、或是一种系统等,多为名词,如:热水器、LSTM算法等;问题属性:一般为对象的物理属性、或功能属性、或某种操作等,多为名词或动词,且是一个非具体的实物,如:体积、大小、寿命、工作效率、准确性、维修、加工等;问题词:一般为动词或形容词,如:降低、限制、较少、增加、低、高、昂贵。
其中,问题词是必须存在的,而问题对象和问题属性并非一定存在。例如“工作效率低”这个技术问题中,“问题属性”为“工作效率”,“问题词”是“低”。而在“灯罩易损坏”这个问题短语中,“问题对象”是“灯罩”,“问题词”是“易损坏”。
第一短语指的是能够表示技术问题的短语,本实施例优选的第一短语可以是专利内容部分中的问题短语,其中,第一语句抽取结果中包括多个第一短语。
具体的,构建第一短语时,以第一单元词中的问题词为中心,将问题词周围的问题对象和问题属性,连同问题词一起合并成为第一短语。例如,首先用逗号作为分隔符对第一语句抽取结果进行划分子句。然后对每个子句进行判断,若一个子句中存在多个问题词,那么每个问题词连同其周围最近的问题属性和问题对象一起作为问题短语。
例如,第一语句抽取结果“本发明的目的就是克服现有设备存在的电机使用寿命比较短,工作效率不高的问题”,该句得到的第一单元词有五个:问题对象=电机,问题属性=使用寿命,问题词=短,问题属性=工作效率,问题词=不高。首先对第一语句抽取结果划分子句,得到两个子句,其中子句1“本发明的目的就是克服现有设备存在的电机使用寿命比较短”的问题词是问题对象=电机,问题属性=使用寿命,问题词=短,子句2“工作效率不高的问题”的问题词是问题属性=工作效率,问题词=不高,然后就可以进行第一短语构建了,子句1得到的第一短语是“电机使用寿命短”,子句2的第一短语是“工作效率低”。
通过上述方案,在语句、短语和词语三个层次构建得到技术问题抽取结果,提高了技术问题抽取结果的完整性,为后续根据技术问题进行搜索,以及技术问题的聚类分析提供了完整的数据支撑。
在一些实施例中,所述根据所述第二语句抽取结果生成所述技术问题抽取结果包括:
采用预先训练得到的实体识别模型对所述第二语句抽取结果进行实体抽取,得到所述技术问题对应的第二单元词;
根据第二单元词中在所述第二语句抽取结果中的位置生成所述技术问题对应的第二短语;
将所述第二语句抽取结果、所述第二单元词和所述第二短语合并作为所述技术问题抽取结果。
在上述方案中,第二单元词指的是能够表示背景技术部分中技术问题的词语,本实施例优选的第二单元词可以是背景技术部分中的问题对象、问题属性和问题词,其中,问题词是必须存在的,而问题对象和问题属性并非一定存在。第二短语指的是背景技术部分中能够表示技术问题的短语,本实施例优选的第二短语可以是背景技术部分中的问题短语,其中,第二语句抽取结果中包括多个第二短语。
通过上述方案,在语句、短语和词语三个层次构建得到技术问题抽取结果,提高了技术问题抽取结果的完整性,为后续根据技术问题进行搜索,以及技术问题的聚类分析提供了完整的数据支撑。
在一些实施例中,如图2c所示,所述实体识别模型的训练过程包括:
步骤A,获取所述目标专利文献对应的训练集。
步骤B,根据双向编码模型和概率图模型构建初始实体识别模型,其中,所述初始实体识别模型包括双向编码层和概率图层。
步骤C,将所述双向编码层的第一学习率设置为第一预设值。
步骤D,将所述概率图层的第二学习率设置为第二预设值,其中,所述第一预设值的数量级小于所述第二预设值的数量级。
步骤E,根据所述第一学习率、所述第二学习率和所述训练集对所述初始实体识别模型进行训练,将训练完成后的初始实体识别模型作为所述实体识别模型。
在上述方案中,步骤B中双向编码模型可以是BERT,概率图模型可以是 CRF,双向编码层可以是BERT层,概率图层可以是CRF层。步骤C中BERT 层的学习率设置在10-5量级(0.00005左右)。而步骤D中CRF层的学习率设置在10-3和10-2量级左右(0.005左右)。
具体的,在训练实体识别模型时,通常在BERT层和CRF层都是使用相同的学习率,这种训练方式无法发挥出CRF真正的作用。BERT经过预训练后,针对下游任务进行finetune(微调)时,只需要非常小的学习率(通常是10-5量级),太大反而可能不收敛。尽管学习率很小,但对于多数下游任务来说收敛是很快的,很多任务都只需要2~3个epoch(训练次数)就能收敛到最优。而在CRF中,由于转移矩阵跟BERT没什么联系,当BERT输出的标签分布迅速地收敛到较优值时,CRF还是以10-5的学习率更新,这样就会使转移矩阵的梯度非常小,转移矩阵就几乎不更新,所以CRF就不能发挥出作用。
通过上述方案,训练时在双向编码层和概率图层分别使用不同的学习率,避免了传统训练方式存在初始实体识别模型学习率设置不对等的不足,提升了实体识别模型预测的准确率。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,在上述各个实施例方法对应实施方案的基础上,可以有如下具体实现情况。
本实施例中优选的技术问题,是一个包含技术问题句、技术问题短语、技术问题词单元的层级结构。在抽取技术问题的层级结构时,首先需要从专利说明书中定位到技术问题句,再从技术问题句中抽取问题短语和问题词单元,其中问题词单元又细化为问题对象、问题属性、问题词。具体的定义如下:
问题句:描述当前专利所在领域存在问题、缺点或不足的完整句子。
问题短语:问题句中描述技术、系统、属性等存在的缺陷、不足等问题的短语,主要包括负面情感和否定观点,如“工作效率低”、“开发成本高”等。
问题词单元:包含问题对象、问题属性、问题词。
问题对象:可以是现实中具体的实物、或是一种计算机的算法、或者一种药物、或是一种系统等,多为名词。如:热水器、LSTM算法等
问题属性:一般为对象的物理属性、或功能属性、或某种操作等,多为名词或动词,且是一个非具体的实物。如:体积、大小、寿命、工作效率、准确性、维修、加工等
问题词:一般为动词或形容词,如:降低、限制、较少、增加、低、高、昂贵
以专利B为例,抽取的技术问题结构为:
问题句:本实施例实施例中提供了一种电插锁测试装置及测试方法,以解决现有技术中电插锁测试效率低的问题。
问题短语:电插锁测试效率低
问题对象:电插锁
问题属性:测试效率
问题词:低
本实施例分两大步骤来抽取技术问题,第一步是技术问题句抽取,第二步是问题短语和问题词单元抽取。
1.技术问题句抽取
技术问题句抽取:该步骤的主要流程如图3所示:
从流程图中可以看出,首先对“发明内容”进行分句,然后运用分类模型来判断这些句子是否是技术问题句,如果“发明内容”中有技术问题,则将该结果直接作为整个专利的技术问题抽取结果。如果“发明内容”中没有抽取到技术问题,则从“背景技术”中抽取。该步骤首先对“背景技术”的内容进行分句,然后运用BertSum抽取技术问题,并对抽取的结果进行一些后处理操作。若该过程抽取到了技术问题,则直接作为最终结果,若仍然没有抽取到技术问题,则再利用正则匹配算法从“背景技术”中抽取技术问题,并将其作为最终的技术问题输出。
分句:运用句号、感叹号、分号、回车作为分隔符将段落划分成一个一个独立的句子。
分类模型:由于“发明内容”中的技术问题句子的表述一般形式比较固定,相对抽取起来比较容易,因此,我们在建模的时候将其当作一个分类任务来处理,对每个句子进行二分类预测,即输入是“发明内容”里的句子,输出是对这个句子是否为技术问题句的判断。在这部分我们一般选择神经网络模型 (如TextCNN,FastText,BLSTM等)就能取得很好的效果,而无需使用更复杂的BERT等预训练模型。由于“发明内容”中的句子数往往特别多,而技术问题一般在该部分的开头位置。因此我们取“发明内容”的前五句作为候选集合,再运用神经网络分类模型在这个候选集合里抽取技术问题句。
BertSum抽取问题句:该步骤是从“背景技术”中抽取技术问题句。从“背景技术”中抽取技术问题,建模时虽然也可以当作分类任务来处理,但是分类模型无法捕捉上下文语义关系,效果往往不够理想。由于“背景技术”往往存在多个段落,各个段落的句子之间存在上下文语义关系,在抽取技术问题时,通常需要捕捉这些上下文语义关系才能最终确定。例如,在专利A的“背景技术”中,如果不看上下文,【0002】段中的句2和句3都属于描述负面问题的句子,这种句子很容易被模型判别为技术问题句,但是如果结合整个背景技术上下文句子的语义,就可以看出,该专利的技术问题句是【0003】段中的句子。
从上面的例子可以看出,“背景技术”中的技术问题存在上下文语义关系,如果使用分类模型来抽取的话,无法捕捉到上下文的语义关系,从而影响抽取的效果。本实施例利用BertSum模型来抽取“背景技术”中技术问题句,该模型原本出自论文《Fine-tune BERTfor Extractive Summarization》,是用来做抽取式摘要的一个模型。本实施例利用该模型抽取技术问题句主要是因为“背景技术”中的技术问题往往存在上下文语义关系,如果单纯的将“背景技术”中的技术问题抽取任务作为分类任务来做的话,虽然能打到一定的效果,就无法捕捉到这种上下文语义依赖关系,抽取准确率无法达到最优。
BertSum在做抽取式摘要任务时,其结构如下图所示,主要由句子编码层和输出判断层组成,其中,句子编码层通过BERT模型获取文档中每个句子的句向量编码,输出判断层通过三种不同的结构(trainsformer,LSTM,sigmoid) 进行选择判断,为每个句子进行打分,最终选取最优的top-n个句子作为文档摘要。
在本实施例中,句子编码层我们将“背景技术”中的每个句子前后均插入 [CLS]和[SEP]标记,并将每个句子前的[CLS]标记进入模型后的输出向量,作为该句子的句向量表征。例如:背景技术中“当皮带的张力不足时,皮带很容易出现打滑。而张力过大时,很容易损伤各种辅机的轴承。”,输入到模型的序列为”[CLS]当皮带的张力不足时,皮带很容易出现打滑[SEP][CLS]而张力过大时,很容易损伤各种辅机的轴承。[SEP]“。而在输出判断层,本实施例通过sigmoid对每个句子进行打分后,并不是取top-n个句子,而是取阈值大于0.5的所有句子都作为技术问题句。
后处理:对BertSum抽取结果进行后处理优化,例如,对于连续序列号的抽取,如果模型的抽取丢失了其中的一句,则可以通过后处理将其补充进来。比如:专利文本“但是,这些方法存在以下不足:1.效率比较低,不够人性化; 2.大大缩短了使用寿命;3.对环境造成了污染。”,经过分句后有三条技术问题句,如果模型只抽取了第一和第三条技术问题句,那么,就可以根据序列号把漏抽取的第二句问题句补充进来。此外,后处理也可以通过一些关键词或正则来对抽取结果进行过滤,从而对模型的结果进行优化。
正则提取技术问题:在该步骤中,本实施例总结了一些常见的用于匹配技术问题句的正则表达式,用于对整个抽取流程的兜底。该步骤提高了技术问题句抽取的召回率。例如,正则表达式“有(以下|一些|很多)(不足|不足之处|缺点| 缺陷|有待改进之处).*”能较好的匹配出描述技术问题的句子。
在本实施例实验过程过,技术问题句抽取的精度,在句子级别,所有句子分类的精度的F-值(综合评价指标(F-Measure)P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure准确率 (Precision)、召回率(Recall)、F值(F-Measure))大于93%,专利级别技术问题抽取的精确度大于76%。
2.技术问题短语和技术问题词单元抽取
在该步骤,本实施例首先从问题句中抽取问题词单元,再将问题词单元中各个实体合并成问题短语。
问题词单元抽取:问题词单元包括问题对象、问题属性和问题词三部分,从问题句中抽取这三个实体可以使用NER模型,常用的有,BLSTM+CRF, BERT等,本实施例在实验时,使用BERT+CRF的方式来抽取技术问题词单元,最终三个实体总共的F-score是80%。
BERT是目前最常用的预训练语言模型,能够非常快速且充分地拟合训练数据,CRF是一种经典的概率图模型,能够捕捉到标签之间的转移依赖关系,因此,使用BERT+CRF模型做NER任务已经是NLP领域最常用到的模型之一了。而目前,在训练BERT+CRF时,通常在BERT层和CRF层都是使用相同的学习率,这种训练方式无法发挥出CRF真正的作用。这是因为,BERT经过预训练后,针对下游任务进行finetune时,只需要非常小的学习率(通常是量级),太大反而可能不收敛。尽管学习率很小,但对于多数下游任务来说收敛是很快的,很多任务都只需要2~3个epoch就能收敛到最优。而在CRF 中,由于转移矩阵跟BERT没什么联系,当BERT输出的标签分布迅速地收敛到较优值时,CRF还是以的速度更新,这样就会使转移矩阵的梯度非常小,转移矩阵就几乎不更新,所以CRF就不能发挥出作用。因此,目前BERT+CRF模型的训练方式存在不同网络层学习率设置不对等的不足。
本实施例在实验过程中,对BERT层和CRF层设置不同的学习率。其中, BERT层的学习率设置在量级(0.00005左右)。而CRF层的学习率设置在和量级左右(0.005左右)。实验中,BERT层和CRF层使用不同的学习率,相比于使用相同的学习率,最终模型的精度方面,F-值提升了2个百分点(从78%提升到80%).
问题短语抽取:在一个问题短语中,问题词是必须存在的,而问题对象和问题属性并非一定存在。例如“工作效率低”这个问题短语中,“问题属性”为“工作效率”,“问题词”是“低”。而在“灯罩易损坏”这个问题短语中,“问题对象”是“灯罩”,“问题词”是“易损坏”。
一般一个句子中会包含多个问题对象、问题属性和问题词。本实施例在抽取问题短语时,以问题词为中心,将问题词周围的问题对象和问题属性,连同问题词一起合并成一个问题短语。具体的,首先用逗号作为分隔符对句子进行划分子句。然后对每个子句进行判断,若一个子句中存在多个技术问题词,那么每个问题词连同其周围最近的问题属性和问题对象一起做为问题短语。
例如。技术问题句“本发明的目的就是克服现有设备存在的电机使用寿命比较短,工作效率不高的问题”,该句得到的问题词实体有五个:问题对象=电机,问题属性=使用寿命,问题词=短,问题属性=工作效率,问题词=不高。本实施例首先对问题句划分子句,得到两个子句,其中子句1“本发明的目的就是克服现有设备存在的电机使用寿命比较短”的问题词实体是「问题对象=电机,问题属性=使用寿命,问题词=短」,子句2“工作效率不高的问题”的问题词实体是「问题属性=工作效率,问题词=不高」,然后就可以进行问题词短语合并了,合并后,子句1得到的问题短语是“电机使用寿命短”,子句2的问题短语是“工作效率低”。
上述实施例的专利文献中的技术问题抽取方法,具有如前述任一实施例中的专利文献中的技术问题抽取方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种专利文献中的技术问题抽取装置。
参考图4a,所述专利文献中的技术问题抽取装置,包括:
获取模块401,被配置为获取目标专利文献的专利内容部分和背景技术部分;
抽取模块402,被配置为从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。
在一些实施例中,如图4b所示,抽取模块402具体包括:
第一抽取单元4021,被配置为采用所述技术问题抽取模型从所述专利内容部分抽取得到第一语句抽取结果;
确定单元4022,被配置为根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题。
在一些实施例中,确定单元具体包括:
第一判断单元,被配置为判断所述第一语句抽取结果中是否存在所述技术问题对应的语句,得到第一判断结果;
第一生成单元,被配置为响应于确定所述第一判断结果为存在所述技术问题对应的语句,根据所述第一语句抽取结果生成所述技术问题抽取结果;
第二抽取子模块,被配置为响应于确定所述第一判断结果为不存在所述技术问题对应的语句,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,根据所述第二语句抽取结果生成所述技术问题抽取结果。
在一些实施例中,第一抽取单元被配置为:
采用所述技术问题抽取模型从所述专利内容部分抽取第一特征语句,得到第一语句抽取结果,包括:
获取所述专利内容部分中的第一分隔符,并根据所述第一分隔符顺序抽取所述专利内容部分中的多个第一语句;
将所述多个第一语句中预定数量的第一语句作为所述神经网络模型的输入;
采用所述神经网络模型对所述多个第一语句进行分类,得到分类结果,其中,所述分类结果包括:第一问题特征语句和非第一问题特征语句,所述第一问题特征语句为抽取所述技术问题所需要的语句;
将所述第一问题特征语句作为所述第一语句抽取结果。
在一些实施例中,第二抽取子模块包括:
第三抽取单元,被配置为采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果;
第二判断单元,被配置为判断所述第三语句抽取结果中是否存在所述技术问题对应的语句,得到第二判断结果;
第二生成单元,被配置为响应于确定所述第二判断结果为存在所述技术问题对应的语句,将所述第三语句抽取结果作为所述第二语句抽取结果;
第三生成单元,被配置为响应于确定所述第二判断结果为不存在所述技术问题对应的语句,对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果。
在一些实施例中,第三抽取单元具体被配置为:
获取所述背景技术部分中的第二分隔符,并根据所述第二分隔符抽取所述背景技术部分中的多个第二语句;
将所述第二分隔符替换为起始标记和分隔标记;
根据所述起始标记和所述分隔标记采用所述背景技术抽取模型对所述第二语句进行编码,得到与所述第二语句一一对应的句向量;
采用挤压函数对所述句向量进行打分,得到打分结果;
将所述打分结果大于预定分数的第二语句作为所述第二问题特征语句;
根据所述背景技术部分中序列号或预先设置的关键词或基于所述关键词构建的第一正则表达式对所述第二问题特征语句进行匹配,得到第三语句抽取结果。
在一些实施例中,第三生成单元具体被配置为:
获取所述背景技术部分对应的特征词语;
根据所述特征词语组合构建第二正则表达式;
根据所述第二正则表达式对所述多个第二语句进行匹配,得到所述第二语句抽取结果。
在一些实施例中,第一生成单元具体被配置为:
采用预先训练得到的实体识别模型对所述第一语句抽取结果进行实体抽取,得到所述技术问题对应的第一单元词;
根据第一单元词中在所述第一语句抽取结果中的位置生成所述技术问题对应的第一短语;
将所述第一语句抽取结果、所述第一单元词和所述第一短语合并作为所述技术问题抽取结果。
在一些实施例中,第二生成单元具体被配置为:
采用预先训练得到的实体识别模型对所述第二语句抽取结果进行实体抽取,得到所述技术问题对应的第二单元词;
根据第二单元词中在所述第二语句抽取结果中的位置生成所述技术问题对应的第二短语;
将所述第二语句抽取结果、所述第二单元词和所述第二短语合并作为所述技术问题抽取结果。
在一些实施例中,第一生成单元或第二生成单元中实体识别模型的训练过程包括:
获取所述目标专利文献对应的训练集;
根据双向编码模型和概率图模型构建初始实体识别模型,其中,所述初始实体识别模型包括双向编码层和概率图层;
将所述双向编码层的第一学习率设置为第一预设值;
将所述概率图层的第二学习率设置为第二预设值,其中,所述第一预设值的数量级小于所述第二预设值的数量级;
根据所述第一学习率、所述第二学习率和所述训练集对所述初始实体识别模型进行训练,将训练完成后的初始实体识别模型作为所述实体识别模型。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的专利文献中的技术问题抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的专利文献中的技术问题抽取方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口 1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/ 输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的专利文献中的技术问题抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的专利文献中的技术问题抽取方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的专利文献中的技术问题抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种专利文献中的技术问题抽取方法,其特征在于,包括:
获取目标专利文献的专利内容部分和背景技术部分;
从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。
2.根据权利要求1所述的方法,其特征在于,所述从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,包括:
采用所述技术问题抽取模型从所述专利内容部分抽取得到第一语句抽取结果;
根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题,包括:
判断所述第一语句抽取结果中是否存在所述技术问题对应的语句,得到第一判断结果;
响应于确定所述第一判断结果为存在所述技术问题对应的语句,根据所述第一语句抽取结果生成所述技术问题抽取结果;
响应于确定所述第一判断结果为不存在所述技术问题对应的语句,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,根据所述第二语句抽取结果生成所述技术问题抽取结果。
4.根据权利要求2所述的方法,其特征在于,所述技术问题抽取模型包括神经网络模型;
采用所述技术问题抽取模型从所述专利内容部分抽取第一特征语句,得到第一语句抽取结果,包括:
获取所述专利内容部分中的第一分隔符,并根据所述第一分隔符顺序抽取所述专利内容部分中的多个第一语句;
将所述多个第一语句中预定数量的第一语句作为所述神经网络模型的输入;
采用所述神经网络模型对所述多个第一语句进行分类,得到分类结果,其中,所述分类结果包括:第一问题特征语句和非第一问题特征语句,所述第一问题特征语句为抽取所述技术问题所需要的语句;
将所述第一问题特征语句作为所述第一语句抽取结果。
5.根据权利要求3所述的方法,其特征在于,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,包括:
采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果;
判断所述第三语句抽取结果中是否存在所述技术问题对应的语句,得到第二判断结果;
响应于确定所述第二判断结果为存在所述技术问题对应的语句,将所述第三语句抽取结果作为所述第二语句抽取结果;
响应于确定所述第二判断结果为不存在所述技术问题对应的语句,对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果。
6.根据权利要求5所述的方法,其特征在于,所述采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果,包括:
获取所述背景技术部分中的第二分隔符,并根据所述第二分隔符抽取所述背景技术部分中的多个第二语句;
将所述第二分隔符替换为起始标记和分隔标记;
根据所述起始标记和所述分隔标记采用所述背景技术抽取模型对所述第二语句进行编码,得到与所述第二语句一一对应的句向量;
采用挤压函数对所述句向量进行打分,得到打分结果;
将所述打分结果大于预定分数的第二语句作为所述第二问题特征语句;
根据所述背景技术部分中序列号或预先设置的关键词或基于所述关键词构建的第一正则表达式对所述第二问题特征语句进行匹配,得到第三语句抽取结果。
7.根据权利要求6所述的方法,其特征在于,所述对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果,包括:
获取所述背景技术部分对应的特征词语;
根据所述特征词语组合构建第二正则表达式;
根据所述第二正则表达式对所述多个第二语句进行匹配,得到所述第二语句抽取结果。
8.根据权利要求3所述的方法,其特征在于,所述根据所述第一语句抽取结果生成所述技术问题抽取结果包括:
采用预先训练得到的实体识别模型对所述第一语句抽取结果进行实体抽取,得到所述技术问题对应的第一单元词;
根据第一单元词中在所述第一语句抽取结果中的位置生成所述技术问题对应的第一短语;
将所述第一语句抽取结果、所述第一单元词和所述第一短语合并作为所述技术问题抽取结果。
9.根据权利要求3所述的方法,其特征在于,所述根据所述第二语句抽取结果生成所述技术问题抽取结果包括:
采用预先训练得到的实体识别模型对所述第二语句抽取结果进行实体抽取,得到所述技术问题对应的第二单元词;
根据第二单元词中在所述第二语句抽取结果中的位置生成所述技术问题对应的第二短语;
将所述第二语句抽取结果、所述第二单元词和所述第二短语合并作为所述技术问题抽取结果。
10.根据权利要求8或9所述的方法,其特征在于,所述实体识别模型的训练过程包括:
获取所述目标专利文献对应的训练集;
根据双向编码模型和概率图模型构建初始实体识别模型,其中,所述初始实体识别模型包括双向编码层和概率图层;
将所述双向编码层的第一学习率设置为第一预设值;
将所述概率图层的第二学习率设置为第二预设值,其中,所述第一预设值的数量级小于所述第二预设值的数量级;
根据所述第一学习率、所述第二学习率和所述训练集对所述初始实体识别模型进行训练,将训练完成后的初始实体识别模型作为所述实体识别模型。
11.一种专利文献中的技术问题抽取装置,其特征在于,包括:
获取模块,被配置为获取目标专利文献的专利内容部分和背景技术部分;
抽取模块,被配置为从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至10任意一项所述的方法。
13.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至10任一所述方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211242396.1A CN115640375A (zh) | 2022-10-11 | 2022-10-11 | 专利文献中的技术问题抽取方法及相关设备 |
PCT/CN2023/111277 WO2024078105A1 (zh) | 2022-10-11 | 2023-08-04 | 专利文献中的技术问题抽取方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211242396.1A CN115640375A (zh) | 2022-10-11 | 2022-10-11 | 专利文献中的技术问题抽取方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115640375A true CN115640375A (zh) | 2023-01-24 |
Family
ID=84945186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211242396.1A Pending CN115640375A (zh) | 2022-10-11 | 2022-10-11 | 专利文献中的技术问题抽取方法及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115640375A (zh) |
WO (1) | WO2024078105A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078105A1 (zh) * | 2022-10-11 | 2024-04-18 | 智慧芽信息科技(苏州)有限公司 | 专利文献中的技术问题抽取方法及相关设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4023371B2 (ja) * | 2003-04-24 | 2007-12-19 | 富士ゼロックス株式会社 | 固有名認識装置および方法 |
CN111046168B (zh) * | 2019-12-19 | 2023-12-01 | 智慧芽信息科技(苏州)有限公司 | 用于生成专利概述信息的方法、装置、电子设备和介质 |
CN112380838A (zh) * | 2020-10-29 | 2021-02-19 | 武汉蝉略科技有限公司 | 一种基于大数据的专利文件智能标引方法及装置 |
CN114706974A (zh) * | 2021-09-18 | 2022-07-05 | 北京墨丘科技有限公司 | 一种技术问题信息挖掘方法、装置与存储介质 |
CN115640375A (zh) * | 2022-10-11 | 2023-01-24 | 智慧芽信息科技(苏州)有限公司 | 专利文献中的技术问题抽取方法及相关设备 |
-
2022
- 2022-10-11 CN CN202211242396.1A patent/CN115640375A/zh active Pending
-
2023
- 2023-08-04 WO PCT/CN2023/111277 patent/WO2024078105A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078105A1 (zh) * | 2022-10-11 | 2024-04-18 | 智慧芽信息科技(苏州)有限公司 | 专利文献中的技术问题抽取方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2024078105A1 (zh) | 2024-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN111401045B (zh) | 一种文本生成方法、装置、存储介质和电子设备 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
Arumugam et al. | Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications | |
CN113961685A (zh) | 信息抽取方法及装置 | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN114595327A (zh) | 数据增强方法和装置、电子设备、存储介质 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
WO2024078105A1 (zh) | 专利文献中的技术问题抽取方法及相关设备 | |
CN105354182A (zh) | 获取相关数字资源的方法及使用其生成专题的方法及装置 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
Kadagadkai et al. | Summarization tool for multimedia data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |