CN111159389A - 基于专利要素的关键词提取方法、终端、可读存储介质 - Google Patents
基于专利要素的关键词提取方法、终端、可读存储介质 Download PDFInfo
- Publication number
- CN111159389A CN111159389A CN201911405669.8A CN201911405669A CN111159389A CN 111159389 A CN111159389 A CN 111159389A CN 201911405669 A CN201911405669 A CN 201911405669A CN 111159389 A CN111159389 A CN 111159389A
- Authority
- CN
- China
- Prior art keywords
- word
- patent text
- similarity
- keyword
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种基于专利要素的关键词提取方法、终端、计算机可读存储介质,其中方法包括:输入专利文本;将所述专利文本进行预处理,得到所述专利文本的词语集合;根据所述专利文本的专利要素和所述专利文本生成关键词候选集,所述专利要素是指专利文本中包含的专利信息;根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合。通过上述方法可以提高专利文本领域中关键词提取结果的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于专利要素的关键词提取方法、终端、计算机可读存储介质。
背景技术
计算机技术时代,专利文本数据的增长十分迅猛。人们在面对海量专利信息时,无论是应对专利侵权诉讼,还是产品在进行专利申请前,将专利库中的专利文本进行关键词提取以对专利更准确的进行分析已成为非常重要的环节。
专利文本领域中的语言处理,重点在于分析专利文本的结构和内容,计算专利间的相似性,而关键词提取作为专利文本处理的基础和关键一环,提取结果的准确性将对后续的专利侵权判定、专利申请、专利搜索和专利权认定等存在较大程度的影响,因此,如何提高专利文本关键词提取的准确性已成为一个热门的研究内容。
发明内容
本发明实施例提供一种基于专利要素的关键词提取方法、终端及计算机可存储介质,可提高专利文本领域中关键词提取结果的准确性。
第一方面,本发明实施例提供了一种基于专利要素的关键词提取方法,该方法包括:
输入专利文本;
确定所述专利文本的专利要素,并根据所述专利要素和所述专利文本生成关键词候选集,所述专利要素是指专利文本中包含的专利信息;
将所述专利文本进行预处理,得到所述专利文本的词语集合;
根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合。
在一些可行的实施方式中,所述确定所述专利文本的专利要素,并根据所述专利要素和所述专利文本生成关键词候选集之前,还包括:预设专利要素对应的提示信息,所述提示信息包括位置信息、提示词语信息、词频信息中的任意一项或多项;
所述根据所述专利文本的专利要素和所述专利文本生成关键词候选集,包括:根据所述专利要素对应的提示信息,确定所述专利文本中的专利要素所对应的词语;提取确定出的词语以生成关键词候选集。
在一些可行的实施方式中,所述根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合,包括:计算所述词语集合中各个词语间的第一相似度;计算所述关键词候选集以及所述词语集合间的各个词语的第二相似度;将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合。
在一些可行的实施方式中,所述计算所述关键词候选集以及所述词语集合间的第二相似度,包括:利用词嵌入将所述关键词候选集以及所述词语集合嵌入为词级的向量空间表示,以计算得到所述关键词候选集以及所述词语集合间的第二相似度。
在一些可行的实施方式中,所述将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合,包括:根据最大边界相关法MMR将所述第一相似度以及所述第二相似度进行加权处理,得到所述专利文本的词语集合中各个词语对应的权重值;按照从大到小的顺序对所述权重值进行排序,根据排序结果选择前N个权重值对应的词语作为所述专利文本的关键词集合。
在一些可行的实施方式中,所述专利文本的专利要素,包括:所述专利文本的类型、应用领域、技术特征、有益效果中的任意一种或多种。
第二方面,本发明实施例提供了一种终端,该终端包括用于执行上述第一方面的方法的模块。
第三方面,本发明实施例提供了另一种终端,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例通过利用专利文本中的专利要素和专利文本,生成关键词候选集,然后将该专利文本进行预处理,得到该专利文本的词语集合,最后通过将关键词候选集和词语集合进行相似度比较,确定出该篇专利文本的关键词集合,可以结合专利要素来提高专利文本的关键词提取结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用于专利文本的关键词提取的情景示意图;
图2是本发明实施例提供的另一种用于专利文本的关键词提取的情景示意图;
图3是本发明实施例提供的一种基于专利要素的关键词提取方法的流程示意图;
图4是本发明实施例提供的一种相似度计算方法的流程示意图;
图5是本发明实施例提供的一种终端的示意性框图;
图6是本发明实施例提供的另一种终端的示意性框图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文:Personal Digital Assistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的设备,本发明对此不作任何限制。
下面结合附图,对本申请的实施例进行描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
专利是一种综合了技术、经济和法律等多信息于一体的竞争情报源,记录着来自产业界和学术界新颖实用的最新研究成果。通过对专利著录项、法律状态变迁、引证关系等专利信息的分析挖掘,可以推测出新技术发展方向和方法,甚至开发出新的技术应用领域。因此,对庞大的专利数据进行综合分析可以挖掘出大量隐含信息,已成为评估国家科技能力的重要手段之一。
然而,专利文本数据结构相对复杂,且大部分篇幅较长,专利文本分析显得尤为困难。而关键词作为专利文本的核心要素和表达文章主题思想的短语,可以帮助人们从大量的专利中快速精确地查找专利并了解其主要内容,在提升许多自然语言处理和信息检索任务(如文本摘要、文本翻译、文本分类聚类、观点挖掘、文本检索等)中有着显著的效果。因此,专利关键词提取(Patent Keywords Extraction)近年来受到越来越多的关注,同时在专利领域的应用也越来越广泛。
在关键词提取领域,传统关键词提取方法依靠领域专家理解文本,人工标注出与目标专利内容相关的关键词,这对于中文专利来说,采用传统手工关键词提取的方式已然不可行。利用计算机进行关键词提取的方法,例如将文本分类到指定模型中再进行关键词提取,精度较高,但却需要大规模人工标注语料作为训练数据,如果新加类别或当文本中没有质量较高的词语时,这种方法的适应性较差,对于专利文本这类常出现新加类别的高动态性的文本,这种方法的准确率较低。
为了有效缓解关键词人工标注耗时费力的问题,提高关键词提取的准确性,本申请提出了一种基于专利要素的关键词提取方法、终端、计算机可存储介质。如图1所示,本申请提出的一种基于专利要素的关键词提取方法的主要步骤包括:输入专利文本,利用专利要素和专利文本进行候选词和/或候选短语选择,将候选词和/或候选短语和整篇专利文本量化到同一个向量空间,并进行候选词和/或候选短语与专利文本的相似度、专利文本各个词语间的相似度计算,将相似度计算结果作为排序依据,确定出专利文本的关键词。由于专利文本是由技术领域、专利类型、有益效果,技术特征等多个要素构成的,这些专利要素也会出现在专利文本之中,通过引入专利要素进行专利文本的提取,无需人工标注关键词语,可以有效降低原始中文专利文本的噪声数据,提升中文专利关键词提取的准确性。
在一些可行的实施方式中,请参阅图2,为本申请提供的一种用于专利文本的关键词提取的情景示意图,主要包括:
输入专利文本,通过对专利文本进行分句、分词、词性标注、去停用词、词性过滤等预处理,得到分好词的该专利文本的词语集合D’={D1,D2...D n},对专利文本进行分析,获取该篇专利文本的专利要素在该专利文本中对应的词语,生成关键词候选集W’={W1,W2...Wm}。
通过词嵌入将专利文本的词语集合和关键词候选集嵌入为词级的向量空间表示(例如基于Word2vec词向量表示模型,综合考虑词性特征,优化特征提取方式,得到更多具有代表性特征的有效词语),得到D’与W’中各个词语间的余弦相似度ε=similarity(D’,W’),也可以得到D’中各个词语间的余弦相似度γ=similarity(D’)。
利用ε和γ,计算出MMR(Maximal Marginal Relevance,最大边界相关法)值。最后,根据MMR值提取得分最高的Top-K个关键词作为该篇文本的关键词。
请参阅图3,为本发明实施例提供的一种基于专利要素的关键词提取方法的流程示意图,如图所3示的关键词提取方法可包括:
S301、输入专利文本。
需要说明的是,该专利文本的格式可以是PDF、DOC、TXT中的任意一种或多种,本发明实施例对此不作任何限制。
S302、将所述专利文本进行预处理,得到所述专利文本的词语集合。
在一些可行的实施方式中,关键词提取的预处理可以是提取文本的标题和首句,同时还可以利用段落结束标志(如回车符、换行符等)对长文本进行分段,使用标点符号(如句末标点、右侧标点等)对段落文本进行分句处理等。另外,基于中文的行文特点,文本各词之间大部门没有明确的分界,对专利文本的预处理阶段还可以包括对中文文本进行分词、词性标注、新词发现停用词过滤等处理。
在一些可行的实施方式中,对专利文本进行分词的过程可以是:对该专利文本使用分词工具进行最细粒度切分和词性标注,根据汉语词语词性组合规则可知,词语中一般不包含连词、介词、助动词、副词、标点符号等等,对分词之后的短语进行过滤筛选,得到分好词的该专利文本的词语集合。
在一些可行的实施方式中,在对专利文本进行预处理的过程中,本申请可以通过基于外部词典或新词发现等技术来提高分词的准确率,从而辅助关键词提取任务。
举例来说,当通过基于外部词典的技术来辅助进行专利文本的分词处理时,构建外部词典的过程可以是:通过网络搜索首先采集该篇专利的应用领域下的词库和百科科学目录下的所有词库,获得初始领域词语或短语,然后可以对初始领域词语或短语进行筛选,过滤掉重复性词语,保留词长度为预设长度(如2到6)的词语,进一步的,可以通过分词工具进行进一步筛选,过滤掉连词、介词、助动词等无实意词汇,得到该篇专利文本对应领域的外部词典。
S303、根据所述专利文本的专利要素和所述专利文本生成关键词候选集。
具体的,可以通过专利要素和该专利文本选取专利领域相关的词语或短语作为候选词或候选短语,组成关键词候选集。
其中,该专利要素是指专利文本中包含的专利信息。在一些可行的实施方式中,该专利要素可以包括该专利文本的类型、应用领域、技术特征、有益效果中的任意一种或多种,在一些实施例中,也可以包括词频、词性等等。
在一些可行的实施方式中,该关键词候选集中可以包括候选词和/或候选短语。
举例来说,可以通过预先设置专利要素对应的提示信息,根据提示信息,确定处理该专利文本中的专利要素所对应的词语,将确定出的词语进行提取生成该篇专利的关键词候选集,如确定“领域”前的词语作为该项专利的技术领域。在一些实施例中,可以采用正则匹配的方法进行实现。
S304、根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合。
在一些可行的实施方式中,所述根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合,可以包括如图4所示的步骤:
S401、计算词语集合中各个词语间的第一相似度。
在一些可行的实施方式中,终端可以针对各个词语进行两两计算,确定两个词语间的第一相似度。举例来说,词语集合中存在词语a,词语b,词语c,终端可以针对词语a、词语b进行相似度计算,针对词语a、词语c进行相似度计算,针对词语b、词语c进行相似度计算。第一相似度值越高,两个词语间的相关性越强。
在一些可行的实施方式中,终端在计算了词语间的第一相似度之后,可以根据该第一相似度进行初步的关键词提取,得到初步提取的专利文本中的关键词集合。
S402、计算关键词候选集以及词语集合间的各个词语的第二相似度。
在一些可行的实施方式中,所述计算所述关键词候选集以及所述词语集合间的第二相似度,可以包括:利用词嵌入将所述关键词候选集以及所述词语集合嵌入为词级的向量空间表示,以计算得到所述关键词候选集以及所述词语集合间的第二相似度。
举例来说,假设关键词候选集存在“大数据”这一词语,专利文本中存在“云计算”、“信息化”这两个词语。通过词嵌入技术可以将词语进行统一维度的向量两化,以映射到同一向量空间,如“大数据”表示为[1,2,3],“云计算”表示为[2,3,3],“信息化”表示为[3,1,3],可以通过以下方式计算得到词语之间的距离:
S403、将该第一相似度以及该第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合。
在一些可行的实施方式中,可以预先设置该第一相似度的权重以及该第二相似度的权重,根据设置的权重值分别对该第一相似度以及第二相似度加权,根据加权结果,选取前K个关键词作为该专利文本的关键词集合。
在一些可行的实施方式中,所述将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合,可以包括:根据最大边界相关法MMR将所述第一相似度以及所述第二相似度进行加权处理,得到所述专利文本的词语集合中各个词语对应的权重值;按照从大到小的顺序对所述权重值进行排序,根据排序结果选择前N个权重值对应的词语作为所述专利文本的关键词集合。
举例来说,可以预先设置MMR算法中该第一相似度的权重以及该第二相似度的权重,然后根据第一相似度的结果对专利文本中的关键词集合进行初步提取处理,得到初步提取的专利文本中的关键词集合。进一步,可以根据以下公式对该第一相似度以及第二相似度进行加权处理:
MMR:=arg max[λ*cos sim(Ci,doc)-(1-λ)max cos sim(Ci,Cj)]
Ci∈C\K Cj∈K
其中,C表示关键词候选集,K表示初步提取的专利文本中的关键词集合,doc表示完整文档嵌入,Ci和Cj分别表示候选短语i和j的嵌入。
根据加权处理得到的各个值对各个词语进行排序,选取前TOP-K个关键词作为该专利文本的关键词集合。通过MMR算法可以进一步提高关键词提取的多样性。
可见,本发明实施例的基于专利要素的关键词提取方法的处理流程主要包括了预处理、基于专利要素的候选词选择、相似度计算、关键词确定。通过输入专利文本,将专利文本进行预处理得到专利文本的词语集合,然后根据该专利文本和该专利文本的专利要素生成候选词集,最后将关键词候选集以及专利文本的词语集合进行相似度计算,根据相似度计算结果确定出该专利文本的关键词集合,结合专利要素的指导,保证了提取出的关键词与专利文本的关系更为紧密,提高了关键词提取结果的准确性。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法第一实施例和第二实施例实现的方法,为了便于说明,仅示出了本发明实施例相关的部分,具体未揭示的部分,请参照本发明第一实施例至第二实施例。
请参阅图5,为本发明实施例提供的一种终端的结构示意图。如图5所示的终端,可以包括:
输入模块501,用于输入专利文本。
得到模块502,用于将所述专利文本进行预处理,得到所述专利文本的词语集合。
生成模块503,用于根据所述专利文本的专利要素和所述专利文本生成关键词候选集,所述专利要素是指专利文本中包含的专利信息。
确定模块504,用于根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合。
在一些可行的实施方式中,所述终端,还包括预设模块(图5未示出),用于预设专利要素对应的提示信息,所述提示信息包括位置信息、提示词语信息、词频信息中的任意一项或多项。
所述生成模块503,具体用于根据所述专利要素对应的提示信息,确定所述专利文本中的专利要素所对应的词语,提取确定出的词语以生成关键词候选集。
在一些可行的实施方式中,所述确定模块504,具体用于计算所述词语集合中各个词语间的第一相似度;计算所述关键词候选集以及所述词语集合间的各个词语的第二相似度;将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合。
在一些可行的实施方式中,所述确定模块504用于计算所述关键词候选集以及所述词语集合间的各个词语的第二相似度时,具体用于利用词嵌入将所述关键词候选集以及所述词语集合嵌入为词级的向量空间表示,以计算得到所述关键词候选集以及所述词语集合间的第二相似度。
在一些可行的实施方式中,所述确定模块504用于将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合时,具体用于根据最大边界相关法MMR将所述第一相似度以及所述第二相似度进行加权处理,得到所述专利文本的词语集合中各个词语对应的权重值;按照从大到小的顺序对所述权重值进行排序,根据排序结果选择前N个权重值对应的词语作为所述专利文本的关键词集合。
在一些可行的实施方式中,所述专利文本的专利要素,包括:所述专利文本的类型、应用领域、技术特征、有益效果中的任意一种或多种。
可见,本发明实施例所示的终端通过输入专利文本,将专利文本进行预处理得到专利文本的词语集合,然后根据该专利文本和该专利文本的专利要素生成候选词集,最后将关键词候选集以及专利文本的词语集合进行相似度计算,根据相似度计算结果确定出该专利文本的关键词集合,结合专利要素的指导,保证了提取出的关键词与专利文本的关系更为紧密,提高了关键词提取结果的准确性。
请参阅图6,为本发明实施例提供的一种终端的结构示意图。
如图6所示,本发明实施例中的终端包括:至少一个输入设备1000;至少一个处理器2000,例如CPU;至少一个存储器3000;至少一个输出设备4000,上述输入设备1000、处理器2000、存储器3000和输出设备4000通过总线连接。其中,总线用于实现这些组件之间的连接通信。其中,本发明实施例中装置的输入设备1000和输出设备4000可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他节点设备进行信令或数据的通信。
该处理器2000可以是中央处理器2000(central processing unit,CPU),网络处理器2000(network processor,NP)或者CPU和NP的组合。
该处理器2000还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
该存储器3000可以包括易失性存储器3000(volatile memory),例如随机存取存储器3000(random-access memory,RAM);存储器3000也可以包括非易失性存储器3000(non-volatile memory),例如快闪存储器3000(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器3000703还可以包括上述种类的存储器3000的组合。
可选地,该存储器3000还用于存储程序指令。该处理器2000可以调用该存储器3000存储的程序指令,实现如本发明第一实施例、第二实施例所示的方法。
该总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
具体的,处理器2000,用于输入专利文本;将所述专利文本进行预处理,得到所述专利文本的词语集合;根据所述专利文本的专利要素和所述专利文本生成关键词候选集,所述专利要素是指专利文本中包含的专利信息;根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合。前述图1~图4所示的实施例中,各步骤方法流程可以基于该终端的结构实现。
前述图5所示的实施例中,各模块的功能可以基于该终端的结构实现。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于专利要素的关键词提取方法的部分或全部步骤。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于专利要素的关键词提取方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块及单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于专利要素的关键词提取方法,其特征在于,所述方法包括:
输入专利文本;
将所述专利文本进行预处理,得到所述专利文本的词语集合;
根据所述专利文本的专利要素和所述专利文本生成关键词候选集,所述专利要素是指专利文本中包含的专利信息;
根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合。
2.如权利要求1所述的方法,其特征在于,所述确定所述专利文本的专利要素,并根据所述专利要素和所述专利文本生成关键词候选集之前,还包括:
预设专利要素对应的提示信息,所述提示信息包括位置信息、提示词语信息、词频信息中的任意一项或多项;
所述根据所述专利文本的专利要素和所述专利文本生成关键词候选集,包括:
根据所述专利要素对应的提示信息,确定所述专利文本中的专利要素所对应的词语;
提取确定出的词语以生成关键词候选集。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述关键词候选集以及所述专利文本的词语集合进行相似度计算,根据相似度计算结果确定出所述专利文本的关键词集合,包括:
计算所述词语集合中各个词语间的第一相似度;
计算所述关键词候选集以及所述词语集合间的各个词语的第二相似度;
将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合。
4.如权利要求3所述的方法,其特征在于,所述计算所述关键词候选集以及所述词语集合间的第二相似度,包括:
利用词嵌入将所述关键词候选集以及所述词语集合嵌入为词级的向量空间表示,以计算得到所述关键词候选集以及所述词语集合间的第二相似度。
5.如权利要求3所述的方法,其特征在于,所述将所述第一相似度以及所述第二相似度进行加权处理,根据处理结果确定所述专利文本的关键词集合,包括:
根据最大边界相关法MMR将所述第一相似度以及所述第二相似度进行加权处理,得到所述专利文本的词语集合中各个词语对应的权重值;
按照从大到小的顺序对所述权重值进行排序,根据排序结果选择前N个权重值对应的词语作为所述专利文本的关键词集合。
6.如权利要求1所述的方法,其特征在于,所述专利文本的专利要素,包括:所述专利文本的类型、应用领域、技术特征、有益效果中的任意一种或多种。
7.一种终端,其特征在于,包括用于执行如权利要求1-6任一权利要求所述的方法的模块。
8.一种终端,其特征在于,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
10.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911405669.8A CN111159389A (zh) | 2019-12-31 | 2019-12-31 | 基于专利要素的关键词提取方法、终端、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911405669.8A CN111159389A (zh) | 2019-12-31 | 2019-12-31 | 基于专利要素的关键词提取方法、终端、可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159389A true CN111159389A (zh) | 2020-05-15 |
Family
ID=70559753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911405669.8A Withdrawn CN111159389A (zh) | 2019-12-31 | 2019-12-31 | 基于专利要素的关键词提取方法、终端、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159389A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111667306A (zh) * | 2020-05-27 | 2020-09-15 | 重庆邮电大学 | 面向定制化生产的客户需求识别方法、系统及终端 |
CN111930951A (zh) * | 2020-09-21 | 2020-11-13 | 江苏恒维智信息技术有限公司 | 专利侵权线索识别方法、系统、存储介质及设备 |
CN112000929A (zh) * | 2020-07-29 | 2020-11-27 | 广州智城科技有限公司 | 一种跨平台数据分析方法、系统、设备及可读存储介质 |
CN116431838A (zh) * | 2023-06-15 | 2023-07-14 | 北京墨丘科技有限公司 | 文献检索方法、装置、系统及存储介质 |
-
2019
- 2019-12-31 CN CN201911405669.8A patent/CN111159389A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111667306A (zh) * | 2020-05-27 | 2020-09-15 | 重庆邮电大学 | 面向定制化生产的客户需求识别方法、系统及终端 |
CN112000929A (zh) * | 2020-07-29 | 2020-11-27 | 广州智城科技有限公司 | 一种跨平台数据分析方法、系统、设备及可读存储介质 |
CN111930951A (zh) * | 2020-09-21 | 2020-11-13 | 江苏恒维智信息技术有限公司 | 专利侵权线索识别方法、系统、存储介质及设备 |
CN116431838A (zh) * | 2023-06-15 | 2023-07-14 | 北京墨丘科技有限公司 | 文献检索方法、装置、系统及存储介质 |
CN116431838B (zh) * | 2023-06-15 | 2024-01-30 | 北京墨丘科技有限公司 | 文献检索方法、装置、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN111159389A (zh) | 基于专利要素的关键词提取方法、终端、可读存储介质 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
KR102296931B1 (ko) | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN108052500A (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
ALBayari et al. | Cyberbullying classification methods for Arabic: A systematic review | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN113987125A (zh) | 基于神经网络的文本结构化信息提取方法、及其相关设备 | |
CN115374325A (zh) | 网站分类方法、装置、分类设备及存储介质 | |
CN111444712B (zh) | 一种关键词提取方法、终端、计算机可读存储介质 | |
Klampfl et al. | Machine learning techniques for automatically extracting contextual information from scientific publications | |
CN109918661B (zh) | 同义词获取方法及装置 | |
Baniata et al. | Sentence representation network for Arabic sentiment analysis | |
CN112199954B (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN113673215A (zh) | 文本的摘要生成方法、装置、电子设备及可读介质 | |
Sithole et al. | Attributes extraction for fine-grained differentiation of the Internet of Things patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200515 |