CN103885934B - 一种专利文献关键短语自动提取方法 - Google Patents

一种专利文献关键短语自动提取方法 Download PDF

Info

Publication number
CN103885934B
CN103885934B CN201410056332.1A CN201410056332A CN103885934B CN 103885934 B CN103885934 B CN 103885934B CN 201410056332 A CN201410056332 A CN 201410056332A CN 103885934 B CN103885934 B CN 103885934B
Authority
CN
China
Prior art keywords
phrase
word
key
factor
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410056332.1A
Other languages
English (en)
Other versions
CN103885934A (zh
Inventor
任智军
张威
李进
杨婧
张江涛
肖湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA PATENT INFORMATION CENTER
Original Assignee
CHINA PATENT INFORMATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA PATENT INFORMATION CENTER filed Critical CHINA PATENT INFORMATION CENTER
Priority to CN201410056332.1A priority Critical patent/CN103885934B/zh
Publication of CN103885934A publication Critical patent/CN103885934A/zh
Application granted granted Critical
Publication of CN103885934B publication Critical patent/CN103885934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。

Description

一种专利文献关键短语自动提取方法
技术领域
本发明涉及文本信息处理技术,更具体地,涉及一种专利文献关键短语自动提取方法。
背景技术
随着专利文献数量的迅速增长,专利文献专业和社会化查询日益普遍,实现专利文献数据的查全率和查准率成为专利文献信息检索的难点和重点。长期以来,利用原始专利数据来完成的专利信息的检索,往往使得查全率和查准率很差并且通常会相互矛盾。由于专利文献原始信息来源于申请人的原始提交资料,往往存在大量相关的技术资料和引用技术,使得在检索过程中,为了保证查全率,就会引入过多文件,出现大量的噪音数据或者噪音文献。而为了保证查准率,就会限制过多的条件并且加载较为严格的检索要求,往往会丢失很多有用的检索结果。
为了解决这个问题,通用的方法就是对于专利文献进行前期的数据加工,在全面了解专利技术的基础上,按照一定的加工规则对于文献进行区分和标引,而使得数据较为集中和降低数据量。并且通过整理之后,提取的文献信息还保证和技术主题相关。但是,由于数据加工需要耗费大量的时间、人力和财力,建设成本非常之高,加工效率目前也不尽如人意。
但是目前缺乏专业、精准的标引工具,大部分都是通过手工标引来提高准确率,使得标引工作在目前日益增加的专利申请量面前更是难以满足需要。中国发明专利CN1818906A提供了一种专利文献的标引方法,该方法通过建立技术分类和关键词对应,并且提供通过修正来提高准确率,但是该方法还是依赖 于人工,没有实现完全自动,并且该方法处理的数据较大,难以实用。
发明内容
为克服现有技术的上述缺陷,本发明提出一种专利文献关键短语自动提取方法。
根据本发明的一个方面,提出了一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。
本发明通过选取3000篇专利文献为训练集对上述方法构建的实验系统进行训练,另选取100篇专利文献为测试集,根据上述本发明涉及的方法,对每篇专利文档提取15个关键短语。同时,使用现有的基于统计的方法提取相同数量关键短语作为对比。同时,人工对同样的100篇专利文献提取关键短语,人工提取的关键短语作为判定提取的关键短语是否正确的标准。使用上述数据计算方法的准确率,使用公式如下:
测试方法提取的关键短语的数量×100%
人工提取的关键短语的数量×100%
实验结果如下:使用本发明涉及的方法的准确率为95.24%,使用传统方法的准确率为81.61%。使用本发明涉及的方法的召回率为85.5%,使用传统方法的召回率为84.2%。可见,使用本发明涉及的方法,明显提高了关键短语的抽取准确率,召回率也略有提高,对专利文献的关键短语提取显示了较好的效果。
附图说明
图1为根据本发明的专利文献自动抽取关键短语方法的流程图;
图2为根据本发明的专利文献自动抽取关键短语方法提取出的关键短语-文本域关联的示意图。
为了能明确实现本发明的实施例的结构,在图中标注了特定的尺寸、结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定尺寸、结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种专利文献关键短语自动提取方法进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
在本说明书中使用的术语仅用于更好的理解本发明的实施方案的目的,不用于限制本发明。本说明书中使用的“一个”、“一种”、“该”也可以包括复数形式,除非上下文明确指出。
术语“短语”,是指包括由一个及以上单词构成的名词性短语、以及嵌套了短语的名词性结构,本发明的“短语”最小单位是单个词,是广义的短语概念。
图1示出根据本发明的一种专利文献关键短语自动提取方法的流程图,如图1所示,该方法包括:步骤1:文本的预处理,包括文本域标注、分句、分词、词性标注等;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:权重计算并选出关键短语。
其中,步骤1用于文本域的识别和分句、词性标注等预处理。进一步,步骤1包括:步骤11、识别专利文献各文本域;步骤12、对专利全文进行分句, 根据需要进行分词处理,分词后进行词性标注;步骤13、对于文本特殊位置进行识别。
其中,步骤11中,识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、附图说明、发明内容等文本域;优选的,各文本域可以进一步细分识别,例如发明内容进而可以分为所要解决的技术问题、技术方案和有益效果。识别后以标签标注,例如,<Claims></Claims>。
其中,步骤1中,识别文本域的方法可以包括:对于XML格式存储的专利文档,使用专利文档原有的XML标签进行分析;对纯文本格式存储的专利文档,对全文进行内容的识别,通过识别各文本域标题来识别,识别方法可以是模板规则等常用方法。
其中,步骤12中,对专利全文进行分句,根据需要进行分词处理,例如中文、日语等没有明显分词标志的语种。分词后进行词性标注。上述处理均可以采用本领域常用的现有工具。
其中,步骤13中,对于各文本域中的特殊位置的识别,例如独立权利要求、从属权利要求、权利要求主题名称、附图说明、独立权利要求前序、特征部分,从属权利要求引用、限定部分进行进一步的识别处理。其中,识别方法可以包括XML标签加规则匹配或模板匹配的方法。
例如,
2.根据权利要求1所述的保温壶,其特征在于,所述保温壶具有一个带密封垫圈的盖子。
通过模板匹配,得出“根据权利要求1所述的保温壶”为引用部分,“所述保温壶具有一个带密封垫圈的盖子”为限定部分。
其中,步骤2中,识别专利发明的主题类型,专利按技术主题类型分为产品发明、方法发明。根据发明类型的不同,抽取关键词应当有不同的侧重点, 经过对专利文献的深入分析,本申请设置了以下具有关键短语提取侧重点的主要类型:一、方法类型:1.制备方法(有机物、组合物、食品等的制备);2.加工方法(成形、纺织等);3.建筑方法;4.使用方法;5.信息的处理和传输方法;二、产品类型:1.制造的物品;2.织物;3.建筑物;三、设备类型:1.工艺设备;2.机器;3.工具;4.操作仪器;四、材料:1.化合物、组合物、微生物;2.生活用品材料;3.建筑、工程材料;五、应用类型:已知产品新用途、转用发明等。
步骤2主要用于对待提取关键短语的专利文献进行技术主题类型分析,其中包括:步骤21、对于技术主题类型的分析训练;步骤22、获取发明名称、分词、词性标注信息、核心词;步骤23、基于经过训练后的分类器,通过特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型。
其中,步骤21的技术主题类型分析方法的训练步骤包括:
步骤211、选取1万篇以上专利文档作为训练语料,从著录项目中获取发明名称和独立权利要求的主题名称及其分词、词性标注信息。其中,独立权利要求的主题名称,可通过现有技术识别出独立权利要求,再通过模板等常用方法获取其主题名称。例如,一种音频特征提取方法,其特征在于:…,则获取主题名称为“音频特征提取方法”。
步骤212、获取核心词。其中,如果发明名称是两个或多个并列短语,分别获取每个短语的核心词。例如:一种音频特征提取方法和系统,应分别获取“方法”、“系统”两个核心词。获取独立权利要求的主题名称核心词,例如:音频特征提取方法,应获取“方法”。核心词获取采用常用的工具。
步骤213、对上述训练人工标注其技术主题类型,标注为前述划分的5种类型。
步骤214、根据步骤213的标注结果,分别建立上述5种技术主题类型的特征词表。即,根据每篇文档被人工标注的技术主题类型,将其核心词存入相应 技术主题类型的特征词表中。同时,计算核心词概率,即该核心词在每种类型中出现的概率;以及核心词文档概率,即出现该核心词的文档在上述选取的作为训练语料的专利文档集中出现的概率。将上述概率存储并与对应核心词关联。
步骤215、使用常用的自动分类方法作为技术类型分类方法,对待分类的专利文档主题名称进行分类。其中自动分类方法包括条件随机场方法,k近邻法、决策树、朴素贝叶斯、贝叶斯网络或者支持向量机(SVM)等。使用上述步骤211-步骤214收集的训练语料对分类器进行训练。
步骤22中,对新专利文档进行技术主题分类的步骤包括:使用步骤211和步骤212的方法获取发明名称、分词、词性标注信息、核心词。
步骤23包括以经过步骤215训练后的分类器,使用步骤214中获得的特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型,然后将标注的技术主题类型进行存储。
步骤2的方法比人工添加规则的方法适应性好,对于一些发明名称和权利要求主题名称比较模糊的情况也能很好的进行分类。由于专利的发明名称和权利要求主题名称撰写方式繁多,例如,“用于中药煎煮锅的防烫型倒药架”、“一种棋盘和棋子自动定位识别棋”、“一种Asia1型口蹄疫病毒抗原”,如果使用模板或规则的方法要全面覆盖这样各异的名称,就需要针对大量产品名称撰写规则模板,造成规则、模板的数量过多。同时,如果为了提高模板的匹配效率,将模板撰写得比较宽泛,例如:[名词短语]+棋,又容易带入一些噪声。
其中,步骤3中,提取候选关键短语并进行短语过滤。其中,步骤3的方法包括:步骤31、提取候选的关键短语;步骤32、提取后对停用短语和低信息度短语进行过滤。
候选短语是作为关键短语的候选,以便进一步对其进行权重计算等处理的短语。其中,步骤31中获取候选短语的方法有词表法、规则方法、模板方法和前 后指示词方法。
其中,词表法中,词表是预先人工编撰或用统计方法收集的专利关键短语。短语按照短语词长度降序排列,以首词为索引进行编撰。在待抽取关键短语的专利经过分词之后,对分词的结果的每个词,均在上述词表中进行搜索,当索引中含有相同词时,从该词位置起,按照长度由长至短依次进行匹配。匹配成功则将候选短语储存留用。重复该步骤直到搜索完待抽取关键短语的专利中每个词。
其中,规则方法中,先使用n-gram法对分词后的词语进行组合,以便从中筛选候选短语,选取1-n长度的所有组合作为候选的短语。n可以根据经验选择,n优选5。利用词性标注的结果和根据语法现象预先设定的规则进行提取,例如,提取名词+名词、形容词+名词、形容词+名词+名词,具体规则可以为下表1例子中所示。下表1仅作为示例不用于限制本发明,所述规则可以是1-m个词的组合,优选m=4。根据以下规则保留的n-gram短语作为候选短语等待进一步处理。
表1
n
a+n
a+a+n
a+a+a+n
其中,n名词,a形容词。
其中,模板结合正则表达式法中,根据专利文献的特点,预先分析出常见的关键词的出现模式,撰写提取候选短语的模板,再根据专利的撰写特点,使用正则表达式对模板进行泛化处理,提高模板的命中率,减少人工撰写模板的工作量。
例如,模板1:
文本域:权利要求/摘要
STR[一种]+KP[POS:NP]+[POS:标点]+STR[其特征在于/特征是/其特征是/它包括/包括]。
模板2:
文本域:发明名称/摘要/权利要求
STR[一种]+KP[(POS:NP)+STR(方法/装置/发明/系统/产品/工艺)]。
模板1中,当某短语词性标注为名词/形容词+名词,且其前词为“一种”,后词为“其特征在于/特征是/其特征是/它包括/包括”等时,提取该短语为候选短语。
其中,前后指示词法中,前指示词表示其后面出现的短语是可能的关键短语,后指示词表示其前面出现的短语是可能的关键短语。例如,“本发明所述的”、“本发明的技术方案中涉及的”为前指示词;“其特征在于”为后指示词。可以利用预先撰写的前后指示词提取候选短语。
本发明的候选短语获取方法可以是上述3种方法一种或多种的结合,但是本发明的候选短语获取方法可以使用现有的常用方法,不限于上述方法。
其中,步骤32中,在上述步骤31获取候选短语之后,对上述方法获取的候选短语进行噪声过滤处理。因为利用在提取关键短语时会同时将一些对检索没有意义的词提取出来,所以必须进行过滤处理,以提高准确率。
例如“一种基于情境搜索提取搜索价值词的装置,其特征在于,包括:候选搜索词集生成模块、泛词过滤模块、主题相关性计算模块、…”,使用模板法提取出候选短语为“基于情境搜索”、“搜索价值词的”、“搜索词集生成模块”、“泛词过滤模块”、“主题相关性计算模块”。对上述提取的候选短语块利用头尾词过滤,提取出过滤后的候选短语“情境搜索”、“搜索价值词”、“搜索词生成”、“泛词过滤”、“主题相关性计算”。头尾词过滤的方法主要采取模板法和停用头尾词法。模板法是使用人工预先设定的模板对头尾词进行过滤的方法。例如:模板“介词+[KP]”、“[KP]+的”、“[KP]+模块”应用 到本例中可以成功过滤不需要的词尾。停用头尾词法是指利用预先建立的停用头尾词表进行头尾词过滤的方法,该词表是利用统计方法获取的通用头尾词表。如果短语头尾词出现停用头尾词表中头尾词,则从短语中删除该头尾词,并将删除头尾词后的短语更新为候选短语。例如,“**模块”、“第一**”是机械领域常见的头尾词。可以预先使用统计方法总结并存储在停用头尾词表中。
其中,步骤32还包括经过噪声过滤处理之后,再对候选短语进行短语过滤处理。短语过滤处理分为停用短语过滤和过滤信息度不高、不能有效表述本发明主题的词汇。
其中,步骤32中,过滤信息度不高、不能有效表述本发明主题的词汇。包括但不限于:对于形容词、量词、数次、感叹词、助词、副词、介词等,可以利用词性标注结果进行过滤。部分作者为了叙述方便而造出的词汇,例如“第一设备”“第二螺纹”等,这些词汇不能清楚的表述明确的技术含义,可以利用预先设定的模板进行过滤。
例如,
[STR:第]+[NUM:1-9]+[STR&POS:N]
[STR:第]+[STR:一/二/三/四/五]+[STR&POS:N]
其中STR表示字符串,“:”后面内容表示具体的字符串。NUM表示数字。1-9表示数字1-9。“STR&POS:N”表示,该部分为字符串,且词性标注为名词。
其中,步骤32中,停用短语过滤是使用预先通过一定规模专利文档库训练得出的停用短语列表。列出使用频率最高的n个通用高频短语,这些高频短语在所述专利文档库中出现频率较高。然而在当前专利文献中不具有足够的信息度。例如“本发明”、“附图1”。所述一定规模的专利文档库可以是包含各技术领域的通用专利文档库或者某个特定领域的主题专利文档库。所含有的专利文献的数量不小于k篇;k优选5000以上。
其中,步骤4中,对候选关键短语进行权重计算并选出关键短语。其中,权重计算可以包括频率权重、IPC权重。进一步,步骤4还包括计算权重的修正因子。该修正因子包括位置因子、文本域因子。其中,权重计算方法如公式(1)所示:
其中,步骤4中,计算频率权重包括统计与短语频率等统计信息相关的权重,计算方法包括TF-IDF、TFC、ITC、TF-IWF等方法。
其中,TF-IDF法中,如公式(2)所示:
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率即当前短语的出现次数和总词数的比值,nNP在专利文档库中出现的该短语的专利文档数,N为专利文档库中总文档数。
其中,TFC法如公式(3)所示:
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率,nNP在专利文档库中出现的该短语的专利文献数,N为专利文档库中总文档数,ΣNP表示对全篇专利文献中所有短语求和。
其中,ITC法如公式(4)所示:
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率,nNP在专利文档库中出现的该短语的专利文献数,N为专利文档库中总文档数,ΣNP表示对当前专利文献中所有短语求和。
其中,TF-IWF法如公式(5)所示:
其中,ωNP为短语的权重,fNP为短语在当前专利文献中的频率,cNP为短语在当前专利文献中出现的次数,ΣNP表示对当前专利文献中所有短语求和。
其中,步骤4中,包括计算IPC权重。其中,IPC分类体系是国际通用的专利分类体系,每篇专利文档都必然有一个或一个以上IPC分类号。因此可以利用IPC分类号增加关键词提取的准确性。IPC权重是利用当前文档的主IPC分类号,在IPC权重值表中查找当前文档中短语的相应IPC权重值。
IPC权重值表,是利用预先收集的专利文档库得到的。具体的方法为:在一定规模的专利文档库中,先选取词频最高的n个短语,排除停用短语,优选n为不小于500的任意整数,更加优选n不小于5000;然后,计算选出的短语在某个分类号下所有文档中的权重的均值,计算方法如公式(6)所示;其中,所述专利文档库所包含的专利不小于5000篇。
其中,为短语的对应第i个IPC权重值,为该短语在文档dj中的权重值。
上述计算方法还可以变化为,对于第i个IPC选取m篇文档,m为不小于1000的任意整数;先选取词频最高的n个短语,排除停用短语,n为不小于500的任意整数,更加优选n不小于5000;计算选出的短语在某个分类号下所有文档中的权重的均值,计算方法如公式(7)所示:
其中,为短语的对应第i个IPC权重值,为短语在文档dj中的权重值。
步骤4还包括计算权重的修正因子。其中,位置因子是短语首次出现的位置带来的权重影响,位置因子分为文本位置因子和专利位置因子。文本位置因子 是指因关键短语出现在文档的不同位置,例如段首,对其权重的影响。文本位置因子计算如表2所示:
表2
具体计算时,如果一个短语既为句子主语又为段首,取最高值进行计算。
专利位置因子是指由于专利特殊撰写格式带来的对权重的影响。具体计算如表3所示:
表3
具体计算时,对于符合多个条件的短语,取最高值进行计算。判断从属权利要求限定部分作为主语、独立权利要求特征部分作为主语和附图标记所标注的短语时,使用浅层句法分析加规则的方法。
规则可以为例如,在主语成分中如果出现:所述的+NP=>NP为作为主语的短语。
在具体实施方式部分如果出现:NP+附图标记=>NP为附图标记标注的短语。
技术主题类型位置因子是指对于步骤2中确定的技术主题类型,应重点提取不同的关键词。例如,产品类型,应重点形状、构造、连接关系等;方法类型,应重点提取工艺、步骤等;设备类型,应重点抽取,部件、连接关系、该设备的用途等;应用类型要重点提取关于用途信息的关键短语;材料类型,应提取组成材料的各组分,材料的用途等。
技术主题类型位置因子主要采用启发式方法。预先分别对每种类型制作触发词表,当待标注的文档中某位置出现对应技术主题类型的触发词表中的触发词时,对于在预先设定的窗口范围内出现的短语,将其技术主题类型位置因子设为1.1;其他位置主题类型位置因子设为1。预先设定的窗口范围优选为30个 字符。
上述步骤计算完毕后,按照公式(8)计算出位置因子:
位置因子=文本位置因子*专利位置因子*技术主题类型位置因子(8)。
步骤4还包括计算权重的修正因子。其中,文本域因子是指短语位于专利文献不同文本域对其权重的影响,具体计算方法如表4所示,
表4
文本域 权重因子
发明名称 1.62
权利要求 1.44
摘要 0.72
附图说明 1.08
技术领域 0.9
所要解决的技术问题 0.9
背景技术 0.36
有益效果 0.9
具体实施方式 0.36
发明内容技术方案部分 1.08
对单个文本域提取时 1
具体计算时,对于符合多个条件的短语,取最高值进行计算;对于单个文本域提取关键短语时,公式1中文本域因子为1。根据上述方法,对于某个短语,其权重值可以根据公式(1)进行计算。将上述经过去重的短语按权重值降序排列,选出前t个短语作为关键短语。t为正整数,优选t为10-20。
其中,步骤4还包括提取出关键词后,将关键词-文本域信息进行关联显示。其中,对于每个关键词,同时显示其所属的文本域,则查询者可以根据关键短语所属的文本域,判断该关键短语的重要程度或与对专利文档的技术主题的代表程度。例如,关键词“音频特征提取方法”出现的文本域为标题、权利要求、发明内容,则可以判断该关键词与专利文档的技术主题的密切相关,如图2所示。
进一步,步骤4还可以包括:提取出关键短语后,还可以根据所述技术领域-近义词表,显示与提取出来的关键短语相似的技术术语,作为近似检索词推 荐给查询者。所述技术领域-近义词表是预先利用一定规模的专利文档库的专利文档进行分词、停用词去除处理后,使用人工方法加工的根据IPC技术领域分类的短语表,并且将含义相同或相近的短语关联起来。
利用上述方法提取出关键词后,如果其中有一个或多个关键词具有2个或2个以上词义。利用上述技术领域-近义词表确定词义,具体做法为,先根据待标引文档的IPC分类号,定位到所属技术领域-近义词表的相关技术领域,如果该技术领域中仅存在1个词义,则同时显示出该关键词的相关技术领域共使用者参考。如果存在多个词义,则根据现有方法使用技术领域-近义词表分别对每个词义与其他关键短语以短语为元素构建词汇链,计算词的集聚特征值,计算如公式(9)所示:
ωcospanlenwcountsim (9)
其中,ωspan表示词汇链的词汇中短语最早出现的位置和最晚出现位置的距离,ωlen表示词汇链含有的短语数目,ωwcount表示含有词汇链任意元素的句子数目,ωsim词汇链中短语间的相关度,计算后取集聚特征值最大的词义。
上述方法与现有技术的区别在于,现有技术中一般使用知网等现有资源构建词汇链,仅能以词为元素构建词汇链。而本发明中使用预先利用专利文档库建立的技术领域近义词表,该词表是以短语为元素,因而可以以短语为元素进行词汇链构建,从而可以用于关键短语的提取。
进一步,利用上述方法提取出关键短语后,还可以将关键短语分类为主题信息、技术方案信息、其他对检索有用的信息。主题信息,是指揭示了发明技术主题的信息。技术方案信息,是表示技术方案内容的关键信息。其他对检索有用的信息,是指直接揭示了发明有益效果、用途、所要解决的技术问题的技术信息。
例如,“一种用于垂直轴盘式电机的磁悬浮支撑结构”,使用模板
[STR:一种]+[STR:PP]+[STR:的]+[STR:NP]
提取出介词短语PP“用于垂直轴盘式电机”和名词短语NP“磁悬浮支撑结构”,经过本发明上述方法提取出关键短语“垂直轴盘式电机”和“磁悬浮支撑结构”,其中,“垂直轴盘式电机”属于其他对检索有用的信息,“磁悬浮支撑结构”为主题信息。
利用上述方法提取出关键短语后,还可以将关键短语与其他知识信息相关联,例如带提取关键词的专利文档的分类号信息、技术领域信息,与提取的关键短语一起进行显示。
例1
以下以一个具体的专利文献的片段为例,说明本发明涉及的方法,但是以下实施例仅为说明本发明,而不用于限定本发明。
【例】
发明名称:时分双工系统中随机接入信道的发送方法
主分类号:H04L1/18
摘要:本发明提供了一种时分双工系统中随机接入信道的发送方法,包括以下步骤:确定时分双工系统的UpPTS内的RACH的数目;…
权利要求:
1.一种时分双工系统中随机接入信道RACH的发送方法,其特征在于,……
技术领域:本发明涉及通信领域,具体而言,涉及一种时分双工系统中随机接入信道的发送方法。
背景技术:LTE(Long Term Evolution,长期演进)系统TDD(Time DivisionDuplex,时分双工)模式的帧结构,如图1所示。…
发明内容:本发明旨在提供一种时分双工系统中随机接入信道的发送方法,能够解决在UpPTS中发送RACH时,RACH在频域位置不当导致减弱RACH间分集效果的问题。…
附图说明:
此处所说明的附图用来提供对本发明的进一步理解,…
具体实施方式:下面将参考附图并结合实施例,来详细说明本发明。
首先,从专利文档中读取上述文本。标注文本域,例如:在摘要起始位置和结束为止标注<abstract>和</abstract>,权利要求书起始位置标注<claims>和</claims>等。标注文本域的方法可以通过读取其已有XML标签或者使用模板匹配等现有方法实现。经过文本域标注后,获取IPC主分类号,并对文本进行位置信息识别,位置信息识别主要采取预先设置的规则模板等。
使用现有工具对上述文本进行分句、分词、词性标注,常见分词工具如ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法。例如:“本发明/n提供/v”。经过上述处理后,对文本进行发明主题类型识别,识别出发明主题类型为方法类型。之后使用关键词表、规则方法、模板法、前后指示词法对上述分词结果进行过滤,过滤出候选短语。
使用头尾词表和停用短语表对提取出的关键词进行噪声过滤处理和停用短语过滤处理。经过上述处理后进行候选短语的权重值计算,根据计算结果,
选取10个关键短语为:时分双工;随机接入信道;信道分配;均匀分布;信道发送;上行导频时隙;信道数目;可用频带;上边界;下边界。此处仅为示例选取了10个关键短语,根据需要还可以改变选择的关键短语的数量。
例2
【例】
发明名称:基于嵌块和嵌槽的异质壳体结合构造
主分类号:G06F1/18
摘要:一种异质壳体结合构造,包括有第一构件、第二构件、及黏合剂。…
权利要求:1.一种异质壳体结合构造,包括有:一第一构件,具有至少一嵌槽;…
技术领域:本发明涉及一种壳体结合构造,特别涉及一种强化异质材料壳体的结合强度的构造。
背景技术:为了满足现今消费者的要求,目前笔记本电脑的外壳均强调散热性能佳、重量轻、坚固耐磨、色彩多样等特点。
发明内容:鉴于以上的问题,本发明提供一种异质壳体结合构造,以改善现有的黏合剂仅黏合内外两层异质壳体的表面所造成黏合性不佳的问题。…
附图说明:
图1为本发明的分解示意图;
具体实施方式:根据本发明所披露的异质壳体结合构造,所述的壳体构造包括笔记本电脑、平板电脑、超便携电脑(ultra mobile personal computer,UMPC)、个人数字助理(Personal Digital Assistant,PDA)等便携式电脑装置,但并不以此为限。…
首先,从专利文档中读取上述文本。标注文本域,例如:在摘要起始位置和结束为止标注<abstract>和</abstract>,权利要求书起始位置标注<claims>和</claims>等。标注文本域的方法可以通过读取其已有XML标签或者使用模板匹配等现有方法实现。经过文本域标注后,获取IPC主分类号,并对文本进行位置信息识别,位置信息识别主要采取预先设置的规则模板等。
使用现有工具对上述文本进行分句、分词、词性标注,常见分词工具如 ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法。例如:“本发明/n提供/v”。经过上述处理后,对文本进行发明主题类型识别,识别出发明主题类型为产品类型。之后使用关键词表、规则方法、模板法对上述分词结果进行过滤,过滤出候选短语。
使用头尾词表和停用短语表对提取出的关键词进行噪声过滤处理和停用短语过滤处理。
经过上述处理后进行候选短语的权重值计算。提取10个关键短语,则选取的关键短语分别为:嵌块;嵌槽;连接结构;构件;粘合剂;黏合剂;笔记本电脑;异质壳体;结合强度;铝合金。此处仅为示例,根据需要还可以改变选择的关键短语的数量。
例3
【例】
发明名称:预定收集率为20%-50%的车辆柴油机用颗粒状物质减少装置
主分类号:F01N3/022
摘要:本发明涉及颗粒状物质的减少装置。本发明的颗粒状物质的减少装置(10)以总计收集率为50%以下的低收集率,将柴油机的排放气体(1)中的颗粒状物质PM收集于各过滤器(11)上的同时,使其燃烧并减少。
权利要求:1.一种颗粒状物质的减少装置,用于燃烧并减少柴油机的排放气体中所含有的颗粒状物质,同时将所述物质收集在所述减少装置上,…
技术领域:本发明涉及颗粒状物质的减少装置。即,涉及收集并燃烧包含于柴油发动机的排放气体中的颗粒状物质并使其减少的颗粒状物质的减少装置。例如,涉及随后追加安装在现在被使用的在用车辆上的减少装置。
背景技术:在柴油发动机的排放气体中,含有:一氧化碳CO、碳氢化合物 HC、氮氧化物NOX、颗粒状物质PM等。
发明内容:本发明就是鉴于这样的实际情况,为了解决上述现有技术的问题而开发的。本发明的颗粒状物质减少装置,其特征在于:对于一片或多片过滤器,采用了将以下各点组合的方法。
附图说明:
图1是对本发明的颗粒状物质的减少装置,为说明用于实施本发明的最佳实施例的说明图,(1)图是第1例的主剖面说明图,(2)图是第2例的主剖面说明图。
具体实施方式:以下,根据附图所示的用于实施本发明的最佳实施例,详细说明本发明的颗粒状物质减少装置。图1、图2、图3、图4等,供用于实施本发明的最佳实施例的说明。
首先,从专利文档中读取上述文本。标注文本域,例如:在摘要起始位置和结束为止标注<abstract>和</abstract>,权利要求书起始位置标注<claims>和</claims>等。标注文本域的方法可以通过读取其已有XML标签或者使用模板匹配等现有方法实现。经过文本域标注后,获取IPC主分类号,并对文本进行位置信息识别,位置信息识别主要采取预先设置的规则模板等。
使用现有工具对上述文本进行分句、分词、词性标注,常见分词工具如ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法。例如:“本发明/n提供/v”。经过上述处理后,对文本进行发明主题类型识别,识别出发明主题类型为设备类型。之后使用关键词表、规则方法、模板法对上述分词结果进行过滤,过滤出候选短语。
使用头尾词表和停用短语表对提取出的关键词进行噪声过滤处理和停用短 语过滤处理。
经过上述处理后进行候选短语的权重值计算。提取10个关键短语,则选取的关键短语分别为:预定收集率;过滤器;金属丝筛网;过滤器元件;通气孔;短圆柱状;遮盖板;填充密度;外圆周面;外筒壳体。此处仅为示例,根据需要还可以改变选择的关键短语的数量。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (8)

1.一种专利文献关键短语自动提取方法,包括:
步骤1:进行文本域的预处理;
步骤2:识别专利发明的主题类型;
步骤3:提取候选关键短语并进行短语过滤;
步骤4:对过滤后的候选关键短语进行权重计算并选出关键短语;
其中,步骤1包括:
步骤11、识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、附图说明或者发明内容的文本域;
步骤12、对专利全文进行分句,根据需要进行分词处理,分词后进行词性标注;
步骤13、对于各文本域中的特殊位置进行识别;
其中,步骤4中,权重计算方法为:
短语权重=(词频权重+IPC权重)/2*文本域因子*位置因子,
其中,位置因子是短语首次出现的位置带来的权重影响,文本域因子是指短语位于专利文献不同文本域对其权重的影响。
2.根据权利要求1所述的方法,其中,步骤2包括:
步骤21、对于技术主题类型进行分类训练,获取分类器;
步骤22、获取发明名称、分词、词性标注信息、核心词;
步骤23、基于经过训练后的分类器,通过特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型。
3.根据权利要求2所述的方法,其中,步骤21包括:
步骤211、选取1万篇以上专利文档作为训练语料,从著录项目中获取发明名称和独立权利要求的主题名称及其分词、词性标注信息;
步骤212、获取核心词;
步骤213、对上述训练人工标注其技术主题类型;
步骤214、根据技术主题类型的标注结果,分别建立上述技术主题类型的特征词表;
步骤215、使用自动分类方法作为技术类型分类方法,对待分类的专利文档主题名称进行分类,获取分类器。
4.根据权利要求1所述的方法,其中,步骤3包括:
步骤31、使用词表法、规则方法、模板方法或者前后指示词方法来提取候选关键短语;
步骤32、提取后对停用短语和低信息度短语进行过滤。
5.根据权利要求1所述的方法,其中,步骤4中,计算频率权重包括统计与短语频率相关的权重,计算方法包括TF-IDF、TFC、ITC或者TF-IWF法。
6.根据权利要求1所述的方法,其中,步骤4中,位置因子分为文本位置因子和专利位置因子,文本位置因子是指因关键短语出现在文档的不同位置带来的对权重的影响,专利位置因子是指由于专利特殊撰写格式带来的对权重的影响。
7.根据权利要求1所述的方法,其中,步骤4还包括:
提取出关键词后,将关键词-文本域信息进行关联显示;或者
提取出关键短语后,根据技术领域-近义词表,显示与提取出来的关键短语相似的技术术语,作为近似检索词推荐给查询者。
8.根据权利要求7所述的方法,其中,显示与提取出来的关键短语相似的技术术语的步骤包括:
根据待标引文档的IPC分类号,定位到所属技术领域-近义词表的相关技术领域,如果该技术领域中仅存在一个词义,同时显示出该关键词的相关技术领域共使用者参考;或者
如果存在多个词义,则根据现有方法使用技术领域-近义词表分别对每个词义与其他关键短语以短语为元素构建词汇链,计算词的集聚特征值,计算后取集聚特征值最大的词义。
CN201410056332.1A 2014-02-19 2014-02-19 一种专利文献关键短语自动提取方法 Active CN103885934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410056332.1A CN103885934B (zh) 2014-02-19 2014-02-19 一种专利文献关键短语自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410056332.1A CN103885934B (zh) 2014-02-19 2014-02-19 一种专利文献关键短语自动提取方法

Publications (2)

Publication Number Publication Date
CN103885934A CN103885934A (zh) 2014-06-25
CN103885934B true CN103885934B (zh) 2017-05-03

Family

ID=50954829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410056332.1A Active CN103885934B (zh) 2014-02-19 2014-02-19 一种专利文献关键短语自动提取方法

Country Status (1)

Country Link
CN (1) CN103885934B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5923806B1 (ja) * 2015-04-09 2016-05-25 真之 正林 情報処理装置及び方法、並びにプログラム
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
CN105224520B (zh) * 2015-09-28 2018-03-13 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
CN105426360B (zh) * 2015-11-12 2018-08-07 中国建设银行股份有限公司 一种关键词抽取方法及装置
CN105760474B (zh) * 2016-02-14 2021-02-19 Tcl科技集团股份有限公司 一种基于位置信息的文档集的特征词提取方法及系统
CN105975475A (zh) * 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN105868182B (zh) * 2016-04-21 2019-08-30 深圳市中兴移动软件有限公司 一种文本信息处理方法及装置
CN108021545B (zh) * 2016-11-03 2021-08-10 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN108733634A (zh) * 2017-04-20 2018-11-02 北大方正集团有限公司 参考文献的识别方法及识别装置
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN107577663B (zh) * 2017-08-24 2021-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN107622122A (zh) * 2017-09-27 2018-01-23 合肥博力生产力促进中心有限公司 一种专利关键词自动提取方法
CN108491368A (zh) * 2018-03-12 2018-09-04 韩芳 一种基于人工智能的专利撰写方法及撰写系统
CN109101538A (zh) * 2018-06-29 2018-12-28 中译语通科技股份有限公司 一种面向中文专利文本的实体抽取方法和系统
CN109189942B (zh) * 2018-09-12 2021-07-09 山东大学 一种专利数据知识图谱的构建方法及装置
CN110895563A (zh) * 2018-09-13 2020-03-20 深圳市蓝灯鱼智能科技有限公司 一种文本检索方法及装置
CN109284360A (zh) * 2018-09-18 2019-01-29 江苏润桐数据服务有限公司 一种专利检索自动去噪方法和装置
CN109614463B (zh) * 2018-10-24 2023-02-03 创新先进技术有限公司 文本匹配处理方法及装置
CN110032622B (zh) * 2018-11-28 2023-07-14 创新先进技术有限公司 关键词确定方法、装置、设备及计算机可读存储介质
CN109558481B (zh) * 2018-12-03 2022-05-24 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质
CN109933649A (zh) * 2019-03-14 2019-06-25 武汉烽火普天信息技术有限公司 一种基于分类词库和启发式规则的案件手段抽取方法
CN110059312A (zh) * 2019-03-27 2019-07-26 阿里巴巴集团控股有限公司 短语挖掘方法、装置和电子设备
CN110674250B (zh) * 2019-08-15 2023-06-23 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质
CN110852097B (zh) * 2019-10-15 2022-02-01 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111046168B (zh) * 2019-12-19 2023-12-01 智慧芽信息科技(苏州)有限公司 用于生成专利概述信息的方法、装置、电子设备和介质
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN112016830A (zh) * 2020-08-27 2020-12-01 广东电网有限责任公司 一种专利文件评估任务分配方法及装置
CN112733549B (zh) * 2020-12-31 2024-03-01 厦门智融合科技有限公司 一种基于多重语义融合的专利价值信息分析方法、装置
CN112380350B (zh) * 2021-01-14 2021-05-07 北京育学园健康管理中心有限公司 一种文本分类方法和装置
CN112949254A (zh) * 2021-02-25 2021-06-11 郎丽华 专利申请文件附图标记处理系统及其处理方法
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质
CN116167344B (zh) * 2023-02-17 2023-10-27 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090087836A (ko) * 2008-02-13 2009-08-18 (주)한국아이피보호기술연구소 주요특허 선별 시스템 및 그 방법
CN103136300B (zh) * 2011-12-05 2017-02-01 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置

Also Published As

Publication number Publication date
CN103885934A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103885934B (zh) 一种专利文献关键短语自动提取方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Holmes The evolution of stylometry in humanities scholarship
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
CN104216876B (zh) 信息文本过滤方法及系统
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
Piao et al. Comparing and combining a semantic tagger and a statistical tool for MWE extraction
CN106445998A (zh) 一种基于敏感词的文本内容审核方法及系统
Abujar et al. A heuristic approach of text summarization for Bengali documentation
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
CN106066866A (zh) 一种英文文献关键短语自动抽取方法与系统
CN106257455B (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法
CN103150303B (zh) 汉语语义格分层识别方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN108549625B (zh) 一种基于句法宾语聚类的中文篇章表现主题分析方法
CN105302794A (zh) 一种中文同指事件识别方法及系统
CN110610005A (zh) 基于深度学习的盗窃罪辅助量刑方法
CN107180025A (zh) 一种新词的识别方法及装置
CN106776672A (zh) 技术发展脉络图确定方法
CN109800349A (zh) 基于用户发布内容量化新闻价值的数据处理方法和装置
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN111310467A (zh) 一种在长文本中结合语义推断的主题提取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant