CN101692240A - 一种基于规则的专利摘要自动抽取和关键词标引方法 - Google Patents

一种基于规则的专利摘要自动抽取和关键词标引方法 Download PDF

Info

Publication number
CN101692240A
CN101692240A CN200910162381A CN200910162381A CN101692240A CN 101692240 A CN101692240 A CN 101692240A CN 200910162381 A CN200910162381 A CN 200910162381A CN 200910162381 A CN200910162381 A CN 200910162381A CN 101692240 A CN101692240 A CN 101692240A
Authority
CN
China
Prior art keywords
paragraph
knowledge base
module
function
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910162381A
Other languages
English (en)
Inventor
王维
王进
胡先勇
王海虹
李红梅
崔征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongxian Electronic Technology Development Center
Original Assignee
Beijing Zhongxian Electronic Technology Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongxian Electronic Technology Development Center filed Critical Beijing Zhongxian Electronic Technology Development Center
Priority to CN200910162381A priority Critical patent/CN101692240A/zh
Publication of CN101692240A publication Critical patent/CN101692240A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medicines Containing Plant Substances (AREA)

Abstract

一种基于规则的专利摘要自动抽取和关键词标引方法。主要步骤包括:根据后台知识库对专利文献全文进行特征技术词汇等关键字的自动标记,然后由各段中特征词出现的类型、次数、位置关系等判断其在文章中的功能及相互关系,再抽取其中关键的段落组成摘要,最后从摘要中提取关键词组成该文献的各个标引项。本发明的自动摘要提取和关键词标引方法由五个模块组成,即:知识库模块、特征词标记模块、段落分析与评价模块、摘要自动撰写模块、标引模块。本发明的方法可以显著提高专利数据深度加工的效率,并显著降低数据加工成本,标引结果具有很强的检索价值。

Description

一种基于规则的专利摘要自动抽取和关键词标引方法
技术领域
本发明属于自然语言计算机处理领域,具体涉及一种基于规则的专利摘要自动抽取和关键词标引方法。
背景技术
随着专利文献数量的迅速增长,实现专利文献数据的查全率和查准率日益成为专利信息检索的重点和难点。长期以来,利用原始专利数据来完成的专利信息的检索,往往会存在较为严重的查全率和查准率相互矛盾的问题。由于专利文献原始信息来源于申请人的原始提交资料,为了实现对专利技术的描述和保护,往往会引用大量直接相关和间接相关的技术资料来描述专利技术。因此,在专利检索当中,如果为了保证检索的查全率,往往会同时检索出大量“噪音数据”,而如果为了保证检索的查准率,又往往因为限制条件过于严格,而丢失大量有用的检索结果。
为了解决上述问题,目前一种通用的方法就是采用专利信息深度加工的技术。包括由专业技术人员在全面了解专利技术内容的基础上,按照一定加工规则,对专利文献进行摘要重新撰写和关键词标引,力争提取出和技术主题直接相关、具有重要检索价值的专利信息。而专利数据的深度加工需要耗费大量的时间、人力和物力才能完成,其建设成本十分高昂,加工效率严重偏低。
为了解决上述问题,在专利文献深度加工过程中,采用自动摘要和自动标引技术,并辅助相应的人工处理,可以显著提高专利文献深度加工的工作效率,减低成本。
中国专利申请94103485.2公开了一种汉语文献计算机自动标引技术。在对大量句型进行系统分析研究的基础上,按照汉语的语法逻辑关系及语句结构特点,采取一些独特的技术措施,创造了一种独特的“模式化标引法”。使用该方法可以克服现有人工标引方法效率低、误差大的缺点,又可以完全消除机器标引中可能发生的“误切”、“漏切”和由此引起的“误标”与“漏标”,从而保证了文献的准确标引以及高效率、高准确率的检索。
中国专利申请01138654.1公开了一种基于网络环境的中文信息自动标引系统,公开了一种在互联网环境下基于WINDOWS或NT操作系统的中文自动标引系统。
中国专利申请200610024618.7公开了一种专利文献的标引方法,包括提供一相关技术主题专利文献数据库;建立该技术主题的技术分类及其对应的关键字/词;选择部分或全部专利文献进行标引,对每一篇专利文献,建立其与关键字/词和技术分类的对应关系;在此步骤中,根据标引的专利文献,修正技术分类或者技术分类对应的关键字。
此外,中国专利申请200410000936.0也公开了一种计算机标引和检索的方法。
自动摘要抽取和自动关键词标引技术已经经过了多年的发展,但针对专利文献数据深度加工中的特定技术方法还未见报道。中国专利申请200610024618.7中公开的专利文献的标引方法,仅仅解决了在专利文献快速阅读和了解大意时的问题,并不能从根本上解决专利检索的问题。
本发明旨在采用一种基于规则的专利摘要自动抽取和关键词标引方法,从而可以显著提高专利文献深度加工的效率,并解决专利文献深度加工当中人力成本高昂的现状。
发明内容
针对现有技术中存在上述不足之处,本发明的目的在于提供一种专利摘要自动抽取和关键词标引方法,可以实现基于规则的专利文献自动深度加工。
本发明的自动摘要提取和关键词标引方法的一般过程是:根据后台知识库对专利文献全文进行特征技术词汇等关键字的自动标记,然后由各段中特征词出现的类型、次数、位置关系等判断其在文章中的功能及相互关系,再抽取其中关键的段落组成摘要,最后从摘要中提取关键词组成该文献的各个标引项。通常情况下由五个功能模块来实现的:知识库模块、特征词标记模块、段落分析与评价模块、摘要自动撰写模块和标引模块。
其中的关键技术在于:在摘要抽取和关键词标引的过程中,采用了适合于专利文献特点的自动抽取和标引规则。
1、知识库模块:
知识库是实现本方法的系统的基础,可采用本领域通用的方法和加工手段建立知识库。为了对文献解析的更加清楚,本系统构建基于不同技术领域的科技术语知识库,其中包括各领域科技术语名称及其IPC属性信息、同义词和近义词信息等,并同时建立了基于不同技术领域的工艺动词知识库。
以中药领域的科技术语知识库为例,其知识库样例如下:
样例一
  中药正名   中药异名   IPC号
  白花夏枯草   ;白甜蜜蜜;白花枝子花;   A61K036/53
  白花映山红   ;白杜鹃花;照山白;   A61K036/45;A61K125/00;A61K133/00
  白桦皮   ;刻因托斯;疣桦;   A61K036/185;A61K129/00
  白蔹子   A61K036/87;A61K131/00
  白绿叶   ;羊奶果;   A61K036/185;A61K127/00
  白螺蛳壳   ;方形环棱螺;白螺壳;   A61K035/56
  白鸡屎藤   ;臭皮藤;臭茎子;迎风子;   A61K036/74;A61K125/00
  中药正名   中药异名   IPC号
  白及   ;白及粉;;甘根;白根;白给;白芨;冰球子;白乌儿头;地螺丝;羊角七;千年棕;君球子;一兜棕;白鸡儿;皲口药;利知子;白芨片;连及草;箬兰;朱兰;紫兰;紫蕙;百笠;白及粉;   A61K036/898;A61K125/00
  白暨豚   ;白旗;白鳍;白鳍豚;白江猪;   A61K035/12
样例二
  正式词   同义词   组配词   IPC   PHC
  平滑肌瘤   ;平滑肌细胞瘤;LEIOMYOMA;   肿瘤;癌   A61P035/00   03;12
  平滑肌肉瘤   ;LEIOMYOSARCOMA;   肿瘤;癌   A61P035/00   03;12
  破伤风   ;强直症;TETANUS;   A61P021/02   12
  葡萄膜炎   ;色素膜炎;眼色素层炎;色素层炎;UVEITIS;   A61P027/02   14
  葡萄球菌   ;STAPHYLOCOCCUS;   抗菌   A61P031/04   11
  葡萄球菌病   A61P031/00   11
  葡萄胎   ;葡萄簇状瘤;水泡状胎块;HYDATIDIFORM  MOLE;VESICULAR MOLE;   肿瘤;癌   A61P035/00   07;03
  期前收缩   ;PREMATURE SYSTOLE;早搏;   心律失常   A61P009/06   04
  气管炎   ;TRACHEITIS;   A61P011/00   16
中药领域的工艺动词知识库样例:
样例一:
  工序动词
  加入
  混合
  粉碎
  浓缩
  加水煎煮
  提取
  过滤
  浸泡
  加水
  粉碎成
  干燥
2、特征词标记模块
该模块的功能是读入专利文本后,采用本领域中通用的正向最大匹配分词算法,根据后台知识库对文本进行特征术语标记。
3、段落分析与评价模块
在特征术语标注的基础上,进一步完成基于规则的段落分析和评价。
首先是判断分析专利文献中的功能段落,即含有专利文献的一些特征术语,并且对检索具有重要价值的段落。其技术方法是,统计段落中标记字与非标记字的字数比率,并根据不同技术领域设定的比率,提取出高于此比率的段落做为备选功能段落,然后再根据不同技术领域设定的具体分析规则提取出不同类型的功能段落。
上述统计中标记字与非标记字的比率根据经验值通常设定在0.3,也可以根据不同技术领域的特点,适当调整上述比例。
设定具体分析规则提取出不同类型的功能段落中,可以根据段落中不同句子的结构性关键词来设定规则。例如句子结构中包含[有...功效]、[有...功能]、[有...作用]、[有...疗效]、[用于]、[组方具有]等短语结构的可以判断是功效功能段落;句子结构中包含[步骤为]、[步骤是]、[步骤:]、[下...步骤]、[制备]、[解决方案]、[技术方案]、″[实施例...:]、[制备...:]、[以下...步]、[如下...步]、[解决方案...:]、[技术方案...:]、[生产方法...:]、[技术措施...:]等短语结构的可以判断是制作工艺功能段落;句子结构中包含[包括...组分]、[下...原料]、[配比...:]、[下...制成]、[用量...:]等短语结构的可以判断是组合物功能段落。上述分析规则的设定是基于不同技术领域的专利文献特点,可以由使用者自主设定并积累功能类型和结构性关键词规则等。本模块的初始状态下,仅提供上述举例中包括的功能类型和结构性关键词规则。
4、摘要自动撰写模块
在评价完所有段落的功能后,即可用摘要自动撰写模块查找其中最关键的段落,然后以合理的次序“拼接”成摘要。在这里,将段落的关键性称为段落的“权值”。具体方法如下:对于功能单一的段落,每种类型按照其先后顺序来确定其重要程度,因为按照文献的特点,越前面的段落往往也是越重要的,即权值越大;对于功能复合的段落(例如此段中既叙述了配方也叙述了制作工艺),可以根据本领域常用的办法,由本段中各类特征词与普通词的比例来进行确定,比例越大的段落越重要,权值也就越大。最后,挑选各种类型中权重最大的段落生成自动摘要的结果。但是,有时在同一类功能段中,越靠的段明显比较短,这时就需要选取最长的一段来作为关键段。当自动摘要的结果生成后,一般情况下需要加入人工干预,删掉一些不必要的语句,使自动摘要读起来符合习惯、更加通顺。
本发明的技术方案中,优选是在自动抽取的文摘基础上进行关键词标引,更加优选的是在经过人工干预校对的摘要基础上进行关键词标引。
关键词标引方法的具体方法是根据段落分析与评价模块中的方法和规则来分析不同句子的具体类型,并调用知识库模块中已经设定好的关键词,对摘要中的关键词按不同标引项目进行抽取。
标引时,可以根据知识库提供的同义词、异名等信息,对标引词进行自动修订,也可以通过人工方式,主动对标引词进行修订。并生成最终标引结果。
有益效果和实用性:
本发明的方法的最大的优点在于,可以充分实现人机互动:一方面,通过人工不断优化处理知识库和对不同领域专利文本信息的规则分析,可以显著提高自动摘要的准确性和内容全面性;另一方面,在自动摘要的基础上,进一步由人工对摘要进行完善和优化,又可以显著提高自动标引的准确性。采用本发明的方法,可以达到较高水平的自动标引水平,同时结合一定程度的人工辅助干预,可以达到人工标引水平的80-90%,标引结果具有很强的检索价值。
与完全人工标引相比,采用本发明的方法可以显著提高专利数据深度加工的效率,并显著降低数据加工成本。传统的专利数据深加工,平均一个标引人员只能完成8-10件专利/每天的标引工作,而采用本发明的方法,完成自动标引可以达到1000件以上专利/每天的标引工作。如果考虑人工辅助的工作效率,也可达到20件专利左右/每天的标引效率。
附图说明
附图1是根据本发明方法的自动摘要撰写和自动关键词抽取流程图。
具体实施方式
实施例一
以下是采用本发明的方法对中国专利申请00100617.7的进行摘要自动抽取和关键词自动标引流程和结果。该专利原文如下:
权利要求书:
1、一种治疗玻璃体混浊和出血的颗粒冲剂,其特征是含有丹参、石决明、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草;其中所述各成份的重量份数配比为:
丹参48-192份  石决明48-192份
生蒲黄24-96份 柴胡24-96份
昆布24-96份   当归16-64份
白术16-64份   苍术16-64份
茯苓16-64份   猪苓16-64份
甘草8-32份
2、如权利要求1所述的治疗玻璃体混浊和出血的颗粒冲剂的制备方法,其特征是包括取石决明加水9-11倍先煎1-2小时,然后加入其它丹参、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草十味药材煎煮3次,第一次加水量为药材的9-11倍,第二次和第三次加水量分别为药材的9-11倍,3次的煎煮时间为1-3、0.5-1.5、0.5-1.5小时,合并煎液,过滤,真空减压干燥,浓缩至相对密度为1.25(60℃)的清膏,将干膏粉碎过80-120目筛,取药粉1份加入糊精1份,用70%乙醇搅拌均匀后制粒。
说明书:
一种治疗玻璃体混浊和出血的颗粒冲剂及其制备方法
本发明涉及中药制剂,特别是一种治疗玻璃体混浊和出血的颗粒冲剂及其制备方法。
玻璃体混浊指玻璃体的正常透明度发生混浊性改变,中医谓之“云雾移晴”,“蝇翅黑花”等。多源于胆肝肾三经病变,有因肾水不足,水不涵木,虚热内生,移热于胆;津液煎竭,不能升运精华以涵养神膏;因素体虚弱,去血过多,深思积忿,耗气伤精,目失涵养;因湿浊痰火,蒸伤清纯之气而导致本病。故补益肝肾,清胆和胃,滋补肾水,以制相火,益气养血,活血化痰为本病主治之法。
玻璃体出血多系肝胆火旺,迫血妄行,血络破损,灌入神膏;或因肝肾阴亏,水不制火,虚火上炎,血不循经,溢于络外;也有因撞击伤目或金针开内障等手术损伤黄仁血络,血溢络外,灌入神膏等。故清肝泄火,滋阴降火,清热凉血,活血化瘀为本病主治之法。
本发明的目的是提供一种对各种原因引起的玻璃体混浊、出血、飞蚊症有明显疗效或起到改善作用的治疗玻璃体混浊和出血的颗粒冲剂。
本发明的另一个目的是提供一种上述治疗玻璃体混浊和出血的颗粒冲剂的制备方法。
本发明的治疗玻璃体混浊和出血的中药制剂中含有丹参、石决明、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草;其中所述各成份的重量份数配比为:
丹参48-192份  石决明48-192份
生蒲黄24-96份 柴胡24-96份
昆布24-96份   当归16-64份
白术16-64份   苍术16-64份
茯苓16-64份   猪苓16-64份
甘草8-32份
本发明的治疗玻璃体混浊和出血的颗粒冲剂的制备方法包括:取石决明加水9-11倍先煎1-2小时,然后加入其它:丹参、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草十味药材煎煮3次,第一次加水量为药材的9-11倍,第二次和第三次加水量分别为药材的9-11倍,3次的煎煮时间为1-3、0.5-1.5、0.5-1.5小时,合并煎液,过滤,真空减压干燥,浓缩至相对密度为1.25(60℃)的清膏,将干膏粉碎过80-120目筛,取药粉1份加入糊精1份,用70%乙醇搅拌均匀后制粒。
本发明的治疗玻璃体混浊的颗粒冲剂具有活血调经、通络散结、泄火清胆、补益肝肾的作用,对各种原因引起的玻璃体混浊、出血、飞蚊症有明显疗效或起到改善作用的治疗玻璃体混浊和出血的颗粒冲剂。
下面结合实施例进一步描述本发明。
一种治疗玻璃体混浊和出血的颗粒冲剂,它含有丹参、石决明、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草;其中所述各成份的重量配比为:
丹参144g  石决明144g
生蒲黄72g 柴胡72g
昆布72g   当归48g
白术48g   苍术48g
茯苓48g   猪苓48g
甘草24g
制备时,先取石决明加水10倍煎1小时,然后加入丹参、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草十味药材煎煮3次,第一次加10倍的水,第二次和第三次分别加水8倍量,3次煎煮时间为2、1、1小时,合并煎液,过滤,真空减压干燥,浓缩至相对密度为1.25(60℃)的清膏,将干膏粉碎过100目筛,取药粉1份加入糊精1份,用适量70%乙醇搅拌均匀后制粒,干燥后整粒分装成12g/袋,即得。
如附图1中所示,首先调用特征词标记模块,用常用的正向最大匹配法分词算法处理后,得到的带标记的全文如下(其中{}代表药物名称,◇代表操作工序,[]代表治疗效果。段落前面括号内的数字为段落编号):
权利要求书:
(1)1、一种治疗[玻璃体混浊]和[出血]的颗粒冲剂,其特征是含有{丹参}、{石决明}、{生蒲黄}、{柴胡}、{昆布}、{当归}、{白术}、{苍术}、{茯苓}、{猪苓}和{甘草};其中所述各成份的重量份数配比为:
(2){丹参}48-192份{石决明}48-192份;
(3){生蒲黄}24-96份{柴胡}24-96份;
(4){昆布}24-96份{当归}16-64份;
(5){白术}16-64份{苍术}16-64份;
(6){茯苓}16-64份{猪苓}16-64份;
(7){甘草}8-32份;
(8)2、如权利要求1所述的治疗[玻璃体混浊]和[出血]的颗粒冲剂的制备方法,其特征是包括取{石决明}<加水>9-11倍先煎1-2小时,然后<加入>其它{丹参}、{生蒲黄}、{柴胡}、{昆布}、{当归}、{白术}、{苍术}、{茯苓}、{猪苓}和{甘草}十味药材<煎煮>3次,第一次<加水>量为药材的9-11倍,第二次和第三次<加水>量分别为药材的9-11倍,3次的<煎煮>时间为1-3、0.5-1.5、0.5-1.5小时,<合并煎液>,<过滤>,真空<减压干燥>,<浓缩>至相对密度为1.25(60℃)的清膏,将干膏<粉碎>过80-120目筛,取药粉1份<加入>糊精1份,用70%乙醇<搅拌均匀>后制粒。
说明书:
(9)一种治疗[玻璃体混浊]和[出血]的颗粒冲剂及其制备方法
(10)本发明涉及中药制剂,特别是一种治疗[玻璃体混浊]和[出血]的颗粒冲剂及其制备方法。
(11)[玻璃体混浊]指[玻璃体]的正常透明度发生混浊性改变,中医谓之“云雾移晴”,“蝇翅黑花”等。多源于胆肝肾三经病变,有因肾水不足,水不涵木,虚热内生,移热于胆;津液煎竭,不能升运精华以涵养神膏;因素体虚弱,去血过多,深思积忿,耗气伤精,目失涵养;因湿浊痰火,蒸伤清纯之气而导致本病。故补益肝肾,清胆和胃,[滋补]肾水,以制相火,益气养血,活血[化痰]为本病主治之法。
(12)[玻璃体出血]多系肝胆火旺,迫血妄行,血络破损,灌入神膏;或因肝[肾阴]亏,水不制火,虚火上炎,血不循经,溢于络外;也有因撞击伤目或金针开内障等手术损伤黄仁血络,血溢络外,灌入神膏等。故清肝泄火,滋阴降火,清热凉血,活血化瘀为本病主治之法。
(13)本发明的目的是提供一种对各种原因引起的[玻璃体混浊]、[出血]、飞蚊症有明显疗效或起到改善作用的治疗[玻璃体混浊]和[出血]的颗粒冲剂。
(14)本发明的另一个目的是提供一种上述治疗[玻璃体混浊]和[出血]的颗粒冲剂的制备方法。
(15)本发明的治疗[玻璃体混浊]和[出血]的中药制剂中含有{丹参}、{石决明}、{生蒲黄}、{柴胡}、{昆布}、{当归}、{白术}、{苍术}、{茯苓}、{猪苓}和{甘草};其中所述各成份的重量份数配比为:
(16){丹参}48-192份{石决明}48-192份
(17){生蒲黄}24-96份{柴胡}24-96份
(18){昆布}24-96份{当归}16-64份
(19){白术}16-64份{苍术}16-64份
(20){茯苓}16-64份{猪苓}16-64份
(21){甘草}8-32份
(22)本发明的治疗[玻璃体混浊]和[出血]的颗粒冲剂的制备方法包括:取{石决明}<加水>9-11倍先煎1-2小时,然后<加入>其它:{丹参}、{生蒲黄}、{柴胡}、{昆布}、{当归}、{白术}、{苍术}、{茯苓}、{猪苓}和{甘草}十味药材<煎煮>3次,第一次<加水>量为药材的9-11倍,第二次和第三次<加水>量分别为药材的9-11倍,3次的<煎煮>时间为1-3、0.5-1.5、0.5-1.5小时,<合并煎液>,<过滤>,真空<减压干燥>,<浓缩>至相对密度为1.25(60℃)的清膏,将干膏<粉碎>过80-120目筛,取药粉1份<加入>糊精1份,用70%乙醇<搅拌均匀>后制粒。
(23)本发明的治疗[玻璃体混浊]的颗粒冲剂具有活血[调经]、通络散结、泄火清胆、补益肝肾的作用,对各种原因引起的[玻璃体混浊]、[出血]、飞蚊症有明显疗效或起到改善作用的治疗[玻璃体混浊]和[出血]的颗粒冲剂。
(24)下面结合实施例进一步描述本发明。
(25)一种治疗[玻璃体混浊]和[出血]的颗粒冲剂,它含有{丹参}、{石决明}、{生蒲黄}、{柴胡}、{昆布}、{当归}、{白术}、{苍术}、{茯苓}、{猪苓}和{甘草};其中所述各成份的重量配比为:
(26){丹参}144g{石决明}144g
(27){生蒲黄}72g{柴胡}72g
(28){昆布}72g{当归}48g
(29){白术}48g{苍术}48g
(30){茯苓}48g{猪苓}48g
(31){甘草}24g
(32)制备时,先取{石决明}<加水>10倍煎1小时,然后<加入>{丹参}、{生蒲黄}、{柴胡}、{昆布}、{当归}、{白术}、{苍术}、{茯苓}、{猪苓}和{甘草}十味药材<煎煮>3次,第一次加10倍的水,第二次和第三次分别<加水>8倍量,3次<煎煮>时间为2、1、1小时,<合并煎液>,<过滤>,真空<减压干燥>,<浓缩>至相对密度为1.25(60℃)的清膏,将干膏<粉碎>过100目筛,取药粉1份<加入>糊精1份,用适量70%乙醇<搅拌均匀>后制粒,<干燥>后整粒分装成12g/袋,即得。
然后调用附图1中所示的段落分析与评价模块,分析过程如下:经过逐段计算,发现标记字与非标记字的字数比例大于阈值0.3的段落编号有:1~9、13、15~23、25~32。再根据段落分析与评价模块中列举的一些列结构性关键词,判断出1~7、15~21、25~31为组合物功能段,8、22、32为制作工艺功能段,9、13、23为功效功能段。
经过以上段落分析与评价,如附图1所示,就可以调用摘要自动撰写模块来撰写摘要了,其分析过程如下:在组合物功能段中,按照越靠前段落权值越大的基本方法,挑选出1~8为关键段来组成自动摘要;在制作工艺功能段中,按照越靠前段落权值越大的方法,挑选9为关键段;在功效功能段中,由于第9段明显比较短,不适宜做关键度,所以应选取最长的第23段作为关键段。这样,便得到自动摘要的结果,如下:
一种治疗玻璃体混浊和出血的颗粒冲剂,其特征是含有丹参、石决明、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草;其中所述各成份的重量份数配比为:丹参48-192份石决明48-192份;生蒲黄24-96份柴胡24-96份;昆布24-96份当归16-64份;白术16-64份苍术16-64份;茯苓16-64份猪苓16-64份;甘草8-32份;其特征是包括取石决明加水9-11倍先煎1-2小时,然后加入其它丹参、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草十味药材煎煮3次,第一次加水量为药材的9-11倍,第二次和第三次加水量分别为药材的9-11倍,3次的煎煮时间为1-3、0.5-1.5、0.5-1.5小时,合并煎液,过滤,真空减压干燥,浓缩至相对密度为1.25(60℃)的清膏,将干膏粉碎过80-120目筛,取药粉1份加入糊精1份,用70%乙醇搅拌均匀后制粒。本发明的治疗玻璃体混浊的颗粒冲剂具有活血调经、通络散结、泄火清胆、补益肝肾的作用,对各种原因引起的玻璃体混浊、出血、飞蚊症有明显疗效或起到改善作用的治疗玻璃体混浊和出血的颗粒冲剂。
得到如上所示的自动摘要后,如附图所示,一般需要进行人工干预,调整、修改、删除一些语句,使摘要更加简练、通顺。经过人工干预后的摘要如下:
一种治疗玻璃体混浊和出血的颗粒冲剂,由丹参、石决明、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓、甘草组成。将石决明、丹参、生蒲黄、柴胡、昆布、当归、白术、苍术、茯苓、猪苓和甘草十味药材煎煮、真空减压干燥、浓缩,再用乙醇搅拌均匀后制粒。具有活血调经、通络散结、泄火清胆、补益肝肾的作用,对各种原因引起的玻璃体混浊、出血、飞蚊症有明显疗效或起到改善作用。
最后,如图1所示,对摘要进行标引。分析摘要中的“由......组成”特征字句,并调用知识库中的词典,可以抽出IT-结合方法(MIX)的标引词:丹参;石决明;生蒲黄;柴胡;昆布;当归;白术;苍术;茯苓;猪苓;甘草。
类似的,对“具有......作用”“对......有疗效”“对......有作用”特征字句进行分心,并调用知识库中的词典,可以抽出EFF-治疗作用(THEF)的标引词:玻璃体混浊;飞蚊症;活血调经;通络散结;泄火清胆;补益肝肾。

Claims (7)

1.一种专利文献的摘要自动抽取和关键词标引方法,利用知识库模块、特征技术词汇标记模块、段落分析与评价模块、摘要自动撰写模块和标引模块进行摘要自动抽取和关键词标引,其基本步骤如下:
(1)、建立不同技术领域中专利科技术语知识库;
(2)、采用正向最大匹配分词算法,根据后台知识库对文本进行特征术语标记;
(3)、基于标记内容对专利文献的段落进行分析和评价;
(4)、在上述基础上,自动撰写摘要并进行关键词标引;
其特征在于:在步骤3中,首先是根据知识库,统计专利文献不同段落中标记字与非标记字的字数比率,并根据该比率识别备选功能段落,然后再根据默认设定或者用户设定的句子结构性关键词规则,识别不同类型的功能段落;在步骤4中,根据不同段落的标记字与非标记字字数比率、段落功能类型和在专利文献中出现的位置信息进行摘要自动抽取;并在摘要自动抽取或者人工修改后的摘要基础上,根据段落分析与评价模块中的方法和规则来分析不同句子的具体类型,并调用知识库中已经设定好的关键词,对摘要中的关键词按不同标引项目进行抽取。
2.如权利要求1所述的方法,其特征在于:
所述后台知识库是为特征技术词汇标记模块提供供分词用的后台词典,后台知识库根据技术领域进行划分,其包括各领域科技术语名称及其IPC属性信息、同义词和近义词信息,并同时建立了基于不同技术领域的工艺动词知识库。
3.如权利要求1所述的方法,其特征在于:
所述识别备选功能段落是根据后台知识库统计专利文献不同段落中标记字与非标记字的字数比率,当该比率高于0.3时,可以将该段落识别为备选功能段落。
4.如权利要求1所述的方法,其特征在于:
所述识别备选功能段落是根据后台知识库统计专利文献不同段落中标记字与非标记字的字数比率,该比率可以根据具体技术领域不同,由用户自定义设定,当该比率高于用户设定值时,可以将该段落识别为备选功能段落。
5.如权利要求1所述的方法,其特征在于:
所述识别不同类型的功能段落是根据段落中不同句子的结构性关键词来设定规则,其中,包含[有...功效]、[有...功能]、[有...作用]、[有...疗效]、[用于]、[组方具有]等短语结构的句子可以判断是功效功能段落;包含[步骤为]、[步骤是]、[步骤:]、[下...步骤]、[制备]、[解决方案]、[技术方案]、″[实施例...:]、[制备...:]、[以下...步]、[如下...步]、[解决方案...:]、[技术方案...:]、[生产方法...:]、[技术措施...:]等短语结构的句子可以判断是制作工艺功能段落;包含[包括...组分]、[下...原料]、[配比...:]、[下...制成]、[用量...:]等短语结构的句子可以判断是组合物功能段落。
6.如权利要求1所述的方法,其特征在于:
所述的摘要自动抽取是,对于功能单一的段落,每种类型按照其先后顺序来确定其重要程度,越前面的段落往往也是越重要的,即权值越大;对于功能复合的段落,根据本段中各类标记字与非标记字的比率来进行确定,比率越大的段落越重要,权值也就越大。最后,挑选各种类型中权重最大的段落生成自动摘要的结果。
7.如权利要求6所述的方法,其特征在于:
当自动摘要的结果生成后,一般情况下需要人工进行检查,删掉一些不必要的语句,使自动摘要读起来符合习惯、更加通顺。
CN200910162381A 2009-08-14 2009-08-14 一种基于规则的专利摘要自动抽取和关键词标引方法 Pending CN101692240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910162381A CN101692240A (zh) 2009-08-14 2009-08-14 一种基于规则的专利摘要自动抽取和关键词标引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910162381A CN101692240A (zh) 2009-08-14 2009-08-14 一种基于规则的专利摘要自动抽取和关键词标引方法

Publications (1)

Publication Number Publication Date
CN101692240A true CN101692240A (zh) 2010-04-07

Family

ID=42080925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910162381A Pending CN101692240A (zh) 2009-08-14 2009-08-14 一种基于规则的专利摘要自动抽取和关键词标引方法

Country Status (1)

Country Link
CN (1) CN101692240A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN102693244A (zh) * 2011-03-23 2012-09-26 日电(中国)有限公司 用于识别非结构化文本中的信息的方法和装置
CN102841888A (zh) * 2012-09-14 2012-12-26 《中国学术期刊(光盘版)》电子杂志社 一种快速排版系统及方法
CN103324620A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种对标注结果进行纠偏的方法和装置
CN103383683A (zh) * 2012-05-01 2013-11-06 成都勤智数码科技股份有限公司 It运维系统知识库的优化管理方法
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN103631965A (zh) * 2013-12-10 2014-03-12 湖南农业大学 一种基于分词器的农业知识录入手持终端及其录入方法
CN104462399A (zh) * 2014-12-11 2015-03-25 北京百度网讯科技有限公司 搜索结果的处理方法及装置
CN104636431A (zh) * 2014-12-31 2015-05-20 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化方法
CN104636415A (zh) * 2013-11-11 2015-05-20 乐金信世股份有限公司 提取重要关键字的方法和执行所述方法的服务器
CN104750843A (zh) * 2015-04-08 2015-07-01 浙江大学 一种从ipc中快速提取设计知识的辅助系统
CN104778268A (zh) * 2015-04-23 2015-07-15 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN106708861A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 一种文章关键实体获取方法及装置
CN106777103A (zh) * 2016-12-15 2017-05-31 北京科华万象科技有限公司 一种专利文件标引方法和装置
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN103412852B (zh) * 2013-08-21 2017-12-15 广东电子工业研究院有限公司 一种自动提取英文文献关键信息的方法
CN107622122A (zh) * 2017-09-27 2018-01-23 合肥博力生产力促进中心有限公司 一种专利关键词自动提取方法
CN107885722A (zh) * 2017-10-31 2018-04-06 北京奇艺世纪科技有限公司 一种关键词抽取方法和装置
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN109299214A (zh) * 2018-11-09 2019-02-01 医渡云(北京)技术有限公司 文本信息提取方法、装置、介质及电子设备
CN109508392A (zh) * 2018-09-28 2019-03-22 中国标准化研究院 一种文献技术指标揭示检索方法
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN111311385A (zh) * 2020-05-15 2020-06-19 成都晓多科技有限公司 一种基于商品卖点的商品推荐话术生成方法及系统
CN112183077A (zh) * 2020-10-13 2021-01-05 京华信息科技股份有限公司 一种基于模式识别的公文摘要抽取方法及系统
CN112800173A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据库和医学文本库的构建方法、装置及电子设备
WO2022188821A1 (zh) * 2021-03-09 2022-09-15 智慧芽信息科技(苏州)有限公司 对文件进行自定义字段标引的处理方法、装置、服务器及系统
CN116167344A (zh) * 2023-02-17 2023-05-26 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN102693244A (zh) * 2011-03-23 2012-09-26 日电(中国)有限公司 用于识别非结构化文本中的信息的方法和装置
CN102693244B (zh) * 2011-03-23 2015-04-01 日电(中国)有限公司 用于识别非结构化文本中的信息的方法和装置
CN103324620A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种对标注结果进行纠偏的方法和装置
CN103324620B (zh) * 2012-03-20 2016-04-27 北京百度网讯科技有限公司 一种对标注结果进行纠偏的方法和装置
CN103383683A (zh) * 2012-05-01 2013-11-06 成都勤智数码科技股份有限公司 It运维系统知识库的优化管理方法
CN102841888A (zh) * 2012-09-14 2012-12-26 《中国学术期刊(光盘版)》电子杂志社 一种快速排版系统及方法
CN103412852B (zh) * 2013-08-21 2017-12-15 广东电子工业研究院有限公司 一种自动提取英文文献关键信息的方法
CN104636415A (zh) * 2013-11-11 2015-05-20 乐金信世股份有限公司 提取重要关键字的方法和执行所述方法的服务器
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN103631965A (zh) * 2013-12-10 2014-03-12 湖南农业大学 一种基于分词器的农业知识录入手持终端及其录入方法
CN104462399B (zh) * 2014-12-11 2018-04-20 北京百度网讯科技有限公司 搜索结果的处理方法及装置
CN104462399A (zh) * 2014-12-11 2015-03-25 北京百度网讯科技有限公司 搜索结果的处理方法及装置
CN104636431B (zh) * 2014-12-31 2017-12-12 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化的方法
CN104636431A (zh) * 2014-12-31 2015-05-20 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化方法
CN104750843B (zh) * 2015-04-08 2017-11-17 浙江大学 一种从ipc中快速提取设计知识的辅助系统
CN104750843A (zh) * 2015-04-08 2015-07-01 浙江大学 一种从ipc中快速提取设计知识的辅助系统
CN104778268A (zh) * 2015-04-23 2015-07-15 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN104778268B (zh) * 2015-04-23 2018-01-30 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN106708861A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 一种文章关键实体获取方法及装置
CN106777103A (zh) * 2016-12-15 2017-05-31 北京科华万象科技有限公司 一种专利文件标引方法和装置
CN106777103B (zh) * 2016-12-15 2020-07-07 北京科华万象科技有限公司 一种专利文件标引方法和装置
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN109241274B (zh) * 2017-07-04 2022-01-25 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN107622122A (zh) * 2017-09-27 2018-01-23 合肥博力生产力促进中心有限公司 一种专利关键词自动提取方法
CN107885722B (zh) * 2017-10-31 2021-05-25 北京奇艺世纪科技有限公司 一种关键词抽取方法和装置
CN107885722A (zh) * 2017-10-31 2018-04-06 北京奇艺世纪科技有限公司 一种关键词抽取方法和装置
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110069623B (zh) * 2017-12-06 2022-09-23 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN109508392A (zh) * 2018-09-28 2019-03-22 中国标准化研究院 一种文献技术指标揭示检索方法
CN109299214A (zh) * 2018-11-09 2019-02-01 医渡云(北京)技术有限公司 文本信息提取方法、装置、介质及电子设备
CN111311385B (zh) * 2020-05-15 2020-08-04 成都晓多科技有限公司 一种基于商品卖点的商品推荐话术生成方法及系统
CN111311385A (zh) * 2020-05-15 2020-06-19 成都晓多科技有限公司 一种基于商品卖点的商品推荐话术生成方法及系统
CN112183077A (zh) * 2020-10-13 2021-01-05 京华信息科技股份有限公司 一种基于模式识别的公文摘要抽取方法及系统
WO2022188821A1 (zh) * 2021-03-09 2022-09-15 智慧芽信息科技(苏州)有限公司 对文件进行自定义字段标引的处理方法、装置、服务器及系统
CN112800173A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据库和医学文本库的构建方法、装置及电子设备
CN112800173B (zh) * 2021-04-14 2021-07-09 北京金山云网络技术有限公司 标准化数据库和医学文本库的构建方法、装置及电子设备
CN116167344A (zh) * 2023-02-17 2023-05-26 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN116167344B (zh) * 2023-02-17 2023-10-27 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法

Similar Documents

Publication Publication Date Title
CN101692240A (zh) 一种基于规则的专利摘要自动抽取和关键词标引方法
CN102408973B (zh) 一种黄精保健酒的制备方法和一种黄精保健酒
CN103099774B (zh) 中药组合物及其应用
CN106620044A (zh) 一种用于妊娠母猪保胎的中药组合物及其制备方法
CN108460132A (zh) 基于中药学理论的中药材属性特征编码及检索系统
CN102511806B (zh) 人参高品质膳食纤维及其生产方法
CN103602569B (zh) 一种补肾壮阳纯植物中草药保健酒的配方及制备方法
CN112667922B (zh) 基于协同过滤的新型冠状病毒中药组方推荐方法及系统
CN103272125B (zh) 含有霍山石斛的具有降糖作用的中药组合物及其制备方法
CN108498708A (zh) 一种治疗糖尿病的中药组合物
CN101485721A (zh) 一种抗过敏性鼻炎的中药组合物
CN103599354A (zh) 一种松花粉组合物及其应用
CN104109608B (zh) 一种改善人体体格虚弱的中药药酒
CN103275236A (zh) 一种芡实多糖提取物的制备方法及其应用
CN102526145A (zh) 一种对酒精性肝损伤具有保护作用的刺五加叶提取物
CN106620395A (zh) 一种治疗糖尿病、高血压、高血脂的药物
CN107412462A (zh) 一种黄龙咳喘胶囊的制备方法
CN1927364A (zh) 一种快速生发防脱液
CN102823856A (zh) 一种女性使用的补肾乌发保健食品及制备方法
CN107970392A (zh) 一种预防脱发的药物
Wang Selected Reading Of Li Shizhen's Medical Works: The Chinese Materia Medica Ben Cao Gang Mu
CN108324852A (zh) 一种治疗糖尿病的中药组合物
CN106912926A (zh) 一种含三七、人参和淫羊藿提取物的组合物保健食品及其制备工艺
CN105761157A (zh) 黄精种苗分级方法
VACHASPATI A COMPARATIVE CLIN MADHUMEHAHARA BHUMYAMALAKI (Phyllanthu HARIDRA

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100407