CN101122919A - 一种专业术语抽取方法和系统 - Google Patents
一种专业术语抽取方法和系统 Download PDFInfo
- Publication number
- CN101122919A CN101122919A CNA2007101218390A CN200710121839A CN101122919A CN 101122919 A CN101122919 A CN 101122919A CN A2007101218390 A CNA2007101218390 A CN A2007101218390A CN 200710121839 A CN200710121839 A CN 200710121839A CN 101122919 A CN101122919 A CN 101122919A
- Authority
- CN
- China
- Prior art keywords
- string
- corpus
- threshold values
- strings
- repeated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 53
- 238000001914 filtration Methods 0.000 claims description 40
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 239000000463 material Substances 0.000 claims 5
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 26
- 238000012545 processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 9
- 230000000717 retained effect Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000012827 research and development Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000011089 mechanical engineering Methods 0.000 description 2
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005422 blasting Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000007791 dehumidification Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005485 electric heating Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000003546 flue gas Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000012782 phase change material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000003507 refrigerant Substances 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及自然语言计算机处理领域,提供了一种专业术语抽取方法,首先,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;而后,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。本发明还提出了一种专业术语抽取系统。采用本发明的方法和系统,不仅可以改进专业术语的提取结果,还可以把改进的规则和概率应用到下次提取中,以提高准确率。
Description
技术领域
本发明涉及自然语言计算机处理领域,特别是涉及一种文献分析过程中的专业术语抽取方法和系统。
背景技术
世界知识产权组织1988年编写的《知识产权教程》阐述了现代专利文献的概念:“专利文献是包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有人权利的有关资料的已出版或未出版的文件(或其摘要)的总称。”该教程还进一步指出:“专利文献按一般的理解主要是指各国专利局的正式出版物。”例如:专利说明书、专利公报、专利文摘、专利索引、专利分类表等。
由此可知,专利文献是专利制度的产物。但是,反过来,专利文献又是专利制度的重要基础,这是由于专利文献在专利审查和国际交流中发挥着重要作用。事实上,对于企业和研究机构来说,在确立新产品科研课题前进行专利战略分析是至关重要的。首先,通过专利战略分析,可以判断科研立项的必要性,如果已经有相同的新技术申请了专利,那么再予立项,很可能会导致研发雷同,不进会浪费人力和财力,还会存在侵犯他人专利权的风险;同时,通过专利战略分析,研发人员可以使自己在科研产品在相关专利技术的基础上,跳出其专利保护范围,以进行较深层次的研究,从而可以在新产品的研制中拥有一个较高的起点,不仅可以有效的避免重复投入和重复研制,还可以避免侵权情况的发生。
在专利战略分析的过程中,专利检索是最为重要的几个部分之一。专利检索的定义是:根据一项数据特征,从大量的专利文献或专利数据库中挑选符合某一特定要求的文献或信息的过程。由于通过专利检索可以较为客观的对研发项目是否会侵犯在先的权利或是否具有专利性进行直观的判断,因此,在专利检索的过程中经常会遇到这样一种情况,有的人出于专利策略等方面的考虑,希望可以避免被自己的专利被他人轻易的检索出来,因此故意不使用惯用的、为大家所熟知的术语,而是使用其他一些不易被检索出来的术语。当在专利检索中遇到这种情况时,除了业务非常熟练的专利分析师以外,其他人由于不熟悉这些专业术语,将会很难搜索出这样的专利文献,从而极易造成专利战略分析的不到位,进而会造成巨大的金钱以及时间上的损失。解决这种问题的方法是抽取大规模的专利文献中的领域专业术语,有了这些全面的领域专业术语,进行专利检索工作的人员就可以了解这个领域中所出现的几乎所有的术语,从而避免了分析不到位情况的发生。同时,领域专业术语提取还可以为初学者以及专利分析师提供一个领域的全面的概况和最新的进展等相关的有益的知识。
但是,现有的传统方法是采用手工方式进行术语提取,由于其效率较低,己经远远不能满足术语提取工作的实际需求,因此,利用计算机等先进的信息技术手段进行术语提取已经成为了现在乃至将来术语提取工作的一个必然趋势。
发明内容
本发明的目的在于提供一种专业术语抽取方法和系统,其能够有效地从大规模文献中提取各个技术领域的专业术语。
为了实现上述目的,本发明提出一种专业术语抽取方法,包括以下步骤:
步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;
步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。
较佳的,所述专业术语的特点包括字符串重复出现的频次、字符串语用环境灵活程度、位置成词概率等中的一个或者一个以上的组合。
较佳的,所述方法中的语料库以划分后的不同领域的专利文献的说明书摘要作为语料所组成。
较佳的,所述步骤B中,进一步包括以下步骤:
步骤B1,设定一第一阀值,在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;
步骤B2,根据专业术语的特点,从保留下来的重复串中抽取所包含的专业术语。
较佳的,所述方法中的第一阀值是由语料训练得来的。
较佳的,所述步骤B2中,进一步包括以下步骤中的至少一个:
步骤B21,统计保留下来的每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值,同时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除;
步骤B22,统计保留下来的重复串的串首字和串尾字的位置成词概率,同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;
步骤B23,设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。
较佳的,所述方法中的第二阀值、位置成词概率和第三阀值是由语料训练得来的。
较佳的,所述步骤B21至步骤B23的先后顺序可以任意排列。
较佳的,所述步骤B22中,还包括一步骤:
步骤B221,根据步骤B22中所得到的过滤结果,在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串多于预设值,则设定将该字的位置成词概率调低,并重复执行步骤B22。
较佳的,所述步骤B23中,还包括一步骤:
步骤B231,根据步骤B23中所得到的过滤结果,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,以删除包含所述字符的重复串,并重复执行步骤B23。
较佳的,所述步骤B2中还包括一步骤:
步骤B20从所述重复串中,删除在一通用词典库中出现过的重复串,其中,所述步骤B20可出现在步骤B2中的任何阶段。
本发明还公开了一种专业术语抽取系统,用于从文献中抽取专业术语,包括:
领域划分模块,用于按照文献所属领域的不同将文献划分到不同领域的文献库中;
术语抽取模块,用于以划分后的不同领域的文献库,组成语料库,并根据专利术语的特点,从语料库中抽取所包含的专业术语。
较佳的,所述系统中的语料库以划分后的不同领域的专利文献的说明书摘要作为语料所组成。
较佳的,所述系统中的专利术语的特点包括字符串重复出现的频次、字符串语用环境灵活程度、位置成词概率等。
较佳的,所述术语抽取模块包括第一过滤模块,以及第二过滤模块、第三过滤模块和第四过滤模块三个中的至少一个;
所述第一过滤模块,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;
所述第二过滤模块,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值;同时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除;
所述第三过滤模块,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;
所述第四过滤模块,用于设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。
较佳的,所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的。
较佳的,所述第三过滤模块,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低,并删除所述以一字符为首字或尾字的垃圾串。
较佳的,所述第四过滤模块还用于,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,并删除包含所述字符的重复串。
较佳的,所述系统还包括一第五过滤模块,用于从所述重复串中,删除在一通用词典库中出现过的重复串。
本发明的有益效果是:本发明的专利术语抽取方法和系统,按照不同技术领域划分文献,然后分别从不同的领域语料中提取专业术语。其不仅可以改进专业术语的提取结果,而且可以把改进的规则和概率应用到下次提取操作中,提高准确率。
附图说明
图1为本发明的一种专业术语抽取方法的流程图;
图2为本发明的一种专业术语抽取系统的框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种专业术语抽取方法和系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的专业术语抽取方法和系统,以在专利文献分析过程中,从中国国家知识产权局专利文献检索数据库中的专利文献中抽取不同技术领域的专业术语为例,而对本发明的一种专业术语抽取方法和系统进行说明,但是,应当说明的是,本发明的专业术语抽取方法和系统同样适用于其他的文献中的专业术语抽取的情况。
请参照图1,此为本发明的一种专业术语抽取方法的流程图。本发明所提供的一种专利文献分析过程中的不同领域的专业术语抽取方法,是按照下述步骤进行的:
步骤S100,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中。
在技术领域的划分中,既可以依照机械、电子、化学等较大的领域进行划分,也可以依照如机械工程、计算机、通信等较小的领域进行划分。
步骤S200,以划分后的不同领域的专利文献库,组成语料库,并根据字符串重复出现的频次、字符串语用环境灵活程度、位置成词概率等,从语料库中抽取所包含的专业术语。
所述语料为划分后的不同领域的专利文献中的部分或整体,在本发明的实施例中,以划分后的不同领域的专利文献的说明书摘要作为语料,组成语料库。
所述根据字符串重复出现的频次,从语料库中抽取所包含的专业术语,具体包括下列步骤:
步骤S210,设定一第一阀值,在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数。
在本发明实施例中,将在语料中重复出现过多次的字符串作为重复串。其中,重复串中的不能构成专业术语的重复串为垃圾串。
在本发明的实施例中,为了检索出在所述语料中出现次数较多的,即出现频率较高的重复串,设定了所述第一阀值,在进行检索重复串的时,依据所述第一阀值,将所述语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,并记录所述重复串在语料库中出现的次数,这样,所保留下来的候选字符串即为所述语料中出现次数较多的重复串。
所述第一阀值是由语料训练得到。
语料训练方法是一种现有技术,如通过隐马尔可夫模型(Hidden MarkovModel,HMM)对训练语料进行训练的方法。其不是本发明的发明点,因此,在本发明中不再一一详细描述。
所述根据字符串语用环境灵活程度,从语料库中抽取所包含的专业术语,具体包括下列步骤:
步骤S220,在所述步骤S210中保留的重复串中,统计保留下来的每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值;同时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除,保留使用环境较为灵活的重复串。
专业术语所具有的特点之一就是使用环境比较灵活,使用环境不灵活的字符串通常都不会是专业术语,因此,可以通过上述字符串使用的灵活程度来排除垃圾串。
一般而言,一个字符串左边或右边相邻的不同的字或词的数目,可以反映出这个字符串使用环境灵活程度。因此,在本发明的实施例中,统计保留下来的每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串使用环境灵活程度的对比值,同时,设定一第二阀值,将字符串使用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除,以保留使用环境较为灵活的重复串,这样,所保留下来的候选字符串即为所述语料中使用环境灵活更为灵活的重复串。
所述第二阀值是由语料训练得来的。
所述根据位置成词概率,从语料库中抽取所包含的专业术语,具体包括下列步骤:
步骤S230,分别统计在步骤S210和步骤S220中保留下来的重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除,以保留具有术语结构的重复串。
专业术语所具有的特点之一是通常会具有一定的结构特征,反之,具有另一些特征的字符串通常都不会是专业术语,因此,可以通过所述结构特征来排除垃圾串。
在本发明中,引入了位置成词概率这一概念,所谓位置成词概率,是指一个字符在可以作为专业术语的字符串的特定位置(如字符串串首或串尾)出现的几率。
所述位置成词概率是由专利语料训练得来的。
如果一个字符出现在可以作为专业术语的字符串中的一特定位置的几率非常低的话,就可以认为在所述特定位置出现了这个字符的字符串不是专业术语,从而可以借此来进行垃圾串的排除工作。
在本发明的实施例中,分别统计在之前步骤中保留下来的重复串的串首字和串尾字的位置成词概率,同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除,以保留具有术语结构的重复串。
较佳地,所述步骤S230还包括下列步骤:
步骤S231,根据步骤S230中所得到的过滤结果,在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串多于预设值,则设定将该字的位置成词概率调低。
这样,当再次经过步骤S230,依照专业术语所具有的特点来进一步删除垃圾串时,以该字符为首字或尾字的垃圾串的数量将大大降低。
但是,应当说明的是,所述步骤S210至步骤S230的顺序可以互换,本发明实施例中的步骤过程,只是为了更好地说明本发明的较佳实施过程。即步骤S210,根据字符串重复出现的频次进行过滤;步骤S220,根据字符串语用环境灵活程度进行过滤;步骤S230,根据位置成词概率进行过滤;这三个步骤是可以相互更换的,作为另外的可实施方式,也可以先根据字符串语用环境灵活程度和/或位置成词概率进行过滤,而后再根据字符串重复出现的频次进行过滤,其并不影响本发明的实现,而且,这种互换也不影响专业术语抽取的质量和速度。
较佳地,所述步骤S200中,从语料库中抽取所包含的专业术语,还可以包括下列步骤:
步骤S240,设定一规则库,如果重复串满足了所述规则库中的任意一条规则,就将作为垃圾串而从结果中删除。
在专利文献的语料中,经常会包括一些特殊的字符串,如“发明包括”、“包括装置”等,这些字符串的出现次数较多,使用环境也比较灵活,同时其结构也符合专业术语的一般形式,但这些字符串实际上并不是专业术语,因此需要采取一些方式将这些字符串或包括这些字符串的其他垃圾串排除出去,以从专利语料中得到较为精确的专业术语。
在本发明实施例中,设定了一规则库,所述规则库中定义了一些规则,以删除一些包含特定字符串的垃圾串,一个字符串如果满足了所述规则库中的任意一条规则,就将作为垃圾串而从前面步骤的过滤结果中删除,这样,就可以得到更加精确的专业术语字符串。
较佳地,所述步骤S240还包括下列步骤:
步骤S241,根据步骤S240中所得到的过滤结果,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,以删除包含所述字符的垃圾串。
这样,当再次经过步骤S240,依照专业术语所具有的特点来进一步删除垃圾串时,将不会存在包含所述字符的垃圾串。
较佳地,所述步骤S200中,从语料库中抽取所包含的专业术语,还可以包括下列步骤:
步骤S250,从所述重复串中,过滤在一通用词典库中出现的词。
所述通用词典库,是记载了一些常用的通用词汇的词典,这些通用词不会构成专业术语,因此需要将重复串中,构成通用词的部分删除,以便于后续提取专业术语工作的进行。
本发明中的步骤S200中的各个步骤,可以循环数次,以得到更为精确的专业术语,其中,由于所述步骤S250仅需要执行一次就可以实现删除包括通用词的重复串的目的,因此,当实现删除包括通用词的重复串的目的执行过一次之后,即不再参与步骤S200中的循环。
所述步骤S250也可以包含在步骤S210至步骤S240中的任一步骤中,当所述步骤S250包含在所述步骤S210中时,由于步骤S210仅需要运行一次步骤S250,就可以实现删除包括通用词的重复串的目的,因此,在所述步骤S220至步骤S230的过程中,没有进行步骤S250。
本发明还提供一种专业术语抽取系统10,请参照图2,此为本发明的一种专业术语抽取系统的框架图。本发明中的一种专业术语抽取系统10,包括领域划分模块11和术语抽取模块12,其中:
所述领域划分模块11,用于按照文献所属领域的不同将文献划分到不同领域的文献库中。
所述术语抽取模块12,用于以划分后的不同领域的文献库,组成语料库,并根据字符串重复出现的频次、字符串语用环境灵活程度、位置成词概率,从语料库中抽取所包含的专业术语。
所述术语抽取模块12,包括第一过滤模块121,第二过滤模块122,第三过滤模块123,其中:
所述第一过滤模块121,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数。
所述第二过滤模块122,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值;同时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除,保留使用环境较为灵活的重复串。
所述第三过滤模块123,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除,以保留具有术语结构的重复串。
所述第三过滤模块123,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低。
较佳地,所述的术语抽取模块,还包括下列模块:
第四过滤模块124,用于判断重复串满足规则库中的任意一条规则,则将作为垃圾串而从结果中删除。
所述第四过滤模块124,还用于在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,以删除包含所述特殊字符的垃圾串。
第五过滤模块125,用于从重复串中,过滤在一通用词典库中出现的词。
本发明的专业术语抽取系统,以与本发明的专业术语抽取方法相同的过程工作,因此,在本发明实施例中,不再一一详细描述。
当然,应当说明的是,本发明的内容并不限定于抽取专利文件中的专业术语,也可以用以抽取任何文献中的关键词汇,在本发明的具体实施例中,以专利文献作为文献的示例,以专业术语作为关键词汇的示例,并不以此来限定本发明。
为了说明本发明的实际效果,本发明在试验中所使用的语料为六种不同领域的专利文件的摘要,这些语料大小约30M,包含7万多条专利摘要。结果的准确率很高,所找到的专利术语能够代表6个不同的领域。
以下是本发明提出的一种专业术语抽取方法和系统应用在两个不同领域所得的结果。
1、计算机电子类专利文献的领域术语提取结果:
字符 应用程序计算机系统 图象
文档 寄存器 端口 壳体
输入法 客户端 高速缓存 主机板
加载 模组 电子邮件 处理装置
控制电路 输入装置 键位 链接
处理单元 电子装置 客户机 处理系统
散热片 机箱 像素 存储装置
图像数据 线程 电脑主机 管理系统
控制单元 插槽 控制信号 通过网络
操作者 矩阵 字符串 存储单元
数据传输 介面 存储卡 控制装置
智能卡 初始化 汉字输入 驱动程序
标识符 连接至 计算机主机 单字
主板 串行 管理器 形码
存贮器 基板 外围设备 电子设备
转换器 侦测 存储设备 字段
电脑系统 显示装置 笔记本电脑 校验
字元 重码 适配器 滚轮
文件系统 优先级 电阻 控制系统
连线 固件 译码 键盘输入
屏蔽 置入 数字键 感测
笔形 输入信号 矢量 容置
关键字 读入 计算机键盘 识别码
转轴 输入数据 汉字编码 接口电路
时钟信号 电平 音码 密钥
2、机械工程、照明、采暖、武器、爆破类专利文献的领域术语提取结果所述壳体换热器热交换器
阀芯 热管 换热 煤粉
控制装置 电磁阀 散热风扇 阀体
烟气 端部 支承 控制系统
送风 通孔 侧壁 致冷剂
流道 散热片 扇叶 控制电路
风道 下端 翅片 换向阀
自动控制 温控 致冷 热泵
压缩空气 喷口 室内机 控制单元
外周 柱塞 盘管 雾化
液压缸 液压泵 旋流 筒体
控制信号 单向阀 输入端 温度传感器
导流 输出端 除湿 螺杆
阀口 压差 液压系统 法兰
转矩 油口 电脑控制 驱动电路
油缸 微机控制 主阀 端盖
制冷机 旋转轴 蓄冷 空腔
传动机构 喷油 电加热 减振
侧板 圆柱形 外径 壁面
炉排 固定架 配流盘 涡卷
相变材料 油槽 步进电机 稳燃
散热鳍片 喷入 工况 控制方法
压力传感器 开度 溢流阀 散热装置
滑块 机箱 管段 轮毂
限位 缸筒 室外机 端板
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (19)
1.一种专业术语抽取方法,其特征在于,包括以下步骤:
步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;
步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。
2.根据权利要求1所述的一种专业术语抽取方法,其特征在于,所述专业术语的特点包括字符串重复出现的频次、字符串语用环境灵活程度、位置成词概率中的一个或者一个以上的组合。
3.根据权利要求1所述的一种专业术语抽取方法,其特征在于,所述语料库以划分后的不同领域的专利文献的说明书摘要作为语料所组成。
4.根据权利要求1所述的一种专业术语抽取方法,其特征在于,所述步骤B中,进一步包括以下步骤:
步骤B1,设定一第一阀值,在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;
步骤B2,根据专业术语的特点,从保留下来的重复串中抽取所包含的专业术语。
5.根据权利要求4所述的一种专业术语抽取方法,其特征在于,所述第一阀值是由语料训练得来的。
6.根据权利要求4所述的一种专业术语抽取方法,其特征在于,所述步骤B2中,进一步包括以下步骤中的至少一个:
步骤B21,统计保留下来的每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值,同时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除;
步骤B22,统计保留下来的重复串的串首字和串尾字的位置成词概率,同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;
步骤B23,设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。
7.根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述第二阀值、位置成词概率和第三阀值是由语料训练得来的。
8.根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述步骤B21至步骤B23的先后顺序可以任意排列。
9.根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述步骤B22中,还包括一步骤:
步骤B221,根据步骤B22中所得到的过滤结果,在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串多于预设值,则设定将该字的位置成词概率调低,并重复执行步骤B22。
10.根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述步骤B23中,还包括一步骤:
步骤B231,根据步骤B23中所得到的过滤结果,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,以删除包含所述字符的重复串,并重复执行步骤B23。
11.根据权利要求4所述的一种专业术语抽取方法,其特征在于,所述步骤B2中还包括一步骤:
步骤B20从所述重复串中,删除在一通用词典库中出现过的重复串,其中,所述步骤B20可出现在步骤B2中的任何阶段。
12.一种专业术语抽取系统,用于从文献中抽取专业术语,其特征在于,包括:
领域划分模块,用于按照文献所属领域的不同将文献划分到不同领域的文献库中;
术语抽取模块,用于以划分后的不同领域的文献库,组成语料库,并根据专利术语的特点,从语料库中抽取所包含的专业术语。
13.根据权利要求12所述的一种专业术语抽取系统,其特征在于,所述语料库以划分后的不同领域的专利文献的说明书摘要作为语料所组成。
14.根据权利要求12所述的一种专业术语抽取系统,其特征在于,所述专利术语的特点包括字符串重复出现的频次、字符串语用环境灵活程度、位置成词概率等。
15.根据权利要求12所述的一种专业术语抽取系统,其特征在于,所述术语抽取模块包括第一过滤模块,以及第二过滤模块、第三过滤模块和第四过滤模块三个中的至少一个;
所述第一过滤模块,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;
所述第二过滤模块,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值;同时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第二阀值的重复串删除;
所述第三过滤模块,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;
所述第四过滤模块,用于设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。
16.根据权利要求15所述的一种专业术语抽取系统,其特征在于,所述第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的。
17.根据权利要求15所述的一种专业术语抽取系统,其特征在于,所述第三过滤模块,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低,并删除所述以一字符为首字或尾字的垃圾串。
18.根据权利要求15所述的一种专业术语抽取系统,其特征在于,所述第四过滤模块还用于,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,并删除包含所述字符的重复串。
19.根据权利要求15所述的一种专业术语抽取系统,其特征在于,还包括一第五过滤模块,用于从所述重复串中,删除在一通用词典库中出现过的重复串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101218390A CN101122919A (zh) | 2007-09-14 | 2007-09-14 | 一种专业术语抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101218390A CN101122919A (zh) | 2007-09-14 | 2007-09-14 | 一种专业术语抽取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101122919A true CN101122919A (zh) | 2008-02-13 |
Family
ID=39085254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101218390A Pending CN101122919A (zh) | 2007-09-14 | 2007-09-14 | 一种专业术语抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101122919A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655866B (zh) * | 2009-08-14 | 2010-12-15 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
CN102160066A (zh) * | 2008-06-24 | 2011-08-17 | 沙伦·贝伦宗 | 特别适用于专利文献的搜索引擎和方法 |
CN102402501A (zh) * | 2010-09-09 | 2012-04-04 | 富士通株式会社 | 术语抽取方法和装置 |
CN104063382A (zh) * | 2013-03-19 | 2014-09-24 | 中国石油天然气股份有限公司 | 面向油气管道领域的多策略融合的标准术语处理方法 |
CN104572621A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种基于决策树的术语判定方法 |
CN104572622A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种术语的筛选方法 |
CN104572758A (zh) * | 2013-10-24 | 2015-04-29 | 山东大学 | 一种电力领域专业词汇自动抽取方法及系统 |
CN104598530A (zh) * | 2014-12-26 | 2015-05-06 | 语联网(武汉)信息技术有限公司 | 一种领域术语抽取的方法 |
-
2007
- 2007-09-14 CN CNA2007101218390A patent/CN101122919A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102160066A (zh) * | 2008-06-24 | 2011-08-17 | 沙伦·贝伦宗 | 特别适用于专利文献的搜索引擎和方法 |
CN101655866B (zh) * | 2009-08-14 | 2010-12-15 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
CN102402501A (zh) * | 2010-09-09 | 2012-04-04 | 富士通株式会社 | 术语抽取方法和装置 |
CN104063382A (zh) * | 2013-03-19 | 2014-09-24 | 中国石油天然气股份有限公司 | 面向油气管道领域的多策略融合的标准术语处理方法 |
CN104063382B (zh) * | 2013-03-19 | 2018-01-02 | 中国石油天然气股份有限公司 | 面向油气管道领域的多策略融合的标准术语处理方法 |
CN104572758A (zh) * | 2013-10-24 | 2015-04-29 | 山东大学 | 一种电力领域专业词汇自动抽取方法及系统 |
CN104572758B (zh) * | 2013-10-24 | 2017-10-24 | 山东大学 | 一种电力领域专业词汇自动抽取方法及系统 |
CN104598530A (zh) * | 2014-12-26 | 2015-05-06 | 语联网(武汉)信息技术有限公司 | 一种领域术语抽取的方法 |
CN104598530B (zh) * | 2014-12-26 | 2018-06-05 | 语联网(武汉)信息技术有限公司 | 一种领域术语抽取的方法 |
CN104572622A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种术语的筛选方法 |
CN104572622B (zh) * | 2015-01-05 | 2018-01-02 | 武汉传神信息技术有限公司 | 一种术语的筛选方法 |
CN104572621A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种基于决策树的术语判定方法 |
CN104572621B (zh) * | 2015-01-05 | 2018-01-26 | 语联网(武汉)信息技术有限公司 | 一种基于决策树的术语判定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101122919A (zh) | 一种专业术语抽取方法和系统 | |
CN104915450B (zh) | 一种基于HBase的大数据存储与检索方法及系统 | |
JP6639420B2 (ja) | フラッシュ最適化データ・レイアウトのための方法、フラッシュ最適化記憶のための装置、およびコンピュータ・プログラム | |
CN105117417B (zh) | 一种读优化的内存数据库Trie树索引方法 | |
CN104090962B (zh) | 面向海量分布式数据库的嵌套查询方法 | |
US11048753B2 (en) | Flexible record definitions for semi-structured data in a relational database system | |
CN108319654A (zh) | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 | |
CN100474301C (zh) | 基于数据挖掘获取词或词组单元译文信息的系统和方法 | |
CN113254354A (zh) | 测试用例推荐方法、装置、可读存储介质及电子设备 | |
CN102479255A (zh) | 用于优化数据库查询的方法和系统 | |
CN116257523A (zh) | 一种基于非易失存储器的列式存储索引方法及装置 | |
CN101251799A (zh) | 管理实现的方法和装置 | |
US8005872B2 (en) | Method for fast deletion of physically clustered data | |
JP5686893B2 (ja) | データベース管理システム、装置及び方法 | |
CN102270201B (zh) | 用于网络文件的多维索引的方法和设备 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN104166736A (zh) | 倒排索引文件的存储方法和装置 | |
JP2019067304A (ja) | データベース処理装置、グループマップファイル生産方法及びプログラム | |
CN101295312B (zh) | 一种使用表格呈现数据的方法 | |
CN102135969A (zh) | 构造索引库的方法和设备以及查询方法 | |
CN102207947A (zh) | 一种直接引语素材库的生成方法 | |
CN107506156A (zh) | 一种块设备的io优化方法 | |
CN116090416A (zh) | 基于标准知识图谱的标准编写方法、系统、设备及介质 | |
CN114881175A (zh) | 一种基于不平衡数据的情感分类方法 | |
CN114328844A (zh) | 一种文本数据集管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |