CN101655866A - 科技术语的自动化抽取方法 - Google Patents

科技术语的自动化抽取方法 Download PDF

Info

Publication number
CN101655866A
CN101655866A CN200910162380A CN200910162380A CN101655866A CN 101655866 A CN101655866 A CN 101655866A CN 200910162380 A CN200910162380 A CN 200910162380A CN 200910162380 A CN200910162380 A CN 200910162380A CN 101655866 A CN101655866 A CN 101655866A
Authority
CN
China
Prior art keywords
document
word
eigenwert
repeated strings
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910162380A
Other languages
English (en)
Other versions
CN101655866B (zh
Inventor
王进
张素兰
贾学杰
任丽
王永生
张迁
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongxian Electronic Technology Development Center
Original Assignee
Beijing Zhongxian Electronic Technology Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongxian Electronic Technology Development Center filed Critical Beijing Zhongxian Electronic Technology Development Center
Priority to CN2009101623808A priority Critical patent/CN101655866B/zh
Publication of CN101655866A publication Critical patent/CN101655866A/zh
Application granted granted Critical
Publication of CN101655866B publication Critical patent/CN101655866B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。本方法是基于词性标注的基本信息,采用基于规则的手段,从汉语词组构词法的角度出发,自动判别并抽取出可能成词的中文术语,并在人工辅助的基础上,对术语真实性进行判断和确认。主要步骤包括:按照领域建立不同的专利文献库;以特定专利文献库为训练语料库提取重复串,用基础词汇对重复串进行切分和词性标注,然后利用中文的词法规则,对重复串的边界进行反复检验,直到可接受为候选术语为止。为进一步核实候选术语,可再由人工辅助确认。

Description

科技术语的自动化抽取方法
技术领域
本发明涉及一种利用计算机对科技术语自动识别和抽取的方法,特别是涉及一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。
背景技术
随着信息技术的发展,人们掌握的科技文献越来越多,而手工进行加工处理显然已经成为不可能,因此自动化技术的引入是必然的趋势。然而,要对这些信息进行自动文摘、自动标引、自动分类甚至是机器翻译等加工处理,科技术语是一大障碍。自动识别并抽取文献中的科技术语,是一件非常紧迫、也是一件非常有意义的工作
中国专利申请03148989.3公开了一种从双语语料库中自动抽取多词翻译等价单元的方法。该发明方法采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准;在对齐的过程中同时识别多词单元。该发明方法的改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元,提高抽取的正确率和降低计算复杂度。该方法是一种基于共现概率的方法,而且仅限于中英对齐语料库,并没有对中文文献进行深入的研究。
中国专利中请200710121839.0公开了一种专业术语抽取方法和系统,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;而后以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。该发明还提出了一种专业术语抽取系统。采用本发明的方法和系统,不仅可以改进专业术语的提取结果,还可以把改进的规则和概率应用到下次提取中,以提高准确率。但是,此方法没有加入汉语本身的一些成词规则,仍是一种基于频次等的概率方法,准确率达到一定程度的时候就会很难有所突破,瓶颈明显。
发明内容
本发明提供的方法是基于词性标注的基本信息,采用基于统计和基于规则的双重手段,并以汉语词组构词法的角度出发,自动判别并抽取出可能成词的中文术语,并在人工辅助的基础上,对术语进行精细加工和收集。
与普通词汇相比,科技术语具有以下一些特征:
科技术语主要是名词性的组合型词组;
科技术语主要由实词和实词性语素构成;
科技术语具有普遍性,重复出现的几率很高;
科技术语具有单义性,与应用领域密切相关;
基于以上特点,本发明提出一种科技术语抽取方法,包括以下步骤:
步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;
步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语。
所述科技术语的特点包括字符串重复出现的频次、字符串分词信息的完整度、字符串成词概率、在文献中出现位置等因素的综合。
所述方法中的语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成。
步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。
所述步骤B中,进一步包括以下步骤:
步骤B1,以专利领域文献库为单位,根据统计的方法,寻找重复出现的字串,并记录重复字串的特征。
所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置。
步骤B2,根据文档率和总频次以及出现位置计算重复串的特征值,计算方法如下:特征值分为两部分,文档内特征值(wi)和文档间特征值(wg)。文档内特征值由文档内部的分布情况计算,文档间特征值主要根据重复串在文档集合中出现的情况计算。最后的特征值为二者的乘积:w=wi×wg
文档内特征值
由于专利文本具有明确的篇章结构,不同的章节具有不同的重要性,因此,我们可以对每一个章节进行主观评价特征值,那么一个重复串在全文的特征值(即文档内特征值)就可以是由若干个章节内的特征值(wip)的总和。
w i = Σ p = 1 P w ip
我们主要研究在一个章节内的特征值分配方案。假设一个章节的特征值为wp,那么重复串在该章节内的特征值可表示为:
wip=wipf×(1+wipd)×wp
其中wipf为词频特征值,wipd为共现因子。
词频特征值
在一个章节内,词的频率代表一个词语的特征值,即,频率越高,特征值越大,即:
w ipf = f ip / Σ j = 1 n f ip
共现因子
同时,我们对章节内,对词语的共现程度进行评估。假设两个重复串共现距离分别是d1,d2,d3……dm。
那么两个词语的共现因子可以定义为:
w ipd = Σ j = 1 m 1 d j
文档间特征值
文档间特征值意味着:如果某重复串的分布在文档集合中是均匀的,说明该重复串在很多文本中出现,故认为其代表某一文本的能力较弱,该重复串的文档间特征值应为0;如果该词只在一个文本中出现,这时认为该重复串代表这一文本的能力强,其文档间特征值则最大。
采用均方差来评估一个重复串在各个文档中的分布情况:
假设重复串T在文档集合中的特征值分别是wk(k=1,2,...|D|)。现在主要评估这些特征值在各个文档中均衡分布情况。利用均方差的特性,计算特征值的分布情况:
w g = 1 | D | Σ k = 1 | D | ( w k - w ‾ ) 2
也就是说wg越大,那么该重复串在各篇文档中的特征值差异性很大,如果在各篇分布均匀,那么wg=0,则该重复串将从术语库中排出。考虑到重复串空间稀疏问题,可简化为:
w g = 1 | D | ( Σ k = 1 | D i | ( w k - w ‾ ) 2 + ( | D | - | D i | ) w ‾ 2 )
步骤B3,设定一阈值,将小于该阈值的重复串删除。
所述方法中的阈值由语料训练得到。
步骤B4,对重复串进行分词,获取其中的实词串。
所述方法中的实词包括名词、动词、形容词、副词词类。
步骤B5,结合词法规则,对实词串进行头部和尾部校验,以进一步确定术语的合法边界,直到头部和尾部均校验完毕。
本发明还公开了一种科技术语抽取系统,用于从文献中抽取科技术语,包括:
领域划分模块,用于按照文献所属领域的不同将文献划分到不同领域的文献库中;
术语抽取模块,用于以划分后的不同领域的文献库,组成语料库,并根据专利术语的特点,从语料库中抽取所包含的科技术语。
所述系统中的语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成。
所述术语抽取模块包括第一过滤模块,以及第二过滤模块、第三过滤模块和第四过滤模块四个中的至少一个;
所述第一过滤模块,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;【重复串】
所述第二过滤模块,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串分词信息完整度的对比值;同时,设定一第二阀值,将字符串分词信息完整度的对比值的数值小于所述第二阀值的重复串删除;【切头切尾】
所述第三过滤模块,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;【去头去尾】
所述第四过滤模块,用于设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。【词组规则】
所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的。
所述第一阀值、第二阀值、位置成词概率和第三阀值的获取,是以历史训练的语料库为基础,分别通过第一过滤模、第二过滤模、第三过滤模块抽取出所有的重复串,并和人工从该语料中抽取出的术语数量做对比,其比值就设为第一阀值、第二阀值、位置成词概率和第三阀值。
所述第三过滤模块,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低,并删除所述以一字符为首字或尾字的垃圾串。
所述第四过滤模块还用于,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,并删除包含所述字符的重复串。
所述系统还包括一第五过滤模块,用于从所述重复串中,删除在一通用词典库中出现过的重复串。
本发明的有益效果是:在双语词典编辑和中文检索索引编制中,都会存在自动分词粒度过小和分词不准确的问题,从而影响了检索的准确性,并造成了大量的未登录词。采用在基于词典的分词后,采用规则方式和人工辅助方式优化未登录词提取的技术,可以显著提高文本挖掘中新术语的发现数量,有利于信息检索和查全率和查准率,并有利于双语翻译词典的编辑和收录。
附图说明
图1为本发明的结构示意图。
图2为本发明核心程序流程图。
具体实施方式
以下结合中国专利文献科技术语自动提取的实施例,进一步详细说明本发明的方法。
实施例一;
本具体实施方式描述的是对中文专利中具有比较普遍使用的名词性词组进行自动提取,所涉及的领域包括:安全、地质、电力、房地产、纺织、航空、核科学、化工、机械、计算机、建筑、交通、军事、科、旅游、能源、农业、生物、生物库、通信、物理、冶金、医学、质检等24个领域。
如图1所示,在本实施例中,对科技术语提取包含以下几个步骤:
领域分选
专利具有IPC,对于专利来讲,主IPC体现了专利的适用领域,以IPC将专利分别建立不同的专利文献库。科技术语一般具有领域相关性,建立专利文献库的主要目的是发现行业内常用的科技术语。下面以化工领域专利文献库为例进行实施例介绍。
建立重复串
采用统计的方法,在特定领域的专利文献库中建立重复串,并按照特定的公式计算出特征值,具体计算过程如下:
首先对单篇专利的文本进行基础词切分,形成带有词性标注的词语序列。切分所用的基础词由通用词和用户词两部分组成。当前所用的基础词切分方法是采用从后向前最大匹配法,即从字符串尾部取字,到基础词库获取以该字为尾字的所有词条,并一一和字符串比较,取其中可匹配的最大词条作为切分结果,然后跳过该匹配部分,取出下一个未经匹配的尾字,重复匹配过程,直到字符串出头为止。本方法所用基础词库的词语词性符号如下:
  名词  n   动词  v   语素  g
  方位词  f   形容词  a   副词  d
  数词  m   状态词  z   介词   p
  量词  q   助词  u   连词   c
  代词  r   外来词  e   不可识字段   EX
  内嵌型术语   TM
现在切分如下一段摘要:
“本发明涉及一种三元聚合纳米乳液的制备方法,所述的纳米乳液由含氢聚硅氧烷、苯乙烯、丙烯酸丁酯、甲基丙烯酸等三元聚合而成,在聚合过程中加入第2种子乳液,加入第3种子乳液,制备出具有三元分散粒径分布的乳液,其特征是:本工艺技术归纳溶液聚合、乳液聚合中用三次加料法生成纳米涂料乳液。”
切分的结果为:
Figure G2009101623808D00061
根据以上切分结果,寻找重复串,并统计各个重复串在本章节内的频次以及共现距离。
重复串 频次 三元   纳米乳液   聚合   纳米   乳液   三元聚合
  三元   3   ---
  纳米乳液   2   2   ---
  聚合   5   1,1   ---   ---
  纳米   2   2   0,0   1   ----
乳液 7 3 0,0 2 1,1.2 ----
  三元聚合   2   0,0   1   0   1   2   ----
现在对专利按照章节不同分配不同的权重:标题-0.2,摘要-0.4,主权项-0.1,正文-0.3。对于本摘要,根据前面所介绍的方法,计算重复串在指定章节中的权重:
wip=wipf×(1+wipd)×wp    (1)
w ipf = f ip / Σ j = 1 n f ip - - - ( 2 )
w ipd = Σ j = 1 m 1 d j - - - ( 3 )
由三个式于计算得到本摘要中6个重复串的权重:
  重复串   章节内权重
  三元   0.88
  纳米乳液   0.235
  聚合   0.336
  纳米   0.523
  乳液   0.150
  三元聚合   0.357
同样,对专利的其他章节做同样的处理,并得到其他章节的重复串及其权重。再按照公式计算全文的特征值:
w i = Σ p = 1 P w ip - - - ( 4 )
比如,以化工领域专利为例,抽取的重复串的特征值。
  重复串   特征值   重复串   特征值
  油磺酸盐   0.034   乙草胺   0.254
  烷基芳基化合物   0.022   分散剂   0.040
  天然羧酸盐   0.032   茬作物   0.030
  低碳   0.017   活性组分   0.019
  烷基苯磺酸盐   0.030   津固体   0.045
  mNm数量级   0.034   乙草胺液体   0.014
  表面活性剂   0.018   稳定剂木质索   0.035
  烷基芳基磺酸盐   0.142   -30%甲草胺   0.035
  复合驱油体系   0.076   玉米产量   0.034
  石油磺酸盐   0.034   乳合剂   0.045
  金属钝合剂配方   0.064   醇螯   0.044
  金属钝合剂   0.079   重量百分数   0.019
  氧化锑溶胶   0.044   甲草胺   0.041
建立实词串
从以上步骤取得的重复串中获取特征值较高的字串,根据需要,设定最小特征值为0.030;那么,小于最小特征值的重复串将被删除。
大于最小特征值的重复串,再按照基本词表所列词语和词性,并在切分的结果中,寻找连续的实词组成的片段,这里要求实词串至少由2个实词组成。
如:“mNm数量级”被切分成“
Figure G2009101623808D00081
”。从其中可以获得实词串“
Figure G2009101623808D00082
”。
又如:“金属钝合剂配方”被切分成“
Figure G2009101623808D00083
”。从其中可以获得实词串“
Figure G2009101623808D00084
”。
再如:“低碳”被切分成“
Figure G2009101623808D00085
”。从其中可以获得实词串“
Figure G2009101623808D00086
”,由于其中只内含1个实词,因此,将从重复串中删除。
实词串检验
按照中文词法结构规则,对实词串的首字和尾字进行删除。
如:实词串“α化发芽糙米膨化粉制备方法”,进行切分的结果:
Figure G2009101623808D00087
根据中文词法规则“科技术语尾部不能出现抽象的名词”,因此,可以去掉“制备方法”,最终形成术语“α化发芽糙米膨化粉”。
经过以上步骤获取的科技术语,即具有普遍性,又具有明显的领域针对性,基本上具有实用价值,为了切实做到科技术语的科学性,将提取到的术语,还可以通过一定的人工方式,进行核查,并将适合的术语收录到正式的术语库中,术语库的术语将成为下次训练的基本词表。
实施例二:
本具体实施方式描述的是对中文专利自动提取主题词,抽取范围主要基于各个专利文献的摘要内容。由于所涉及的内容较少,省去了基于领域统计的环节,直接依靠词法规则来进行自动识别和抽取。本具体实施方式包含以下几个步骤:
词语切分
按照基本词表所列词语和词性,对专利文献的摘要进行切分。比如:
寻找实词串
从第1步骤切分的章节中,获取长度至少为2个实词的实词串、实词是指名词、动词、形容词、副词、方位词及其短语,不包含数词、介词、连词、助词等等,在实词串中的数词,如果置于圆括号内,则视为文献引用编号,可以被忽略而跳过。对于上面的摘要,可以分析出以下一些实词串:
Figure G2009101623808D00092
Figure G2009101623808D00101
实词串检验
按照中文词法结构规则,对实词串进一步做精密的检查。
如:实词串“
Figure G2009101623808D00102
”,根据中文词法规则“科技术语中不能有动补式合成动词”,该实词串含有“造成”一词为动补合成词,因此,应该从该串中删除,这样该串将分成两个新的实词串“
Figure G2009101623808D00103
”,但是,这两个实词串的实词个数均为1,不具备组合原则,将不收入术语库。经过以上分析,实词串“
Figure G2009101623808D00104
Figure G2009101623808D00105
”,将没有任何子串成为术语。
只有完全通过所有的词法构成规则的实词串,才成为摘要的主题词。通过以上步骤,基本上可以不根据统计方法,也不根据领域信息,就能够直接从专利文献的摘要中抽取出专利文献的主题词。

Claims (10)

1、一种科技术语抽取方法,包括以下步骤:
步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;
步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语;
步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。
2、如权利要求1所述的方法,其特征在于:
所述语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成;
所述科技术语的特点包括字符串重复出现的频次、字符串分词信息的完整度、字符串成词概率、在文献中出现位置等因素的综合。
3、如权利要求1所述的方法,其特征在于所述步骤B中,进一步包括以下步骤:
步骤B1,以专利领域文献库为单位,根据统计的方法,寻找重复出现的字串,并记录重复字串的特征;
步骤B2,根据文档率和总频次以及出现位置计算重复串的特征值,计算方法如下:特征值分为两部分,文档内特征值wi和文档间特征值wg
步骤B3,设定一阈值,将小于该阈值的重复串删除;
所述方法中的阈值由语料训练得到;
步骤B4,对重复串进行分词,获取其中的实词串;
所述方法中的实词包括名词、动词、形容词、副词词类。;
步骤B5,结合词法规则,对实词串进行头部和尾部校验,以进一步确定术语的合法边界,直到头部和尾部均校验完毕;
文档内特征值由文档内部的分布情况计算,文档间特征值主要根据重复串在文档集合中出现的情况计算,所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置,最后的特征值为二者的乘积:w=wi×wg
4、如权利要求3所述的方法,其特征在于:
所述重复字符串的特征值是由若干章节内的特征值的总和为:
w i = Σ p = 1 P w ip ;
所述若干章节之一的重复串特征值为:
wip=wipf×(1+wipd)×wp
其中,wp为所述章节的特征值,wipf为词频特征值,wipd为共现因子;
在一个章节内,词频特征值代表一个词语的特征值,即,频率越高,特征值越大,即:
w ipf = f ip / Σ j = 1 n f jp ;
在一个章节内,用共现因子对词语的共现程度进行评估,假设两个重复串共现距离分别是d1,d2,d3......dm,那么两个词语的共现因子可以定义为:
w ipd = Σ j = 1 m 1 d j .
5、如权利要求2所述的方法,其特征在于:
文档间特征值表示如果某重复串的分布在文档集合中是均匀的,说明该重复串在很多文本中出现,故认为其代表某一文本的能力较弱,该重复串的文档间特征值应为0;如果该词只在一个文本中出现,这时认为该重复串代表这一文本的能力强,其文档间特征值则最大。
6、如权利要求2所述的方法,其特征在于:
采用均方差来评估一个重复串在各个文档中的分布情况:
假设重复串T在文档集合中的特征值分别是wk(k=1,2,...|D|),要评估这些特征值在各个文档中均衡分布情况。利用均方差的特性,计算特征值的分布情况:
w g = 1 | D | ( Σ k = 1 | D i | ( w k - w ‾ ) 2 + ( | D | - | D i | ) w ‾ 2 ) .
7、一种科技术语抽取系统,用于从文献中抽取科技术语,包括:
领域划分模块,用于按照文献所属领域的不同将文献划分到不同领域的文献库中;
术语抽取模块,用于以划分后的不同领域的文献库,组成语料库,并根据专利术语的特点,从语料库中抽取所包含的科技术语;
术语库库组成模块,用于将自动抽取出的术语,组成术语库,再由人工辅助确认。
8、如权利要求7所述的系统,其特征在于:
所述术语抽取模块包括第一过滤模块,以及第二过滤模块、第三过滤模块和第四过滤模块四个中的至少一个;
所述第一过滤模块,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;
所述第二过滤模块,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串分词信息完整度的对比值;同时,设定一第二阀值,将字符串分词信息完整度的对比值的数值小于所述第二阀值的重复串删除;
所述第三过滤模块,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;
所述第四过滤模块,用于设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。
9、权利要求8所述的系统,其特征在于:
所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的;
所述第一阀值、第二阀值、位置成词概率和第三阀值的获取,是以历史训练的语料库为基础,分别通过第一过滤模、第二过滤模、第三过滤模块抽取出所有的重复串,并和人工从该语料中抽取出的术语数量做对比,其比值就设为第一阀值、第二阀值、位置成词概率和第三阀值;
所述第三过滤模块,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低,并删除所述以一字符为首字或尾字的垃圾串;
所述第四过滤模块还用于,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,并删除包含所述字符的重复串。
10、权利要求7所述的系统,其特征在于:
所述系统还包括第五过滤模块,用于从所述重复串中,删除在一通用词典库中出现过的重复串。
CN2009101623808A 2009-08-14 2009-08-14 科技术语的自动化抽取方法 Expired - Fee Related CN101655866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101623808A CN101655866B (zh) 2009-08-14 2009-08-14 科技术语的自动化抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101623808A CN101655866B (zh) 2009-08-14 2009-08-14 科技术语的自动化抽取方法

Publications (2)

Publication Number Publication Date
CN101655866A true CN101655866A (zh) 2010-02-24
CN101655866B CN101655866B (zh) 2010-12-15

Family

ID=41710159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101623808A Expired - Fee Related CN101655866B (zh) 2009-08-14 2009-08-14 科技术语的自动化抽取方法

Country Status (1)

Country Link
CN (1) CN101655866B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270242A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助语料提取方法
CN102402501A (zh) * 2010-09-09 2012-04-04 富士通株式会社 术语抽取方法和装置
CN103488627A (zh) * 2013-09-05 2014-01-01 中国专利信息中心 全篇专利文献翻译方法及翻译系统
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
CN104376024A (zh) * 2013-08-16 2015-02-25 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN104572758A (zh) * 2013-10-24 2015-04-29 山东大学 一种电力领域专业词汇自动抽取方法及系统
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105138537A (zh) * 2015-07-08 2015-12-09 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN106528546A (zh) * 2016-10-31 2017-03-22 用友网络科技股份有限公司 一种erp术语机器翻译方法
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107885717A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108363795A (zh) * 2017-12-14 2018-08-03 凉山彝族自治州科学技术情报研究所 一种计算机信息检索方法及系统
CN108536667A (zh) * 2017-03-06 2018-09-14 中国移动通信集团广东有限公司 中文文本识别方法及装置
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN112101016A (zh) * 2020-11-05 2020-12-18 广州云趣信息科技有限公司 分词器获得方法、装置及电子设备
CN113886574A (zh) * 2021-09-02 2022-01-04 北京中知智慧科技有限公司 基于结构文本聚类的专利地形图绘制方法及装置
WO2022188821A1 (zh) * 2021-03-09 2022-09-15 智慧芽信息科技(苏州)有限公司 对文件进行自定义字段标引的处理方法、装置、服务器及系统
CN117454893A (zh) * 2023-12-22 2024-01-26 深圳大数信科技术有限公司 基于Python的智能切词方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN101354712B (zh) * 2008-09-05 2011-02-09 北京大学 中文术语自动提取系统及方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402501A (zh) * 2010-09-09 2012-04-04 富士通株式会社 术语抽取方法和装置
CN102270242A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助语料提取方法
CN104376024A (zh) * 2013-08-16 2015-02-25 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN104376024B (zh) * 2013-08-16 2017-12-15 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN103488627B (zh) * 2013-09-05 2017-10-10 中国专利中心信息 全篇专利文献翻译方法及翻译系统
CN103488627A (zh) * 2013-09-05 2014-01-01 中国专利信息中心 全篇专利文献翻译方法及翻译系统
CN104572758A (zh) * 2013-10-24 2015-04-29 山东大学 一种电力领域专业词汇自动抽取方法及系统
CN104572758B (zh) * 2013-10-24 2017-10-24 山东大学 一种电力领域专业词汇自动抽取方法及系统
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN105138537A (zh) * 2015-07-08 2015-12-09 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105138537B (zh) * 2015-07-08 2018-12-07 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105095665B (zh) * 2015-08-13 2018-07-06 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107885717A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN107885717B (zh) * 2016-09-30 2020-12-29 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN106528546A (zh) * 2016-10-31 2017-03-22 用友网络科技股份有限公司 一种erp术语机器翻译方法
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置
CN106909669B (zh) * 2017-02-28 2020-02-11 北京时间股份有限公司 一种推广信息的检测方法及装置
CN108536667A (zh) * 2017-03-06 2018-09-14 中国移动通信集团广东有限公司 中文文本识别方法及装置
CN108536667B (zh) * 2017-03-06 2021-12-07 中国移动通信集团广东有限公司 中文文本识别方法及装置
CN108363795A (zh) * 2017-12-14 2018-08-03 凉山彝族自治州科学技术情报研究所 一种计算机信息检索方法及系统
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN112101016A (zh) * 2020-11-05 2020-12-18 广州云趣信息科技有限公司 分词器获得方法、装置及电子设备
CN112101016B (zh) * 2020-11-05 2021-03-23 广州云趣信息科技有限公司 分词器获得方法、装置及电子设备
WO2022188821A1 (zh) * 2021-03-09 2022-09-15 智慧芽信息科技(苏州)有限公司 对文件进行自定义字段标引的处理方法、装置、服务器及系统
CN113886574A (zh) * 2021-09-02 2022-01-04 北京中知智慧科技有限公司 基于结构文本聚类的专利地形图绘制方法及装置
CN117454893A (zh) * 2023-12-22 2024-01-26 深圳大数信科技术有限公司 基于Python的智能切词方法、系统、设备及存储介质
CN117454893B (zh) * 2023-12-22 2024-03-22 深圳大数信科技术有限公司 基于Python的智能切词方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN101655866B (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
CN101655866B (zh) 科技术语的自动化抽取方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103235774B (zh) 一种科技项目申请书特征词提取方法
EP3086239A1 (en) Scenario generation device and computer program therefor
CN104346379B (zh) 一种基于逻辑和统计技术的数据元识别方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN103631858B (zh) 一种科技项目相似度计算方法
EP3086237A1 (en) Phrase pair gathering device and computer program therefor
CN106021272A (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104573046A (zh) 一种基于词向量的评论分析方法及系统
CN107832457A (zh) 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN108549625B (zh) 一种基于句法宾语聚类的中文篇章表现主题分析方法
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN102779119B (zh) 一种抽取关键词的方法及装置
CN107797994A (zh) 基于约束条件随机场的越南语名词组块识别方法
CN106599072A (zh) 一种文本聚类方法及装置
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN113590809A (zh) 一种裁判文书摘要自动生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101215

Termination date: 20110814