CN103778243A - 一种领域术语抽取方法 - Google Patents

一种领域术语抽取方法 Download PDF

Info

Publication number
CN103778243A
CN103778243A CN201410047277.XA CN201410047277A CN103778243A CN 103778243 A CN103778243 A CN 103778243A CN 201410047277 A CN201410047277 A CN 201410047277A CN 103778243 A CN103778243 A CN 103778243A
Authority
CN
China
Prior art keywords
field
word
candidate
text
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410047277.XA
Other languages
English (en)
Other versions
CN103778243B (zh
Inventor
张仰森
蒋琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201410047277.XA priority Critical patent/CN103778243B/zh
Publication of CN103778243A publication Critical patent/CN103778243A/zh
Application granted granted Critical
Publication of CN103778243B publication Critical patent/CN103778243B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。本发明具有抽取效果较好的特点,可广泛应用于词语抽取领域。

Description

一种领域术语抽取方法
技术领域
本发明涉及抽取技术,特别是涉及一种领域术语抽取方法。
背景技术
领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic TermExtraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
领域术语具有两个可统计度量的特性:一是成词度,即,单元性或语言完备性,其从词语结构出发衡量一个字符串是否能独立表达一个完整概念、是否具有符合词法规则的稳定结构;二是领域度,其从词语的隶属度出发衡量一个字符串与特定领域的相关程度。从构词方式而言,领域术语可分为单词型领域术语与词组型领域术语。单词型领域术语由一个单词构成,且此单词是不能再分解的最小独立组成单元;词组型领域术语是由两个以上的单词或语素按照一定语法结构组成的。实际应用中,大部分领域术语属于词组型领域术语,故词组型领域术语是领域术语抽取的重点,同时也是难点。
目前,领域术语抽取方法概括而言主要分为三种:第一种是基于语言规则的方法,其根据领域术语的构词特征定制一系列规则模板,但由于无法实现用少量规则覆盖复杂的领域术语构成规律,故该方法抽取效果较差;第二种是基于统计的方法,其根据统计领域术语在大量文本中的出现特征抽取领域术语,该方法中的各统计策略各有优缺点和适用情况,至今还没有一种方法的效果能得到一致的认同;第三种是基于规则与统计相结合的方法,其弥补上述两种方法各自的缺陷,是领域术语抽取的方向,但是当前基于此方面的研究仍较少。
由此可见,在现有技术中,领域术语提取效果比较差。
发明内容
有鉴于此,本发明的主要目的在于提供一种抽取效果比较好的领域术语抽取方法。
为了达到上述目的,本发明提出的技术方案为:
一种领域术语抽取方法,包括如下步骤:
步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文。
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb
步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集。
步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集。
步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集。
步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语。
综上所述,本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计,并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、通用词库过滤等层层筛选或过滤后,得到领域术语,故本发明所述方法的领域术语抽取效果比较好。
附图说明
图1是本发明所述领域术语抽取方法的流程示意图。
图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。
图3是本发明所述去停用词处理的流程示意图。
图4为本发明所述左右信息熵扩展方法的流程示意图。
图5为本发明所述成词度筛选的流程示意图。
图6为本发明所述领域度筛选的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1是本发明所述领域术语抽取方法的流程示意图。如图1所示,本发明所述领域术语抽取方法,包括如下步骤:
步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文。
步骤1中,对于非网页类的当前待抽取领域文本与背景领域文本,预处理用于去除当前待抽取领域文本与背景领域文本中的文献来源、出版信息、文献题目、作者、中英文关键词、中英文摘要、中图法分类号以及作者信息、E-mail信息、参考文献、收稿和修改稿的时间等信息,只保留当前待抽取文本与背景领域文本的正文内容;同时,预处理还可以去除正文中的空行与较大块的公式。对于网页类的当前待抽取领域文本与背景领域文本,预处理用于去除当前待抽取领域文本与背景领域文本中的较有规律的非中文字符、空行、大篇幅非中文段落、链接信息等。
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb
步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集。
本发明中,所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集。
步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集。
步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语。
本发明中,通用词库为现有技术,此处不再赘述。
总之,本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计,并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、词库过滤等层层筛选或过滤后,得到领域术语,故本发明所述方法的领域术语抽取效果比较好。
图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。如图3所示,本发明步骤1中,所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤:
步骤111、移除当前待抽取领域文本与背景领域文本中的无用项,分别得到当前待抽取领域正文与背景领域正文。
步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理,分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
图3是本发明所述去停用词处理的流程示意图。如图3所示,本发明步骤1中,所述去停用词处理具体包括如下步骤:
步骤121、设定第一阈值ζ,确定当前格式化领域正文中的各词语或字,并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文中出现的次数pi、当前格式化领域正文所属领域语料库中所有领域文本总数q;其中,i表示当前格式化领域正文中各词语序号或各字序号,且为自然数。
步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当pi/q>ζ时,则当前格式化领域正文中第i个词语或字为停用词。
步骤123、从当前待抽取领域文本中删除该停用词。
图4为本发明所述左右信息熵扩展方法的流程示意图。如图4所示,本发明步骤3具体包括如下步骤:
步骤31、设定第二阈值γ、第三阈值δ,将带词性的词频数fd>γ或不带词性的词频数fb>γ的字或词语作为候选词;将候选词Xj作为当前中心词,设定临时候选领域术语S0=Xj、Sl0=Xj、Sr0=Xj,设置标志位flagl=true、flagr=true;其中,Xj为第j个候选词,γ>1,且j、γ为自然数;
步骤32、获取当前中心词Xj与其左侧候选词Xj-1结合后的信息熵、当前中心词Xj与其右侧候选词Xj+1结合后的信息熵,分别如下:
Entropyl(j-1)(X)=-∑LP(Xl(j-1)Xj|Xj)log2P(Xl(j-1)Xj|Xj),
Entropyr(j+1)(X)=-∑RP(XjXr(j+1)|Xj)log2P(XjXr(j+1)|Xj);
之后,并行执行步骤33、步骤34;
步骤33、判别Entropyl(j-1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其左侧各候选词Xj-1共现的条件概率
Figure BDA0000464945690000061
与IRCTlk=max{P(XlkXj|Xj)}确定组合XlkSl0后,令Sl0=XlkSl0、Xj=Xlk、Sr0=Sl0,并判定j=1是否成立:如果是,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果不是,则返回步骤32;其中,k为自然数,且k=0、1、...、j-1;
步骤34、判别Entropyr(j+1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其右侧候选词Xj+1共现的条件概率
Figure BDA0000464945690000062
与IRCTrm=max{P(XjXrm|Xj)}确定组合Sr0Xrm后,令Sr0=Sr0Xrm、Xj=Xrm、Sl0=Sr0,并判定m=j+n是否成立:如果是,则判别是否满足flagr=true与flagl=true:若满足,则令flagr=false,Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果不是,返回步骤32;其中,n为Xj右侧字或词语的最大序数,m、n为自然数,且m=j+1、j+2、...、j+n;
步骤35、将得到的扩展结果Sl0或Sr0组成的集合作为第一候选领域术语集。
本发明步骤4中,所述成词度条件包括词性搭配规则、边界信息概率规则,所述词性搭配规则如下:
Figure BDA0000464945690000071
图5为本发明所述成词度筛选的流程示意图。如图5所示,本发明所述步骤4具体包括如下步骤:
步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语。
步骤42、设定第四阈值ω、第五阈值η;对于符合所述词性搭配规则的各候选领域术语,根据首字出现概率库或首词出现概率库,当候选领域术语首字在首字出现概率库中的概率或候选领域术语首词在首词出现概率库中的概率小于第四阈值ω时,删除该候选领域术语;对于符合所述词性搭配规则的各候选领域术语,根据尾字出现概率库或尾词出现概率库,当候选领域术语尾字在尾字出现概率库中的概率或候选领域术语尾词在尾词出现概率库中的概率小于第五阈值η时,删除该候选领域术语;之后,得到第二候选领域术语集。
本发明中,首字出现概率库、尾字出现概率库、首词出现概率库、尾词出现概率库为现有技术,此处不再赘述。
本发明中,将第二候选领域术语集加入现有分词系统的用户词典中。
本发明中,第一候选领域术语集中的各领域术语是通过对当前待抽取领域文本中词语间的共现规律的统计结果,其未必符合词性搭配规则;故本发明采用词性搭配规则将无关词语或字过滤掉。同时,通过根据对候选领域术语首词或尾词的出现特征的首字出现概率、尾字出现概率进一步将无关词语或字过滤掉,以确定候选领域术语的真正边界。
图6为本发明所述领域度筛选的流程示意图。如图6所示,本发明所述步骤5中具体包括如下步骤:
步骤51、设定第六阈值
Figure BDA0000464945690000081
步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件
Figure BDA0000464945690000082
如果不满足,则删除该候选领域术语,得到第三候选领域术语集;其中,Su为第二候选领域术语集中的第u个候选领域术语,vb为领域文本的总字数,TF(Su,v)表示Su在b篇领域文本中的出现频次,w为背景领域文本数,DF(Su)表示背景领域文本库中Su出现的背景领域文本数。
本发明中,第二候选领域术语集中的候选领域术语只是满足了成词度条件,即具备了语言完备性;但其却不一定隶属于特定领域,故还需要从领域度角度出发进一步进行筛选。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种领域术语抽取方法,其特征在于,所述抽取方法包括如下步骤:
步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文;
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb
步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集;
步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集;
步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;
步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语。
2.根据权利要求1所述的领域术语抽取方法,其特征在于,所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
3.根据权利要求1所述的领域术语抽取方法,其特征在于,步骤1中,所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤:
步骤111、移除当前待抽取领域文本与背景领域文本中的无用项,分别得到当前待抽取领域正文与背景领域正文;
步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理,分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
4.根据权利要求3所述的领域术语抽取方法,其特征在于,步骤1中,所述去停用词处理具体包括如下步骤:
步骤121、设定第一阈值ζ,确定当前格式化领域正文中的各词语或字,并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文所属领域语料库中出现的文本数pi、当前格式化领域正文所属领域语料库中所有领域文本总数q;其中,i表示当前格式化领域正文中各词语序号或各字序号,且为自然数;
步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当pi/q>ζ时,则当前格式化领域正文中第i个词语或字为停用词;
步骤123、从当前待抽取领域文本中去掉该停用词。
5.根据权利要求1所述的领域术语抽取方法,其特征在于,步骤3具体包括如下步骤:
步骤31、设定第二阈值γ、第三阈值δ,将带词性的词频数fd>γ或不带词性的词频数fb>γ的字或词语作为候选词;将候选词Xj作为当前中心词,设定临时候选领域术语S0=Xj、Sl0=Xj、Sr0=Xj,设置标志位flagl=true、flagr=true;其中,Xj为第j个候选词,γ>1,且j、γ为自然数;
步骤32、获取当前中心词Xj与其左侧候选词Xj-1结合后的信息熵、当前中心词Xj与其右侧候选词Xj+1结合后的信息熵,分别如下:
Entropyl(j-1)(X)=-∑LP(Xl(j-1)Xj|Xj)log2P(Xl(j-1)Xj|Xj),
Entropyr(j+1)(X)=-∑RP(XjXr(j+1)|Xj)log2P(XjXr(j+1)|Xj);
之后,并行执行步骤33、步骤34;
步骤33、判别Entropyl(j-1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其左侧各候选词Xj-1共现的条件概率
Figure FDA0000464945680000031
与IRCTlk=max{P(XlkXj|Xj)}确定组合XlkSl0后,令Sl0=XlkSl0、Xj=Xlk、Sr0=Sl0,并判定j=1是否成立:如果是,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果不是,则返回步骤32;其中,k为自然数,且k=0、1、...、j-1;
步骤34、判别Entropyr(j+1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其右侧候选词Xj+1共现的条件概率
Figure FDA0000464945680000032
与IRCTrm=max{P(XjXrm|Xj)}确定组合Sr0Xrm后,令Sr0=Sr0Xrm、Xj=Xrm、Sl0=Sr0,并判定m=j+n是否成立:如果是,则判别是否满足flagr=true与flagl=true:若满足,则令flagr=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果不是,返回步骤32;其中,n为Xj右侧字或词语的最大序数,m、n为自然数,且m=j+1、j+2、...、j+n;
步骤35、将得到的扩展结果Sl0或Sr0组成的集合作为第一候选领域术语集。
6.根据权利要求2所述的领域术语抽取方法,其特征在于,步骤4中,所述成词度条件包括词性搭配规则、边界信息概率规则,所述词性搭配规则如下:
Figure FDA0000464945680000033
7.根据权利要求6所述的领域术语抽取方法,其特征在于,所述步骤4具体包括如下步骤:
步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语;
步骤42、设定第四阈值ω、第五阈值η;对于符合所述词性搭配规则的各候选领域术语,根据首字出现概率库,当候选领域术语首字在首字出现概率库中的概率小于第四阈值ω时,删除该候选领域术语;对于符合所述词性搭配规则的各候选领域术语,根据尾字出现概率库,当候选领域术语尾字在尾字出现概率库中的概率小于第五阈值η时,删除该候选领域术语;之后,得到第二候选领域术语集。
8.根据权利要求1所述的领域术语抽取方法,其特征在于,所述步骤5中具体包括如下步骤:
步骤51、设定第六阈值
Figure FDA0000464945680000042
步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件
Figure FDA0000464945680000041
如果不满足,则删除该候选领域术语,得到第三候选领域术语集;其中,Su为第二候选领域术语集中的第u个候选领域术语,vb为领域文本的总字数,TF(Su,v)表示Su在b篇领域文本中的出现频次,w为背景领域文本数,DF(Su)表示背景领域文本库中Su出现的背景领域文本数。
CN201410047277.XA 2014-02-11 2014-02-11 一种领域术语抽取方法 Expired - Fee Related CN103778243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410047277.XA CN103778243B (zh) 2014-02-11 2014-02-11 一种领域术语抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410047277.XA CN103778243B (zh) 2014-02-11 2014-02-11 一种领域术语抽取方法

Publications (2)

Publication Number Publication Date
CN103778243A true CN103778243A (zh) 2014-05-07
CN103778243B CN103778243B (zh) 2017-02-08

Family

ID=50570478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410047277.XA Expired - Fee Related CN103778243B (zh) 2014-02-11 2014-02-11 一种领域术语抽取方法

Country Status (1)

Country Link
CN (1) CN103778243B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572621A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
CN104598530A (zh) * 2014-12-26 2015-05-06 语联网(武汉)信息技术有限公司 一种领域术语抽取的方法
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105869056A (zh) * 2016-03-31 2016-08-17 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN107885717A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109033071A (zh) * 2018-06-27 2018-12-18 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN110969009A (zh) * 2019-12-03 2020-04-07 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法
CN111985211A (zh) * 2020-09-01 2020-11-24 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质
CN115066679A (zh) * 2020-03-25 2022-09-16 苏州七星天专利运营管理有限责任公司 一种提取专业领域内的自造术语的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINGJING KANG 等: "Discovering Chinese Compound Term Using Termhood and Unithood Measures", 《2011 SIXTH ANNUAL CHINAGRID CONFERENCE》 *
史东娜 等: "车牌识别领域的中文术语自动抽取", 《中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)》 *
樊梦佳 等: "统计与规则相融合的领域术语抽取算法", 《计算机应用研究》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598530A (zh) * 2014-12-26 2015-05-06 语联网(武汉)信息技术有限公司 一种领域术语抽取的方法
CN104598530B (zh) * 2014-12-26 2018-06-05 语联网(武汉)信息技术有限公司 一种领域术语抽取的方法
CN104572622B (zh) * 2015-01-05 2018-01-02 武汉传神信息技术有限公司 一种术语的筛选方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
CN104572621A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104572621B (zh) * 2015-01-05 2018-01-26 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105869056A (zh) * 2016-03-31 2016-08-17 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN105930509B (zh) * 2016-05-11 2019-05-17 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN106294320B (zh) * 2016-08-04 2019-04-12 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN107885717A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN107885717B (zh) * 2016-09-30 2020-12-29 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108363691B (zh) * 2018-02-09 2021-07-20 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109033071A (zh) * 2018-06-27 2018-12-18 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN109033071B (zh) * 2018-06-27 2022-11-25 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN110969009A (zh) * 2019-12-03 2020-04-07 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法
CN110969009B (zh) * 2019-12-03 2023-10-13 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法
CN115066679A (zh) * 2020-03-25 2022-09-16 苏州七星天专利运营管理有限责任公司 一种提取专业领域内的自造术语的方法及系统
CN115066679B (zh) * 2020-03-25 2024-02-20 苏州七星天专利运营管理有限责任公司 一种提取专业领域内的自造术语的方法及系统
CN111985211A (zh) * 2020-09-01 2020-11-24 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质

Also Published As

Publication number Publication date
CN103778243B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103778243A (zh) 一种领域术语抽取方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN106294320B (zh) 一种面向学术论文的术语抽取方法及系统
CN101315622B (zh) 检测文件相似度的系统及方法
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN103942191B (zh) 一种基于内容的恐怖文本识别方法
CN102955771A (zh) 中文单字串模式和词缀模式的新词自动识别技术及系统
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN102253930A (zh) 一种文本翻译的方法及装置
CN106611041A (zh) 一种新的文本相似度求解方法
CN103678565B (zh) 一种基于自引导方式的领域自适应句子对齐系统
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN101794308B (zh) 一种面向有意义串挖掘的重复串提取方法及装置
CN110674298B (zh) 一种深度学习的混合主题模型构建方法
CN106598941A (zh) 一种全局优化文本关键词质量的算法
CN109033166A (zh) 一种人物属性抽取训练数据集构建方法
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN106776678A (zh) 新的关键词优化实现搜索引擎优化技术
CN109726402A (zh) 一种文档主题词自动提取方法
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
Cherif et al. New rules-based algorithm to improve Arabic stemming accuracy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20200211

CF01 Termination of patent right due to non-payment of annual fee