CN103778243B - 一种领域术语抽取方法 - Google Patents

一种领域术语抽取方法 Download PDF

Info

Publication number
CN103778243B
CN103778243B CN201410047277.XA CN201410047277A CN103778243B CN 103778243 B CN103778243 B CN 103778243B CN 201410047277 A CN201410047277 A CN 201410047277A CN 103778243 B CN103778243 B CN 103778243B
Authority
CN
China
Prior art keywords
word
candidate
field
text
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410047277.XA
Other languages
English (en)
Other versions
CN103778243A (zh
Inventor
张仰森
蒋琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201410047277.XA priority Critical patent/CN103778243B/zh
Publication of CN103778243A publication Critical patent/CN103778243A/zh
Application granted granted Critical
Publication of CN103778243B publication Critical patent/CN103778243B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。本发明具有抽取效果较好的特点,可广泛应用于词语抽取领域。

Description

一种领域术语抽取方法
技术领域
本发明涉及抽取技术,特别是涉及一种领域术语抽取方法。
背景技术
领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
领域术语具有两个可统计度量的特性:一是成词度,即,单元性或语言完备性,其从词语结构出发衡量一个字符串是否能独立表达一个完整概念、是否具有符合词法规则的稳定结构;二是领域度,其从词语的隶属度出发衡量一个字符串与特定领域的相关程度。从构词方式而言,领域术语可分为单词型领域术语与词组型领域术语。单词型领域术语由一个单词构成,且此单词是不能再分解的最小独立组成单元;词组型领域术语是由两个以上的单词或语素按照一定语法结构组成的。实际应用中,大部分领域术语属于词组型领域术语,故词组型领域术语是领域术语抽取的重点,同时也是难点。
目前,领域术语抽取方法概括而言主要分为三种:第一种是基于语言规则的方法,其根据领域术语的构词特征定制一系列规则模板,但由于无法实现用少量规则覆盖复杂的领域术语构成规律,故该方法抽取效果较差;第二种是基于统计的方法,其根据统计领域术语在大量文本中的出现特征抽取领域术语,该方法中的各统计策略各有优缺点和适用情况,至今还没有一种方法的效果能得到一致的认同;第三种是基于规则与统计相结合的方法,其弥补上述两种方法各自的缺陷,是领域术语抽取的方向,但是当前基于此方面的研究仍较少。
由此可见,在现有技术中,领域术语提取效果比较差。
发明内容
有鉴于此,本发明的主要目的在于提供一种抽取效果比较好的领域术语抽取方法。
为了达到上述目的,本发明提出的技术方案为:
一种领域术语抽取方法,包括如下步骤:
步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文。
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb
步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集。
步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集。
步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集。
步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语;
步骤3具体包括如下步骤:
步骤31、设定第二阈值γ、第三阈值δ,将带词性的词频数fd>γ或不带词性的词频数fb>γ的字或词语作为候选词;将候选词Xj作为当前中心词,设定临时候选领域术语S0=Xj、Sl0=Xj、Sr0=Xj,设置标志位flagl=true、flagr=true;其中,Xj为第j个候选词,γ>1,且j、γ为自然数。
步骤32、获取当前中心词Xj与其左侧候选词Xj-1结合后的信息熵、当前中心词Xj与其右侧候选词Xj+1结合后的信息熵,分别如下:
Entropyl(j-1)(X)=-∑LP(Xl(j-1)Xj|Xj)log2P(Xl(j-1)Xj|Xj),
Entropyr(j+1)(X)=-∑RP(XjXr(j+1)|Xj)log2P(XjXr(j+1)|Xj);
之后,并行执行步骤33、步骤34。
步骤33、判别Entropyl(j-1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其左侧各候选词Xj-1共现的条件概率与IRCTlk=max{P(XlkXjXj)}确定组合XlkSl0后,令Sl0=XlkSl0、Xj=Xlk、Sr0=Sl0,并判定j=1是否成立:如果是,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果不是,则返回步骤32;其中,k为自然数,且k=0、1、...、j-1;N(Xl(j-1)Xj)表示当前中心词Xj与其左侧各候选词Xj-1共现的次数,N(Xj)表示当前中心词Xj出现的次数。
步骤34、判别Entropyr(j+1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其右侧候选词Xj+1共现的条件概率与IRCTrm=max{P(XjXrm|Xj)}确定组合Sr0Xrm后,令Sr0=Sr0Xrm、Xj=Xrm、Sl0=Sr0,并判定m=j+n是否成立:如果是,则判别是否满足flagr=true与flagl=true:若满足,则令flagr=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果不是,返回步骤32;其中,N(XjXr(j+1))表示当前中心词Xj与其右侧各候选词Xj+1共现的次数,n为Xj右侧字或词语的最大序数,m、n为自然数,且m=j+1、j+2、...、j+n。
步骤35、将得到的扩展结果Sl0或Sr0组成的集合作为第一候选领域术语集。
综上所述,本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计,并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、通用词库过滤等层层筛选或过滤后,得到领域术语,故本发明所述方法的领域术语抽取效果比较好。
附图说明
图1是本发明所述领域术语抽取方法的流程示意图。
图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。
图3是本发明所述去停用词处理的流程示意图。
图4为本发明所述左右信息熵扩展方法的流程示意图。
图5为本发明所述成词度筛选的流程示意图。
图6为本发明所述领域度筛选的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1是本发明所述领域术语抽取方法的流程示意图。如图1所示,本发明所述领域术语抽取方法,包括如下步骤:
步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文。
步骤1中,对于非网页类的当前待抽取领域文本与背景领域文本,预处理用于去除当前待抽取领域文本与背景领域文本中的文献来源、出版信息、文献题目、作者、中英文关键词、中英文摘要、中图法分类号以及作者信息、E-mail信息、参考文献、收稿和修改稿的时间等信息,只保留当前待抽取文本与背景领域文本的正文内容;同时,预处理还可以去除正文中的空行与较大块的公式。对于网页类的当前待抽取领域文本与背景领域文本,预处理用于去除当前待抽取领域文本与背景领域文本中的较有规律的非中文字符、空行、大篇幅非中文段落、链接信息等。
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb
步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集。
本发明中,所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集。
步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集。
步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语。
本发明中,通用词库为现有技术,此处不再赘述。
总之,本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计,并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、词库过滤等层层筛选或过滤后,得到领域术语,故本发明所述方法的领域术语抽取效果比较好。
图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。如图3所示,本发明步骤1中,所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤:
步骤111、移除当前待抽取领域文本与背景领域文本中的无用项,分别得到当前待抽取领域正文与背景领域正文。
步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理,分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
图3是本发明所述去停用词处理的流程示意图。如图3所示,本发明步骤1中,所述去停用词处理具体包括如下步骤:
步骤121、设定第一阈值ζ,确定当前格式化领域正文中的各词语或字,并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文中出现的次数pi、当前格式化领域正文所属领域语料库中所有领域文本总数q;其中,i表示当前格式化领域正文中各词语序号或各字序号,且为自然数。
步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当pi/q>ζ时,则当前格式化领域正文中第i个词语或字为停用词。
步骤123、从当前待抽取领域文本中删除该停用词。
图4为本发明所述左右信息熵扩展方法的流程示意图。如图4所示,本发明步骤3具体包括如下步骤:
步骤31、设定第二阈值γ、第三阈值δ,将带词性的词频数fd>γ或不带词性的词频数fb>γ的字或词语作为候选词;将候选词Xj作为当前中心词,设定临时候选领域术语S0=Xj、Sl0=Xj、Sr0=Xj,设置标志位flagl=true、flagr=true;其中,Xj为第j个候选词,γ>1,且j、γ为自然数;
步骤32、获取当前中心词Xj与其左侧候选词Xj-1结合后的信息熵、当前中心词Xj与其右侧候选词Xj+1结合后的信息熵,分别如下:
Entropyl(j-1)(X)=-∑LP(Xl(j-1)Xj|Xj)log2P(Xl(j-1)Xj|Xj),
Entropyr(j+1)(X)=-∑RP(XjXr(j+1)|Xj)log2P(XjXr(j+1)|Xj);
之后,并行执行步骤33、步骤34;
步骤33、判别Entropyl(j-1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其左侧各候选词Xj-1共现的条件概率与IRCTlk=max{P(XlkXj|Xj)}确定组合XlkSl0后,令Sl0=XlkSl0、Xj=Xlk、Sr0=Sl0,并判定j=1是否成立:如果是,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果不是,则返回步骤32;其中,k为自然数,且k=0、1、...、j-1;
步骤34、判别Entropyr(j+1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其右侧候选词Xj+1共现的条件概率与IRCTrm=max{P(XjXrmXj)}确定组合Sr0Xrm后,令Sr0=Sr0Xrm、Xj=Xrm、Sl0=Sr0,并判定m=j+n是否成立:如果是,则判别是否满足flagr=true与flagl=true:若满足,则令flagr=false,Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果不是,返回步骤32;其中,n为Xj右侧字或词语的最大序数,m、n为自然数,且m=j+1、j+2、...、j+n;
步骤35、将得到的扩展结果Sl0或Sr0组成的集合作为第一候选领域术语集。
本发明步骤4中,所述成词度条件包括词性搭配规则、边界信息概率规则,所述词性搭配规则如下:
图5为本发明所述成词度筛选的流程示意图。如图5所示,本发明所述步骤4具体包括如下步骤:
步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语。
步骤42、设定第四阈值ω、第五阈值η;对于符合所述词性搭配规则的各候选领域术语,根据首字出现概率库或首词出现概率库,当候选领域术语首字在首字出现概率库中的概率或候选领域术语首词在首词出现概率库中的概率小于第四阈值ω时,删除该候选领域术语;对于符合所述词性搭配规则的各候选领域术语,根据尾字出现概率库或尾词出现概率库,当候选领域术语尾字在尾字出现概率库中的概率或候选领域术语尾词在尾词出现概率库中的概率小于第五阈值η时,删除该候选领域术语;之后,得到第二候选领域术语集。
本发明中,首字出现概率库、尾字出现概率库、首词出现概率库、尾词出现概率库为现有技术,此处不再赘述。
本发明中,将第二候选领域术语集加入现有分词系统的用户词典中。
本发明中,第一候选领域术语集中的各领域术语是通过对当前待抽取领域文本中词语间的共现规律的统计结果,其未必符合词性搭配规则;故本发明采用词性搭配规则将无关词语或字过滤掉。同时,通过根据对候选领域术语首词或尾词的出现特征的首字出现概率、尾字出现概率进一步将无关词语或字过滤掉,以确定候选领域术语的真正边界。
图6为本发明所述领域度筛选的流程示意图。如图6所示,本发明所述步骤5中具体包括如下步骤:
步骤51、设定第六阈值
步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件如果不满足,则删除该候选领域术语,得到第三候选领域术语集;其中,Su为第二候选领域术语集中的第u个候选领域术语,vb为领域文本的总字数,TF(Su,v)表示Su在b篇领域文本中的出现频次,w为背景领域文本数,DF(Su)表示背景领域文本库中Su出现的背景领域文本数。
本发明中,第二候选领域术语集中的候选领域术语只是满足了成词度条件,即具备了语言完备性;但其却不一定隶属于特定领域,故还需要从领域度角度出发进一步进行筛选。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种领域术语抽取方法,其特征在于,所述抽取方法包括如下步骤:
步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文;
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb
步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集;
步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集;
步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;
步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语;
步骤3具体包括如下步骤:
步骤31、设定第二阈值γ、第三阈值δ,将带词性的词频数fd>γ或不带词性的词频数fb>γ的字或词语作为候选词;将候选词Xj作为当前中心词,设定临时候选领域术语S0=Xj、Sl0=Xj、Sr0=Xj,设置标志位flagl=true、flagr=true;其中,Xj为第j个候选词,γ>1,且j、γ为自然数;
步骤32、获取当前中心词Xj与其左侧候选词Xj-1结合后的信息熵、当前中心词Xj与其右侧候选词Xj+1结合后的信息熵,分别如下:
Entropyl(j-1)(X)=-∑LP(Xl(j-1)Xj|Xj)log2P(Xl(j-1)Xj|Xj),
Entropyr(j+1)(X)=-∑RP(XjXr(j+1)|Xj)log2P(XjXr(j+1)|Xj);
之后,并行执行步骤33、步骤34;
步骤33、判别Entropyl(j-1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其左侧各候选词Xj-1共现的条件概率与IRCTlk=max{P(XlkXj|Xj)}确定组合XlkSl0后,令Sl0=XlkSl0、Xj=Xlk、Sr0=Sl0,并判定j=1是否成立:如果是,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果不是,则返回步骤32;其中,k为自然数,且k=0、1、...、j-1;N(Xl(j-1)Xj)表示当前中心词Xj与其左侧各候选词Xj-1共现的次数,N(Xj)表示当前中心词Xj出现的次数;
步骤34、判别Entropyr(j+1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其右侧候选词Xj+1共现的条件概率与IRCTrm=max{P(XjXrm|Xj)}确定组合Sr0Xrm后,令Sr0=Sr0Xrm、Xj=Xrm、Sl0=Sr0,并判定m=j+n是否成立:如果是,则判别是否满足flagr=true与flagl=true:若满足,则令flagr=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果不是,返回步骤32;其中,N(XjXr(j+1))表示当前中心词Xj与其右侧各候选词Xj+1共现的次数,n为Xj右侧字或词语的最大序数,m、n为自然数,且m=j+1、j+2、...、j+n;
步骤35、将得到的扩展结果Sl0或Sr0组成的集合作为第一候选领域术语集。
2.根据权利要求1所述的领域术语抽取方法,其特征在于,所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
3.根据权利要求1所述的领域术语抽取方法,其特征在于,步骤1中,所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤:
步骤111、移除当前待抽取领域文本与背景领域文本中的无用项,分别得到当前待抽取领域正文与背景领域正文;
步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理,分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
4.根据权利要求3所述的领域术语抽取方法,其特征在于,步骤1中,所述去停用词处理具体包括如下步骤:
步骤121、设定第一阈值ζ,确定当前格式化领域正文中的各词语或字,并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文所属领域语料库中出现的文本数pi、当前格式化领域正文所属领域语料库中所有领域文本总数q;其中,i表示当前格式化领域正文中各词语序号或各字序号,且为自然数;
步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当pi/q>ζ时,则当前格式化领域正文中第i个词语或字为停用词;
步骤123、从当前待抽取领域文本中去掉该停用词。
5.根据权利要求2所述的领域术语抽取方法,其特征在于,步骤4中,所述成词度条件包括词性搭配规则、边界信息概率规则;所述词性搭配规则包括候选术语组成结构及其对应的词性搭配组合,候选术语组成结构包括一元结构、二元结构、三元结构、四元以上结构;所述词性搭配规则具体如下:
当候选术语组成结构为一元结构时,其对应的词性搭配组合为:名词、动词、动名词、不及物动词、形容词或者形容词性惯用语;
当候选术语组成结构为二元结构时,其对应的词性搭配组合为:名词+名词、名词+动词、名词+动名词、动词+名词、动词+动名词、区别词+名词、动词+动词、形容词+名词、名词+不及物动词、形容词+动名词、区别词+动名词、名词+名词性语素、动名词+动名词语素、动名词+动名词、形容词+名形词、动名词+名形词、动名词+动名词、名词+名形词、数词+名词、不及物动词+动词、不及物动词+名词、形容词+动词或者动词+名词性语素;
当候选术语组成结构为三元结构时,其对应的词性搭配组合为:至少包括名词、动词、动名词、形容词、区别词、名词性语素或副词之一;
当候选术语组成结构为四元以上结构时,其对应的词性搭配组合为:首字或首词不为介词、量词、连词、助词或者后缀,尾字或尾词为名词、名词性语素动词、动词、动名词、不及物动词、动词性语素或者动量词,且不包含代词、语气词、助词、叹词、拟声词、处所词、
状态词、方位词、字符串或者时间词。
6.根据权利要求5所述的领域术语抽取方法,其特征在于,所述步骤4具体包括如下步骤:
步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语;
步骤42、设定第四阈值ω、第五阈值η;对于符合所述词性搭配规则的各候选领域术语,根据首字出现概率库,当候选领域术语首字在首字出现概率库中的概率小于第四阈值ω时,删除该候选领域术语;对于符合所述词性搭配规则的各候选领域术语,根据尾字出现概率库,当候选领域术语尾字在尾字出现概率库中的概率小于第五阈值η时,删除该候选领域术语;之后,得到第二候选领域术语集。
7.根据权利要求1所述的领域术语抽取方法,其特征在于,所述步骤5中具体包括如下步骤:
步骤51、设定第六阈值
步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件如果不满足,则删除该候选领域术语,得到第三候选领域术语集;其中,Su为第二候选领域术语集中的第u个候选领域术语,vb为领域文本的总字数,TF(Su,v)表示Su在b篇领域文本中的出现频次,w为背景领域文本数,DF(Su)表示背景领域文本库中Su出现的背景领域文本数。
CN201410047277.XA 2014-02-11 2014-02-11 一种领域术语抽取方法 Expired - Fee Related CN103778243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410047277.XA CN103778243B (zh) 2014-02-11 2014-02-11 一种领域术语抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410047277.XA CN103778243B (zh) 2014-02-11 2014-02-11 一种领域术语抽取方法

Publications (2)

Publication Number Publication Date
CN103778243A CN103778243A (zh) 2014-05-07
CN103778243B true CN103778243B (zh) 2017-02-08

Family

ID=50570478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410047277.XA Expired - Fee Related CN103778243B (zh) 2014-02-11 2014-02-11 一种领域术语抽取方法

Country Status (1)

Country Link
CN (1) CN103778243B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598530B (zh) * 2014-12-26 2018-06-05 语联网(武汉)信息技术有限公司 一种领域术语抽取的方法
CN104572621B (zh) * 2015-01-05 2018-01-26 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104572622B (zh) * 2015-01-05 2018-01-02 武汉传神信息技术有限公司 一种术语的筛选方法
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN105224520B (zh) * 2015-09-28 2018-03-13 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105869056A (zh) * 2016-03-31 2016-08-17 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN105930509B (zh) * 2016-05-11 2019-05-17 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN106294320B (zh) * 2016-08-04 2019-04-12 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN107885717B (zh) * 2016-09-30 2020-12-29 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN108363691B (zh) * 2018-02-09 2021-07-20 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109033071B (zh) * 2018-06-27 2022-11-25 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN110969009B (zh) * 2019-12-03 2023-10-13 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法
WO2021189291A1 (en) * 2020-03-25 2021-09-30 Metis Ip (Suzhou) Llc Methods and systems for extracting self-created terms in professional area
CN111985211B (zh) * 2020-09-01 2021-04-27 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Discovering Chinese Compound Term Using Termhood and Unithood Measures;Jingjing Kang 等;《2011 Sixth Annual ChinaGrid Conference》;20110823;60-67 *
统计与规则相融合的领域术语抽取算法;樊梦佳 等;《计算机应用研究》;20151019;1-6 *
车牌识别领域的中文术语自动抽取;史东娜 等;《中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)》;20080731;1245-1250 *

Also Published As

Publication number Publication date
CN103778243A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN103778243B (zh) 一种领域术语抽取方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN105022725B (zh) 一种应用于金融Web领域的文本情感倾向分析方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN108763204A (zh) 一种多层次的文本情感特征提取方法和模型
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN105320960A (zh) 一种基于投票的跨语言主客观情感分类方法
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
Jha et al. Homs: Hindi opinion mining system
CN103678565B (zh) 一种基于自引导方式的领域自适应句子对齐系统
CN104239490B (zh) 一种用于ugc网站平台的多账户检测方法及装置
CN106611041A (zh) 一种新的文本相似度求解方法
CN102955771A (zh) 中文单字串模式和词缀模式的新词自动识别技术及系统
CN108563667A (zh) 基于新词识别的热门话题采集系统及其方法
CN106610952A (zh) 一种混合的文本特征词汇提取方法
Das et al. Subjectivity detection in english and bengali: A crf-based approach
CN106776678A (zh) 新的关键词优化实现搜索引擎优化技术
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
Castro-Castro et al. Author Masking by Sentence Transformation.
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
Momtaz et al. Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents.
Venugopal-Wairagade et al. Novel language resources for Hindi: an aesthetics text corpus and a comprehensive stop lemma list
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
CN106598952A (zh) 基于卷积神经网络的中文模糊限制信息范围检测系统
Nassr et al. Preprocessing arabic dialect for sentiment mining: State of art

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20200211