CN104598530B - 一种领域术语抽取的方法 - Google Patents

一种领域术语抽取的方法 Download PDF

Info

Publication number
CN104598530B
CN104598530B CN201410831590.2A CN201410831590A CN104598530B CN 104598530 B CN104598530 B CN 104598530B CN 201410831590 A CN201410831590 A CN 201410831590A CN 104598530 B CN104598530 B CN 104598530B
Authority
CN
China
Prior art keywords
mrow
candidate terms
morpheme
probability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410831590.2A
Other languages
English (en)
Other versions
CN104598530A (zh
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Transn Information Technology Co., Ltd.
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201410831590.2A priority Critical patent/CN104598530B/zh
Publication of CN104598530A publication Critical patent/CN104598530A/zh
Application granted granted Critical
Publication of CN104598530B publication Critical patent/CN104598530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种领域术语抽取的方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;利用确定的所述多个特征参数,计算出该候选术语的领域术语度;抽取所述领域术语度高于阈值的候选术语作为新的领域术语。本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行充分的分析,保证提取的术语可靠性和准确性较高。

Description

一种领域术语抽取的方法
技术领域
本发明属于数据挖掘技术领域,尤其是一种领域术语抽取的方法。
背景技术
领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定,领域术语提取效果比较差。
发明内容
本发明的目的之一是提供一种领域术语抽取的方法,以解决现有技术中对于领域术语提取效果比较差的问题。
在一些说明性实施例中,所述领域术语抽取的方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;利用确定的所述多个特征参数,计算出该候选术语的领域术语度;抽取所述领域术语度高于阈值的候选术语作为新的领域术语。
与现有技术相比,本发明的说明性实施例包括以下优点:
本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多个维度的充分的分析,保证提取的术语可靠性和准确性较高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
本发明中所采用的术语“语素”是指语言数据中的不可拆分的最小单位,对应为一个字或一个单词。
如图1所示,公开了一种领域术语抽取的方法,包括:
S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;
S12、从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;
S13、利用确定的所述多个特征参数,计算出该候选术语的领域术语度;
S14、抽取所述领域术语度高于阈值的候选术语作为新的领域术语。
本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多个维度的充分的分析,保证提取的术语可靠性和准确性较高。
以下对上述方法进行详细说明:
例如:原始语料“中华人民共和国”进行切分,首先以两个语素单位进行切分,可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语,再以三个语素单位进行切分,可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语,再以4个语素单位进行切分,可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语,再以5个语素单位进行切分,可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语,再以6个语素单位进行切分,可以获得“中华人民共和”、“华人民共和国”两个候选术语,以7个语素单位进行切分,即得到候选术语“中华人民共和国”。以上共获得21个候选术语。
以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例,原始语料可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切分单位,例如最大切分单位为10个语素。
所述从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数,具体包括:
1)、对候选术语的出现概率进行分析,即候选术语在所述原始语料中的出现概率;该候选术语的出现次数比上候选术语的总数。
例如该候选术语在原始语料中与其它7个候选术语相同,那么该候选术语的出现次数为8次,再比上候选术语的总数,即得到该候选术语的出现概率。
2)、对候选术语进行互信息的分析,得到候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值。
例如:分析的候选术语C的长度为l个语素单位,以第k个语素位置,进行拆分,得到的前部为c1~ck,后部为ck+1~cl
按照如下公式进行互信息的计算:
其中,c1c2…cl分别对应为候选术语C中相应位置的语素,P(c1c2…cl)为该候选术语C在原始语料中的出现概率,P(c1c2…ck)为候选术语C的前部在原始语料中的出现概率,P(ck+1ck+2…cl)为候选术语C的后部在原始语料中的出现概率,该出现概率的获得方法与1)中相同,在此不再赘述。
互信息的最小值的获取,例如:候选术语ABC,第一次拆分为A,和BC,第二次拆分为AB和C,两次互信息的计算依次为0.5和0.6,取0.5作为候选术语ABC的互信息。
3)、对候选术语进行左右熵的分析,确定候选术语的左右熵
按照如下公式进行计算:
其中,LH(C)为候选术语C的左熵,L表示出现在候选术语C左侧的词汇集合,P(lC|C)为词汇l出现在候选术语C左侧的条件概率;
其中,RH(C)为候选术语C的右熵,R表示出现在候选术语C右侧的词汇集合,P(Cr|C)为词汇r出现在候选术语C左右的条件概率;
其中,LRH为候选术语C的左右熵,通过对其左熵和右熵取最大值获得。
4)、对候选术语的独立性进行分析,即候选术语具有的每个语素均在历史语料库中独立成词的概率
按照如下公式进行计算出候选术语中的每个语素x独立成词的概率IPW(x):
其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;
按照如下公式计算出候选术语C独立成词的概率IPW(C):
IPW(C)=IPW(c1c2…cl)=IPW(c1)·IPW(c2)·…·IPW(cl)
5)、对候选术语中的每个语素出现的位置进行分析,根据内部词概率表获得候选术语不同位置的语素的出现概率;其中内部词概率表的获取方法为,在已有的术语语料库中,计算其中每个语素x出现在术语的头、中、尾的概率,从而得到一个包含所有语素的内部词概率表。公式如下:
其中“*”表示和语素x组成术语的前后语素组合,times(X)表示术语X在术语语料库中的出现次数。IPC(x,pos)表示语素x出现在位置pos的概率。pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾。
对于待计算的l元字符串C=c1c2…cl,根据上述所得的内部词概率表,其内部词概率IPC的计算方法为:
6)、对候选术语中的每个语素或语素组合在历史语料库中的出现概率进行分析,确定候选术语的领域概率
统计并计算出候选术语的每个语素或语素组合在历史语料库中的出现概率P(F_ci);
再按照如下公式计算出候选术语的领域概率PC:
在一些说明性实施例中,所述利用确定的所述多个特征参数,计算出该候选术语的领域术语度,具体包括:
按照如下公式计算出每个候选术语的领域术语度Termhood:
Termhood=K1·P+K2·MI+K3·LRH+K4·IPW+K5·IPC+K6·PC
其中,K1、K2、K3、K4、K5和K6为通过给定样本利用最小二乘法计算出的领域术语度调节系数,所述领域术语度调节系数为多元线性回归系数。
系数的具体计算方法如下:
令:Y=Termhood,X1=P,X2=MI,X3=LRH,X4=IPW,X5=IPC,X6=PC
对于给定的n组样本有:
Y1=K1·X11+K2·X12+K3·X13+K4·X14+K5·X15+K6·X16
Y2=K1·X21+K2·X22+K3·X23+K4·X24+K5·X25+K6·X26
Yn=K1·Xn1+K2·Xn2+K3·Xn3+K4·Xn4+K5·Xn5+K6·Xn6
则:
其中,X′为X的转置矩阵
在一些说明性实施例中,所述抽取所述领域术语度高于阈值的候选术语作为新的领域术语的过程中,还包括:
将高于阈值的候选术语进行推送,进行人工确定。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种领域术语抽取的方法,其特征在于,包括:
对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;
从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;
利用确定的所述多个特征参数,计算出该候选术语的领域术语度;
抽取所述领域术语度高于阈值的候选术语作为新的领域术语;
其中,按照如下公式计算出每个候选术语的领域术语度Termhood:
Termhood=K1·P+K2·MI+K3·LRH+K4·IPW+K5·IPC+K6·PC
其中,P为候选术语在所述原始语料中的出现概率;MI为候选术语的两部分的互信息的最小值,其中候选术语被分割为任意长度的两部分;LRH为候选术语的左右熵;IPW为候选术语具有的每个语素在历史语料库中独立成词的概率;IPC为候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率;PC为候选术语中的领域概率;K1、K2、K3、K4、K5和K6为通过给定样本利用最小二乘法计算出的领域术语度调节系数,所述领域术语度调节系数为多元线性回归系数;
其中,按照如下公式计算候选术语C独立成词的概率IPW(C):
IPW(C)=IPW(c1c2…c1)=IPW(c1)·IPW(c2)·…·IPW(cl);
其中,c1、c2、…、cl分别为候选术语C中相应位置的语素,IPW(c1)、IPW(c2)、…、IPW(cl)为每个语素独立成词的概率;
其中,按照如下公式计算候选术语中的每个语素x独立成词的概率IPW(x):
<mrow> <mi>I</mi> <mi>P</mi> <mi>W</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;
其中,对于待计算的l元字符串C=c1c2…cl,根据内部词概率表,计算IPC的方法为:
<mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mo>=</mo> <mroot> <mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>l</mi> </msub> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <mfrac> <mn>1</mn> <mrow> <mi>l</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mn>3</mn> </mroot> </mrow>
其中,IPC(x,pos)表示语素x出现在位置pos的概率;pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾;
其中,计算语素x出现在术语的词头、词中、词尾的概率,从而得到包含所有语素的内部词概率表的方式如下:
<mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
<mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>*</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
<mrow> <mi>I</mi> <mi>P</mi> <mi>C</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mo>*</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,“*”表示和语素x组成术语的前后语素组合,times(x)表示术语x在术语语料库中的出现次数;
其中,照如下公式计算候选术语的领域概率PC:
<mrow> <mi>P</mi> <mi>C</mi> <mo>=</mo> <mroot> <mrow> <msubsup> <mo>&amp;Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>_</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </mroot> </mrow>
其中,P(F_ci)为候选术语的每个语素或语素组合在历史语料库中的出现概率,n为候选术语的语素个数或语素组合的个数。
2.根据权利要求1所述的领域术语抽取的方法,其特征在于,所述确定该候选术语的多个特征参数中包括每个所述候选术语在所述原始语料中的出现概率。
3.根据权利要求1所述的领域术语抽取的方法,其特征在于,所述确定该候选术语的多个特征参数中包括每个候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值。
4.根据权利要求1所述的领域术语抽取的方法,其特征在于,所述确定该候选术语的多个特征参数中包括每个所述候选术语的左右熵;其中,所述候选术语的左右熵为该候选术语的左熵和右熵两者中的最大值。
5.根据权利要求1所述的领域术语抽取的方法,其特征在于,所述确定该候选术语的多个特征参数中包括每个所述候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率。
6.根据权利要求1所述的领域术语抽取的方法,其特征在于,所述确定该候选术语的多个特征参数中包括每个所述候选术语中的领域概率;
所述领域概率通过对该候选术语所具有的每个语素或语素组合在历史语料库中出现概率进行计算获得。
CN201410831590.2A 2014-12-26 2014-12-26 一种领域术语抽取的方法 Active CN104598530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410831590.2A CN104598530B (zh) 2014-12-26 2014-12-26 一种领域术语抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410831590.2A CN104598530B (zh) 2014-12-26 2014-12-26 一种领域术语抽取的方法

Publications (2)

Publication Number Publication Date
CN104598530A CN104598530A (zh) 2015-05-06
CN104598530B true CN104598530B (zh) 2018-06-05

Family

ID=53124315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410831590.2A Active CN104598530B (zh) 2014-12-26 2014-12-26 一种领域术语抽取的方法

Country Status (1)

Country Link
CN (1) CN104598530B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN107463548B (zh) * 2016-06-02 2021-04-27 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN106445921B (zh) * 2016-09-29 2019-05-07 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106649277B (zh) * 2016-12-29 2020-07-03 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN109710947B (zh) * 2019-01-22 2021-09-07 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN114841175A (zh) * 2022-04-22 2022-08-02 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Statistical Corpus-Based Term Extractor;Patrick Pantel 等;《Springer Berlin Heidelberg》;20001231;全文 *
一种基于加权投票的术语自动识别方法;游宏梁 等;《中文信息学报》;20110531;第25卷(第3期);第3.2节 *
专业领域未登录词识别研究;鞠菲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;第2013年卷(第S2期);摘要,正文第17页第2段,第20页第3段,第36、40、41页,第45页第7.1节 *

Also Published As

Publication number Publication date
CN104598530A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104572622B (zh) 一种术语的筛选方法
CN104598530B (zh) 一种领域术语抽取的方法
CN103123618B (zh) 文本相似度获取方法和装置
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN104298662B (zh) 一种基于有机物命名实体的机器翻译方法及翻译系统
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN107391495B (zh) 一种双语平行语料的句对齐方法
CN108062305B (zh) 一种基于迭代的三步式无监督中文分词方法
CN108845982A (zh) 一种基于词的关联特征的中文分词方法
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN113705226B (zh) 医学文本实体标注方法和装置
CN103955450A (zh) 一种新词自动提取方法
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN105912522A (zh) 基于成分分析的英语语料自动提取方法和提取器
CN104598441B (zh) 一种计算机拆分汉语句子的方法
CN108268669A (zh) 一种基于多维词句特征和情感分析的关键新词发现方法
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN103336803B (zh) 一种嵌名春联的计算机生成方法
CN106126497A (zh) 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN101520775B (zh) 一种融入语义信息的中文句法分析与解码方法
CN106933799A (zh) 一种兴趣点poi名称的中文分词方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: WUHAN TRANSN INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: YULIANWANG (WUHAN) INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150805

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150805

Address after: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Wuhan Transn Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 6, layer 206, six

Applicant before: Language network (Wuhan) Information Technology Co., Ltd.

CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant