CN104572622A - 一种术语的筛选方法 - Google Patents

一种术语的筛选方法 Download PDF

Info

Publication number
CN104572622A
CN104572622A CN201510003087.2A CN201510003087A CN104572622A CN 104572622 A CN104572622 A CN 104572622A CN 201510003087 A CN201510003087 A CN 201510003087A CN 104572622 A CN104572622 A CN 104572622A
Authority
CN
China
Prior art keywords
terms
mirror
term
word
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510003087.2A
Other languages
English (en)
Other versions
CN104572622B (zh
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language network (Wuhan) Information Technology Co., Ltd.
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201510003087.2A priority Critical patent/CN104572622B/zh
Publication of CN104572622A publication Critical patent/CN104572622A/zh
Application granted granted Critical
Publication of CN104572622B publication Critical patent/CN104572622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种术语的筛选方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选;将经过多次筛选后,剩余的候选术语作为新的术语。本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多次筛选,减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。

Description

一种术语的筛选方法
技术领域
本发明属于数据挖掘技术领域,尤其是一种术语的筛选方法。
背景技术
领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定,领域术语提取效果比较差。
发明内容
本发明的目的之一是提供一种术语的筛选方法,以解决现有技术中对于领域术语提取效果比较差的问题。
在一些说明性实施例中,所述术语的筛选方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选;将经过多次筛选后,剩余的候选术语作为新的术语。
与现有技术相比,本发明的说明性实施例包括以下优点:
本发明通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选,确保得到的术语可靠性和准确性较高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
本发明中所采用的术语“语素”是指语言数据中的不可拆分的最小单位,对应为一个字或一个单词。
如图1所示,公开了一种术语的筛选方法,包括:
S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;
S12、对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选;
S13、将经过多次筛选后,剩余的候选术语作为新的术语。
本发明通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选,确保得到的术语可靠性和准确性较高。
以下对上述方法进行详细说明:
例如:原始语料“中华人民共和国”进行切分,首先以两个语素单位进行切分,可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语,再以三个语素单位进行切分,可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语,再以4个语素单位进行切分,可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语,再以5个语素单位进行切分,可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语,再以6个语素单位进行切分,可以获得“中华人民共和”、“华人民共和国”两个候选术语,以7个语素单位进行切分,即得到候选术语“中华人民共和国”。以上共获得21个候选术语。
以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例,原始语料可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切分单位,例如最大切分单位为10个语素。
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选的过程中,包括:
将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选术语滤除,并将剩余的候选术语作为一鉴术语。
具体包括:通过以每个候选术语在原始语料中进行扫描,统计出该候选术语的出现次数,即为该候选术语的词频。
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
将每个所述一鉴术语分割为任意长度的两部分,并计算出两部分的互信息的最小值,作为该一鉴候选术语的互信息;
将所述互信息低于第二阈值的一鉴术语滤除,并将剩余的一鉴术语作为二鉴术语。
例如:分析的候选术语C的长度为l个语素单位,以第k个语素位置,进行拆分,得到的前部为c1~ck,后部为ck+1~cl
按照如下公式进行互信息的计算:
MI = I ( c 1 c 2 . . . c l ) = min ( I ( ( c 1 c 2 . . . c k ) , ( c k + 1 c k + 2 . . . c l ) ) ) = min ( log 2 P ( c 1 c 2 . . . c l ) P ( c 1 c 2 . . . c k ) · P ( c k + 1 c k + 2 . . . c l ) )
其中,c1c2…cl分别对应为候选术语C中相应位置的语素,P(c1c2…cl)为该候选术语C在原始语料中的出现概率,P(c1c2…ck)为候选术语C的前部在原始语料中的出现概率,P(ck+1ck+2…cl)为候选术语C的后部在原始语料中的出现概率,该出现概率的获得方法与上述相同,在此不再赘述。
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
分析出每个所述二鉴术语的左右熵;其中,所述左右熵为每个所述二鉴术语的左熵和右熵中的最大值;
将所述左右熵低于第三阈值的二鉴术语滤除,并将剩余的二鉴术语作为三鉴术语。
具体包括:
按照如下公式进行计算:
LH ( C ) = - Σ ∀ l ∈ L P ( lC | C ) · log 2 P ( lC | C )
其中,LH(C)为候选术语C的左熵,L表示出现在候选术语C左侧的词汇集合,P(lC|C)为词汇l出现在候选术语C左侧的条件概率;
RH ( C ) = - Σ ∀ r ∈ R P ( Cr | C ) · log 2 P ( Cr | C )
其中,RH(C)为候选术语C的右熵,R表示出现在候选术语C右侧的词汇集合,P(Cr|C)为词汇r出现在候选术语C右侧的条件概率;
LRH=max(LH(C),RH(C))
其中,LRH为候选术语C的左右熵,通过对其左熵和右熵取较大值获得。
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
计算出每个所述三鉴术语所具有的每个语素均在历史语料库中独立成词的概率,根据术语的每个语素的所述独立成词概率计算出术语的独立词概率;
将术语的所述独立词概率低于第四阈值的三鉴术语滤除,并将剩余的三鉴术语作为四鉴术语。
具体包括:
按照如下公式进行计算出候选术语中的每个语素x独立成词的概率IPW(x):
IPW ( x ) = word ( x ) times ( x )
其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;
按照如下公式计算出候选术语C独立成词的概率IPW(C):
IPW(C)=IPW(c1c2…cl)=IPW(c1)·IPW(c2)·…·IPW(cl)
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
计算出每个所述四鉴术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的所述内部词概率,根据术语的每个语素的所述内部词概率计算得到术语的内部词概率;
将所述内部词概率低于第五阈值的四鉴术语滤除,并将剩余的四鉴术语作为五鉴术语。
具体包括:
对候选术语中的每个语素出现的位置进行分析,根据内部词概率表获得候选术语不同位置的语素的出现概率;其中内部词概率表的获取方法为,在已有的术语语料库中,计算其中每个语素x出现在术语的头、中、尾的概率,从而得到一个包含所有语素的内部词概率表。公式如下:
IPC ( x , 0 ) = times ( x * ) times ( x * ) + times ( * x * ) + times ( * x )
IPC ( x , 1 ) = times ( * x * ) times ( x * ) + times ( * c 1 * ) + times ( * x )
IPC ( x , 2 ) = times ( * x ) times ( x * ) + times ( * x * ) + times ( * x )
其中“*”表示和语素x组成术语的前后语素组合,times(X)表示术语X在术语语料库中的出现次数。IPC(x,pos)表示语素x出现在位置pos的概率。pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾。
对于待计算的l元字符串C=c1c2…cl,根据上述所得的内部词概率表,其内部词概率IPC的计算方法为:
IPC = IPC ( c 1 , 0 ) · IPC ( c l , 2 ) · 1 1 - 1 Σ i = 2 l - 1 IPC ( c i , 1 ) 3
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
计算出每个所述五鉴术语的领域概率;
将所述领域概率低于第六阈值的五鉴术语滤除,并将剩余的所述五鉴术语作为所述新术语。
具体为:对候选术语中的每个语素或语素组合在历史语料库中的出现概率进行分析,确定候选术语的领域概率
统计并计算出候选术语的每个语素或语素组合在历史语料库中的出现概率(F_ci);
再按照如下公式计算出候选术语的领域概率PC:
PC = Σ i = 1 l P ( F _ c i ) l
在一些说明性实施例中,所述抽取所述领域术语度高于阈值的候选术语作为新的领域术语的过程中,还包括:
将筛选出的新术语进行推送,进行人工确定。
以下对本发明的说明性实施例进行说明:
1、从以下几个方面对新语料集中的字符串进行过滤,获取候选术语集。
词频WT
对新语料集进行切分,获得新语料集中任意长度的的字符串。将所获取的任意长度的字符串作为字符串集1。统计字符串集1中每个字符串的词频,即统计字符串集1中的每个字符串在新语料集中的出现次数。
去除字符串集1中词频低于给定阈值的字符串,得到字符串集2。
2、互信息MI
互信息是信息论中的概念,用来度量信息中两个单元的关联程度,字符串的互信息越大表明该字符串的组成术语的可能性越大。
计算字符串集2中每个字符串的互信息,去除互信息小于给定阈值的字符串,得到字符串集3。
对于n元字符串即长度为n的字符串,其互信息的计算方法为——计算该n元字符串被任意分割成的两个子串的互信息,将其最小值作为该n元字符串的互信息。公式表达如下:
令:n元字符串C=c1c2…cn,其互信息计算公式如下:
MI ( C ) = I ( c 1 c 2 . . . c n ) = min ( I ( ( c 1 c 2 . . . c k ) , ( c k + 1 c k + 2 . . . c n ) ) ) = min ( log 2 P ( c 1 c 2 . . . c n ) P ( c 1 c 2 . . . c k ) · P ( c k + 1 c k + 2 . . . c n ) )
其中,k∈{1,2,…,n}。
3、左右熵LRH
在自然语言处理中,字符串的左右熵是一个重要的统计特征,体现了字符串的上下文活跃程度,术语抽取、新词检测等领域中有着非常广泛的应用。如果某个字符串具有较大的左右熵,说明其上下文搭配词汇丰富,使用上具有较大的灵活性和独立性,同时也表明该字符串是一种不稳定的构成,即该字符串为术语的概率较低。
计算字符串集3中每个字符串的左熵和右熵,对于每个字符串,将左熵和右熵中取值较大的一个作为其左右熵,去除字符串集3中左右熵大于给定阈值的字符串,得到字符串集4。
字符串左右熵计算公式如下:
LH ( C ) = - Σ ∀ l ∈ L P ( lC | C ) · log 2 P ( lC | C )
RH ( C ) = - Σ ∀ r ∈ R P ( Cr | C ) · log 2 P ( Cr | C )
LRH(C)=max(LH(C),RH(C))
其中,L表示出现在字符串C左侧的词汇集合;R表示出现在字符串C右侧的词汇的集合;P(lC|C)为字符l出现在字符串C左侧的条件概率;P(Cr|C)表示字符r出现在字符串C右侧的条件概率。
4、独立词概率IWP
对于字符串C而言,如果其独立词概率IPW(C)越大,表示C是术语的可能性就越小。
计算字符串集4中的每个字符串的独立词概率,去除其中独立词概率大于给定阈值的字符串,得到字符串集5。
独立词概率计算方法如下:
任给一个字符x,其在句子中的独立成词的可能性IPW(x)的计算方法为
IPW ( x ) = word ( x ) times ( x )
其中,word(x)表示字符x独立成词的次数,times(x)表示x在新语料集中出现的次数;
则候选术语C独立词概率的计算方法为:
IPW(C)=IPW(c1c2…cn)=IPW(c1)·IPW(c2)·…·IPW(cn)
5、内部词概率IPC
内部词概率代表一个字符在术语中出现在某位置的概率,IPC(x,pos)表示字符x出现在位置pos的概率。pos取值为C0,1,2D,0表示位置在词头、1表示位置在词中、2表示位置在词尾。内部词概率表达了一个字符串的头、中、尾三个位置的字符的符合度,其值越大,该字符串是术语的可能性越大。
计算字符串集5中每个字符串的内部词概率,去除其中内部词概率小于给定阈值的字符串,得到字符串集6。
计算方法为,在已有的术语语料库中,计算其中每个字符x出现在术语的头、中、尾的概率,从而得到一个包含所有字符的内部词概率表。计算公式如下:
IPC ( x , 0 ) = times ( x * ) times ( x * ) + times ( * x * ) + times ( * x )
IPC ( x , 1 ) = times ( * x * ) times ( x * ) + times ( * c 1 * ) + times ( * x )
IPC ( x , 2 ) = times ( * x ) times ( x * ) + times ( * x * ) + times ( * x )
其中“*”表示和字符x组成术语的前后字符串,times(X)表示术语X在术语语料库中的出现次数。
对于待计算的n元字符串C=c1c2…cn,根据上述所得的内部词概率表,其内部词概率的计算方法为:
6、领域概率PC
领域概率表明该字符串属于该领域术语的概率。
计算字符串集6中每个字符串的的领域概率,去除领域概率小于给定阈值的字符串,得到最终的候选术语集。
对于字符串集6中的每个字符串C,计算其每个字符在已有的术语语料库中的出现概率P(F_ci):
PC = Σ i = 1 n P ( F _ c i ) n
7、将得到的候选术语集进行人工判定,可以大为降低人工处理的工作量。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种术语的筛选方法,其特征在于,包括:
对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;
对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选;
将经过多次筛选后,剩余的候选术语作为新的术语。
2.根据权利要求1所述的筛选方法,其特征在于,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,包括:
将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选术语滤除,并将剩余的候选术语作为一鉴术语。
3.根据权利要求2所述的筛选方法,其特征在于,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
将每个所述一鉴术语分割为任意长度的两部分,并计算出两部分的互信息的最小值,作为该一鉴候选术语的互信息;
将所述互信息低于第二阈值的一鉴术语滤除,并将剩余的一鉴术语作为二鉴术语。
4.根据权利要求3所述的筛选方法,其特征在于,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
分析出每个所述二鉴术语的左右熵;其中,所述左右熵为每个所述二鉴术语的左熵和右熵中的较大值;
将所述左右熵低于第三阈值的二鉴术语滤除,并将剩余的二鉴术语作为三鉴术语。
5.根据权利要求4所述的筛选方法,其特征在于,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
计算出每个所述三鉴术语所具有的每个语素均在历史语料库中独立成词的概率,根据术语的每个语素的所述独立成词概率计算出术语的独立词概率;
将术语的所述独立词概率低于第四阈值的三鉴术语滤除,并将剩余的三鉴术语作为四鉴术语。
6.根据权利要求5所述的筛选方法,其特征在于,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
计算出每个所述四鉴术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的所述内部词概率,根据术语的每个语素的所述内部词概率计算得到术语的内部词概率;
将所述内部词概率低于第五阈值的四鉴术语滤除,并将剩余的四鉴术语作为五鉴术语。
7.根据权利要求6所述的筛选方法,其特征在于,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
计算出每个所述五鉴术语的领域概率;
将所述领域概率低于第六阈值的五鉴术语滤除,并将剩余的所述五鉴术语作为所述新术语。
CN201510003087.2A 2015-01-05 2015-01-05 一种术语的筛选方法 Active CN104572622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510003087.2A CN104572622B (zh) 2015-01-05 2015-01-05 一种术语的筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510003087.2A CN104572622B (zh) 2015-01-05 2015-01-05 一种术语的筛选方法

Publications (2)

Publication Number Publication Date
CN104572622A true CN104572622A (zh) 2015-04-29
CN104572622B CN104572622B (zh) 2018-01-02

Family

ID=53088726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510003087.2A Active CN104572622B (zh) 2015-01-05 2015-01-05 一种术语的筛选方法

Country Status (1)

Country Link
CN (1) CN104572622B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106649277A (zh) * 2016-12-29 2017-05-10 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108228556A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 关键短语提取方法及装置
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108804617A (zh) * 2018-05-30 2018-11-13 广州杰赛科技股份有限公司 领域术语抽取方法、装置、终端设备及存储介质
CN109002460A (zh) * 2018-06-01 2018-12-14 昆明理工大学 一种基于文本自身产生词库的分词方法及系统
CN109344402A (zh) * 2018-09-20 2019-02-15 中国科学技术信息研究所 一种新术语自动发现识别方法
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN110175331A (zh) * 2019-05-29 2019-08-27 三角兽(北京)科技有限公司 专业术语的识别方法、装置、电子设备及可读存储介质
CN110189830A (zh) * 2019-05-24 2019-08-30 杭州火树科技有限公司 基于机器学习的电子病历词库训练方法
WO2020038253A1 (zh) * 2018-08-20 2020-02-27 深圳追一科技有限公司 关键词的提取方法、系统和存储介质
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191587A1 (en) * 1999-04-23 2003-10-09 Massachusetts Institute Of Technology Method for identifying or characterizing properties of polymeric units
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191587A1 (en) * 1999-04-23 2003-10-09 Massachusetts Institute Of Technology Method for identifying or characterizing properties of polymeric units
CN101122919A (zh) * 2007-09-14 2008-02-13 中国科学院计算技术研究所 一种专业术语抽取方法和系统
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鞠菲: "专业领域未登录词识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106445921B (zh) * 2016-09-29 2019-05-07 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
CN108228556A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 关键短语提取方法及装置
CN106649277A (zh) * 2016-12-29 2017-05-10 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN106649277B (zh) * 2016-12-29 2020-07-03 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108363691B (zh) * 2018-02-09 2021-07-20 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108804617A (zh) * 2018-05-30 2018-11-13 广州杰赛科技股份有限公司 领域术语抽取方法、装置、终端设备及存储介质
CN108804617B (zh) * 2018-05-30 2021-08-10 广州杰赛科技股份有限公司 领域术语抽取方法、装置、终端设备及存储介质
CN109002460A (zh) * 2018-06-01 2018-12-14 昆明理工大学 一种基于文本自身产生词库的分词方法及系统
WO2020038253A1 (zh) * 2018-08-20 2020-02-27 深圳追一科技有限公司 关键词的提取方法、系统和存储介质
CN109344402A (zh) * 2018-09-20 2019-02-15 中国科学技术信息研究所 一种新术语自动发现识别方法
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN110189830A (zh) * 2019-05-24 2019-08-30 杭州火树科技有限公司 基于机器学习的电子病历词库训练方法
CN110189830B (zh) * 2019-05-24 2021-06-08 杭州火树科技有限公司 基于机器学习的电子病历词库训练方法
CN110175331A (zh) * 2019-05-29 2019-08-27 三角兽(北京)科技有限公司 专业术语的识别方法、装置、电子设备及可读存储介质
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法

Also Published As

Publication number Publication date
CN104572622B (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
CN104572622A (zh) 一种术语的筛选方法
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN103123618B (zh) 文本相似度获取方法和装置
CN107885737B (zh) 一种人机互动翻译方法及系统
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN104598530A (zh) 一种领域术语抽取的方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
CN108062305B (zh) 一种基于迭代的三步式无监督中文分词方法
Bansal et al. Towards deep semantic analysis of hashtags
CN103778243A (zh) 一种领域术语抽取方法
CN108845982A (zh) 一种基于词的关联特征的中文分词方法
CN104317965A (zh) 基于语料的情感词典构建方法
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN110134934A (zh) 文本情感分析方法和装置
CN103955450A (zh) 一种新词自动提取方法
CN107943786A (zh) 一种中文命名实体识别方法及系统
CN108268669A (zh) 一种基于多维词句特征和情感分析的关键新词发现方法
CN100424685C (zh) 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN101520775A (zh) 一种融入语义信息的中文句法分析方法
CN110287488A (zh) 一种基于大数据和中文特征的中文文本分词方法
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Rauscher et al. Exploring cities in crime: significant concordance and co-occurrence in quantitative literary analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: WUHAN TRANSN INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: YULIANWANG (WUHAN) INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150805

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150805

Address after: 430072, Optics Valley Software Park, East Lake Development Zone, Wuhan, south of Hubei, South Lake Road, Optics Valley Software Park, 2, six, 5, No. 205

Applicant after: Wuhan Transn Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 6, layer 206, six

Applicant before: Language network (Wuhan) Information Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430072, Optics Valley Software Park, East Lake Development Zone, Wuhan, south of Hubei, South Lake Road, Optics Valley Software Park, 2, six, 5, No. 205

Patentee before: Wuhan Transn Information Technology Co., Ltd.

CP03 Change of name, title or address