CN109033071B - 一种汉语专业术语的识别方法及装置 - Google Patents

一种汉语专业术语的识别方法及装置 Download PDF

Info

Publication number
CN109033071B
CN109033071B CN201810680531.8A CN201810680531A CN109033071B CN 109033071 B CN109033071 B CN 109033071B CN 201810680531 A CN201810680531 A CN 201810680531A CN 109033071 B CN109033071 B CN 109033071B
Authority
CN
China
Prior art keywords
initial
word
root
candidate term
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810680531.8A
Other languages
English (en)
Other versions
CN109033071A (zh
Inventor
王树明
赵建保
邱菊
胡艳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Beijing China Power Information Technology Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Beijing China Power Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810680531.8A priority Critical patent/CN109033071B/zh
Publication of CN109033071A publication Critical patent/CN109033071A/zh
Application granted granted Critical
Publication of CN109033071B publication Critical patent/CN109033071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种汉语专业术语的识别方法及装置,通过从获得的第一数量的分词词汇中筛选出第二数量的初始词根,再基于初始词根的位置,对每个初始词根进行近邻拼接组合,以生成第三数量的候选术语,之后计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;可见,将初始词根的位置属性结合到对每个初始词根进行的近邻拼接组合中,避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,进而提高了汉语专业术语的识别效率和识别准确率。

Description

一种汉语专业术语的识别方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体的说,是涉及一种汉语专业术语的识别方法及装置。
背景技术
汉语专业术语是指在特定领域,将一些特定事物或者特定概念的统一的业内称谓以汉语进行表示,可被收录于对应专业领域的专业词典中,用于专业文本的研究分析。
目前,专业文本中的汉语专业术语通常是依靠汉语分词进行识别,具体的识别过程为:对专业文本进行分词,获得一系列分词词汇,再从全部分词词汇中筛选出多个词根,并将词根进行两两组合,选择词频较高的组合词根作为候选术语,之后利用凝聚度指标对候选术语的稳定性进行评价,并将稳定性高的候选术语作为汉语专业术语;其中,词频是指出现频次。然而,不相邻词根之间进行组合所获得的组合词根往往不可能嵌套成为汉语专业术语,故现有识别方法中将词根进行两两组合,虽然能够全面遍历所有可能的组合词根,但增加了组合词根的杂质率,进而降低了汉语专业术语的识别效率和识别准确率。
发明内容
有鉴于此,本发明提供了一种汉语专业术语的识别方法及装置,提高了汉语专业术语的识别效率和识别准确率。
为实现上述目的,本发明提供如下技术方案:
一种汉语专业术语的识别方法,包括:
对专业文本进行分词处理,获得第一数量的分词词汇;
从所述第一数量的分词词汇中筛选出第二数量的初始词根,所述第一数量大于所述第二数量;
基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语;
计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语。
优选地,所述对专业文本进行分词处理,获得第一数量的分词词汇,包括:
对所述专业文本进行分词,获得第一数量的初始分词词汇;
确定每个所述初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为所述第一数量的分词词汇。
优选地,从所述第一数量的分词词汇中筛选出第二数量的初始词根,包括:
利用TF-IDF模型,计算每个所述分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
利用段落核心度模型和所述第一数量的分词词汇,计算所述专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落;
利用每个所述分词词汇的词性,从所述核心段落中筛选出预设实词,并将筛选出的所述预设实词作为第二初始词根;
将所述第一初始词根和所述第二初始词根作为所述第二数量的初始词根。
优选地,所述基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语,包括:
将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
将每个所述初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
判断每个所述初始候选术语是否满足预设条件,所述预设条件为所述初始候选术语的词频大于平均词频,且所述初始候选术语属于所述核心段落;
若所述初始候选术语满足所述预设条件,将满足所述预设条件的初始候选术语作为所述候选术语;
将满足所述预设条件的初始候选术语作为所述初始词根,并返回所述将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
若所述初始候选术语不满足所述预设条件,去除不满足所述预设条件的初始候选术语。
优选地,所述计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语,包括:
利用稳定性值计算公式,计算每个所述候选术语的稳定性值,所述稳定值计算公式为:
Figure BDA0001710223500000031
其中,TC(T)为候选术语的稳定性值,T=W1W2...Wn为候选术语,n为组成候选术语T的初始词根总个数,|T|=n为候选术语的长度,tf(T)为候选术语在专业文本中出现的频次,Wj为组成候选术语T中的第j个初始词根,1≤j≤|T|,tf(Wj)为词根Wj在专业文本中出现的频次,log(|T|*tf(T))为奖励因子;
将稳定性值超过所述第一预设阈值的候选术语作为所述汉语专业术语。
一种汉语专业术语的识别装置,包括:
分词处理模块,用于对专业文本进行分词处理,获得第一数量的分词词汇;
词根筛选模块,用于从所述第一数量的分词词汇中筛选出第二数量的初始词根,所述第一数量大于所述第二数量;
近邻拼接组合模块,用于基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语;
稳定性值计算模块,用于计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语。
优选地,所述分词处理模块包括:
分词单元,用于对所述专业文本进行分词,获得第一数量的初始分词词汇;
词性确定单元,用于确定每个所述初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为所述第一数量的分词词汇。
优选地,所述词根筛选模块包括:
集中度值计算单元,用于利用TF-IDF模型,计算每个所述分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
核心度值计算单元,用于利用段落核心度模型和所述第一数量的分词词汇,计算所述专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落;
实词筛选单元,用于利用每个所述分词词汇的词性,从所述核心段落中筛选出预设实词,并将筛选出的所述预设实词作为第二初始词根;
初始词根选择单元,用于将所述第一初始词根和所述第二初始词根作为所述第二数量的初始词根。
优选地,所述近邻拼接组合模块包括:
近邻词根确定单元,用于将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
词根拼接组合单元,用于将每个所述初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
判断单元,用于判断每个所述初始候选术语是否满足预设条件,所述预设条件为所述初始候选术语的词频大于平均词频,且所述初始候选术语属于所述核心段落;
候选术语确定单元,用于若所述初始候选术语满足所述预设条件,将满足所述预设条件的初始候选术语作为所述候选术语;
初始词根更新单元,用于在所述候选术语确定单元将满足所述预设条件的初始候选术语作为所述候选术语之后,将满足所述预设条件的初始候选术语作为所述初始词根;
所述近邻词根确定单元,还用于在所述初始词根更新单元将满足所述预设条件的初始候选术语作为所述初始词根之后,将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
删除单元,用于若所述初始候选术语不满足所述预设条件,去除不满足所述预设条件的初始候选术语。
优选地,所述稳定性值计算模块包括:
稳定性值计算单元,用于利用稳定性值计算公式,计算每个所述候选术语的稳定性值,所述稳定值计算公式为:
Figure BDA0001710223500000051
其中,TC(T)为候选术语的稳定性值,T=W1W2...Wn为候选术语,n为组成候选术语T的初始词根总个数,|T|=n为候选术语的长度,tf(T)为候选术语在专业文本中出现的频次,Wj为组成候选术语T中的第j个初始词根,1≤j≤|T|,tf(Wj)为词根Wj在专业文本中出现的频次,log(|T|*tf(T))为奖励因子;
汉语专业术语确定单元,用于将稳定性值超过所述第一预设阈值的候选术语作为所述汉语专业术语。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种汉语专业术语的识别方法及装置,通过从获得的第一数量的分词词汇中筛选出第二数量的初始词根,再基于初始词根的位置,对每个初始词根进行近邻拼接组合,以生成第三数量的候选术语,之后计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;可见,将初始词根的位置属性结合到对每个初始词根进行的近邻拼接组合中,避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,进而提高了汉语专业术语的识别效率和识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种汉语专业术语的识别方法的方法流程图;
图2为本发明实施例提供的另一种汉语专业术语的识别方法的方法流程图;
图3为本发明实施例提供的一种候选术语的生成方法的方法流程图;
图4为本发明实施例提供的一种候选术语的稳定性值的计算方法的方法流程图;
图5为本发明实施例提供的一种汉语专业术语的识别装置的结构示意图;
图6为本发明实施例提供的另一种汉语专业术语的识别装置的结构示意图;
图7为本发明实施例提供的一种候选术语的生成装置的结构示意图;
图8为本发明实施例提供的一种候选术语的稳定性值的计算装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种汉语专业术语的识别方法,请参见附图1,所述方法具体包括以下步骤:
S101:对专业文本进行分词处理,获得第一数量的分词词汇;
具体的,专业文本可以是由专业领域的一个文本所组成,也可以是由属于同一专业领域的多个文本所组成。
S102:从第一数量的分词词汇中筛选出第二数量的初始词根,第一数量大于第二数量;
具体的,初始词根是指经过组合操作后所获得的词汇可能成为候选术语的分词词汇,故筛选出的初始词根的数量要小于分词词汇的数量,即第二数量小于第一数量。其中,候选术语是指可能成为汉语专业术语的词汇。
S103:基于每个初始词根的位置,对每个初始词根进行近邻拼接组合,生成第三数量的候选术语;
具体的,近邻拼接组合是基于初始词根在专业文本中的位置,将该初始词根与其邻近的其他初始词根进行拼接组合,从而组合生成一个新的词汇,即候选术语,完全避免了将相距位置较远,即不相邻的初始词根进行组合尝试,从而增加候选术语的杂质率的问题。
S104:计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;
具体的,候选术语是由多个初始词根拼接组合而成的,故候选术语的稳定性值主要用于评估候选术语的拼接稳定性高低,即候选术语的词汇凝聚度高低。
第一预设阈值可以是预先设定的用于判断候选术语的拼接稳定性高低的数值。当候选术语的稳定性值超过第一预设阈值时,则该候选术语的拼接稳定性较高,即词汇凝聚度较高,可将该候选术语作为汉语专业术语;相反,当候选术语的稳定性值未超过第一预设阈值时,则该候选术语的拼接稳定性较低,即词汇凝聚度较低,淘汰该候选术语。
需要说明的是,在将候选术语作为汉语专业术语后,可以将作为汉语专业术语的一个或多个候选术语收录到对应专业领域的专业词典中,以便用于对专业文本的研究分析。
本发明公开了一种汉语专业术语的识别方法,通过从获得的第一数量的分词词汇中筛选出第二数量的初始词根,再基于初始词根的位置,对每个初始词根进行近邻拼接组合,以生成第三数量的候选术语,之后计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;可见,将初始词根的位置属性结合到对每个初始词根进行的近邻拼接组合中,避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,进而提高了汉语专业术语的识别效率和识别准确率。
在上述附图1所对应实施例的基础上,本发明实施例公开了另一种汉语专业术语的识别方法,请参见附图2,所述方法具体包括以下步骤:
S201:对专业文本进行分词,获得第一数量的初始分词词汇;
S202:确定每个初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为第一数量的分词词汇;
具体的,分词词汇是指携带有对应词性的初始分词词汇。而分词词汇的词性主要包括名词、时间词、处所词、方位词、动词、形容词、区别词、状态词、代词、数词、量词、副词、介词、连词、助词、叹词、语气词、拟声词、前缀、后缀、字符串以及标点符号。
S203:利用TF-IDF模型,计算每个分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
具体的,TF-IDF(词频--反转文件频率,term frequency–inverse documentfrequency)模型主要用于评估分词词汇对于专业文本的重要程度,即分词词汇在专业文本中集中出现的频次,并通过集中度值进行体现。
利用TF-IDF模型计算每个分词词汇的集中度值的具体过程包括:
将分词词汇作为输入变量,输入到TF-IDF模型,之后TF-IDF模型利用集中度值计算公式:
TF-IDFi,j=TFi,j×IDFi,j
计算出每个分词词汇的集中度值TF-IDFi,j;其中,
Figure BDA0001710223500000081
为分词词汇Wi在文本Dj中的分布频次,
Figure BDA0001710223500000082
为分词词汇Wi的逆向文本频次,ni,j为分词词汇Wi在文本Dj中的出现频次,∑knk,j为分词词汇Wi在文本Dj中的词密度,即分词词汇Wi在文本Dj中出现的总次数除以文本Dj包含的总词数的商值,Dj为组成专业文本的第j个文本,|D|为组成专业文本的文本个数,|{j:Wi∈Dj}|为专业文本中包含分词词汇Wi的段落数。
第二预设阈值可以是根据专业文本内词汇的数量所预先设定的数值,主要作为筛选第一初始词根的标准,一旦分词词汇的集中度值达到第二预设阈值,则该分词词汇作为第一初始词根。相反,当分词词汇的集中度值未达到第二预设阈值,则淘汰该分词词汇。
需要说明的是,通过第二预设阈值,可以令筛选出的第一初始词根的数量适中,进而既避免了因第一初始词根的数量过少而导致漏掉候选术语的问题,又能避免因第一初始词根的数量过多而导致候选术语的数量过多,增加其杂质率的问题。
S204:利用段落核心度模型和第一数量的分词词汇,计算专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落;
具体的,段落核心度模型主要用于计算专业文本中每个段落的核心度值,具体的计算过程包括:
将分词词汇作为输入变量,输入到段落核心度模型,之后段落核心度模型利用核心度值计算公式:
Figure BDA0001710223500000091
计算出每个段落的核心度值KD(P);其中,TFi为分词词汇Wi在段落P中的词频,IDFi为分词词汇Wi的逆向段落频次,Den(T)为T在段落P中的词密度,T为分词词汇集合,即第一数量的分词词汇,n为分词词汇的总个数,即第一数量。
需要说明的是,汉语专业术语往往集中分布在专业文本中较为核心、关键的位置上,故计算每个段落的核心度值,并将最大核心度值所对应的段落作为核心段落,可以将分词词汇的词频与位置属性相结合,提高了生成的候选术语的质量,进而有助于提高汉语专业术语的识别准确率。
S205:利用每个分词词汇的词性,从核心段落中筛选出预设实词,并将筛选出的预设实词作为第二初始词根;
具体的,预设实词主要包括词性为名词、动词、形容词、数词、量词以及代词的分词词汇。
S206:将第一初始词根和第二初始词根作为第二数量的初始词根。
S207:基于每个初始词根的位置,对每个初始词根进行近邻拼接组合,生成第三数量的候选术语。
S208:计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语。
以上步骤S203~步骤S206仅仅是本发明实施例公开的“从第一数量的分词词汇中筛选出第二数量的初始词根”过程的一种优选的实现方式,有关此过程的具体实现方式可根据实际需求任意设置,在此不做限定。
本发明公开了一种汉语专业术语的识别方法,通过利用TF-IDF模型,计算每个分词词汇的集中度值,进而将集中度值达到第二预设阈值的分词词汇作为第一初始词根,同时,利用段落核心度模型和第一数量的分词词汇,计算专业文本中每个段落的核心度值,进而确定出核心段落,并从核心段落中筛选出预设实词,作为第二初始词根,以便对由第一初始词根和第二初始词根组合成的初始词根进行近邻拼接组合,以生成第三数量的候选术语;可见,将基于TF-IDF模型筛选出的第一初始词根和基于段落核心度模型筛选出的第二初始词根共同作为初始词根,既避免了在初始词根筛选时仅考虑分词词汇的词频的问题,又确保了候选术语的查全率,进而提高了汉语专业术语的识别效率和识别准确率。
针对上述附图2所对应实施例中S207:基于每个初始词根的位置,对每个初始词根进行近邻拼接组合,生成第三数量的候选术语,本发明实施例公开了一种候选术语的生成方法,请参见附图3,所述方法具体包括以下步骤:
S301:将位于每个初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个初始词根的左近邻词根和右近邻词根;
具体的,针对每个初始词根,均具有一个左近邻词根和一个右近邻词根。
S302:将每个初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
举例说明,从第二数量的初始词根中选择初始词根“语言”进行具体阐述,初始词根“语言”的左近邻词根为“自然”,右近邻词根为“处理”,则对初始词根“语言”进行词根拼接组合,生成2个初始候选术语,即“自然语言”和“语言处理”。
需要说明的是,针对每个初始词根,在对其进行词根拼接组合时,左近邻词根与初始词根的拼接组合顺序,以及右近邻词根与初始词根的拼接组合顺序是固定的。换句话说,将左近邻词根拼接组合到初始词根的左边,将右近邻词根拼接组合到初始词根的右边。
S303:判断每个初始候选术语是否满足预设条件,预设条件为初始候选术语的词频大于平均词频,且初始候选术语属于核心段落,若是,则执行S304,若否,则执行S305;
具体的,初始候选术语的词频是指初始候选术语在专业文本中出现的频次。平均词频可以是将全部初始候选术语的词频相加,再除以初始候选术语的总个数,即第四数量后所获得的结果数值。
S304:将满足预设条件的初始候选术语作为候选术语,并执行S306。
S305:去除不满足预设条件的初始候选术语。
S306:将满足预设条件的初始候选术语作为初始词根,并返回执行S301;
具体的,若初始候选术语满足预设条件,则将该初始候选术语作为初始词根,并再次确定该初始词根的左近邻词根和右近邻词根,以便对满足预设条件的初始候选术语进行词根拼接组合。
下面仍以初始候选术语为“自然语言”进行举例说明,初始候选术语“自然语言”作为初始词根后,其左近邻词根为“运用”,右近邻词根为“处理”,则对当前的初始词根“自然语言”进行词根拼接组合,生成2个初始候选术语,即“运用自然语言”和“自然语言处理”。
本发明实施例中,通过将位于每个初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为其左近邻词根和右近邻词根,进而将初始词根与其左近邻词根和右近邻词根分别进行词根拼接组合,生成多个初始候选术语,并判断每个初始候选术语是否满足预设条件,若满足,则将满足预设条件的初始候选术语作为候选术语,之后再将满足预设条件的初始候选术语作为初始词根,返回执行将位于初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为其左近邻词根和右近邻词根,直到当前生成的初始候选术语不满足预设条件为止;可见,将初始词根与其左近邻词根和右近邻词根分别进行词根拼接组合,完全避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,同时,将不满足预设条件作为停止进行词根拼接组合的判定条件,可以避免候选术语数量不断增加的问题。
针对上述附图1所对应实施例中S104:计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语,本发明实施例公开了一种候选术语的稳定性值的计算方法,请参见附图4,所述方法具体包括以下步骤:
S401:利用稳定性值计算公式,计算每个候选术语的稳定性值,稳定值计算公式为:
Figure BDA0001710223500000111
其中,TC(T)为候选术语的稳定性值,T=W1W2...Wn为候选术语,n为组成候选术语T的初始词根总个数,|T|=n为候选术语的长度,tf(T)为候选术语在专业文本中出现的频次,Wj为组成候选术语T中的第j个初始词根,1≤j≤|T|,tf(Wj)为词根Wj在专业文本中出现的频次,log(|T|*tf(T))为奖励因子;
具体的,奖励因子log(|T|*tf(T))是将候选术语的词频和候选术语的长度进行了结合,从而更符合汉语专业术语的特性,有助于提高稳定性值评估候选术语的拼接稳定性高低的准确度,进而提高了汉语专业术语的识别准确率。
S402:将稳定性值超过第一预设阈值的候选术语作为汉语专业术语。
本发明实施例中,通过利用结合了候选术语的词频和长度所制定的稳定性值计算公式,计算每个候选术语的稳定性值,可以避免在计算候选术语稳定性值时,过于看重候选术语的词频的重要性,进而提高了候选术语的稳定性值的准确性,进一步提高了汉语专业术语的识别准确率。
本发明实施例公开了一种汉语专业术语的识别装置,请参见附图5,包括:
分词处理模块501,用于对专业文本进行分词处理,获得第一数量的分词词汇;
词根筛选模块502,用于从所述第一数量的分词词汇中筛选出第二数量的初始词根,所述第一数量大于所述第二数量;
近邻拼接组合模块503,用于基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语;
稳定性值计算模块504,用于计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语。
本发明公开了一种汉语专业术语的识别装置,通过词根筛选模块502从分词处理模块501获得的第一数量的分词词汇中筛选出第二数量的初始词根,再由近邻拼接组合模块503基于初始词根的位置,对每个初始词根进行近邻拼接组合,以生成第三数量的候选术语,之后稳定性值计算模块504计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;可见,将初始词根的位置属性结合到对每个初始词根进行的近邻拼接组合中,避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,进而提高了汉语专业术语的识别效率和识别准确率。
本发明实施例提供的各个模块的工作过程,请参照附图1所对应的方法流程图,具体工作过程不再赘述。
在上述附图5所对应实施例的基础上,本发明实施例公开了另一种汉语专业术语的识别装置,请参见附图6,包括:
分词处理模块501,词根筛选模块502,近邻拼接组合模块503,稳定性值计算模块504;
其中,分词处理模块501具体包括:
分词单元5011,用于对专业文本进行分词,获得第一数量的初始分词词汇;
词性确定单元5012,用于确定每个初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为第一数量的分词词汇。
词根筛选模块502具体包括:
集中度值计算单元5021,用于利用TF-IDF模型,计算每个分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
核心度值计算单元5022,用于利用段落核心度模型和第一数量的分词词汇,计算专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落;
实词筛选单元5023,用于利用每个分词词汇的词性,从核心段落中筛选出预设实词,并将筛选出的预设实词作为第二初始词根;
初始词根选择单元5024,用于将第一初始词根和第二初始词根作为第二数量的初始词根。
本发明公开了一种汉语专业术语的识别装置,通过集中度值计算单元5021利用TF-IDF模型,计算每个分词词汇的集中度值,进而将集中度值达到第二预设阈值的分词词汇作为第一初始词根,同时,核心度值计算单元5022利用段落核心度模型和第一数量的分词词汇,计算专业文本中每个段落的核心度值,进而确定出核心段落,再由实词筛选单元5023从核心段落中筛选出预设实词,作为第二初始词根,以便近邻拼接组合模块503对初始词根选择单元5024选择的由第一初始词根和第二初始词根组合成的初始词根进行近邻拼接组合,以生成第三数量的候选术语;可见,将基于TF-IDF模型筛选出的第一初始词根和基于段落核心度模型筛选出的第二初始词根共同作为初始词根,既避免了在初始词根筛选时仅考虑分词词汇的词频的问题,又确保了候选术语的查全率,进而提高了汉语专业术语的识别效率和识别准确率。
本发明实施例提供的各个模块的工作过程,请参照附图2所对应的方法流程图,具体工作过程不再赘述。
请参见附图7,上述附图6中的近邻拼接组合模块503具体包括:
近邻词根确定单元5031,用于将位于每个初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个初始词根的左近邻词根和右近邻词根;
词根拼接组合单元5032,用于将每个初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
判断单元5033,用于判断每个初始候选术语是否满足预设条件,预设条件为初始候选术语的词频大于平均词频,且初始候选术语属于核心段落;
候选术语确定单元5034,用于若初始候选术语满足预设条件,将满足预设条件的初始候选术语作为候选术语;
初始词根更新单元5035,用于在候选术语确定单元5034将满足预设条件的初始候选术语作为候选术语之后,将满足预设条件的初始候选术语作为初始词根;
近邻词根确定单元5031,还用于在初始词根更新单元5035将满足预设条件的初始候选术语作为初始词根之后,将位于每个初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个初始词根的左近邻词根和右近邻词根;
删除单元5036,用于若初始候选术语不满足预设条件,去除不满足预设条件的初始候选术语。
本发明实施例中,通过近邻词根确定单元5031将位于每个初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为其左近邻词根和右近邻词根,进而由词根拼接组合单元5032将初始词根与其左近邻词根和右近邻词根分别进行词根拼接组合,生成多个初始候选术语,并由判断单元5033判断每个初始候选术语是否满足预设条件,若满足,则候选术语确定单元5034将满足预设条件的初始候选术语作为候选术语,之后初始词根更新单元5035再将满足预设条件的初始候选术语作为初始词根,由近邻词根确定单元5031确定当前的初始词根的左近邻词根和右近邻词根,直到当前生成的初始候选术语不满足预设条件为止;可见,将初始词根与其左近邻词根和右近邻词根分别进行词根拼接组合,完全避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,同时,将不满足预设条件作为停止进行词根拼接组合的判定条件,可以避免候选术语数量不断增加的问题。
本发明实施例提供的各个模块的工作过程,请参照附图3所对应的方法流程图,具体工作过程不再赘述。
请参见附图8,上述附图5中的稳定性值计算模块504具体包括:
稳定性值计算单元5041,用于利用稳定性值计算公式,计算每个候选术语的稳定性值,稳定值计算公式为:
Figure BDA0001710223500000151
其中,TC(T)为候选术语的稳定性值,T=W1W2...Wn为候选术语,n为组成候选术语T的初始词根总个数,|T|=n为候选术语的长度,tf(T)为候选术语在专业文本中出现的频次,Wj为组成候选术语T中的第j个初始词根,1≤j≤|T|,tf(Wj)为词根Wj在专业文本中出现的频次,log(|T|*tf(T))为奖励因子;
汉语专业术语确定单元5042,用于将稳定性值超过所述第一预设阈值的候选术语作为汉语专业术语。
本发明实施例中,通过稳定性值计算单元5041利用结合了候选术语的词频和长度所制定的稳定性值计算公式,计算每个候选术语的稳定性值,可以避免在计算候选术语稳定性值时,过于看重候选术语的词频的重要性,进而提高了候选术语的稳定性值的准确性,进一步提高了汉语专业术语的识别准确率。
本发明实施例提供的各个模块的工作过程,请参照附图4所对应的方法流程图,具体工作过程不再赘述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种汉语专业术语的识别方法,其特征在于,包括:
对专业文本进行分词处理,获得第一数量的分词词汇;
从所述第一数量的分词词汇中筛选出第二数量的初始词根,所述第一数量大于所述第二数量;
基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语;
计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;
从所述第一数量的分词词汇中筛选出第二数量的初始词根,包括:
利用TF-IDF模型,计算每个所述分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
利用段落核心度模型和所述第一数量的分词词汇,计算所述专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落,所述段落核心度模型用于利用核心度值计算公式计算专业文本中每个段落的核心度值;
利用每个所述分词词汇的词性,从所述核心段落中筛选出预设实词,并将筛选出的所述预设实词作为第二初始词根;
将所述第一初始词根和所述第二初始词根作为所述第二数量的初始词根;
其中,所述核心度值计算公式为:
Figure FDA0003782197200000011
其中,KD(P)为每个段落的核心度值;TFi为分词词汇在段落P中的词频,IDFi为分词词汇的逆向段落频次,Den(T)为T在段落P中的词密度,T为第一数量的分词词汇,n为第一数量。
2.根据权利要求1所述的识别方法,其特征在于,所述对专业文本进行分词处理,获得第一数量的分词词汇,包括:
对所述专业文本进行分词,获得第一数量的初始分词词汇;
确定每个所述初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为所述第一数量的分词词汇。
3.根据权利要求1所述的识别方法,其特征在于,所述基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语,包括:
将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
将每个所述初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
判断每个所述初始候选术语是否满足预设条件,所述预设条件为所述初始候选术语的词频大于平均词频,且所述初始候选术语属于所述核心段落,所述平均词频为将全部初始候选术语的词频相加,再除以初始候选术语的总个数后所获得的结果数值;
若所述初始候选术语满足所述预设条件,将满足所述预设条件的初始候选术语作为所述候选术语;
将满足所述预设条件的初始候选术语作为所述初始词根,并返回所述将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
若所述初始候选术语不满足所述预设条件,去除不满足所述预设条件的初始候选术语。
4.根据权利要求1所述的识别方法,其特征在于,所述计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语,包括:
利用稳定性值计算公式,计算每个所述候选术语的稳定性值,所述稳定性值计算公式为:
Figure FDA0003782197200000021
其中,TC(T)为候选术语的稳定性值,T=W1W2...Wn为候选术语,n为组成候选术语T的初始词根总个数,|T|=n为候选术语的长度,tf(T)为候选术语在专业文本中出现的频次,Wj为组成候选术语T中的第j个初始词根,1≤j≤|T|,tf(Wj)为词根Wj在专业文本中出现的频次,log(|T|*tf(T))为奖励因子;
将稳定性值超过所述第一预设阈值的候选术语作为所述汉语专业术语。
5.一种汉语专业术语的识别装置,其特征在于,包括:
分词处理模块,用于对专业文本进行分词处理,获得第一数量的分词词汇;
词根筛选模块,用于从所述第一数量的分词词汇中筛选出第二数量的初始词根,所述第一数量大于所述第二数量;
近邻拼接组合模块,用于基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语;
稳定性值计算模块,用于计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;
所述词根筛选模块包括:
集中度值计算单元,用于利用TF-IDF模型,计算每个所述分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
核心度值计算单元,用于利用段落核心度模型和所述第一数量的分词词汇,计算所述专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落,所述段落核心度模型用于利用核心度值计算公式计算专业文本中每个段落的核心度值;
实词筛选单元,用于利用每个所述分词词汇的词性,从所述核心段落中筛选出预设实词,并将筛选出的所述预设实词作为第二初始词根;
初始词根选择单元,用于将所述第一初始词根和所述第二初始词根作为所述第二数量的初始词根;
其中,所述核心度值计算公式为:
Figure FDA0003782197200000031
其中,KD(P)为每个段落的核心度值;TFi为分词词汇在段落P中的词频,IDFi为分词词汇的逆向段落频次,Den(T)为T在段落P中的词密度,T为第一数量的分词词汇,n为第一数量。
6.根据权利要求5所述的识别装置,其特征在于,所述分词处理模块包括:
分词单元,用于对所述专业文本进行分词,获得第一数量的初始分词词汇;
词性确定单元,用于确定每个所述初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为所述第一数量的分词词汇。
7.根据权利要求5所述的识别装置,其特征在于,所述近邻拼接组合模块包括:
近邻词根确定单元,用于将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
词根拼接组合单元,用于将每个所述初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
判断单元,用于判断每个所述初始候选术语是否满足预设条件,所述预设条件为所述初始候选术语的词频大于平均词频,且所述初始候选术语属于所述核心段落,所述平均词频为将全部初始候选术语的词频相加,再除以初始候选术语的总个数后所获得的结果数值;
候选术语确定单元,用于若所述初始候选术语满足所述预设条件,将满足所述预设条件的初始候选术语作为所述候选术语;
初始词根更新单元,用于在所述候选术语确定单元将满足所述预设条件的初始候选术语作为所述候选术语之后,将满足所述预设条件的初始候选术语作为所述初始词根;
所述近邻词根确定单元,还用于在所述初始词根更新单元将满足所述预设条件的初始候选术语作为所述初始词根之后,将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
删除单元,用于若所述初始候选术语不满足所述预设条件,去除不满足所述预设条件的初始候选术语。
8.根据权利要求5所述的识别装置,其特征在于,所述稳定性值计算模块包括:
稳定性值计算单元,用于利用稳定性值计算公式,计算每个所述候选术语的稳定性值,所述稳定性值计算公式为:
Figure FDA0003782197200000041
其中,TC(T)为候选术语的稳定性值,T=W1W2...Wn为候选术语,n为组成候选术语T的初始词根总个数,|T|=n为候选术语的长度,tf(T)为候选术语在专业文本中出现的频次,Wj为组成候选术语T中的第j个初始词根,1≤j≤|T|,tf(Wj)为词根Wj在专业文本中出现的频次,log(|T|*tf(T))为奖励因子;
汉语专业术语确定单元,用于将稳定性值超过所述第一预设阈值的候选术语作为所述汉语专业术语。
CN201810680531.8A 2018-06-27 2018-06-27 一种汉语专业术语的识别方法及装置 Active CN109033071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810680531.8A CN109033071B (zh) 2018-06-27 2018-06-27 一种汉语专业术语的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810680531.8A CN109033071B (zh) 2018-06-27 2018-06-27 一种汉语专业术语的识别方法及装置

Publications (2)

Publication Number Publication Date
CN109033071A CN109033071A (zh) 2018-12-18
CN109033071B true CN109033071B (zh) 2022-11-25

Family

ID=65520514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810680531.8A Active CN109033071B (zh) 2018-06-27 2018-06-27 一种汉语专业术语的识别方法及装置

Country Status (1)

Country Link
CN (1) CN109033071B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046660B (zh) * 2019-11-21 2023-05-09 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN113569016B (zh) * 2021-09-27 2022-01-25 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246045A1 (en) * 2012-03-14 2013-09-19 Hewlett-Packard Development Company, L.P. Identification and Extraction of New Terms in Documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Recognition of irrelevant phrases in automatically extracted lists of domain terms;Agnieszka Mykowiecka et al.;《John Benjamins Publishing Company》;20180531;第66-90页 *
统计与规则相融合的领域术语抽取算法;樊梦佳 等;《计算机应用研究》;20160831;第33卷(第8期);第2282-2285、2306页 *

Also Published As

Publication number Publication date
CN109033071A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN105183923B (zh) 新词发现方法及装置
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
CN104462378B (zh) 用于文本识别的数据处理方法及装置
CN108845982B (zh) 一种基于词的关联特征的中文分词方法
CN107463548B (zh) 短语挖掘方法及装置
EP2657852A1 (en) Method and device for filtering harmful information
CN106708799B (zh) 一种文本纠错方法、装置及终端
CN106776566B (zh) 情感词汇的识别方法及装置
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN109033071B (zh) 一种汉语专业术语的识别方法及装置
CN108776709A (zh) 计算机可读存储介质及词典更新方法
CN112989235B (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN108959259B (zh) 新词发现方法及系统
CN114266256A (zh) 一种领域新词的提取方法及系统
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN111429184A (zh) 一种基于文本信息的用户画像抽取方法
CN109299463B (zh) 一种情感得分的计算方法以及相关设备
CN108846033A (zh) 特定领域词汇的发现及分类器训练方法和装置
CN111339753A (zh) 一种自适应中文新词识别方法与系统
CN111046177A (zh) 一种仲裁案件自动预判方法及装置
CN107391504B (zh) 新词识别方法与装置
CN111858900B (zh) 问句语义解析规则模板的生成方法、装置、设备及存储介质
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN110489759B (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
WO2023016267A1 (zh) 垃圾评论的识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant