CN109344402A

CN109344402A - 一种新术语自动发现识别方法

Info

Publication number: CN109344402A
Application number: CN201811099604.0A
Authority: CN
Inventors: 刘伟; 吴雯娜; 王星; 雷晓
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-02-15
Anticipated expiration: 2038-09-20
Also published as: CN109344402B

Abstract

本发明公开了一种新术语自动发现识别方法，涉及数据库技术、自然语言处理和新术语自动识别技术领域。该方法首先从中文期刊论文文献的关键词获取候选新术语，然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选，最后，综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算，将综合指数符合学科阈值要求的确定为学科新术语。所以，采用本发明提供的方法，可以自动发现或识别出新术语，为知识组织工具能够及时融入新术语提供了条件。

Description

一种新术语自动发现识别方法

技术领域

本发明涉及数据库技术、自然语言处理和新术语自动识别技术领域，具体涉及一种新术语自动发现识别方法。

背景技术

术语是在专业领域中概念的语言指称，具有专业性、单义性和科学性等特点，限定学科领域下表示相同概念的术语之间相互为同义关系。比如“番茄”、“西红柿”、“狼桃”三个术语都是指我们日常吃的一种茄科番茄属草本植物。术语是构建专业词典、术语表、本体、叙词表、分类法等知识组织工具的最基本的素材。

新术语是那些在学科领域中已经出现但尚未收录到知识组织工具中的术语。中文新术语是包含有中文字符的新术语。

近年来，随着信息时代知识爆炸式的增长，各领域的新术语大量涌现，专业词典、术语表、本体、叙词表、分类法等知识组织工具必须与相应的学科领域的最新前沿保持同步，及时将新术语融入进来，否则就会使它们的服务质量受到影响甚至不可用。

但目前新术语的抽取主要依赖于专家的手工收集，各个专业领域中新术语大量涌现，使得手工更新的速度远远滞后于新术语的增长速度，因此需要自动的方法将新术语抽取进来，提高知识组织工具的更新效率，使之紧跟领域的发展。术语抽取方法在近年来受到越来越多的关注，但大部分方法是对成熟术语的抽取，缺少针对新术语抽取的方法，比如已有研究常使用的高频统计特征就无法用于新术语的抽取。

发明内容

本发明的目的在于提供一种新术语自动发现识别方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种新术语自动发现识别方法，包括如下步骤：

S1，从文献信息中获取其中的关键词信息和用于对关键词进行处理的相关信息；

S2，根据S1中得到的每一条关键词记录，对不规范的关键词进行清洗，得到候选新术语；

S3，对S2中得到的候选新术语进行词频统计；

S4，根据S3中得到的词频统计结果，将低频候选新术语从候选新术语表中删除；

S5，对候选新术语进行词频分析，得到候选新术语的综合指数；

S6，将S5中计算得到的综合指数与设定的阈值进行比较，符合条件的综合指数对应的候选新术语为新术语。

优选地，S1包括：中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。

优选地，S2包括：删除关键词中有乱码的记录，删除关键词首尾的空格和不可见字符，删除关键词中无汉字和英文的记录，将记录中的全角字符统一为半角，删除关键词中的无意义的标点符号。

优选地，S3包括步骤：生成候选新术语表；统计候选新术语总词频；统计候选新术语在各学科上的词频；统计候选新术语近十年的词频。

优选地，S4具体为，从术语总词频表中，将总词频低的候选新术语筛选出来，然后将这些低频候选新术语从候选新术语表中删除。

优选地，S5具体为，利用选新术语总词频、候选新术语在各学科上的词频分布、候选新术语历年词频变化趋势、以及候选新术语的影响因子指标，分别计算候选新术语的被关注指数、候选新术语在各学科上的分布指数和候选新术语近十年的发展指数，综合被关注指数、分布指数和发展指数，对候选新术语进行评估，计算候选新术语的综合指数。

优选地，S6具体为：设定实数阈值α，将综合指数大于α的候选新术语作为新术语，或，设定自然数阈值n，根据S5中计算得到的综合指数，按照从高到低的顺序对候选新术语进行排序，将排序中的前n个作为新术语。

本发明的有益效果是：本发明实施例提供的新术语自动发现识别方法，首先从中文期刊论文文献的关键词获取候选新术语，然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选，最后，综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算，将综合指数符合学科阈值要求的确定为学科新术语。所以，采用本发明提供的方法，可以自动发现或识别出新术语，为知识组织工具能够及时融入新术语提供了条件。

附图说明

图1是本发明提供的新术语识别方法流程示意图；

图2是文献关键词获取方法流程示意图；

图3是关键词清洗方法流程示意图；

图4是候选新术语词频统计方法流程示意图；

图5是候选新术语词频分析方法流程示意图；

图6是生成候选新术语表的方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本发明中，新术语发现或识别是指利用计算机手段自动发现那些学科领域中已出现但尚未被该领域知识组织系统收录的中文术语。

如图1所示，本发明实施例提供了一种新术语自动发现识别方法，包括如下步骤：

S3，对S2中得到的候选新术语进行词频统计；

其中，S1包括：中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。

具体的，本实施例中，中文期刊文献信息获取是从国家工程技术数字图书馆收录的18000多种中文期刊(http://www.istic.ac.cn/suoguan/QiKan.htm？lan＝chn) 中，获取以当前年的前一年为时间结束节点，近十年的中文期刊文献信息记录 (比如今年是2018年，近十年是指2008年-2017年)，形成中文期刊文献信息表，其中一条记录中关键词字段包含一个或多个关键词，学科分类字段包含一个或多个学科分类。

中文期刊文献信息清理是把中文期刊文献信息表中的字段只保留文献标题、关键词、学科分类、期刊名称、发表年份。

中文期刊影响因子补加是对每一条记录增加期刊影响因子字段，在影响因子字段中填写期刊名称字段中期刊的影响因子。其中，影响因子是从中国科学技术信息研究所最新发布的中国科技期刊引证报告(核心版) (http://www.istic.ac.cn/ScienceArticle/ tabid/702/ctl/ArticleShow/mid/2627/ArticleI D/661/Default.aspx)中获得。

关键词切分是把每条记录中关键词字段，如果有多个关键词，就切分为一个关键词一条记录，如下面的例子所示：

切分前：

切分后：

文献标题	关键词1	……
			文献标题	关键词2	……
文献标题	关键词3	……

学科分类切分是把每条记录中学科分类字段，如果有多个学科分类，就切分为一个学科分类一条记录，如下面的例子所示：

切分前：

切分后：

文献标题	关键词	学科分类1	……
				文献标题	关键词	学科分类2	……
文献标题	关键词	学科分类3	……

学科分类归齐是把学科分类字段中的学科分类按照中图分类法 (http:// www.clcindex.com/)的层级结构，向上统一成二级类目：对每一个记录中的学科分类，根据该学科分类的级别分三种情况处理：如果是二级类目，不做任何处理；如果是一级类目，删除该记录；如果是低于二级，比如三级类目或更低，根据中图分类的树结构，向上提升为二级类目，比如“TP31计算机软件”是四级类目，向上提升为二级类目“TP自动化技术、计算机技术”。

本发明的一个优选实施例中，S2包括：删除关键词中有乱码的记录，删除关键词首尾的空格和不可见字符，删除关键词中无汉字和英文的记录，将记录中的全角字符统一为半角，删除关键词中的无意义的标点符号。

其中，删除关键词中有乱码的记录，具体为，判断每条记录中的关键词字段是否存在乱码。在本发明中，乱码是指那些不属于汉字、英文字母、数字、标点符号的字符，比如和都属于乱码。如果存在，则删除这些乱码。

删除关键词中无汉字和英文的记录，具体为，如果一个记录的关键词字段既没有任何一个汉字，也没有任何一个英文字母，比如“123”既没有汉字，也没有英文字母，则删除该记录。

将记录中的全角字符统一为半角，具体为，判断一个记录中各个字段中的字符是否有全角字符，如果有全角字符，则转化成半角字符。比如“cat”是全角字符，转成半角字符“cat”。

删除记录中关键词中出现的无意义的标点符号，这些标点符号包括：

。

，

、

＇

：

；

？

‘’

“”

〝〞

﹪

ˇ

·

…

～

—

|

‖

@

﹏

﹟

﹩

*

﹡

﹦

～

()

〈〉

{}

『』

〖〗

﹛﹜

[]

《》

〔〕

【】

&

﹨

比如关键词“三网融合”，则删除无意义的标点符号(“”)后为三网融合，关键词互操作；，删除无特殊意义的标点符号(；)后为互操作。

本发明的一个实施例中，S3可以包括步骤：生成候选新术语表；统计候选新术语总词频；统计候选新术语在各学科上的词频；统计候选新术语近十年的词频。

其中，生成候选新术语表的方法是：对中文期刊文献信息表的关键词字段做无重复查询(SQL语句中Distinct操作)，把所有唯一不重复的关键词生成候选新术语表。如图6的示例。

统计候选新术语表中每个候选新术语的总词频，候选新术语总词频的计算方法为：查询中文期刊文献信息表，对所有记录在关键词字段上做聚集查询(SQL 语句中的Group by关键词)，统计每个候选新术语的总词频。生成术语总词频表，如下格式：

候选新术语

总词频

统计候选新术语在各学科上的词频，具体方法为，统计候选新术语表中每个候选新术语在中图分类中二级类目上的词频，候选新术语学科词频的计算方法为：查询中文期刊文献信息表，对所有记录在关键词字段和学科分类字段上做聚集查询(SQL语句中的Group by关键词，学科分类)，统计每个候选新术语在每个二级学科分类下词频。生成术语学科词频表，如下格式：

候选新术语

学科分类

学科词频

统计候选新术语表中每个候选新术语在近十年中每年的词频，候选新术语十年词频的计算方法为：查询中文期刊文献信息表，对所有记录在候选新术语字段和发表年份字段上做聚集查询(SQL语句中的Group by关键词，发表年份)，统计每个关键词在每年的词频。生成术语十年词频表，如下例所示：

本发明中，S4具体可以为，从术语总词频表中，将总词频低的候选新术语筛选出来，然后将这些低频候选新术语从候选新术语表中删除。

上述方法中，得到术语总词频表后，从术语总词频表中，将总词频低于5 的候选新术语筛选出来，然后将这些低频候选新术语从候选新术语表中删除。

本发明中，S5具体可以为，利用选新术语总词频、候选新术语在各学科上的词频分布、候选新术语历年词频变化趋势、以及候选新术语的影响因子指标，分别计算候选新术语的被关注指数、候选新术语在各学科上的分布指数和候选新术语近十年的发展指数，综合被关注指数、分布指数和发展指数，对候选新术语进行评估，计算候选新术语的综合指数。

其中，候选新术语的被关注指数s(t)等于新术语t的总词频。

候选新术语t在各学科上的分布指数d(t)，可按照如下公式进行计算：

其中，sub_i(t)是指第i个二级学科分类下候选新术语t的词频，是指新术语t在二级学科分类下的平均词频，设二级学科分类共有n个，每个候选新术语的二级学科分类下的词频已经在上述步骤中得到。

候选新术语t近十年(从去年开始往前的十年)的发展指数e(t)，可以按照如下公式进行计算：

其中，y_i(t)是指候选新术语t在第i年份的词频，cy是指当前的年份，每个候选新术语在近十年的词频已经在上述步骤中得到。

候选新术语t的综合指数NT(t)，可以按照如下公式进行计算：

NT(t)＝a×log₁₀s(t)+b×log₁₀d(t)+c×log₁₀e(t)

其中，a、b和c分别是权重系数，默认值是0.5、0.3和1，可以根据实际需要重新设置。

本发明实施例中，S6具体可以为：设定实数阈值α，将综合指数大于α的候选新术语作为新术语，或，设定自然数阈值n，根据S5中计算得到的综合指数，按照从高到低的顺序对候选新术语进行排序，将排序中的前n个作为新术语。

可见，本发明中，可以采用如下两种方式确定新术语：一种是，设定实数阈值α，将综合指数大于α的候选新术语作为新术语；另一种是，设定自然数阈值n，根据S5中计算得到的综合指数，按照从高到低的顺序对候选新术语进行排序，将排序中的前n个作为新术语。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明实施例提供的新术语自动发现识别方法，首先从中文期刊论文文献的关键词获取候选新术语，然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选，最后，综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算，将综合指数符合学科阈值要求的确定为学科新术语。所以，采用本发明提供的方法，可以自动发现或识别出新术语，为知识组织工具能够及时融入新术语提供了条件。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种新术语自动发现识别方法，其特征在于，包括如下步骤：

S3，对S2中得到的候选新术语进行词频统计；

2.根据权利要求1所述的新术语自动发现识别方法，其特征在于，S1包括：中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。

3.根据权利要求1所述的新术语自动发现识别方法，其特征在于，S2包括：删除关键词中有乱码的记录，删除关键词首尾的空格和不可见字符，删除关键词中无汉字和英文的记录，将记录中的全角字符统一为半角，删除关键词中的无意义的标点符号。

4.根据权利要求1所述的新术语自动发现识别方法，其特征在于，S3包括步骤：生成候选新术语表；统计候选新术语总词频；统计候选新术语在各学科上的词频；统计候选新术语近十年的词频。

5.根据权利要求4所述的新术语自动发现识别方法，其特征在于，S4具体为，从术语总词频表中，将总词频低的候选新术语筛选出来，然后将这些低频候选新术语从候选新术语表中删除。

6.根据权利要求5所述的新术语自动发现识别方法，其特征在于，S5具体为，利用选新术语总词频、候选新术语在各学科上的词频分布、候选新术语历年词频变化趋势、以及候选新术语的影响因子指标，分别计算候选新术语的被关注指数、候选新术语在各学科上的分布指数和候选新术语近十年的发展指数，综合被关注指数、分布指数和发展指数，对候选新术语进行评估，计算候选新术语的综合指数。

7.根据权利要求6所述的新术语自动发现识别方法，其特征在于，S6具体为：设定实数阈值α，将综合指数大于α的候选新术语作为新术语，或，设定自然数阈值n，根据S5中计算得到的综合指数，按照从高到低的顺序对候选新术语进行排序，将排序中的前n个作为新术语。