CN102708147A - 一种科技术语的新词识别方法 - Google Patents

一种科技术语的新词识别方法 Download PDF

Info

Publication number
CN102708147A
CN102708147A CN2012100825363A CN201210082536A CN102708147A CN 102708147 A CN102708147 A CN 102708147A CN 2012100825363 A CN2012100825363 A CN 2012100825363A CN 201210082536 A CN201210082536 A CN 201210082536A CN 102708147 A CN102708147 A CN 102708147A
Authority
CN
China
Prior art keywords
words
evaluation method
vocabulary
word
neologisms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100825363A
Other languages
English (en)
Other versions
CN102708147B (zh
Inventor
曲晓光
雷静
丰瑾
侯晓艳
徐锡涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING XINFA PATENT INFORMATION CO LTD
Original Assignee
BEIJING XINFA PATENT INFORMATION CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING XINFA PATENT INFORMATION CO LTD filed Critical BEIJING XINFA PATENT INFORMATION CO LTD
Priority to CN201210082536.3A priority Critical patent/CN102708147B/zh
Publication of CN102708147A publication Critical patent/CN102708147A/zh
Application granted granted Critical
Publication of CN102708147B publication Critical patent/CN102708147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种新词识别方法,包括:对科技文本进行断句处理,构建机器词典;对断句切分出的短句进行词表匹配分词,然后对剩下的语串进行原子分词,自动抽取二字词、三字词及多字词;应用统计学方法对抽取的词汇进行排序,对排序的词汇进行评价,获得新词。本发明的方法极大地提高了新词识别的准确性和全面性。

Description

一种科技术语的新词识别方法
技术领域
本发明涉及计算机中文信息处理技术,更具体地,涉及一种科技术语的新词识别方法。
背景技术
中文信息处理技术已经在计算机网络、数据库技术、软件工程、文献检索识别等技术领域得到了广泛的应用。中文自动分词是中文信息处理的一项基础性工作,许多中文信息处理项目都涉及分词问题,例如机器翻译、自动文摘、自动分类和中文文献库检索等。由于中文文本是连续书写的,字与字之间、词与词之间没有空格,所以中文文本处理的首要问题是分词,词汇的准确区分是进行中文文本处理的基础。
但词汇的区分对于词典中的词汇没有问题,但对于新词的出现,却不能实现准确的识别。自然语言处理领域的专家一直尝试用不同的方法借助计算机从大规模的文本中自动抽取新词。由于社会和技术的发展以及新词语的不断涌现,导致自动分词中出现很多不成词的散串,影响了分词准确率。因此有效识别新词,对提高中文自动分词的总体效果可以起到重要的作用。
诸如专利文献的科技文献作为技术信息的有效载体,随着技术的迅速发展,不断涌现出各种各样的新概念,这些新概念往往以科技新词汇的形式体现出来。从大量的专利文献中自动发掘这些反映新概念的词汇对于很多应用具有重要价值,例如基于字典的分词、专利检索、专利分类、专利机器翻译。
腾讯科技(深圳)有限公司于2007年6月27日提交名称为“一种中文分词方法及系统”的中国发明专利申请,在该发明的技术方案中,首先通过基于字符串的分词方法、基于理解的分词方法等传统分词方法进行处理,然后通过字间出现的概率和既定阈值相比较,识别新词。该方法对于具有规律性的一些表达但不构成新词的情况没有进行处理,准确率较差。
微软公司于2005年3月16日提交的名称为“切分非切分语言的输入字符序列的方法”的中国发明专利申请,在该申请的技术方案中,首先识别单字符序列,确定作为单字符出现的独立性概率,组合单字符,确定该单字符序列的总独立词概率,判定该概率,确定新词。首先该方法没有将既有词汇排除,容易将既有词汇和新单字混合,准确率较差;另外,该方法没有考虑中文的特殊性,对于中文的应用不具有普适性。
发明内容
为克服现有技术的上述缺陷,本发明提出一种科技术语的新词识别方法。
根据本发明的一个方面,提出了一种新词识别方法,包括:步骤1,对科技文本进行断句处理,构建机器词典;步骤2,对断句切分出的短句进行词表匹配分词,然后对剩下的语串进行原子分词,自动抽取二字词、三字词及多字词;步骤3,应用统计学方法对抽取的词汇进行排序,对排序的词汇进行评价,获得新词。
本发明的方法通过采用机械分词、词表匹配后统计评价,应用多种评价组合方式,进行新词的识别和获取,极大地提高了新词识别的准确性和全面性。
附图说明
图1为根据本发明的新词识别方法的总的流程图。
如图所示,为了能明确实现本发明的实施例的结构,在图中标注了特定的结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种科技术语的新词识别方法进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
可以理解,本发明的中文新词识别方法,可以应用于多种终端设备,例如个人计算机、个人数字助理、移动通信设备、平板电脑等各种智能处理设备,因此本发明的方法不限于某种特定类型的终端设备。
总的来说,图1示出根据本发明的新词识别方法的总的流程,如图1所示,该方法包括:首先对专利文本先进行断句处理,构建机器词典,然后对切分出的短句进行分词;在词表匹配后,对剩下的语串进行原子分词;原子切分后,自动抽取二字词、三字词及多字词,应用统计学方法对其进行排序,并且对排序的词汇进行评价,获得新词。进一步可以再由人工加以筛选。
具体地,如图1所示,其中,对于断句处理,包括根据分隔符、回车换行符、标点符号等语句的分隔标志,把整篇的科技文本分隔成多个短句。
其中,对于机器词典构建,包括:将常用词表和技术、专利领域的专业词表合并形成初始机器词典,此后通过不断加入机器识别且通过人工审核的新术语词对机器词典加以扩充。
其中,对于分词,主要是指机械分词,将待分析的汉字串或者短句与一个“充分大的”机器词典中的词条进行配对,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法包括正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法。
具体地,对于逆向最大匹配法,是指:在每个分句中,按从右至左的方向,把最后一个字符与其左边的字符根据设定的最大长度进行组合,然后与机器词典中的词条进行对比,若匹配成功,则视为识别出一个词,否则减少一个字符继续匹配,直至到最短两字符,如果还不能匹配成功,则将右边界向左推进一个字符,再进行上述操作。上述的四种机械分词方法可以组合使用,进行优化筛选。
对于原子切分,包括:将匹配后剩余语串中的一个汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符都视为原子,把语串从左到右切分成单独原子。
对于新词排序,包括:将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇,并且将这些词汇按照在技术文本或者专利文本中出现的频率由高到低排列。进一步,将单独原子按照从左到右或者从右到左的顺序分别组成相邻的三字或者四字词汇,并且将这些词汇按照在技术文本或者专利文本中出现的频率由高到低排列。
对于评价方法:针对二字词,使用下述三种评价方法获取二字词最终评价。
第一种评价方法是采用基于相似性来判别任意词对的关联程度,基于关联程度,判别为新词。其中,计算方法包括:
logλ=logL(c12,c1,p)+logL(c2-c12,N-c1,p)-logL(c12,c1,p1)-logL(c2-c12,N-c1,p2),L(k,n,x)=xk(1-x)n-k
Figure BDA0000147060200000042
Figure BDA0000147060200000043
其中用c1,c2和c12来表示w1,w2和w12在语料库中出现的次数,N表示语料中包含的词语数。
第二种评价方法包括:假设两个字w1和w2,语料中共有N个词次,则w1和w2构成的二字词情况可通过下表反映:
Figure BDA0000147060200000051
其中,
Figure BDA0000147060200000052
表示以w2结尾但不以w1开头的二字词组合,应用χ2统计量计算,得到如下公式:
χ 2 = N ( O 11 O 22 - O 12 O 21 ) 2 ( O 11 + O 12 ) ( O 11 + O 21 ) ( O 12 + O 22 ) ( O 21 + O 22 )
其中,O11、O12、O21及O22分别代表w1w2
Figure BDA0000147060200000054
Figure BDA0000147060200000055
Figure BDA0000147060200000056
的二字词在语料中出现的频次。假设χ2的置信度水平α=0.05,则当χ2的取值大于3.841时认为w1w2具有高度相关性。
第三种评价方法是采用下面的公式:
I ( x , y ) = log 2 p ( x , y ) p ( x ) * p ( y )
其中,如果x和y能够构成有意义的术语,则表明他们之间有强烈的关联,因此p(x,y)将远大于p(x)*p(y),因此I(x,y)>>0;如果x和y之间没有什么必然的关联,那么p(x,y)将近似等于p(x)*p(y),故I(x,y)近似为0;如果x和y的分布是互补的关系,那么p(x,y)将远小于p(x)*p(y),故I(x,y)<<0。p(x)=f(x)/N,其中f(x)是x出现的次数,N是文本集合中包含的所有词汇数。
对于三字词及多字词,从具有最大长度的字串开始,候选术语的主要参数是它们在文本中出现的词频。
Figure BDA0000147060200000058
其中,|t|表示候选术语t的长度,f(t)表示t在语料中出现的总词频,Tt为包含t的候选术语集合,p(Tt)代表包含t的候选术语的数量,f(b)为包含t的候选术语b所具有的词频。
对于上述三种评价方法,在一个实施例中,采用其中一种方法进行评价即可。在另一个实施例中,采用第一种方法进行第一次评价,然后选择第二种或者第三种方法进行第二次评价。在又一个实施例中,采用第一种方法进行评价,随后采用第二种方法和第三种方法进行评价;或者首先采用第一种方法进行评价,随后采用第三种方法和第二种方法进行评价。在进一步的实施例中,第一、第二和第三种方法无论次序,分别执行一次进行评价。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (9)

1.一种新词识别方法,包括:
步骤1,对科技文本进行断句处理,构建机器词典;
步骤2,对断句处理切分出的短句进行词表匹配分词,然后对剩下的语串进行原子分词,自动抽取二字词、三字词及多字词;
步骤3,应用统计学方法对抽取的词汇进行排序,进而对排序后的词汇进行评价,获得新词。
2.根据权利要求1所述的方法,其中,步骤1还包括:
根据诸如分隔符、回车换行符和标点符号的语句分隔标志,把科技文本分隔成多个短句;
基于常用词表和技术、专利领域的专业词表合并形成机器词典。
3.根据权利要求2所述的方法,其中,步骤2还包括:
基于正向最大匹配法、逆向最大匹配法、最少切分方法和双向最大匹配法的一种或者几种,将上述多个短句和机器词典进行匹配,识别旧词;
将识别后剩余语串中的汉字、短句前后的开始结束标识字段、全角标点符号、相连的数字字母或者单字节字符视为原子,把语串从左到右切分成单独原子,提取二字词、三字词和四字词。
4.根据权利要求3所述的方法,其中,步骤3还包括:将单独原子按照从左到右或者从右到左的顺序分别组成相邻的两字词汇,并且将这些词汇按照在技术文本中出现的频率由高到低排列。
5.根据权利要求4的方法,其中,步骤3中评价方法包括:
第一评价方法:采用基于相似性来判别任意词对的关联程度,以判别新词,其中,关联程度logλ=logL(c12,c1,p)+logL(c2-c12,N-c1,p)-logL(c12,c1,p1)-logL(c2-c12,N-c1,p2),L(k,n,x)=xk(1-x)n-k
Figure FDA0000147060190000021
Figure FDA0000147060190000022
Figure FDA0000147060190000023
c1,c2和c12分别表示w1,w2和w12在语料库中出现的次数,N表示语料中包含的词语数;或者
第二评价方法:采用统计相关评价方法来识别新词,
Figure FDA0000147060190000024
其中,O11、O12、O21及O22分别代表w1w2
Figure FDA0000147060190000025
Figure FDA0000147060190000027
的二字词在语料中出现的频次,表示以w2结尾但不以w1开头的二字词组合,w1和w2表示两个字符,语料中共有N个词次;或者
第三评价方法:根据两个字符x和y的相关性来识别新词,当
Figure FDA0000147060190000029
其中p(x)=f(x)/N,f(x)是x出现的次数,N是文本中包含的所有词汇数,则识别x和y组成新词。
6.根据权利要求5所述的方法,其中,步骤3还包括:对于第二评价方法,当置信度水平α=0.05时,当χ2的取值大于3.841时确定w1w2具有高度相关性,识别为新词。
7.根据权利要求5所述的方法,其中,步骤3中评价方法包括:采用第一评价方法进行第一次评价,然后选择第二评价方法或者第三评价方法进行第二次评价。
8.根据权利要求5所述的方法,其中,步骤3中评价方法包括:采用第一评价方法进行评价,随后顺序采用第二评价方法和第三评价方法进行评价;或者
首先采用第一评价方法进行评价,随后顺序采用第三评价方法和第二评价方法进行评价。
9.根据权利要求4所述的方法,其中,步骤3还包括:将单独原子按照从左到右或者从右到左的顺序分别组成相邻的三字或者四字词汇,并且将这些词汇按照在技术文本中出现的频率由高到低排列;
根据词频识别为新词,其中,
其中,|t|表示候选词t的长度,f(t)表示t在语料中出现的总词频,Tt为包含t的候选术语集合,p(Tt)代表包含t的候选术语的数量,f(b)为包含t的候选术语b所具有的词频。
CN201210082536.3A 2012-03-26 2012-03-26 一种科技术语的新词识别方法 Active CN102708147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210082536.3A CN102708147B (zh) 2012-03-26 2012-03-26 一种科技术语的新词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210082536.3A CN102708147B (zh) 2012-03-26 2012-03-26 一种科技术语的新词识别方法

Publications (2)

Publication Number Publication Date
CN102708147A true CN102708147A (zh) 2012-10-03
CN102708147B CN102708147B (zh) 2015-02-18

Family

ID=46900914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210082536.3A Active CN102708147B (zh) 2012-03-26 2012-03-26 一种科技术语的新词识别方法

Country Status (1)

Country Link
CN (1) CN102708147B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572621A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法
CN105740236A (zh) * 2016-01-29 2016-07-06 中国科学院自动化研究所 结合写作特征和序列特征的中文情感新词识别方法和系统
CN105956359A (zh) * 2016-04-15 2016-09-21 陈杰 一种用于异构系统的药品项目名称对照转译方法
CN106815187A (zh) * 2015-11-27 2017-06-09 镇江诺尼基智能技术有限公司 一种高效的新术语识别系统和方法
WO2017140221A1 (zh) * 2016-02-18 2017-08-24 腾讯科技(深圳)有限公司 文本信息处理方法和装置
CN107832302A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN107870905A (zh) * 2017-12-04 2018-04-03 语联网(武汉)信息技术有限公司 一种特定词汇的识别方法
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN109086262A (zh) * 2017-06-14 2018-12-25 财团法人资讯工业策进会 语意分析装置、方法及其电脑存储介质
CN110442685A (zh) * 2019-08-14 2019-11-12 杭州品茗安控信息技术股份有限公司 建筑专业词库的数据扩充方法、装置、设备及存储介质
CN112328736A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种主题词表构建方法、系统及计算机存储介质
CN115204190A (zh) * 2022-09-13 2022-10-18 中科聚信信息技术(北京)有限公司 金融领域术语转化为英文的装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046809A (zh) * 2006-03-28 2007-10-03 吴风勇 基于关联规则模式的新词识别方法
CN101493812A (zh) * 2009-03-06 2009-07-29 中国科学院软件研究所 一种音字转换方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046809A (zh) * 2006-03-28 2007-10-03 吴风勇 基于关联规则模式的新词识别方法
CN101493812A (zh) * 2009-03-06 2009-07-29 中国科学院软件研究所 一种音字转换方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572621A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104572621B (zh) * 2015-01-05 2018-01-26 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法
CN105488098B (zh) * 2015-10-28 2019-02-05 北京理工大学 一种基于领域差异性的新词提取方法
CN106815187A (zh) * 2015-11-27 2017-06-09 镇江诺尼基智能技术有限公司 一种高效的新术语识别系统和方法
CN105740236B (zh) * 2016-01-29 2018-09-07 中国科学院自动化研究所 结合写作特征和序列特征的中文情感新词识别方法和系统
CN105740236A (zh) * 2016-01-29 2016-07-06 中国科学院自动化研究所 结合写作特征和序列特征的中文情感新词识别方法和系统
US10496747B2 (en) 2016-02-18 2019-12-03 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
WO2017140221A1 (zh) * 2016-02-18 2017-08-24 腾讯科技(深圳)有限公司 文本信息处理方法和装置
CN105956359A (zh) * 2016-04-15 2016-09-21 陈杰 一种用于异构系统的药品项目名称对照转译方法
CN105956359B (zh) * 2016-04-15 2018-06-05 陈杰 一种用于异构系统的药品项目名称对照转译方法
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108268438B (zh) * 2016-12-30 2021-10-22 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN109086262A (zh) * 2017-06-14 2018-12-25 财团法人资讯工业策进会 语意分析装置、方法及其电脑存储介质
CN107832302B (zh) * 2017-11-22 2021-09-17 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN107832302A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN107870905A (zh) * 2017-12-04 2018-04-03 语联网(武汉)信息技术有限公司 一种特定词汇的识别方法
CN110442685A (zh) * 2019-08-14 2019-11-12 杭州品茗安控信息技术股份有限公司 建筑专业词库的数据扩充方法、装置、设备及存储介质
CN112328736A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种主题词表构建方法、系统及计算机存储介质
CN115204190A (zh) * 2022-09-13 2022-10-18 中科聚信信息技术(北京)有限公司 金融领域术语转化为英文的装置及方法
CN115204190B (zh) * 2022-09-13 2022-11-22 中科聚信信息技术(北京)有限公司 金融领域术语转化为英文的装置及方法

Also Published As

Publication number Publication date
CN102708147B (zh) 2015-02-18

Similar Documents

Publication Publication Date Title
CN102708147B (zh) 一种科技术语的新词识别方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN103064969A (zh) 自动建立关键词索引表的方法
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN103399901A (zh) 一种关键词抽取方法
CN102915122B (zh) 基于语言模型的智能移动平台拼音输入法
CN106611041A (zh) 一种新的文本相似度求解方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN105095196A (zh) 文本中新词发现的方法和装置
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN114266256A (zh) 一种领域新词的提取方法及系统
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
CN115618883A (zh) 一种业务语义识别方法及装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
Tarmom et al. Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN111881678B (zh) 一种基于无监督学习的领域词发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant