CN111046660B - 一种识别文本专业术语的方法及装置 - Google Patents

一种识别文本专业术语的方法及装置 Download PDF

Info

Publication number
CN111046660B
CN111046660B CN201911147687.0A CN201911147687A CN111046660B CN 111046660 B CN111046660 B CN 111046660B CN 201911147687 A CN201911147687 A CN 201911147687A CN 111046660 B CN111046660 B CN 111046660B
Authority
CN
China
Prior art keywords
terms
target
term
candidate
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911147687.0A
Other languages
English (en)
Other versions
CN111046660A (zh
Inventor
林建明
胡聪豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wuyu Technology Co ltd
Original Assignee
Shenzhen Wuyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wuyu Technology Co ltd filed Critical Shenzhen Wuyu Technology Co ltd
Priority to CN201911147687.0A priority Critical patent/CN111046660B/zh
Publication of CN111046660A publication Critical patent/CN111046660A/zh
Application granted granted Critical
Publication of CN111046660B publication Critical patent/CN111046660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别文本专业术语的方法及装置,其中该识别方法包括:对待识别专业术语的目标文本进行预处理,得到多个标准候选术语;依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合;根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量;将待识别的标准候选术语对应的各个参数一起输入C‑value公式进行计算,得到目标C‑value值,并根据目标C‑value值的数值大小对待识别的标准候选术语进行判定。本发明可有效地识别出文本中的专业术语,提高读者的体验。

Description

一种识别文本专业术语的方法及装置
技术领域
本发明涉及自然语言处理应用技术领域,特别是涉及一种识别文本专业术语的方法及装置。
背景技术
术语识别的研究很困难,主要是因为术语通常没有一个固定的命名,经常会有不同的术语代表同一个实体,相同的词或短语代表不同类型的实体,术语有嵌套结构,这增加了术语识别的难度。在术语识别的早期阶段,最常用的方法是基于字典的方法,这种方法实用且简单,但对于包含新兴术语的金融术语的识别效果就不是很好。此外还有基于指定规则的金融术语识别方法,与基于字典的方法相比,该方法提高了识别性能,但便携性差。现有的自动术语识别(ATR)方法通常分为以下几类:1)语言规则方法,基于规则的方法主要使用术语词典和规则模板进行术语提取。通常来说,某些常用术语收入词典始终被用作基础。对于不在词典中的术语,通过构建规则模板的方法来构建术语。通过分析术语的内部和外部特征(例如术语上下文,内部组成以及首尾),人为地构建规则模板以实现术语的识别和提取。这种方法实施起来相对简单,在语言知识和文本匹配的情况下,其准确性很高。但是,这种方法要求规则编写者具有丰富的语言知识和广泛的计算语言学背景。这样的人力资源非常昂贵且稀缺,昂贵,费时,维护缓慢且经常。完整性和合理性更难以保证。同样,规则的制定通常取决于特定的语言,域和文本格式。如果要移植该系统,则需要对其进行重大更改,因此基于规则的系统缺乏适应性。2)基于统计指标的方法,与普通词汇相比,术语具有不同的统计特征和领域特征。这种方法的主要思想是利用术语组成部分与术语的域特征信息之间的高度相关性来提取术语。词频,均值和方差是常用的统计方法。很多人会使用假设检验方法,例如T检验,卡方检验,对数似然比,互点信息等。使用统计方法提取术语不需要语法和语义信息,不限于特定领域,不依赖任何资源,并且具有很强的通用性。但是,其算法性能直接取决于语料库的大小和候选词的词频。一些低频候选术语也可能是合法术语。对于这样的数据稀疏性难以获得期望的效果。3)基于机器学习的方法,基于机器学习的ATR已成为最近研究的热门话题。主要实现是:手动或半自动构建训练语料库,基于特定的机器学习算法生成用于训练语料库学习的模型,并使用该模型对测试语料库进行术语提取实验并验证算法的有效性。支持向量机(SVM),隐马尔可夫模型(HMM)比较频繁的被使用。
SVM是基于统计学习理论的结构风险最小化原则。它具有良好的泛化能力,尤其是在训练样本较小时,可以获得更好的结果。该特性有助于解决非线性,高维和局部极小值的问题。但SVM在处理两分类问题时很有用,对于多分类问题,需要提高速度和准确性。此外,该方法对噪声敏感,并且倾向于使用更多样本对类别进行分类。并且在处理带有大量训练样本和支持向量的分类问题时,SVM的分类速度急剧下降,因此SVM方法不能用于大规模文本处理。
HMM是一个生成模型,通过定义观察序列和标记序列的联合概率来对生成过程进行建模。关于HMM的研究非常广泛,该算法成熟,高效,有效且易于训练。但是,其主要缺点是HMM具有很强的独立性假设。因此,使用马尔可夫模型只能使用有限的上下文特征。否则会带来数据稀疏的问题,导致识别精度下降。
发明内容
本发明实施例提供一种识别文本专业术语的方法及装置,以解决现有技术中的以下问题:由于文本的专业术语不容易识别,导致读者难以掌握文本的全部内容,造成读者的阅读障碍,无法满足读者的阅读体验。
为解决上述技术问题,本发明实施例采用的第一技术方案如下:
一种识别文本专业术语的方法,其包括:对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定。
可选地,所述对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,包括:分别将所述目标文本中的重复标点符号编辑为一个标点符号、拆分数字和单位的组合和对非ASCII字符进行规范处理;以句子为单位,将所述目标文本对应的每个句子分割为单词和标点符号的形式,且将每个单词和每个标点符号均作为一个令牌;对每个令牌进行词干化处理、词形还原处理及词性标注处理,并根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语。
可选地,所述对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,包括:分别删除所述候选术语之间的所有标点符号、少于3个字符的所有小写标记和所述目标文本里面的停用词,所述停用词包括介词和数字;按照令牌首字母在26个字母中的字母排列顺序,将所述候选术语包含的所述令牌进行排列,且相邻两个所述令牌之间用逗号隔开;使用括号包括按照所述字母排列顺序排列好的所有令牌,将包括在括号里面的全部所述令牌作为所述标准候选术语。
可选地,所述将所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,包括:计算所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌之间的目标编辑距离;将所述目标编辑距离小于或等于预设编辑距离阈值的目标原始令牌合并到所述匹配对象中,所述目标原始令牌为剩余的所述标准候选术语包含的原始令牌。
可选地,所述根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,包括:将目标相似术语集合内的目标原始令牌和剩余的所述相似术语集合内的所有令牌进行比较,判断剩余的所述相似术语集合内的所有令牌是否和所述目标原始令牌存在包含或被包含关系;若是,则计算出和所述目标相似术语集合存在包含或被包含关系的剩余的所述相似术语集合的目标数量,并将所述目标数量作为所述目标相似术语集合对应的所述嵌套术语数量。
可选地,所述C-value公式为:C-value(t)=ln|t|·f(t),当
Figure BDA0002282662710000041
Figure BDA0002282662710000051
Figure BDA0002282662710000052
其中,t为待识别的标准候选术语,S(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,
Figure BDA0002282662710000053
表示空集。
可选地,还所述根据所述C-value值的数值大小对待识别的所述标准候选术语进行判定,包括:判断所述C-value值的数值是否大于或等于预设C-value阈值;若是,则判定待识别的所述标准候选术语为专业术语。
为解决上述技术问题,本发明实施例采用的第二技术方案如下:
一种识别文本专业术语的装置,其包括:候选术语获取模块,用于对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;术语集合获取模块,用于依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;嵌套数量获取模块,用于根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;候选术语判断模块,用于将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定。
为解决上述技术问题,本发明实施例采用的第三技术方案如下:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述的识别文本专业术语的方法。
为解决上述技术问题,本发明实施例采用的第四技术方案如下:
一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的识别文本专业术语的方法。
本发明实施例的有益效果是:区别于现有技术的情况,本发明实施例通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入C-value公式进行计算,得到目标C-value值,并根据目标C-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。
附图说明
图1是本发明实施例一的识别文本专业术语的方法一实施方式的实施流程图;
图2是本发明实施例二的识别文本专业术语的装置一实施方式的部分结构框架图;
图3是本发明实施例三的计算机可读存储介质一实施方式的部分结构框架图;
图4是本发明实施例四的计算机设备一实施方式的部分结构框架图。
具体实施方式
实施例一
请参阅图1,图1是本发明实施例的识别文本专业术语的方法的实施流程图,结合图1可以得到,本发明的一种识别文本专业术语的方法,用于英文文本中的专业术语识别,其包括:
步骤S101:对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌。另外,可选地,将每一个标点符号也定义为一个令牌。
步骤S102:依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合。
步骤S103:根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量。
步骤S104:将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定。
在本实施例中,可选地,所述对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,包括:
第一,分别将所述目标文本中的重复标点符号编辑为一个标点符号、拆分数字和单位的组合和对非ASCII字符进行规范处理,还包括用大写字母分隔可能的标题或部分。其中,ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。
在本实施例中,可选地,完成上述过程后,将使用Python(一种计算机程序设计语言)处理文本(用到的spaCy是一个Python的工具包,用来提供文本分段和标记化,然后使用词性注释信息。词性标签根据其在句子中的角色分配给单个单词(即令牌)。在本实施例中,可选地,使用了PennTreebank(词性标记集),例如:NN(名词)、JJ(形容词)和IN(介词)等。除了以上三个部分,词形还原和词干化也是两个必不可少的操作。在本实施例中,使用SpaCy包提供的词性敏感后缀规则的词形还原,并使用NLTK(Natural Language Toolkit,自然语言处理工具包)包的词干提取算法的Porter Stemmer:Porter stem算法是一个从英语单词中删除普通形态和拐点结尾的过程。
第二,以句子为单位,将所述目标文本对应的每个句子分割为单词和标点符号的形式,且将每个单词和每个标点符号均作为一个令牌。
第三,对每个令牌进行词干化处理、词形还原处理及词性标注处理,并根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语。
在本实施例中,可选地,根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语,具体为:文本的候选术语具备的特征必须包括以下3点匹配规则中的任意一点,其中该3点匹配规则如下:
1、(JJ|NN)+NN,例如:Capital Adequacy Ratio(资本充足率);
2、(NN|JJ)*NN POS(NN|JJ)*NN,例如:Homeownership’s Exclusion(自用住宅优惠);
3、(NN|JJ)*NN IN(NN|JJ*NN,例如:actual rate of interest(实际利率)。
其中,POS表示“....的”意思,NN表示名词,JJ表示形容词,IN表示介词。
在本实施例中,可选地,所述对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,包括:
第一,分别删除所述候选术语之间的所有标点符号、少于3个字符的所有小写标记和所述目标文本里面的停用词,所述停用词包括介词和数字。
第二,按照令牌首字母在26个字母中的字母排列顺序,将所述候选术语包含的所述令牌进行排列,且相邻两个所述令牌之间用逗号隔开。
第三,使用括号包括按照所述字母排列顺序排列好的所有令牌,将包括在括号里面的全部所述令牌作为所述标准候选术语。例如:hypoxia at rest和resting hypoxia会都被映射为一样的标准形式{hypoxia,rest}。
在本实施例中,可选地,所述将所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,包括:
第一,计算所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌之间的目标编辑距离。其中,编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。在本实施例中,编辑距离越小,两个串的相似度越大。
其中,以一个标准术语形式{hypoxia,rest}作为例子,此时我们取其中的hypoxia去和其他候选术语的标准形式中的令牌进行相似度的对比。编辑距离是一种简单的单词(本实施例将单位作为令牌)相似度计算方式,如hypoxia和hypoxemia之间的编辑距离计算方式如下:
1、hypoxia→hypoxea(把字母i改为e);
2、hypoxea→hypoxema(添加字母m);
3、hypoxema→hypoxemia(添加字母i)。
综上所述,两个单词之间的编辑距离为3,在本实施例中,将编辑距离小于或等于3的两个令牌看作为同一个令牌。
第二,将所述目标编辑距离小于或等于预设编辑距离阈值的目标原始令牌合并到所述匹配对象中,所述目标原始令牌为剩余的所述标准候选术语包含的原始令牌,即将剩余的所述标准候选术语包含的原始令牌中,和所述目标匹配对象包含的原始令牌之间的编辑距离小于或等于预设编辑距离阈值的原始令牌合并到所述目标匹配对象中。
在本实施例中,可选地,所述根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,包括:
第一,将目标相似术语集合内的目标原始令牌和剩余的所述相似术语集合内的所有令牌进行比较,判断剩余的所述相似术语集合内的所有令牌是否和所述目标原始令牌存在包含或被包含关系。
第二,若剩余的所述相似术语集合内的所有令牌和所述目标原始令牌存在包含或被包含关系,则计算出和所述目标相似术语集合存在包含或被包含关系的剩余的所述相似术语集合的目标数量,并将所述目标数量作为所述目标相似术语集合对应的所述嵌套术语数量。
在本实施例中,可选地,所述C-value公式为:
C-value(t)=ln|t|·f(t),当
Figure BDA0002282662710000111
Figure BDA0002282662710000112
Figure BDA0002282662710000113
其中,t为待识别的标准候选术语,S(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,
Figure BDA0002282662710000114
表示空集。
在本实施例中,可选地,还所述根据所述C-value值的数值大小对待识别的所述标准候选术语进行判定,包括:
第一,判断所述C-value值的数值是否大于或等于预设C-value阈值。
第二,若所述C-value值的数值大于或等于预设C-value阈值,则判定待识别的所述标准候选术语为专业术语。如下表展示了被识别出来C-value最高的7组术语的情况:
Figure BDA0002282662710000115
Figure BDA0002282662710000121
本发明实施例通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入C-value公式进行计算,得到目标C-value值,并根据目标C-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。
实施例二
请参阅图2,图2是本发明实施例的识别文本专业术语的装置100的部分结构框架图,结合图2可以得到,本发明的一种识别文本专业术语的装置100,包括:
候选术语获取模块110,用于对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌。
术语集合获取模块120,用于依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合。
嵌套数量获取模块130,用于根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量。
候选术语判断模块140,用于将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定。
本发明实施例通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入C-value公式进行计算,得到目标C-value值,并根据目标C-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。
实施例三
请参阅图3,参考图3可以看到,本发明实施例的一种计算机可读存储介质10,所述的计算机可读存储介质10,如:ROM/RAM、磁碟、光盘等,其上存储有计算机程序11,所述计算机程序11被执行时实现如实施例一所述的识别文本专业术语的方法。由于该识别文本专业术语的方法已经在实施例一进行了详细的说明,在此不再重复说明。
本发明实施例实现的识别文本专业术语的方法,通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入C-value公式进行计算,得到目标C-value值,并根据目标C-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。
实施例四
请参阅图4,参考图4可以看到,本发明实施例的一种计算机设备20,其包括处理器21、存储器22及存储于所述存储器22上并可在所述处理器21上运行的计算机程序221,所述处理器21执行所述计算机程序221时实现如实施例一所述的识别文本专业术语的方法。由于该识别文本专业术语的方法已经在实施例一进行了详细的说明,在此不再重复说明。
本发明实施例实现的识别文本专业术语的方法,通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入C-value公式进行计算,得到目标C-value值,并根据目标C-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种识别文本专业术语的方法,其特征在于,包括:
对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;
依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;
根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;
将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定;
所述C-value公式为:
C-value(t)=ln|t|·f(t),当S(t)=Ø;
,当S(t)≠Ø;
其中,t为待识别的标准候选术语,S(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,Ø表示空集。
2.根据权利要求1所述的识别文本专业术语的方法,其特征在于,所述对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,包括:
分别将所述目标文本中的重复标点符号编辑为一个标点符号、拆分数字和单位的组合和对非ASCII字符进行规范处理;
以句子为单位,将所述目标文本对应的每个句子分割为单词和标点符号的形式,且将每个单词和每个标点符号均作为一个令牌;
对每个令牌进行词干化处理、词形还原处理及词性标注处理,并根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语。
3.根据权利要求2所述的识别文本专业术语的方法,其特征在于,所述对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,包括:
分别删除所述候选术语之间的所有标点符号、少于3个字符的所有小写标记和所述目标文本里面的停用词,所述停用词包括介词和数字;
按照令牌首字母在26个字母中的字母排列顺序,将所述候选术语包含的所述令牌进行排列,且相邻两个所述令牌之间用逗号隔开;
使用括号包括按照所述字母排列顺序排列好的所有令牌,将包括在括号里面的全部所述令牌作为所述标准候选术语。
4.根据权利要求3所述的识别文本专业术语的方法,其特征在于,所述将所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,包括:
计算所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌之间的目标编辑距离;
将所述目标编辑距离小于或等于预设编辑距离阈值的目标原始令牌合并到所述匹配对象中,所述目标原始令牌为剩余的所述标准候选术语包含的原始令牌。
5.根据权利要求4所述的识别文本专业术语的方法,其特征在于,所述根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,包括:
将目标相似术语集合内的目标原始令牌和剩余的所述相似术语集合内的所有令牌进行比较,判断剩余的所述相似术语集合内的所有令牌是否和所述目标原始令牌存在包含或被包含关系;
若是,则计算出和所述目标相似术语集合存在包含或被包含关系的剩余的所述相似术语集合的目标数量,并将所述目标数量作为所述目标相似术语集合对应的所述嵌套术语数量。
6.根据权利要求5所述的识别文本专业术语的方法,其特征在于,还所述根据所述C-value值的数值大小对待识别的所述标准候选术语进行判定,包括:
判断所述C-value值的数值是否大于或等于预设C-value阈值;
若是,则判定待识别的所述标准候选术语为专业术语。
7.一种识别文本专业术语的装置,其特征在于,包括:
候选术语获取模块,用于对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;
术语集合获取模块,用于依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;
嵌套数量获取模块,用于根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;
候选术语判断模块,用于将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入C-value公式进行计算,得到目标C-value值,并根据所述目标C-value值的数值大小对待识别的所述标准候选术语进行判定;
所述C-value公式为:
C-value(t)=ln|t|·f(t),当S(t)=Ø;
,当S(t)≠Ø;
其中,t为待识别的标准候选术语,S(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,Ø表示空集。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~6任一项所述的识别文本专业术语的方法。
9.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~6任一项所述的识别文本专业术语的方法。
CN201911147687.0A 2019-11-21 2019-11-21 一种识别文本专业术语的方法及装置 Active CN111046660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911147687.0A CN111046660B (zh) 2019-11-21 2019-11-21 一种识别文本专业术语的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911147687.0A CN111046660B (zh) 2019-11-21 2019-11-21 一种识别文本专业术语的方法及装置

Publications (2)

Publication Number Publication Date
CN111046660A CN111046660A (zh) 2020-04-21
CN111046660B true CN111046660B (zh) 2023-05-09

Family

ID=70232133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911147687.0A Active CN111046660B (zh) 2019-11-21 2019-11-21 一种识别文本专业术语的方法及装置

Country Status (1)

Country Link
CN (1) CN111046660B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597315A (zh) * 2020-05-13 2020-08-28 中国标准化研究院 一种基于多特征的术语检索方法
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN112966508B (zh) * 2021-04-05 2023-08-25 集智学园(北京)科技有限公司 一种通用自动术语提取方法
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、系统、介质和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109033071A (zh) * 2018-06-27 2018-12-18 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005101236A2 (en) * 2004-04-06 2005-10-27 Educational Testing Service Lexical association metric for knowledge-free extraction of phrasal terms

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN109033071A (zh) * 2018-06-27 2018-12-18 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置

Also Published As

Publication number Publication date
CN111046660A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046660B (zh) 一种识别文本专业术语的方法及装置
Poon et al. Unsupervised morphological segmentation with log-linear models
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN109408824B (zh) 用于生成信息的方法和装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
Shaalan et al. A hybrid approach for building Arabic diacritizer
Sun et al. Chinese new word identification: a latent discriminative model with global features
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
Paripremkul et al. Segmenting words in Thai language using Minimum text units and conditional random Field
Wong et al. isentenizer-: Multilingual sentence boundary detection model
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN111191446B (zh) 交互信息处理方法、装置、计算机设备和存储介质
Nagata Japanese OCR error correction using character shape similarity and statistical language model
Hirpassa Information extraction system for Amharic text
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Ramesh et al. Interpretable natural language segmentation based on link grammar
Efremova et al. Towards population reconstruction: extraction of family relationships from historical documents
CN113934849A (zh) 一种文本聚类方法、装置、电子设备及存储介质
Mohamed et al. ADPBC: Arabic dependency parsing based corpora for information extraction
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant