CN112632969A - 一种增量式行业词典更新方法和系统 - Google Patents
一种增量式行业词典更新方法和系统 Download PDFInfo
- Publication number
- CN112632969A CN112632969A CN202011463306.2A CN202011463306A CN112632969A CN 112632969 A CN112632969 A CN 112632969A CN 202011463306 A CN202011463306 A CN 202011463306A CN 112632969 A CN112632969 A CN 112632969A
- Authority
- CN
- China
- Prior art keywords
- word
- filtering
- words
- industry
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,具体为增量式行业词典更新方法和系统。本发明方法包括:基于浅层词汇统计分析的增量式选取候选词;基于深度语义计算的增量式选取行业词汇,包括:采用词语的深度语义计算的过滤和词语上下文分布的过滤从候选词中获取行业词汇;多策略人工验证,从候选行业词汇中,包括:使用不同的人工标注策略对得到的候选行业词汇进行排序,再选取部分词进行人工查看;人工查看进行三类标注:行业词汇、非行业词汇和边界错误字串,对基于浅层词汇统计分析和基于词语上下文分布过滤的参数进行微调,优化候选词选取的性能。本发明可以增量式地处理大规模语料,选择性使用人工标注信息,在低资源环境下更新构建行业词典。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种增量式行业词典更新方法和系统。
背景技术
随着互联网信息的快速增长和时代的高速发展,每经过一段时间,各个行业中都会涌现出大量新的词汇,其中包括大众传播媒体与互联网影响下产生的新词汇和缩略语,以及行业中新兴的概念词语。行业词典的更新有着广泛的应用价值,出于搜索引擎关键词搜索、网站词条设置、文案宣传、领域用词规范制定等的需要,各个行业都需要定期获取各自领域的新词以更新该领域的行业词典。
现有的行业词典构建技术主要有两种:一是基于大规模语料的行业词典自动构建,二是基于用户搜索行为日志的行业词典自动构建。基于大规模语料的行业词典自动构建方法,采用共现分析和关联关系挖掘从文档集合中获取候选词,并采用多分类分类器来获取多行业的行业词典(CN102169495A)。这种方法使用了种子词典用作分类器训练,但是只使用了浅层词汇信息,并将未经人工验证的候选词直接加入行业词典进行更新,随着行业词典的壮大,行业词典的准确性无法得到保证。基于用户搜索行为日志的行业词典自动构建方法,从用户搜索行为日志中提取各搜索词,根据被点击的搜索结果确定搜索词所属行业,将所述搜索词作为精确索引词,建立并保存所述精确索引词和对应的行业的词条对,形成精确词典。这种基于搜索词的行业词汇抽取方法准确率较高(CN105159884A)。但是用户搜索日志不是普通行业用户可以零成本获取到的,适用性较低,使用门槛较高。这两种自动行业词典构建方法虽然无需人力成本,并且可以随着数据的变化随时自动构建,但是若要提高构建的效率,以及保证词典的准确率,增量式计算和人工标注策略的设计是需要考虑的问题。传统词典构建的人工验证步骤一般采用词汇类别标注的方式(即:目标词汇类别和类别外词汇),然而在候选词汇选取的过程中,实际有两类错误,一是边界错误,二是类别错误。所以若采用多策略标注的方式(即:目标类别、类别错误和边界错误),人工标注结果可以针对特定的模块进行参数优化。
发明内容
鉴于上述情况,本发明的的目的在于提供一种可以克服上述问题或者部分解决上述问题的增量式行业词典更新方法和系统。
本发明提出的增量式行业词典更新方法,具体步骤如下:
(一)基于浅层词汇统计分析的增量式候选词选取,从语料中获得候选词;具体包括:
基于分词词典,将语料进行分词。针对分词后的语料,使用候选词模板来生成候选字串。
采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤等多种过滤方法,从候选字串中选取候选词。其中,左右熵过滤、基于递推的耦合度过滤和独立词概率过滤的计算与语料的分布相关,语料规模越大,参数的计算越可靠,但是语料规模越大,计算量就越大。为了提高计算效率,对于这几个过滤步骤,我们采用增量式计算的方法。
(二)基于深度语义计算的增量式行业词汇选取,从步骤(一)的候选词中筛选出候选行业词汇;具体包括:
采用词语的深度语义计算的过滤和基于词语上下文分布的过滤,从步骤(1)的候选词中获取行业词汇。基于浅层词汇统计分析的增量式候选词选取,可以有效地处理词语选取的边界问题,但是无法区分行业词汇与非行业词汇,所以可以使用语义信息来进一步选取行业词汇。
(三)多策略人工验证,从步骤(二)的候选行业词汇中,选取行业词汇,收集边界错误字串和非行业词汇;具体包括:
使用不同的标注策略对步骤(2)中得到的候选行业词汇进行排序,再选取部分词进行人工查看,如:根据词频排序后挑选出词频大于f的词进行人工查看;选取k%个词进行人工查看;将深度语义信息进行排序后,选取top-k个词进行人工查看。人工查看进行三类标注:行业词汇、非行业词汇和边界错误字串。
更新后的行业词典与非行业词表可以提高步骤(2)中深度语义计算的模型性能,进一步优化行业词汇提取模块。根据行业词典、非行业词列表和边界错误字串列表,可以进一步对基于浅层词汇统计分析和基于词语上下文分布过滤的参数进行微调。若非行业词汇占比较大,则可以调整基于词语上下文分布过滤的参数;若边界错误的词汇占比较大,则可以调整浅层词汇统计部分的参数。
这些人工标注结果不仅可以用来更新行业词典,还可以用于训练步骤(二)中深度语义计算模型,优化行业词汇选取模块,以及用于对步骤(一)中的浅层词汇统计分析模块的参数进行微调,进一步优化候选词选取模块的性能。
本发明步骤(一)中所述采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤等多种过滤方法,从候选字串中选取候选词,具体如下:
(1)词频过滤
需要加入行业词典的行业词会被广泛使用,因此在语料中出现频率应达到一定的规模的词,才需要对其进行识别。所以可以使用阈值βf来控制候选词的选择,也就是将所有频率小于该阈值的候选字串过滤掉。
(2)停用词过滤
语料中包含许多英文字符、数字、数字字符、标点符号和使用频率很高的单字汉字等停用词,为了节省存储空间和提高处理效率,使用常用停用词词表进行过滤。
(3)垃圾串过滤
给不同长度的模式串设定模式串规则,根据该规则获取到不同的模式串,用以进行后续的过滤,得到下一步的候选词表。如词长为3的短语一般有3种模式:[(2,1),(1,2),(1,1,1)],对于短语“是对的”的三种分割[“是对的”,“是对的”,“是对的”]与上述三种模式相对应。
汉语中单字垃圾串(如:1+1模式,1+1+1模式的串)多由介词、副词、连词和一些单字实词产生,且由于行业词汇是名词性的,所以数量词、时间词和介词短语等词性组合一般无法构成行业词汇。所以可以根据语法规则和词性信息,建立非行业词词性词典和垃圾串词典,利用这两个词典进行过滤可以有效消除分词产生的垃圾串。
(4)前后缀过滤
n+1模式的新词有比较显著的特征:尾字常为组合性强的单字,可以生成大量的词语。1+n模式的新词有比较显著的特征:首字常为组合性强的单字,可以生成大量的词语。在汉语中具有这类功能的字是很有限的,可以通过前后缀词典对首字和尾字的识别来进行过滤。
根据初始平行语料提取,从所有2+1模式和3+1模式的串中提取前缀构成前缀词典,从所有1+2模式和1+3模式的串中提取后缀构成的后缀词典。对于1+n(n>3)模式的串,如果前缀单字出现在前缀词典中,则把该词加入候选新词集合;对于n+1(n>3)模式的串,如果后缀单字出现在后缀词典中,则把该词加入候选词集合。
(5)左右熵过滤
信息熵的方法在术语抽取领域用来判别术语的边界,根据词语w与邻接的字搭配的不确定性来判断w是否是词边界,从而得到候选术语。边界信息熵越大,表明一个词越能和更多词搭配,进而表明一个词是一个独立词。使用左右熵过滤,可以判断词语的左右边界,从而得到候选词。
假设词语w属于候选集,L={l1,l2,l3,…lm}和R={r1,r2,r3,…rn}分别为该词语的左单字集合和右单字集合。则w的左右熵为:
对于一个实际的词语而言,如果其出现频率较高且左右字集的频率也很高,则可以根据其左右熵进行过滤。但对于有些词,独立成词很有可能只有很少或者不存在左(右)单字,用信息熵不能反映其成词的概率,所以采用如下策略(其中,L、R为标志位,α为阈值):
(b)如果L=R=1,则认为该词应该加入候选集中进行下一步过滤;否则,通过判断其左信息熵或者其右信息熵的方法进行过滤。
(c)信息熵过滤策略:
抽取出候选集后,首先对L和R进行判断,如果L=0或R=0,再判断LE(w)和LE(w)(如果一侧的信息熵不存在,将其定义为无穷小);若LE(w)>阈值βe或RE(w)>βe,则将该词加入候选集中进行下一步过滤,否则去掉该词。
左右熵过滤可以有效抽取出文本中出现的高频词汇。而一般而言,行业领域文本语料中高频词汇就是行业词汇。设定阈值βe可以控制所筛选的左右熵大小。
(6)耦合度过滤
经过左右熵过滤后,由于左右熵不存在或太大而导致过滤后依旧存在一些边界判断错误的词,为了解决该问题,采用基于递推的耦合度过滤进行进一步地过滤,使得候选词的可读性更高。
基于递推的耦合度过滤策略:
对于字长为3的候选词w,若存在w1∈T2(T2为长度为2的候选词集合),w可分解为pw1,p为单字。计算p和w1的耦合度公式为:
若存在w1∈T2(T2为长度为2的候选词集合),w可分解为w1p,p为单字。计算p和w1的耦合度公式为:
以此类推,得到长度更长的词。
公式中的λCo和βCo为两个阈值,可以通过调节这两个阈值来控制耦合度过滤程度。如果耦合度的值等于1,则认为w不应该为候选词。
(7)独立词概率(IWP)过滤
独立词概率是度量一个词在句子中独立成词的可能性的指标。经已有论文中的实验结果可知,独立词概率对于二元词的识别有较好的效果,但对于多元词的识别效果不好。故仅针对1+1模式的串进行IWP过滤,进一步过滤掉垃圾串。
给定语料C,对于词语w,假设w=c1c2(其中,ci为字,i=1,2),IWP(w)表示词语w的独立词概率。则:
IWP(w)=IWP(c1)IWP(c2), (5)
对于字ci,IWP(ci)表示的字ci的独立词概率,N(ci)表示字ci出现的次数,N(word(ci))表示字ci独立成词的次数,即字ci作为一个单字出现的次数,则:
词语w的IWP越大,说明该词不成词的概率越大。
同时采用初始平行语料和本文所用语料来建立IWP词典,以便进行IWP过滤。通过阈值βIWP可以对过滤程度进行调节。
本发明步骤(2)中所述基于深度语义计算的增量式行业词汇选取,其中:
(1)基于词语的深度语义计算过滤
通过深度语义计算,可以提取到输入信息的深度特征。深度语义计算模型可以自动学习到语义相似度等特征,如CNN模型可以抽取词语的n-gram特征,RNN和LSTM模型可以抽取到词语中字与字之间的内在特征……通过特征学习,可以得到较好的分类结果,从而过滤掉部分非行业词汇。
深度语义计算过滤可以采用基于深度语义表示的二分类模型。由于词汇本身最能体现该词的语义信息,所以模型将候选词作为输入,输出该词的分类结果:行业词汇或非行业词汇。训练数据为经过人工标注的行业词表和非行业词表,随着行业词库更新次数的增加,整个模型的性能将逐步提升。
(2)基于词语上下文分布的过滤
不同行业领域的词语在上下文中出现的频率不同,在不同语料上的分布也不同,基于词语的上下文分布特点,可以有效地过滤掉部分非行业词汇。
例如,主题模型(topicmodel)(Blei,D.M.,Ng,A.Y.and Jordan,M.I.,2003.Latent dirichlet allocation.Journal of machine Learning research,3(Jan),pp.993-1022.)以非监督学习的方式对词语和上下文的隐含语义进行聚类统计和分析,根据词语的软聚类结果,可以过滤掉部分非行业词汇;tf-idf方法(G.Salton,C.Buckley.Term-weighting approaches in automatic text retrieval.InformationProcessing&Management,1988,24(5):513-523.)根据不同行业领域的词语在不同领域的语料中的分布不同,通过提取和比较词语在本行业领域的语料和平行语料中的不同上下文分布特征,可以过滤掉部分非行业词汇。
对应于上述增量式行业词典更新方法,本发明还包括增量式行业词典更新系统,该系统包括:(一)基于浅层词汇统计分析的增量式候选词选取模块;(二)基于深度语义计算的增量式行业词汇选取模块;(三)多策略人工验证模块;这三个模块用于分别执行增量式行业词典更新方法中的三个步骤的功能。
本发明采用增量式计算的方式进行浅层词汇统计,提高语料处理效率,采用多策略人工验证方法,利用标注信息对浅层词汇统计模块进行和深层语言计算模块进行参数微调和训练,在保证较低的漏检率的情况下,提高候选行业词汇的准确率,提高人工标注效率。
本发明可以增量式地处理大规模语料,选择性使用人工标注信息,在低资源环境下更新构建行业词典。
附图说明
图1为本发明的一个实施例的方法流程图。
图2为本发明的一个实施例的增量式方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
在更加详细地讨论示例性实施例之前应当提到的是,本示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等。
实施例1,
参阅图1,为本发明实施例一提供的一种增量式行业词典更新方法和系统的系统模块示意图。
该方法包括:
步骤1、浅层词汇统计分析的候选词选取
首先,获取到种子词典和语料。如:通过搜索引擎检索到保险行业标准术语,通过OCR等方式获得最初的保险行业种子词典;通过爬虫等方式,从新浪新闻保险行业新闻板块和微博保险行业权威账号处获得保险行业相关语料,从新浪新闻获得平行语料。
得到种子词典和语料后,通过结巴(Jieba)等分词工具,并通过人工判断在分词词典中加上部分种子词典中的行业词汇,从而更好地将语料进行分词。针对分词后的语料,采用基于规则的方式,使用候选词模板(如:长度为2的词可以分成1+1模式)来生成候选词,并保存各种过滤所需的中间结果。
此后,利用词频过滤左右熵过滤、停用词过滤、前后缀过滤、模式串过滤、基于递推的耦合度过滤和独立词概率过滤多种统计方法,从候选词串中获取候选词。
步骤2,基于深度语义计算的保险行业词汇选取
包含基于深度语义表示的CNN过滤和TF/IDF过滤,用以从操作1的候选词中获取保险行业词汇。
(1)CNN过滤
本实施例中CNN训练步骤:
1)文本特征数值化:
把候选词按照分词、单字切分等方式切分,为每一个词或字附上一个编号,通过匹配字典的方式将文本信息转换成数值信息,即将文本用矩阵表示。
2)嵌入层(embeddinglayer):
第一步得到的数据经过第一层嵌入层转换成固定长度。
3)卷积层(convolutionlayer):
使用不同大小和数量的卷积核(filter)进行卷积操作,得到特征图(featuremap)。
4)池化层(poolinglayer):
采用最大值池化(maxpooling)的方式对卷积层输出的结果做池化处理,用来压缩数据,即选取上一步特征图中最大的元素,并将其拼接为一维的特征向量(featurevector)。
5)全连接层(fully connected layer):
经过步骤1)、2)、3)后得到的深度语义信息通过全连接的方式接入一个softmax层,并且在全连接部分使用dropout,减少过拟合。最后根据计算出的分类概率,输出二分类(是行业词汇/不是行业词汇)。
CNN训练的输入为经过人工标注的保险行业词表和非保险行业词表,CNN过滤是将候选词输入CNN训练后得到的模型中,取输出的二分类中的行业词汇。
(2)TF/IDF过滤
行业词汇的一个明显特征就是在本行业领域的语料中多次出现,而在平行语料中出现的次数较少,TF/IDF特征能在一定程度上反映术语的这个特征。通过TF/IDF过滤可以从所有新词中筛选出领域内的新词。其中,TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)
TF/IDF作为候选词的评价函数,其公式为:
其中,D为文章的合集,对于文章d,fd(w)为词语w在文章d中出现的次数,∑fd(w)为文章d的总词数,|D|为语料中的文章总数,|∑d|为包含词语w的文章数目。
计算候选词在平行语料和保险领域语料中的TF/IDF值,针对两者的比值设置阈值βtfidf,选取大于该阈值的候选词作为候选行业词。
步骤3、多策略人工验证
本实施例提供一个排序策略,根据词频对步骤3中得到的候选行业词汇进行排序,选取大于词频f的词进行人工查看,得到最终的行业词汇和非行业词汇,用以更新行业种子词典和非行业词典,更新后的词典可以提高步骤2中CNN模型的性能,进一步优化行业词汇提取模块。其中,非行业词汇可以分成不成词的边界错误词汇和成词但为非行业词汇两部分,根据这两个分类,可以进一步对基于浅层词汇统计分析模块和tfidf部分的参数进行微调。若非行业词汇占比较大,则可以调整tfidf的参数βtfidf;若不成词的词汇占比较大,则可以调整浅层词汇统计部分的参数βe、λCo、βCo、βIWP。
参阅图2,为本发明实施例一提供的一种增量式行业词典更新方法和系统的增量式数据模块示意图,具体描述了在语料CRPn+1上的增量式具体操作步骤。
该方法包括:步骤4-步骤5。
系统的输入为当前语料、历史浅层统计信息、行业词典和非行业词列表,系统的输出为新的历史浅层统计信息、新的行业词典和新的非行业词列表。输入的初始状态为:语料CRP1和初始种子行业词典,历史浅层统计信息为空,非行业词列表为空。
步骤4、浅层词汇统计分析的增量式候选词选取
左右熵过滤、基于递推的耦合度过滤和独立词概率过滤的计算与语料的分布相关,语料规模越大,参数的计算越可靠,但是语料规模越大,计算量就越大。为了提高计算效率,对于这几个过滤步骤,我们采用增量式计算的方法。
假设存在k个历史语料CRPi、CRPi+1、……、CRPn-1,其中n=i+k-1。对于新语料CRPn,可以通过增量式的计算得到候选词的左右熵。假设候选词w属于新语料CRPn的候选集,L={l1,l2,…lp}和R={r1,r2,…rq}分别为该词语的左单字集合和右单字集合。则该词的左右熵为:
其中,Ck(w,lt)和Ck(w,rt)分别为词语w的左单字lt和右单字rt在语料CRPk中出现的次数;
若w没有在语料CRPk中出现,则LEk(w)=REk(w)=0。
对于新语料CRPn,可以通过增量式的计算得到候选词的耦合度。
对于字长为3的w,若存在w1∈T2(T2为语料CRPn的长度为2的候选词集合),w可分解为pw1,p为单字。计算p和w1的耦合度公式为:
若存在w1∈T2(T2为语料CRPn+1的长度为2的候选词集合),w可分解为w1p,p为单字。计算p和w1的耦合度公式为:
以此类推,得到长度更长的词。
其中,Ck(t)为语料CRPk中词语t出现的次数。λn和βn为语料CRPn的两个阈值,可以通过调节这两个阈值来控制耦合度过滤程度。如果耦合度的值等于1,则认为w不应该为候选词。
对于新语料CRPn,可以通过增量式的计算得到候选词的IWP值。
对于词语w,假设w=c1c2(其中,ci为字,i=1,2),IWPk(w)表示词语w在语料CRPk中的独立词概率。则:
IWPn(w)=IWPn(c1)IWPn(c2), (12)
对于字ci,IWPk(ci)表示的字ci的独立词概率,Nk(ci)表示字ci出现的次数,Nk(word(ci))表示字ci独立成词的次数,即字ci作为一个单字出现的次数,则:
步骤5,基于深度语义计算的增量式保险行业词汇选取
假设存在k个历史语料CRPi、CRPi+1、……、CRPn-1,其中n=i+k-1。对于新语料CRPn,可以通过增量式的计算得到候选词的增量式tfidf值。
Claims (4)
1.一种增量式行业词典更新方法,其特征在于,具体步骤如下:
(一)基于浅层词汇统计分析的增量式候选词选取,从语料中获得候选词;具体包括:
基于分词词典,将语料进行分词;针对分词后的语料,使用候选词模板来生成候选字串;
采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤多种过滤方法,从候选字串中选取候选词;其中,左右熵过滤、基于递推的耦合度过滤和独立词概率过滤的计算与语料的分布相关,语料规模越大,参数的计算越可靠,但是语料规模越大,计算量就越大,为了提高计算效率,对于这几个过滤步骤,采用增量式计算的方法;
(二)基于深度语义计算的增量式行业词汇选取,具体包括:采用词语的深度语义计算的过滤和词语上下文分布的过滤,从步骤(一)的候选词中获取行业词汇;
(三)多策略人工验证,从步骤(二)的候选行业词汇中,选取行业词汇,收集边界错误字串和非行业词汇;具体包括:
使用不同的人工标注策略对步骤(2)中得到的候选行业词汇进行排序,再选取部分词进行人工查看;人工查看进行三类标注:行业词汇、非行业词汇和边界错误字串;
根据行业词典、非行业词列表和边界错误字串列表,可以进一步对基于浅层词汇统计分析和基于词语上下文分布过滤的参数进行微调;若非行业词汇占比较大,则调整基于词语上下文分布过滤的参数;若边界错误的词汇占比较大,则调整浅层词汇统计部分的参数;
这些人工标注结果不仅用于更新行业词典,还用于训练步骤(二)中深度语义计算模型,优化行业词汇选取,以及用于对步骤(一)中的浅层词汇统计分析的参数进行微调,进一步优化候选词选取的性能。
2.根据权利要求1所述的增量式行业词典更新方法,其特征在于,步骤(一)中所述采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤多种过滤方法,从候选字串中选取候选词;具体如下;
(1)词频过滤
使用阈值βf来控制候选词的选择,即将所有频率小于该阈值的候选字串过滤掉;
(2)停用词过滤
语料中包含许多英文字符、数字、数字字符、标点符号和使用频率很高的单字汉字这些停用词,为了节省存储空间和提高处理效率,使用常用停用词词表进行过滤;
(3)垃圾串过滤
给不同长度的模式串设定模式串规则,根据该规则获取到不同的模式串,用以进行后续的过滤,得到下一步的候选词表;
汉语中单字垃圾串多由介词、副词、连词和一些单字实词产生,且由于行业词汇是名词性的,所以数量词、时间词和介词短语这些词性组合一般无法构成行业词汇;根据语法规则和词性信息,建立非行业词词性词典和垃圾串词典,利用这两个词典进行过滤,消除分词产生的垃圾串;
(4)前后缀过滤
n+1模式的新词有比较显著的特征:尾字常为组合性强的单字,可以生成大量的词语;1+n模式的新词有比较显著的特征:首字常为组合性强的单字,可以生成大量的词语;在汉语中具有这类功能的字是很有限的,可以通过前后缀词典对首字和尾字的识别来进行过滤;
根据初始平行语料提取,从所有2+1模式和3+1模式的串中提取前缀构成前缀词典,从所有1+2模式和1+3模式的串中提取后缀构成的后缀词典;对于1+n(n>3)模式的串,如果前缀单字出现在前缀词典中,则把该词加入候选新词集合;对于n+1(n>3)模式的串,如果后缀单字出现在后缀词典中,则把该词加入候选词集合;
(5)左右熵过滤
信息熵的方法在术语抽取领域用来判别术语的边界,根据词语w与邻接的字搭配的不确定性来判断w是否是词边界,从而得到候选术语;边界信息熵越大,表明一个词越能和更多词搭配,进而表明一个词是一个独立词;使用左右熵过滤,可以判断词语的左右边界,从而得到候选词;
假设词语w属于候选集,L={l1,l2,l3,…lm}和R={r1,r2,r3,…rn}分别为该词语的左单字集合和右单字集合;则w的左右熵为:
对于一个实际的词语而言,如果其出现频率较高且左右字集的频率也很高,则可以根据其左右熵进行过滤;但对于有些词,独立成词很有可能只有很少或者不存在左(右)单字,用信息熵不能反映其成词的概率,所以采用如下策略,其中,L、R为标志位,α为阈值:
(b)如果L=R=1,则认为该词应该加入候选集中进行下一步过滤;否则,通过判断其左信息熵或者其右信息熵的方法进行过滤;
(c)信息熵过滤策略:
抽取出候选集后,首先对L和R进行判断,如果L=0或R=0,再判断LE(w)和LE(w);如果一侧的信息熵不存在,将其定义为无穷小;若LE(w)>阈值βe或RE(w)>βe,则将该词加入候选集中进行下一步过滤,否则去掉该词;
左右熵过滤可以有效抽取出文本中出现的高频词汇;设定阈值βe用于控制所筛选的左右熵大小;
(6)耦合度过滤
经过左右熵过滤后,由于左右熵不存在或太大而导致过滤后依旧存在一些边界判断错误的词,为了解决该问题,采用基于递推的耦合度过滤策略进行进一步地过滤,使得候选词的可读性更高;
基于递推的耦合度过滤策略:
对于字长为3的候选词w,若存在w1∈T2,T2为长度为2的候选词集合,w可分解为pw1,p为单字;计算p和w1的耦合度公式为:
若存在w1∈T2,T2为长度为2的候选词集合,w可分解为w1p,p为单字;计算p和w1的耦合度公式为:
以此类推,得到长度更长的词;
公式中的λCo和βCo为两个阈值,通过调节这两个阈值来控制耦合度过滤程度;如果耦合度的值等于1,则认为w不应该为候选词;
(7)独立词概率(IWP)过滤
独立词概率是度量一个词在句子中独立成词的可能性的指标;这里仅对1+1模式的串进行IWP过滤,进一步过滤掉垃圾串;具体做法为:
给定语料C,对于词语w,假设w=c1c2,其中,ci为字,i=1,2,IWP(w)表示词语w的独立词概率;则:
IWP(w)=IWP(c1)IWP(c2), (5)
对于字ci,IWP(ci)表示字ci的独立词概率,N(ci)表示字ci出现的次数,N(word(ci))表示字ci独立成词的次数,即字ci作为一个单字出现的次数,则:
词语w的IWP越大,说明该词不成词的概率越大;
同时采用初始平行语料和所用语料来建立IWP词典,以便进行IWP过滤;通过阈值对过滤程度进行调节。
3.根据权利要求2所述的增量式行业词典更新方法,其特征在于,步骤(二)所述采用深度语义计算的增量式进行业词汇选取,其中:
(1)基于词语的深度语义计算过滤
通过深度语义计算模型,提取到输入信息的深度特征;所述深度语义计算模型可以自动学习到语义相似度等特征;其中,CNN模型可以抽取词语的n-gram特征,RNN和LSTM模型可以抽取词语中字与字之间的内在特征;通过特征学习,可以得到较好的分类结果,从而过滤掉部分非行业词汇;
深度语义计算模型采用基于深度语义表示的二分类模型;由于词汇本身最能体现该词的语义信息,模型将候选词作为输入,输出该词的分类结果:行业词汇或非行业词汇;训练数据为经过人工标注的行业词表和非行业词表,随着行业词库更新次数的增加,整个模型的性能将逐步提升;
(2)基于词语上下文分布的过滤
不同行业领域的词语在上下文中出现的频率不同,在不同语料上的分布也不同,基于词语的上下文分布特点,词语上下文分布的过滤,可以有效地过滤掉部分非行业词汇;具体地:
采用主题模型以非监督学习的方式对词语和上下文的隐含语义进行聚类统计和分析,根据词语的软聚类结果,过滤掉部分非行业词汇;采用tf-idf方法根据不同行业领域的词语在不同领域的语料中的分布不同,通过提取和比较词语在本行业领域的语料和平行语料中的不同上下文分布特征,过滤掉部分非行业词汇。
4.根据权利要求3所述的增量式行业词典更新方法,其特征在于,步骤(二)中,在语料CRPn+1上的增量式行业词汇选取,使用当前语料、历史浅层统计信息、行业词典和非行业词列表,得到新的历史浅层统计信息、新的行业词典和新的非行业词列表;输入的初始状态为:语料CRP1和初始种子行业词典,历史浅层统计信息为空,非行业词列表为空;具体操作步骤为:
(a)浅层词汇统计分析的增量式候选词选取
左右熵过滤、基于递推的耦合度过滤和独立词概率过滤的计算,采用增量式计算的方法;
假设存在k个历史语料CRPi、CRPi+1、……、CRPn-1,其中,n=i+k-1;对于新语料CRPn,通过增量式的计算得到候选词的左右熵;假设候选词w属于新语料CRPn的候选集,L={l1,l2,…lp}和R={r1,r2,…rq}分别为该词语的左单字集合和右单字集合;则该词的左右熵为:
其中,Ck(w,lt)和Ck(w,rt)分别为词语w的左单字lt和右单字rt在语料CRPk中出现的次数;
若w没有在语料CRPk中出现,则LEk(w)=REk(w)=0;
对于新语料CRPn,通过增量式的计算得到候选词的耦合度;
对于字长为3的w,若存在w1∈T2,T2为语料CRPn的长度为2的候选词集合,w可分解为pw1,p为单字;计算p和w1的耦合度公式为:
若存在w1∈T2,T2为语料CRPn+1的长度为2的候选词集合,w可分解为w1p,p为单字;计算p和w1的耦合度公式为:
以此类推,得到长度更长的词;
其中,Ck(t)为语料CRPk中词语t出现的次数;λn和βn为语料CRPn的两个阈值,通过调节这两个阈值来控制耦合度过滤程度;如果耦合度的值等于1,则认为w不应该为候选词;
对于新语料CRPn,通过增量式的计算得到候选词的IWP值;
对于词语w,假设w=c1c2,其中,ci为字,i=1,2,IWPk(w)表示词语w在语料CRPk中的独立词概率;则:
IWPn(w)=IWPn(c1)IWPn(c2), (12)
对于字ci,IWPk(ci)表示的字ci的独立词概率,Nk(ci)表示字ci出现的次数,Nk(word(ci))表示字ci独立成词的次数,即字ci作为一个单字出现的次数,则:
(b)基于深度语义计算的增量式保险行业词汇选取
假设存在k个历史语料CRPi、CRPi+1、……、CRPn-1,其中,n=i+k-1;对于新语料CRPn,通过增量式的计算得到候选词的增量式tfidf值;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011463306.2A CN112632969B (zh) | 2020-12-13 | 2020-12-13 | 一种增量式行业词典更新方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011463306.2A CN112632969B (zh) | 2020-12-13 | 2020-12-13 | 一种增量式行业词典更新方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632969A true CN112632969A (zh) | 2021-04-09 |
CN112632969B CN112632969B (zh) | 2022-06-21 |
Family
ID=75312481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011463306.2A Active CN112632969B (zh) | 2020-12-13 | 2020-12-13 | 一种增量式行业词典更新方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632969B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699678A (zh) * | 2021-03-24 | 2021-04-23 | 达而观数据(成都)有限公司 | 一种结合动态词汇增强的模型蒸馏方法 |
CN115034211A (zh) * | 2022-05-19 | 2022-09-09 | 一点灵犀信息技术(广州)有限公司 | 未登录词发现方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100174528A1 (en) * | 2009-01-05 | 2010-07-08 | International Business Machines Corporation | Creating a terms dictionary with named entities or terminologies included in text data |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN107092675A (zh) * | 2017-04-12 | 2017-08-25 | 新疆大学 | 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN109710947A (zh) * | 2019-01-22 | 2019-05-03 | 福建亿榕信息技术有限公司 | 电力专业词库生成方法及装置 |
CN110826322A (zh) * | 2019-10-22 | 2020-02-21 | 中电科大数据研究院有限公司 | 一种新词发现和词性预测及标注的方法 |
CN111897917A (zh) * | 2020-07-28 | 2020-11-06 | 嘉兴运达智能设备有限公司 | 基于多模态自然语言特征的轨道交通行业术语提取方法 |
-
2020
- 2020-12-13 CN CN202011463306.2A patent/CN112632969B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100174528A1 (en) * | 2009-01-05 | 2010-07-08 | International Business Machines Corporation | Creating a terms dictionary with named entities or terminologies included in text data |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN107092675A (zh) * | 2017-04-12 | 2017-08-25 | 新疆大学 | 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN109710947A (zh) * | 2019-01-22 | 2019-05-03 | 福建亿榕信息技术有限公司 | 电力专业词库生成方法及装置 |
CN110826322A (zh) * | 2019-10-22 | 2020-02-21 | 中电科大数据研究院有限公司 | 一种新词发现和词性预测及标注的方法 |
CN111897917A (zh) * | 2020-07-28 | 2020-11-06 | 嘉兴运达智能设备有限公司 | 基于多模态自然语言特征的轨道交通行业术语提取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699678A (zh) * | 2021-03-24 | 2021-04-23 | 达而观数据(成都)有限公司 | 一种结合动态词汇增强的模型蒸馏方法 |
CN115034211A (zh) * | 2022-05-19 | 2022-09-09 | 一点灵犀信息技术(广州)有限公司 | 未登录词发现方法、装置、电子设备及存储介质 |
CN115034211B (zh) * | 2022-05-19 | 2023-04-18 | 一点灵犀信息技术(广州)有限公司 | 未登录词发现方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112632969B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN109858028B (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN111310471A (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
WO2005020091A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
CN110502744B (zh) | 一种针对历史公园评价的文本情感识别方法及装置 | |
CN110688836A (zh) | 基于监督学习的领域词典自动化构建方法 | |
CN113268995A (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN112632969B (zh) | 一种增量式行业词典更新方法和系统 | |
CN111241824B (zh) | 一种用于中文隐喻信息识别的方法 | |
CN113157903A (zh) | 一种面向多领域的电力词库构建方法 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN114219248A (zh) | 一种基于lda模型、依存句法和深度学习的人岗匹配方法 | |
CN111460147B (zh) | 一种基于语义增强的标题短文本分类方法 | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN113032573A (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN117009521A (zh) | 一种基于知识图谱的发动机智能工艺检索及匹配方法 | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 | |
CN114579729B (zh) | 一种融合多算法模型的faq问答匹配方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |