发明内容
本发明的主要目的在于提供一种用于文本识别的数据处理方法及装置,以解决现有技术中过滤背景噪音词准确率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于文本识别的数据处理方法。
根据本发明的用于文本识别的数据过滤方法包括:获取语料中的目标词;获取语料中的参考词;将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量;计算目标词向量和参考词向量的相似度;将相似度和预设阈值比较;以及如果相似度不大于预设阈值,则确定目标词是背景噪音词,如果相似度大于预设阈值,则确定目标词不是背景噪音词。
进一步地,参考词向量包括多个参考词向量,计算目标词向量与参考词向量的相似度包括:依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
进一步地,分布式描述方法将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
进一步地,在获取目标词和参考词之前,方法还包括:将语料中的文本进行分词,得到切分词集合;以及过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词和参考词。
进一步地,计算目标词向量和参考词向量的相似度包括:计算目标词向量和参考词向量的夹角的余弦值;以及通过余弦值计算目标词向量和参考词向量的相似度。
为了实现上述目的,根据本发明的另一方面,提供了一种用于文本识别的数据处理装置。
该用于文本识别的数据过滤装置包括:第一获取单元,用于获取语料中的目标词;第二获取单元,用于获取语料中的参考词;转换单元,用于将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量;计算单元,用于计算目标词向量和参考词向量的相似度;比较单元,用于比较相似度和预设阈值;以及确定单元,用于当相似度不大于预设阈值时,则确定目标词是背景噪音词,当相似度大于预设阈值时,则确定目标词不是背景噪音词。
进一步地,参考词向量包括多个参考词向量,计算单元包括:第一计算模块,用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取模块,用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
进一步地,转换单元通过分布式描述装置将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
进一步地,装置还包括:分词单元,用于将语料中的文本进行分词,得到切分词集合;以及过滤单元,用于过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词和参考词。
进一步地,计算单元包括:第二计算模块,用于计算目标词向量和参考词向量的夹角的余弦值;以及第三计算模块,用于通过余弦值计算目标词向量和参考词向量的相似度。
通过本发明,通过计算目标词向量与参考词向量的相似度来确定目标词是否为背景噪音词,从而过滤该目标词,解决了现有技术中过滤背景噪音词准确率低的问题,进而达到了提高过滤背景噪声词准确率的效果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将主题附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下是对本发明涉及的一些术语进行解释:
语料库:在自然语言处理领域,语料库通常是指一个文本集合,语料是语料库的文本。本发明涉及的语料都为特定领域的文本,例如法律文本领域、计算机文本领域等。
背景噪音词:语料自身通常会带有一些与文本主题无关的词,这些词称为背景噪音词,背景噪音词包括绝对噪音词和相对噪音词。绝对噪音词是指在语料中出现次数较多,分布稳定的词,例如,“人民日报讯”、“据新华社电”,这些词在许多文本中都会出现,但是这些词对于文本主题的分类并不起作用。相对噪音词,是指一类词本身不是噪音词,但是在特定的领域中却成为背景噪音词,例如,“纠纷”一词在法律文本相关主题下都较常出现,如“离婚纠纷”、“买卖合同纠纷”、“民间借贷纠纷”等,因此“纠纷”一词对于法律相关领域的文本主题的细分所起作用不大。背景噪音词一方面对于主题的分类所起作用不大,另一方面占用存储空间同时影响检索效率,因此需要对其进行过滤。
主题模型:就是对文字中隐含主题的一种建模方法。其中,主题是一个概念、一个方面,表现为一系列与该主题相关的词语。例如,如果文本中涉及到“百度”这个主题,则“中文搜索”、“李彦宏”等词语出现的频率较高,而如果文本中涉及到“IBM”这个主题,那么“笔记本”等词语出现的频率则较高。用数学语言描述,主题就是词汇表上词语出现的条件概率分布。
在同一主题下的文本中,出现的条件概率较高的词语与该主题具有语义相似性,这些词语更倾向于描述该主题的主旨内容,而出现的条件概率越低的词语则更倾向于是与该主题无关的词语。对于同一个词语,在不同主题下出现的概率分布可以描述该词语描述主题的倾向性。根据上述特点,可以区分出背景噪音词与非背景噪音词的区别,即在不同主题下词语出现的条件概率都处于中间水平的词语为背景噪音词。如图1所示,图1中的每个点都表示一个词语,假设只有两个主题,主题1和主题2,图1右下方的三个点以较高的概率出现在主题1中,但是这三个点出现在主题2中的概率较低,表示这三个点对应的词语对于区分文本是否描述主题1的时候作用较大,即这三个点对应的词与主题1的相关性较大,可以作为检索主题1相关文本的关键词。同样,图1中左上角的三个点以较高的概率出现在主题2中,但是出现在主题1中的概率很低,表示三个点对应的词语对于区分文本是否描述主题2的时候作用较大,即这三个点对应的词与主题2的相关度较大,可以作为检索主题2相关文本的关键词。相反,图1中间部分的四个点在主题1和主题2下出现的概率都处于中间水平,对于区文本是描述主题1还是主题2所起作用很小,即这四个点对应的词语与主题1和主题2的相关度都低,因此这些词语为背景噪音词。
根据本发明的实施例,提供了一种用于文本识别的数据处理方法,图1是根据本发明实施例的用于文本识别的数据处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S112:
步骤S102:获取语料中的目标词。
步骤S104:获取语料中的参考词。
目标词为语料中待过滤的词,参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中,需要依次对语料中的每个词进行判断是否为背景噪音词,当判断出为背景噪音词时,则过滤该词。因此,语料中的每个词依次作为目标词,此时,语料中除该目标词外的其他词则作为参考词,通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。
步骤S106:将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
词向量是指词语的向量表示,最简单的表示方法是稀疏描述法(One-hotRepresentation),该方法将词表中的每个词表示成一个由0和1组成的向量,其中,只有一个维度值为1,其余维度值都为0,向量的维度为词表的大小,词表由所有需要进行向量化词语组成,词语的个数即为词表的大小,例如,一个词表包含10个词语,则该词表的所有词语转换成10维的向量,例如,“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0],“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0],向量中数值为1的位置对应该词在词表的位置,即“话筒”位于词表中第6个位置,“麦克”位于词表中第2个位置。另一种表示方法为分布式描述方法(Distributed Representation),该方法是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“话筒”的词向量可以仅通过五维向量进行表示,例如[0.792,-0.177,-0.107,0.109,-0.542],这种方式能够大大减少向量的维数。
本发明实施例通过将语料中包含的所有词作为训练样本,包括目标词和参考词,利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由google提出的深度学习算法word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。
步骤S108:计算目标词向量和参考词向量的相似度。
相似度是指两个词之间的相似程度,可以是语义的相似程度,也可以是词法的相似程度,通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。
通过计算语料中词语两两之间的相似度,可以将这些词语划分出多个聚类,同一个聚类中的词语两两之间都具有很高的相似度,相反,不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题,每个聚类包含的词语都与同一主题具有较高的相关性,这些词都倾向于描述该主题,在该主题下这些词出现的条件概率较高,这些词可以作为检索该主题相关文本的关键词。但是,当一个词与语料中其他词的相似度都不高时,说明该词不倾向于描述任何主题,在任何主题下该词出现的条件概率都较低,则该词即为背景噪音词。
步骤S110:将相似度和预设阈值比较。
步骤S112:如果所述相似度不大于所述预设阈值,则确定所述目标词是背景噪音词,如果所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。
相似度能够直观的描述两个词之间的语义相似程度,根据上述描述可知,背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值,说明目标词为背景噪音词,需要对其进行过滤,如果相似度大于预设阈值,则说明目标词为非背景噪音词,则不需要对其进行过滤。
本发明实施例通过将语料中的目标词和参考词转换成词向量,计算目标词向量和参考词向量之间的相似度,并与预设阈值比较来确定目标词是否为需要过滤的背景噪音词,当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此可以确定该目标词为背景噪音词,需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度,通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性,因此,本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。
可选地,参考词向量包括多个参考词向量,计算目标词向量与参考词向量的相似度包括:依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
当参考词向量为多个时,则依次计算目标词向量与参考词向量中的每一个的相似度,得到一个相似度集合。由于背景噪音词与语料中其他词的相似度都不高(不满足极高)。因此,可以通过统计相似度集合中的最大值作为该目标词对应的最大相似度。例如,“纠纷”一词与“离婚”、“合同”、“借贷”的相似度为0.6、0.5、0.5,那么“纠纷”对应的最大相似度为0.6,“结婚证”一词与“离婚”、“合同”、“借贷”的相似度为0.9、0.1、0.05,那么“结婚证”对应的最大相似度为0.9。通过将目标词对应的相似度最大值与预设阈值比较来确定目标词是否为背景噪音词,如果目标词对应的相似度最大值小于预设阈值,则说明该目标值为背景噪音词,需要过滤该目标词。
如下代码用于计算语料中每个词与语料中其他词语的相似度,并计算每个词语与语料中其他词语的相似度中值最大的相似度,最后实现将语料中所有词语对应的值最大的相似度进行排序,通过排序可以提高相似度与预设阈值比较的效率,例如,A1、A2、A3分别为三个词对应的值最大相似度,其中A1<A2<A3,当A1大于预设阈值时,则A2、A3无需与预设阈值比较就可以得到大于预设阈值,这样避免将每个词对应的值最大相似度与预设阈值比较:
优选地,通过分布式描述方法将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
上述稀疏描述法一方面存在“词汇鸿沟”的问题,即得到的词向量之间相互孤立,从两个词向量中不能得出两个词之间的相似关系,另一方面该方法容易出现“维数灾难”,即词向量维数过大,导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近,所谓的距离即余弦夹角的距离。此外,分布式描述方法表示的词向量具有较低的维度,适合于进行机器训练,训练的效率都较高,所占用的内存相对于稀疏描述法较少。因此,采用分布式描述方法将目标词和参考词转换为词向量。
优选地,为了提高词向量训练的效率,在获取目标词和参考词之前,方法还包括:将语料中的文本进行分词,得到切分词集合;以及过滤切分词集合中的停用词,其中,在过滤停用词后的切分词集合中获取目标词和参考词。
语料都是一个个文本,并不是独立的词语,因此,需要对语料的中的文本进行分词,得到一个个独立的词语,例如,将文本“取得结婚证就建立了婚姻关系”进行分词,得到切分词集合{取得,结婚证,就,建立,了,婚姻关系}。从该切分词集合中可以看出,“取得”、“就”、“建立”、“了”这些词对于主题检索和分类并不起作用,这些词即为停用词。如若保留这些停用词,一方面增加了词向量训练过程的复杂度,降低词向量训练的效率,另一方面这些停用词会影响词向量训练的训练质量,从而影响训练得到的词向量之间相似度的准确性。因此在获取词向量训练样本之前需要过滤切分词集合中的停用词,即在获取目标词和参考词之前先过滤切分词中的停用词。
优选地,计算目标词向量和参考词向量的相似度包括:计算目标词向量和参考词向量的夹角的余弦值;以及通过余弦值计算目标词向量和参考词向量的相似度。
通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度,计算公式如下:
其中,X、Y分别表示词向量X和词向量Y。cosθ的取值范围为[0,1],cosθ越接近1时,则表示两词语之间的相似度越高,反之,cosθ值越接近0,则表示两词语之间的相似度越低。通过计算词向量的夹角的余弦值能够较为直观的反映出两个词的相似度。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例通过将语料中的目标词和参考词转换成词向量,计算目标词向量和参考词向量之间的相似度,由于背景噪音词与语料中其他词的相似度都较低,因此通过将目标词对应的相似度最大值与预设阈值比较可以确定目标词是否为需要过滤的背景噪音词,当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此可以确定该目标词为背景噪音词,需要过滤该目标词。本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。本发明实施例在转换语料中的词为词向量之前进行停用词的过滤,提高了词向量训练的效率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例的另一方面,提供了一种用于文本识别的数据处理装置。该用于文本识别的数据处理装置可以用于执行本发明实施例的用于文本识别的数据处理方法,本发明实施的用于文本识别的数据处理方法也可以通过本发明实施例的用于文本识别的数据处理装置来执行。图3是根据本发明实施例的用于文本识别的数据处理装置的示意图。
如图3所示,该装置包括:第一获取单元10、第二获取单元20、转换单元30、计算单元40、比较单元50和确定单元60。
第一获取单元10,用于获取语料中的目标词。
第二获取单元20,用于获取语料中的参考词。
目标词为语料中待过滤的词,参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中,需要依次对语料中的每个词进行判断是否为背景噪音词,当判断出为背景噪音词时,则过滤该词。因此,语料中的每个词依次作为目标词,此时,语料中除该目标词之外的其他词则作为参考词,通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。
转换单元30,用于将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
词向量是指词语的向量表示,最简单的表示方法是稀疏描述法(One-hotRepresentation),该方法将词表中的每个词表示成一个由0和1组成的向量,其中,只有一个维度值为1,其余维度值都为0,向量的维度为词表的大小,词表由所有需要进行向量化词语组成,词语的个数即为词表的大小。
优选地,转换单元30通过分布式描述装置将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
分布式描述方法(Distributed Representation)是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“话筒”的词向量可以仅通过五维向量进行表示,例如[0.792,-0.177,-0.107,0.109,-0.542],这种方式能够大大减少向量的维数。
本发明实施例通过将语料中包含的所有词作为训练样本,包括目标词和参考词,利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由google提出的深度学习算法word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。
计算单元40,用于计算目标词向量和参考词向量的相似度。
相似度是指两个词之间的相似程度,可以是语义的相似程度,也可以是词法的相似程度,通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。
优选地,计算单元40包括:第二计算模块,用于计算目标词向量和参考词向量的夹角的余弦值;以及第三计算模块,用于通过余弦值计算目标词向量和参考词向量的相似度。
通过计算语料中词语两两之间的相似度,可以将这些词语划分出多个聚类,同一个聚类中的词语两两之间都具有很高的相似度,相反,不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题,每个聚类包含的词语都与同一主题具有较高的相关性,这些词都倾向于描述该主题,在该主题下这些词出现的条件概率较高,这些词可以作为检索该主题相关文本的关键词。但是,当一个词与语料中其他词的相似度都不高时,说明该词不倾向于描述任何主题,在任何主题下该词出现的条件概率都较低,则该词即为背景噪音词。
比较单元50,用于比较相似度和预设阈值。
确定单元60,用于当相似度不大于预设阈值时,则确定目标词是背景噪音词,当相似度大于预设阈值时,则确定目标词不是背景噪音词。
相似度能够直观的描述两个词之间的语义相似程度,根据上述描述可知,背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值,说明目标词为背景噪音词,需要对其进行过滤,如果相似度大于预设阈值,则说明目标词为非背景噪音词,则不需要对其进行过滤。
本发明实施例通过装换单元30将语料中的目标词和参考词转换成词向量,通过计算单元40计算目标词向量和参考词向量之间的相似度,并通过比较单元50将得到的相似度与预设阈值比较来确定目标词是否为需要过滤的背景噪音词,当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此确定单元60可以确定该目标词为背景噪音词,需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度,通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性,因此,本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。
优选地,参考词向量包括多个参考词向量,计算单元40包括:第一计算模块,用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取模块,用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
优选地,该装置还包括:分词单元,用于将语料中的文本进行分词,得到切分词集合;以及过滤单元,用于过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词和参考词。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。