CN110348023A - 一种中文文本分词的方法、装置、存储介质及电子设备 - Google Patents
一种中文文本分词的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110348023A CN110348023A CN201910650446.1A CN201910650446A CN110348023A CN 110348023 A CN110348023 A CN 110348023A CN 201910650446 A CN201910650446 A CN 201910650446A CN 110348023 A CN110348023 A CN 110348023A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- digital image
- vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 147
- 230000011218 segmentation Effects 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims description 36
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种中文文本分词的方法、装置、存储介质及电子设备,其中,该方法包括:获取中文的目标文本,并确定目标文本中的目标字;确定目标字在不同字体下的字图像,并生成目标字的字图像集合;对目标字的字图像集合进行编码处理,生成目标字的字向量;根据目标文本所有的字向量进行序列标注处理,基于序列标注处理结果确定目标文本的分词。通过本发明实施例提供的中文文本分词的方法、装置、存储介质及电子设备,通过包含多个字图像的字图像集合生成目标字的字向量,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,且可以降低中文词边界的模糊性。
Description
技术领域
本发明涉及分词处理的技术领域,具体而言,涉及一种中文文本分词的方法、装置、存储介质及电子设备。
背景技术
目前,基于深度学习的序列标注模型为传统的基于词典和匹配的中文分词工具提供了一种建模方式。但是目前的中文分词模型的分词效果以及准确率等还有待提升。
影响中文分词的效果存在多个原因,一个原因是中文中有大量的未登录词。未登录词在中文分词任务主要集中在组织名称、人名、地点名称等一些命名实体上。另一个原因是中文词义复杂多样,导致中文词边界模糊性较高,有时难以准确地确定中文分词时的边界,导致分词效果较差。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种中文文本分词的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种中文文本分词的方法,包括:
获取中文的目标文本,并确定所述目标文本中的目标字;
确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;
对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;
根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。
在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量,包括:
确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。
在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理,包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
在一种可能的实现方式中,该方法还包括:
建立总损失函数L,在训练时基于所述总损失函数对模型的参数进行优化;
其中,L=(1-λ)L(ws)+λL(cls);L(ws)表示中文分词模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
在一种可能的实现方式中,所述根据所述目标文本所有的所述字向量进行序列标注处理包括:
根据所述目标文本所有的所述字向量生成字向量序列,并基于循环神经网络确定所述字向量序列的序列编码;
将所述序列编码作为序列标注模型的输入,根据所述序列标注模型确定所述目标文本中每个目标字的分词边界标签。
第二方面,本发明实施例还提供了一种中文文本分词的装置,包括:
文本获取模块,用于获取中文的目标文本,并确定所述目标文本中的目标字;
图像集合确定模块,用于确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;
编码模块,用于对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;
标注分词模块,用于根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。
在一种可能的实现方式中,所述编码模块用于:
确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的中文文本分词的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的中文文本分词的方法。
本发明实施例上述第一方面提供的方案中,基于汉字的字形特征实现对文本的分词;利用不同字体中丰富的字形信息,通过包含多个字图像的字图像集合生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,在一定程度上减少了未登录词的数量,且可以降低中文词边界的模糊性。此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,利用该字向量进行分词可以进一步提高分词的准确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种中文文本分词的方法的流程图;
图2示出了本发明实施例所提供的中文文本分词的方法中,卷积神经网络的一种结构示意图;
图3示出了本发明实施例所提供的一种中文文本分词的装置的结构示意图;
图4示出了本发明实施例所提供的用于执行中文文本分词的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种中文文本分词的方法,利用汉字为象形文字的特点,基于汉字的字形特征对文本进行分词。参见图1所示,该方法具体包括:
步骤101:获取中文的目标文本,并确定目标文本中的目标字。
本发明实施例中,目标文本为需要进行分词的文本,且该目标文本为中文格式的文本。同时,目标文本中包含一个或多个字,即目标字,该目标字为汉字形式。在本实施例中,当目标文本中包含多个字时,目标文本可以分为多个字,此时可以将目标文本中的部分字选作目标字,也可以将目标文本中包含的所有字均作为目标字,本实施例对此不做限定。
步骤102:确定目标字在不同字体下的字图像,并生成目标字的字图像集合,字图像集合包含目标字的多个字图像。
本发明实施例中,基于目标字的图像来提取目标字的字形特征;且为了更好地提取目标字的字形特征,本实施例中利用目标字的多种字体的字图像来生成包含字形特征的字向量,使得目标字的字向量可以包含多种字体的字形特征,后续进行分词时结果更加准确。
具体的,首先确定目标字在多种字体下的字图像,进而可以生成包含多个字图像的集合,即字图像集合,之后基于该字图像集合即可生成包含多种字体字形特征的字向量。例如,目标字为汉字“我”,此时可以确定“我”在宋体、楷体、隶书等字体下对应不同的字形,从而可以将不同字体下的目标字“我”的写法转换为图像,即字图像,该字图像可以为灰度图片,也可以为二值化的黑白图片。以字图像是灰度图片为例,每个字图像可以是长为L、宽为W的数字张量(此时为矩阵),每个数字的取值范围为0~255。该字图像集合中包含多个上述的字图像。
需要说明的是,本实施例中的“字体”还可以包含不同历史时期的字体,比如金文、草书、魏碑等,只要是该字体可以包含字形特征即可。
步骤103:对目标字的字图像集合进行编码处理,生成目标字的字向量。
本发明实施例中,可以基于卷积神经网络对目标字的字图像集合进行编码处理,该卷积神经网络的输出即可作为目标字的字向量。
其中,由于字图像集合中包含多个字图像,可以将所有的字图像统一进行编码处理生成字向量,也可以分别对每个字图像进行编码处理,之后基于所有的编码处理结果再生成目标字的字向量。具体的,上述步骤103“对目标字的字图像集合进行编码处理,生成目标字的字向量”包括:
步骤A1:确定字图像集合中每个字图像的图像矩阵,对字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对图像张量进行编码处理,生成目标字的字向量。
本实施例中,每个字图像本质上仍然是图片,可以基于传统的图像处理技术来确定字图像的图像矩阵。例如,若字图像为灰度图像,则该字图像唯一对应相应的图像矩阵,该图像矩阵中的每个元素的取值范围为0~255。同时,在深度方向上拼接生成图像张量;此处的“深度方向”指的是该图像张量的深度方向。例如,图像矩阵为L×W的矩阵,则图像张量即为L×W×D的三维张量。
或者,上述步骤103“对目标字的字图像集合进行编码处理,生成目标字的字向量”包括:
步骤A2:确定字图像集合中每个字图像的图像矩阵,分别对每个字图像的图像矩阵进行编码处理,生成每个字图像的图像编码;根据字图像集合中D个字图像的图像编码生成目标字的字向量。
本发明实施例中,对于字图像集合中的多个字图像(即D个字图像),可以基于卷积神经网络分别对每个字图像的图像矩阵进行编码处理,基于该卷积神经网络的输出即可确定相应字图像的图像编码,之后基于D个字图像的图像编码生成目标字的字图像。具体的,可以将D个图像编码拼接为一个编码,将拼接后生成的编码作为目标字的字向量;或者,对D个图像编码进行池化处理(例如最大池化处理等),将池化处理后的编码作为目标字的字向量。
步骤104:根据目标文本所有的字向量进行序列标注处理,基于序列标注处理结果确定目标文本的分词。
本发明实施例中,在确定目标文本中每个目标字的字向量之后,即可以此为基础进行分词处理。具体的,可以基于序列标注模型对字向量进行序列标注,进而根据序列标注结果来确定目标文本的分词。
可选的,上述步骤104“根据目标文本所有的字向量进行序列标注处理”包括:
步骤B1:根据目标文本所有的字向量生成字向量序列,并基于循环神经网络确定字向量序列的序列编码。
本发明实施例中,字向量序列是由多个字向量组成的序列,将该字向量序列输入循环神经网络中可以进行进一步编码,得到目标文本中每一个时刻的编码向量,进而可以得到字向量序列相应的序列编码。例如,字向量序列为[x1,x2,…,xt,…,xn],输入至预先设置的循环神经网络后,该循环神经网络的输出向量为H,且H=[h1,h2,…,ht,…,hn];其中xt表示字向量序列中第t个字向量,ht表示与xt相对应的第t个时刻的编码向量,该输出向量H即为字向量序列的序列编码。具体的,该循环神经网络可以是长短期记忆网络,比如栅格长短期记忆网络等。
步骤B2:将序列编码作为序列标注模型的输入,根据序列标注模型确定目标文本中每个目标字的分词边界标签。
本发明实施例中,将目标文本的序列编码输入至预设的序列标注模型后,该序列标注模型即可为每个目标字标注标签。具体的,该序列标注模型可以为条件随机场P(Y|H),其中的Y表示目标文本的标签序列。在将序列编码输入至条件随机场后,条件随机场通过对条件概率进行建模,最后输出条件概率最大的输出序列Ymax。该序列Ymax由对应的分词边界标签组成,该序列Ymax即可作为最终确定的标签序列。其中,分词边界标签包括:S-seg,B-seg,M-seg,E-seg,基于上述最终确定的标签序列即可对目标文本进行切分,实现对目标文本的分词。例如,目标文本为abcdef,其中的每个字母表示一个目标字,即目标文本包含六个目标字;若目标文本的标签序列为[S-seg,B-seg,M-seg,E-seg,B-seg,E-seg],则该目标文本可以分为三个分词,分别为a、bcd、ef。
未登录词主要集中在人名、地名等命名实体上,本实施例中通过引入来自中文字型的特征向量,能够丰富中文字向量的语义表达能力,提高命名实体识别的准确率,最终减少了中文分词中的未登录词的数量。此外,通过引入来自中文字型的特征向量,能够丰富中文字向量的语义表达能力,从而减少单个中文汉字成词的错误结果,最终提高中文分词的效果。
本发明实施例提供的一种中文文本分词的方法,基于汉字的字形特征实现对文本的分词;利用不同字体中丰富的字形信息,通过包含多个字图像的字图像集合生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,字向量中包含更多的特征,可以更加有效地识别未登录词,在一定程度上减少了未登录词的数量,且可以降低中文词边界的模糊性。此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,利用该字向量进行分词可以进一步提高分词的准确率。
在上述实施例的基础上,上述步骤103“对目标字的字图像集合进行编码处理”包括:
步骤C1:基于卷积神经网络对目标字的字图像集合进行编码处理,卷积神经网络的至少一个池化层输出c×c的第一中间向量。其中,该池化层的过滤器尺寸为s×s,且步长也为s;输入至池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
本发明实施例中,基于卷积神经网络对字图像集合进行编码处理,卷积神经网络一般包括卷积层、池化层、全连接层等,具体可基于实际情况而定。本实施例中的卷积神经网络包含池化层,且其中的至少一个池化层可以输出c×c的向量,即第一中间向量。具体的,该池化层的输入为a×a的向量,经过池化层s×s大小的过滤器、步长为s的池化操作之后,该池化层即可输出c×c的向量。本实施例中,c优先为2,此时可以将字图像分割为四部分,从而可以捕捉该目标字在各个部分的字形特征;由于汉字包含偏旁部首等信息,此时也更容易捕捉汉字的偏旁部首信息。
例如,c=2,该池化层的输入为8×8的向量(即a=8),则池化层的过滤器大小为4×4,且池化处理时的步长为4;将8×8的向量输入至该池化层进行池化处理后,即可生成2×2的第一中间向量。其中,该池化层可以是最大池化层。a、c、s的数值具体可基于卷积神经网络的结构而定。
在上述实施例的基础上,上述步骤103“对目标字的字图像集合进行编码处理”包括:
步骤C2:基于卷积神经网络对目标字的字图像集合进行编码处理,卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
本发明实施例中,基于卷积神经网络来提取目标字的字形特征。为了更好地提取出字形特征,本实施例中将字分为至少四部分来提取字形特征。具体的,该卷积神经网络中至少存在一个能够输出c×c×H向量的卷积层,该卷积层可以提取出c×c个部分的特征。若c=2,则可以将字图像分割为四部分,从而可以捕捉该目标字在每个部分的字形特征;由于汉字包含偏旁部首等信息,此时也更容易捕捉汉字的偏旁部首信息。
此外,该卷积神经网络的一个卷积层的输入为c×c的向量,其中,该输入的深度可以为1,也可以为其他值,本实施例对此不做限定。该卷积层通过H个1×1的卷积核对c×c的输入向量进行卷积处理,从而可以输出c×c×H的向量,即第二中间向量,此时的H表示第二中间向量的深度。本实施例中通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。本领域技术人员可以理解,该卷积神经网络可以包含上述步骤C1中的池化层和步骤C2中的卷积层,此时可以将上述池化层输出的第一中间向量作为该卷积层的输入,进而该卷积层输出第二中间向量。
具体的,本实施例基于卷积神经网络对目标字的字图像集合进行编码处理的一种过程示意图参见图2所示。其中,每个字图像为L×W的矩阵,将字图像集合中D个字图像拼接成L×W×D的三维张量作为该卷积神经网络的输入;之后基于卷积、池化等处理后(图2中以3×3卷积为例说明)生成s×s的向量,并将该s×s的向量输入至池化层进行最大池化处理,图2中以s=6为例说明。经最大池化处理后生成c×c的第一中间向量(图2中以c=2为例说明),之后经过1×1卷积处理生成2×2×H的第二中间向量,最后再经过一系列处理即可生成最终的字向量,图2中以该字向量为1×1的向量为例说明。
在上述实施例的基础上,为本发明实施例提供的方法建立总损失函数,基于该总损失函数对模型训练进行约束。具体的,建立总损失函数的过程包括:
建立总损失函数L,在训练时基于总损失函数对模型的参数进行优化,最终使得模型达到较好的效果;
其中,L=(1-λ)L(ws)+λL(cls);L(ws)表示中文分词模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
本发明实施例中,总损失函数中的L(ws)表示中文分词模型对应的损失函数,本实施例中的分词方法可以看做基于一个分词模型(例如包含卷积神经网络、循环神经网络、条件随机场等)进行分词,该分词模型即为上述的“中文分词模型”。此外,本实施例中可以基于卷积神经网络生成目标字的字向量,之后可以将该字向量输入至训练好的分类器中,基于目标字包含字形特征的字向量可以对字图像进行分类,即利用分类器可以识别出该目标字对应哪个汉字,该分类器即为“字图像分类器”。将字图像分类器的损失函数添加至总损失函数中,通过多任务的学习可以增强总模型的泛化能力,且通过图像分类也可以进一步减小过拟合。
本发明实施例提供的一种中文文本分词的方法,基于汉字的字形特征实现对文本的分词;利用不同字体中丰富的字形信息,通过包含多个字图像的字图像集合生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,在一定程度上减少了未登录词的数量,且可以降低中文词边界的模糊性。此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,利用该字向量进行分词可以进一步提高分词的准确率。基于卷积神经网络的池化层可以输出c×c的第一中间向量,可以将图像分割为多个部分,利于捕捉目标字在各个部分的字形特征;通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。将字图像分类器的损失函数添加至总损失函数中,通过多任务的学习可以增强总模型的泛化能力,也可以进一步减小过拟合。
以上详细介绍了中文文本分词的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种中文文本分词的装置,参见图3所示,包括:
文本获取模块31,用于获取中文的目标文本,并确定所述目标文本中的目标字;
图像集合确定模块32,用于确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;
编码模块33,用于对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;
标注分词模块34,用于根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。
在上述实施例的基础上,所述编码模块33用于:
确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。
在上述实施例的基础上,所述编码模块33对所述目标字的所述字图像集合进行编码处理,包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
在上述实施例的基础上,所述编码模块33对所述目标字的所述字图像集合进行编码处理包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
在上述实施例的基础上,该装置还包括评价模块;
所述评价模块用于建立总损失函数L,在训练时基于所述总损失函数对模型的参数进行优化;
其中,L=(1-λ)L(ws)+λL(cls);L(ws)表示中文分词模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
在上述实施例的基础上,所述标注分词模块34根据所述目标文本所有的所述字向量进行序列标注处理包括:
根据所述目标文本所有的所述字向量生成字向量序列,并基于循环神经网络确定所述字向量序列的序列编码;
将所述序列编码作为序列标注模型的输入,根据所述序列标注模型确定所述目标文本中每个目标字的分词边界标签。
本发明实施例提供的一种中文文本分词的装置,基于汉字的字形特征实现对文本的分词;利用不同字体中丰富的字形信息,通过包含多个字图像的字图像集合生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,在一定程度上减少了未登录词的数量,且可以降低中文词边界的模糊性。此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,利用该字向量进行分词可以进一步提高分词的准确率。基于卷积神经网络的池化层可以输出c×c的第一中间向量,可以将图像分割为多个部分,利于捕捉目标字在各个部分的字形特征;通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。将字图像分类器的损失函数添加至总损失函数中,通过多任务的学习可以增强总模型的泛化能力,也可以进一步减小过拟合。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的中文文本分词的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的中文文本分词的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种中文文本分词的方法,其特征在于,包括:
获取中文的目标文本,并确定所述目标文本中的目标字;
确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;
对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;
根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量,包括:
确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标字的所述字图像集合进行编码处理,包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标字的所述字图像集合进行编码处理包括:
基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
建立总损失函数L,在训练时基于所述总损失函数对模型的参数进行优化;
其中,L=(1-λ)L(ws)+λL(cls);L(ws)表示中文分词模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
6.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述目标文本所有的所述字向量进行序列标注处理包括:
根据所述目标文本所有的所述字向量生成字向量序列,并基于循环神经网络确定所述字向量序列的序列编码;
将所述序列编码作为序列标注模型的输入,根据所述序列标注模型确定所述目标文本中每个目标字的分词边界标签。
7.一种中文文本分词的装置,其特征在于,包括:
文本获取模块,用于获取中文的目标文本,并确定所述目标文本中的目标字;
图像集合确定模块,用于确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;
编码模块,用于对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;
标注分词模块,用于根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。
8.根据权利要求7所述的装置,其特征在于,所述编码模块用于:
确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的中文文本分词的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任意一项所述的中文文本分词的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910650446.1A CN110348023A (zh) | 2019-07-18 | 2019-07-18 | 一种中文文本分词的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910650446.1A CN110348023A (zh) | 2019-07-18 | 2019-07-18 | 一种中文文本分词的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348023A true CN110348023A (zh) | 2019-10-18 |
Family
ID=68178841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910650446.1A Pending CN110348023A (zh) | 2019-07-18 | 2019-07-18 | 一种中文文本分词的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348023A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
-
2019
- 2019-07-18 CN CN201910650446.1A patent/CN110348023A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN110852102B (zh) * | 2019-11-14 | 2023-09-05 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410353B2 (en) | Multi-label semantic boundary detection system | |
CN110334357A (zh) | 一种命名实体识别的方法、装置、存储介质及电子设备 | |
TWI766855B (zh) | 一種字符識別方法和裝置 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN111709406B (zh) | 文本行识别方法及装置、可读存储介质、电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN106599900A (zh) | 一种识别图像中的字符串的方法和装置 | |
IL273446A (en) | Method and system for identifying content in an image | |
CN111428593A (zh) | 一种文字识别方法、装置、电子设备及存储介质 | |
CN110348025A (zh) | 一种基于字形的翻译方法、装置、存储介质及电子设备 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110490199A (zh) | 一种文本识别的方法、装置、存储介质及电子设备 | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN112163114A (zh) | 一种基于特征融合的图像检索方法 | |
CN110348023A (zh) | 一种中文文本分词的方法、装置、存储介质及电子设备 | |
Inunganbi et al. | Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN111242114B (zh) | 文字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |