CN110852102B - 一种中文的词性标注方法、装置、存储介质及电子设备 - Google Patents

一种中文的词性标注方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110852102B
CN110852102B CN201911113982.4A CN201911113982A CN110852102B CN 110852102 B CN110852102 B CN 110852102B CN 201911113982 A CN201911113982 A CN 201911113982A CN 110852102 B CN110852102 B CN 110852102B
Authority
CN
China
Prior art keywords
word
vector
feature
font
radical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911113982.4A
Other languages
English (en)
Other versions
CN110852102A (zh
Inventor
韩庆宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiangnong Huiyu Technology Co ltd
Original Assignee
Beijing Xiangnong Huiyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiangnong Huiyu Technology Co ltd filed Critical Beijing Xiangnong Huiyu Technology Co ltd
Priority to CN201911113982.4A priority Critical patent/CN110852102B/zh
Publication of CN110852102A publication Critical patent/CN110852102A/zh
Application granted granted Critical
Publication of CN110852102B publication Critical patent/CN110852102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种中文的词性标注方法、装置、存储介质及电子设备,其中,该方法包括:获取中文文本,确定其中的目标字,并确定目标字的字图像;确定每个目标字的语义特征向量,根据目标字的字图像确定目标字的部首特征向量和字形特征向量;根据目标字的语义特征向量、部首特征向量和字形特征向量生成目标字的字向量,将中文文本的所有目标字的字向量作为预设的词性标注模型的输入,对中文文本进行词性标注处理。通过本发明实施例提供的中文的词性标注方法、装置、存储介质及电子设备,利用汉字独有的特点,结合汉字的语义特征、部首特征和字形特征对中文文本进行词性标注,可以更准确地对中文文本进行词性标注,提高了词性标注的效果。

Description

一种中文的词性标注方法、装置、存储介质及电子设备
技术领域
本发明涉及中文的词性标注技术领域,具体而言,涉及一种中文的词性标注方法、装置、存储介质及电子设备。
背景技术
长期以来,词性标注被视为一个分类问题,即对每一个词,直接赋予它一个词性标签(比如名词、动词、形容词);而另一方面,中文缺乏天然的词分隔符又使得分词成为词性标注的一大障碍。传统的词性标注方法大都像英文一样使用长短时记忆网络和条件随机场,这样就忽略了中文汉字所具备的特殊性,传统方法对汉字进行词性标注时准确度较低,易发生错误。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种中文的词性标注方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种中文的词性标注方法,包括:
获取待标注的中文文本,确定所述中文文本中的目标字,并确定每个所述目标字所对应的字图像;
确定每个所述目标字的语义特征向量,根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量;
根据所述目标字的所述语义特征向量、部首特征向量和字形特征向量生成所述目标字的字向量,将所述中文文本的所有所述目标字的字向量作为预设的词性标注模型的输入,对所述中文文本进行词性标注处理。
在一种可能的实现方式中,所述根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量,包括:
预先设置部首特征模型和字形特征模型,根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量,并根据所述字形特征模型确定所述目标字的字形特征向量。
在一种可能的实现方式中,所述部首特征向量和所述字形特征向量为等长的向量;在所述获取待标注的中文文本之前,该方法还包括:
获取中文的样本字,并确定所述样本字的样本字图像;随机生成一个或多个与所述样本字不同的参考字,并确定所述参考字的参考字图像;
将所述样本字图像作为待训练的部首特征模型的输入,确定所述样本字图像的部首特征样本向量;将所述样本字图像作为待训练的字形特征模型的输入,确定所述样本字图像的字形特征样本向量,并将所述参考字图像作为待训练的所述字形特征模型的输入,确定所述参考字图像的字形特征参考向量;
确定第一相似度和第二相似度,所述第一相似度为所述部首特征样本向量与所述字形特征样本向量之间的相似度,所述第二相似度为所述部首特征样本向量与所述字形特征参考向量之间的相似度;
将最大相似度与所述第一相似度之间的差值、以及所述第二相似度与最小相似度之间的差值作为期望值,并基于所述期望值对所述部首特征模型和所述字形特征模型进行训练,生成训练后的部首特征模型和字形特征模型。
在一种可能的实现方式中,所述部首特征模型包括特征金字塔网络和全连接层;
所述根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量包括:
将所述目标字的所述字图像输入至所述特征金字塔网络,并确定所述特征金字塔网络最后一层的输出结果;将所述输出结果输入至所述全连接层,将所述输出结果转换为部首特征向量。
在一种可能的实现方式中,所述确定所述目标字的字形特征向量包括:
确定所述目标字在不同字体下相对应的D个字体图像,并确定每个字体图像的图像矩阵;
对D个所述字体图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;
对所述图像张量进行编码处理,生成所述目标字的字形特征向量。
在一种可能的实现方式中,所述对所述图像张量进行编码处理,生成所述目标字的字形特征向量,包括:
对所述图像张量进行卷积处理,生成第一中间向量,所述第一中间向量为c×c的向量;
以尺寸为s×s的过滤器对所述第一中间向量进行步长为s的池化处理,将所述第一中间向量转换为2×2的第二中间向量;
将所述第二中间向量转换为一维的字形特征向量。
在一种可能的实现方式中,所述将所述第二中间向量转换为一维的字形特征向量包括:
基于H个1×1的卷积核,将所述第二中间向量转换为2×2×H的第三中间向量;
根据分组卷积神经网络对所述第三中间向量进行分组卷积处理,生成1×1×L的字形特征向量,L为所述字形特征向量在深度方向上的长度,且L=4H。
第二方面,本发明实施例还提供了一种中文的词性标注装置,包括:
预处理模块,用于获取待标注的中文文本,确定所述中文文本中的目标字,并确定每个所述目标字所对应的字图像;
特征向量提取模块,用于确定每个所述目标字的语义特征向量,根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量;
词性标注模块,用于根据所述目标字的所述语义特征向量、部首特征向量和字形特征向量生成所述目标字的字向量,将所述中文文本的所有所述目标字的字向量作为预设的词性标注模型的输入,对所述中文文本进行词性标注处理。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的中文的词性标注方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的中文的词性标注方法。
本发明实施例上述第一方面提供的方案中,对于中文格式的中文文本,首先提取中文文本中汉字的语义特征向量、部首特征向量和字形特征向量,利用汉字独有的特点,结合汉字的语义特征、部首特征和字形特征对中文文本进行词性标注,可以更准确地对中文文本进行词性标注,提高了词性标注的效果。此外,基于部首特征和字形特征可以更加有效地识别未登录词和低频词,可以进一步提高词性标注的准确性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种中文的词性标注方法的流程图;
图2示出了本发明实施例所提供的中文的词性标注方法中,学习训练过程的方法流程图;
图3示出了本发明实施例所提供的提取字形特征向量时的过程示意图;
图4示出了本发明实施例所提供的一种中文的词性标注装置的结构示意图;
图5示出了本发明实施例所提供的用于执行中文的词性标注方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种中文的词性标注方法,可以更好地提取中文的特性,进而能够更加准确地对中文进行词性标注。参见图1所示,该方法包括:
步骤101:获取待标注的中文文本,确定中文文本中的目标字,并确定每个目标字所对应的字图像。
本发明实施例中,当有一段中文需要进行词性标注时,即可将该段中文作为步骤101中的中文文本。其中,该中文文本包含一个或多个汉字,本实施例中可以将中文文本中的全部汉字均作为目标字,也可以选取其中的一部分汉字作为目标字,本实施例对此不做限定。同时,每个目标字均为一个汉字,该目标字可以对应一个能够表示该目标字写法的字图像。其中,由于每个汉字可以占用一个方格,故该字图像可以为方形的图像;该字图像具体可以为黑白图像,也可以为灰度图像,具体根据实际情况而定。可选的,可以预先建立字图像库,从该字图像库中选取与该目标字相对应的字图像。
步骤102:确定每个目标字的语义特征向量,根据目标字的字图像确定目标字的部首特征向量,并确定目标字的字形特征向量。
本发明实施例中,目标字本身为一个汉字,其可以包含相应的语义信息,本实施例提取出可以表示目标字的语义信息的语义特征向量。其中,具体可以采用现有的字向量模型来提取语义特征向量。例如,通过12层的BERT-Base预训练模型,从而可以得到与目标字对应上下文向量表示,即语义特征向量。
同时,由于中文为象形文字,故目标字的字形特征也可以表征该目标字的特点。此外,因为大部分汉字为形声字,故在词性标注时,目标字的偏旁部首在很大程度上可以反映一个词的词性;例如,具有提手旁的“打、把、拍”等为动词,具有鸟字旁的“鸡、鸭、鹊、鹤”是名字。本实施例中基于目标字的字图像提取字形特征向量的同时,还可以基于目标字的字图像提取部首特征向量,从而可以更有效地对中文进行词性标注。
此外,中文中存在大量的低频词和未登录词,低频词即为出现频率较小的词,未登录词主要集中在组织名称、人名、地点名称等一些命名实体上。由于低频词和未登录词的存在,导致对中文进行词性标注的效果较差。本实施例中通过提取目标字的部首特征和字形特征,能够从汉字本身的字形特征出发,因此缓解了特征空间中存在未登录词和低频词所导致的问题。
可选的,在上述步骤102中,可以预先设置部首特征模型和字形特征模型,根据目标字的字图像和部首特征模型确定目标字的部首特征向量,并根据字形特征模型确定目标字的字形特征向量。
步骤103:根据目标字的语义特征向量、部首特征向量和字形特征向量生成目标字的字向量,将中文文本的所有目标字的字向量作为预设的词性标注模型的输入,对中文文本进行词性标注处理。
本发明实施例中,在确定目标字的语义特征向量、部首特征向量和字形特征向量之后,即可生成能够表示该目标字的语义特征、部首特征和字形特征的字向量,之后即可基于该字向量进行词性标注处理。具体的,可以将语义特征向量、部首特征向量和字形特征向量拼接为一个整体,从而得到相应的字向量。在确定该中文文本中每个目标字的字向量之后,将中文文本的所有目标字的字向量作为预设的词性标注模型的输入,从而实现对中文文本进行词性标注。
其中,该词性标注模型本质上为一个分类模型,其具体可采用现有的词性标注模型。例如,该词性标注模型可以包括一个编码器和词性分类器,通过编码器对该中文文本的字向量进行编码,之后基于该词性分类器确定中文文本中的字或词是哪一种词性的概率,进而对每个字或词打词性标签,从而实现词性标注;其中,可以先基于中文文本中目标字的字向量进行分词,之后再确定每个分词的词性;或者,也可以直接将该中文文本进行序列标注,进而也可以确定每个词的词性。本实施例中,该编码器可以是传统的长短时记忆网络,或者新型的注意力变换网络,或者是深度门控卷积神经网络等;词性分类器就是一个简单的Softmax函数和条件随机场。
本发明实施例提供的一种中文的词性标注方法,对于中文格式的中文文本,首先提取中文文本中汉字的语义特征向量、部首特征向量和字形特征向量,利用汉字独有的特点,结合汉字的语义特征、部首特征和字形特征对中文文本进行词性标注,可以更准确地对中文文本进行词性标注,提高了词性标注的效果。此外,基于部首特征和字形特征可以更加有效地识别未登录词和低频词,可以进一步提高词性标注的准确性。
在上述实施例的基础上,若基于预设的部首特征模型和字形特征模型进行特征提取,则需要预先对两个模型进行学习训练;本实施例中对部首特征模型和字形特征模型同时进行训练,以提高模型提取特征(包括部首特征和字形特征)的性能。具体的,参见图2所示,该学习训练的过程包括:
步骤201:获取中文的样本字,并确定样本字的样本字图像;随机生成一个或多个与样本字不同的参考字,并确定参考字的参考字图像。
本发明实施例中,主要基于样本字对部首特征模型和字形特征模型进行训练。其中,可以预先设置样本集,样本字为该样本集中的一个汉字;同样的,由于样本字本质上也为汉字,故可以确定该样本字对应的字图像,即样本字图像。
此外,本实施例中还选取与该样本字不同的参考字,使得后续可以从正负两个角度对部首特征模型和字形特征模型进行训练。具体的,可以随机生成与该样本字不同的一个或多个参考字,同样的,该参考字为汉字,此时同样确定该参考字的字图像,即参考字图像。
步骤202:将样本字图像作为待训练的部首特征模型的输入,确定样本字图像的部首特征样本向量;将样本字图像作为待训练的字形特征模型的输入,确定样本字图像的字形特征样本向量,并将参考字图像作为待训练的字形特征模型的输入,确定参考字图像的字形特征参考向量。
本发明实施例中,部首特征模型的输入为汉字的字图像,输出为相应汉字的部首特征向量;字形特征模型的输入也可以为汉字的字图像,其输出为相应汉字的字形特征向量。在训练过程中,将该样本字的样本字图像输入至部首特征模型即可确定样本字的部首特征向量,即部首特征样本向量;同理,将样本字的样本字图像输入至字形特征模型即可确定样本字的字形特征向量,即字形特征样本向量。
此外,与样本字不同的参考字作为负样本进行训练。具体的,本实施例中确定参考字的字形特征向量,将参考字的字形特征向量作为负样本。与上述类似的,将该参考字的参考字图像输入至字形特征模型中即可确定相应的字形特征向量,即字形特征参考向量。
步骤203:确定第一相似度和第二相似度,第一相似度为部首特征样本向量与字形特征样本向量之间的相似度,第二相似度为部首特征样本向量与字形特征参考向量之间的相似度。
步骤204:将最大相似度与第一相似度之间的差值、以及第二相似度与最小相似度之间的差值作为期望值,并基于期望值对部首特征模型和字形特征模型进行训练,生成训练后的部首特征模型和字形特征模型。
本发明实施例中,部首特征模型用于提取汉字的部首特征,但部首特征也可以当作一种字形特征,因此,对于同样的样本字,部首特征模型输出的部首特征样本向量与字形特征模型输出的字形特征样本向量越接近越好,即二者之间的相似度较高,也就是第一相似度较高,且第一相似度越高越好。另一方面,参考字是与样本字不同的其他汉字,故参考字的字形特征参考向量应当尽量与样本字的字形特征样本向量不同,且该参考字的字形特征参考向量也应当尽量与样本字的部首特征样本向量不同,即参考字的字形特征参考向量与样本字的部首特征样本向量之间差异越大越好,即第二相似度越低越好。基于第一相似度和第二相似度即可评价部首特征模型和字形特征模型提取特征的性能。
具体的,本实施例中在计算第一相似度和第二相似度时采用相同的相似度计算方法,相应的可以确定最大相似度和最小相似度。若第一相似度与该最大相似度越接近,第二相似度与最小相似度越接近,则说明模型性能越好;故本实施例中,将最大相似度与第一相似度之间的差值、以及第二相似度与最小相似度之间的差值作为期望值,该期望值越接近零越好,之后基于该期望值对两个模型进行训练即可,以使得两个模型的输出使得期望值接近零。其中,可以采用交叉熵损失优化的方式进行训练。
例如,可以采用余弦相似度方法确定第一相似度和第二相似度,由于余弦相似度的取值范围为[-1,1],故最大相似度为1,最小相似度为-1。若样本字的部首特征样本向量为A,样本字的字形特征样本向量为B,参考字的字形特征参考向量为C,则第一相似度为s(A,B),第二相似度为s(A,C),则在训练过程中,第一相似度s(A,B)越接近1越好,第二相似度s(A,C)越接近-1越好。通过正负两个方向对部首特征模型和字形特征模型进行训练,可以增强两个模型提取特征的性能,进而提高后续词性标注的准确率。
其中,部首特征向量和字形特征向量为等长的向量,使得可以确定二者之间的相似度。本领域技术人员可以理解,部首特征样本向量本质上也是一种部首特征向量,字形特征样本向量和字形特征参考向量本质上也均是一种字形特征向量,故其也均为等长的向量。此外,由于样本字的样本字图像为特定大小的图像,参考字的参考字图像可以为样本字图像同样大小的图像,例如12×12的图像,以保证输入至模型的图像尺寸一致。
可选的,该部首特征模型包括特征金字塔网络和全连接层;上述步骤102“根据目标字的字图像和部首特征模型确定目标字的部首特征向量”具体可以包括:
将目标字的字图像输入至特征金字塔网络,并确定特征金字塔网络最后一层的输出结果;将输出结果输入至全连接层,将输出结果转换为部首特征向量。
本发明实施例中,该部首特征模型为层级字形部首卷积模型,基于该模型建模每个汉字的部首信息。具体的,由于汉字是由“笔画—部首—字”这一层级结构构成的,在目标检测过程中即需要大范围和小范围之间的嵌套关系,而特征金字塔网络(Feature PyramidNetwork,FPN)可以解决层级特征之间的关系,故本实施例中将特征金字塔网络作为“层级字形部首卷积模型”,该特征金字塔网络可以接受每个汉字的字图像作为输入,然后依次经过一个“从下到上”的建模路径和一个“从上到下”的建模路径,对汉字的整个字形的不同粒度进行建模;之后将“从上到下”路径的最后一层作为特征金字塔网络的输出结果,然后经过全连接层,从而可以把特征金字塔网络的输出结果转换为部首特征向量。基于FPN可以提取汉字的层级特征,即部首特征,且可以大幅提高目标检测和语义分割的效果。
在上述实施例的基础上,本实施例中的字形特征模型可以基于汉字多种字体的图像提取相应汉字的字形特征。具体的,步骤102中“确定目标字的字形特征向量”包括:
步骤A1:确定目标字在不同字体下相对应的D个字体图像,并确定每个字体图像的图像矩阵。
本发明实施例中,且为了更好更准确地提取目标字的字形特征,本实施例中利用目标字的多种字体的字图像来提取目标字的字形特征,使得目标字的字形特征向量可以包含多种字体的字形特征,特征提取更加准确。
具体的,首先确定目标字在多种字体下的字图像,即字体图像;同时,由于图像可以以矩阵的形式表示,即每个字体图像可以对应相应的图像矩阵。例如,目标字为汉字“我”,此时可以确定“我”在宋体、楷体、隶书等字体下对应不同的字形,从而可以将不同字体下的目标字“我”的写法转换为图像,即字体图像,该字体图像可以为灰度图片,也可以为二值化的黑白图片。以字体图像是灰度图片为例,每个字体图像可以是长为M、宽为N的矩阵,即图像矩阵;该图像矩阵中的每个数字的取值范围为0~255;该字体图像也可以为方形图像,即该图像矩阵为行数和列数相同的矩阵。
需要说明的是,本实施例中的“字体”还可以包含不同历史时期的字体,比如金文、草书、魏碑等,只要是该字体可以包含字形特征即可。
步骤A2:对D个字体图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量。
步骤A3:对图像张量进行编码处理,生成目标字的字形特征向量。
本实施例中,在确定D个字体图像的图像矩阵之后,可以在深度方向上拼接生成图像张量;此处的“深度方向”指的是该图像张量的深度方向。例如,图像矩阵为M×M的矩阵,则图像张量即为M×M×D的三维张量。在确定包含目标字多种字体的字体特征的图像张量之后,即可通过编码处理将该图像张量转换为一维的向量,该向量即可作为目标字的字形特征向量。
可选的,上述步骤A3“对图像张量进行编码处理,生成目标字的字形特征向量”包括:
步骤A31:对图像张量进行卷积处理,生成第一中间向量,第一中间向量为c×c的向量。
本实施例中,可以预先设置卷积核,基于该卷积核对图像张量进行卷积处理,从而可以对图像张量进行编码处理。参见图3所示,图3中以字体图像为12×12大小的图像为例说明,相应的图像张量为12×12×D;之后利用大小为5的卷积核(即5×5的卷积核)对该图像张量进行卷积处理,其中,该卷积核的通道数为1024,故生成的第一中间向量为8×8×1024的向量。
步骤A32:以尺寸为s×s的过滤器对第一中间向量进行步长为s的池化处理,将第一中间向量转换为2×2的第二中间向量。
步骤A33:将第二中间向量转换为一维的字形特征向量。
由于汉字一般以田字格形式表示,本实施例中将第一中间向量降维成2×2的第二中间向量,此时的2×2田字格结构可以代表汉字的字形特征;此时可以将字图像分割为四部分,从而可以捕捉该目标字在各个部分的字形特征;由于汉字包含偏旁部首等信息,此时也更容易捕捉汉字的偏旁部首信息。通过仿照练习汉字书写时的田字格设计生成字体特征向量的编码过程,从而期望能够提取出汉字的笔画、部首信息。其中,若第一中间向量为a×a的向量,则s=a/2。
例如,参见图3所示,第一中间向量为8×8×1024的向量,则池化处理时所用的过滤器大小为4×4,且池化处理时的步长为4,经过池化处理后即可生成2×2的第二中间向量。其中,该池化处理可以是最大池化(Max-Pooling)处理,可以将8×8的特征图降维成2×2的田字格尺寸的特征向量。在确定2×2的第二中间向量之后,即可将该第二中间向量转换为所需的字形特征向量。
具体的,上述步骤A33“将第二中间向量转换为一维的字形特征向量”包括:
步骤A331:基于H个1×1的卷积核,将第二中间向量转换为2×2×H的第三中间向量。
步骤A332:根据分组卷积神经网络对第三中间向量进行分组卷积处理,生成1×1×L的字形特征向量,L为字形特征向量在深度方向上的长度,且L=4H。
本发明实施例中,通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。同时,由于本实施例中的字形特征向量和部首特征向量需要具有相同长度,此处基于H个卷积核可以将第三中间向量的深度限定为H,该深度H具体可以与字形特征向量的深度相关。
具体的,在确定第三中间向量之后,本实施例中基于分组卷积神经网络对2×2的第三中间向量进行分组卷积,从而可以将该第三中间向量分为四部分分别进行卷积,之后将所有的卷积结果拼接为一维的向量,即字形特征向量,且该字形特征向量的深度L=4H,具体可参见图3所示。其中,该字形特征向量的深度L指的是字形特征向量在深度方向上的长度,其需要与部首特征向量的长度一致。
本发明实施例提供的一种中文的词性标注方法,对于中文格式的中文文本,首先提取中文文本中汉字的语义特征向量、部首特征向量和字形特征向量,利用汉字独有的特点,结合汉字的语义特征、部首特征和字形特征对中文文本进行词性标注,可以更准确地对中文文本进行词性标注,提高了词性标注的效果。此外,基于部首特征和字形特征可以更加有效地识别未登录词和低频词,可以进一步提高词性标注的准确性。基于特征金字塔网络提取汉字的层级部首特征,可以大幅提高目标检测和语义分割的效果;结合多种字体的字形特征,可以更加综合、全面地确定目标字所包含的字形特征,在词性标注时引入字形特征,可以提高词性标注判断的准确性,尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。在提取字形特征的过程中,将中间向量降维至2×2的田字格尺寸的特征向量,可以捕捉该目标字在各个部分的字形特征;通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题;采用分组卷积的方式生成字形特征向量,可以降低模型的参数量,提高训练效率。
以上详细介绍了中文的词性标注方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种中文的词性标注装置,参见图4所示,包括:
预处理模块41,用于获取待标注的中文文本,确定所述中文文本中的目标字,并确定每个所述目标字所对应的字图像;
特征向量提取模块42,用于确定每个所述目标字的语义特征向量,根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量;
词性标注模块43,用于根据所述目标字的所述语义特征向量、部首特征向量和字形特征向量生成所述目标字的字向量,将所述中文文本的所有所述目标字的字向量作为预设的词性标注模型的输入,对所述中文文本进行词性标注处理。
在上述实施例的基础上,所述特征向量提取模块42根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量,包括:
预先设置部首特征模型和字形特征模型,根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量,并根据所述字形特征模型确定所述目标字的字形特征向量。
在上述实施例的基础上,所述部首特征向量和所述字形特征向量为等长的向量;该装置还包括训练模块;
在所述预处理模块获取待标注的中文文本之前,该训练模块用于:
获取中文的样本字,并确定所述样本字的样本字图像;随机生成一个或多个与所述样本字不同的参考字,并确定所述参考字的参考字图像;
将所述样本字图像作为待训练的部首特征模型的输入,确定所述样本字图像的部首特征样本向量;将所述样本字图像作为待训练的字形特征模型的输入,确定所述样本字图像的字形特征样本向量,并将所述参考字图像作为待训练的所述字形特征模型的输入,确定所述参考字图像的字形特征参考向量;
确定第一相似度和第二相似度,所述第一相似度为所述部首特征样本向量与所述字形特征样本向量之间的相似度,所述第二相似度为所述部首特征样本向量与所述字形特征参考向量之间的相似度;
将最大相似度与所述第一相似度之间的差值、以及所述第二相似度与最小相似度之间的差值作为期望值,并基于所述期望值对所述部首特征模型和所述字形特征模型进行训练,生成训练后的部首特征模型和字形特征模型。
在上述实施例的基础上,所述部首特征模型包括特征金字塔网络和全连接层;
所述特征向量提取模块42根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量包括:
将所述目标字的所述字图像输入至所述特征金字塔网络,并确定所述特征金字塔网络最后一层的输出结果;将所述输出结果输入至所述全连接层,将所述输出结果转换为部首特征向量。
在上述实施例的基础上,所述特征向量提取模块42确定所述目标字的字形特征向量包括:
确定所述目标字在不同字体下相对应的D个字体图像,并确定每个字体图像的图像矩阵;
对D个所述字体图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;
对所述图像张量进行编码处理,生成所述目标字的字形特征向量。
在上述实施例的基础上,所述特征向量提取模块42对所述图像张量进行编码处理,生成所述目标字的字形特征向量,包括:
对所述图像张量进行卷积处理,生成第一中间向量,所述第一中间向量为c×c的向量;
以尺寸为s×s的过滤器对所述第一中间向量进行步长为s的池化处理,将所述第一中间向量转换为2×2的第二中间向量;
将所述第二中间向量转换为一维的字形特征向量。
在上述实施例的基础上,所述特征向量提取模块42将所述第二中间向量转换为一维的字形特征向量包括:
基于H个1×1的卷积核,将所述第二中间向量转换为2×2×H的第三中间向量;
根据分组卷积神经网络对所述第三中间向量进行分组卷积处理,生成1×1×L的字形特征向量,L为所述字形特征向量在深度方向上的长度,且L=4H。
本发明实施例提供的一种中文的词性标注装置,对于中文格式的中文文本,首先提取中文文本中汉字的语义特征向量、部首特征向量和字形特征向量,利用汉字独有的特点,结合汉字的语义特征、部首特征和字形特征对中文文本进行词性标注,可以更准确地对中文文本进行词性标注,提高了词性标注的效果。此外,基于部首特征和字形特征可以更加有效地识别未登录词和低频词,可以进一步提高词性标注的准确性。基于特征金字塔网络提取汉字的层级部首特征,可以大幅提高目标检测和语义分割的效果;结合多种字体的字形特征,可以更加综合、全面地确定目标字所包含的字形特征,在词性标注时引入字形特征,可以提高词性标注判断的准确性,尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。在提取字形特征的过程中,将中间向量降维至2×2的田字格尺寸的特征向量,可以捕捉该目标字在各个部分的字形特征;通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题;采用分组卷积的方式生成字形特征向量,可以降低模型的参数量,提高训练效率。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的中文的词性标注方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图5示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的中文的词性标注方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换的实施方式,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种中文的词性标注方法,其特征在于,包括:
获取待标注的中文文本,确定所述中文文本中的目标字,并确定每个所述目标字所对应的字图像;
确定每个所述目标字的语义特征向量,根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量;
根据所述目标字的所述语义特征向量、部首特征向量和字形特征向量生成所述目标字的字向量,将所述中文文本的所有所述目标字的字向量作为预设的词性标注模型的输入,对所述中文文本进行词性标注处理;
其中,所述根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量,包括:
预先设置部首特征模型和字形特征模型,根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量,并根据所述字形特征模型确定所述目标字的字形特征向量;
所述部首特征向量和所述字形特征向量为等长的向量;在所述获取待标注的中文文本之前,该方法还包括:
获取中文的样本字,并确定所述样本字的样本字图像;随机生成一个或多个与所述样本字不同的参考字,并确定所述参考字的参考字图像;
将所述样本字图像作为待训练的部首特征模型的输入,确定所述样本字图像的部首特征样本向量;将所述样本字图像作为待训练的字形特征模型的输入,确定所述样本字图像的字形特征样本向量,并将所述参考字图像作为待训练的所述字形特征模型的输入,确定所述参考字图像的字形特征参考向量;
确定第一相似度和第二相似度,所述第一相似度为所述部首特征样本向量与所述字形特征样本向量之间的相似度,所述第二相似度为所述部首特征样本向量与所述字形特征参考向量之间的相似度;
将最大相似度与所述第一相似度之间的差值、以及所述第二相似度与最小相似度之间的差值作为期望值,并基于所述期望值对所述部首特征模型和所述字形特征模型进行训练,生成训练后的部首特征模型和字形特征模型。
2.根据权利要求1所述的方法,其特征在于,所述部首特征模型包括特征金字塔网络和全连接层;
所述根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量包括:
将所述目标字的所述字图像输入至所述特征金字塔网络,并确定所述特征金字塔网络最后一层的输出结果;将所述输出结果输入至所述全连接层,将所述输出结果转换为部首特征向量。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述目标字的字形特征向量包括:
确定所述目标字在不同字体下相对应的D个字体图像,并确定每个字体图像的图像矩阵;
对D个所述字体图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;
对所述图像张量进行编码处理,生成所述目标字的字形特征向量。
4.根据权利要求3所述的方法,其特征在于,所述对所述图像张量进行编码处理,生成所述目标字的字形特征向量,包括:
对所述图像张量进行卷积处理,生成第一中间向量,所述第一中间向量为c×c的向量;
以尺寸为s×s的过滤器对所述第一中间向量进行步长为s的池化处理,将所述第一中间向量转换为2×2的第二中间向量;
将所述第二中间向量转换为一维的字形特征向量。
5.根据权利要求4所述的方法,其特征在于,所述将所述第二中间向量转换为一维的字形特征向量包括:
基于H个1×1的卷积核,将所述第二中间向量转换为2×2×H的第三中间向量;
根据分组卷积神经网络对所述第三中间向量进行分组卷积处理,生成1×1×L的字形特征向量,L为所述字形特征向量在深度方向上的长度,且L=4H。
6.一种中文的词性标注装置,其特征在于,包括:
预处理模块,用于获取待标注的中文文本,确定所述中文文本中的目标字,并确定每个所述目标字所对应的字图像;
特征向量提取模块,用于确定每个所述目标字的语义特征向量,根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量;
词性标注模块,用于根据所述目标字的所述语义特征向量、部首特征向量和字形特征向量生成所述目标字的字向量,将所述中文文本的所有所述目标字的字向量作为预设的词性标注模型的输入,对所述中文文本进行词性标注处理;
其中,所述特征向量提取模块根据所述目标字的所述字图像确定所述目标字的部首特征向量,并确定所述目标字的字形特征向量,包括:预先设置部首特征模型和字形特征模型,根据所述目标字的所述字图像和所述部首特征模型确定所述目标字的部首特征向量,并根据所述字形特征模型确定所述目标字的字形特征向量;
所述部首特征向量和所述字形特征向量为等长的向量;该装置还包括训练模块;
在所述预处理模块获取待标注的中文文本之前,所述训练模块用于:
获取中文的样本字,并确定所述样本字的样本字图像;随机生成一个或多个与所述样本字不同的参考字,并确定所述参考字的参考字图像;
将所述样本字图像作为待训练的部首特征模型的输入,确定所述样本字图像的部首特征样本向量;将所述样本字图像作为待训练的字形特征模型的输入,确定所述样本字图像的字形特征样本向量,并将所述参考字图像作为待训练的所述字形特征模型的输入,确定所述参考字图像的字形特征参考向量;
确定第一相似度和第二相似度,所述第一相似度为所述部首特征样本向量与所述字形特征样本向量之间的相似度,所述第二相似度为所述部首特征样本向量与所述字形特征参考向量之间的相似度;
将最大相似度与所述第一相似度之间的差值、以及所述第二相似度与最小相似度之间的差值作为期望值,并基于所述期望值对所述部首特征模型和所述字形特征模型进行训练,生成训练后的部首特征模型和字形特征模型。
7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任意一项所述的中文的词性标注方法。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任意一项所述的中文的词性标注方法。
CN201911113982.4A 2019-11-14 2019-11-14 一种中文的词性标注方法、装置、存储介质及电子设备 Active CN110852102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113982.4A CN110852102B (zh) 2019-11-14 2019-11-14 一种中文的词性标注方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113982.4A CN110852102B (zh) 2019-11-14 2019-11-14 一种中文的词性标注方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110852102A CN110852102A (zh) 2020-02-28
CN110852102B true CN110852102B (zh) 2023-09-05

Family

ID=69600479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113982.4A Active CN110852102B (zh) 2019-11-14 2019-11-14 一种中文的词性标注方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110852102B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016325A (zh) * 2020-09-04 2020-12-01 北京声智科技有限公司 语音合成方法及电子设备
CN112507698B (zh) * 2020-12-07 2024-05-24 深圳市优必选科技股份有限公司 字向量生成方法、装置、终端设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108446271A (zh) * 2018-03-07 2018-08-24 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN108711131A (zh) * 2018-04-28 2018-10-26 北京溯斐科技有限公司 基于图像特征匹配的水印方法和装置
CN109471946A (zh) * 2018-11-16 2019-03-15 中国科学技术大学 一种中文文本的分类方法及系统
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN110348023A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种中文文本分词的方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108446271A (zh) * 2018-03-07 2018-08-24 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN108711131A (zh) * 2018-04-28 2018-10-26 北京溯斐科技有限公司 基于图像特征匹配的水印方法和装置
CN109471946A (zh) * 2018-11-16 2019-03-15 中国科学技术大学 一种中文文本的分类方法及系统
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN110348023A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种中文文本分词的方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融入汉字字形特征的中英神经机器翻译模型;蔡子龙等;《中文信息学报》;20190515(第05期);全文 *

Also Published As

Publication number Publication date
CN110852102A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
JP7193252B2 (ja) 画像の領域のキャプション付加
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN111667066B (zh) 网络模型的训练、文字识别方法、装置和电子设备
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114596566A (zh) 文本识别方法及相关装置
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
CN114676777A (zh) 一种基于孪生网络的自监督学习细粒度图像分类方法
CN110348025A (zh) 一种基于字形的翻译方法、装置、存储介质及电子设备
CN114168768A (zh) 图像检索方法及相关设备
CN113095319B (zh) 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN110348023A (zh) 一种中文文本分词的方法、装置、存储介质及电子设备
CN110348022A (zh) 一种相似度分析的方法、装置、存储介质及电子设备
CN115618019A (zh) 知识图谱构建方法、装置及终端设备
Jain Unconstrained Arabic & Urdu text recognition using deep CNN-RNN hybrid networks
CN112580658B (zh) 图像语义描述方法、装置、计算设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant