CN109800440A - 汉字的序列标注方法及系统、计算机设备及可读存储介质 - Google Patents
汉字的序列标注方法及系统、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN109800440A CN109800440A CN201910139899.8A CN201910139899A CN109800440A CN 109800440 A CN109800440 A CN 109800440A CN 201910139899 A CN201910139899 A CN 201910139899A CN 109800440 A CN109800440 A CN 109800440A
- Authority
- CN
- China
- Prior art keywords
- vector
- chinese character
- feature vector
- multidimensional
- font style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种汉字的序列标注方法及系统、计算机设备及可读存储介质。该方法的一具体实施方式包括:提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;将汉字特征向量输入深度学习网络,得到待标注汉字的序列标注结果。该实施方式可提升汉字序列标注的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域。更具体地,涉及一种汉字的序列标注方法及系统、计算机设备及可读存储介质。
背景技术
序列标注是解决自然语言处理问题时经常遇到的任务,序列标注是对一个序列的每一个元素标注标签,实际上其是监督学习的分类问题,其输入是一个观测序列,输出一个标记序列或状态序列。根据输出的不同可能有分词、词性标注、命名实体识别等具体任务。
对文字信息特征的提取是若干后续操作的基础,目前,对中文进行序列标注时常沿用对英文进行序列标注的方法。然而与英文等拼音文字不同的是,汉字是“形、音、义”的结合体,汉字的字型结构在一定程度上反映了字义信息,这些字义信息没有被作为文字信息特征进行提取,因此,现有的对中文进行序列标注的方法的准确性较低,难以满足需求。
因此,需要提供一种新的汉字的序列标注方法及系统、计算机设备及可读存储介质。
发明内容
本发明的目的在于提供一种汉字的序列标注方法及系统、计算机设备及可读存储介质,以解决现有技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种汉字的序列标注方法,包括:
提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
将所述汉字特征向量输入深度学习网络,得到所述待标注汉字的序列标注结果。
本发明第一方面提供的汉字的序列标注方法,根据汉字是“形、音、义”的结合体的特点,充分利用了汉字的拼音特征和字形特征,使得输入深度学习网络的汉字特征向量可更加全面的表征待标注汉字的信息,得到的序列标注结果的准确性更高。
可选地,所述拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。采用此可选方式可全面地包含汉字的拼音特征。
可选地,所述字形特征向量包括部件特征向量和笔画顺序特征向量。汉字结构常可分为四个层级,分别为汉字层、部件层、笔画层和笔形层。大多数的汉字是形声字,在形旁声旁层级有其一定含义。部件作为字形基础,其从语义方面无法再拆分,更低的层级不再有语义。笔画顺序则包含更高层级的排列顺序问题,可以唯一的确定某个汉字,因此采用此可选方式可全面地包含汉字的字形特征。
可选地,所述部件特征向量包括位于首位的部首特征向量。由于部首是最为重要的部件,因此此可选方式将部首特征向量设置于部件特征向量的首位。
可选地,所述声母特征向量为2维向量,所述韵头特征向量为1维向量,所述韵腹特征向量为1维向量,所述韵尾特征向量为2维向量,所述声调特征向量为1维向量。可选地,该方法还包括:对待标注的汉字组成的待标注句用零进行长度补足。
可选地,所述归一化采用线性函数归一化或零均值标准化。
可选地,所述深度学习网络采用双向长短期记忆网络连接条件随机场。
本发明第二方面提供了一种执行本发明第一方面提供的方法的汉字的序列标注系统,包括:
特征提取模块,用于提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
归一化相连模块,用于对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
深度学习网络,用于根据输入的所述汉字特征向量,输出所述待标注汉字的序列标注结果。
本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的的方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的方法。
本发明的有益效果如下:
本发明所述技术方案,根据汉字是“形、音、义”的结合体的特点,充分利用了汉字的拼音特征和字形特征,使得输入深度学习网络的汉字特征向量可更加全面的表征待标注汉字的信息,得到的序列标注结果的准确性更高。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出本发明实施例提供的汉字的序列标注方法的流程图。
图2示出本发明实施例提供的汉字的序列标注方法中的数据流向图。
图3示出双向长短期记忆网络连接条件随机场的网络模型示意图。
图4示出本发明实施例提供的汉字的序列标注系统的示意图。
图5示出本发明实施例提供的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
如图1和图2所示,本发明的一个实施例提供了一种汉字的序列标注方法,包括:
提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
将汉字特征向量输入深度学习网络,得到待标注汉字的序列标注结果。
本实施例提供的汉字的序列标注方法,根据汉字是“形、音、义”的结合体的特点,充分利用了汉字的拼音特征和字形特征,使得输入深度学习网络的汉字特征向量可更加全面的表征待标注汉字的信息,得到的序列标注结果的准确性更高。
在本实施例的一些可选的实现方式中,拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量,依次排列即拼音特征向量包括自首位至末位排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。采用此实现方式可全面地包含汉字的拼音特征。进一步,拼音特征向量为7维向量,包括依次排列的2维的声母特征向量、1维的韵头特征向量、1维的韵腹特征向量、2维的韵尾特征向量和1维的声调特征向量,这是由于汉字单字拼音最长为6位+1位声调,例如庄字的拼音特征向量为ZHUANG1。7维的拼音特征向量例如:
庄:Z H U A N G 1
苦:_ K _ U _ _ 3
恩:_ _ _ E N _ 1
在本实施例的一些可选的实现方式中,字形特征向量包括部件特征向量和笔画顺序特征向量。汉字结构常可分为四个层级,分别为汉字层、部件层、笔画层和笔形层。大多数的汉字是形声字,在形旁声旁层级有其一定含义。部件作为字形基础,其从语义方面无法再拆分,更低的层级不再有语义。笔画顺序则包含更高层级的排列顺序问题,可以唯一的确定某个汉字,例如陪字与部字的部件特征向量相同,但可通过笔画顺序特征向量确定。因此采用此实现方式可全面地包含汉字的字形特征。在一个具体示例中,字形特征向量为30维向量,包括10维的部件特征向量和20维的笔画顺序特征向量,汉字的字形特征例如:
萌=艹+明(形旁,声旁)
=艹+日+月(部件,“日精月华,草木萌生”)
=横竖竖竖折横横撇折横横(笔画顺序)
在本实施例的一些可选的实现方式中,部件特征向量包括位于首位的部首特征向量。由于部首是最为重要的部件,因此此实现方式将部首特征向量设置于部件特征向量的首位。其中,本实施例中涉及的汉字部件特征采用的标准可为《信息处理用GB13000.1字符集汉字部件规范》规定,共560个汉字部件。在一个具体示例中,10维的部件特征向量包括位于首位的1维的部首特征向量。
在一个具体示例中,通用字嵌入特征向量为100维向量。其中,通用字嵌入特征向量可利用python的gensim工具包训练word2vec,基于wiki开放的中文数据进行训练,生成100维的通用字嵌入特征向量。在一个具体示例中,对7维的拼音特征向量、30维的字形特征向量和100维的通用字嵌入特征向量进行归一化后,首尾相连得到的是137维的汉字特征向量。
在本实施例的一些可选的实现方式中,该方法还包括:对待标注的汉字组成的待标注句用零进行长度补足。
在本实施例的一些可选的实现方式中,归一化采用线性函数归一化或零均值标准化。
在一个具体示例中,
线性函数归一化可基于下述通用函数进行:
其中Xnorm为归一化的数据,X为原始数据,Xmax和Xmin代表原始数据集的最大值和最小值。
零均值标准化可基于下述通用函数进行:
其中,μ、σ分别为原始数据集的均值和标准差,此归一化方法在原始数据分布较近似于高斯分布时具有一定的算法优势。
在本实施例的一些可选的实现方式中,深度学习网络采用双向长短期记忆网络连接条件随机场(BiLSTM+CRF)的网络结构,其中,BiLSTM+CRF的网络模型如图3所示,以序列标注问题中的命名实体识别任务为例,BiLSTM+CRF输出的是文字的实体标签。
如图4所示,本发明的另一个实施例提供了一种汉字的序列标注系统,包括:
特征提取模块,用于提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
归一化相连模块,用于对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
深度学习网络,用于根据输入的汉字特征向量,输出待标注汉字的序列标注结果。
需要说明的是,本实施例提供的汉字的序列标注系统的原理及工作流程与上述汉字的序列标注方法相似,相关之处可以参照上述说明,在此不再赘述。
如图5所示,适于用来实现本实施例提供的汉字的序列标注系统的计算机设备,包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括特征提取模块、归一化相连模块和深度学习网络。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。例如,归一化相连模块还可以被描述为“汉字特征向量生成模块”。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:
提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
将汉字特征向量输入深度学习网络,得到待标注汉字的序列标注结果。
需要说明的是,在本发明的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (11)
1.一种汉字的序列标注方法,其特征在于,包括:
提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
将所述汉字特征向量输入深度学习网络,得到所述待标注汉字的序列标注结果。
2.根据权利要求1所述的方法,其特征在于,所述拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。
3.根据权利要求1所述的方法,其特征在于,所述字形特征向量包括部件特征向量和笔画顺序特征向量。
4.根据权利要求3所述的方法,其特征在于,所述部件特征向量包括位于首位的部首特征向量。
5.根据权利要求2所述的方法,其特征在于,所述声母特征向量为2维向量,所述韵头特征向量为1维向量,所述韵腹特征向量为1维向量,所述韵尾特征向量为2维向量,所述声调特征向量为1维向量。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:对待标注的汉字组成的待标注句用零进行长度补足。
7.根据权利要求1所述的方法,其特征在于,所述归一化采用线性函数归一化或零均值标准化。
8.根据权利要求1所述的方法,其特征在于,所述深度学习网络采用双向长短期记忆网络连接条件随机场。
9.一种执行如权利要求1-8中任一项所述方法的汉字的序列标注系统,其特征在于,包括:
特征提取模块,用于提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;
归一化相连模块,用于对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;
深度学习网络,用于根据输入的所述汉字特征向量,输出所述待标注汉字的序列标注结果。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910139899.8A CN109800440A (zh) | 2019-02-26 | 2019-02-26 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910139899.8A CN109800440A (zh) | 2019-02-26 | 2019-02-26 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800440A true CN109800440A (zh) | 2019-05-24 |
Family
ID=66562287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910139899.8A Pending CN109800440A (zh) | 2019-02-26 | 2019-02-26 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800440A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353311A (zh) * | 2020-03-03 | 2020-06-30 | 平安医疗健康管理股份有限公司 | 一种命名实体识别方法、装置、计算机设备及存储介质 |
CN111785249A (zh) * | 2020-07-10 | 2020-10-16 | 恒信东方文化股份有限公司 | 语音合成的输入音素的训练方法、装置及获得方法 |
CN112487762A (zh) * | 2020-12-01 | 2021-03-12 | 苏州英特雷真智能科技有限公司 | 一种基于汉字音意结构汉字编码的自然语言处理方法 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112861487A (zh) * | 2020-11-30 | 2021-05-28 | 新绎健康科技有限公司 | 一种用于对汉字五音进行标注的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120164607A1 (en) * | 2004-06-10 | 2012-06-28 | Wanbo Qu | Application system of multidimensional chinese learning |
CN105045410A (zh) * | 2015-08-25 | 2015-11-11 | 任仰福 | 一种形式化拼音和汉字对应识别的方法 |
CN106227363A (zh) * | 2016-07-28 | 2016-12-14 | 周言 | 拼音基础上的精确汉字编码和键盘输入方法 |
CN108874174A (zh) * | 2018-05-29 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种文本纠错方法、装置以及相关设备 |
-
2019
- 2019-02-26 CN CN201910139899.8A patent/CN109800440A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120164607A1 (en) * | 2004-06-10 | 2012-06-28 | Wanbo Qu | Application system of multidimensional chinese learning |
CN105045410A (zh) * | 2015-08-25 | 2015-11-11 | 任仰福 | 一种形式化拼音和汉字对应识别的方法 |
CN106227363A (zh) * | 2016-07-28 | 2016-12-14 | 周言 | 拼音基础上的精确汉字编码和键盘输入方法 |
CN108874174A (zh) * | 2018-05-29 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种文本纠错方法、装置以及相关设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353311A (zh) * | 2020-03-03 | 2020-06-30 | 平安医疗健康管理股份有限公司 | 一种命名实体识别方法、装置、计算机设备及存储介质 |
CN111785249A (zh) * | 2020-07-10 | 2020-10-16 | 恒信东方文化股份有限公司 | 语音合成的输入音素的训练方法、装置及获得方法 |
CN112861487A (zh) * | 2020-11-30 | 2021-05-28 | 新绎健康科技有限公司 | 一种用于对汉字五音进行标注的方法及系统 |
CN112487762A (zh) * | 2020-12-01 | 2021-03-12 | 苏州英特雷真智能科技有限公司 | 一种基于汉字音意结构汉字编码的自然语言处理方法 |
CN112487762B (zh) * | 2020-12-01 | 2024-04-02 | 苏州英特雷真智能科技有限公司 | 一种基于汉字音意结构汉字编码的自然语言处理方法 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112507866B (zh) * | 2020-12-03 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800440A (zh) | 汉字的序列标注方法及系统、计算机设备及可读存储介质 | |
Trask et al. | sense2vec-a fast and accurate method for word sense disambiguation in neural word embeddings | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN110489555A (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN109902271B (zh) | 基于迁移学习的文本数据标注方法、装置、终端及介质 | |
CN109213868A (zh) | 基于卷积注意力机制网络的实体级别情感分类方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN104978354B (zh) | 文本分类方法和装置 | |
CN107832301A (zh) | 分词处理方法、装置、移动终端及计算机可读存储介质 | |
CN111950279B (zh) | 实体关系的处理方法、装置、设备及计算机可读存储介质 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN111859983A (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
Indurthi et al. | Fermi at semeval-2017 task 7: Detection and interpretation of homographic puns in english language | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
Addis et al. | Printed ethiopic script recognition by using lstm networks | |
Namysl et al. | NAT: Noise-aware training for robust neural sequence labeling | |
Nosary et al. | Unsupervised writer adaptation applied to handwritten text recognition | |
CN112839185B (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN113887202A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN113902569A (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
Bharath et al. | Online handwriting recognition for Indic scripts | |
CN113626576A (zh) | 远程监督中关系特征抽取方法、装置、终端及存储介质 | |
CN107943852A (zh) | 中文排比句识别方法及系统 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |