CN111476036A - 一种基于中文单词特征子串的词嵌入学习方法 - Google Patents

一种基于中文单词特征子串的词嵌入学习方法 Download PDF

Info

Publication number
CN111476036A
CN111476036A CN202010280002.6A CN202010280002A CN111476036A CN 111476036 A CN111476036 A CN 111476036A CN 202010280002 A CN202010280002 A CN 202010280002A CN 111476036 A CN111476036 A CN 111476036A
Authority
CN
China
Prior art keywords
chinese
word
embedding
pinyin
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010280002.6A
Other languages
English (en)
Inventor
刘勇国
郑子强
李巧勤
杨尚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010280002.6A priority Critical patent/CN111476036A/zh
Publication of CN111476036A publication Critical patent/CN111476036A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于中文单词特征子串的词嵌入学习方法,包括:S1:获取中文文本,并处理为相应的词序列;S2:从词序列中获取中文目标单词及其上下文单词,将中文目标单词拆分为若干个汉字;对每个汉字在中文字典中进行检索,并对每个汉字的拼音、笔画和结构特征进行编码并串联,生成特征子串;S3:采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型及训练,得到词嵌入表示。本发明整合了汉字的笔画、结构和拼音特征,解决汉字单一特征无法完整捕获汉字语义信息的问题;并提出了特征子串以捕获汉字形态和拼音信息及其关系,不同长度的特征子串可表示汉字的部分特征或多种特征组合,提供了中文单词的细粒度特征表示。

Description

一种基于中文单词特征子串的词嵌入学习方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于中文单词特征子串的词嵌入学习方法。
背景技术
词嵌入,也称为词的分布式表示,可以将词的语义编码为低维向量空间,并很好地捕获语义信息。目前,词嵌入作为输入特征已被证明在许多自然语言处理(NaturalLanguage Processing,NLP)任务中都是有效的,如提取文本词干、命名实体识别、文本分类和机器翻译等。设计学习词嵌入的有效模型对理解单词的语义是至关重要的。
目前大多数方法都是基于对目标单词及其上下文单词之间的关系进行建模,以此来学习词嵌入,如CBOW模型通过上下文预测目标单词,SG模型通过目标单词预测上下文,在此基础上,Glove模型通过创建共现矩阵以记录目标单词和上下文单词在语料库中共同出现的次数。这些方法主要应用于欧洲语言,如带有拉丁字母的英语,但是直接应用于其他语系时,词嵌入学习效果却很差,如中文、日文和韩文等。
汉语是象形文字,是对象的图形表示,中文单词由具有丰富语义信息的汉字组成。目前,已有许多学者提出了利用汉字信息和汉字内部信息来学习中文词嵌入的方法,CWE模型旨在利用字信息来提高词嵌入的质量,以共同学习字和词嵌入,在此基础上,JWE模型引入了部首和部件信息,cw2vec模型则利用了笔画信息。
在汉字中,以“您”字为例,“心”是部首,但是无法表达“您”的语义信息。除了部首外,部件是非常重要的信息,用来和部首组合构成完整的汉字。“您”可以分解成三个部件,“亻”,“尔”,“心”,其中,仅有“尔”和“您”在语义上稍微相关。而实际上,汉字中也存在部首、部件与汉字本身意义完全不相关的字,如“叶”字,因此仅靠部首和部件信息无法有效得到中文词嵌入。
除了组成部分,笔画信息也十分重要。通常情况下,当一个字确定时,它的笔画顺序就确定。但是也有例外,比如“工”和“土”的笔画顺序相同,通过笔画不能确定汉字。值得肯定的,通过笔画信息可以捕获字的主要含义,但是在已有的n元笔画研究中,需要手动定义参数,这可能会导致捕获汉字的不完整语义。
综上,利用汉字的单一特征难以有效捕获汉字的语义信息。
发明内容
本发明所要解决的技术问题是现有技术中针对中文的词嵌入方法大多利用汉字的单一特征或部分组合特征难以有效捕获汉字的语义信息,词嵌入效果差的问题,本发明提供了解决上述问题的一种基于中文单词特征子串的词嵌入学习方法,本发明主要设计了特征子串来整合汉字的结构、笔画和拼音特征,以捕获中文单词的形态和拼音信息,解决汉字单一特征无法完整捕获汉字语义信息的问题,并利用目标单词来预测上下文单词,从而学习中文单词的嵌入;本发明方法可以增强词嵌入的效果,为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持。
本发明通过下述技术方案实现:
一种基于中文单词特征子串的词嵌入学习方法,该方法包括以下步骤:
S1:获取中文文本,并通过预处理得到相应的词序列;
S2:从步骤S1得到的词序列中获取中文目标单词及其上下文单词,将中文目标单词拆分为若干个汉字;对每个汉字在中文字典中进行检索,并对每个汉字的拼音、笔画和结构特征进行编码并串联,生成特征子串来表示汉字的部分特征或多个特征;
S3:根据步骤S2将中文目标单词表示为具有拼音、笔画和结构特征的特征子串,采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,并对预测模型进行训练,将上下文单词嵌入作为输出结果,得到最终的词嵌入表示。
工作原理是:基于现有技术中针对中文的词嵌入方法大多利用汉字的单一特征或部分组合特征难以有效捕获汉字的语义信息,词嵌入效果差的问题,本发明提出了一种基于中文单词特征子串的词嵌入学习方法,本发明采用上述方案整合了汉字的笔画、结构和拼音特征,解决汉字单一特征无法完整捕获汉字语义信息的问题;并提出了特征子串以捕获汉字形态和拼音信息及其关系,不同长度的特征子串可表示汉字的部分特征或多种特征组合,提供了中文单词的细粒度特征表示;并采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,耗时少、速度快,利用中文目标单词来预测上下文单词,从而有效地实现了中文的词嵌入学习。
本发明方法可以增强词嵌入的效果,为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持;本发明方法不仅适用于中文目标单词的词嵌入,也适用于与汉语相似的其他语言,如日语和汉语。
进一步地,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码,包括:
构建拼音特征,汉字的拼音由声母、韵母和音调组成,采用26个小写字母对声母和韵母进行编码,并使用5个大写英文符号表示音调,同时对音调进行对应编码;
构建笔画特征,根据现代汉语通用字表,将笔画分为五种类型,包括横、竖、撇、点、折,并采用阿拉伯数字1至5对其对应编码;
构建结构特征,根据笔画在平面空间中的不同组合,汉字全体字组合模式分为四大类13 小类,采用区别于笔画特征的阿拉伯数字对其13小类进行对应编码。
进一步地,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行串联,生成特征子串来表示汉字的部分特征或多个特征;包括:
将每个汉字的拼音、笔画和结构编码进行串联,然后定义一个大小从1到编码长度L的滑动窗口生成特征子串,每个特征子串都有一个d维的嵌入,从而生成特征子串来表示汉字的部分特征或多个特征;
其中,设定中文目标单词的编码长度为L,则生成
Figure RE-GDA0002494088350000031
个特征子串。
进一步地,所述步骤S3具体包括:
S31:从语料库中给定一个中文文本,词序列表示为w1,…,wt,…,wN,其中wt为中文目标单词,N表示词的数量,wt的上下文单词表示为:
Ct={wt+i},(i∈[-c,0)∪(0,c])
其中c表示中文目标单词wt的上下文窗口大小,使用wc表示Ct中的单词,即wc∈Ct
S32:采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型;对于中文目标单词wt,将中文目标单词wt所在的所有样本句子作为正样本,并从语料库中随机抽取单词替换正样本中的上下文单词构成等量的负样本,保证正负样本数量均衡;给定一个上下文单词wc∈Ct,通过使用二元对数损失得到以下负对数似然:
Figure RE-GDA0002494088350000032
其中
Figure RE-GDA0002494088350000033
表示负样本集合,wu表示负样本中的上下文单词,s(wt,wc)为得分函数;将逻辑损失函数表示为l(x)=log(1+e-x),则目标函数可以重写为:
Figure RE-GDA0002494088350000034
S33:随机初始化特征子串和上下文单词的嵌入,基于标准梯度法优化步骤S32中的目标函数,并进行模型训练,将上下文的词嵌入作为输出结果,得到最终的词嵌入表示。
进一步地,利用预先爬取的指定数量的汉字及其特征信息构成中文字典,采用搜狗实验室的全网新闻数据SogouCA作为语料库,对预测模型进行优化和训练。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明方法整合了汉字的笔画、结构和拼音特征,解决汉字单一特征无法完整捕获汉字语义信息的问题;并提出了特征子串以捕获汉字形态和拼音信息及其关系,不同长度的特征子串可表示汉字的部分特征或多种特征组合,提供了中文单词的细粒度特征表示;并采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,耗时少、速度快,利用中文目标单词来预测上下文单词,从而有效地实现了中文的词嵌入学习;
2、本发明方法在各项评估任务结果中,本发明方法得到的结果均比基于其他模型方法的效果更好,说明了本方法的有效性;本发明方法可以增强词嵌入的效果,为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持;本发明方法不仅适用于中文目标单词的词嵌入,也适用于与汉语相似的其他语言,如日语和汉语。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于中文单词特征子串的词嵌入学习方法流程图。
图2为本发明一种基于中文单词特征子串的词嵌入学习方法的中文词嵌入训练流程图。
图3为本发明特征子串构建过程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1至图3所示,本发明一种基于中文单词特征子串的词嵌入学习方法,该方法包括以下步骤:
S1:获取中文文本,并通过预处理得到相应的词序列;
S2:从步骤S1得到的词序列中获取中文目标单词及其上下文单词,将中文目标单词拆分为若干个汉字;对每个汉字在中文字典中进行检索,并对每个汉字的拼音、笔画和结构特征进行编码并串联,生成特征子串来表示汉字的部分特征或多个特征;
引入结构特征,可以有效解决汉字部件相同但语义不同的问题,如“叶”和“古”;引入拼音特征,可以有效解决笔画相同但语义不同的问题,如“工(gong)”和“土(tu)”。
具体地,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码,包括:
构建拼音特征,汉字的拼音由声母、韵母和音调组成,声母是韵母前面的辅音,共同构成完整的音节。本发明使用26个小写字母对声母和韵母进行编码,并使用5个大写英文符号表示音调,同时对音调进行编码,编码方式如表1所示。如“您”,声母是n,韵母是in,音调是二声(阳平),则编码后的拼音特征为“ninB”。
表1音调特征编码
音调 阴平 阳平 上声 去声 轻声
符号 ˉ ˊ ˇ ˋ
编码 A B C D E
构建笔画特征,笔画是汉字的基本单位,中文书写系统为笔画提供了书写顺序。根据中华人民共和国新闻出版署发布的《现代汉语通用字表》,将笔画分为五种类型,包括横、竖、撇、点、折,并采用阿拉伯数字1至5对其对应编码;如表2所示。
表2笔画特征编码
Figure RE-GDA0002494088350000051
构建结构特征,与线性排列的字母单词不同,汉字是以一定结构的字符组成,字符又由笔画组成,根据笔画在平面空间中的不同组合,汉字全体字组合模式可以分为四大类13小类,由于笔画特征的编码为1至5,因此为了不和笔画特征编码混淆,字体结构特征编码格式如表3所示。
表3结构特征编码
结构 编码 结构 编码
左右 66 左包围 79
左中右 67 左上包围 86
上下 68 右上包围 87
上中下 69 左下包围 88
全包围 76 嵌套 89
上包围 77 单一 96
下包围 78
具体地,如图3所示,以“艰苦”来说明特征子串的构建过程,特征子串的构建分为三个步骤:
1)选择一个中文目标单词,将单词拆分为单个汉字;
2)将每个汉字在中文字典中进行检索,根据上述构建拼音特征、构建笔画特征、构建结构特征的方法分别对拼音、笔画和结构进行编码;
3)将每个汉字的拼音、笔画和结构编码进行串联,然后定义一个大小从1到编码长度的滑动窗口生成特征子串,每个特征子串都有一个d维的嵌入,一般取100、200或300,最终取值需要根据任务评估指标的好坏来确定,在本发明实施例中d取100。
通过上述步骤1)至3)构建的单词特征子串可以用来表示汉字的部分特征或多个特征,如特征子串“54”表示部首“又”,特征子串“67kuC”包含了结构和拼音特征。
假设单词的编码长度为L,则一共可以生成
Figure RE-GDA0002494088350000061
个特征子串。
S3:根据步骤S2将中文目标单词表示为具有拼音、笔画和结构特征的特征子串,采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,并对预测模型进行训练,将上下文单词嵌入作为输出结果,得到最终的词嵌入表示。
具体地,所述步骤S3具体包括:
将中文目标单词表示为具有笔画,结构和拼音特征的特征子串,基于目标单词对上下文词嵌入的预测进行建模。从语料库中给定一个中文文本,词序列表示为w1,…,wt,…,wN,其中wt为中文目标单词,N表示词的数量,wt的上下文单词表示为:
Ct={wt+i},(i∈[-c,0)∪(0,c])
其中c表示中文目标单词wt的上下文窗口大小,使用wc表示Ct中的单词,即wc∈Ct;则本发明的词嵌入学习的目的是最大化以下的对数似然,计算公式为:
Figure RE-GDA0002494088350000062
给定中文目标单词wt,使用softmax函数对预测单词wc的概率进行建模,计算公式为:
Figure RE-GDA0002494088350000063
其中s(wt,wc)为得分函数,将基于特征子串的词wt和上下文单词wc的相似度映射到实数
Figure RE-GDA0002494088350000064
中,计算如下:
Figure RE-GDA0002494088350000065
其中F(wt)表示中文目标单词wt的特征子串集合,q∈F(wt)表示中文目标单词wt的特征子串,vq表示特征子串q的嵌入,
Figure RE-GDA0002494088350000066
表示单词wc的嵌入,“·”表示向量点乘操作。
由于在最大化对数似然时,需要N次操作,这是十分耗时的,因此本发明将预测上下文单词的问题转换为一组独立的二元分类问题,以便独立地预测上下文单词是否存在。于是,本发明采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型;对于中文目标单词wt,将中文目标单词wt所在的所有样本句子作为正样本,并从语料库中随机抽取单词替换正样本中的上下文单词构成等量的负样本,保证正负样本数量均衡;给定一个上下文单词wc∈Ct,通过使用二元对数损失得到以下负对数似然:
Figure RE-GDA0002494088350000071
其中
Figure RE-GDA0002494088350000072
表示负样本集合,wu表示负样本中的上下文单词,s(wt,wc)为得分函数;将逻辑损失函数表示为l(x)=log(1+e-x),则目标函数可以重写为:
Figure RE-GDA0002494088350000073
随机初始化特征子串和上下文单词的嵌入,基于标准梯度法优化上述目标函数,并进行模型训练,在训练过程之后,将上下文的词嵌入作为输出结果,得到最终的词嵌入表示。
具体地,利用预先爬取的指定数量的汉字及其特征信息构成中文字典,采用搜狗实验室的全网新闻数据SogouCA作为语料库,对预测模型进行优化和训练。其中:
中文字典:从漢典(https://www.zdic.net/)爬取的汉字及其特征,包括拼音、结构和笔画信息。
语料库:搜狗实验室的全网新闻数据SogouCA,来自若干新闻站点2012年6月至7月期间国内,国际、体育、社会和娱乐等18个频道的新闻数据,提供URL和正文信息。该语料库包含中文的简体和繁体,使用OpenCC工具将繁体转换为简体,并使用jieba分词工具对语料库进行分词。
本发明训练中文词嵌入所用数据为搜狗实验室的全网新闻数据SogouCA,分别使用了四个评估任务来评估本发明提出的中文词嵌入的效果。单词类比用于衡量模型能力,以探索单词之间的语义关系;单词相似度用于评估模型捕获单词之间语义相关和语义相近的能力;文本分类是一种在NLP任务中常用的验证词嵌入的方法,文本分类使用的是复旦数据集,包含 20个不同主题的文档;命名实体识别用于验证词嵌入的有效性,数据集为Sighan2006 NER。
本发明在单词类比、单词相似度、文本分类和命名实体识别任务上评估了本发明方法的有效性,并与现有的多个词嵌入学习模型进行了实验对比,实验结果如表4所示。
表4评估任务结果
Figure RE-GDA0002494088350000074
Figure RE-GDA0002494088350000081
本发明提出了一种基于中文单词特征子串的词嵌入学习方法,本发明采用上述方案整合了汉字的笔画、结构和拼音特征,解决汉字单一特征无法完整捕获汉字语义信息的问题;并提出了特征子串以捕获汉字形态和拼音信息及其关系,不同长度的特征子串可表示汉字的部分特征或多种特征组合,提供了中文单词的细粒度特征表示;并采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,耗时少、速度快,利用中文目标单词来预测上下文单词,从而有效地实现了中文的词嵌入学习。
由表4可以看到,在各项评估任务结果中,本发明方法得到的结果均比基于其他模型方法的效果更好,说明了本方法的有效性。本发明方法可以增强词嵌入的效果,为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持;本发明方法不仅适用于中文目标单词的词嵌入,也适用于与汉语相似的其他语言,如日语和汉语。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于中文单词特征子串的词嵌入学习方法,其特征在于,该方法包括以下步骤:
S1:获取中文文本,并通过预处理得到相应的词序列;
S2:从步骤S1得到的词序列中获取中文目标单词及其上下文单词,将中文目标单词拆分为若干个汉字;对每个汉字在中文字典中进行检索,并对每个汉字的拼音、笔画和结构特征进行编码并串联,生成特征子串来表示汉字的部分特征或多个特征;
S3:根据步骤S2将中文目标单词表示为具有拼音、笔画和结构特征的特征子串,采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,并对预测模型进行训练,将上下文单词嵌入作为输出结果,得到最终的词嵌入表示。
2.根据权利要求1所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码,包括:
构建拼音特征,汉字的拼音由声母、韵母和音调组成,采用26个小写字母对声母和韵母进行编码,并使用5个大写英文符号表示音调,同时对音调进行对应编码;
构建笔画特征,根据现代汉语通用字表,将笔画分为五种类型,包括横、竖、撇、点、折,并采用阿拉伯数字1至5对其对应编码;
构建结构特征,根据笔画在平面空间中的不同组合,汉字全体字组合模式分为四大类13小类,采用区别于笔画特征的阿拉伯数字对其13小类进行对应编码。
3.根据权利要求1或2所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行串联,生成特征子串来表示汉字的部分特征或多个特征;包括:
将每个汉字的拼音、笔画和结构编码进行串联,然后定义一个大小从1到编码长度L的滑动窗口生成特征子串,每个特征子串都有一个d维的嵌入,从而生成特征子串来表示汉字的部分特征或多个特征;
其中,设定中文目标单词的编码长度为L,则生成
Figure RE-FDA0002494088340000011
个特征子串。
4.根据权利要求1所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,所述步骤S3具体包括:
S31:从语料库中给定一个中文文本,词序列表示为w1,…,wt,…,wN,其中wt为中文目标单词,N表示词的数量,wt的上下文单词表示为:
Ct={wt+i},(i∈[-c,0)∪(0,c])
其中c表示中文目标单词wt的上下文窗口大小,使用wc表示Ct中的单词,即wc∈Ct
S32:采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型;对于中文目标单词wt,将中文目标单词wt所在的所有样本句子作为正样本,并从语料库中随机抽取单词替换正样本中的上下文单词构成等量的负样本,保证正负样本数量均衡;给定一个上下文单词wc∈Ct,通过使用二元对数损失得到以下负对数似然:
Figure RE-FDA0002494088340000021
其中
Figure RE-FDA0002494088340000022
表示负样本集合,wu表示负样本中的上下文单词,s(wt,wc)为得分函数;将逻辑损失函数表示为l(x)=log(1+e-x),则目标函数可以重写为:
Figure RE-FDA0002494088340000023
S33:随机初始化特征子串和上下文单词的嵌入,基于标准梯度法优化步骤S32中的目标函数,并进行模型训练,将上下文的词嵌入作为输出结果,得到最终的词嵌入表示。
5.根据权利要求1或4所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,利用预先爬取的指定数量的汉字及其特征信息构成中文字典,采用搜狗实验室的全网新闻数据SogouCA作为语料库,对预测模型进行优化和训练。
CN202010280002.6A 2020-04-10 2020-04-10 一种基于中文单词特征子串的词嵌入学习方法 Pending CN111476036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010280002.6A CN111476036A (zh) 2020-04-10 2020-04-10 一种基于中文单词特征子串的词嵌入学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010280002.6A CN111476036A (zh) 2020-04-10 2020-04-10 一种基于中文单词特征子串的词嵌入学习方法

Publications (1)

Publication Number Publication Date
CN111476036A true CN111476036A (zh) 2020-07-31

Family

ID=71751735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010280002.6A Pending CN111476036A (zh) 2020-04-10 2020-04-10 一种基于中文单词特征子串的词嵌入学习方法

Country Status (1)

Country Link
CN (1) CN111476036A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950254A (zh) * 2020-09-22 2020-11-17 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN112487762A (zh) * 2020-12-01 2021-03-12 苏州英特雷真智能科技有限公司 一种基于汉字音意结构汉字编码的自然语言处理方法
CN112528637A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN113032533A (zh) * 2021-05-31 2021-06-25 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113743053A (zh) * 2021-08-17 2021-12-03 上海明略人工智能(集团)有限公司 字母向量计算方法、系统、存储介质及电子设备
CN114927177A (zh) * 2022-05-27 2022-08-19 浙江工业大学 一种融合中文医疗领域特征的医疗实体识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025219A (zh) * 2017-04-19 2017-08-08 厦门大学 一种基于内部语义层次结构的词嵌入表示方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN110162789A (zh) * 2019-05-13 2019-08-23 北京一览群智数据科技有限责任公司 一种基于汉语拼音的词表征方法及装置
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法
CN110610006A (zh) * 2019-09-18 2019-12-24 中国科学技术大学 基于笔画和字形的形态学双通道中文词嵌入方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025219A (zh) * 2017-04-19 2017-08-08 厦门大学 一种基于内部语义层次结构的词嵌入表示方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN110162789A (zh) * 2019-05-13 2019-08-23 北京一览群智数据科技有限责任公司 一种基于汉语拼音的词表征方法及装置
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法
CN110610006A (zh) * 2019-09-18 2019-12-24 中国科学技术大学 基于笔画和字形的形态学双通道中文词嵌入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUN ZHANG等: ""Learning Chinese word embeddings from stroke, structure and pinyin of characters"", 《CIKM "19: PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950254A (zh) * 2020-09-22 2020-11-17 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN111950254B (zh) * 2020-09-22 2023-07-25 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN112487762A (zh) * 2020-12-01 2021-03-12 苏州英特雷真智能科技有限公司 一种基于汉字音意结构汉字编码的自然语言处理方法
CN112487762B (zh) * 2020-12-01 2024-04-02 苏州英特雷真智能科技有限公司 一种基于汉字音意结构汉字编码的自然语言处理方法
CN112528637A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
WO2022121251A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN112528637B (zh) * 2020-12-11 2024-03-29 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN113032533A (zh) * 2021-05-31 2021-06-25 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113743053A (zh) * 2021-08-17 2021-12-03 上海明略人工智能(集团)有限公司 字母向量计算方法、系统、存储介质及电子设备
CN113743053B (zh) * 2021-08-17 2024-03-12 上海明略人工智能(集团)有限公司 字母向量计算方法、系统、存储介质及电子设备
CN114927177A (zh) * 2022-05-27 2022-08-19 浙江工业大学 一种融合中文医疗领域特征的医疗实体识别方法及系统
CN114927177B (zh) * 2022-05-27 2024-06-11 浙江工业大学 一种融合中文医疗领域特征的医疗实体识别方法及系统

Similar Documents

Publication Publication Date Title
CN111476036A (zh) 一种基于中文单词特征子串的词嵌入学习方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
AU2002333063B2 (en) Character string identification
CN107273358B (zh) 一种基于管道模式的端到端英文篇章结构自动分析方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
US20100106481A1 (en) Integrated system for recognizing comprehensive semantic information and the application thereof
Nasir et al. Mmu-ocr-21: Towards end-to-end urdu text recognition using deep learning
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN108846257B (zh) 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN111626318A (zh) 一种基于深度学习的多语言有害信息特征智能挖掘方法
Zhao et al. Commented content classification with deep neural network based on attention mechanism
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Bataineh A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition.
US20140093173A1 (en) Classifying a string formed from hand-written characters
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
Oprean et al. Handwritten word recognition using Web resources and recurrent neural networks
CN112287072A (zh) 一种多维互联网文本风险数据识别方法
Mersha et al. Morphology-rich alphasyllabary embeddings
Patil et al. Deep Learning Based Marathi Sentence Recognition using Devnagari Character Identification
CN112487762B (zh) 一种基于汉字音意结构汉字编码的自然语言处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731

RJ01 Rejection of invention patent application after publication