CN111209749A - 一种将深度学习应用于中文分词的方法 - Google Patents

一种将深度学习应用于中文分词的方法 Download PDF

Info

Publication number
CN111209749A
CN111209749A CN202010000500.0A CN202010000500A CN111209749A CN 111209749 A CN111209749 A CN 111209749A CN 202010000500 A CN202010000500 A CN 202010000500A CN 111209749 A CN111209749 A CN 111209749A
Authority
CN
China
Prior art keywords
sequence
data
word
model
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010000500.0A
Other languages
English (en)
Inventor
曾诚
张敏
温超东
任俊伟
谭道强
盛潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University
Original Assignee
Hubei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University filed Critical Hubei University
Priority to CN202010000500.0A priority Critical patent/CN111209749A/zh
Publication of CN111209749A publication Critical patent/CN111209749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机语言处理技术领域,尤其是一种将深度学习应用于中文分词的方法,针对循环神经网络进行中文分词时复杂性高,分词速度慢且容易出现长期依赖的问题,现提出以下方案,包括如下步骤,先进行数据预处理,再构建用于模型输入的字典,最后使用模型进行训练,数据预处理包括借助文中原有的标点符号,段落分隔符等具有分割作用的符号对文档进行切分,提取句子的字特征。本发明通过Universal‑Transformer和条件随机场的分词方法,运用了BPEmd、Universal‑Transformer和条件随机场结合的方式进行中文分词,在充分利用多种不同算法各自的优势,并且通过庞大的训练语料数据集合不断更新迭代模型的参数,依赖于模型的强大学习能力,使得中文分词结果能够更加的准确。

Description

一种将深度学习应用于中文分词的方法
技术领域
本发明涉及计算机语言处理技术领域,尤其涉及一种将深度学习应用于中文分词的方法。
背景技术
自然语言处理是信息时代最重要的技术之一,而中文分词(Chinese WordSegmentation)就是将汉字序列切分成一个个单独的词的过程,它是进行自然语言处理的基础,分词应用领域十分广泛,比如词性标注、命名实体识别、语音合成、自动分类、机器翻译等,进行这些任务时,最细粒度的是词语,由词语组成句子,句子再组成段落、文章,传统的分词方法基于统计,这类方法的优点是简单,便于实现,而且效率一般比较高,但准确性不高,对于歧义问题无法很好的解决,特定领域的专业性文档更是如此;基于深度学习的分词方法,泛化能力很强,不依赖于词典,从大规模的语料集合中进行训练,准确性相比较传统分词方法得到了大幅度的提升,但是算法复杂度高,很容易出现梯度消失或梯度爆炸的问题,同时严重依赖于所选取的语料集合,从而发生过拟合。
目前深度学习中文分词算法主要是基于长短时记忆网络(LSTM)为代表的循环神经网络模型及其衍生模型,但循环神经网络的计算是顺序的,也就是说相关算法只能依次从左到右或者从右到左计算,这种机制带来了两个问题:时间片t的计算依赖t-1时刻的计算结果,这样就限制了模型的并行计算能力;顺序计算的过程中信息会丢失,尽管LSTM等门机制的结构一定程度上缓解了长期依赖问题,但是对于特别长期的依赖现象,LSTM依旧无能为力。
发明内容
基于循环神经网络进行中文分词时复杂性高,分词速度慢且容易出现长期依赖的问题,本发明提出了一种将深度学习应用于中文分词的方法。
本发明提出的一种将深度学习应用于中文分词的方法,包括如下步骤:
S1:数据预处理,借助文中原有的标点符号,段落分隔符等具有分割作用的符号对文档进行切分,提取句子的字特征,得到第一数据;
S2:构建用于模型输入的字典,字典包括源字典src_dict和目标字典tgt_dict两部分,将第一数据进一步处理构建用于模型输入的字典,得到第二数据;
S3:使用模型进行训练,将src_dict和tgt_dict输入到训练模型中,使用BPEmd模型对预处理的数据进行字嵌入预训练,第一数据作为Universal-Transformer的输入,得到维度增加后的特征向量,第二数据作为CRF层的输入,得到目标字向量模型。
优选地,所述S1中字特征包括四种词位置,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S,通过词位置对目标语料数据进行标注得到第一数据,将语料数据转化成为json格式,为了加速训练将第一数据转为hdf5格式。
优选地,用空格把语料数据集合切分成句子序列,再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列,遍历两个序列,统计每个字符出现的频次,如果频次小于阈值5则选择忽略,最终得到源字典src_dict和目标字典tgt_dict。
优选地,所述S3中使用模型进行训练,得到训练的模型包括:
S31:使用BPEmd模型对预处理的数据进行字嵌入预训练,使字向量的字特征维度增加,得到维度增加后的特征向量;
S32:所述S1中的第一数据作为Universal-Transformer的输入,模型编码某个字符,与序列中其他字符进行运算,得到该字符与序列中左右字符的句法和语义关系编码,得到提取了字符上下文关系特征的向量;
S33:所述S1中的第二数据作为CRF层的输入,对语料数据的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标字向量模型。
优选地,准备足够大的训练语料数据集合,确定期望的确定期望的词表大小,将单词拆分为字符序列并在末尾添加后缀“</w>”,统计单词频率,统计每一个连续字节对的出现频率,选择最高频者合并成新的,重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率为1,其中停止符"</w>"的意义在于表示词后缀,随着合并次数的增加。
优选地,所述S32中,Universal-Transformer模型输入一个字符序列,由编码器和 解码器提取字符之间的语义语法特征后,根据任务类型输出另一个字符序列,从编码器输 入的句子首先会经过一个自注意力层,这层帮助编码器在对每个字符编码时关注输入序列 的其他字符,自注意力层的输出会传递到前馈神经网络中,前馈网络是一个Transition层, 通过共享权重的方法循环计算,这里的循环是指深度循环,每个位置的单词对应的前馈神 经网络都完全一样,编码器的输出作为解码器的输入,解码器中也有编码器的自注意力层 和前馈层,这两个层之间还有一个注意力层,用来关注输入序列的相关部分,比如一个序列 序列(a,b,c,d),先经过embedding表示成(
Figure 11959DEST_PATH_IMAGE002
,
Figure 132362DEST_PATH_IMAGE004
),在经过一层attention+ transition表示成(
Figure 646520DEST_PATH_IMAGE006
,
Figure 759838DEST_PATH_IMAGE008
),如果是循环神经网络,要先计算
Figure 43052DEST_PATH_IMAGE002
,再计算
Figure 334356DEST_PATH_IMAGE006
Figure 335810DEST_PATH_IMAGE010
,而transformer的自注意力层可以同时计算(
Figure 3552DEST_PATH_IMAGE002
,
Figure 859381DEST_PATH_IMAGE004
),再计算t+1的,这样,每个 self-attention+transition的输出
Figure 321587DEST_PATH_IMAGE012
可以表示为:
Figure 544758DEST_PATH_IMAGE014
Figure 265458DEST_PATH_IMAGE016
这里Transition function可以和之前一样是全连接层,也可以是卷积层。
Universal-Transformer的位置嵌入考虑字符的位置和时间维度,每一次循环都会重新做一次坐标嵌入。
优选地,所述S33中,把输出数据输入到CRF模型中,对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标模型,CRF使得标记序列的每个元素依赖于观察序列中相互联系的特征,而且模型可以基于特征的重要性来赋予各特征不同的权重,模型中可以加入一些约束来保证最终预测结果是有效的,这些约束可以在训练数据时被CRF自动学习得到,给定观察序列X,如果目标序列Y的条件概率分布p(Y|X)满足马尔科夫性:
Figure 257685DEST_PATH_IMAGE018
那么p(Y|X)为线性链条条件随机场,在标注问题中,对于输入的可观测序列,某个特定的状态序列的概率定义为:
Figure 156371DEST_PATH_IMAGE020
其中,
Figure 132417DEST_PATH_IMAGE022
为转移函数,表示观察序列在其标注序列在
Figure 876382DEST_PATH_IMAGE024
Figure 237962DEST_PATH_IMAGE026
之间的转 移概率,
Figure 307549DEST_PATH_IMAGE028
为状态函数,表示对于观察序列X第i位置的标记为y:的概率,
Figure 505312DEST_PATH_IMAGE030
Figure 318547DEST_PATH_IMAGE032
分 别对应着相应函数的权重,需要从训练样本中估计出来。
本发明中的有益效果为:
通过Universal-Transformer和条件随机场的分词方法,运用了BPEmd、Universal-Transformer和条件随机场结合的方式进行中文分词,在充分利用不同算法各自的优势,并且通过庞大的训练语料数据集合不断更新迭代模型的参数,依赖于模型的强大学习能力,使得中文分词结果能够更加的准确。
附图说明
图1为本发明提出的一种将深度学习应用于中文分词的方法的流程图;
图2为本发明提出的一种将深度学习应用于中文分词的方法的训练语料数据集合的预处理流程流程图;
图3为本发明提出的一种将深度学习应用于中文分词的方法的Universal-Transformer的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,一种将深度学习应用于中文分词的方法,包括如下步骤:
S1:数据预处理,借助文中原有的标点符号,段落分隔符等具有分割作用的符号对文档进行切分,提取句子的字特征,得到第一数据;
S2:构建用于模型输入的字典,字典包括源字典src_dict和目标字典tgt_dict两部分,将第一数据进一步处理构建用于模型输入的字典,得到第二数据;
S3:使用模型进行训练,将src_dict和tgt_dict输入到训练模型中,使用BPEmd模型对预处理的数据进行字嵌入预训练,第一数据作为Universal-Transformer的输入,得到维度增加后的特征向量,第二数据作为CRF层的输入,得到目标字向量模型。
S1中字特征包括四种词位置,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S,通过词位置对目标语料数据进行标注得到第一数据,将语料数据转化成为json格式,为了加速训练将第一数据转为hdf5格式,借以切分文档的分割符号,先将训练语料集合分割成为短句子序列,再提取每个字的词位置得到字向量,能有效降低中文分词的人工特征工程量,提高分词的准确率。
如未预处理的文字格式为:程序员\n 张某某\nr \w通过上述的数据转换为:程序 员 张某某 。 B-N I-N I-N B-NR I-NR I-NR S-W。
S2中src_dict为遍历第一数据,根据阈值统计出来的单个字符,tgt_dict为根据阈值统计出来的单个字符对应的词位置,这里定义阈值为5,小于该阈值的字将被忽略。
其中,用空格把语料数据集合切分成句子序列,再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列,遍历两个序列,统计每个字符出现的频次,如果频次小于阈值5则选择忽略,最终得到源字典src_dict和目标字典tgt_dict,得到的字典详细记录了字典名称、字符数量、字符切分条件、包含英文字符统一规划为小写、对于未登录词用<UNK>统一标记。
S3中使用模型进行训练,得到训练的模型包括:
S31:使用BPEmd模型对预处理的数据进行字嵌入预训练,使字向量的字特征维度增加,得到维度增加后的特征向量;
S32:所述S1中的第一数据作为Universal-Transformer的输入,模型编码某个字符,与序列中其他字符进行运算,得到该字符与序列中左右字符的句法和语义关系编码,得到提取了字符上下文关系特征的向量;
S33:所述S1中的第二数据作为CRF层的输入,对语料数据的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标字向量模型。
其中,BPEmd模型或BPE编码是一种简单的数据压缩形式,将连续字节数据替换为该数据中不存在的字节,在后期使用时用替换表重建原始数据,具体来说,准备足够大的训练语料数据集合,确定期望的确定期望的词表大小,将单词拆分为字符序列并在末尾添加后缀“</w>”,统计单词频率,目前粒度是字符,例如,“low”的频率为5,那么我们将其改写为“low </w>”:5统计每一个连续字节对的出现频率,选择最高频者合并成新的,重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率为1,其中停止符"</w>"的意义在于表示词后缀,随着合并次数的增加,此表的大小通常先增加后减小。
S32中,Universal-Transformer模型输入一个字符序列,由编码器和解码器提取 字符之间的语义语法特征后,根据任务类型输出另一个字符序列,从编码器输入的句子首 先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个字符编码时关注输 入序列的其他字符,自注意力层的输出会传递到前馈(feed-forward)神经网络中,前馈网 络是一个Transition层,通过共享权重的方法循环计算,这里的循环是指深度(depth)循 环,每个位置的单词对应的前馈神经网络都完全一样,编码器的输出作为解码器的输入,解 码器中也有编码器的自注意力(self-attention)层和前馈(feed-forward)层,这两个层之 间还有一个注意力层,用来关注输入序列的相关部分,比如一个序列序列(a,b,c,d),先经 过embedding表示成(
Figure DEST_PATH_IMAGE033
,
Figure DEST_PATH_IMAGE034
),在经过一层attention+transition表示成(
Figure DEST_PATH_IMAGE035
,
Figure DEST_PATH_IMAGE036
),如果是循环神经网络,要先计算
Figure 941159DEST_PATH_IMAGE033
,再计算
Figure 181647DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE037
,而transformer的自注 意力层可以同时计算(
Figure 584816DEST_PATH_IMAGE033
,
Figure DEST_PATH_IMAGE038
),再计算t+1的,这样,每个self-attention+transition 的输出
Figure DEST_PATH_IMAGE039
可以表示为:
Figure 139425DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE040
这里Transition function可以和之前一样是全连接层,也可以是卷积层。
Universal-Transformer的位置嵌入考虑字符的位置和时间维度,每一次循环都会重新做一次坐标嵌入。
S33中,把输出数据输入到CRF模型中,对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标模型,CRF使得标记序列的每个元素依赖于观察序列中相互联系的特征,而且模型可以基于特征的重要性来赋予各特征不同的权重,它不同于最大熵模型在每一个节点归一化从而导致只能找到局部最优解,而是对所有的特征统一做全局归一化操作,所以解决了标记偏置问题,模型中可以加入一些约束来保证最终预测结果是有效的,这些约束可以在训练数据时被CRF自动学习得到,给定观察序列X,如果目标序列Y的条件概率分布p(Y|X)满足马尔科夫性:
Figure 678859DEST_PATH_IMAGE018
那么p(Y|X)为线性链条条件随机场,在标注问题中,对于输入的可观测序列,某个特定的状态序列的概率定义为:
Figure 355828DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE041
为转移函数,表示观察序列在其标注序列在
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
之间的转 移概率,
Figure 201554DEST_PATH_IMAGE028
为状态函数,表示对于观察序列X第i位置的标记为y:的概率,
Figure 91013DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE044
分 别对应着相应函数的权重,需要从训练样本中估计出来。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种将深度学习应用于中文分词的方法,其特征在于,包括如下步骤:
S1:数据预处理,借助文中原有的标点符号,段落分隔符等具有分割作用的符号对文档进行切分,提取句子的字特征,得到第一数据;
S2:构建用于模型输入的字典,字典包括源字典src_dict和目标字典tgt_dict两部分,将第一数据进一步处理构建用于模型输入的字典,得到第二数据;
S3:使用模型进行训练,将src_dict和tgt_dict输入到训练模型中,使用BPEmd模型对预处理的数据进行字嵌入预训练,第一数据作为Universal-Transformer的输入,得到维度增加后的特征向量,第二数据作为CRF层的输入,得到目标字向量模型。
2.根据权利要求1所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S1中字特征包括四种词位置,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S,通过词位置对目标语料数据进行标注得到第一数据,将语料数据转化成为json格式,为了加速训练将第一数据转为hdf5格式。
3.根据权利要求2所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S2中用空格把语料数据集合切分成句子序列,再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列,遍历两个序列,统计每个字符出现的频次,如果频次小于阈值5则选择忽略,最终得到源字典src_dict和目标字典tgt_dict。
4.根据权利要求3所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S3中使用模型进行训练,得到训练的模型步包括:
S31:使用BPEmd模型对预处理的数据进行字嵌入预训练,使字向量的字特征维度增加,得到维度增加后的特征向量;
S32:所述S1中的第一数据作为Universal-Transformer的输入,模型编码某个字符,与序列中其他字符进行运算,得到该字符与序列中左右字符的句法和语义关系编码,得到提取了字符上下文关系特征的向量;
S33:所述S2中的第二数据作为CRF层的输入,对语料数据的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标字向量模型。
5.根据权利要求4所述的一种将深度学习应用于中文分词的方法,其特征在于,准备足够大的训练语料数据集合,确定期望的确定期望的词表大小,将单词拆分为字符序列并在末尾添加后缀“</w>”,统计单词频率,统计每一个连续字节对的出现频率,选择最高频者合并成新的,重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率为1,其中停止符"</w>"的意义在于表示词后缀,随着合并次数的增加。
6.根据权利要求5所述的一种将深度学习应用于中文分词的方法,其特征在于,所述 S32中,Universal-Transformer模型输入一个字符序列,由编码器和解码器提取字符之间 的语义语法特征后,根据任务类型输出另一个字符序列,从编码器输入的句子首先会经过 一个自注意力层,这层帮助编码器在对每个字符编码时关注输入序列的其他字符,自注意 力层的输出会传递到前馈神经网络中,前馈网络是一个Transition层,通过共享权重的方 法循环计算,这里的循环是指深度循环,每个位置的单词对应的前馈神经网络都完全一样, 编码器的输出作为解码器的输入,解码器中也有编码器的自注意力层和前馈层,这两个层 之间还有一个注意力层,用来关注输入序列的相关部分,比如一个序列序列(a,b,c,d),先 经过embedding表示成(
Figure DEST_PATH_IMAGE001
,
Figure 315741DEST_PATH_IMAGE002
),在经过一层attention+transition表示成(
Figure DEST_PATH_IMAGE003
,
Figure 168160DEST_PATH_IMAGE004
),如果是循环神经网络,要先计算
Figure 391331DEST_PATH_IMAGE001
,再计算
Figure 472550DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE005
,而transformer的自注意 力层可以同时计算(
Figure 58252DEST_PATH_IMAGE001
,
Figure 956938DEST_PATH_IMAGE006
),再计算t+1的,这样,每个self-attention+transition的 输出
Figure DEST_PATH_IMAGE007
可以表示为:
Figure 746034DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
这里Transition function可以和之前一样是全连接层,也可以是卷积层;Universal-Transformer的位置嵌入考虑字符的位置和时间维度,每一次循环都会重新做一次坐标嵌入。
7.根据权利要求6所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S33中,把输出数据输入到CRF模型中,对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标模型,CRF使得标记序列的每个元素依赖于观察序列中相互联系的特征,而且模型可以基于特征的重要性来赋予各特征不同的权重,模型中可以加入一些约束来保证最终预测结果是有效的,这些约束可以在训练数据时被CRF自动学习得到,给定观察序列X,如果目标序列Y的条件概率分布p(Y|X)满足马尔科夫性:
Figure 83474DEST_PATH_IMAGE010
那么p(Y|X)为线性链条条件随机场,在标注问题中,对于输入的可观测序列,某个特定的状态序列的概率定义为:
Figure 71153DEST_PATH_IMAGE011
其中,
Figure 875161DEST_PATH_IMAGE012
为转移函数,表示观察序列在其标注序列在
Figure 197558DEST_PATH_IMAGE013
Figure 541951DEST_PATH_IMAGE014
之间的转 移概率,
Figure 508770DEST_PATH_IMAGE015
为状态函数,表示对于观察序列X第i位置的标记为y:的概率,
Figure 645133DEST_PATH_IMAGE016
Figure 64613DEST_PATH_IMAGE017
分 别对应着相应函数的权重,需要从训练样本中估计出来。
CN202010000500.0A 2020-01-02 2020-01-02 一种将深度学习应用于中文分词的方法 Pending CN111209749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010000500.0A CN111209749A (zh) 2020-01-02 2020-01-02 一种将深度学习应用于中文分词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010000500.0A CN111209749A (zh) 2020-01-02 2020-01-02 一种将深度学习应用于中文分词的方法

Publications (1)

Publication Number Publication Date
CN111209749A true CN111209749A (zh) 2020-05-29

Family

ID=70787921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010000500.0A Pending CN111209749A (zh) 2020-01-02 2020-01-02 一种将深度学习应用于中文分词的方法

Country Status (1)

Country Link
CN (1) CN111209749A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084796A (zh) * 2020-09-15 2020-12-15 南京文图景信息科技有限公司 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN112101348A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 多语种端到端ocr算法及系统
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN113268988A (zh) * 2021-07-19 2021-08-17 中国平安人寿保险股份有限公司 文本实体分析方法、装置、终端设备及存储介质
CN113408268A (zh) * 2021-06-22 2021-09-17 平安科技(深圳)有限公司 槽位填充方法、装置、设备及存储介质
CN113468884A (zh) * 2021-06-10 2021-10-01 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101348A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 多语种端到端ocr算法及系统
CN112084796A (zh) * 2020-09-15 2020-12-15 南京文图景信息科技有限公司 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN113468884A (zh) * 2021-06-10 2021-10-01 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN113468884B (zh) * 2021-06-10 2023-06-16 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN113408268A (zh) * 2021-06-22 2021-09-17 平安科技(深圳)有限公司 槽位填充方法、装置、设备及存储介质
CN113268988A (zh) * 2021-07-19 2021-08-17 中国平安人寿保险股份有限公司 文本实体分析方法、装置、终端设备及存储介质
CN113268988B (zh) * 2021-07-19 2021-10-29 中国平安人寿保险股份有限公司 文本实体分析方法、装置、终端设备及存储介质
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN108984524A (zh) 一种基于变分神经网络主题模型的标题生成方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112906397B (zh) 一种短文本实体消歧方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN116187163A (zh) 一种用于专利文件处理的预训练模型的构建方法及系统
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
Ayifu et al. Multilingual named entity recognition based on the BiGRU-CNN-CRF hybrid model
Szűcs et al. Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
Li et al. Robust spoken language understanding with acoustic and domain knowledge
Cai et al. Hcadecoder: A hybrid ctc-attention decoder for chinese text recognition
Chen et al. Fast OOV words incorporation using structured word embeddings for neural network language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination