CN110222337A - 一种基于transformer和CRF的中文地址分词方法 - Google Patents

一种基于transformer和CRF的中文地址分词方法 Download PDF

Info

Publication number
CN110222337A
CN110222337A CN201910448338.6A CN201910448338A CN110222337A CN 110222337 A CN110222337 A CN 110222337A CN 201910448338 A CN201910448338 A CN 201910448338A CN 110222337 A CN110222337 A CN 110222337A
Authority
CN
China
Prior art keywords
address
vector
character
matrix
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910448338.6A
Other languages
English (en)
Other versions
CN110222337B (zh
Inventor
李白
王新根
高杨
王方正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Bang Sheng Technology Co Ltd
Original Assignee
Zhejiang Bang Sheng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Bang Sheng Technology Co Ltd filed Critical Zhejiang Bang Sheng Technology Co Ltd
Priority to CN201910448338.6A priority Critical patent/CN110222337B/zh
Publication of CN110222337A publication Critical patent/CN110222337A/zh
Application granted granted Critical
Publication of CN110222337B publication Critical patent/CN110222337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于transformer和CRF的中文地址分词方法。该方法首先将地址文本编码转换为文本信息矩阵;然后将文本信息矩阵作为输入传到transformer神经网络;最后利用条件随机场CRF对transformer神经网络的输出进行标注,得到地址分词标注序列。与传统基于规则的分词方法相比,该方法用数值向量表征地址文本可以使文本信息更加丰富,具有较好的准确率和鲁棒性,对未出现过的新地址数据也可以正确分词。在中文地址分词领域,该方法具有极大的研究意义和使用价值。

Description

一种基于transformer和CRF的中文地址分词方法
技术领域
本发明属于自然语言处理中的中文分词领域,尤其涉及一种基于transformer和CRF(Conditional Random Field)的中文地址分词方法。
背景技术
随着信息技术的发展以及商业贸易、企业和政府事务的电子化,产生了海量的地址数据信息,如何有效地将这些地址数据转化为结构化数据存储并加以利用已经成为一个迫切需要解决的问题。传统的中文地址分词一般采用基于规则的分词方法,事先人工建立好分词词典,基于字符串匹配进行分词,取得了一定的效果,但是这种方法在海量地址文本下难以覆盖完全,并且鲁棒性较差,对未出现过的新地址数据分词准确率较低。
中文地址分词是中文分词在地名地址中的应用,它是将地名地址串拆分成若干地理要素的过程。中文分词是自然语言处理下的一项子任务,随着深度学习在自然语言处理领域的发展与流行,将深度学习应用到中文分词上也成为大势所趋。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于transformer和CRF的中文地址分词方法。
本发明的目的是通过以下技术方案来实现的:一种基于transformer和CRF的中文地址分词方法,包括以下步骤:
步骤1、对初始地址文本进行分词标注,得到带标注的地址文本,并对地址文本进行字符统计得到字符集,根据字符集将地址文本转化成序列化地址向量。
步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量,根据特征信息向量将序列化地址向量转换为特征信息矩阵。
步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量,根据位置信息向量将序列化地址向量转换为位置信息矩阵。
步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加,得到文本信息矩阵。
步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中,得到地址文本的语义特征信息矩阵。
步骤6、将步骤5得到的语义特征信息矩阵作为输入,利用条件随机场CRF对语义特征信息进行标注,得到中文地址分词标注序列。
进一步地,所述步骤1包括:
(1)对初始地址文本进行人工分词;
(2)采用BMES法对分词后的地址文本进行标注,即词的第一个字符标记为B,词中间的字符标记为M,词尾的字符标记为E,如果词是一个单独字符则标记为S;
(3)对初始地址文本进行字符统计得到字符集,并将初始地址文本中的字符转换为其在字符集中的id,得到序列化地址向量;
(4)令l为地址文本限制长度,对长度小于l的序列化地址向量进行补0,对长度大于l的序列化地址向量进行截断,得到长度均为l的序列化地址向量。
进一步地,所述步骤2包括:
(1)将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量,得到字符矩阵其中n是字符集中字符个数,dmodel是每个字符的特征信息向量的维度,E中第i行代表第i个字符的特征信息向量;
(2)根据序列化地址向量中的字符id将字符转化为相应的特征信息向量,得到特征信息矩阵
进一步地,所述步骤3包括:
(1)计算序列化地址向量中每个位置pos的位置信息向量PE(pos),计算公式如下:
其中PE(pos,k)为PE(pos)第k个元素的值,k=0,1,...,dmodel-1;
(2)将序列化地址向量中的字符转化为相应的位置信息向量,得到位置信息矩阵
进一步地,所述步骤5中,transformer神经网络的具体模型结构如下:
(1)Multi-Head Attention层利用多头注意力机制获取上下文信息,具体公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中MultiHead(Q,K,V)是Multi-Head Attention层的输出结果;Concat是矩阵拼接函数;headi是第i个head的输出结果,h是head的个数;WO是输出的映射参数矩阵, 分别为Q、K、V在第i个head上的映射参数矩阵, Q=K=V=I,dq=dk=dv=dmodel/h。
每一个head均采用scaled dot-product attention机制,具体计算过程如下:
其中Attention(Q,K,V)是scaled dot-product attention的输出,softmax(x)是归一化指数函数;Wrl是序列相对位置关系权重参数,
(2)Position-wise Feed Forward Network层对Multi-Head Attention层的输出进行两次线性变换和一次ReLU激活,具体公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1、W2分别为两次线性变换的参数矩阵,b1、b2分别为两次线性变换的偏置向量,dff是Position-wiseFeed Forward Network层中隐藏层的维度;FFN(x)是Position-wise Feed ForwardNetwork层的输出。
(3)上述两个子层的输出均需经过残差连接和层归一化操作,具体公式如下:
x′=x+Sublayer(x)
其中Sublayer(x)是子层对应的计算函数;x′i∈Rl,H=dmodel;μ和σ为均值和方差向量,μ、σ∈Rl;g和b为拟合参数,g、b∈Rl;⊙是点乘函数;LayerNorm(x′)是层归一化函数的输出。
进一步地,所述步骤6包括:
(1)给定输入观测序列x={x1,x2,...,xn},标注序列y={yn,y2,...,yn}的条件概率为p(y|x),具体公式如下:
其中tj是第j个转移特征函数,sk是第k个状态特征函数,λj和μk是特征函数对应的权重参数,Z是规范化因子。
(2)采用维特比算法选取条件概率最大的y作为最优标注序列。
本发明的有益效果:本发明方法不但利用transformer神经网络的优势更好地提取文本特征信息,而且加入了文本序列中字符的绝对位置和相对位置信息,在进行标注时还利用CRF考虑了标注序列中字符标注之间的相互关系,最终将地址文本拆分成若干地理要素。与传统基于规则的分词方法相比,该方法用数值向量表征地址文本可以使文本信息更加丰富,具有较好的准确率和鲁棒性,对未出现过的新地址数据也可以正确分词。在中文地址分词领域,该方法具有极大的研究意义和使用价值。
附图说明
图1为transformer神经网络的结构示意图;
图2为CRF的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供的一种基于transformer和CRF的中文地址分词方法,该方法包括以下步骤:
步骤1、对初始地址文本进行分词标注,得到带标注的地址文本,并对地址文本进行字符统计得到字符集,根据字符集将地址文本转化成序列化地址向量;
步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量,根据特征信息向量将序列化地址向量转换为特征信息矩阵;
步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量,根据位置信息向量将序列化地址向量转换为位置信息矩阵;
步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加,得到文本信息矩阵;
步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中,得到地址文本的语义特征信息矩阵;
步骤6、将步骤5得到的语义特征信息矩阵作为输入,利用条件随机场CRF对语义特征信息进行标注,得到中文地址分词标注序列。
进一步地,所述步骤1包括:
(1)对初始地址文本进行人工分词;
(2)采用BMES法对分词后的地址文本进行标注,即词的第一个字符标记为B,词中间的字符标记为M,词尾的字符标记为E,如果词是一个单独字符则标记为S;
以“浙江省|杭州市|浙江邦盛有限公司”为例,其中“|”为分词标记,该地址对应的标注序列为“B M E B M E B M M M M M M E”;
(3)对初始地址文本进行字符统计得到字符集,并将初始地址文本中的字符转换为其在字符集中的id,得到序列化地址向量;
(4)令l为地址文本限制长度,对长度小于l的序列化地址向量进行补0,对长度大于l的序列化地址向量进行截断,得到长度均为l的序列化地址向量。
进一步地,所述步骤2包括:
(1)将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量,得到字符矩阵其中n是字符集中字符个数,dmodel是每个字符的特征信息向量的维度,E中第i行代表第i个字符的特征信息向量;
(2)根据序列化地址向量中的字符id将字符转化为相应的特征信息向量,得到特征信息矩阵
进一步地,所述步骤3包括:
(1)计算序列化地址向量中每个位置pos的位置信息向量PE(pos),计算公式如下:
其中PE(pos,k)为PE(pos)第k个元素的值,k=0,1,...,dmodel-1;
(2)将序列化地址向量中的字符转化为相应的位置信息向量,得到位置信息矩阵
进一步地,所述步骤4包括:将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加,得到文本信息矩阵
进一步地,所述步骤5中transformer神经网络是一种新型的深度学习神经网络结构,它可以获取到更远的上下文信息,避免传统循环神经网络因梯度消失或者梯度爆炸而导致的信息消失问题,其示意图如图1所示,具体模型结构如下:
(1)Multi-Head Attention层利用多头注意力机制获取上下文信息,具体公式如下:
MultiHead(Q,K,V)=Concat(hed1,...,headh)WO
其中MultiHead(Q,K,V)是Multi-Head Attention层的输出结果;Concat是矩阵拼接函数;headi是第i个head的输出结果,h是head的个数;WO是输出的映射参数矩阵, 分别为Q、K、V在第i个head上的映射参数矩阵, Q=K=V=I,dq=dk=dv=dmodel/h。
每一个head都采用scaled dot-product attention机制,具体计算过程如下:
其中Attention(Q,K,V)是scaled dot-product attention的输出,softmax(x)是归一化指数函数;Wrl是序列相对位置关系权重参数,
(2)Position-wise Feed Forward Network层对Multi-Head Attention层的输出进行两次线性变换和一次ReLU激活,具体公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1、W2分别为两次线性变换的参数矩阵,b1、b2分别为两次线性变换的偏置向量,dff是Position-wiseFeed Forward Network层中隐藏层的维度;FFN(x)是Position-wise Feed ForwardNetwork层的输出。
(3)上述两个子层的输出均需经过残差连接和层归一化操作,具体公式如下:
x′=x+Sublayer(x)
其中Sublayer(x)是子层对应的计算函数;x′i∈Rl,H=dmodel;μ和σ为均值和方差向量,μ、σ∈Rl;g和b为拟合参数,g、b∈Rl;⊙是点乘函数;LayerNorm(x′)是层归一化函数的输出。
进一步地,所述步骤6包括:
(1)条件随机场是一种判别式无向图模型,其示意图如图2所示。给定输入观测序列x={x1,x2,...,xn},标注序列y={yn,y2,...,yn}的条件概率为p(y|x),具体公式如下:
其中tj是第j个转移特征函数,sk是第k个状态特征函数,λj和μk是特征函数对应的权重参数,Z是规范化因子。
(2)采用维特比算法选取条件概率最大的y作为最优标注序列。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于transformer和CRF的中文地址分词方法,其特征在于,包括以下步骤:
步骤1、对初始地址文本进行分词标注,得到带标注的地址文本,并对地址文本进行字符统计得到字符集,根据字符集将地址文本转化成序列化地址向量。
步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量,根据特征信息向量将序列化地址向量转换为特征信息矩阵。
步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量,根据位置信息向量将序列化地址向量转换为位置信息矩阵。
步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加,得到文本信息矩阵。
步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中,得到地址文本的语义特征信息矩阵。
步骤6、将步骤5得到的语义特征信息矩阵作为输入,利用条件随机场CRF对语义特征信息进行标注,得到中文地址分词标注序列。
2.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法,其特征在于,所述步骤1包括:
(1)对初始地址文本进行人工分词;
(2)采用BMES法对分词后的地址文本进行标注,即词的第一个字符标记为B,词中间的字符标记为M,词尾的字符标记为E,如果词是一个单独字符则标记为S;
(3)对初始地址文本进行字符统计得到字符集,并将初始地址文本中的字符转换为其在字符集中的id,得到序列化地址向量;
(4)令l为地址文本限制长度,对长度小于l的序列化地址向量进行补0,对长度大于l的序列化地址向量进行截断,得到长度均为l的序列化地址向量。
3.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法,其特征在于,所述步骤2包括:
(1)将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量,得到字符矩阵其中n是字符集中字符个数,dmodel是每个字符的特征信息向量的维度,E中第i行代表第i个字符的特征信息向量;
(2)根据序列化地址向量中的字符id将字符转化为相应的特征信息向量,得到特征信息矩阵
4.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法,其特征在于,所述步骤3包括:
(1)计算序列化地址向量中每个位置pos的位置信息向量PE(pos),计算公式如下:
其中PE(pos,k)为PE(pos)第k个元素的值,k=0,1,...,dmodel-1;
(2)将序列化地址向量中的字符转化为相应的位置信息向量,得到位置信息矩阵
5.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法,其特征在于,所述步骤5中,transformer神经网络的具体模型结构如下:
(1)Multi-Head Attention层利用多头注意力机制获取上下文信息,具体公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
where headi=Attention(QWi Q,KWi K,VWi V)
其中MultiHead(Q,K,V)是Multi-Head Attention层的输出结果;Concat是矩阵拼接函数;headi是第i个head的输出结果,h是head的个数;Wo是输出的映射参数矩阵, Wi Q、Wi K、Wi V分别为Q、K、V在第i个head上的映射参数矩阵, Q=K=V=I,dq=dk=dv=dmodel/h。
每一个head均采用scaled dot-product attention机制,具体计算过程如下:
其中Attention(Q,K,V)是scaled dot-product attention的输出,softmax(x)是归一化指数函数;Wrl是序列相对位置关系权重参数,Wi V∈Rl×l
(2)Position-wise Feed Forward Network层对Multi-Head Attention层的输出进行两次线性变换和一次ReLU激活,具体公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1、W2分别为两次线性变换的参数矩阵,b1、b2分别为两次线性变换的偏置向量,dff是Position-wise FeedForward Network层中隐藏层的维度;FFN(x)是Position-wise Feed Forward Network层的输出。
(3)上述两个子层的输出均需经过残差连接和层归一化操作,具体公式如下:
x′=x+Sublayer(x)
其中Sublayer(x)是子层对应的计算函数;x′i∈Rl,H=dmodel;μ和σ为均值和方差向量,μ、σ∈Rl;g和b为拟合参数,g、b∈Rl;⊙是点乘函数;LayerNorm(x′)是层归一化函数的输出。
6.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法,其特征在于,所述步骤6包括:
(1)给定输入观测序列x={x1,x2,...,xn},标注序列y={yn,y2,...,yn}的条件概率为p(y|x),具体公式如下:
其中tj是第j个转移特征函数,sk是第k个状态特征函数,λj和μk是特征函数对应的权重参数,Z是规范化因子。
(2)采用维特比算法选取条件概率最大的y作为最优标注序列。
CN201910448338.6A 2019-05-28 2019-05-28 一种基于transformer和CRF的中文地址分词方法 Active CN110222337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910448338.6A CN110222337B (zh) 2019-05-28 2019-05-28 一种基于transformer和CRF的中文地址分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910448338.6A CN110222337B (zh) 2019-05-28 2019-05-28 一种基于transformer和CRF的中文地址分词方法

Publications (2)

Publication Number Publication Date
CN110222337A true CN110222337A (zh) 2019-09-10
CN110222337B CN110222337B (zh) 2022-12-02

Family

ID=67818686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910448338.6A Active CN110222337B (zh) 2019-05-28 2019-05-28 一种基于transformer和CRF的中文地址分词方法

Country Status (1)

Country Link
CN (1) CN110222337B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111125365A (zh) * 2019-12-24 2020-05-08 京东数字科技控股有限公司 地址数据标注方法及装置、电子设备、存储介质
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN112256932A (zh) * 2020-12-22 2021-01-22 中博信息技术研究院有限公司 一种地址字符串的分词方法及装置
CN112749560A (zh) * 2019-10-30 2021-05-04 阿里巴巴集团控股有限公司 地址文本处理方法、装置、设备及计算机存储介质
CN112883726A (zh) * 2021-01-21 2021-06-01 昆明理工大学 基于音节切分和词切分联合学习的多任务泰语分词方法
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN114372499A (zh) * 2021-11-11 2022-04-19 万里云医疗信息科技(北京)有限公司 一种自然语言处理方法、装置、设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749560A (zh) * 2019-10-30 2021-05-04 阿里巴巴集团控股有限公司 地址文本处理方法、装置、设备及计算机存储介质
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111104802B (zh) * 2019-12-11 2023-03-28 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111125365A (zh) * 2019-12-24 2020-05-08 京东数字科技控股有限公司 地址数据标注方法及装置、电子设备、存储介质
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN112256932A (zh) * 2020-12-22 2021-01-22 中博信息技术研究院有限公司 一种地址字符串的分词方法及装置
CN112883726A (zh) * 2021-01-21 2021-06-01 昆明理工大学 基于音节切分和词切分联合学习的多任务泰语分词方法
CN114372499A (zh) * 2021-11-11 2022-04-19 万里云医疗信息科技(北京)有限公司 一种自然语言处理方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN110222337B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN110222337A (zh) 一种基于transformer和CRF的中文地址分词方法
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112163416B (zh) 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN111694924B (zh) 一种事件抽取方法和系统
EP1444614B1 (en) Digital ink database searching using handwriting feature synthesis
CN111552807A (zh) 一种短文本多标签分类方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN112560484B (zh) 用于命名实体识别的改进bert训练模型及命名实体识别方法
CN110196980A (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN112800764B (zh) 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN109446523B (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
Shan et al. Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network
CN113962224A (zh) 命名实体识别方法及其装置、设备、介质、产品
Du et al. Named entity recognition method with word position
Addis et al. Printed ethiopic script recognition by using lstm networks
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN111507103A (zh) 一种利用部分标注集的自训练神经网络分词模型
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN116226357A (zh) 一种输入中包含错误信息场景下的文档检索方法
CN114580422B (zh) 一种结合近邻分析的两阶段分类的命名实体识别方法
CN113989811A (zh) 基于深度学习的贸易合同中项目公司、供应商的提取方法
CN114155403A (zh) 一种基于深度学习的图像分段哈希排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room ABCD, 17th floor, building D, Paradise Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant after: Zhejiang Bangsheng Technology Co.,Ltd.

Address before: Room ABCD, 17th floor, building D, Paradise Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant before: ZHEJIANG BANGSUN TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant