CN110569486B - 基于双架构的序列标注方法、装置和计算机设备 - Google Patents

基于双架构的序列标注方法、装置和计算机设备 Download PDF

Info

Publication number
CN110569486B
CN110569486B CN201910696325.0A CN201910696325A CN110569486B CN 110569486 B CN110569486 B CN 110569486B CN 201910696325 A CN201910696325 A CN 201910696325A CN 110569486 B CN110569486 B CN 110569486B
Authority
CN
China
Prior art keywords
sequence
word
bert
architecture
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910696325.0A
Other languages
English (en)
Other versions
CN110569486A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910696325.0A priority Critical patent/CN110569486B/zh
Priority to PCT/CN2019/116705 priority patent/WO2021017268A1/zh
Publication of CN110569486A publication Critical patent/CN110569486A/zh
Application granted granted Critical
Publication of CN110569486B publication Critical patent/CN110569486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请揭示了一种基于双架构的序列标注方法、装置、计算机设备和存储介质,所述方法包括:获取待标注的句子,解析所述句子得到单词序列;将单词序列输入序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合;将隐藏状态向量集合输入结构型支持向量机架构中计算,得到单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure DDA0002149473740000011
组合每个单词对应的标注,从而获得初始序列标注;计算初始序列标注与参考序列标注的相似度值;若所述相似度值大于预设的相似度阈值,则将初始序列标注作为最终序列标注。从而改善传统方案在序列标注中的表现。

Description

基于双架构的序列标注方法、装置和计算机设备
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于双架构的序列标注方法、装置、计算机设备和存储介质。
背景技术
序列标注是自然语言处理中一项基本且重要的问题,它包括分词,词性标注,命名实体识别,关系抽取等任务。对于序列标注常用的算法有很多,其中常用的是结构型支持向量机,其已经取得了不错的效果。使用结构型支持向量机进行序列标注具有以下优点:其优化问题是凸出优化问题,可以确保找到全局最优值,但其特征需要人工制定,这带来了很大的局限性。因此现有技术的结构型支持向量机进行序列标注的准确度有待提高。
发明内容
本申请的主要目的为提供一种基于双架构的序列标注方法、装置、计算机设备和存储介质,旨在改善传统方案在序列标注中的表现。
为了实现上述发明目的,本申请提出一种基于双架构的序列标注方法,包括以下步骤:
获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理;
将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元;
将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000011
其中自变量为y,
Figure BDA0002149473720000012
为第i个单词对应的标注值,yi为第i个单词对应的标注,wyi为第i个单词对应的参数向量,wyi与hi具有相同维度,hi为第i个单词对应的隐藏状态向量;
组合每个单词对应的标注,从而获得初始序列标注;
根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值;
若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。
进一步地,所述获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理的步骤,包括:
利用预设的分词工具对所述句子进行分词,得到包含多个单词的暂时序列;
通过查询预设的同义词库,判断所述暂时序列中是否存在同义词组;
若所述暂时序列中存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个,并将经过替换处理的暂时序列记为所述单词序列。
进一步地,所述将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构的步骤之前,包括:
获取指定数量的语料,并对所述语料进行预处理,从而得到语料单词序列;
将所述语料单词序列输入预设的序列标注模型中进行训练,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构的输入为所述语料单词序列,所述结构型支持向量机架构的输入为BERT架构中最后一层转换单元的隐藏状态向量集合;
获取所述结构型支持向量机架构输出的语料标注序列;
将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数;
利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数。
进一步地,所述将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数的步骤,包括:
将所述语料标注序列输入预设的损失函数
Figure BDA0002149473720000031
Figure BDA0002149473720000032
中,从而获取损失函数值,其中wy为第i个单词对应的参数向量,共有N个单词,yi为第i个单词对应的正确标注,
Figure BDA0002149473720000033
为不正确的标注,C为惩罚因子,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者;
判断所述损失函数值是否小于预设阈值;
若所述损失函数值不小于预设阈值,则调整所述结构型支持向量机架构的各层参数,以使所述损失函数的取值小于预设阈值,并将调整后的所述结构型支持向量机架构的各层参数记为优化后的所述结构型支持向量机架构的各层参数。
进一步地,所述利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数的步骤,包括:
采用公式:
Figure BDA0002149473720000034
其中
Figure BDA0002149473720000035
进行反向传播,从而优化所述BERT架构的各层参数,其中Loss为损失函数,wj为所述BERT架构的参数向量,共有N个单词,i指第i个单词,C为惩罚因子,
Figure BDA0002149473720000036
为不正确的标注,yi为第i个单词对应的正确标注,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者。
进一步地,所述BERT架构包括依次连接的多层嵌入层、多层转换单元和全连接层,所述将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合的步骤,包括:
利用所述多层嵌入层对所述单词序列进行嵌入操作,从而获得输入特征序列;
将所述输入特征序列输入所述多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
将所述隐藏状态向量集合输入所述全连接层中进行计算,从而得到BERT架构输出的参考序列标注。
进一步地,所述根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值的步骤,包括:
采用公式:
Figure BDA0002149473720000041
计算所述初始序列标注与所述参考序列标注的相似度值,其中similarity为相似度值,A为所述初始序列标注的标注频率向量,B为所述参考序列标注的标注频率向量,Ai为所述初始序列标注的第i个标注出现的次数,Bi为所述参考序列标注的第i个标注出现的次数;
判断所述相似度值是否大于预设的相似度阈值。
本申请提供一种基于双架构的序列标注装置,包括:
句子获取单元,用于获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理;
BERT架构计算单元,用于将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元;
支持向量机架构计算单元,用于将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000042
其中自变量为y,
Figure BDA0002149473720000043
为第i个单词对应的标注值,yi为第i个单词对应的标注,wyi为第i个单词对应的参数向量,wyi与hi具有相同维度,hi为第i个单词对应的隐藏状态向量;
初始序列标注获取单元,用于组合每个单词对应的标注,从而获得初始序列标注;
相似度值计算单元,用于根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值;
最终序列标注标记单元,用于若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于双架构的序列标注方法、装置、计算机设备和存储介质,获取待标注的句子,解析所述句子得到单词序列;将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合;将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000051
组合每个单词对应的标注,从而获得初始序列标注;根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值;若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。从而改善传统方案在序列标注中的表现。
附图说明
图1为本申请一实施例的基于双架构的序列标注方法的流程示意图;
图2为本申请一实施例的基于双架构的序列标注装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于双架构的序列标注方法,包括以下步骤:
S1、获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理;
S2、将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元;
S3、将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000061
其中自变量为y,
Figure BDA0002149473720000062
为第i个单词对应的标注值,yi为第i个单词对应的标注,wyi为第i个单词对应的参数向量,wyi与hi具有相同维度,hi为第i个单词对应的隐藏状态向量;
S4、组合每个单词对应的标注,从而获得初始序列标注;
S5、根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值;
S6、若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。
结构型支持向量机可用于自然语言处理,可进行序列标注,但是它的输入特征需要人工制定,因此受到较大的限制。本申请为了改善结构型支持向量机的序列标注的表现,采用了BERT架构中最后一层转换单元的隐藏状态向量集合作为结构型支持向量机的输入。其中BERT架构(Bidirectional Encoder Representations from Transformers)是用于自然语言处理中进行训练的架构,可译为来自转换单元的双向编码器表征,其包括多层转换单元,其中转换单元由若干个编码器和解码器堆叠形成。
如上述步骤S1所述,获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理。其中所述预处理的目的是获取单词序列,因此至少需要进行分词处理。其中预处理的方法例如为:用预设的分词工具对所述句子进行分词,得到包含多个单词的暂时序列;通过查询预设的同义词库,判断所述暂时序列中是否存在同义词组;若所述暂时序列中存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个,并将经过替换处理的暂时序列记为所述单词序列。
如上述步骤S2所述,将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元。其中所述序列标注模型用于将单词序列转换为对应的标注序列。其中BERT架构还包括输出层,用于输出参考序列标注。所述BERT架构中最后一层转换单元的隐藏状态向量集合反应了输入的单词序列,作为结构型支持向量机架构的输入能有效地改善结构型支持向量机架构。
如上述步骤S3所述,将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000071
其中自变量为y,
Figure BDA0002149473720000072
为第i个单词对应的标注值,yi为第i个单词对应的标注,wyi为第i个单词对应的参数向量,wyi与hi具有相同维度,hi为第i个单词对应的隐藏状态向量。从而根据标注选择函数
Figure BDA0002149473720000073
获取与第i个单词对应的正确标注值,从而获知正确标注。相比于普通结构型支持向量的输出,本申请的所述单词序列中的每个单词对应的标注更为准确。
如上述步骤S4所述,组合每个单词对应的标注,从而获得初始序列标注。其中组合的方式例如为依序组合,从而得到初始序列标注。进一步地,将每个单词对应的标注所对应的标注值也进行组合处理,从而得到初始序列标注向量或者矩阵。
如上述步骤S5所述,根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值。其中计算所述初始序列标注与所述参考序列标注的相似度值可以采用任意方法,例如基于余弦相似度的算法等。进一步地,还可以包括:获取BERT架构输出的参考序列标注对应的参考序列标注向量或者矩阵,获取所述结构型支持向量机架构输出的初始序列标注向量或者矩阵,计算所述参考序列标注向量或者矩阵和所述初始序列标注向量或者矩阵的相似度,若相似度高表明结构型支持向量机架构输出的初始序列标注是准确的。
如上述步骤S6所述,若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。若所述相似度值大于预设的相似度阈值,表明所述结构型支持向量机架构输出的输出结果与所述BERT的输出结构的近似相同,据此将所述初始序列标注作为最终序列标注,从而更进一步地保证了序列标注的准确性。
在一个实施方式中,所述获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理的步骤S1,包括:
S101、利用预设的分词工具对所述句子进行分词,得到包含多个单词的暂时序列;
S102、通过查询预设的同义词库,判断所述暂时序列中是否存在同义词组;
S103、若所述暂时序列中存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个,并将经过替换处理的暂时序列记为所述单词序列。
如上所述,实现了对所述句子进行预处理。其中分词可使用开源的分词工具,例如jieba、SnowNLP、NLPIR等。分词方法例如包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。从而将单个单句分为多个词。为了减少计算量,也为了增加词意的准确度,通过查询预设的同义词库,判断暂时序列中是否存在同义词组,若存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个。具体地,同义词库中包括多个同义词条,若在所述单词序列中有两个以上单词出现在同一个同义词条中,表明所述两个以上单词构成了同义词组。一般而言,同义词的替换并不会导致句子的原义发生改变,因此采用同义词替换的方式以减少计算量与数据存储量。
在一个实施方式中,所述将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构的步骤S2之前,包括:
S11、获取指定数量的语料,并对所述语料进行预处理,从而得到语料单词序列;
S12、将所述语料单词序列输入预设的序列标注模型中进行训练,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构的输入为所述语料单词序列,所述结构型支持向量机架构的输入为BERT架构中最后一层转换单元的隐藏状态向量集合;
S13、获取所述结构型支持向量机架构输出的语料标注序列;
S14、将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数;
S15、利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数。
如上所述,实现了对序列标注模型进行训练,从而优化结构型支持向量机架构的各层参数和所述BERT架构的各层参数。其中语料是指预先收集的句子,以训练样本的形式对序列标注模型进行训练。其中训练过程所采用的标注选择函数也是
Figure BDA0002149473720000091
其中自变量为y,
Figure BDA0002149473720000092
为第i个单词对应的标注值,yi为第i个单词对应的标注,wyi为第i个单词对应的参数向量,wyi与hi具有相同维度,hi为第i个单词对应的隐藏状态向量。再利用输出的结果优化所述结构型支持向量机架构的各层参数和所述BERT架构的各层参数。从而实现了同时优化支持向量机架构和BERT架构。
在一个实施方式中,所述将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数的步骤S14,包括:
S141、将所述语料标注序列输入预设的损失函数
Figure BDA0002149473720000093
Figure BDA0002149473720000094
中,从而获取损失函数值,其中wy为第i个单词对应的参数向量,共有N个单词,yi为第i个单词对应的正确标注,
Figure BDA0002149473720000095
为不正确的标注,C为惩罚因子,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者;
S142、判断所述损失函数值是否小于预设阈值;
S143、若所述损失函数值不小于预设阈值,则调整所述结构型支持向量机架构的各层参数,以使所述损失函数的取值小于预设阈值,并将调整后的所述结构型支持向量机架构的各层参数记为优化后的所述结构型支持向量机架构的各层参数。
如上所述,实现了将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数。本申请采用损失函数
Figure BDA0002149473720000101
来作为优化参数的依据。当损失函数的输出值较小时,表明所述序列标注模型的标注是准确的,其中的各层参数也是合适的,据此将其记为优化后的所述结构型支持向量机架构的各层参数。其中调整所述结构型支持向量机架构的各层参数的方式可为任意方式,只需保证调整后损失函数的输出值变小即可。
在一个实施方式中,所述利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数的步骤S15,包括:
S151、采用公式:
Figure BDA0002149473720000102
其中
Figure BDA0002149473720000103
进行反向传播,从而优化所述BERT架构的各层参数,其中Loss为损失函数,wj为所述BERT架构的参数向量,共有N个单词,i指第i个单词,C为惩罚因子,
Figure BDA0002149473720000104
为不正确的标注,yi为第i个单词对应的正确标注,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者。
如上所述,实现了利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数。本申请的序列标注模型包括BERT架构和结构型支持向量机架构,因此需要对BERT架构和结构型支持向量机架构均进行参数优化才能实现训练的目的。本申请采用公式:
Figure BDA0002149473720000105
其中
Figure BDA0002149473720000106
进行反向传播,从而优化所述BERT架构的各层参数。其中的反向传播即是根据链式法则进行了优化参数的传播。
在一个实施方式中,所述BERT架构包括依次连接的多层嵌入层、多层转换单元和全连接层,所述将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合的步骤S2,包括:
S201、利用所述多层嵌入层对所述单词序列进行嵌入操作,从而获得输入特征序列;
S202、将所述输入特征序列输入所述多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
S203、将所述隐藏状态向量集合输入所述全连接层中进行计算,从而得到BERT架构输出的参考序列标注。
如上所述,实现了获取BERT架构中最后一层转换单元的隐藏状态向量集合。所述BERT架构包括依次连接的多层嵌入层、多层转换单元和全连接层,其中的多层嵌入层例如为三层嵌入层,分别为表征嵌入层、分割嵌入层和位置嵌入层,分别用于将单词转换成向量形式、用于区分两个句子(以O或1的形式)、将将单词的位置信息编码成特征向量,再将三层嵌入层得到的向量进行叠加,即可作为多层转换单元的输入。所述多层转换单元彼此连接,能够反应上下文的关系,其中最后一层转换单元的隐藏状态向量集合即反应了输入的单词序列。并且为了进一步判断序列标注模型最后输出的序列标注是否准确,还设置了全连接层,用于输出的参考序列标注。
在一个实施方式中,所述根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值的步骤S5,包括:
S501、采用公式:
Figure BDA0002149473720000111
计算所述初始序列标注与所述参考序列标注的相似度值,其中similarity为相似度值,A为所述初始序列标注的标注频率向量,B为所述参考序列标注的标注频率向量,Ai为所述初始序列标注的第i个标注出现的次数,Bi为所述参考序列标注的第i个标注出现的次数;
S502、判断所述相似度值是否大于预设的相似度阈值。
如上所述,实现了计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值。所述标注频率向量是以标注序列中的各标注出现的次数(频率)作为向量的维度数值,所构成的多维向量。即A=(A1,A2,…,An),其中An为最后一个标注(共有n个词)的出现次数。所述相似度算法用于反应所述初始序列标注与所述参考序列标注的。当similarity的值越接近于1,表明越相似;越接近于0,表明越不相似。据此判断所述相似度值是否大于预设的相似度阈值。其中所述相似度阈值优选为100%。
本申请的基于双架构的序列标注方法,获取待标注的句子,解析所述句子得到单词序列;将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合;将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000121
组合每个单词对应的标注,从而获得初始序列标注;根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值;若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。从而改善传统方案在序列标注中的表现。
参照图2,本申请实施例提供一种基于双架构的序列标注装置,包括:
句子获取单元10,用于获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理;
BERT架构计算单元20,用于将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元;
支持向量机架构计算单元30,用于将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000131
其中自变量为y,
Figure BDA0002149473720000132
为第i个单词对应的标注值,yi为第i个单词对应的标注,wyi为第i个单词对应的参数向量,wyi与hi具有相同维度,hi为第i个单词对应的隐藏状态向量;
初始序列标注获取单元40,用于组合每个单词对应的标注,从而获得初始序列标注;
相似度值计算单元50,用于根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值;
最终序列标注标记单元60,用于若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。
其中上述单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述句子获取单元10,包括:
分词子单元,用于利用预设的分词工具对所述句子进行分词,得到包含多个单词的暂时序列;
同义词判断子单元,用于通过查询预设的同义词库,判断所述暂时序列中是否存在同义词组;
同义词替换子单元,用于若所述暂时序列中存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个,并将经过替换处理的暂时序列记为所述单词序列。
其中上述子单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
语料获取单元,用于获取指定数量的语料,并对所述语料进行预处理,从而得到语料单词序列;
序列标注模型训练单元,用于将所述语料单词序列输入预设的序列标注模型中进行训练,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构的输入为所述语料单词序列,所述结构型支持向量机架构的输入为BERT架构中最后一层转换单元的隐藏状态向量集合;
语料标注序列获取单元,用于获取所述结构型支持向量机架构输出的语料标注序列;
损失函数计算单元,用于将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数;
参数优化单元,用于利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数。
其中上述单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述损失函数计算单元,包括:
损失函数值获取子单元,用于将所述语料标注序列输入预设的损失函数
Figure BDA0002149473720000141
中,从而获取损失函数值,其中wy为第i个单词对应的参数向量,共有N个单词,yi为第i个单词对应的正确标注,
Figure BDA0002149473720000142
为不正确的标注,C为惩罚因子,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者;
损失函数值判断子单元,用于判断所述损失函数值是否小于预设阈值;
参数调整子单元,用于若所述损失函数值不小于预设阈值,则调整所述结构型支持向量机架构的各层参数,以使所述损失函数的取值小于预设阈值,并将调整后的所述结构型支持向量机架构的各层参数记为优化后的所述结构型支持向量机架构的各层参数。
其中上述子单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述参数优化单元,包括:
参数优化子单元,用于采用公式:
Figure BDA0002149473720000143
其中
Figure BDA0002149473720000144
进行反向传播,从而优化所述BERT架构的各层参数,其中Loss为损失函数,wj为所述BERT架构的参数向量,共有N个单词,i指第i个单词,C为惩罚因子,
Figure BDA0002149473720000151
为不正确的标注,yi为第i个单词对应的正确标注,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者。
其中上述子单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述BERT架构包括依次连接的多层嵌入层、多层转换单元和全连接层,所述BERT架构计算单元20,包括:
嵌入子单元,用于利用所述多层嵌入层对所述单词序列进行嵌入操作,从而获得输入特征序列;
隐藏状态向量集合获取子单元,用于将所述输入特征序列输入所述多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
全连接层计算子单元,用于将所述隐藏状态向量集合输入所述全连接层中进行计算,从而得到BERT架构输出的参考序列标注。
其中上述子单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述相似度值计算单元50,包括:
相似度值计算子单元,用于采用公式:
Figure BDA0002149473720000152
计算所述初始序列标注与所述参考序列标注的相似度值,其中similarity为相似度值,A为所述初始序列标注的标注频率向量,B为所述参考序列标注的标注频率向量,Ai为所述初始序列标注的第i个标注出现的次数,Bi为所述参考序列标注的第i个标注出现的次数;
相似度值计算判断子单元,用于判断所述相似度值是否大于预设的相似度阈值。
其中上述子单元分别用于执行的操作与前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
本申请的基于双架构的序列标注装置,获取待标注的句子,解析所述句子得到单词序列;将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合;将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000161
组合每个单词对应的标注,从而获得初始序列标注;根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值;若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。从而改善传统方案在序列标注中的表现。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于双架构的序列标注方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于双架构的序列标注方法。
上述处理器执行上述基于双架构的序列标注方法,其中所述方法包括的步骤分别与执行前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取待标注的句子,解析所述句子得到单词序列;将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合;将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000171
组合每个单词对应的标注,从而获得初始序列标注;根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值;若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。从而改善传统方案在序列标注中的表现。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于双架构的序列标注方法,其中所述方法包括的步骤分别与执行前述实施方式的基于双架构的序列标注方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取待标注的句子,解析所述句子得到单词序列;将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合;将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure BDA0002149473720000172
组合每个单词对应的标注,从而获得初始序列标注;根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值;若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。从而改善传统方案在序列标注中的表现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (7)

1.一种基于双架构的序列标注方法,其特征在于,包括:
获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理;
获取指定数量的语料,并对所述语料进行预处理,从而得到语料单词序列;
将所述语料单词序列输入预设的序列标注模型中进行训练,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构的输入为所述语料单词序列,所述结构型支持向量机架构的输入为BERT架构中最后一层转换单元的隐藏状态向量集合;
获取所述结构型支持向量机架构输出的语料标注序列;
将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数;
利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数;
将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元;
将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure FDA0003918752680000011
其中自变量为y,
Figure FDA0003918752680000012
为第i个单词对应的正确标注值,yi为第i个单词对应的正确标注,
Figure FDA0003918752680000013
为第i个单词对应的参数向量,
Figure FDA0003918752680000014
与hi具有相同维度,hi为第i个单词对应的隐藏状态向量;
组合每个单词对应的标注,从而获得初始序列标注;
根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值;
若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注;
将所述语料标注序列输入预设的损失函数
Figure FDA0003918752680000021
中,从而获取损失函数值,其中
Figure FDA0003918752680000022
为第i个单词对应的参数向量,共有N个单词,yi为第i个单词对应的正确标注,
Figure FDA0003918752680000023
为不正确的标注,
Figure FDA0003918752680000024
为不正确的标注对应的参数向量,C为惩罚因子,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者;
判断所述损失函数值是否小于预设阈值;
若所述损失函数值不小于预设阈值,则调整所述结构型支持向量机架构的各层参数,以使所述损失函数的取值小于预设阈值,并将调整后的所述结构型支持向量机架构的各层参数记为优化后的所述结构型支持向量机架构的各层参数。
2.根据权利要求1所述的基于双架构的序列标注方法,其特征在于,所述获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理的步骤,包括:
利用预设的分词工具对所述句子进行分词,得到包含多个单词的暂时序列;
通过查询预设的同义词库,判断所述暂时序列中是否存在同义词组;
若所述暂时序列中存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个,并将经过替换处理的暂时序列记为所述单词序列。
3.根据权利要求1所述的基于双架构的序列标注方法,其特征在于,所述BERT架构包括依次连接的多层嵌入层、多层转换单元和全连接层,所述将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合的步骤,包括:
利用所述多层嵌入层对所述单词序列进行嵌入操作,从而获得输入特征序列;
将所述输入特征序列输入所述多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
将所述隐藏状态向量集合输入所述全连接层中进行计算,从而得到BERT架构输出的参考序列标注。
4.根据权利要求1所述的基于双架构的序列标注方法,其特征在于,所述根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值的步骤,包括:
采用公式:
Figure FDA0003918752680000031
计算所述初始序列标注与所述参考序列标注的相似度值,其中similarity为相似度值,A为所述初始序列标注的标注频率向量,B为所述参考序列标注的标注频率向量,Ai为所述初始序列标注的第i个标注出现的次数,Bi为所述参考序列标注的第i个标注出现的次数;
判断所述相似度值是否大于预设的相似度阈值。
5.一种基于双架构的序列标注装置,其特征在于,包括:
句子获取单元,用于获取待标注的句子,利用预设的预处理方法解析所述句子得到单词序列,其中所述预处理方法至少包括分词处理;
语料获取单元,用于获取指定数量的语料,并对所述语料进行预处理,从而得到语料单词序列;
序列标注模型训练单元,用于将所述语料单词序列输入预设的序列标注模型中进行训练,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构的输入为所述语料单词序列,所述结构型支持向量机架构的输入为BERT架构中最后一层转换单元的隐藏状态向量集合;
语料标注序列获取单元,用于获取所述结构型支持向量机架构输出的语料标注序列;
损失函数计算单元,用于将所述语料标注序列输入预设的损失函数中,从而获得优化后的所述结构型支持向量机架构的各层参数;
参数优化单元,用于利用所述损失函数,采用反向传播的方法优化所述BERT架构的各层参数;
BERT架构计算单元,用于将所述单词序列输入已经训练完成的序列标注模型中的BERT架构中计算,从而得到BERT架构输出的参考序列标注,并获取BERT架构中最后一层转换单元的隐藏状态向量集合,其中所述序列标注模型包括BERT架构和结构型支持向量机架构,BERT架构包括多层转换单元;
支持向量机架构计算单元,用于将所述隐藏状态向量集合输入结构型支持向量机架构中计算,得到所述单词序列中的每个单词对应的标注,其中结构型支持向量机架构计算时采用的函数为
Figure FDA0003918752680000041
其中自变量为y,
Figure FDA0003918752680000042
为第i个单词对应的正确标注值,yi为第i个单词对应的正确标注,
Figure FDA0003918752680000043
为第i个单词对应的参数向量,
Figure FDA0003918752680000044
与hi具有相同维度,hi为第i个单词对应的隐藏状态向量;
初始序列标注获取单元,用于组合每个单词对应的标注,从而获得初始序列标注;
相似度值计算单元,用于根据预设的相似度值计算方法,计算所述初始序列标注与所述参考序列标注的相似度值,并判断所述相似度值是否大于预设的相似度阈值;
最终序列标注标记单元,用于若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注;
所述损失函数计算单元,包括:
损失函数值获取子单元,用于将所述语料标注序列输入预设的损失函数
Figure FDA0003918752680000051
中,从而获取损失函数值,其中
Figure FDA0003918752680000052
为第i个单词对应的参数向量,共有N个单词,yi为第i个单词对应的正确标注,
Figure FDA0003918752680000053
为不正确的标注,
Figure FDA0003918752680000054
为不正确的标注对应的参数向量,C为惩罚因子,hi为第i个单词对应的隐藏状态向量,其中符号[]+表示0与方括号内数值之中最大者;
损失函数值判断子单元,用于判断所述损失函数值是否小于预设阈值;
参数调整子单元,用于若所述损失函数值不小于预设阈值,则调整所述结构型支持向量机架构的各层参数,以使所述损失函数的取值小于预设阈值,并将调整后的所述结构型支持向量机架构的各层参数记为优化后的所述结构型支持向量机架构的各层参数。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201910696325.0A 2019-07-30 2019-07-30 基于双架构的序列标注方法、装置和计算机设备 Active CN110569486B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910696325.0A CN110569486B (zh) 2019-07-30 2019-07-30 基于双架构的序列标注方法、装置和计算机设备
PCT/CN2019/116705 WO2021017268A1 (zh) 2019-07-30 2019-11-08 基于双架构的序列标注方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910696325.0A CN110569486B (zh) 2019-07-30 2019-07-30 基于双架构的序列标注方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN110569486A CN110569486A (zh) 2019-12-13
CN110569486B true CN110569486B (zh) 2023-01-03

Family

ID=68773699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910696325.0A Active CN110569486B (zh) 2019-07-30 2019-07-30 基于双架构的序列标注方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN110569486B (zh)
WO (1) WO2021017268A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190576B (zh) * 2019-12-17 2022-09-23 深圳平安医疗健康科技服务有限公司 基于文字识别的组件集展示方法、装置和计算机设备
CN111177345B (zh) * 2019-12-19 2023-06-20 中国平安财产保险股份有限公司 基于知识图谱的智能问答方法、装置和计算机设备
CN111859858B (zh) * 2020-07-22 2024-03-01 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN113434699B (zh) * 2021-06-30 2023-07-18 平安科技(深圳)有限公司 用于文本匹配的bert模型的预训练方法、计算机装置和存储介质
CN113239689B (zh) * 2021-07-07 2021-10-08 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109740143A (zh) * 2018-11-28 2019-05-10 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792560B2 (en) * 2015-02-17 2017-10-17 Microsoft Technology Licensing, Llc Training systems and methods for sequence taggers
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN106547737B (zh) * 2016-10-25 2020-05-12 复旦大学 基于深度学习的自然语言处理中的序列标注方法
CN108460013B (zh) * 2018-01-30 2021-08-20 大连理工大学 一种基于细粒度词表示模型的序列标注模型及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109740143A (zh) * 2018-11-28 2019-05-10 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备

Also Published As

Publication number Publication date
CN110569486A (zh) 2019-12-13
WO2021017268A1 (zh) 2021-02-04

Similar Documents

Publication Publication Date Title
CN110569486B (zh) 基于双架构的序列标注方法、装置和计算机设备
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110674319B (zh) 标签确定方法、装置、计算机设备及存储介质
CN111475617B (zh) 事件主体抽取方法、装置及存储介质
CN111177345B (zh) 基于知识图谱的智能问答方法、装置和计算机设备
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111062215A (zh) 基于半监督学习训练的命名实体识别方法和装置
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN112766319B (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
Moeng et al. Canonical and surface morphological segmentation for nguni languages
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN112395412A (zh) 文本分类的方法、装置以及计算机可读介质
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN110489762B (zh) 基于神经网络机器翻译的术语翻译方法、存储介质和装置
CN113076404B (zh) 一种文本相似度计算方法、装置、计算机设备和存储介质
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN113569021B (zh) 用户分类的方法、计算机设备和可读存储介质
CN112016299A (zh) 计算机执行、利用神经网络生成依存句法树的方法及装置
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant