CN111008283B - 一种基于复合边界信息的序列标注方法及系统 - Google Patents

一种基于复合边界信息的序列标注方法及系统 Download PDF

Info

Publication number
CN111008283B
CN111008283B CN201911056445.0A CN201911056445A CN111008283B CN 111008283 B CN111008283 B CN 111008283B CN 201911056445 A CN201911056445 A CN 201911056445A CN 111008283 B CN111008283 B CN 111008283B
Authority
CN
China
Prior art keywords
word
vector
composite
boundary
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911056445.0A
Other languages
English (en)
Other versions
CN111008283A (zh
Inventor
孟茜
夏天
刘安庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yaoming Data Technology Chengdu Co ltd
Original Assignee
Zhongdian Yaoming Data Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yaoming Data Technology Chengdu Co ltd filed Critical Zhongdian Yaoming Data Technology Chengdu Co ltd
Priority to CN201911056445.0A priority Critical patent/CN111008283B/zh
Publication of CN111008283A publication Critical patent/CN111008283A/zh
Application granted granted Critical
Publication of CN111008283B publication Critical patent/CN111008283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于复合边界信息的序列标注方法及系统,该方法包括:对非结构化文本数据通过预设模型,生成复合词向量并归一化;对所述非结构化文本数据,预训练获得词边界特征向量;将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;通过所述联合模型,对待标注文本进行序列标注。该方法可消除因分词错误等带来的影响,提高了标注结果的准确性。

Description

一种基于复合边界信息的序列标注方法及系统
技术领域
本发明涉及互联网技术领域,特别涉及一种基于复合边界信息的序列标注方法及系统。
背景技术
目前,随着文本数据量在互联网上的膨胀,越来越多的服务与应用依赖知识抽取等技术的辅助,以提供更好的服务。而在知识抽取这个具体的任务中,解析无自然分隔的文本(如中文、日文等)的技术又扮演着很重要的作用。
在现有技术领域,在处理无自然分隔的语言的文本数据时,仍然受到分词错误的影响。
当前使用以字为单位的模型,可以在一定程度上避免分词错误的影响,但是同时也无法利用到词边界的信息,从而导致识别错误的不可避免。
发明内容
鉴于上述问题,本发明提出了一种基于复合边界信息的序列标注方法,可消除因分词错误等带来的影响,提高了标注结果的准确性。
第一方面,本发明实施例提供一种基于复合边界信息的序列标注方法,包括:对非结构化文本数据通过预设模型,生成复合词向量并归一化;
对所述非结构化文本数据,预训练获得词边界特征向量;
将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
通过所述联合模型,对待标注文本进行序列标注。
在一个实施例中,对非结构化文本数据通过预设模型,生成复合词向量并归一化,包括:
对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
归一化每个全分词后的词向量集合;
将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。
在一个实施例中,所述归一化每个全分词后的词向量集合,包括:
统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;
所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。
在一个实施例中,对所述非结构化文本数据,预训练获得词边界特征向量,包括:
对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;
生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。
在一个实施例中,对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量,包括:
对所述非结构化文本数据进行数据清洗,生成训练数据;
根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;
将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。
第二方面,本发明还提供一种基于复合边界信息的序列标注系统,包括:
归一化模块,用于对非结构化文本数据通过预设模型,生成复合词向量并归一化;
预训练模块,用于对所述非结构化文本数据,预训练获得词边界特征向量;
融合模块,用于将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
预处理模块,用于对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
生成模块,用于基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
标注模块,用于通过所述联合模型,对待标注文本进行序列标注。
在一个实施例中,所述归一化模块,具体用于:对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;归一化每个全分词后的词向量集合;将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。
在一个实施例中,所述归一化每个全分词后的词向量集合,包括:
统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;
所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。
在一个实施例中,所述预训练模块,包括:
生成单元,用于对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
合并单元,用于使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;
转换单元,用于生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。
在一个实施例中,所述预处理模块,具体用于:对所述非结构化文本数据进行数据清洗,生成训练数据;根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种基于复合边界信息的序列标注方法,可以用来表示和学习复合的边界特征,通过联合学习,生成的联合模型;可直接应用于分词、词性标注、信息抽取等序列标注的具体任务,并可以服务更多自然语言处理的后续任务如翻译、推荐等等。其中,需要识别的序列边界信息可根据具体的任务动态学习,该方法可消除因分词错误等带来的影响,提高了标注结果的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的基于复合边界信息的序列标注方法流程图;
图2为本发明实施例提供的复合边界信息的序列标注联合模型生成步骤图;
图3为本发明实施例提供的词向量集合转换示意图;
图4为本发明实施例提供的BMES标注法示意图;
图5为本发明实施例提供的字向量模型结构图;
图6为本发明实施例提供的联合模型架构图;
图7为本发明实施例提供的基于复合边界信息的序列标注系统的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供的一种基于复合边界信息的序列标注方法,包括:
S1、对非结构化文本数据通过预设模型,生成复合词向量并归一化;
S2、对所述非结构化文本数据,预训练获得词边界特征向量;
S3、将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
S4、对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
S5、基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
S6、通过所述联合模型,对待标注文本进行序列标注。
本发明实施例中,步骤S1中的生成复合词向量,并归一化成可输入预设模型的表示,该复合词向量具有词边界信息。步骤S2通过预训练获得可表示词边界信息的特征向量;S3~S6中将复合词向量与词边界特征向量进行融合,得到复合边界特征向量;对非结构化文本数据进行预处理,并通过预训练以得到字特征向量;复合边界特征向量和字特征向量,通过联合学习,全局更新参数生成联合模型,基于该联合模型,对待标注文本进行序列标注。
该联合模型,可对待标注文本进行序列标注,比如直接应用于分词、词性标注、信息抽取等序列标注的具体任务,如分词,实体识别、事件检测等,并可以服务更多自然语言处理的后续任务如翻译、推荐等等。该方法采用联合学习,通过学习丰富的边界信息,可得到更好的标注效果。还可应用于多语言场景,不受语言特性所束缚。
下面对上述各个步骤进行详细说明。
参照图2所示,为复合边界信息的序列标注联合模型生成过程;原始数据是指非结构化的文本数据,比如当用于实体识别时,该原始数据可以是医生记录的病例文本数据;比如当用于分词时,该原始数据可以是诗歌或歌曲的文本数据;
以下实例以神经网络常用的LSTM模型结构为例进行说明,还可以是其他模型结构,本发明实施例对此不作限定。
S10、生成复合词向量并归一化
S101、对当前语料,以每个句子为单位,生成全分词结果。
S102、归一化每个全分词后的词向量集合。具体为统一每个词向量集合的大小。以当前句中包含词数最多的集合为标准,如词数少于标准集合中次数的数量,即:最大值,则进行padding操作,也就是超出部分的矩阵补零。
S103、通过上述步骤得到的归一化后的词向量集合,通过一个注意力机制进行转换。如图3将每个集合转换为一个新的词向量表示
Figure BDA0002256666920000061
Figure BDA0002256666920000062
S20、预训练边界特征向量;
S201、对当前语料,以每个句子为单位,生成全分词结果。
S202、使用BMES(分别代表开始、中间、结束、单独)标注方法,对步骤S201所得到的各个全分词结果的词序列进行标注,并按照每个字对应的标签种类进行合并,可参照图4所示。
S203、最后生成每个字标签的向量表示,并转换为唯一编码表示
Figure BDA0002256666920000063
该表示/>
Figure BDA0002256666920000064
包含丰富的词边界信息。
上述唯一编码转换方式比如将字标签向量通过onehot方式进行表示,再使用sigmoid函数进行归一化处理,转化为一个与样例文本紧凑表示相同维度的向量。其中编码方式可以有多种,不唯一确定,本发明实施例对此不作限定。
S30、融合复合词向量与边界特征向量,构成复合边界特征向量;
S301、融合根据步骤S10与步骤S20得到的两种类型的含有词边界信息的向量,一个是S10经过注意力机制进行编码过的词向量,另一个是S20对词边界标签向量生成的唯一编码表示。融合方式如下方公式。
Figure BDA0002256666920000071
S302、将上一步S301得到的复合词边界信息表示,分别输入如图5所示的神经网络结构中,获得单元状态cq
模型输入x′t,进过遗忘门fq、输入门iq后计参数更新候选集
Figure BDA0002256666920000072
最终可得到单元状态cq。(ht-1为上一时间隐藏状态,Wf、Wi、WC为权重矩阵,bf、bi、bc为偏置量。)
fq=σ(Wf[ht-1,x′t]+bf)
iq=σ(Wi[ht-1,x′t]+bi)
Figure BDA0002256666920000073
Figure BDA0002256666920000074
S40、数据预处理与预训练字向量
对训练数据进行预处理,使用BIO标注方法,将原始数据转换为相应任务所需要的模型输入格式。
S401、数据清洗:需要根据具体的文本格式采用不同的方法,例如处理非格式化数据时,需要统一字符编码、去除无意义的特殊符号等噪音数据。
S402、训练数据生成:根据序列标注具体任务所需,用B开始、I连续、O其它的方式表示一个待标注序列的起始位置,并根据需要添加类别标识,如:“今天是个好天气”中需要将“今天”是一个名词N进行标识,则表示为今-B-N,天-I-N,是-O剩下字符同理为O。
S403、预训练字向量:为避免分词错误引入错误的词边界信息,本发明基于字向量模型来表示文本中所包含语义。
预训练得到每个字的向量表示集合X:
X={x0,x1…xn}
同样利用如图5所示的神经网络结构,模型输入xt,进过遗忘门fp、输入门ip后计参数更新候选集
Figure BDA0002256666920000081
最终可得到单元状态cp。(ht-1为上一时间隐藏状态,Wf、Wi、WC为权重矩阵,bf、bi、bc为偏置量。)
fp=σ(Wf[ht-1,xt]+bf)
ip=σ(Wi[ht-1,xt]+bi)
Figure BDA0002256666920000082
Figure BDA0002256666920000083
S50、通过联合学习,生成联合模型;
ct为整个联合模型的单元状态,通过反向传播,S403、S302的神经网络模型与S103注意力机制模型的参数会一起被更新,最终得到联合学习模型共同输出的隐藏层状态hf
ct=cpΘcq
hf=ot*tanh(ct)
图6为整体联合学习的复合边界特征模型架构图。由虚线方框中三个子模型构成,右上方的为S10中的神经网络模型,用于获取文本的语义表示;左下方为S103中的注意力机制模型,加上S203中词边界向量,共同输入右下方如S302的神经网络模型中,用来获取复合词边界信息的表示,通过联合训练获得隐藏层状态hf,最后通过输出层,即可得到输出结果。
需要说明的是,在步骤S6中,将待标注文本输入复合边界特征模型之前,需要对待标注文本进行预处理。预处理的方式,可根据具体应用任务比如实体识别、事件检测等,分别采用不同的过程。以实体识别为例,预处理过程与上述步骤S401~S403相同。
本发明实施例提供的基于复合边界信息的序列标注方法,采用联合学习,通过学习丰富的边界信息,可得到更好的效果。另外,适用范围广,可应用于所有可转换为序列标注问题的任务,如分词,实体识别、事件检测等,并服务于翻译、推荐等上层应用。还可应用于多语言场景,不受语言特性所束缚。
基于同一发明构思,本发明实施例还提供了基于复合边界信息的序列标注系统,由于该系统所解决问题的原理与基于复合边界信息的序列标注方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供的一种基于复合边界信息的序列标注系统,参照图7所示,包括:
归一化模块71,用于对非结构化文本数据通过预设模型,生成复合词向量并归一化;
预训练模块72,用于对所述非结构化文本数据,预训练获得词边界特征向量;
融合模块73,用于将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
预处理模块74,用于对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
生成模块75,用于基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
标注模块76,用于通过所述联合模型,对待标注文本进行序列标注。
在一个实施例中,所述归一化模块71,具体用于:对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;归一化每个全分词后的词向量集合;将所述词向量集合,通过注意力机制转换为一个复合词向量。
在一个实施例中,所述归一化每个全分词后的词向量集合,包括:
统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;
所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。
在一个实施例中,所述预训练模块72,包括:
生成单元721,用于对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
合并单元722,用于使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;
转换单元723,用于生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。
在一个实施例中,所述预处理模块74,具体用于:对所述非结构化文本数据进行数据清洗,生成训练数据;根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于复合边界信息的序列标注方法,其特征在于,包括:
对非结构化文本数据通过预设模型,生成复合词向量并归一化;
对所述非结构化文本数据,预训练获得词边界特征向量;
将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
通过所述联合模型,对待标注文本进行序列标注;
其中,将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;包括:
S301、融合所述复合词向量与词边界特征向量的两种类型的含有词边界信息的向量;所述复合词向量是经过注意力机制进行编码过的词向量;所述词边界特征向量是对词边界标签向量生成的唯一编码表示;融合方式如下方公式:
Figure FDA0004123813740000011
式中,xt′表示融合后的向量表示;
Figure FDA0004123813740000012
表示经过注意力机制进行编码过的词向量,为复合词向量;/>
Figure FDA0004123813740000013
为词边界特征向量,是对词边界标签向量生成的唯一编码表示;/>
Figure FDA0004123813740000014
表示融合操作,表示异或运算;
S302、将上一步S301得到的复合词边界信息表示,分别输入LSTM神经网络结构中,获得单元状态cq
基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;包括:
ct为整个联合模型的单元状态,通过反向传播,神经网络模型与注意力机制模型的参数会一起被更新,最终得到联合学习模型共同输出的隐藏层状态hf
ct=cpΘcq
hf=ot*tanh (ct)
式中,cp为通过预训练以得到字特征向量输入LSTM神经网络后得到的单元状态;cq为复合词边界信息表示,分别输入LSTM神经网络结构中,获得单元状态;Θ表示联合操作;ot表示LSTM神经网络的输出门;tanh表示激活函数;ct表示整个联合模型的单元状态。
2.如权利要求1所述的一种基于复合边界信息的序列标注方法,其特征在于,对非结构化文本数据通过预设模型,生成复合词向量并归一化,包括:
对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
归一化每个全分词后的词向量集合;
将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。
3.如权利要求2所述的一种基于复合边界信息的序列标注方法,其特征在于,所述归一化每个全分词后的词向量集合,包括:
统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;
所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。
4.如权利要求1所述的一种基于复合边界信息的序列标注方法,其特征在于,对所述非结构化文本数据,预训练获得词边界特征向量,包括:
对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;
生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。
5.如权利要求1~4任一项所述的一种基于复合边界信息的序列标注方法,其特征在于,对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量,包括:
对所述非结构化文本数据进行数据清洗,生成训练数据;
根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;
将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。
6.一种基于复合边界信息的序列标注系统,其特征在于,包括:
归一化模块,用于对非结构化文本数据通过预设模型,生成复合词向量并归一化;
预训练模块,用于对所述非结构化文本数据,预训练获得词边界特征向量;
融合模块,用于将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
预处理模块,用于对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
生成模块,用于基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
标注模块,用于通过所述联合模型,对待标注文本进行序列标注;
其中,融合模块具体用于:
S301、融合所述复合词向量与词边界特征向量的两种类型的含有词边界信息的向量;所述复合词向量是经过注意力机制进行编码过的词向量;所述词边界特征向量是对词边界标签向量生成的唯一编码表示;融合方式如下方公式:
Figure FDA0004123813740000031
式中,xt′表示融合后的向量表示;
Figure FDA0004123813740000032
表示经过注意力机制进行编码过的词向量,为复合词向量;/>
Figure FDA0004123813740000033
为词边界特征向量,是对词边界标签向量生成的唯一编码表示;/>
Figure FDA0004123813740000034
表示融合操作,表示异或运算;
S302、将上一步S301得到的复合词边界信息表示,分别输入LSTM神经网络结构中,获得单元状态cq
生成模块具体用于:
ct为整个联合模型的单元状态,通过反向传播,神经网络模型与注意力机制模型的参数会一起被更新,最终得到联合学习模型共同输出的隐藏层状态hf
ct=cpΘcq
hf=ot*tanh (ct)
式中,cp为通过预训练以得到字特征向量输入LSTM神经网络后得到的单元状态;cq为复合词边界信息表示,分别输入LSTM神经网络结构中,获得单元状态;Θ表示联合操作;ot表示LSTM神经网络的输出门;tanh表示激活函数;ct表示整个联合模型的单元状态。
7.如权利要求6所述的一种基于复合边界信息的序列标注系统,其特征在于,所述归一化模块,具体用于:对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;归一化每个全分词后的词向量集合;将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。
8.如权利要求7所述的一种基于复合边界信息的序列标注系统,其特征在于,所述归一化每个全分词后的词向量集合,包括:
统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;
所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。
9.如权利要求6所述的一种基于复合边界信息的序列标注系统,其特征在于,所述预训练模块,包括:
生成单元,用于对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
合并单元,用于使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;
转换单元,用于生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。
10.如权利要求6~9任一项所述的一种基于复合边界信息的序列标注系统,其特征在于,所述预处理模块,具体用于:对所述非结构化文本数据进行数据清洗,生成训练数据;根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。
CN201911056445.0A 2019-10-31 2019-10-31 一种基于复合边界信息的序列标注方法及系统 Active CN111008283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911056445.0A CN111008283B (zh) 2019-10-31 2019-10-31 一种基于复合边界信息的序列标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911056445.0A CN111008283B (zh) 2019-10-31 2019-10-31 一种基于复合边界信息的序列标注方法及系统

Publications (2)

Publication Number Publication Date
CN111008283A CN111008283A (zh) 2020-04-14
CN111008283B true CN111008283B (zh) 2023-06-20

Family

ID=70111297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911056445.0A Active CN111008283B (zh) 2019-10-31 2019-10-31 一种基于复合边界信息的序列标注方法及系统

Country Status (1)

Country Link
CN (1) CN111008283B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860001A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种机器翻译方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273355A (zh) * 2017-06-12 2017-10-20 大连理工大学 一种基于字词联合训练的中文词向量生成方法
CN107679234A (zh) * 2017-10-24 2018-02-09 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108829810A (zh) * 2018-06-08 2018-11-16 东莞迪赛软件技术有限公司 面向健康舆情的文本分类方法
JP2019032529A (ja) * 2017-08-07 2019-02-28 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7840511B2 (en) * 2006-09-06 2010-11-23 Siemens Medical Solutions Usa, Inc. Learning or inferring medical concepts from medical transcripts using probabilistic models with words or phrases identification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273355A (zh) * 2017-06-12 2017-10-20 大连理工大学 一种基于字词联合训练的中文词向量生成方法
JP2019032529A (ja) * 2017-08-07 2019-02-28 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法
CN107679234A (zh) * 2017-10-24 2018-02-09 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108829810A (zh) * 2018-06-08 2018-11-16 东莞迪赛软件技术有限公司 面向健康舆情的文本分类方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中文电子病历的分词及实体识别研究;王若佳,赵常煜,王继民;《图书情报工作》;20190120;第63卷(第02期);全文 *
中文词法句法语义联合分析模型研究;张梅山;《中国博士学位论文全文数据库(电子期刊)信息科技辑》;20150215(第2期);全文 *
基于深度学习的简历信息实体抽取方法;黄胜等;《计算机工程与设计》;20181216(第12期);全文 *
面向网购环境的议价识别及议价策略构建;李亚辉;《中国优秀硕士学位论文全文数据库(电子期刊)经济与管理科学辑》;20160315(第3期);全文 *

Also Published As

Publication number Publication date
CN111008283A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
Zhang et al. Deep neural networks in machine translation: An overview.
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN110209832B (zh) 上下位关系的判别方法、系统和计算机设备
CN112818712B (zh) 基于翻译记忆库的机器翻译方法及装置
CN114998670B (zh) 多模态信息预训练方法及系统
Xue et al. A better way to attend: Attention with trees for video question answering
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN113435216B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN116432611A (zh) 文稿写作辅助方法、系统、终端及存储介质
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN111008283B (zh) 一种基于复合边界信息的序列标注方法及系统
CN114444481A (zh) 一种新闻评论的情感分析与生成方法
CN113283218A (zh) 一种语义文本压缩方法及计算机设备
CN112257432A (zh) 一种自适应意图识别方法、装置及电子设备
Yin Fuzzy information recognition and translation processing in English interpretation based on a generalized maximum likelihood ratio algorithm
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN116595979A (zh) 一种基于标签提示的命名实体识别方法、装置及介质
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN114298032A (zh) 文本标点检测方法、计算机设备及存储介质
CN114333795A (zh) 语音识别方法和装置、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant