CN111695053A - 序列标注方法、数据处理设备、可读存储介质 - Google Patents

序列标注方法、数据处理设备、可读存储介质 Download PDF

Info

Publication number
CN111695053A
CN111695053A CN202010537651.XA CN202010537651A CN111695053A CN 111695053 A CN111695053 A CN 111695053A CN 202010537651 A CN202010537651 A CN 202010537651A CN 111695053 A CN111695053 A CN 111695053A
Authority
CN
China
Prior art keywords
processed
data
sequence
label
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010537651.XA
Other languages
English (en)
Inventor
沈大框
张莹
陈成才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN202010537651.XA priority Critical patent/CN111695053A/zh
Publication of CN111695053A publication Critical patent/CN111695053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

序列标注方法、数据处理设备、可读存储介质,所述方法包括:获取待处理数据,所述待处理数据包括待处理语料;提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征;基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签;基于各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。采用上述方案,可以提高序列标注预测结果的准确率。

Description

序列标注方法、数据处理设备、可读存储介质
技术领域
本说明书实施例涉及信息处理技术领域,尤其涉及一种序列标注方法、数据处理设备、可读存储介质。
背景技术
在互联网信息大爆炸的时代,计算机如果能够理解人类的语言,可以更好地辅助使用者获取有用信息。因此,自然语言处理(Natural Language Processing,NLP)成为了近年来的研究热点。
序列标注(Sequence Labeling)任务可以将语言序列转化为标注序列,由此作为许多自然语言处理任务的基础,是自然语言处理中的重要研究内容之一。
目前,现有的序列标注模型只能处理内容简单、来源单一的语言序列,在面对内容复杂或来源多变的语言序列时,往往泛化能力弱、通用性差,导致序列标注结果的准确率较低。
发明内容
有鉴于此,本说明书实施例提供了一种序列标注方法、数据处理设备、可读存储介质,能够提高序列标注预测结果的准确率。
本说明书实施例提供了一种序列标注方法,包括:
获取待处理数据,所述待处理数据包括待处理语料;
提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征;
基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签;
基于各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
本说明书实施例还提供了一种序列标注方法,包括:
获取待处理数据,所述待处理数据包括待处理语料;
将所述待处理数据输入预设的序列标注模型,以提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
本发明实施例还提供了一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行上述任一实施例所述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一实施例所述方法的步骤。
采用本说明书实施例的序列标注方案,在获取待处理数据后,通过将提取得到的所述待处理数据的语义特征和所述待处理数据进行逻辑运算,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对序列标注预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于更加准确地计算各候选预测标签标注序列的概率值,进而提高序列标注结果的准确率。
附图说明
图1是本说明书实施例中一种序列标注方法的流程图;
图2是本说明书实施例中另一种序列标注方法的流程图;
图3是本说明书实施例中另一种序列标注方法的流程图;
图4是本说明书实施例中一种序列标注模型的结构示意图;
图5是本说明书实施例中另一种序列标注模型的结构示意图;
图6是本说明书实施例中一种迭代层的结构示意图;
图7是本说明书实施例中另一种序列标注模型的结构示意图;
图8是本说明书实施例中另一种序列标注模型的结构示意图;
图9是本说明书实施例中一种序列标注模型的训练方法的流程图;
图10是本说明书实施例中另一种序列标注模型的训练方法的流程图;
图11是本说明书实施例中另一种序列标注模型的训练方法的流程图;
图12是本说明书实施例中另一种序列标注模型的结构示意图。
具体实施方式
如背景技术所述,在互联网信息大爆炸的时代,自然语言处理成为了近年来的研究热点。序列标注(Sequence Labeling)任务可以将语言序列转化为标注序列,由此作为许多自然语言处理任务的基础,是自然语言处理中的重要研究内容之一。
目前,现有的序列标注模型只能处理内容简单、来源单一的语言序列,在面对内容复杂或来源多变的语言序列时,往往泛化能力弱、通用性差,产生语义特征提取错误或关键语义信息缺失等问题,导致序列标注结果的准确率较低。
针对上述问题,本说明书实施例提供一种序列标注方案,在获取待处理数据后,通过提取所述待处理数据的语义特征,以及将提取得到的语义特征和所述待处理数据进行逻辑运算处理,可以得到所述待处理数据的融合特征,从而可以根据所述待处理数据的融合特征计算各候选预测标签标注序列的概率值,得到所述待处理数据的标签标注预测序列。
为使本领域技术人员更加清楚地了解及实施本说明书实施例的构思、实现方案及优点,以下参照附图,通过具体应用场景进行详细说明。
参照图1所示的一种序列标注方法的流程图,在本说明书实施例中,序列标注方法可以包括以下步骤:
S11,获取待处理数据,所述待处理数据包括待处理语料。
在具体实施中,可以根据实际情况,待处理数据可以包括不同语言种类的待处理语料。例如,所述待处理数据可以包括中文待处理语料、英文待处理语料等。
其中,待处理语料可以是人工输入的文本数据,也可以是从公共网络上获取的文本数据,还可以是通过光学字符识别(Optical Character Recognition,OCR)技术从图片中获取的文本数据。
S12,提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征。
实际应用时,待处理数据可以理解为属于人类能够理解的实际意义空间,获取的待处理数据对于计算机而言是一组字符串,计算机无法直接理解待处理数据所要传达的语言信息,因此,可以将待处理数据转换为计算机可以理解并处理的数字数据,使得原本属于实际意义空间的待处理数据映射到计算机所处的数字空间中。
在具体实施中,根据预设的特征提取参数,可以对待处理数据中部分或全部数据进行组合、排序、筛选等操作,得到能够表征待处理数据中语义信息的特征,即语义特征,使得计算机能够理解待处理数据所要传达的语言信息。再根据预设的逻辑运算参数,可以将提取得到的语义特征和所述待处理数据通过逻辑运算进行结合,得到语义信息融合的特征,即融合特征。
其中,根据实际情景设置的特征提取参数和逻辑运算参数,得到语义特征和融合特征的数量可以是一个,也可以是多个。
可以理解的是,根据实际设置的逻辑运算方式,语义特征的数量与融合特征的数量可以不一致。例如,当存在多个语义特征时,可以将各语义特征分别与待处理数据进行逻辑运算,得到多个融合特征,也可以将各语义特征与待处理数据一起进行逻辑运算,得到一个融合特征;又例如,当存在一个语义特征时,可以将所述语义特征分别与待处理数据中的部分数据进行逻辑运算,得到多个融合特征,也可以将所述语义特征与待处理数据进行逻辑运算,得到一个融合特征。
S13,基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签。
在具体实施中,可以预设一候选预测标签集合,包括用于标注的各候选预测标签,从候选预测标签集合中获取候选预测标签并进行排列组合后,可以得到各候选预测标签标注序列。根据所述待处理数据的融合特征,可以计算各候选预测标签标注序列与所述待处理数据的匹配程度,即各候选预测标签标注序列可以作为所述待处理数据的标签标注预测序列的概率值。
S14,基于各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
在具体实施中,所述第一选取条件可以根据实际情景进行设定。例如,所述第一选取条件可以为:概率值最大。即选取概率值最大的候选预测标签标注序列作为所述待处理数据的标签标注预测序列。
采用上述方案,通过将提取得到的所述待处理数据的语义特征和所述待处理数据进行逻辑运算,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对序列标注预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于更加准确地计算各候选预测标签标注序列的概率,进而提高序列标注结果的准确率。
在具体实施中,根据预设的特征提取参数可以提取所述待处理数据的语义特征,通过一组特征提取参数可能无法提取得到所有的语义特征,且由于提取范围有限,提取到的语义特征可能无法体现待处理数据中包含的所有语义信息,为了能够增加语义特征的数量,可以预设多组用于提取待处理数据的特征提取参数,基于预设的各组特征提取参数,分别提取所述待处理数据的语义特征,得到各组的基于待处理数据的语义特征,然后,对各组的基于待处理数据的语义特征和所述待处理数据进行逻辑运算,得到融合特征。
在本说明书一实施例中,可以预设有三组特征提取参数,基于预设的各组特征提取参数,可以分别获得将所述待处理数据映射为语义特征的特征提取函数,即特征提取函数F1、F2和F3。基于特征提取函数F1,F2和F3,可以分别获得所述待处理数据的语义特征A1=F1(x)、A2=F2(x)和A3=F3(x),其中,x表述待处理数据。基于预设的逻辑运算参数,对各组的语义特征A1、A2和A3以及所述待处理数据x进行逻辑运算,得到融合特征。
采用上述方案,通过设置不同的特征提取参数,可以从待处理数据中提取出不同粒度的语义特征,使提取的语义特征具有多样性和广泛性,通过不同粒度的语义特征可以传递更多待处理数据中包含的语义信息,增强融合特征表征内容复杂或来源多变的待处理数据的能力,提高对不同待处理数据进行准确预测的泛化能力和通用性。
在具体实施中,融合特征在数字空间上传递的语义信息与待处理数据包含的语义信息越接近,说明融合特征表征待处理数据的能力越强、精确度越高。语义特征和所述待处理数据进行逻辑运算时,设置不同的权重系数和偏移系数,对各组的语义特征和所述待处理数据进行加权逻辑运算,其中,权重系数可以根据实际情景进行设定,可以得到不同的融合特征。
由此,通过加权逻辑运算,可以控制各种语义特征和待处理数据在逻辑运算中的重要程度,提高逻辑运算结果的准确性,增强融合特征表征待处理数据的精确度,提高序列标注预测结果的可靠性。
在具体实施中,为了能够快速可靠地获取权重系数,可以将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并基于处理结果为其他组的语义特征和所述待处理数据分配权重系数,再基于分配的权重系数,将所述其他组的语义特征和所述待处理数据进行加权逻辑运算。
例如,获得三组语义特征A1、A2和A3,将语义特征A1输入非线性函数F4可以得到计算结果F4(A1),将F4(A1)输入权重系数计算函数F5、F6和F7,得到权重系数a1=F5[F4(A1)]、a2=F6[F4(A1)]和a3=F7[F4(A1)],再基于分配的权重系数a1、a2和a3可以获得将语义特征映射为融合特征的融合特征计算函数F8,为其他组的语义特征A2和A3以及所述待处理数据x分配权重系数a1、a2和a3,将其他组的语义特征A2和A3以及所述待处理数据x输入融合特征计算函数F8进行加权逻辑运算F8(a1 x,a2 A2,a3 A3),得到融合特征。
由此,通过语义特征获取权重系数,能够提高权重获取的效率,可以增加权重系数的可靠性。
在具体实施中,为了可以突显关键语义信息,便于后续进行概率预测,可以对融合特征进行迭代优化,具体可以为:
在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;
在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选预测标签标注序列的概率值。
其中,迭代条件可以设置为迭代次数阈值,也可以设置为其他条件。第一轮获取的融合特征为经过逻辑运算得到的融合特征,在确定满足预设的迭代条件后,后续获取的融合特征为经过迭代后的融合特征。
可以理解的是,用于迭代的特征提取参数可以与用于提取数据处理数据的语义特征的特征提取参数相同,也可以不相同;同样地,用于迭代的逻辑运算参数可以与用于待处理数据与其语义特征的逻辑运算处理的逻辑运算参数相同,也可以不相同,本说明书实施例对此不作限制。
采用上述方案,通过对融合特征进行语义提取和逻辑运算,可以使迭代后的融合特征更加突显关键语义信息,从而增强融合特征的表征能力,提高序列标注结果的准确率。
在具体实施中,可以预设的多组用于提取融合特征的特征提取参数,基于各组特征提取参数,分别提取所述融合特征的语义特征,得到各组的基于融合特征的语义特征,然后,对各组的基于融合特征的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征。
在具体实施中,可以对各组的基于融合特征的语义特征和所述融合特征进行加权逻辑运算,其中,权重系数的获取方法可以参照上述相关实施例,在此不再赘述。
在具体实施中,为了将待处理数据转换为计算机可以识别的信息,可以在提取所述待处理数据的语义特征之前,将待处理数据进行划分处理,得到相应的待处理序列。其中,根据不同的应用情景和不同的语言种类,待处理数据可以采用不同的划分方法,得到相应的数据序列。为了便于说明,可以将按照预设要求能够划分的最小成分称为划分单元。由此,划分处理可以将待处理数据x划分为n个划分单元x1,x2……xn
例如,所述待处理数据包括中文的待处理语料:{你们好。},可以采用文字和标点符号的划分方式,将待处理语料划分为{你/们/好/。},其中,“你”、“们”、“好”、“。”均为待处理语料的划分单元;也可以采用词语和标点符号的划分方式,将待处理语料划分为{你们/好/。},其中,“你们”、“好”、“。”均为待处理语料的划分单元。
可以理解的是,符号“/”仅用于示例说明划分后的效果,并不是划分后实际存在的符号,在划分后也可以采用其他的符号间隔划分单元,本说明实施例对于间隔划分单元的符号不做具体限制。
需要说明的是,本文中“{}”仅用于限定举例的内容范围,并不是在表示训练语料的内容时必不可少的一部分,本领域技术人员可以用其他不容易混淆的符号来限定训练语料的内容范围,以下“{}”均同上所述。
在具体实施中,待处理数据包含越丰富的序列信息,越可以精确地提取语义特征。因此,在进行待处理数据的语义特征提取之前,基于所述待处理语料的语义结构,可以识别所述待处理语料的属性信息,从预设的候选属性标签集合中选取相应的候选属性标签,得到属性标签序列,由此,所述待处理数据还可以包括:属性标签序列,所述属性标签序列的划分单元可以为属性标签。
其中,所述属性信息可以包括:所述待处理语料中各划分单元的位置信息、所述待处理语料的语法信息和所述待处理语料的分类信息中至少一种;所述语法信息可以包括:词性信息和标点符号信息中至少一种。相应地,通过待处理语料获得的属性标签序列可以包括:位置标签序列、语法标签序列和分类标签序列中至少一种;所述语法标签序列可以包括:词性标签和标点符号标签中至少一种。
以下通过几个具体实施例进行详细说明。
在本说明书一实施例中,预设一个候选位置标签集合,其中可以包括:各位置信息相应的位置标签。对所述待处理语料进行划分后,识别待处理语料中存在的位置信息,得到各划分单元的位置信息,并根据划分单元在所述待处理语料中的分布位置,在各划分单元处标注相应的位置标签,由此得到位置标签序列。例如,待处理语料为:{你们好。},相应的位置标签序列可以为:{1 2 3 4},其中,“1”、“2”、“3”和“4”为分别表示第一、二、三、四位置信息的位置标签。
在本说明书又一实施例中,预设一个候选类别标签集合,其中可以包括不同类别的候选类别标签,例如,可以包括关系类型的候选类别标签、情感类型的候选类别标签等。在识别待处理语料中存在的分类信息后,可以从所述候选类别标签集合中获取相应的候选类别标签,得到候选类别标签子集。从候选类别标签子集中获取至少一个分类标签,按照预设顺序排列得到分类标签序列。
例如,候选类别标签集合可以包括以下关系类型的候选类别标签:
{出生地 朋友 出生日期 演唱 国籍 居住地 民族}。
所述待处理语料可以为:{小明,2020年出生,陕西三原人,汉族。};
基于候选类别标签集合,在识别待处理语料中存在的关系信息后,可以得到关系标签向量:{1 0 1 0 1 0 1},表示待处理语料中存在与出生地、出生日期、国籍和民族相关的关系信息,从而得到候选类别标签子集{出生地,出生日期,国籍,民族}。
作为一可选示例,若分类标签序列中分类标签的数量小于所述待处理语料的划分单元数量,可以对分类标签序列进行填充(padding),得到与待处理语料长度一致的分类标签序列。
其中,分类标签序列的填充可以包括以下至少一种:
1)若分类标签序列中包括一种分类标签,则可以采用所述分类标签进行填充,直至分类标签序列的长度与待处理语料长度一致;
2)若分类标签序列中包括多种分类标签,则可以采用预设的填充符号进行填充,直至分类标签序列的长度与待处理语料长度一致。
在本说明书另一实施例中,预设一个候选语法标签集合,其中可以包括:各语法信息相应的语法标签。在识别待处理语料中存在的语法信息后,可以得到各划分单元的语法信息,并根据各划分单元的语法信息,可以在各划分单元处标注相应的语法标签。
所述语法标签进一步可以包括:标点符号标签和词性标签。其中,标点符号标签可以标注于标注标点符号信息相应的标点符号处;词性标签可以包括:各词性信息的起始位置标签和非起始位置标签,各词性信息的起始位置标签标注于词性信息相应的起始分词单元处,各词性信息的非起始位置标签标注于该词性信息相应的非起始单元分词处。
通过各词性信息的起始位置标签和非起始位置标签这种标签组合,可以均匀标注待处理语料,得到该词性信息在待处理语料中的起始位置和结束位置,结合标点符号标签,使待处理语料的各划分单元均标注有相应标签,由此得到的语法标签序列能够充分体现待处理语料的语法信息。
例如,待处理练语料可以为:{《离开》是由张宇谱曲、演唱。}
则根据所述候选语法标签集合,可以得到以下语法标签序列:
{W-B NW-B NW-I W-B V-B P-B NR-B NR-I V-B V-I W-B V-B V-I W-B}。
其中,“W-B”表示标点符号标签;“NW-B”和“NW-I”分别表示作品名词的起始位置标签和非起始位置标签;“P-B”表示介词的起始位置标签;“NR-B”和“NR-I”分别表示人名的起始位置标签和结束位置标签;“V-B”和“V-I”分别表示动词的起始位置标签和结束位置标签。
可以理解的是,在所述待处理数据中未包含语法标签序列时,可以通过上述任一实施例的序列标注方法获得语法标签序列,然后,可以对包含语法标签序列的待处理数据执行上述步骤S12~S14,得到其他类型的标签标注预测序列。
采用上述方案,根据处理语料中存在的属性信息,可以获得相应的属性标签序列,并且由于待处理语料和属性标签序列的共现特性,增加属性标签序列不会破坏待处理语料的语义信息,且可以丰富待处理数据中包含的序列信息。
在具体实施中,为了可以更精确地提取待处理数据的语义特征,在获取属性序列标签后,可以将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征和进行逻辑运算处理。其中,可以采用Concat函数进行组合处理。
采用上述方案,将待处理语料和属性标签序列进行组合后可以提取属性维度的语义信息,也使得后续处理的特征中包含属性维度的语义信息,拓展语义特征和融合特征中语义信息的维度,结合多维度的语义信息,可以更加准确地计算各候选预测标签标注序列的概率值。
在具体实施中,本说明书的序列标注方法可以应用于各种领域,为了确定获得的标签标注预测序列在相应应用领域中是否标注准确,如图2所示,所述序列标注方法还可以包括以下步骤:
S15,基于所述待处理数据的融合特征,生成融合特征向量。
在具体实施中,融合特征根据预设的逻辑运算参数,可以通过数值、向量或者矩阵来表示,与预设的候选类别标签集合无法一一对应。由此,可以通过预设的特征向量生成参数组成特征向量生成函数,将所述融合特征输入到特征向量生成函数中,可以得到融合特征向量,所述融合特征向量的维度与预设的候选类别标签集合中候选类别标签的总数一致。
S16,确定所述融合特征向量中符合预设的第二选取条件的元素所处的分布位置,获取所述候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合。
其中,所述第二选取条件可以根据实际情景进行设定。例如,所述第二选取条件可以为:概率值最大。即选取概率值最大的候选类别标签,得到所述待处理数据的类别标签预测集合。
采用上述方案,根据输出的候选类别标签,可以确定获得的标签标注预测序列的应用领域,并且确定获得的标签标注预测序列在相应应用领域中是否标注准确,从而确保序列标注结果的准确性。
在具体实施中,若通过序列标注方法识别所述待处理语料中存在的属性信息,并在所述待处理语料的各划分单元处标注相应的候选属性标签时,所述处理参数还可以包括:属性识别参数。
在具体实施中,为了将待处理数据转换为计算机可以识别的信息,还可以在提取所述待处理数据的语义特征之前,对所述待处理数据进行嵌入(Embedding)处理,将待处理数据的划分单元进行向量化。具体而言,可以将待处理语料中各划分单元和属性标签序列中各候选属性标签分别采用向量的方式表征,由此,待处理语料和属性标签序列均可以通过矩阵的方式表征。所述处理参数还可以包括:用于实现嵌入处理的嵌入处理参数。
采用上述方案,通过将各划分单元和各候选属性标签向量化,可以得到更高精确度的矩阵,矩阵形式的待处理语料和属性标签序列便于后续特征提取和逻辑运算,提高数据处理效率。
在具体实施中,通过嵌入处理后的得到的向量为静态向量,静态向量不具有多意性,故而可以对待处理数据进行编码处理,将静态向量转化为动态向量,由此可以根据语料的上下文信息进行变化,具有多意性,再将编码后的待处理数据进行语义特征提取。所述处理参数还可以包括:编码处理参数。
在具体实施中,根据获得的标签标注预测序列,可以选取所述待处理语料中符合要求的成分,所述成分由划分单元组成。所述序列标注方法还可以包括:
匹配所述标签标注预测序列中各候选预测标签与预设的第三选取条件,确定符合所述第三选取条件的候选预测标签在所述标签标注预测序列中的分布位置,从所述待处理语料中获取相应分布位置的划分单元。
在实际应用中,序列标注任务可以作为许多自然语言处理任务的基础,如情感分析、信息检索、分类推荐和信息过滤等。以下通过几个具体实施例进行详细说明。
在本说明书一实施例中,待处理数据包括的待处理语料可以为:
{小明帮助学校赢得比赛。}
根据预设的实体类型的候选预测标签集合和执行的序列标注方法,可以得到以下标签标注预测序列:
{B-PER I-PER O O B-ORG I-ORG O O O};
其中,“B-PER”和“I-PER”分别为人物的起始位置标签和非起始位置标签;“O”为非实体位置标签;“B-ORG”和“I-ORG”分别为地点的起始位置标签和非起始位置标签。
从而可以根据预设的第三选取条件获取相应的划分单元。例如,预设的第三选取条件可以为:所述待处理语料中存在的人名。经过匹配可以确定所述标签标注预测序列中的候选预测标签“B-PER”和“I-PER”符合所述第三选取条件,且候选预测标签“B-PER”和“I-PER”在所述标签标注预测序列中的分布位置为第1位和第2位,由此,可以从所述待处理语料中获取第1位和第2位划分单元“小”和“明”,得到待处理语料中的人名“小明”。
在本说明书另一实施例中,待处理数据包括的待处理语料可以为:
{《离开》是由张宇谱曲、演唱。};
根据预设的语法类型的候选预测标签集合和执行的序列标注方法,可以得到以下标签标注预测序列:
{W-B NW-B NW-I W-B V-B P-B NR-B NR-I V-B V-I W-B V-B V-I W-B};
从而可以根据预设的第三选取条件获取相应的划分单元。例如,预设的第三选取条件可以为:所述待处理语料中存在的名词。经过匹配可以确定所述标签标注预测序列中的候选预测标签“NW-B”和“NW-I”以及“NR-B”和“NR-I”符合所述第三选取条件,且候选预测标签“NW-B”和“NW-I”以及“NR-B”和“NR-I”在所述标签标注预测序列中的分布位置为第2位和第3位以及第7位和第8位,由此,可以从所述待处理语料中获取第2位和第3位以及第7位和第8位“离”和“开”以及“张”和“宇”,得到待处理语料中的名词“离开”和“张宇”。
在本说明书另一实施例中,待处理数据包括的待处理语料可以为:
{周杰伦的《告白气球》、《龙卷风》、《明明就》等等歌曲都是我的常伴良友。}。
根据预设的关系类型的候选预测标签集合和执行的序列标注方法,可以得到以下标签标注预测序列:
{B-S I-S I-S O O B-O I-O I-O I-O O O O B-O I-O I-O O O O B-O I-O I-OO O O O O O O O O O O O O O};
其中,“B-S”和“I-S”分别为主语元素的起始位置标签和非起始位置标签;“O”为非关系元素位置标签;“B-O”和“I-O”分别为宾语元素的起始位置标签和非起始位置标签。
并且,根据预设的关系类型的候选预测标签集合和执行的序列标注方法,还可以得到类别标签预测集合:{演唱},其中“演唱”表示演唱关系信息的分类标签。
从而可以根据预设的第三选取条件获取相应的划分单元。例如,预设的第三选取条件可以为:所述待处理语料中存在与演唱关系信息相关的关系元素。经过匹配可以确定所述标签标注预测序列中的候选预测标签“B-S”和“I-S”以及“B-O”和“I-O”符合所述第三选取条件,且候选预测标签“B-S”和“I-S”以及“B-O”和“I-O”在所述标签标注预测序列中的分布位置为第1~3位、第6~9位、第13~15位和第19~21位,由此,可以从所述待处理语料中获取第1~3位、第6~9位、第13~15位和第19~21位相应的划分单元,得到待处理语料中与演唱关系信息相关的主语元素为“周杰伦”,宾语元素为:“告白气球”、“龙卷风”和“明明就”。然后,根据标签标注预测序列中关系元素和候选类别标签集合,可以将主语元素、宾语元素和候选类别标签建立对应关系,经过数据解析处理后,可以得到关系三元组,如{"subject":"周杰伦","predicate":"演唱","object":"告白气球"}。
作为一可选示例,可以设置一个等价替换关系标签集合,若待处理语料中存在的候选类别标签与等价替换关系标签集合中一个等价替换标签匹配,则在进行数据解析处理时,可以对等价替换标签相应的关系元素进行主宾替换处理,从而得到具有等价替换关系的一对关系三元组。
例如,等价替换关系标签集合中包括:表示同事关系信息的分类标签“同时”,待处理语料为:{小明和小红是同事。},通过序列标注方法可以得到所述待处理语料中存在同事关系信息,并且与同事关系信息相关的关系元素为“小明”和“小红”,在对关系元素进行数据解析处理时,可以通过等价替换关系标签集合对“小明”和“小红”进行主宾替换处理,从而得到具有等价替换关系的一对关系三元组,即{"subject":"小明","predicate":"同事","object":"小红"}和{"subject":"小红","predicate":"同事","object":"小明"}。
在具体实施中,在所述提取所述待处理数据的语义特征之前,可以获取预设的处理参数。
其中,所述处理参数可以包括:特征提取参数、逻辑运算参数和概率计算参数;所述预设的处理参数通过预设的训练数据、所述训练数据的真实标签和预设的损失函数调整初始的处理参数得到;所述损失函数基于所述训练数据的序列标注预测结果建立,所述训练数据可以包括:训练语料;所述训练数据的真实标签可以包括:实际用于标注所述训练语料的候选预测标签。
采用上述方案,通过训练调整处理参数,使处理参数的数值收敛至理想状态,提高序列标注预测结果的准确率。
在具体实施中,获取的训练数据会形成一个训练数据集合,可以将训练数据集合分成多批次输入序列标注模型中进行训练,序列标注模型按批次执行序列标注预测操作,且每一批次可以包含一段训练语料,即一个句子列表,列表的大小由实际情况决定。或者,也可以根据预设的句尾标点符号集合,将所述训练数据集合划分为句子级别的训练数据,并按照划分结果,将句子级别的训练数据分成多次输入序列标注模型中进行迭代训练,序列标注模型分别执行序列标注预测操作。
在具体实施中,所述训练数据还可以包括:所述训练语料的属性标签序列,所述训练语料的属性标签序列可以通过人工标注各划分单元的属性标签的方式获得,也可以通过所述上述序列标注方法获得,还可以通过预设的属性标注模型识别所述训练语料中存在的属性信息,并在所述训练语料的各划分单元处标注相应的候选属性标签。
其中,基于所述训练语料的语义结构,其属性信息可以包括:训练语料中各划分单元的位置信息、训练语料的语法信息和训练语料的分类信息中至少一种,所述语法信息可以包括:词性信息和标点符号信息中至少一种。相应地,通过训练语料获得的属性标签序列可以包括:位置标签序列、语法标签序列和分类标签序列中至少一种;所述语法标签序列可以包括:词性标签和标点符号标签中至少一种。
对于包括属性标签序列的训练数据的处理过程,可具体参阅序列标注方法相关部分的描述,在此不再赘述。
根据上述说明书实施例可知,序列标注处理可以分为:第一分支为标注标签预测子处理,第二分支为类别标签预测子处理。所述训练数据的真实标签还可以包括:实际用于表示所述训练语料的分类信息的候选类别标签。而且,损失函数可以基于所述训练数据的标注标签预测结果和类别标签预测结果联合建立。由此,通过联合所述训练数据的两支预测结果,对初始的处理参数进行调整,可以使初始的处理参数快速收敛,提高调参效率。
在具体实施中,通过嵌入处理后的得到的向量为静态向量,静态向量不具有多意性,故而可以对训练数据进行编码处理,将静态向量转化为动态向量,由此可以根据语料的上下文信息进行变化,具有多意性。
为了确定训练数据是否进行了准确地编码处理并得到正确的编码后的训练数据,可以对编码后的训练数据进行解码处理,根据对编码后的训练数据进行预测,验证编码处理结果是否准确。由此,可以根据序列标签预测结果和编码处理结果联合建立损失函数。
以编码后的属性标签序列为例,为了区分编码处理前和解码处理后的属性标签序列,可以将进行编码处理前的属性标签序列视为属性标签真实序列,将进行解码处理预测得到的属性标签序列视为属性标签预测序列。通过匹配属性标签真实序列和属性标签预测序列,可以确定编码处理结果是否准确。
可以理解的是,上述实施例仅为示例说明,在应用中,可以根据实际情景选择相应的编码后的训练数据进行解码,例如,可以选择编码后的语法标签序列、位置标签序列、类别标签序列和训练语料等。
作为一可选示例,所述损失函数可以基于所述训练数据的标注标签预测结果、类别标签预测结果以及解码处理结果联合建立。由此,多维度地对初始的处理参数进行调整,可以使初始的处理参数快速收敛,提高调参效率。
可以理解的是,在实际应用中,根据序列标注方法的步骤,所述处理参数还可以包括:嵌入处理参数、编码处理参数、属性识别参数、用于迭代的特征提取参数和用于迭代的逻辑运算参数等,这些参数也可以通过预设的训练数据、所述训练数据的真实标签和预设的损失函数调整得到,本说明书实施例对于处理参数包括的具体参数类型不做限制。
在具体实施中,在获取待处理数据后,可以通过预设的序列标注模型得到所述待处理数据的标签标注预测序列。
具体而言,参照图3所示另一种序列标注方法的流程图,在本说明书实施例中,具体可以包括如下步骤:
S31,获取待处理数据,所述待处理数据包括待处理语料。
S32,将所述待处理数据输入预设的序列标注模型,以提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
采用上述序列标注方案,在获取待处理数据后,通过预设的序列标注模型,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对序列标注预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于更加准确地计算各候选预测标签标注序列的概率值,进而提高序列标注结果的准确率。
在具体实施中,通过获取的预设的处理参数可以构建序列标注模型,如图4所示,所述序列标注模型40可以包括输入层41、编码层42、特征提取层43、特征融合层44、解码层45和输出层46。其中,特征提取层43,适于提取所述待处理数据的语义特征。
作为一可选示例,特征提取层43可以采用卷积神经网络架构。所述特征提取参数包括:卷积神经网络参数,通过相关的特征提取参数,所述卷积神经网络可以为普通的卷积神经网络(Convolutional Neural Network,CNN)或其变种。
在本说明书一实施例中,通过设置特征提取参数中的膨胀率(Dilation Rate)参数,所述序列标注模型可以通过卷积神经网络的变种,即膨胀卷积神经网络(DilatedConvolution Neural Network,DCNN)来提取所述待处理数据的语义特征。
其中,所述特征提取层可以包括至少一个膨胀卷积神经网络,各卷积神经网络参数可以分别进行设置,且各膨胀卷积神经网络的维度可以为一维或多维,当各膨胀卷积神经网络的卷积核(Kernel)、窗口(Window)和膨胀率等参数数值相同时,各膨胀卷积神经网络的感受野相同。
例如,膨胀卷积神经网络的维度为一维,即膨胀卷积神经网络为一维膨胀卷积神经网络,当卷积核大小为3,膨胀率为2时,各膨胀卷积神经网络的感受野为7×1。
又例如,膨胀卷积神经网络的维度为二维,即膨胀卷积神经网络为二维膨胀卷积神经网络,当卷积核大小为3,膨胀率为4时,各膨胀卷积神经网络的感受野为15×15。
采用上述方案,通过膨胀卷积神经网络提取所述待处理数据的语义特征,可以在不增加参数数量和未对待处理数据进行无效字符剔除预处理的情况下,从待处理语料中提取更远距离的语义信息,从而使语义特征包含更加广泛的语义信息。
在具体实施中,如图4所示,序列标注模型40还可以包括特征融合层44,分别与特征提取层43和编码层42建立连接,适于将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,其中,特征融合层44可以采用任意一种能够实现逻辑运算的神经网络架构,例如,感知神经网络(Perception Neural Networks)架构,通过逻辑运算参数可以设置特征融合层的参数。
可以理解的是,在描述本说明实施例时,为了便于描述各神经网络之间的数据交互关系,可以将独立实现相应功能的神经网络视为序列标注模型中的一个子模型,例如,一个能够独立实现提取所述待处理数据的语义特征的功能的卷积神经网络,可以视为语义特征提取子模型;一个能够独立实现逻辑运算处理功能的神经网络,可以视为逻辑运算子模型。
在实际应用中,基于预设的各组特征提取参数,可以得到各语义特征提取子模型。各语义特征提取子模型分别提取所述待处理数据的语义特征,得到各组的基于待处理数据的语义特征,然后,逻辑运算子模型可以对各组的基于待处理数据的语义特征和所述待处理数据进行逻辑运算,得到融合特征。
采用上述方案,通过设置不同的特征提取参数,可以从待处理数据中提取出不同粒度的语义特征,使提取的语义特征具有多样性和广泛性,通过不同粒度的语义特征可以传递更多待处理数据中包含的语义信息,增强融合特征表征内容复杂或来源多变的待处理数据的能力,提高对不同待处理数据进行准确预测的泛化能力和通用性。
在具体实施中,基于预设的逻辑运算参数,所述逻辑运算子模型可以对各组的语义特征和所述待处理数据进行加权逻辑运算。
由此,通过加权逻辑运算,可以控制各种语义特征和待处理数据在逻辑运算中的重要程度,提高逻辑运算结果的准确性,增强融合特征表征待处理数据的精确度,提高序列标注预测结果的可靠性。
在具体实施中,为了能够快速可靠地获取权重系数,逻辑运算子模型可以将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并基于处理结果为其他组的语义特征和所述待处理数据分配权重系数,再基于分配的权重系数,将所述其他组的语义特征和所述待处理数据进行加权逻辑运算。其中,可以采用Sigmoid、Tanh、ReLU等激活函数对至少一组语义特征进行非线性映射处理。
在本说明书一实施例中,两个语义特征提取子模型分别输出提取的语义特征,逻辑运算子模型可以采用非线性的Sigmoid激励函数,通过预设的神经网络对一组语义特征进行非线性映射处理Sigmoid(E1),并和另一组语义特征E2以及所述待处理数据X进行加权逻辑运算,得到融合特征Y。
作为一可选示例,可以采用以下公式进行加权逻辑运算:
Figure BDA0002537559010000141
其中,σ=Sigmoid(E1),
Figure BDA0002537559010000142
为张量积运算符号。
可以理解的是,上述说明书实施例仅为示例说明,在实际应用中,可以根据实际情景,选择不同数量的语义特征提取子模型、非线性函数和逻辑运算公式,本说明实施例对此不做限制。
由此,通过语义特征获取权重系数,能够提高权重获取的效率,可以增加权重系数的可靠性。
在具体实施中,如图4所示,作为一可选示例,所述序列标注模型40还可以包括位于特征融合层44和解码层45之间的迭代层47,适于在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选预测标签标注序列的概率值。
其中,用于提取所述融合特征的语义特征的语义特征提取子模型与用于提取所述待处理数据的语义特征的语义特征提取子模型可以采用相同的神经网络架构,根据膨胀率可以为普通的卷积神经网络或膨胀卷积神经网络,用于提取所述融合特征的语义特征的语义特征提取子模型的参数可以与用于提取所述待处理数据的语义特征的语义特征提取子模型的参数相同,也可以不相同;同样地,用于迭代处理融合特征及其语义提取特征的逻辑运算子模型与用于处理所述待处理数据及其融合特征的逻辑运算子模型可以采用相同的神经网络架构。
可以理解的是,在描述本说明实施例时,为了便于区分用于提取所述融合特征的语义特征的语义特征提取子模型与用于提取所述待处理数据的语义特征的语义特征提取子模型,可以将用于提取所述待处理数据的语义特征的语义特征提取子模型称为第一语义特征提取子模型,将用于提取所述融合特征的语义特征的语义特征提取子模型称为第二语义特征提取子模型。同样地,可以将用于处理所述待处理数据及其融合特征的逻辑运算子模型称为第一逻辑运算子模型,将用于迭代处理融合特征及其语义提取特征的逻辑运算子模型称为第二逻辑运算子模型。
在实际应用时,根据预设的迭代次数阈值,所述迭代层可以预设有一个或多个子层,多个子层之间可以串联形成多次迭代关系,第一个子层接收输入的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到一次迭代后的融合特征;第二个子层接收一次迭代后的融合特征并提取所述一次迭代后的融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到二次迭代后的融合特征,以此类推,经过多个子层的之后可以得到多次迭代后的融合特征。
采用上述方案,通过对融合特征进行语义提取和逻辑运算,可以使迭代后的融合特征更加突显关键语义信息,从而增强融合特征的表征能力,提高序列标注结果的准确率。
在具体实施中,可以预设的多组用于提取融合特征的特征提取参数,基于各组特征提取参数,分别提取所述融合特征的语义特征,得到各组的基于融合特征的语义特征,然后,对各组的基于融合特征的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征。
例如,在本说明书一实施例中,参照图6所示,所述迭代层60可以包括两个子层,即第一子层61和第二子层62,第一子层61可以包括:第二语义特征提取子模型611和612,以及第二逻辑运算子模型613,所述第二语义特征提取子模型611和612的输入与第二逻辑运算子模型613的输入相连接,且所述第二语义特征提取子模型611和612的输出还与第二逻辑运算子模型613的输入相连接;第二子层62可以包括:第二语义特征提取子模型621和622,以及第二逻辑运算子模型623,所述第二语义特征提取子模型621和622的输入与第二逻辑运算子模型623的输入相连接,且所述第二语义特征提取子模型621和622的输出还与第二逻辑运算子模型623的输入相连接。
将融合特征X600作为第一子层61的输入特征,分别输入第二语义特征提取子模型611、第二语义特征提取子模型612以及第二逻辑运算子模型613,通过第二语义特征提取子模型611和第二语义特征提取子模型612得到第一子层61的语义特征X611和X612,将第一子层的语义特征X611和X612以及融合特征X600通过第二逻辑运算子模型613进行逻辑运算,得到第一子层61的融合特征,即一次迭代后的融合特征X613
将一次迭代后的融合特征矩阵X613作为第二子层62的输入特征,分别输入第二语义特征提取子模型621、第二语义特征提取子模型622以及第二逻辑运算子模型623,通过第二语义特征提取子模型621和第二语义特征提取子模型622得到第二子层62的语义特征X621和X622,将第二子层62的语义特征X621和X622以及一次迭代后的融合特征矩阵X613通过第二逻辑运算子模型623进行逻辑运算,得到第二子层62的融合特征,即二次迭代后的融合特征X623
可以理解的是,上述实施例仅为示例说明,迭代层可以根据实际情况设置子层数量和各子层中包括的语义特征提取子模型和逻辑运算子模型的数量,本说明书实施例对此不作限制。
在具体实施中,各第二语义特征提取子模型的参数可以分别进行设置,且同一子层的各第二语义特征提取子模型的参数可以相同,也可以不相同。
例如,迭代层可以包括三个子层。其中,第一子层的膨胀率可以为2,第二子层的膨胀率可以为4,第三子层的膨胀率可以为1。
在具体实施中,继续参考图4,所述序列标注模型40还可以包括:输入层41。输入层41适于在提取所述待处理数据的语义特征之前,将待处理数据进行划分处理,得到相应的待处理数据序列。待处理数据序列可以包括一个或多个划分单元,所述划分单元为待处理数据按照预设要求可以划分的最小单元。
作为一可选示例,由于待处理数据的划分单元表现形式多样,为了提高语义特征的提取效率,在通过所述序列标注模型中的语义提取层提取所述待处理数据的语义特征之前,可以对所述待处理数据进行嵌入处理,将待处理数据的划分单元进行向量化。具体而言,可以将待处理语料中各划分单元和属性标签序列中各候选属性标签分别采用向量的方式表征,由此,待处理语料和属性标签序列均可以通过矩阵的方式表征。
例如,可以采用字典映射的方法进行嵌入处理。通过预设的映射字典,获取待处理数据中划分单元在所述映射字典中的索引值,得到字典映射处理后的待处理数据。由于字典映射处理后的待处理数据包括各划分单元的索引值,故而字典映射处理后的待处理数据可以通过向量的方式表征。
在具体实施中,继续参考图4,所述序列标注模型40还可以包括:编码层42。适于对所述待处理数据中的划分单元进行编码处理,得到编码后的待处理数据。其中,基于预设的编码处理参数,可以结合待处理数据的上下文信息,对各划分单元进行编码,得到各划分单元的编码特征向量,编码特征向量的维度通过预设的编码处理参数决定,编码后的待处理数据由各划分单元的编码特征向量组成,因此,编码处理后的待处理数据可以通过矩阵的方式表征。
作为一可选示例,所述编码层42可以采用以下任意一种编码处理方式,对所述待处理数据进行编码:
1)采用时间序列神经网络子模型;
2)采用预设的映射矩阵。
其中,所述时间序列的神经网络子模型可以包括:具有自注意力机制(self-attention)的转换器(Transformer)网络模型、双向长短时记忆(Bi-directional LongShort-Term Memory,简称BiLstm)网络模型、GRU(Gated Recurrent Unit)网络模型等。所述映射矩阵中的行向量总数或列向量总数不小于所述待处理数据中的划分单元的总数。
在具体实施中,当所述编码层包括时间序列神经网络子模型时,可以在对所述待处理数据进行编码之前,对其中的时间序列神经网络子模型进行预训练,使得预训练的时间序列神经网络子模型能够深度捕获待处理数据中的上下文信息。以下通过下述两种方法示例说明:
方法一、采用语言模型(Language Model,LM)训练方法进行预训练。
具体地,从预训练语料集合中获取随机的预训练语料,并输入初始的时间序列神经网络子模型,所述时间序列神经网络子模型在给定上文信息的条件下预测所述预训练语料的下一个分词单元,当预测准确的概率达到预设的预训练阈值时,确定已预训练好,得到预训练的时间序列神经网络子模型。否则,在调整所述通过所述时间序列神经网络子模型的参数后,通过预训练语料继续进行预训练,直至预测准确的概率达到预设的预训练阈值。
方法二、屏蔽语言模型(Mask Language Model,MLM)训练方法进行预训练。
从预训练语料集合中获取随机掩盖预设比例部分的预训练语料,并输入所述时间序列神经网络子模型,所述时间序列神经网络子模型在给定上下文信息的条件下预测被掩盖的预设比例部分,当预测准确的概率达到预设的预训练阈值时,确定已预训练好,得到预训练的时间序列神经网络子模型。否则,在调整所述通过所述时间序列神经网络子模型的参数后,通过预训练语料继续进行预训练,直至预测准确的概率达到预设的预训练阈值。
可以理解的是,上述预训练方法仅为示例说明,在实际应用中,可以根据使用场景选择上述方法或者其他预训练方法,本说明书实施例对此不做限制。
在本说明书一实施例中,预训练的时间序列神经网络子模型可以为预训练的BERT(Bidirectional Encoder Representations from Transformers,代表Transformers的双向编码器)子模型,在待处理数据输入序列标注模型之前,可以根据BERT子模型的输入规则,对待处理数据做预处理,具体可以为:在待处理数据的起始位置之前添加首位标签CLS,在待处理数据的结束位置之前添加末尾标签SEP。
采用上述方案,首位标签CLS在经过编码、特征提取、特征融合后,具有了整个待处理数据的语义信息,有利于序列标注模型获取丰富的语义信息。
作为一可选示例,当待处理数据分成多批次输入序列标注模型中进行处理时,可以为所述序列标注模型预设一长度阈值,若一批次的待处理数据的长度不满足长度阈值时,可以对待处理数据进行填充(Padding)处理。
由此,通过预训练时间序列神经网络子模型对所述待处理数据进行编码,可以提高编码效率和编码结果准确性。
在具体实施中,如图4所示,所述序列标注模型40还可以包括解码层45,适于根据所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,并根据各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
其中,所述解码层45可以采用条件随机场(Conditional Random Field,CRF)网络结构,根据预设的候选预测标签集合,排列组合后可以得到多个候选预测标签标注序列,根据所述融合特征,预测候选预测标签标注序列中各候选预测标签用于标注所述待处理语料中相应划分单元的概率,从而得到各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
在所述解码层45包括条件随机场子模型时,可以预设有一个状态转换矩阵[A]a,b和发射矩阵
Figure BDA0002537559010000171
[A]a,b表示两个时间步长从第a个状态到第b个状态的状态转换转移概率,
Figure BDA0002537559010000172
表示矩阵
Figure BDA0002537559010000173
输入后第t个位置输出为候选预测标签[v]t的观测概率,其中θ包含了整个序列标注模型的参数。当条件随机场分数score1
Figure BDA0002537559010000174
最高时,得到标签标注预测序列。而且,条件随机场子模型可以采用维特比(Viterbi)方法计算得出
Figure BDA0002537559010000175
的最佳路径,从而可以获取最佳路径对应的候选预测标签标注序列。
在具体实施中,为了提高序列标注模型处理效率,可以对序列标注模型中的特征进行降维处理。例如,可以对融合特征进行降维处理。
在具体实施中,待处理数据包含越丰富的序列信息,越可以精确地提取语义特征。因此,在进行待处理数据的语义特征提取之前,基于所述待处理语料的语义结构,可以识别所述待处理语料的属性信息,从预设的候选属性标签集合中选取相应的候选属性标签,得到属性标签序列,由此,所述待处理数据还可以包括:属性标签序列,所述属性标签序列的划分单元可以为属性标签。
其中,所述属性标签序列可以通过序列标注模型或者预设的属性标注模型得到,属性标签序列获取方法可参考上述序列标注方法中相关的实施例,在此不再赘述。
采用上述方案,根据处理语料中存在的属性信息,可以获得相应的属性标签序列,并且由于待处理语料和属性标签序列的共现特性,增加属性标签序列不会破坏待处理语料的语义信息,且可以丰富待处理数据中包含的序列信息。
在具体实施中,如图5所示,作为一可选示例,所述序列标注模型40可以包括:位于编码层42和特征提取层43之间的组合层48,与图4的区别在于:所述编码层42不与所述特征融合层44建立连接,而所述组合层48与所述特征融合层44建立连接。所述组合层48适于在获取属性序列标签后,可以将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征和进行逻辑运算处理。
采用上述方案,将待处理语料和属性标签序列进行组合后可以提取属性维度的语义信息,也使得后续处理的特征中包含属性维度的语义信息,拓展语义特征和融合特征中语义信息的维度,结合多维度的语义信息,可以更加准确地计算各候选预测标签标注序列的概率值。
在具体实施中,由于编码后的待处理语料和编码后的属性标签序列可以用矩阵方式表征,故而可以采用行向量或列向量的拼接方法,将按照行向量或列向量进行组合处理,得到组合后的待处理数据,组合后的待处理数据也可以用矩阵方式表征。
例如,可以采用Concat函数,将编码后的待处理语料中n个m1维行向量分别和编码后的属性标签序列中相应分布位置的n个m2维行向量进行组合处理,得到n个(m1+m2)维的行向量,由此得到组合后的待处理数据。其中,n、m1和m2为自然数,且m1和m2可以相等,也可以不相等。
或者,还可以采用矩阵运算的拼接方法,将编码后的待处理语料和编码后的属性标签序列进行矩阵运算处理,由此得到组合后的待处理数据。
例如,可以将编码后的待处理语料中n个m维行向量分别和编码后的属性标签序列中相应的n个m维行向量进行相加运算处理,得到n个m维的行向量,其中,n和m为自然数。
在具体实施中,本说明书的序列标注方法可以应用于各种领域,为了确定获得的标签标注预测序列在相应应用领域中是否标注准确,可以根据所述待处理数据的融合特征,生成融合特征向量,并确定所述融合特征向量中符合预设的第二选取条件的元素所处的分布位置,获取所述候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合。
其中,可以采用Reshape函数、Resize函数、Swapaxes函数、Flatten函数unsqueeze函数、expand函数等现有的数据维度变换方法;或者,也可以自定义数据维度变换方法,将所述融合特征按预设的数据维度变换规则,转换为融合特征向量。
作为一可选示例,得到融合特征向量后,可以对融合特征向量进行归一化处理,获取归一化的融合特征向量中满足第二选取条件的元素对应的候选关系标签,得到类别标签预测集合。例如,可以采用Softmax函数对融合特征向量进行归一化处理,将融合特征向量中各元素的数值归一化至指定数值区间内,如数值区间可以为[0,1]。
采用上述方案,根据输出的候选类别标签,可以确定获得的标签标注预测序列的应用领域,并且确定获得的标签标注预测序列在相应应用领域中是否标注准确,从而确保序列标注结果的准确性。
作为一可选示例,可以对融合特征向量进行降维处理,使所述融合特征向量的维度与预设的候选类别标签集合中候选类别标签的总数一致。例如,可以采用多层感知(Multi LayerPerceptron,MLP)神经网络架构,对融合特征向量进行降维处理。
为使本领域技术人员更好地理解和实现上述方案,以下结合附图及具体实施例进行阐述。
在本说明书一实施例中,如图7所示,为本说明另一种序列标注模型的结构示意图。
所述序列标注模型70包括:
(1)输入层71,适于对接收的数据进行预处理,具体可以包括:将待处理语料S进行划分处理,得到划分单元组成的待处理语料序列{s1,s2…sm},并根据预设的映射字典进行映射,分别获取待处理语料序列中各划分单元在映射字典中的索引值,将待处理语料序列中的划分单元转换为对应的数值,得到字典映射处理后的待处理语料,即待处理语料向量SID={sid1,sid2…sidm},其中,s1,s2…sm为待处理语料序列S中的划分单元,m为待处理语料S中的各划分单元之和。
(2)编码层72,适于对接收的数据进行属性识别和编码,具体可以包括:
(2.1)在第一区域721中,将待处理语料向量SID输入到预设的第一时间序列神经网络子模型进行编码处理,得到待处理语料S中各划分单元相应的第一编码特征向量,并组成语料特征矩阵
Figure BDA0002537559010000191
其中,
Figure BDA0002537559010000192
中各第一编码特征向量ES1,ES2…ESm均可以为k维的稠密向量,k的值由所述时间序列神经网络子模型的参数决定。
(2.2)在第二区域722中,通过待处理语料向量SID,使第一属性标注子模型识别所述待处理语料S的语法信息,并在待处理语料S的各划分单元处标注相应的语法标签,得到语法标签序列,对所述语法标签序列进行字典映射处理,得到语法标签序列向量PID={pid1,pid2…pidm}。
(2.3)在第二区域722中,将语法标签序列向量PID输入到预设的第二时间序列神经网络子模型进行编码处理,得到语法标签序列中各划分单元相应的第二编码特征向量,并组成语法标签特征矩阵
Figure BDA0002537559010000193
其中,
Figure BDA0002537559010000194
中各第二编码特征向量EP1,EP2…EPm均可以为j维的稠密向量,j的值由第二时间序列神经网络子模型的参数决定。
(2.4)在第三区域723中,通过待处理语料向量SID,使第二属性标注子模型识别所述待处理语料S的位置信息,并在待处理语料S的各划分单元处标注相应的位置标签,得到位置标签序列,对所述位置标签序列进行字典映射处理,得到位置标签序列向量QID={qid1,qid2…qidm}。
(2.5)在第三区域723中,将位置标签序列向量QID输入到预设的第一映射矩阵进行编码处理,得到语法标签序列中各划分单元相应的第三编码特征向量,并组成位置标签特征矩阵
Figure BDA0002537559010000201
其中,
Figure BDA0002537559010000202
中各第三编码特征向量EP1,EP2…EPm均可以为h维的稠密向量,h的值由第一映射矩阵的参数决定。
(2.6)在第四区域724中,通过待处理语料向量SID,使第三属性标注子模型识别所述待处理语料S的分类信息,并在待处理语料S的各划分单元处标注相应的分类标签,得到分类标签序列,对所述分类标签序列进行字典映射处理,得到分类标签序列向量RID={rid1,rid2…ridm}。
(2.7)在第四区域724中,将分类标签序列向量RID输入到预设的第二映射矩阵进行编码处理,得到分类标签序列中各划分单元相应的第四编码特征向量,并组成分类标签特征矩阵
Figure BDA0002537559010000203
其中,
Figure BDA0002537559010000204
中各第四编码特征向量ER1,ER2…ERm均可以为g维的稠密向量,g的值由第二映射矩阵的参数决定。
(3)组合层73,适于对接收的数据进行组合处理,具体可以包括:对语料特征矩阵
Figure BDA0002537559010000205
语法标签特征矩阵
Figure BDA0002537559010000206
位置标签特征矩阵
Figure BDA0002537559010000207
和分类标签特征矩阵
Figure BDA0002537559010000208
进行组合处理,得到组合特征矩阵
Figure BDA0002537559010000209
其中,组合特征矩阵
Figure BDA00025375590100002010
的各组合特征向量可以由语料特征矩阵
Figure BDA00025375590100002011
语法标签特征矩阵
Figure BDA00025375590100002012
位置标签特征矩阵
Figure BDA00025375590100002013
和分类标签特征矩阵
Figure BDA00025375590100002014
中相应分布位置的特征编码向量拼接而成,例如,Ei={ESi,EPi,EQi,ERi},i为自然数,且i∈[1,m],且
Figure BDA00025375590100002015
中各组合向量E1,E2…Em均可以为h+j+k+g维的稠密向量。
(4)第一全连接层74,适于对接收的数据进行降维处理,具体可以包括:采用第一多层感知机子模型741,可以对组合特征矩阵
Figure BDA00025375590100002016
中各组合特征向量E1,E2…Em进行降维处理,从而得到降维处理后的组合特征矩阵
Figure BDA00025375590100002017
其中,降维处理后的组合特征向量E1′,E2′…Em′的维度可以为p=(h+j+k+g)/2d,d为自然数,且2d为(h+j+k+g)的约数。
(5)特征提取层75,适于对接收的数据进行语义特征提取,具体可以包括:通过两个膨胀卷积子模型751和752,可以分别对降维处理后的组合特征矩阵
Figure BDA00025375590100002018
进行语义特征提取处理,得到两个语义特征矩阵
Figure BDA00025375590100002019
Figure BDA00025375590100002020
其中,
Figure BDA00025375590100002021
中各语义特征向量均可以为p维的稠密向量,
Figure BDA00025375590100002022
中各语义特征向量均为p维的稠密向量。
(6)特征融合层76,适于对接收的数据进行逻辑运算处理,具体可以包括:将语义特征矩阵
Figure BDA00025375590100002023
Figure BDA00025375590100002024
以及降维处理后的组合特征矩阵
Figure BDA00025375590100002025
进行逻辑运算处理,得到融合特征矩阵
Figure BDA00025375590100002026
其中,
Figure BDA00025375590100002027
中各融合特征向量D1,D2…Dm均可以为p维的稠密向量。
(7)迭代层77,适于对接收的数据进行迭代处理,具体可以包括:通过四个子层,对融合特征矩阵
Figure BDA0002537559010000211
进行四次迭代,得到四次迭代后的融合特征矩阵
Figure BDA0002537559010000212
其中,迭代后的融合特征矩阵中的各迭代后的融合特征向量的维度可以为p维,各第一子层的膨胀率可以为2,第二子层的膨胀率可以为4,第三子层的膨胀率可以为8,第四子层膨胀率可以为1。
(8)解码层78,对接收的数据进行概率预测,得到标签标注预测序列和类别标签预测集合,具体可以包括:
(8.1)采用条件随机场子模型781,根据所述融合特征,预测候选预测标签标注序列中各候选预测标签用于标注所述待处理语料中相应划分单元的概率,从而得到各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列Y1
(8.2)对四次迭代后的融合特征矩阵
Figure BDA0002537559010000213
中各元素按预设排序进行位置转换处理,得到融合特征向量f={a1,a2…am×p},其中,融合特征向量f可以为(m×p)维的稠密向量,a1,a2…am×p为融合特征向量f中的元素。
(8.3)采用第二多层感知机子模型782,可以对融合特征向量f进行降维处理,从而得到降维后的融合特征向量f′={a1′,a2′…aq′},其中,降维后的融合特征向量f′的维度为q,q为预设的候选类别标签集合中候选类别标签的总数,a1′,a2′…aq′为降维后的融合特征向量f′中的元素。
(8.4)对降维后的融合特征向量f′进行归一化处理,确定归一化的融合特征向量f″中符合预设的第二选取条件的元素所处的分布位置,获取候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合Y2
(9)通过输出层79输出所述待处理数据的候选预测标签标注序列Y1和类别标签预测集合Y2
在本说明书一实施例中,如图8所示,为本说明另一中序列标注模型的示意图。所述序列标注模型80与图7中的序列标注模型70区别在于:输入层81和编码层82。
具体而言,在获取待处理语料S后,通过预设的属性标注模型获得语法标签序列PO、位置标签序列QO和分类标签序列RO,然后,待处理语料S、语法标签序列PO、位置标签序列QO和分类标签序列RO作为待处理数据输入序列标注模型80。输入层81将待处理语料S进行划分处理,得到划分单元组成的待处理语料序列{s1,s2…sm},并根据预设的映射字典进行映射,分别获取待处理语料序列、语法标签序列、位置标签序列和分类标签序列中各划分单元在映射字典中的索引值,将各划分单元转换为对应的数值,得到字典映射处理后的待处理语料、语法标签序列、位置标签序列和分类标签序列,即待处理语料向量SID={sid1,sid2…sidm}、语法标签序列向量PID={pid1,pid2…pidm}、位置标签序列向量QID={qid1,qid2…qidm}和分类标签序列向量RID={rid1,rid2…ridm},其中,s1,s2…sm为待处理语料序列S中的划分单元,m为待处理语料S中的各划分单元之和。
编码层82由于无需进行属性信息的识别和标注,因此,可以对接收的数据直接进行编码。
在第一区域821中,将待处理语料向量SID输入到预设的第一时间序列神经网络子模型进行编码,得到待处理语料S中各划分单元相应的第一编码特征向量,并组成语料特征矩阵
Figure BDA0002537559010000221
其中,
Figure BDA0002537559010000222
中各第一编码特征向量ES1,ES2…ESm均可以为k维的稠密向量,k的值由所述时间序列神经网络子模型的参数决定。
在第二区域822中,将语法标签序列向量PID输入到预设的第二时间序列神经网络子模型进行编码处理,得到语法标签序列中各划分单元相应的第二编码特征向量,并组成语法标签特征矩阵
Figure BDA0002537559010000223
其中,
Figure BDA0002537559010000224
中各第二编码特征向量EP1,EP2…EPm均可以为j维的稠密向量,j的值由第二时间序列神经网络子模型的参数决定。
在第三区域823中,将位置标签序列向量QID输入到预设的第一映射矩阵进行编码处理,得到语法标签序列中各划分单元相应的第三编码特征向量,并组成位置标签特征矩阵
Figure BDA0002537559010000225
其中,
Figure BDA0002537559010000226
中各第三编码特征向量EP1,EP2…EPm均可以为h维的稠密向量,h的值由第一映射矩阵的参数决定。
在第四区域824中,将分类标签序列向量RID输入到预设的第二映射矩阵进行编码处理,得到分类标签序列中各划分单元相应的第四编码特征向量,并组成分类标签特征矩阵
Figure BDA0002537559010000227
其中,
Figure BDA0002537559010000228
中各第四编码特征向量ER1,ER2…ERm均可以为g维的稠密向量,g的值由第二映射矩阵的参数决定。
所述序列标注模型80的其余部分可参阅上述对于图7的序列标注模型70的相关描述,再次不再赘述。
在具体实施中,为了提高序列标注预测结果的准确率,可以对初始的序列标注模型进行训练,通过预设的训练数据、所述训练数据的真实标签和预设的损失函数可以调整序列标注模型的模型参数,使序列标注模型收敛至理想状态,完成模型训练,将完成训练的序列标注模型作为预设的序列标注模型,从而实施序列标注方法。为使本领域技术人员更加清楚地了解及实施本说明书实施例,下面将结合本说明书实施例中的附图进行描述。
参照图9所示的一种序列标注模型的训练方法的流程图,在本说明书实施例中,具体可以包括如下步骤:
S91,获取训练数据和所述训练数据的标签标注真实序列,所述训练数据包括训练语料。
在具体实施中,所述训练语料可以包含但不仅限于中文和中文标点符号,并且可以根据标签分类模型实际预测的语言种类,选取相应语言种类的训练语料。
其中,可以获取不同领域的训练数据,使得训练数据的来源更加广泛,也可以获取经过校对的训练数据,使得训练数据的格式较为统一、规范。并且所述训练数据可以是人工整理的数据,也可以是从公共网络上获取的数据。
S92,将所述训练数据和所述标签标注真实序列输入初始的序列标注模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征,以及基于所述融合特征,计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
S93,将所述标签标注真实序列和所述标签标注预测序列进行误差计算,得到结果误差值。
在经过序列标注模型预测后,可以获得所述训练语料的标签标注预测序列,通过预设的损失函数可以计算得到所述标签标注预测序列和所述标签标注真实序列之间的结果误差值。
S94,基于所述结果误差值,确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
在具体实施中,可以预设一结果误差阈值和误差符合次数阈值,由此确定所述序列标注模型的参数是否进行调整。
具体而言,当结果误差值大于结果误差阈值时,所述序列标注模型不符合第一预设条件,可以对所述序列标注模型的参数进行调整。当结果误差值小于结果误差阈值时,误差符合次数加一,并确定误差符合次数是否大于或等于误差符合次数阈值,若是,则所述序列标注模型符合第一预设条件,可以确定所述序列标注模型完成训练,否则,所述序列标注模型不符合第一预设条件,可以对所述序列标注模型的参数进行调整。
其中,可以采用梯度下降方法和反向传播方法中一种对所述序列标注模型的参数进行调整。
S95,将所述训练数据和所述标签标注真实序列输入调整后的序列标注模型,直至所述序列标注模型符合训练完成条件。
在具体实施中,为了验证调整后的序列标注模型是否完成训练,可以将训练数据和训练数据的标签标注真实序列再次输入调整后的序列标注模型,调整后的序列标注模型再次执行上述步骤,直至序列标注模型符合完成训练的条件。
由上述方案可知,通过将提取得到的所述训练数据的语义特征和所述训练数据进行逻辑运算,可以融合训练数据中的原始语义信息和语义特征中经过提取的语义信息,保留融合特征中语义信息的多样性,使序列标注模型可以从融合特征中获得更丰富的特征信息,增强序列标注模型的泛化能力和通用性,提高序列标注预测结果的准确率。
在具体实施中,所述训练数据还可以包括:所述训练语料的属性标签序列。所述训练语料的属性标签序列可以通过人工标注各划分单元的属性标签的方式获得,也可以通过所述序列标注模型或预设的属性标注模型识别所述训练语料中存在的属性信息,并在所述训练语料的各划分单元处标注相应的属性标签获得。
其中,基于所述训练语料的语义结构,其属性信息可以包括:训练语料中各划分单元的位置信息、训练语料的语法信息和训练语料的分类信息中至少一种,所述语法信息可以包括:词性信息和标点符号信息中至少一种。相应地,通过训练语料获得的属性标签序列可以包括:位置标签序列、语法标签序列和分类标签序列中至少一种;所述语法标签序列可以包括:词性标签和标点符号标签中至少一种。具体可参阅序列标注方法相关部分的描述,在此不再赘述。
在实际应用中,可以根据具体需求获取存在至少一种预设信息的训练语料,并且,可以根据具体需求预设至少一种类型的候选预测标签集合,从而根据实际情况采用上述任一训练方法训练序列标注模型,由此完成训练的序列标注模型可以应用于相应类型的识别领域,从而能够扩展序列标注模型的应用范围,例如,通过获取存在语法信息的训练语料以及设置一语法类型的候选预测标签集合,能够使完成训练的序列标注模型应用于语法识别领域,由此可以不用额外设置语法识别的模型,在得到语法类型的标签标注预测序列后,可以作为待处理数据的语法标签序列。
在具体实施中,在获得所述训练数据的标签标注预测序列后,可以通过预设的损失函数计算标签标注预测序列和标签标注真实序列之间的误差。且所述损失函数可以根据序列标注模型的全局或局部预测结果建立。
例如,可以基于所述标签标注预测结果建立以下损失函数loss1,并将第一损失函数loss1计算得到的数值作为标签标注预测序列和标签标注真实序列之间的结果误差值:
Figure BDA0002537559010000241
其中,
Figure BDA0002537559010000242
表示包含有T个融合特征向量的融合特征矩阵,
Figure BDA0002537559010000243
表示包含有T个候选预测标签的标签标注预测序列。score1为序列标注模型中的条件随机场子模型的分数函数。
可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制。在实际应用中,所述训练数据包含不同的信息,可以建立不同的损失函数。本说明书实施例对此不做限制。
根据上述说明书实施例可知,序列标注处理可以分为:第一分支为标注标签预测子处理,第二分支为类别标签预测子处理。所述训练数据的真实标签还可以包括:实际用于表示所述训练语料的分类信息的候选类别标签。由此,还可以通过计算所述标签标注真实序列和所述标签标注预测序列之间的误差以及计算所述真实类别标签向量和所述类别标签预测集合之间的误差,得到总的结果误差值,以确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
其中,根据训练语料中实际存在的分类信息,以及真实类别标签在预设的候选类别标签集合中的分布位置,可以生成真实类别标签向量。例如,候选类别标签集合可以为{出生地朋友出生日期演唱国籍居住地民族},分类信息对应的真实类别标签可以为{出生地,出生日期,国籍,民族},则真实类别标签向量可以为{1 0 1 0 1 0 1}。
其中,“1”可以表示相应位置的候选类别标签有效,即相应位置的候选类别标签为真实类别标签,“0”可以表示相应位置的候选类别标签无效,即相应位置的候选类别标签不为真实类别标签。可以理解的是,在具体实施时,也可以采用其他数值来表示有效位和无效位,本说明书实施例对此不作限制。
在本说明书一实施例中,如图10所示,所述序列标注模型的训练方法可以包括:
S101,获取训练数据、所述训练数据的标签标注真实序列和所述训练数据的真实类别标签向量,所述训练数据包括训练语料。
S102,将所述训练数据、所述训练数据的标签标注真实序列和所述训练数据的真实类别标签向量输入初始的序列标注模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征。
S103,基于所述融合特征,所述序列标注模型计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
S104,基于所述待处理数据的融合特征,生成融合特征向量,并对所述融合特征向量进行归一化处理,得到归一化的融合特征向量。
S105,计算所述标签标注真实序列和所述标签标注预测序列之间的第一误差,以及计算所述真实类别标签向量和所述归一化的融合特征向量之间的第二误差,并将所述第一误差和第二误差进行计算得到结果误差值。
S106,基于所述结果误差值,确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
S107,将所述训练数据、所述训练数据的标签标注真实序列和所述训练数据的真实类别标签向量输入调整后的序列标注模型,直至所述序列标注模型符合训练完成条件。
在具体实施中,可以基于序列标注模型输出的预测结果联合建立损失函数,并基于预设的联合建立的损失函数,采用梯度下降方法或反向传播方法对所述序列标注模型的参数进行调整。
在本说明书一实施例中,融合特征向量进行降维处理后,其维度与候选类别标签集合的总数相同,且进行归一化处理后,可以将融合特征向量中各元素的数值归一化至指定数值区间内,由此,可以将真实类别标签向量的有效位设置成该数值区间的最大值,将真实类别标签向量的无效位设置成该数值区间的最小值。
基于所述标签标注预测序列建立的第一损失子函数losslabel和基于所述类别标签预测集合建立的第二损失子函数lossclassify,联合建立第二损失函数loss2,第二损失函数loss2具体可以包括:
loss2=λ1losslabel2lossclassify
其中,
Figure BDA0002537559010000251
Figure BDA0002537559010000252
表示归一化的融合特征向量
Figure BDA0002537559010000253
中第i个元素的数值,W为归一化的融合特征向量中各元素的总数,
Figure BDA0002537559010000254
表示归一化的融合特征向量
Figure BDA0002537559010000255
中W个元素的数值之和,qi表示真实类别标签向量中第i个元素的数值;λ1和λ2为正数。
在具体实施中,为了确定训练数据是否进行了准确地编码处理并得到正确的向量化的属性标签序列,可以对向量化的训练数据进行解码处理,根据对向量化的训练数据进行预测,验证编码处理结果是否准确。由此,可以根据序列标签预测结果和编码处理结果联合建立损失函数。
在本说明书一实施例中,如图11所示,所述序列标注模型的训练方法可以包括:
S111,获取训练数据和所述训练数据的标签标注真实序列,所述训练数据包括训练语料和属性标签序列。
S112,将所述训练数据和所述标签标注真实序列输入初始的序列标注模型,以对所述训练数据进行编码处理,提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征。
S113,基于所述融合特征,所述序列标注模型计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
S114,基于编码后的属性标签序列,所述序列标注模型计算各候选属性标签标注序列的概率值,获取概率值符合预设的第四选取条件的候选属性标签标注序列,得到所述训练数据的属性标签预测序列。
S115,计算所述标签标注真实序列和所述标签标注预测序列之间的第一误差,以及计算所述属性标签序列和所述属性标签预测序列之间的第三误差,并将所述第一误差和第三误差进行计算得到结果误差值。
S116,基于所述结果误差值,确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
S117,将所述训练数据和所述训练数据的标签标注真实序列输入调整后的序列标注模型,直至所述序列标注模型符合训练完成条件。
在具体实施中,可以基于序列标注模型输出的预测结果以及解码处理结果联合建立损失函数,并基于预设的联合建立的损失函数,采用梯度下降方法或反向传播方法对所述序列标注模型的参数进行调整。
在本说明书一实施例中,可以采用条件随机场网络对编码后的属性标签序列进行解码处理,得到属性标签预测序列。为了与获取标签标注预测序列的条件随机场网络进行区分,可以将上述获取标签标注预测序列的条件随机场子模型称为第一条件随机场子模型,将获取属性标签预测序列的条件随机场子模型称为第二条件随机场子模型,根据第二条件随机场子模型的输出结果,可以确定所述属性标签序列的编码结果是否准确。
基于所述标签标注预测序列建立的第一损失子函数losslabel,以及基于所述属性标签预测序列建立的第三损失子函数losspostag,联合建立第三损失函数loss3,第二损失函数loss3具体可以包括:
loss3=λ1losslabel3losspostag
其中,
Figure BDA0002537559010000261
表示包含有T个属性标签特征向量的属性标签特征矩阵,
Figure BDA0002537559010000262
表示包含有T个候选属性标签的属性标签预测序列;
Figure BDA0002537559010000263
λ1和λ3为正数。
可以理解的是,上述说明书实施例仅为示例说明,损失函数可以根据实际情景进行建立,例如,基于第一损失子函数losslabel、第二损失子函数losspostag和第三损失子函数lossclassify,联合建立第三损失函数loss4:loss4=λ1losslabel3losspostag2lossclassify。本说明书实施例此不做限制。
在具体实施中,在联合建立损失函数后,可以调整各子函数的权重系数,由此可以自动控制模型的调参方向和调参力度,例如,若损失函数为loss3=λ1losslabel3losspostag,当λ1大于λ3时,控制梯度下降方法和反向传播方法倾向于调整标注标签预测子处理的参数,当λ1小于λ3时,控制梯度下降方法和反向传播方法倾向于调整属性标签预测子处理的参数。
为使本领域技术人员更好地理解和实现上述方案,以下结合附图及具体实施例进行阐述。
在本说明书一实施例中,如图12所示,为本说明的另一种序列标注模型的结构示意图。与图7和图8所示的序列标注模型的区别在于:解码层121和输出层122。
具体而言,将训练数据输入序列标注模型得到迭代后的融合特征矩阵[Dtrain]后,解码层121可以对迭代后的融合特征矩阵中各元素按预设排序进行位置转换处理,得到融合特征向量ftrain,采用第二多层感知机子模型1211,解码层121还可以对融合特征向量ftrain进行降维处理,从而得到降维后的融合特征向量ftrain′,对降维后的融合特征向量ftrain′进行归一化处理,得到归一化的融合特征向量ftrain″。
基于所述融合特征矩阵[Dtrain],解码层121可以采用第一条件随机场子模型1212计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
基于编码后的属性标签序列,即属性标签特征矩阵[ET],解码层121可以采用第二条件随机场子模型1213计算各候选属性标签标注序列的概率值,获取概率值符合预设的第四选取条件的候选属性标签标注序列,得到所述训练数据的属性标签预测序列。
然后,解码层121可以根据预设的损失函数,计算所述标签标注真实序列和所述标签标注预测序列之间的第一误差,所述标签标注真实序列和所述标签标注预测序列之间的第一误差以及计算所述属性标签序列和所述属性标签预测序列之间的第三误差,并将所述第一误差、第二误差和第三误差进行加权计算得到结果误差值loss。输出层122可以输出结果误差值loss,以此判断序列标注模型是否完成训练。
可以理解的是,序列标注模型根据训练数据获得相应融合特征矩阵和属性标签特征矩阵的过程可参考上述序列标注方法部分相关实施例的描述,在此不再赘述。
需要说明的是,为使描述方便可以采用“第一”、“第二”等名词前缀作为区分。且本文中的“第一”、“第二”、“第三”等名词前缀仅用于区分不同作用的名词,并不代表顺序、大小或重要性等。
本说明书还提供了一种所述数据处理设备,包括存储器和处理器,所述存储器可以存储一条或多条计算机可执行指令,处理器可以调用所述一条或多条计算机可执行指令,以执行本说明书实施例提供的序列标注方法或者序列标注模型的训练方法。
在具体实施中,所述数据处理设备还可以包括显示接口及通过显示接口接入的显示器。所述显示器可以显示处理器执行本说明书实施例提供的序列标注方法或者序列标注模型的训练方法所得到的结果信息。
其中,结果信息可以包括:待处理数据的标签标注预测序列、待处理数据的类别标签预测集合,训练数据的标签标注预测序列、训练数据的类别标签预测集合等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行本发明上述任一实施例方法的步骤。其中,所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等各种适当的可读存储介质。所述计算机可读存储介质上存储的指令执行上述任一实施例所述的方法,具体可参照上述实施例,不再赘述。
所述计算机可读存储介质可以包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元,例如,存储器、可移除的或不可移除的介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(DVD)、磁带、盒式磁带等。
计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码,例如,源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
虽然本说明书实施例披露如上,但本说明书实施例并非限定于此。任何本领域技术人员,在不脱离本说明书实施例的精神和范围内,均可作各种更动与修改,因此本说明书实施例的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种序列标注方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括待处理语料;
提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征;
基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签;
基于各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
2.根据权利要求1所述的序列标注方法,其特征在于,所述提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算,得到所述待处理数据的融合特征,包括:
基于预设的各组特征提取参数,分别提取所述待处理数据的语义特征,得到各组的语义特征;
对各组的语义特征和所述待处理数据进行逻辑运算,得到融合特征。
3.根据权利要求2所述的序列标注方法,其特征在于,所述对各组的语义特征和所述待处理数据进行逻辑运算,包括:
将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并基于处理结果为其他组的语义特征和所述待处理数据分配权重系数;
基于分配的权重系数,所述其他组的语义特征和所述待处理数据进行加权逻辑运算。
4.根据权利要求1-3任一项所述的序列标注方法,其特征在于,在所述基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值之前,还包括:
在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;
在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选预测标签标注序列的概率值。
5.根据权利要求1所述的序列标注方法,其特征在于,在所述提取所述待处理数据的语义特征之前,还包括:
识别所述待处理语料中存在的属性信息,并获取所述属性信息对应的属性标签,得到属性标签序列;
将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征;
其中,所述属性信息包括:所述待处理语料中各划分单元的位置信息、所述待处理语料的语法信息和所述待处理语料的分类信息中至少一种。
6.根据权利要求5所述的序列标注方法,其特征在于,所述序列标注方法还包括:
基于所述待处理数据的融合特征,生成融合特征向量;
确定所述融合特征向量中符合预设的第二选取条件的元素所处的分布位置,获取预设的候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合。
7.根据权利要求1所述的序列标注方法,其特征在于,在所述提取所述待处理数据的语义特征之前,包括:
获取预设的处理参数;
其中,所述处理参数包括:特征提取参数、逻辑运算参数和概率计算参数;所述预设的处理参数通过预设的训练数据、所述训练数据的真实标签和预设的损失函数调整初始的处理参数得到;所述损失函数基于所述训练数据的标注标签预测结果和类别标签预测结果联合建立,所述训练数据包括:训练语料,所述训练数据的真实标签包括:实际用于标注所述训练数据的候选预测标签和实际用于表示所述训练数据的分类信息的候选类别标签。
8.一种序列标注方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括待处理语料;
将所述待处理数据输入预设的序列标注模型,以提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
9.一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述方法的步骤。
CN202010537651.XA 2020-06-12 2020-06-12 序列标注方法、数据处理设备、可读存储介质 Pending CN111695053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010537651.XA CN111695053A (zh) 2020-06-12 2020-06-12 序列标注方法、数据处理设备、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010537651.XA CN111695053A (zh) 2020-06-12 2020-06-12 序列标注方法、数据处理设备、可读存储介质

Publications (1)

Publication Number Publication Date
CN111695053A true CN111695053A (zh) 2020-09-22

Family

ID=72480720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010537651.XA Pending CN111695053A (zh) 2020-06-12 2020-06-12 序列标注方法、数据处理设备、可读存储介质

Country Status (1)

Country Link
CN (1) CN111695053A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112117009A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 用于构建标签预测模型的方法、装置、电子设备及介质
CN112488200A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 物流地址特征提取方法、系统、设备及存储介质
CN112528610A (zh) * 2020-12-09 2021-03-19 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN112784831A (zh) * 2021-02-02 2021-05-11 电子科技大学 融合多层特征增强注意力机制的文字识别方法
CN113610221A (zh) * 2021-06-29 2021-11-05 西安电子科技大学 一种基于fpga的可变膨胀卷积运算硬件系统
CN114970536A (zh) * 2022-06-22 2022-08-30 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法
CN116955352A (zh) * 2023-05-22 2023-10-27 广州生产力促进中心有限公司 一种基于等比数列的标签管理方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224577A (zh) * 2014-07-01 2016-01-06 清华大学 一种多标签文本分类方法及系统
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN111177569A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 基于人工智能的推荐处理方法、装置及设备
CN111241842A (zh) * 2018-11-27 2020-06-05 阿里巴巴集团控股有限公司 文本的分析方法、装置和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224577A (zh) * 2014-07-01 2016-01-06 清华大学 一种多标签文本分类方法及系统
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN111241842A (zh) * 2018-11-27 2020-06-05 阿里巴巴集团控股有限公司 文本的分析方法、装置和系统
CN111177569A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 基于人工智能的推荐处理方法、装置及设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112117009A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 用于构建标签预测模型的方法、装置、电子设备及介质
CN112488200A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 物流地址特征提取方法、系统、设备及存储介质
CN112528610A (zh) * 2020-12-09 2021-03-19 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN112528610B (zh) * 2020-12-09 2023-11-14 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN112784831A (zh) * 2021-02-02 2021-05-11 电子科技大学 融合多层特征增强注意力机制的文字识别方法
CN112784831B (zh) * 2021-02-02 2022-06-28 电子科技大学 融合多层特征增强注意力机制的文字识别方法
CN113610221A (zh) * 2021-06-29 2021-11-05 西安电子科技大学 一种基于fpga的可变膨胀卷积运算硬件系统
CN113610221B (zh) * 2021-06-29 2024-02-13 西安电子科技大学 一种基于fpga的可变膨胀卷积运算硬件系统
CN114970536A (zh) * 2022-06-22 2022-08-30 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法
CN116955352A (zh) * 2023-05-22 2023-10-27 广州生产力促进中心有限公司 一种基于等比数列的标签管理方法和系统
CN116955352B (zh) * 2023-05-22 2024-06-11 广州生产力促进中心有限公司 一种基于等比数列的标签管理方法和系统

Similar Documents

Publication Publication Date Title
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN111695053A (zh) 序列标注方法、数据处理设备、可读存储介质
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN114168709B (zh) 一种基于轻量化预训练语言模型的文本分类方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
CN112686044B (zh) 一种基于语言模型的医疗实体零样本分类方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN113806646A (zh) 序列标注系统及序列标注模型的训练系统
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN111666588A (zh) 一种基于生成对抗网络的情绪差分隐私保护方法
CN114385803B (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113806645A (zh) 标签分类系统及标签分类模型的训练系统
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN113836929B (zh) 命名实体识别方法、装置、设备及存储介质
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN118260439A (zh) 密集架系统的信息管理系统及方法
CN117150436B (zh) 多模态自适应融合的主题识别方法及系统
CN115906855A (zh) 一种字词信息融合的中文地址命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922