CN113806646A - 序列标注系统及序列标注模型的训练系统 - Google Patents

序列标注系统及序列标注模型的训练系统 Download PDF

Info

Publication number
CN113806646A
CN113806646A CN202010538268.6A CN202010538268A CN113806646A CN 113806646 A CN113806646 A CN 113806646A CN 202010538268 A CN202010538268 A CN 202010538268A CN 113806646 A CN113806646 A CN 113806646A
Authority
CN
China
Prior art keywords
processed
sequence
data
module
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010538268.6A
Other languages
English (en)
Inventor
沈大框
张莹
陈成才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN202010538268.6A priority Critical patent/CN113806646A/zh
Publication of CN113806646A publication Critical patent/CN113806646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

序列标注系统及序列标注模型的训练系统,序列标注系统包括:待处理数据获取模块适于获取待处理数据,所述待处理数据包括待处理语料;语义提取模块适于提取所述待处理数据的语义特征;逻辑运算模块适于将提取得到的语义特征和所述待处理数据进行逻辑运算,得到所述待处理数据的融合特征;概率计算模块适于根据所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值;序列获取模块适于根据各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。采用上述方案,可以提高序列标注预测结果的准确率。

Description

序列标注系统及序列标注模型的训练系统
技术领域
本说明书实施例涉及信息处理技术领域,尤其涉及一种序列标注系统及序列标注模型的训练系统。
背景技术
在互联网信息大爆炸的时代,计算机如果能够理解人类的语言,可以更好地辅助使用者获取有用信息。因此,自然语言处理(Natural Language Processing,NLP)成为了近年来的研究热点。
序列标注(Sequence Labeling)任务可以将语言序列转化为标注序列,由此作为许多自然语言处理任务的基础,是自然语言处理中的重要研究内容之一。
目前,现有的序列标注模型只能处理内容简单、来源单一的语言序列,在面对内容复杂或来源多变的语言序列时,往往泛化能力弱、通用性差,导致序列标注结果的准确率较低。
发明内容
有鉴于此,本说明书实施例提供了一种序列标注系统及序列标注模型的训练系统,能够提高序列标注预测结果的准确率。
本说明书实施例提供了一种序列标注系统,包括:
待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;
语义提取模块,适于提取所述待处理数据的语义特征;
逻辑运算模块,适于将提取得到的语义特征和所述待处理数据进行逻辑运算,得到所述待处理数据的融合特征;
概率计算模块,适于根据所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签;
序列获取模块,适于根据各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
本发明实施例还提供了一种序列标注系统,包括:
待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;
序列标注预测模块,适于采用预设的序列标注模型提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
本发明实施例还提供了一种序列标注模型的训练系统,包括:训练数据获取模块,适于获取训练数据和所述训练数据的标签标注真实序列,所述训练数据包括训练语料;
模型训练模块,适于将所述训练数据和所述标签标注真实序列输入初始的序列标注模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征,以及基于所述融合特征,计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列;
误差计算模块,适于将所述标签标注真实序列和所述标签标注预测序列进行误差计算,得到结果误差值;
匹配模块,适于根据所述结果误差值,确定所述序列标注模型是否符合训练完成条件;
模型参数调整模块,适于在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
采用本说明书实施例的序列标注方案,在获取待处理数据后,通过将提取得到的所述待处理数据的语义特征和所述待处理数据进行逻辑运算,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对序列标注预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于更加准确地计算各候选预测标签标注序列的概率值,进而提高序列标注结果的准确率。
附图说明
图1是本说明书实施例中一种序列标注系统的结构示意图;
图2是本说明书实施例中另一种序列标注系统的结构示意图;
图3是本说明书实施例中一种序列标注模型的结构示意图;
图4是本说明书实施例中一种迭代层的结构示意图;
图5是本说明书实施例中另一种序列标注模型的结构示意图;
图6是本说明书实施例中另一种序列标注模型的结构示意图;
图7是本说明书实施例中另一种序列标注模型的结构示意图;
图8是本说明书实施例中一种序列标注模型的训练系统的结构示意图;
图9是本说明书实施例中另一种序列标注模型的结构示意图。
具体实施方式
如背景技术所述,在互联网信息大爆炸的时代,自然语言处理成为了近年来的研究热点。序列标注(Sequence Labeling)任务可以将语言序列转化为标注序列,由此作为许多自然语言处理任务的基础,是自然语言处理中的重要研究内容之一。
目前,现有的序列标注模型只能处理内容简单、来源单一的语言序列,在面对内容复杂或来源多变的语言序列时,往往泛化能力弱、通用性差,产生语义特征提取错误或关键语义信息缺失等问题,导致序列标注结果的准确率较低。
针对上述问题,本说明书实施例提供一种序列标注方案,在获取待处理数据后,通过提取所述待处理数据的语义特征,以及将提取得到的语义特征和所述待处理数据进行逻辑运算处理,可以得到所述待处理数据的融合特征,从而可以根据所述待处理数据的融合特征计算各候选预测标签标注序列的概率值,得到所述待处理数据的标签标注预测序列。
为使本领域技术人员更加清楚地了解及实施本说明书实施例的构思、实现方案及优点,以下参照附图,通过具体应用场景进行详细说明。
参照图1所示的一种序列标注系统的结构示意图,在本说明书实施例中,序列标注系统100可以包括:
待处理数据获取模块101,适于获取待处理数据,所述待处理数据包括待处理语料;
语义提取模块102,适于提取所述待处理数据的语义特征;
逻辑运算模块103,适于将提取得到的语义特征和所述待处理数据进行逻辑运算,得到所述待处理数据的融合特征;
概率计算模块104,适于根据所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签;
序列获取模块105,适于根据各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
在具体实施中,根据实际情况,待处理数据可以包括不同语言种类的待处理语料。例如,所述待处理数据可以包括中文待处理语料、英文待处理语料等。
其中,待处理语料可以是人工输入的文本数据,也可以是从公共网络上获取的文本数据,还可以是通过光学字符识别(Optical Character Recognition,OCR)技术从图片中获取的文本数据。
实际应用时,待处理数据可以理解为属于人类能够理解的实际意义空间,获取的待处理数据对于计算机而言是一组字符串,计算机无法直接理解待处理数据所要传达的语言信息,因此,可以将待处理数据转换为计算机可以理解并处理的数字数据,使得原本属于实际意义空间的待处理数据映射到计算机所处的数字空间中。
在具体实施中,语义提取模块根据预设的特征提取参数,可以对待处理数据中部分或全部数据进行组合、排序、筛选等操作,得到能够表征待处理数据中语义信息的特征,即语义特征,使得计算机能够理解待处理数据所要传达的语言信息。逻辑运算模块再根据预设的逻辑运算参数,可以将提取得到的语义特征和所述待处理数据通过逻辑运算进行结合,得到语义信息融合的特征,即融合特征。
其中,根据实际情景设置的特征提取参数和逻辑运算参数,得到语义特征和融合特征的数量可以是一个,也可以是多个。
可以理解的是,根据实际设置的逻辑运算方式,语义特征的数量与融合特征的数量可以不一致。例如,当存在多个语义特征时,逻辑运算模块可以将各语义特征分别与待处理数据进行逻辑运算,得到多个融合特征,也可以将各语义特征与待处理数据一起进行逻辑运算,得到一个融合特征;又例如,当存在一个语义特征时,逻辑运算模块可以将所述语义特征分别与待处理数据中的部分数据进行逻辑运算,得到多个融合特征,也可以将所述语义特征与待处理数据进行逻辑运算,得到一个融合特征。
在具体实施中,可以预设一候选预测标签集合,包括用于标注的各候选预测标签,从候选预测标签集合中获取候选预测标签并进行排列组合后,可以得到各候选预测标签标注序列。根据所述待处理数据的融合特征,可以计算各候选预测标签标注序列与所述待处理数据的匹配程度,即各候选预测标签标注序列可以作为所述待处理数据的标签标注预测序列的概率值。
在具体实施中,所述第一选取条件可以根据实际情景进行设定。例如,所述第一选取条件可以为:概率值最大。即序列获取模块选取概率值最大的候选预测标签标注序列作为所述待处理数据的标签标注预测序列。
采用上述方案,通过将提取得到的所述待处理数据的语义特征和所述待处理数据进行逻辑运算,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对序列标注预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于更加准确地计算各候选预测标签标注序列的概率,进而提高序列标注结果的准确率。
在具体实施中,语义提取模块根据预设的特征提取参数可以提取所述待处理数据的语义特征,通过一组特征提取参数可能无法提取得到所有的语义特征,且由于提取范围有限,语义提取模块提取到的语义特征可能无法体现待处理数据中包含的所有语义信息,为了能够增加语义特征的数量,可以预设多组用于提取待处理数据的特征提取参数,语义提取模块根据预设的各组特征提取参数,可以分别提取所述待处理数据的语义特征,得到各组的基于待处理数据的语义特征,然后,逻辑运算模块可以对各组的基于待处理数据的语义特征和所述待处理数据进行逻辑运算,得到融合特征。
在本说明书一实施例中,可以预设有三组特征提取参数,语义提取模块根据预设的各组特征提取参数,可以分别获得将所述待处理数据映射为语义特征的特征提取函数,即特征提取函数F1、F2和F3。基于特征提取函数F1,F2和F3,可以分别获得所述待处理数据的语义特征A1=F1(x)、A2=F2(x)和A3=F3(x),其中,x表述待处理数据。基于预设的逻辑运算参数,逻辑运算模块对各组的语义特征A1、A2和A3以及所述待处理数据x进行逻辑运算,得到融合特征。
采用上述方案,通过设置不同的特征提取参数,可以从待处理数据中提取出不同粒度的语义特征,使提取的语义特征具有多样性和广泛性,通过不同粒度的语义特征可以传递更多待处理数据中包含的语义信息,增强融合特征表征内容复杂或来源多变的待处理数据的能力,提高对不同待处理数据进行准确预测的泛化能力和通用性。
在具体实施中,融合特征在数字空间上传递的语义信息与待处理数据包含的语义信息越接近,说明融合特征表征待处理数据的能力越强、精确度越高。在各组语义特征和所述待处理数据进行逻辑运算时,逻辑运算模块设置不同的权重系数和偏移系数,对各组的语义特征和所述待处理数据进行加权逻辑运算,其中,权重系数可以根据实际情景进行设定,可以得到不同的融合特征。
在一可选示例中,如图1所示,所述逻辑运算模块103可以包括:
权重分配子模块1031,适于将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并基于处理结果为其他组的语义特征和所述待处理数据分配权重系数;
加权计算子模块1032,适于根据分配的权重系数,所述其他组的语义特征和所述待处理数据进行加权逻辑运算。
由此,通过加权逻辑运算,可以控制各种语义特征和待处理数据在逻辑运算中的重要程度,提高逻辑运算结果的准确性,增强融合特征表征待处理数据的精确度,提高序列标注预测结果的可靠性。
在具体实施中,为了能够快速可靠地获取权重系数,权重分配子模块可以将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并根据处理结果为其他组的语义特征和所述待处理数据分配权重系数,加权计算子模块再根据分配的权重系数,将所述其他组的语义特征和所述待处理数据进行加权逻辑运算。
例如,语义提取模块获得三组语义特征A1、A2和A3,权重分配子模块将语义特征A1输入非线性函数F4可以得到计算结果F4(A1),将F4(A1)输入权重系数计算函数F5、F6和F7,得到权重系数a1=F5[F4(A1)]、a2=F6[F4(A1)]和a3=F7[F4(A1)],加权计算子模块再基于分配的权重系数a1、a2和a3获得将语义特征映射为融合特征的融合特征计算函数F8,为其他组的语义特征A2和A3以及所述待处理数据x分配权重系数a1、a2和a3,将其他组的语义特征A2和A3以及所述待处理数据x输入融合特征计算函数F8进行加权逻辑运算F8(a1 x,a2 A2,a3 A3),得到融合特征。
由此,通过语义特征获取权重系数,能够提高权重获取的效率,可以增加权重系数的可靠性。
在具体实施中,为了可以突显关键语义信息,便于后续进行概率预测,可以对融合特征进行迭代优化,如图1所示,所述序列标注系统100还可以包括:迭代模块106,所述迭代模块106位于逻辑运算模块103和概率计算模块104之间,适于在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选预测标签标注序列的概率值。
其中,迭代条件可以设置为迭代次数阈值,也可以设置为其他条件。第一轮获取的融合特征为经过逻辑运算模块处理得到的融合特征,在确定满足预设的迭代条件后,后续获取的融合特征为经过迭代模块处理得到的融合特征。
可以理解的是,用于迭代模块的特征提取参数可以与用于语义提取模块的特征提取参数相同,也可以不相同;同样地,用于迭代模块的逻辑运算参数可以与用于逻辑运算模块的逻辑运算参数相同,也可以不相同,本说明书实施例对此不作限制。
采用上述方案,通过对融合特征进行语义提取和逻辑运算,可以使迭代后的融合特征更加突显关键语义信息,从而增强融合特征的表征能力,提高序列标注结果的准确率。
在具体实施中,可以预设多组用于提取融合特征的特征提取参数,迭代模块根据各组特征提取参数,分别提取所述融合特征的语义特征,得到各组的基于融合特征的语义特征,然后,对各组的基于融合特征的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征。
在具体实施中,迭代模块可以对各组的基于融合特征的语义特征和所述融合特征进行加权逻辑运算,其中,权重系数的获取方法可以参照上述相关实施例,在此不再赘述。
在具体实施中,为了将待处理数据转换为计算机可以识别的信息,待处理数据获取模块可以在提取所述待处理数据的语义特征之前,将待处理数据进行划分处理,得到相应的待处理序列。其中,根据不同的应用情景和不同的语言种类,待处理数据可以采用不同的划分方法,得到相应的数据序列。为了便于说明,可以将按照预设要求能够划分的最小成分称为划分单元。由此,划分处理可以将待处理数据x划分为n个划分单元x1,x2……xn
例如,所述待处理数据包括中文的待处理语料:{你们好。},待处理数据获取模块可以采用文字和标点符号的划分方式,将待处理语料划分为{你/们/好/。},其中,“你”、“们”、“好”、“。”均为待处理语料的划分单元;待处理数据获取模块也可以采用词语和标点符号的划分方式,将待处理语料划分为{你们/好/。},其中,“你们”、“好”、“。”均为待处理语料的划分单元。
可以理解的是,符号“/”仅用于示例说明划分后的效果,并不是划分后实际存在的符号,在划分后也可以采用其他的符号间隔划分单元,本说明实施例对于间隔划分单元的符号不做具体限制。
需要说明的是,本文中“{}”仅用于限定举例的内容范围,并不是在表示训练语料的内容时必不可少的一部分,本领域技术人员可以用其他不容易混淆的符号来限定训练语料的内容范围,以下“{}”均同上所述。
在具体实施中,待处理数据包含越丰富的序列信息,越可以精确地提取语义特征。因此,在进行待处理数据的语义特征提取之前,基于所述待处理语料的语义结构,待处理数据获取模块可以识别所述待处理语料的属性信息,从预设的候选属性标签集合中获取所述属性信息对应的属性标签,得到属性标签序列,由此,所述待处理数据还可以包括:属性标签序列,所述属性标签序列的划分单元可以为属性标签。
其中,所述属性信息可以包括:所述待处理语料中各划分单元的位置信息、所述待处理语料的语法信息和所述待处理语料的分类信息中至少一种;所述语法信息可以包括:词性信息和标点符号信息中至少一种。相应地,通过待处理语料获得的属性标签序列可以包括:位置标签序列、语法标签序列和分类标签序列中至少一种;所述语法标签序列可以包括:词性标签和标点符号标签中至少一种。
以下通过几个具体实施例进行详细说明。
在本说明书一实施例中,预设一个候选位置标签集合,其中可以包括:各位置信息相应的位置标签。待处理数据获取模块对所述待处理语料进行划分后,识别待处理语料中存在的位置信息,得到各划分单元的位置信息,并根据划分单元在所述待处理语料中的分布位置,在各划分单元处标注相应的位置标签,由此得到位置标签序列。例如,待处理语料为:{你们好。},相应的位置标签序列可以为:{1 2 3 4},其中,“1”、“2”、“3”和“4”为分别表示第一、二、三、四位置信息的位置标签。
在本说明书又一实施例中,预设一个候选类别标签集合,其中可以包括不同类别的候选类别标签,例如,可以包括关系类型的候选类别标签、情感类型的候选类别标签等。在识别待处理语料中存在的分类信息后,待处理数据获取模块可以从所述候选类别标签集合中获取相应的候选类别标签,得到候选类别标签子集。从候选类别标签子集中获取至少一个分类标签,按照预设顺序排列得到分类标签序列。
例如,候选类别标签集合可以包括以下关系类型的候选类别标签:
{出生地朋友出生日期演唱国籍居住地民族}。
所述待处理语料可以为:{小明,2020年出生,陕西三原人,汉族。};
基于候选类别标签集合,在识别待处理语料中存在的关系信息后,可以得到关系标签向量:{1 0 1 0 1 0 1},表示待处理语料中存在与出生地、出生日期、国籍和民族相关的关系信息,从而得到候选类别标签子集{出生地,出生日期,国籍,民族}。
作为一可选示例,若分类标签序列中分类标签的数量小于所述待处理语料的划分单元数量,待处理数据获取模块可以对分类标签序列进行填充(padding),得到与待处理语料长度一致的分类标签序列。
其中,分类标签序列的填充可以包括以下至少一种:
1)若分类标签序列中包括一种分类标签,则可以采用所述分类标签进行填充,直至分类标签序列的长度与待处理语料长度一致;
2)若分类标签序列中包括多种分类标签,则可以采用预设的填充符号进行填充,直至分类标签序列的长度与待处理语料长度一致。
在本说明书另一实施例中,预设一个候选语法标签集合,其中可以包括:各语法信息相应的语法标签。待处理数据获取模块在识别待处理语料中存在的语法信息后,可以得到各划分单元的语法信息,并根据各划分单元的语法信息,可以在各划分单元处标注相应的语法标签。
所述语法标签进一步可以包括:标点符号标签和词性标签。其中,标点符号标签可以标注于标注标点符号信息相应的标点符号处;词性标签可以包括:各词性信息的起始位置标签和非起始位置标签,各词性信息的起始位置标签标注于词性信息相应的起始分词单元处,各词性信息的非起始位置标签标注于该词性信息相应的非起始单元分词处。
通过各词性信息的起始位置标签和非起始位置标签这种标签组合,可以均匀标注待处理语料,得到该词性信息在待处理语料中的起始位置和结束位置,结合标点符号标签,使待处理语料的各划分单元均标注有相应标签,由此得到的语法标签序列能够充分体现待处理语料的语法信息。
例如,待处理练语料可以为:{《离开》是由张宇谱曲、演唱。}
则根据所述候选语法标签集合,可以得到以下语法标签序列:
{W-B NW-B NW-I W-B V-B P-B NR-B NR-I V-B V-I W-B V-B V-I W-B}。
其中,“W-B”表示标点符号标签;“NW-B”和“NW-I”分别表示作品名词的起始位置标签和非起始位置标签;“P-B”表示介词的起始位置标签;“NR-B”和“NR-I”分别表示人名的起始位置标签和结束位置标签;“V-B”和“V-I”分别表示动词的起始位置标签和结束位置标签。
可以理解的是,在所述待处理数据中未包含语法标签序列时,可以通过上述任一实施例的序列标注系统获得语法标签序列,然后,可以对包含语法标签序列的待处理数据执行上述步骤S12~S14,得到其他类型的标签标注预测序列。
采用上述方案,根据处理语料中存在的属性信息,可以获得相应的属性标签序列,并且由于待处理语料和属性标签序列的共现特性,增加属性标签序列不会破坏待处理语料的语义信息,且可以丰富待处理数据中包含的序列信息。
在具体实施中,为了可以更精确地提取待处理数据的语义特征,如图1所示,所述序列标注系统100还可以包括:
数据组合模块107,适于在获取属性序列标签后,将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征。其中,可以采用Concat函数进行组合处理。
采用上述方案,将待处理语料和属性标签序列进行组合后可以提取属性维度的语义信息,也使得后续处理的特征中包含属性维度的语义信息,拓展语义特征和融合特征中语义信息的维度,结合多维度的语义信息,可以更加准确地计算各候选预测标签标注序列的概率值。
在具体实施中,本说明书的序列标注系统可以应用于各种领域,为了确定获得的标签标注预测序列在相应应用领域中是否标注准确,如图1所示,序列标注系统100还可以包括:
向量生成模块108,适于根据所述待处理数据的融合特征,生成融合特征向量;
向量处理模块109,适于确定所述融合特征向量中符合预设的第二选取条件的元素所处的分布位置,获取预设的候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合。
其中,所述第二选取条件可以根据实际情景进行设定。例如,所述第二选取条件可以为:概率值最大。即选取概率值最大的候选类别标签,得到所述待处理数据的类别标签预测集合。
在具体实施中,融合特征根据预设的逻辑运算参数,可以通过数值、向量或者矩阵来表示,与预设的候选类别标签集合无法一一对应。由此,向量生成模块可以通过预设的特征向量生成参数组成特征向量生成函数,将所述融合特征输入到特征向量生成函数中,可以得到融合特征向量,所述融合特征向量的维度与预设的候选类别标签集合中候选类别标签的总数一致。
采用上述方案,根据输出的候选类别标签,可以确定获得的标签标注预测序列的应用领域,并且确定获得的标签标注预测序列在相应应用领域中是否标注准确,从而确保序列标注结果的准确性。
在具体实施中,在根据所述待处理数据的融合特征,生成融合特征向量时,所述向量生成模块可以通过对融合特征进行维度变换处理,实现降维,并将降维后的融合特征向量进行归一化处理,可以将融合特征向量中各元素的数值转换为至指定区间,便于设置第二选取条件以及选取符合条件的候选类别标签。
具体而言,向量生成模块通过设置的特征向量生成参数组成的特征向量生成函数,将所述融合特征输入到向量生产函数中,通过所述向量生产函数对所述融合特征进行数据维度变换处理,可以得到q维融合特征向量,其中q为候选类别标签的总数。
作为一可选示例,向量生成模块通过对q维融合特征向量进行归一化处理,能够将q维特征变换向量中各元素的数值转换至指定区间内,得到归一化的融合特征向量。其中,向量生成模块可以采用Softmax、Sigmoid等计算函数进行归一化处理。
在具体实施中,若通过序列标注系统识别所述待处理语料中存在的属性信息,并在所述待处理语料的各划分单元处标注相应的候选属性标签时,所述处理参数还可以包括:属性识别参数。
在具体实施中,为了将待处理数据转换为计算机可以识别的信息,所述待处理数据获取模块还可以在提取所述待处理数据的语义特征之前,对所述待处理数据进行嵌入(Embedding)处理,将待处理数据的划分单元进行向量化。具体而言,可以将待处理语料中各划分单元和属性标签序列中各候选属性标签分别采用向量的方式表征,由此,待处理语料和属性标签序列均可以通过矩阵的方式表征。所述处理参数还可以包括:用于实现嵌入处理的嵌入处理参数。
采用上述方案,通过将各划分单元和各候选属性标签向量化,可以得到更高精确度的矩阵,矩阵形式的待处理语料和属性标签序列便于后续特征提取和逻辑运算,提高数据处理效率。
在具体实施中,通过嵌入处理后的得到的向量为静态向量,静态向量不具有多意性,故而待处理数据获取模块还可以对待处理数据进行编码处理,将静态向量转化为动态向量,由此可以根据语料的上下文信息进行变化,具有多意性,再将编码后的待处理数据进行语义特征提取。所述处理参数还可以包括:编码处理参数。
在具体实施中,根据获得的标签标注预测序列,可以选取所述待处理语料中符合要求的成分,所述成分由划分单元组成,因此,所述序列标注系统100还可以包括:
划分单元获取模块110,适于匹配所述标签标注预测序列中各候选预测标签与预设的第三选取条件,确定符合所述第三选取条件的候选预测标签在所述标签标注预测序列中的分布位置,从所述待处理语料中获取相应分布位置的划分单元。
在实际应用中,序列标注任务可以作为许多自然语言处理任务的基础,如情感分析、信息检索、分类推荐和信息过滤等。以下通过几个具体实施例进行详细说明。
在本说明书一实施例中,待处理数据包括的待处理语料可以为:
{小明帮助学校赢得比赛。}
根据预设的实体类型的候选预测标签集合和序列标注系统,可以得到以下标签标注预测序列:
{B-PER I-PER O O B-ORG I-ORG O O O};
其中,“B-PER”和“I-PER”分别为人物的起始位置标签和非起始位置标签;“O”为非实体位置标签;“B-ORG”和“I-ORG”分别为地点的起始位置标签和非起始位置标签。
从而划分单元获取模块可以根据预设的第三选取条件获取相应的划分单元。例如,预设的第三选取条件可以为:所述待处理语料中存在的人名。划分单元获取模块经过匹配后可以确定所述标签标注预测序列中的候选预测标签“B-PER”和“I-PER”符合所述第三选取条件,且候选预测标签“B-PER”和“I-PER”在所述标签标注预测序列中的分布位置为第1位和第2位,由此,划分单元获取模块可以从所述待处理语料中获取第1位和第2位划分单元“小”和“明”,得到待处理语料中的人名“小明”。
在本说明书另一实施例中,待处理数据包括的待处理语料可以为:
{《离开》是由张宇谱曲、演唱。};
根据预设的语法类型的候选预测标签集合和序列标注系统,可以得到以下标签标注预测序列:
{W-B NW-B NW-I W-B V-B P-B NR-B NR-I V-B V-I W-B V-B V-I W-B};
从而划分单元获取模块可以根据预设的第三选取条件获取相应的划分单元。例如,预设的第三选取条件可以为:所述待处理语料中存在的名词。划分单元获取模块经过匹配后可以确定所述标签标注预测序列中的候选预测标签“NW-B”和“NW-I”以及“NR-B”和“NR-I”符合所述第三选取条件,且候选预测标签“NW-B”和“NW-I”以及“NR-B”和“NR-I”在所述标签标注预测序列中的分布位置为第2位和第3位以及第7位和第8位,由此,划分单元获取模块可以从所述待处理语料中获取第2位和第3位以及第7位和第8位“离”和“开”以及“张”和“宇”,得到待处理语料中的名词“离开”和“张宇”。
在本说明书另一实施例中,待处理数据包括的待处理语料可以为:
{周杰伦的《告白气球》、《龙卷风》、《明明就》等等歌曲都是我的常伴良友。}。
根据预设的关系类型的候选预测标签集合和序列标注系统,可以得到以下标签标注预测序列:
{B-S I-S I-S O O B-O I-O I-O I-O O O O B-O I-O I-O O O O B-O I-O I-OO O O O O O O O O O O O O O};
其中,“B-S”和“I-S”分别为主语元素的起始位置标签和非起始位置标签;“O”为非关系元素位置标签;“B-O”和“I-O”分别为宾语元素的起始位置标签和非起始位置标签。
并且,根据预设的关系类型的候选预测标签集合和序列标注系统,还可以得到类别标签预测集合:{演唱},其中“演唱”表示演唱关系信息的分类标签。
从而划分单元获取模块可以根据预设的第三选取条件获取相应的划分单元。例如,预设的第三选取条件可以为:所述待处理语料中存在与演唱关系信息相关的关系元素。划分单元获取模块经过匹配后可以确定所述标签标注预测序列中的候选预测标签“B-S”和“I-S”以及“B-O”和“I-O”符合所述第三选取条件,且候选预测标签“B-S”和“I-S”以及“B-O”和“I-O”在所述标签标注预测序列中的分布位置为第1~3位、第6~9位、第13~15位和第19~21位,由此,划分单元获取模块可以从所述待处理语料中获取第1~3位、第6~9位、第13~15位和第19~21位相应的划分单元,得到待处理语料中与演唱关系信息相关的主语元素为“周杰伦”,宾语元素为:“告白气球”、“龙卷风”和“明明就”。
可选的,划分单元获取模块还可以根据标签标注预测序列中关系元素和候选类别标签集合,将主语元素、宾语元素和候选类别标签建立对应关系,经过数据解析处理后,得到关系三元组,如{"subject":"周杰伦","predicate":"演唱","object":"告白气球"}。
进一步可选的,可以设置一个等价替换关系标签集合,若待处理语料中存在的候选类别标签与等价替换关系标签集合中一个等价替换标签匹配,则在进行数据解析处理时,划分单元获取模块可以对等价替换标签相应的关系元素进行主宾替换处理,从而得到具有等价替换关系的一对关系三元组。
例如,等价替换关系标签集合中包括:表示同事关系信息的分类标签“同时”,待处理语料为:{小明和小红是同事。},通过序列标注系统可以得到所述待处理语料中存在同事关系信息,并且与同事关系信息相关的关系元素为“小明”和“小红”,在划分单元获取模块对关系元素进行数据解析处理时,可以通过等价替换关系标签集合对“小明”和“小红”进行主宾替换处理,从而得到具有等价替换关系的一对关系三元组,即{"subject":"小明","predicate":"同事","object":"小红"}和{"subject":"小红","predicate":"同事","object":"小明"}。
在具体实施中,如图1所示,所述序列标注系统100还包括:参数获取模块111,适于获取预设的处理参数,并根据所述处理参数配置序列标注系统的模块。
例如,所述处理参数可以包括:特征提取参数、逻辑运算参数和概率计算参数,参数获取模块根据所述处理参数可以配置语义提取模块、逻辑运算模块和概率计算模块。
在具体实施中,如图1所示,所述序列标注系统100还可以包括:参数训练模块112,适于通过预设的训练数据、所述训练数据的真实标签和预设的损失函数调整初始的处理参数,将调整完成的处理参数作预设的处理参数;所述损失函数基于所述训练数据的序列标注预测结果建立,所述训练数据可以包括:训练语料;所述训练数据的真实标签可以包括:实际用于标注所述训练语料的候选预测标签。
采用上述方案,通过训练调整处理参数,使处理参数的数值收敛至理想状态,提高序列标注预测结果的准确率。
在具体实施中,参数训练模块获取的训练数据会形成一个训练数据集合,可以将训练数据集合分成多批次输入序列标注模型中进行训练,序列标注模型按批次执行序列标注预测操作,且每一批次可以包含一段训练语料,即一个句子列表,列表的大小由实际情况决定。或者,也可以根据预设的句尾标点符号集合,将所述训练数据集合划分为句子级别的训练数据,并按照划分结果,将句子级别的训练数据分成多次输入序列标注模型中进行迭代训练,序列标注模型分别执行序列标注预测操作。
在具体实施中,所述训练数据还可以包括:所述训练语料的属性标签序列,所述训练语料的属性标签序列可以通过人工标注各划分单元的属性标签的方式获得,也可以通过所述上述序列标注系统获得,还可以通过预设的属性标注模型识别所述训练语料中存在的属性信息,并在所述训练语料的各划分单元处标注相应的候选属性标签。
其中,基于所述训练语料的语义结构,其属性信息可以包括:训练语料中各划分单元的位置信息、训练语料的语法信息和训练语料的分类信息中至少一种,所述语法信息可以包括:词性信息和标点符号信息中至少一种。相应地,通过训练语料获得的属性标签序列可以包括:位置标签序列、语法标签序列和分类标签序列中至少一种;所述语法标签序列可以包括:词性标签和标点符号标签中至少一种。
对于包括属性标签序列的训练数据的处理过程,可具体参阅上述待处理数据的相关部分的描述,在此不再赘述。
根据上述说明书实施例可知,序列标注系统的处理可以分为:第一分支为标注标签预测子处理,第二分支为类别标签预测子处理。所述训练数据的真实标签还可以包括:实际用于表示所述训练语料的分类信息的候选类别标签。而且,损失函数可以基于所述训练数据的标注标签预测结果和类别标签预测结果联合建立。由此,通过联合所述训练数据的两支预测结果,对初始的处理参数进行调整,可以使初始的处理参数快速收敛,提高调参效率。
在具体实施中,通过嵌入处理后的得到的向量为静态向量,静态向量不具有多意性,故而参数训练模块可以对训练数据进行编码处理,将静态向量转化为动态向量,由此可以根据语料的上下文信息进行变化,具有多意性。
为了确定训练数据是否进行了准确地编码处理并得到正确的编码后的训练数据,参数训练模块可以对编码后的训练数据进行解码处理,根据对编码后的训练数据进行预测,验证编码处理结果是否准确。由此,可以根据序列标签预测结果和编码处理结果联合建立损失函数。
以编码后的属性标签序列为例,为了区分编码处理前和解码处理后的属性标签序列,可以将进行编码处理前的属性标签序列视为属性标签真实序列,将进行解码处理预测得到的属性标签序列视为属性标签预测序列。通过匹配属性标签真实序列和属性标签预测序列,可以确定编码处理结果是否准确。
可以理解的是,上述实施例仅为示例说明,在应用中,可以根据实际情景选择相应的编码后的训练数据进行解码,例如,可以选择编码后的语法标签序列、位置标签序列、类别标签序列和训练语料等。
作为一可选示例,所述损失函数可以基于所述训练数据的标注标签预测结果、类别标签预测结果以及解码处理结果联合建立。由此,多维度地对初始的处理参数进行调整,可以使初始的处理参数快速收敛,提高调参效率。
可以理解的是,在实际应用中,根据序列标注系统包括的模块、子模块,参数获取模块获取的处理参数还可以包括:嵌入处理参数、编码处理参数、属性识别参数、用于迭代的特征提取参数和用于迭代的逻辑运算参数等,这些参数也可以通过预设的训练数据、所述训练数据的真实标签和预设的损失函数调整得到,本说明书实施例对于处理参数包括的具体参数类型不做限制。
可选的,所述参数获取模块可以在提取所述待处理数据的语义特征之前配置序列标注系统的模块,也可以在其他时机触发并对序列标注模型进行配置,例如,处理参数调整后,触发参数获取模块对序列标注系统的模块重新进行配置。
在具体实施中,在获取待处理数据后,可以通过预设的序列标注模型得到所述待处理数据的标签标注预测序列。
具体而言,参照图2所示另一种序列标注系统的结构示意图,在本说明书实施例中,序列标注模型20可以包括:
待处理数据获取模块21,适于获取待处理数据,所述待处理数据包括待处理语料;
序列标注预测模块22,适于采用预设的序列标注模型提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
采用上述序列标注方案,在获取待处理数据后,通过预设的序列标注模型,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对序列标注预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于更加准确地计算各候选预测标签标注序列的概率值,进而提高序列标注结果的准确率。
在具体实施中,如图2所示,所述序列标注预测模块22可以包括:模型构建子模块221,通过获取的预设的处理参数,模型构建子模块221可以构建序列标注模型,如图3所示,所述序列标注模型30可以包括输入层31、编码层32、特征提取层33、特征融合层34、解码层35和输出层36。其中,特征提取层33,适于提取所述待处理数据的语义特征。
作为一可选示例,特征提取层33可以采用卷积神经网络架构。所述特征提取参数包括:卷积神经网络参数,通过相关的特征提取参数,所述卷积神经网络可以为普通的卷积神经网络(Convolutional Neural Network,CNN)或其变种。
在本说明书一实施例中,通过设置特征提取参数中的膨胀率(Dilation Rate)参数,所述序列标注模型可以通过卷积神经网络的变种,即膨胀卷积神经网络(DilatedConvolution Neural Network,DCNN)来提取所述待处理数据的语义特征。
其中,所述特征提取层可以包括至少一个膨胀卷积神经网络,各卷积神经网络参数可以分别进行设置,且各膨胀卷积神经网络的维度可以为一维或多维,当各膨胀卷积神经网络的卷积核(Kernel)、窗口(Window)和膨胀率等参数数值相同时,各膨胀卷积神经网络的感受野相同。
例如,膨胀卷积神经网络的维度为一维,即膨胀卷积神经网络为一维膨胀卷积神经网络,当卷积核大小为3,膨胀率为2时,各膨胀卷积神经网络的感受野为7×1。
又例如,膨胀卷积神经网络的维度为二维,即膨胀卷积神经网络为二维膨胀卷积神经网络,当卷积核大小为3,膨胀率为4时,各膨胀卷积神经网络的感受野为15×15。
采用上述方案,通过膨胀卷积神经网络提取所述待处理数据的语义特征,可以在不增加参数数量和未对待处理数据进行无效字符剔除预处理的情况下,从待处理语料中提取更远距离的语义信息,从而使语义特征包含更加广泛的语义信息。
在具体实施中,如图3所示,特征融合层34分别与特征提取层33和编码层32建立连接,适于将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,并将融合特征传输至下一层,如解码层35。其中,特征融合层34可以采用任意一种能够实现逻辑运算的神经网络架构,例如,感知神经网络(Perception NeuralNetworks)架构,通过逻辑运算参数可以设置特征融合层的参数。
可以理解的是,在描述本说明实施例时,为了便于描述各神经网络之间的数据交互关系,可以将独立实现相应功能的神经网络视为序列标注模型中的一个子模型,例如,一个能够独立实现提取所述待处理数据的语义特征的功能的卷积神经网络,可以视为语义特征提取子模型;一个能够独立实现逻辑运算处理功能的神经网络,可以视为逻辑运算子模型。
在实际应用中,基于预设的各组特征提取参数,可以得到各语义特征提取子模型。各语义特征提取子模型分别提取所述待处理数据的语义特征,得到各组的基于待处理数据的语义特征,然后,逻辑运算子模型可以对各组的基于待处理数据的语义特征和所述待处理数据进行逻辑运算,得到融合特征。
采用上述方案,通过设置不同的特征提取参数,可以从待处理数据中提取出不同粒度的语义特征,使提取的语义特征具有多样性和广泛性,通过不同粒度的语义特征可以传递更多待处理数据中包含的语义信息,增强融合特征表征内容复杂或来源多变的待处理数据的能力,提高对不同待处理数据进行准确预测的泛化能力和通用性。
在具体实施中,基于预设的逻辑运算参数,所述逻辑运算子模型可以对各组的语义特征和所述待处理数据进行加权逻辑运算。
由此,通过加权逻辑运算,可以控制各种语义特征和待处理数据在逻辑运算中的重要程度,提高逻辑运算结果的准确性,增强融合特征表征待处理数据的精确度,提高序列标注预测结果的可靠性。
在具体实施中,为了能够快速可靠地获取权重系数,逻辑运算子模型可以将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并基于处理结果为其他组的语义特征和所述待处理数据分配权重系数,再基于分配的权重系数,将所述其他组的语义特征和所述待处理数据进行加权逻辑运算。其中,可以采用Sigmoid、Tanh、ReLU等激活函数对至少一组语义特征进行非线性映射处理。
在本说明书一实施例中,两个语义特征提取子模型分别输出提取的语义特征,逻辑运算子模型可以采用非线性的Sigmoid激励函数,通过预设的神经网络对一组语义特征进行非线性映射处理Sigmoid(E1),并和另一组语义特征E2以及所述待处理数据X进行加权逻辑运算,得到融合特征Y。
作为一可选示例,可以采用以下公式进行加权逻辑运算:
Figure BDA0002537830210000151
其中,σ=Sigmoid(E1),
Figure BDA0002537830210000152
为张量积运算符号。
可以理解的是,上述说明书实施例仅为示例说明,在实际应用中,可以根据实际情景,选择不同数量的语义特征提取子模型、非线性函数和逻辑运算公式,本说明实施例对此不做限制。
由此,通过语义特征获取权重系数,能够提高权重获取的效率,可以增加权重系数的可靠性。
在具体实施中,如图3所示,作为一可选示例,所述序列标注模型30还可以包括位于特征融合层34和解码层35之间的迭代层37,适于在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选预测标签标注序列的概率值。
其中,用于提取所述融合特征的语义特征的语义特征提取子模型与用于提取所述待处理数据的语义特征的语义特征提取子模型可以采用相同的神经网络架构,根据膨胀率可以为普通的卷积神经网络或膨胀卷积神经网络,用于提取所述融合特征的语义特征的语义特征提取子模型的参数可以与用于提取所述待处理数据的语义特征的语义特征提取子模型的参数相同,也可以不相同;同样地,用于迭代处理融合特征及其语义提取特征的逻辑运算子模型与用于处理所述待处理数据及其融合特征的逻辑运算子模型可以采用相同的神经网络架构。
可以理解的是,在描述本说明实施例时,为了便于区分用于提取所述融合特征的语义特征的语义特征提取子模型与用于提取所述待处理数据的语义特征的语义特征提取子模型,可以将用于提取所述待处理数据的语义特征的语义特征提取子模型称为第一语义特征提取子模型,将用于提取所述融合特征的语义特征的语义特征提取子模型称为第二语义特征提取子模型。同样地,可以将用于处理所述待处理数据及其融合特征的逻辑运算子模型称为第一逻辑运算子模型,将用于迭代处理融合特征及其语义提取特征的逻辑运算子模型称为第二逻辑运算子模型。
在实际应用时,根据预设的迭代次数阈值,所述迭代层可以预设有一个或多个子层,多个子层之间可以串联形成多次迭代关系,第一个子层接收输入的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到一次迭代后的融合特征;第二个子层接收一次迭代后的融合特征并提取所述一次迭代后的融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到二次迭代后的融合特征,以此类推,经过多个子层的之后可以得到多次迭代后的融合特征。
采用上述方案,通过对融合特征进行语义提取和逻辑运算,可以使迭代后的融合特征更加突显关键语义信息,从而增强融合特征的表征能力,提高序列标注结果的准确率。
在具体实施中,可以预设的多组用于提取融合特征的特征提取参数,基于各组特征提取参数,分别提取所述融合特征的语义特征,得到各组的基于融合特征的语义特征,然后,对各组的基于融合特征的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征。
例如,在本说明书一实施例中,参照图4所示,所述迭代层40可以包括两个子层,即第一子层41和第二子层42,第一子层41可以包括:第二语义特征提取子模型411和412,以及第二逻辑运算子模型413,所述第二语义特征提取子模型411和412的输入与第二逻辑运算子模型413的输入相连接,且所述第二语义特征提取子模型411和412的输出还与第二逻辑运算子模型413的输入相连接;第二子层42可以包括:第二语义特征提取子模型421和422,以及第二逻辑运算子模型423,所述第二语义特征提取子模型421和422的输入与第二逻辑运算子模型423的输入相连接,且所述第二语义特征提取子模型421和422的输出还与第二逻辑运算子模型423的输入相连接。
将融合特征X400作为第一子层41的输入特征,分别输入第二语义特征提取子模型411、第二语义特征提取子模型412以及第二逻辑运算子模型413,通过第二语义特征提取子模型411和第二语义特征提取子模型412得到第一子层41的语义特征X411和X412,将第一子层的语义特征X411和X412以及融合特征X400通过第二逻辑运算子模型413进行逻辑运算,得到第一子层41的融合特征,即一次迭代后的融合特征X413
将一次迭代后的融合特征矩阵X413作为第二子层42的输入特征,分别输入第二语义特征提取子模型421、第二语义特征提取子模型422以及第二逻辑运算子模型423,通过第二语义特征提取子模型421和第二语义特征提取子模型422得到第二子层42的语义特征X421和X422,将第二子层42的语义特征X421和X422以及一次迭代后的融合特征矩阵X413通过第二逻辑运算子模型423进行逻辑运算,得到第二子层42的融合特征,即二次迭代后的融合特征X423
可以理解的是,上述实施例仅为示例说明,迭代层可以根据实际情况设置子层数量和各子层中包括的语义特征提取子模型和逻辑运算子模型的数量,本说明书实施例对此不作限制。
在具体实施中,各第二语义特征提取子模型的参数可以分别进行设置,且同一子层的各第二语义特征提取子模型的参数可以相同,也可以不相同。
例如,迭代层可以包括三个子层。其中,第一子层的膨胀率可以为2,第二子层的膨胀率可以为4,第三子层的膨胀率可以为1。
在具体实施中,继续参考图3,所述序列标注模型30的输入层31适于在提取所述待处理数据的语义特征之前,将待处理数据进行划分处理,得到相应的待处理数据序列。待处理数据序列可以包括一个或多个划分单元,所述划分单元为待处理数据按照预设要求可以划分的最小单元。
作为一可选示例,由于待处理数据的划分单元表现形式多样,为了提高语义特征的提取效率,在通过所述序列标注模型中的语义提取层提取所述待处理数据的语义特征之前,可以对所述待处理数据进行嵌入处理,将待处理数据的划分单元进行向量化。具体而言,可以将待处理语料中各划分单元和属性标签序列中各候选属性标签分别采用向量的方式表征,由此,待处理语料和属性标签序列均可以通过矩阵的方式表征。
例如,可以采用字典映射的方法进行嵌入处理。通过预设的映射字典,获取待处理数据中划分单元在所述映射字典中的索引值,得到字典映射处理后的待处理数据。由于字典映射处理后的待处理数据包括各划分单元的索引值,故而字典映射处理后的待处理数据可以通过向量的方式表征。
在具体实施中,继续参考图3,所述序列标注模型30的编码层32适于对所述待处理数据中的划分单元进行编码处理,得到编码后的待处理数据。其中,基于预设的编码处理参数,可以结合待处理数据的上下文信息,对各划分单元进行编码,得到各划分单元的编码特征向量,编码特征向量的维度通过预设的编码处理参数决定,编码后的待处理数据由各划分单元的编码特征向量组成,因此,编码处理后的待处理数据可以通过矩阵的方式表征。
作为一可选示例,所述编码层32可以采用以下任意一种编码处理方式,对所述待处理数据进行编码:
1)采用时间序列神经网络子模型;
2)采用预设的映射矩阵。
其中,所述时间序列的神经网络子模型可以包括:具有自注意力机制(self-attention)的转换器(Transformer)网络模型、双向长短时记忆(Bi-directional LongShort-Term Memory,简称BiLstm)网络模型、GRU(Gated Recurrent Unit)网络模型等。所述映射矩阵中的行向量总数或列向量总数不小于所述待处理数据中的划分单元的总数。
在具体实施中,当所述编码层包括时间序列神经网络子模型时,可以在对所述待处理数据进行编码之前,对其中的时间序列神经网络子模型进行预训练,使得预训练的时间序列神经网络子模型能够深度捕获待处理数据中的上下文信息。以下通过下述两种方法示例说明:
方法一、采用语言模型(Language Model,LM)训练方法进行预训练。
具体地,从预训练语料集合中获取随机的预训练语料,并输入初始的时间序列神经网络子模型,所述时间序列神经网络子模型在给定上文信息的条件下预测所述预训练语料的下一个分词单元,当预测准确的概率达到预设的预训练阈值时,确定已预训练好,得到预训练的时间序列神经网络子模型。否则,在调整所述通过所述时间序列神经网络子模型的参数后,通过预训练语料继续进行预训练,直至预测准确的概率达到预设的预训练阈值。
方法二、屏蔽语言模型(Mask Language Model,MLM)训练方法进行预训练。
从预训练语料集合中获取随机掩盖预设比例部分的预训练语料,并输入所述时间序列神经网络子模型,所述时间序列神经网络子模型在给定上下文信息的条件下预测被掩盖的预设比例部分,当预测准确的概率达到预设的预训练阈值时,确定已预训练好,得到预训练的时间序列神经网络子模型。否则,在调整所述通过所述时间序列神经网络子模型的参数后,通过预训练语料继续进行预训练,直至预测准确的概率达到预设的预训练阈值。
可以理解的是,上述预训练方法仅为示例说明,在实际应用中,可以根据使用场景选择上述方法或者其他预训练方法,本说明书实施例对此不做限制。
在本说明书一实施例中,预训练的时间序列神经网络子模型可以为预训练的BERT(Bidirectional Encoder Representations from Transformers,代表Transformers的双向编码器)子模型,在待处理数据输入序列标注模型之前,可以根据BERT子模型的输入规则,对待处理数据做预处理,具体可以为:在待处理数据的起始位置之前添加首位标签CLS,在待处理数据的结束位置之前添加末尾标签SEP。
采用上述方案,首位标签CLS在经过编码、特征提取、特征融合后,具有了整个待处理数据的语义信息,有利于序列标注模型获取丰富的语义信息。
作为一可选示例,当待处理数据分成多批次输入序列标注模型中进行处理时,可以为所述序列标注模型预设一长度阈值,若一批次的待处理数据的长度不满足长度阈值时,可以对待处理数据进行填充(Padding)处理。
由此,通过预训练时间序列神经网络子模型对所述待处理数据进行编码,可以提高编码效率和编码结果准确性。
在具体实施中,如图3所示,所述序列标注模型30的解码层35适于根据所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,并根据各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
其中,所述解码层35可以采用条件随机场(Conditional Random Field,CRF)网络结构,根据预设的候选预测标签集合,排列组合后可以得到多个候选预测标签标注序列,根据所述融合特征,预测候选预测标签标注序列中各候选预测标签用于标注所述待处理语料中相应划分单元的概率,从而得到各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
在所述解码层35包括条件随机场子模型时,可以预设有一个状态转换矩阵[A]a,b和发射矩阵
Figure BDA0002537830210000181
[A]a,b表示两个时间步长从第a个状态到第b个状态的状态转换转移概率,
Figure BDA0002537830210000182
表示矩阵
Figure BDA0002537830210000183
输入后第t个位置输出为候选预测标签[v]t的观测概率,其中θ包含了整个序列标注模型的参数。当条件随机场分数score1
Figure BDA0002537830210000184
最高时,得到标签标注预测序列。而且,条件随机场子模型可以采用维特比(Viterbi)方法计算得出
Figure BDA0002537830210000191
的最佳路径,从而可以获取最佳路径对应的候选预测标签标注序列。
在具体实施中,为了提高序列标注模型处理效率,可以对序列标注模型中的特征进行降维处理。例如,可以对融合特征进行降维处理。
在具体实施中,待处理数据包含越丰富的序列信息,越可以精确地提取语义特征。因此,在进行待处理数据的语义特征提取之前,基于所述待处理语料的语义结构,可以识别所述待处理语料的属性信息,从预设的候选属性标签集合中选取相应的候选属性标签,得到属性标签序列,由此,所述待处理数据还可以包括:属性标签序列,所述属性标签序列的划分单元可以为属性标签。
其中,所述属性标签序列可以通过序列标注模型或者预设的属性标注模型得到,属性标签序列获取方法可参考上述序列标注系统中相关的实施例,在此不再赘述。
采用上述方案,根据处理语料中存在的属性信息,可以获得相应的属性标签序列,并且由于待处理语料和属性标签序列的共现特性,增加属性标签序列不会破坏待处理语料的语义信息,且可以丰富待处理数据中包含的序列信息。
在具体实施中,如图5所示,作为一可选示例,所述序列标注模型30还可以包括:位于编码层32和特征提取层33之间的组合层38,与图3的区别在于:所述编码层32不与所述特征融合层34建立连接,而所述组合层38与所述特征融合层34建立连接。所述组合层38适于在获取属性序列标签后,可以将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征和进行逻辑运算。
采用上述方案,将待处理语料和属性标签序列进行组合后可以提取属性维度的语义信息,也使得后续处理的特征中包含属性维度的语义信息,拓展语义特征和融合特征中语义信息的维度,结合多维度的语义信息,可以更加准确地计算各候选预测标签标注序列的概率值。
在具体实施中,由于编码后的待处理语料和编码后的属性标签序列可以用矩阵方式表征,故而可以采用行向量或列向量的拼接方法,将按照行向量或列向量进行组合处理,得到组合后的待处理数据,组合后的待处理数据也可以用矩阵方式表征。
例如,可以采用Concat函数,将编码后的待处理语料中n个m1维行向量分别和编码后的属性标签序列中相应分布位置的n个m2维行向量进行组合处理,得到n个(m1+m2)维的行向量,由此得到组合后的待处理数据。其中,n、m1和m2为自然数,且m1和m2可以相等,也可以不相等。
或者,还可以采用矩阵运算的拼接方法,将编码后的待处理语料和编码后的属性标签序列进行矩阵运算处理,由此得到组合后的待处理数据。
例如,可以将编码后的待处理语料中n个m维行向量分别和编码后的属性标签序列中相应的n个m维行向量进行相加运算处理,得到n个m维的行向量,其中,n和m为自然数。
在具体实施中,本说明书的序列标注系统可以应用于各种领域,为了确定获得的标签标注预测序列在相应应用领域中是否标注准确,可以根据所述待处理数据的融合特征,生成融合特征向量,并确定所述融合特征向量中符合预设的第二选取条件的元素所处的分布位置,获取所述候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合。
其中,可以采用Reshape函数、Resize函数、Swapaxes函数、Flatten函数unsqueeze函数、expand函数等现有的数据维度变换方法;或者,也可以自定义数据维度变换方法,将所述融合特征按预设的数据维度变换规则,转换为融合特征向量。
作为一可选示例,得到融合特征向量后,可以对融合特征向量进行归一化处理,获取归一化的融合特征向量中满足第二选取条件的元素对应的候选关系标签,得到类别标签预测集合。例如,可以采用Softmax函数对融合特征向量进行归一化处理,将融合特征向量中各元素的数值归一化至指定数值区间内,如数值区间可以为[0,1]。
采用上述方案,根据输出的候选类别标签,可以确定获得的标签标注预测序列的应用领域,并且确定获得的标签标注预测序列在相应应用领域中是否标注准确,从而确保序列标注结果的准确性。
作为一可选示例,可以对融合特征向量进行降维处理,使所述融合特征向量的维度与预设的候选类别标签集合中候选类别标签的总数一致。例如,可以采用多层感知(Multi LayerPerceptron,MLP)神经网络架构,对融合特征向量进行降维处理。
为使本领域技术人员更好地理解和实现上述方案,以下结合附图及具体实施例进行阐述。
在本说明书一实施例中,如图6所示,为本说明另一种序列标注模型的结构示意图。所述序列标注模型60包括:
(1)输入层61,适于对接收的数据进行预处理,具体可以包括:将待处理语料S进行划分处理,得到划分单元组成的待处理语料序列{s1,s2…sm},并根据预设的映射字典进行映射,分别获取待处理语料序列中各划分单元在映射字典中的索引值,将待处理语料序列中的划分单元转换为对应的数值,得到字典映射处理后的待处理语料,即待处理语料向量SID={sid1,sid2…sidm},其中,s1,s2…sm为待处理语料序列S中的划分单元,m为待处理语料S中的各划分单元之和。
(2)编码层62,适于对接收的数据进行属性识别和编码,具体可以包括:
(2.1)在第一区域621中,将待处理语料向量SID输入到预设的第一时间序列神经网络子模型进行编码处理,得到待处理语料S中各划分单元相应的第一编码特征向量,并组成语料特征矩阵
Figure BDA0002537830210000201
其中,
Figure BDA0002537830210000202
中各第一编码特征向量ES1,ES2…ESm均可以为k维的稠密向量,k的值由所述时间序列神经网络子模型的参数决定。
(2.2)在第二区域622中,通过待处理语料向量SID,使第一属性标注子模型识别所述待处理语料S的语法信息,并在待处理语料S的各划分单元处标注相应的语法标签,得到语法标签序列,对所述语法标签序列进行字典映射处理,得到语法标签序列向量PID={pid1,pid2…pidm}。
(2.3)在第二区域622中,将语法标签序列向量PID输入到预设的第二时间序列神经网络子模型进行编码处理,得到语法标签序列中各划分单元相应的第二编码特征向量,并组成语法标签特征矩阵
Figure BDA0002537830210000211
其中,
Figure BDA0002537830210000212
中各第二编码特征向量EP1,EP2…EPm均可以为j维的稠密向量,j的值由第二时间序列神经网络子模型的参数决定。
(2.4)在第三区域623中,通过待处理语料向量SID,使第二属性标注子模型识别所述待处理语料S的位置信息,并在待处理语料S的各划分单元处标注相应的位置标签,得到位置标签序列,对所述位置标签序列进行字典映射处理,得到位置标签序列向量QID={qid1,qid2…qidm}。
(2.5)在第三区域623中,将位置标签序列向量QID输入到预设的第一映射矩阵进行编码处理,得到语法标签序列中各划分单元相应的第三编码特征向量,并组成位置标签特征矩阵
Figure BDA0002537830210000213
其中,
Figure BDA0002537830210000214
中各第三编码特征向量EP1,EP2…EPm均可以为h维的稠密向量,h的值由第一映射矩阵的参数决定。
(2.6)在第四区域624中,通过待处理语料向量SID,使第三属性标注子模型识别所述待处理语料S的分类信息,并在待处理语料S的各划分单元处标注相应的分类标签,得到分类标签序列,对所述分类标签序列进行字典映射处理,得到分类标签序列向量RID={rid1,rid2…ridm}。
(2.7)在第四区域624中,将分类标签序列向量RID输入到预设的第二映射矩阵进行编码处理,得到分类标签序列中各划分单元相应的第四编码特征向量,并组成分类标签特征矩阵
Figure BDA0002537830210000215
其中,
Figure BDA0002537830210000216
中各第四编码特征向量ER1,ER2…ERm均可以为g维的稠密向量,g的值由第二映射矩阵的参数决定。
(3)组合层63,适于对接收的数据进行组合处理,具体可以包括:对语料特征矩阵
Figure BDA0002537830210000217
语法标签特征矩阵
Figure BDA0002537830210000218
位置标签特征矩阵
Figure BDA0002537830210000219
和分类标签特征矩阵
Figure BDA00025378302100002110
进行组合处理,得到组合特征矩阵
Figure BDA00025378302100002111
其中,组合特征矩阵
Figure BDA00025378302100002112
的各组合特征向量可以由语料特征矩阵
Figure BDA00025378302100002113
语法标签特征矩阵
Figure BDA00025378302100002114
位置标签特征矩阵
Figure BDA00025378302100002115
和分类标签特征矩阵
Figure BDA00025378302100002116
中相应分布位置的特征编码向量拼接而成,例如,Ei={ESi,EPi,EQi,ERi},i为自然数,且i∈[1,m],且
Figure BDA00025378302100002120
中各组合向量E1,E2…Em均可以为h+j+k+g维的稠密向量。
(4)第一全连接层64,适于对接收的数据进行降维处理,具体可以包括:采用第一多层感知机子模型641,可以对组合特征矩阵
Figure BDA00025378302100002117
中各组合特征向量E1,E2…Em进行降维处理,从而得到降维处理后的组合特征矩阵
Figure BDA00025378302100002118
其中,降维处理后的组合特征向量E1′,E2′…Em′的维度可以为p=(h+j+k+g)/2d,d为自然数,且2d为(h+j+k+g)的约数。
(5)特征提取层65,适于对接收的数据进行语义特征提取,具体可以包括:通过两个膨胀卷积子模型651和652,可以分别对降维处理后的组合特征矩阵
Figure BDA00025378302100002119
进行语义特征提取处理,得到两个语义特征矩阵
Figure BDA0002537830210000221
Figure BDA0002537830210000222
其中,
Figure BDA0002537830210000223
中各语义特征向量均可以为p维的稠密向量,
Figure BDA0002537830210000224
中各语义特征向量均为p维的稠密向量。
(6)特征融合层66,适于对接收的数据进行逻辑运算处理,具体可以包括:将语义特征矩阵
Figure BDA0002537830210000225
Figure BDA0002537830210000226
以及降维处理后的组合特征矩阵
Figure BDA0002537830210000227
进行逻辑运算处理,得到融合特征矩阵
Figure BDA0002537830210000228
其中,
Figure BDA0002537830210000229
Figure BDA00025378302100002210
中各融合特征向量D1,D2…Dm均可以为p维的稠密向量。
(7)迭代层67,适于对接收的数据进行迭代处理,具体可以包括:通过四个子层,对融合特征矩阵
Figure BDA00025378302100002211
进行四次迭代,得到四次迭代后的融合特征矩阵
Figure BDA00025378302100002212
其中,迭代后的融合特征矩阵中的各迭代后的融合特征向量的维度可以为p维,各第一子层的膨胀率可以为2,第二子层的膨胀率可以为4,第三子层的膨胀率可以为8,第四子层膨胀率可以为1。
(8)解码层68,对接收的数据进行概率预测,得到标签标注预测序列和类别标签预测集合,具体可以包括:
(8.1)采用条件随机场子模型681,根据所述融合特征,预测候选预测标签标注序列中各候选预测标签用于标注所述待处理语料中相应划分单元的概率,从而得到各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列Y1
(8.2)对四次迭代后的融合特征矩阵
Figure BDA00025378302100002213
中各元素按预设排序进行位置转换处理,得到融合特征向量f={a1,a2…am×p},其中,融合特征向量f可以为(m×p)维的稠密向量,a1,a2…am×p为融合特征向量f中的元素。
(8.3)采用第二多层感知机子模型682,可以对融合特征向量f进行降维处理,从而得到降维后的融合特征向量f′={a1′,a2′…aq′},其中,降维后的融合特征向量f′的维度为q,q为预设的候选类别标签集合中候选类别标签的总数,a1′,a2′…aq′为降维后的融合特征向量f′中的元素。
(8.4)对降维后的融合特征向量f′进行归一化处理,确定归一化的融合特征向量f″中符合预设的第二选取条件的元素所处的分布位置,获取候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合Y2
(9)通过输出层69输出所述待处理数据的候选预测标签标注序列Y1和类别标签预测集合Y2
在本说明书一实施例中,如图7所示,为本说明另一中序列标注模型的示意图。所述序列标注模型70与图6中的序列标注模型60区别在于:输入层71和编码层72。
具体而言,在获取待处理语料S后,通过预设的属性标注模型获得语法标签序列PO、位置标签序列QO和分类标签序列RO,然后,待处理语料S、语法标签序列PO、位置标签序列QO和分类标签序列RO作为待处理数据输入序列标注模型70。输入层71将待处理语料S进行划分处理,得到划分单元组成的待处理语料序列{s1,s2…sm},并根据预设的映射字典进行映射,分别获取待处理语料序列、语法标签序列、位置标签序列和分类标签序列中各划分单元在映射字典中的索引值,将各划分单元转换为对应的数值,得到字典映射处理后的待处理语料、语法标签序列、位置标签序列和分类标签序列,即待处理语料向量SID={sid1,sid2…sidm}、语法标签序列向量PID={pid1,pid2…pidm}、位置标签序列向量QID={qid1,qid2…qidm}和分类标签序列向量RID={rid1,rid2…ridm},其中,s1,s2…sm为待处理语料序列S中的划分单元,m为待处理语料S中的各划分单元之和。
编码层72由于无需进行属性信息的识别和标注,因此,可以对接收的数据直接进行编码。
在第一区域721中,将待处理语料向量SID输入到预设的第一时间序列神经网络子模型进行编码,得到待处理语料S中各划分单元相应的第一编码特征向量,并组成语料特征矩阵
Figure BDA0002537830210000231
其中,
Figure BDA0002537830210000232
Figure BDA0002537830210000233
中各第一编码特征向量ES1,ES2…ESm均可以为k维的稠密向量,k的值由所述时间序列神经网络子模型的参数决定。
在第二区域722中,将语法标签序列向量PID输入到预设的第二时间序列神经网络子模型进行编码处理,得到语法标签序列中各划分单元相应的第二编码特征向量,并组成语法标签特征矩阵
Figure BDA0002537830210000234
其中,
Figure BDA0002537830210000235
Figure BDA0002537830210000236
中各第二编码特征向量EP1,EP2…EPm均可以为j维的稠密向量,j的值由第二时间序列神经网络子模型的参数决定。
在第三区域723中,将位置标签序列向量QID输入到预设的第一映射矩阵进行编码处理,得到语法标签序列中各划分单元相应的第三编码特征向量,并组成位置标签特征矩阵
Figure BDA0002537830210000237
其中,
Figure BDA0002537830210000238
Figure BDA0002537830210000239
中各第三编码特征向量EP1,EP2…EPm均可以为h维的稠密向量,h的值由第一映射矩阵的参数决定。
在第四区域724中,将分类标签序列向量RID输入到预设的第二映射矩阵进行编码处理,得到分类标签序列中各划分单元相应的第四编码特征向量,并组成分类标签特征矩阵
Figure BDA00025378302100002310
其中,
Figure BDA00025378302100002311
Figure BDA00025378302100002312
中各第四编码特征向量ER1,ER2…ERm均可以为g维的稠密向量,g的值由第二映射矩阵的参数决定。
所述序列标注模型70的其余部分可参阅上述对于图6的序列标注模型60的相关描述,在此不再赘述。
在具体实施中,为了提高序列标注预测结果的准确率,可以对初始的序列标注模型进行训练,通过预设的训练数据、所述训练数据的真实标签和预设的损失函数可以调整序列标注模型的模型参数,使序列标注模型收敛至理想状态,完成模型训练,将完成训练的序列标注模型作为预设的序列标注模型,从而实施序列标注系统。为使本领域技术人员更加清楚地了解及实施本说明书实施例,下面将结合本说明书实施例中的附图进行描述。
参照图8所示的一种序列标注模型的训练系统的结构示意图,在本说明书实施例中,所述序列标注模型的训练系统80可以包括:
训练数据获取模块81,适于获取训练数据和所述训练数据的标签标注真实序列,所述训练数据包括训练语料;
模型训练模块82,适于将所述训练数据和所述标签标注真实序列输入初始的序列标注模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征,以及基于所述融合特征,计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列;
误差计算模块83,适于将所述标签标注真实序列和所述标签标注预测序列进行误差计算,得到结果误差值;
匹配模块84,适于根据所述结果误差值,确定所述序列标注模型是否符合训练完成条件;
模型参数调整模块85,适于在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
在具体实施中,所述训练语料可以包含但不仅限于中文和中文标点符号,并且可以根据序列标注模型实际预测的语言种类,选取相应语言种类的训练语料。
其中,可以获取不同领域的训练数据,使得训练数据的来源更加广泛,也可以获取经过校对的训练数据,使得训练数据的格式较为统一、规范。并且所述训练数据可以是人工整理的数据,也可以是从公共网络上获取的数据。
在具体实施中,在经过序列标注模型预测后,可以获得所述训练语料的标签标注预测序列,误差计算模块通过预设的损失函数可以计算得到所述标签标注预测序列和所述标签标注真实序列之间的结果误差值。
可选的,通过预设一结果误差阈值和误差符合次数阈值,能够确定所述序列标注模型的参数是否进行调整。
具体而言,当结果误差值大于结果误差阈值时,匹配模块确定所述序列标注模型不符合第一预设条件,模型参数调整模块可以对所述序列标注模型的参数进行调整。当结果误差值小于结果误差阈值时,误差符合次数加一,匹配模块确定确定误差符合次数是否大于或等于误差符合次数阈值,若是,则匹配模块确定所述序列标注模型符合第一预设条件,所述序列标注模型完成训练,否则,匹配模块确定所述序列标注模型不符合第一预设条件,模型参数调整模块可以对所述序列标注模型的参数进行调整。
其中,模型参数调整模块可以采用梯度下降方法和反向传播方法中一种对所述序列标注模型的参数进行调整。
在具体实施中,为了验证调整后的序列标注模型是否完成训练,模型训练模块可以将训练数据和训练数据的标签标注真实序列再次输入调整后的序列标注模型,调整后的序列标注模型再次执行上述序列标注预测操作,直至序列标注模型符合完成训练的条件。
由上述方案可知,通过将提取得到的所述训练数据的语义特征和所述训练数据进行逻辑运算,可以融合训练数据中的原始语义信息和语义特征中经过提取的语义信息,保留融合特征中语义信息的多样性,使序列标注模型可以从融合特征中获得更丰富的特征信息,增强序列标注模型的泛化能力和通用性,提高序列标注预测结果的准确率。
在具体实施中,所述训练数据还可以包括:所述训练语料的属性标签序列。所述训练语料的属性标签序列可以通过人工标注各划分单元的属性标签的方式获得,也可以通过所述序列标注模型或预设的属性标注模型识别所述训练语料中存在的属性信息,并在所述训练语料的各划分单元处标注相应的属性标签获得。
其中,基于所述训练语料的语义结构,其属性信息可以包括:训练语料中各划分单元的位置信息、训练语料的语法信息和训练语料的分类信息中至少一种,所述语法信息可以包括:词性信息和标点符号信息中至少一种。相应地,通过训练语料获得的属性标签序列可以包括:位置标签序列、语法标签序列和分类标签序列中至少一种;所述语法标签序列可以包括:词性标签和标点符号标签中至少一种。具体可参阅序列标注系统相关部分的描述,在此不再赘述。
在实际应用中,可以根据具体需求获取存在至少一种预设信息的训练语料,并且,可以根据具体需求预设至少一种类型的候选预测标签集合,从而根据实际情况采用上述任一训练系统训练序列标注模型,由此完成训练的序列标注模型可以应用于相应类型的识别领域,从而能够扩展序列标注模型的应用范围,例如,通过获取存在语法信息的训练语料以及设置一语法类型的候选预测标签集合,能够使完成训练的序列标注模型应用于语法识别领域,由此可以不用额外设置语法识别的模型,在得到语法类型的标签标注预测序列后,可以作为待处理数据的语法标签序列。
在具体实施中,在获得所述训练数据的标签标注预测序列后,误差计算模块可以通过预设的损失函数计算标签标注预测序列和标签标注真实序列之间的误差。且所述损失函数可以根据序列标注模型的全局或局部预测结果建立。
例如,可以基于所述标签标注预测结果建立以下损失函数loss1,误差计算模块,将第一损失函数loss1计算得到的数值作为标签标注预测序列和标签标注真实序列之间的结果误差值:
Figure BDA0002537830210000251
其中,
Figure BDA0002537830210000252
表示包含有T个融合特征向量的融合特征矩阵,
Figure BDA0002537830210000253
表示包含有T个候选预测标签的标签标注预测序列。score1为序列标注模型中的条件随机场子模型的分数函数。
可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制。在实际应用中,所述训练数据包含不同的信息,可以建立不同的损失函数。本说明书实施例对此不做限制。
根据上述说明书实施例可知,序列标注模型的处理可以分为:第一分支为标注标签预测子处理,第二分支为类别标签预测子处理。所述训练数据的真实标签还可以包括:实际用于表示所述训练语料的分类信息的候选类别标签。由此,误差计算模块还可以通过计算所述标签标注真实序列和所述标签标注预测序列之间的误差以及计算所述真实类别标签向量和所述类别标签预测集合之间的误差,得到总的结果误差值,以确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
其中,根据训练语料中实际存在的分类信息,以及真实类别标签在预设的候选类别标签集合中的分布位置,可以生成真实类别标签向量。例如,候选类别标签集合可以为{出生地朋友出生日期演唱国籍居住地民族},分类信息对应的真实类别标签可以为{出生地,出生日期,国籍,民族},则真实类别标签向量可以为{1 0 1 0 1 0 1}。
其中,“1”可以表示相应位置的候选类别标签有效,即相应位置的候选类别标签为真实类别标签,“0”可以表示相应位置的候选类别标签无效,即相应位置的候选类别标签不为真实类别标签。可以理解的是,在具体实施时,也可以采用其他数值来表示有效位和无效位,本说明书实施例对此不作限制。
在本说明书一实施例中,所述序列标注模型的训练系统可以执行以下操作:
1)获取训练数据、所述训练数据的标签标注真实序列和所述训练数据的真实类别标签向量,所述训练数据包括训练语料。
2)将所述训练数据、所述训练数据的标签标注真实序列和所述训练数据的真实类别标签向量输入初始的序列标注模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征。
3)基于所述融合特征,所述序列标注模型计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
4)基于所述待处理数据的融合特征,生成融合特征向量,并对所述融合特征向量进行归一化处理,得到归一化的融合特征向量。
5)计算所述标签标注真实序列和所述标签标注预测序列之间的第一误差,以及计算所述真实类别标签向量和所述归一化的融合特征向量之间的第二误差,并将所述第一误差和第二误差进行计算得到结果误差值。
6)基于所述结果误差值,确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
7)将所述训练数据、所述训练数据的标签标注真实序列和所述训练数据的真实类别标签向量输入调整后的序列标注模型,直至所述序列标注模型符合训练完成条件。
在具体实施中,可以基于序列标注模型输出的预测结果联合建立损失函数,并基于预设的联合建立的损失函数,采用梯度下降方法或反向传播方法对所述序列标注模型的参数进行调整。
在本说明书一实施例中,融合特征向量进行降维处理后,其维度与候选类别标签集合的总数相同,且进行归一化处理后,可以将融合特征向量中各元素的数值归一化至指定数值区间内,由此,可以将真实类别标签向量的有效位设置成该数值区间的最大值,将真实类别标签向量的无效位设置成该数值区间的最小值。
基于所述标签标注预测序列建立的第一损失子函数losslabel和基于所述类别标签预测集合建立的第二损失子函数lossclassify,联合建立第二损失函数loss2,第二损失函数loss2具体可以包括:
loss2=λ1losslabel2lossclassify
其中,
Figure BDA0002537830210000271
Figure BDA0002537830210000272
表示归一化的融合特征向量
Figure BDA0002537830210000273
中第i个元素的数值,W为归一化的融合特征向量中各元素的总数,
Figure BDA0002537830210000274
表示归一化的融合特征向量
Figure BDA0002537830210000275
中W个元素的数值之和,qi表示真实类别标签向量中第i个元素的数值;λ1和λ2为正数。
在具体实施中,为了确定训练数据是否进行了准确地编码处理并得到正确的向量化的属性标签序列,序列标注模型可以对向量化的训练数据进行解码处理,根据对向量化的训练数据进行预测,验证编码处理结果是否准确。由此,可以根据序列标签预测结果和编码处理结果联合建立损失函数。
在本说明书又一实施例中,所述序列标注模型的训练系统可以执行以下操作:
1)获取训练数据和所述训练数据的标签标注真实序列,所述训练数据包括训练语料和属性标签序列。
2)将所述训练数据和所述标签标注真实序列输入初始的序列标注模型,以对所述训练数据进行编码处理,提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征。
3)基于所述融合特征,所述序列标注模型计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
4)基于编码后的属性标签序列,所述序列标注模型计算各候选属性标签标注序列的概率值,获取概率值符合预设的第四选取条件的候选属性标签标注序列,得到所述训练数据的属性标签预测序列。
5)计算所述标签标注真实序列和所述标签标注预测序列之间的第一误差,以及计算所述属性标签序列和所述属性标签预测序列之间的第三误差,并将所述第一误差和第三误差进行计算得到结果误差值。
6)基于所述结果误差值,确定所述序列标注模型是否符合训练完成条件,并在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
7)将所述训练数据和所述训练数据的标签标注真实序列输入调整后的序列标注模型,直至所述序列标注模型符合训练完成条件。
在具体实施中,可以基于序列标注模型输出的预测结果以及解码处理结果联合建立损失函数,并基于预设的联合建立的损失函数,采用梯度下降方法或反向传播方法对所述序列标注模型的参数进行调整。
在本说明书一实施例中,序列标注模型可以采用条件随机场网络对编码后的属性标签序列进行解码处理,得到属性标签预测序列。为了与获取标签标注预测序列的条件随机场网络进行区分,可以将上述获取标签标注预测序列的条件随机场子模型称为第一条件随机场子模型,将获取属性标签预测序列的条件随机场子模型称为第二条件随机场子模型,根据第二条件随机场子模型的输出结果,可以确定所述属性标签序列的编码结果是否准确。
基于所述标签标注预测序列建立的第一损失子函数losslabel,以及基于所述属性标签预测序列建立的第三损失子函数losspostag,联合建立第三损失函数loss3,第二损失函数loss3具体可以包括:
loss3=λ1losslabel3losspostag
其中,
Figure BDA0002537830210000281
Figure BDA0002537830210000282
表示包含有T个属性标签特征向量的属性标签特征矩阵,
Figure BDA0002537830210000283
表示包含有T个候选属性标签的属性标签预测序列;
Figure BDA0002537830210000284
λ1和λ3为正数。
可以理解的是,上述说明书实施例仅为示例说明,损失函数可以根据实际情景进行建立,例如,基于第一损失子函数losslabel、第二损失子函数losspostag和第三损失子函数lossclassify,联合建立第三损失函数loss4:loss4=λ1losslabel3losspostag2lossclassify。本说明书实施例此不做限制。
在具体实施中,在联合建立损失函数后,模型训练模块可以调整各子函数的权重系数,由此可以自动控制模型的调参方向和调参力度,例如,若损失函数为loss3=λ1losslabel3losspostag,当λ1大于λ3时,控制梯度下降方法和反向传播方法倾向于调整标注标签预测子处理的参数,当λ1小于λ3时,控制梯度下降方法和反向传播方法倾向于调整属性标签预测子处理的参数。
为使本领域技术人员更好地理解和实现上述方案,以下结合附图及具体实施例进行阐述。
在本说明书一实施例中,如图9所示,为本说明的另一种序列标注模型的结构示意图。与图6和图7所示的序列标注模型的区别在于:解码层91和输出层92。
具体而言,将训练数据输入序列标注模型得到迭代后的融合特征矩阵[Dtrain]后,解码层91可以对迭代后的融合特征矩阵中各元素按预设排序进行位置转换处理,得到融合特征向量ftrain,采用第二多层感知机子模型911,解码层91还可以对融合特征向量ftrain进行降维处理,从而得到降维后的融合特征向量ftrain′,对降维后的融合特征向量ftrain′进行归一化处理,得到归一化的融合特征向量ftrain″。
基于所述融合特征矩阵[Dtrain],解码层91可以采用第一条件随机场子模型912计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列。
基于编码后的属性标签序列,即属性标签特征矩阵[ET],解码层91可以采用第二条件随机场子模型913计算各候选属性标签标注序列的概率值,获取概率值符合预设的第四选取条件的候选属性标签标注序列,得到所述训练数据的属性标签预测序列。
然后,解码层91可以根据预设的损失函数,计算所述标签标注真实序列和所述标签标注预测序列之间的第一误差,所述标签标注真实序列和所述标签标注预测序列之间的第一误差以及计算所述属性标签序列和所述属性标签预测序列之间的第三误差,并将所述第一误差、第二误差和第三误差进行加权计算得到结果误差值loss。输出层92可以输出结果误差值loss,以此判断序列标注模型是否完成训练。
可以理解的是,序列标注模型根据训练数据获得相应融合特征矩阵和属性标签特征矩阵的过程可参考上述序列标注系统部分相关实施例的描述,在此不再赘述。
在具体实施中,为了验证调整后的序列标注模型是否完成训练,可以将训练数据和训练数据的标签标注真实序列再次输入调整后的序列标注模型,直至序列标注模型符合完成训练的条件。所述训练数据还可以包括:所述训练语料的属性标签序列,序列标注模型可以将训练语料和训练语料的属性标签序列组合后进行后续处理。具体可参考上述训练系统部分的相关描述,在此不再赘述。
需要说明的是,在实际应用中,序列标注系统、序列标注模型的训练系统所包含的各模块、子模块均可以采用相应的硬件电路或器件、模组等进行实施。例如,待处理数据获取模块、模型训练模块等可以通过单片机、FPGA等数据处理芯片执行。这几个模块、子模块可以通过同一处理器件进行控制,也可以通过不同的处理器件执行,所述不同的处理器可以分布于同一硬件设备上,也可以分布于不同的硬件设备上。
可以理解的是,为使描述方便可以采用“第一”、“第二”等名词前缀作为区分。且本文中的“第一”、“第二”、“第三”等名词前缀仅用于区分不同作用的名词,并不代表顺序、大小或重要性等。
虽然本说明书实施例披露如上,但本说明书实施例并非限定于此。任何本领域技术人员,在不脱离本说明书实施例的精神和范围内,均可作各种更动与修改,因此本说明书实施例的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种序列标注系统,其特征在于,包括:
待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;
语义提取模块,适于提取所述待处理数据的语义特征;
逻辑运算模块,适于将提取得到的语义特征和所述待处理数据进行逻辑运算,得到所述待处理数据的融合特征;
概率计算模块,适于根据所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,各候选预测标签标注序列包括:用于标注所述待处理语料的候选预测标签;
序列获取模块,适于根据各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列,得到所述待处理数据的标签标注预测序列。
2.根据权利要求1所述的序列标注系统,其特征在于,所述语义提取模块适于根据预设的各组特征提取参数,分别提取所述待处理数据的语义特征,得到各组的语义特征;
所述逻辑运算模块适于对各组的语义特征和所述待处理数据进行逻辑运算,得到融合特征。
3.根据权利要求2所述的序列标注系统,其特征在于,所述逻辑运算模块包括:
权重分配子模块,适于将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并基于处理结果为其他组的语义特征和所述待处理数据分配权重系数;
加权计算子模块,适于根据分配的权重系数,所述其他组的语义特征和所述待处理数据进行加权逻辑运算。
4.根据权利要求1-3任一项所述的序列标注系统,其特征在于,还包括:位于逻辑运算模块和概率计算模块之间的迭代模块
所述迭代模块,适于在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选预测标签标注序列的概率值。
5.根据权利要求1所述的序列标注系统,其特征在于,所述待处理数据获取模块还适于在所述提取所述待处理数据的语义特征之前,识别所述待处理语料中存在的属性信息,并获取所述属性信息对应的属性标签,得到属性标签序列,所述属性信息包括:所述待处理语料中各划分单元的位置信息、所述待处理语料的语法信息和所述待处理语料的分类信息中至少一种;
所述序列标注系统还包括:数据组合模块,适于将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征。
6.根据权利要求5所述的序列标注系统,其特征在于,还包括:
向量生成模块,适于根据所述待处理数据的融合特征,生成融合特征向量;
向量处理模块,适于确定所述融合特征向量中符合预设的第二选取条件的元素所处的分布位置,获取预设的候选类别标签集合中对应分布位置的候选类别标签,得到所述待处理数据的类别标签预测集合。
7.根据权利要求1所述的序列标注系统,其特征在于,还包括:
参数获取模块,适于获取预设的处理参数,并根据所述处理参数配置语义提取模块、逻辑运算模块和概率计算模块,所述处理参数包括:特征提取参数、逻辑运算参数和概率计算参数。
8.根据权利要求7所述的序列标注系统,其特征在于,还包括:
参数训练模块,适于通过预设的训练数据、所述训练数据的真实标签和预设的损失函数调整初始的处理参数,将调整完成的处理参数作为预设的处理参数;
其中,所述损失函数基于所述训练数据的标注标签预测结果和类别标签预测结果联合建立,所述训练数据包括:训练语料,所述训练数据的真实标签包括:实际用于标注所述训练数据的候选预测标签和实际用于表示所述训练数据的分类信息的候选类别标签。
9.一种序列标注系统,其特征在于,包括:
待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;
序列标注预测模块,适于采用预设的序列标注模型提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选预测标签标注序列的概率值,获取概率值符合预设的第一选取条件的候选预测标签标注序列。
10.一种序列标注模型的训练系统,其特征在于,包括:
训练数据获取模块,适于获取训练数据和所述训练数据的标签标注真实序列,所述训练数据包括训练语料;
模型训练模块,适于将所述训练数据和所述标签标注真实序列输入初始的序列标注模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征,以及基于所述融合特征,计算各候选预测标签标注序列的概率值,将概率值符合预设的第一选取条件的候选预测标签标注序列作为所述训练数据的标签标注预测序列;
误差计算模块,适于将所述标签标注真实序列和所述标签标注预测序列进行误差计算,得到结果误差值;
匹配模块,适于根据所述结果误差值,确定所述序列标注模型是否符合训练完成条件;
模型参数调整模块,适于在所述序列标注模型不符合训练完成条件时,对所述序列标注模型的参数进行调整。
CN202010538268.6A 2020-06-12 2020-06-12 序列标注系统及序列标注模型的训练系统 Pending CN113806646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010538268.6A CN113806646A (zh) 2020-06-12 2020-06-12 序列标注系统及序列标注模型的训练系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010538268.6A CN113806646A (zh) 2020-06-12 2020-06-12 序列标注系统及序列标注模型的训练系统

Publications (1)

Publication Number Publication Date
CN113806646A true CN113806646A (zh) 2021-12-17

Family

ID=78944135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010538268.6A Pending CN113806646A (zh) 2020-06-12 2020-06-12 序列标注系统及序列标注模型的训练系统

Country Status (1)

Country Link
CN (1) CN113806646A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220019736A1 (en) * 2020-07-20 2022-01-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training natural language processing model, device and storage medium
CN114360644A (zh) * 2021-12-30 2022-04-15 山东师范大学 T细胞受体与抗原表位的结合预测方法及系统
CN114970536A (zh) * 2022-06-22 2022-08-30 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220019736A1 (en) * 2020-07-20 2022-01-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training natural language processing model, device and storage medium
CN114360644A (zh) * 2021-12-30 2022-04-15 山东师范大学 T细胞受体与抗原表位的结合预测方法及系统
CN114970536A (zh) * 2022-06-22 2022-08-30 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法

Similar Documents

Publication Publication Date Title
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN111695053A (zh) 序列标注方法、数据处理设备、可读存储介质
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN113806646A (zh) 序列标注系统及序列标注模型的训练系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN113806645A (zh) 标签分类系统及标签分类模型的训练系统
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111144093A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN113761883A (zh) 一种文本信息识别方法、装置、电子设备及存储介质
CN113012822A (zh) 一种基于生成式对话技术的医疗问答系统
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination