CN111898362A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN111898362A
CN111898362A CN202010411653.4A CN202010411653A CN111898362A CN 111898362 A CN111898362 A CN 111898362A CN 202010411653 A CN202010411653 A CN 202010411653A CN 111898362 A CN111898362 A CN 111898362A
Authority
CN
China
Prior art keywords
sentence
vector
standardized
training data
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010411653.4A
Other languages
English (en)
Other versions
CN111898362B (zh
Inventor
朱斌俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010411653.4A priority Critical patent/CN111898362B/zh
Priority claimed from CN202010411653.4A external-priority patent/CN111898362B/zh
Publication of CN111898362A publication Critical patent/CN111898362A/zh
Application granted granted Critical
Publication of CN111898362B publication Critical patent/CN111898362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种数据处理方法及装置,在训练用于进行人物关系抽取的机器学习模型过程中,对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每条句子对应的标准化句子,计算每条标准化句子中每个词的注意力,并注意力,得到每条标准化句子的句向量,根据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数据包的包向量,计算每个训练数据包的损失值和每条标准化句子的损失值,根据每条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系抽取的机器学习模型,通过人物名称的统一化和加入标准化句子的损失值来提高机器学习模型的准确度。

Description

一种数据处理方法及装置
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
人物关系抽取是一种信息抽取任务,例如用句子“A师从中国著名相声表 演艺术家B”和目标实体名对<A,B>,可以抽取出<A,老师,B>三元组数据, 该三元组数据可以表示出A和B之间的人物关系,进而可以利用三元组数据 表示出的人物关系构建人物关系图谱。利用人物关系抽取技术,可以从文本 中抽取人物之间关系的三元组知识。人物关系知识可以用于人物关系图谱构 建、人物关系展示等。
目前人物关系抽取可通过机器学习模型完成,机器学习模型使用的任一 条训练数据对应的人物关系可通过远程监督方式自动标注,根据任一条训练 数据对应的人物关系和任一条训练数据的包向量,得到用于进行人物关系抽 取的机器学习模型。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法及装置,用于提高 用于进行人物关系抽取的机器学习模型的准确度。技术方案如下:
一方面,本申请提供一种数据处理方法,所述方法包括:
对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每条 句子对应的标准化句子,所述标准化处理使得每个训练数据包的每条句子中 的人物名称相同;
计算每条标准化句子中每个词之间的注意力,并根据每条标准化句子中 每个词之间的注意力,得到每条标准化句子的句向量;
根据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数 据包的包向量;
计算每个训练数据包的损失值和每条标准化句子的损失值;
根据所述每条标准化句子的句向量、每个训练数据包的包向量、每个训 练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系 抽取的机器学习模型。
可选的,所述根据每条标准化句子中每个词之间的注意力,得到每条标 准化句子的句向量包括:对每条标准化句子执行以下步骤:
根据每个词之间的注意力得到标准化句子的原始句向量;
根据适用于所有标准化句子的预设特征参数,得到所述标准化句子的预 设特征向量;
根据所述原始句向量和所述预设特征向量,得到所述标准化句子的句向 量。
可选的,所述根据所述原始句向量和所述预设特征向量,得到所述标准 化句子的句向量包括:
对所述原始句向量和所述预设特征向量进行拼接降维,得到所述标准化 句子的目标特征向量,所述目标特征向量与所述预设特征向量的维度相同;
将所述目标特征向量和所述原始句向量进行拼接,得到所述标准化句子 的句向量。
可选的,所述方法还包括:
利用所述机器学习模型输出所述训练数据包中句子的概率分布向量;
根据所述句子的概率分布向量和所述句子的初始标签数据,得到所述句 子的预测标签数据,所述初始标签数据指示标注的所述句子的人物关系,所 述预测标签数据指示预测出的所述句子的人物关系;
根据所述初始标签数据和所述预测标签数据,对所述句子的标签数据进 行修正。
可选的,所述计算每个训练数据包的损失值和每条标准化句子的损失值 包括:
将所述标准化句子的句向量进行降维处理,得到维度与第一关系类别数 相同的目标句向量,所述第一关系类别数指示所有标准化句子对应的人物关 系的总数;
计算所述目标句向量的概率分布向量;
根据所述目标句向量的概率分布向量和所述目标句向量所属标准化句子 的标签数据,得到所述目标句向量所属标准化句子的损失值;
将所述训练数据包的包向量进行降维处理,得到维度与第二关系类别数 相同的目标包向量,所述第二关系类别数指示所有训练数据包对应的人物关 系的总数;
计算所述目标包向量的概率分布向量;
根据所述目标包向量的概率分布向量和所述目标包向量所属训练数据包 的标签数据,得到所述目标包向量所属训练数据包的损失值。
另一方面,本申请提供一种数据处理装置,所述装置包括:
标准化处理单元,用于对每个训练数据包的每条句子中的人物名称进行 标准化处理,得到每条句子对应的标准化句子,所述标准化处理使得每个训 练数据包的每条句子中的人物名称相同;
第一向量计算单元,用于计算每条标准化句子中每个词之间的注意力, 并根据每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向 量;
第二向量计算单元,用于根据每个训练数据包对应的每条标准化句子的 句向量,得到每个训练数据包的包向量;
损失值计算单元,用于计算每个训练数据包的损失值和每条标准化句子 的损失值;
训练单元,用于根据所述每条标准化句子的句向量、每个训练数据包的 包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用 于进行人物关系抽取的机器学习模型。
可选的,所述第一向量计算单元,包括:
注意力计算子单元,用于计算每条标准化句子中每个词之间的注意力;
第一向量计算子单元,用于根据每个词之间的注意力得到标准化句子的 原始句向量;
第二向量计算子单元,用于根据适用于所有标准化句子的预设特征参数, 得到所述标准化句子的预设特征向量;
第三向量计算子单元,用于根据所述原始句向量和所述预设特征向量, 得到所述标准化句子的句向量。
可选的,所述第三向量计算子单元,用于对所述原始句向量和所述预设 特征向量进行拼接降维,得到所述标准化句子的目标特征向量,所述目标特 征向量与所述预设特征向量的维度相同;将所述目标特征向量和所述原始句 向量进行拼接,得到所述标准化句子的句向量。
可选的,所述装置还包括:
输出单元,用于利用所述机器学习模型输出所述训练数据包中句子的概 率分布向量;
标签数据获得单元,用于根据所述句子的概率分布向量和所述句子的初 始标签数据,得到所述句子的预测标签数据,所述初始标签数据指示标注的 所述句子的人物关系,所述预测标签数据指示预测出的所述句子的人物关系;
修正单元,用于根据所述初始标签数据和所述预测标签数据,对所述句 子的标签数据进行修正。
可选的,所述损失值计算单元,包括:
降维处理子单元,用于将所述标准化句子的句向量进行降维处理,得到 维度与第一关系类别数相同的目标句向量,所述第一关系类别数指示所有标 准化句子对应的人物关系的总数,以及将所述训练数据包的包向量进行降维 处理,得到维度与第二关系类别数相同的目标包向量,所述第二关系类别数 指示所有训练数据包对应的人物关系的总数;
计算子单元,用于计算所述目标句向量的概率分布向量,以及计算所述 目标包向量的概率分布向量;
损失值计算子单元,用于根据所述目标句向量的概率分布向量和所述目 标句向量所属标准化句子的标签数据,得到所述目标句向量所属标准化句子 的损失值,以及根据所述目标包向量的概率分布向量和所述目标包向量所属 训练数据包的标签数据,得到所述目标包向量所属训练数据包的损失值。
从上述技术方案可知,在训练用于进行人物关系抽取的机器学习模型过 程中,对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每 条句子对应的标准化句子,计算每条标准化句子中每个词的注意力,并根据 每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向量,根 据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数据包的 包向量,计算每个训练数据包的损失值和每条标准化句子的损失值,根据每 条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系抽取的机器学习 模型。
因为标准化处理使得每个训练数据包的每条句子中的人物名称相同,统 一化的人物名称能够计算与句子中其他词语的注意力,在不额外添加人物名 称的位置信息的前提下可以保留句子的语义且降低因人物名称的重合率低导 致的过拟合问题,提高句向量的准确度,并且在训练机器学习模型过程中加 入每条标准化句子的损失值,提高训练数据包中每条句子的敏感性,以在提 高句向量的准确度和每条句子的敏感性的情况下提高用于进行人物关系抽取 的机器学习模型的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程图;
图2是本申请实施例提供的通过BERT模型得到每个词之间的注意力的 示意图;
图3是本申请实施例提供的通过BERT模型得到标准化句子的句向量的 示意图;
图4是本申请实施例提供的一种得到标准化句子的句向量的示意图;
图5是本申请实施例提供的计算损失值的流程图;
图6是本申请实施例提供的另一种数据处理方法的流程图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,其示出了本申请实施例提供的一种数据处理方法的流程,可 以包括以下步骤:
101:对每个训练数据包的每条句子中的人物名称进行标准化处理,得到 每条句子对应的标准化句子,其中标准化处理使得每个训练数据包的每条句 子中的人物名称相同。
可以理解的是:训练数据包包括作为正样本和负样本的句子,这些句子 用于进行人物关系抽取的机器学习模型,相对应的训练数据包的每条句子中 也含有人物名称,且通过对句子分析可以得到句子中人物名称所指人物的人 物关系。
例如训练数据包中的句子有:A师从中国著名相声表演艺术家B;B的得 意门生有A,这两条句子中包含的人物名称为A和B,即这两条句子的目标 实体名对<A,B>,可以抽取出<A,老师,B>三元组数据,以三元组数据表 示A和B的人物关系。若训练数据包中样本数量有限或者具有相同人物名称 的句子的数量有限,会出现句子中人物名称(一种实体词)的重合率低的问 题,导致在获取句子的句向量过程中出现实体词过拟合的问题,降低句向量的准确度。
为此本实施例对以至少一个训练数据包为单位,将训练数据包的每条句 子的人物名称进行标准化处理,以统一句子中的人物名称,使一个单位中的 句子的人物名称相同。
一种标准化处理的可行方式是:以至少一个训练数据包为单位,设置每 个单位对应的人物名称,将每个单位中的句子中的人物名称替换为设置的名 称,例如每个单位对应的人物名称为e1_std和e2_std,这两个人物名称为统 一化每个单位中句子的人物名称,人物名称e1_std和e2_std可以是用户提前 设置的也可以是从每个单位的句子中选取人物名称,例如获取每个单位的句 子中人物名称的出现次数,根据人物名称的出现次数选取作为每个单位对应 的人物名称。
仍以上述句子:A师从中国著名相声表演艺术家B;B的得意门生有A 为例,这两个句子所属单位对应的人物名称为小红和小明,则通过标准化处 理,这两条句子中的A统一为一个人物名称,B统一为另一个人物名称,例 如标准化处理后得到的标准化句子为:小红师从中国著名相声表演艺术家小 明、小红的得意门生有小明,在标准化处理之后得到的目标实体名对<小红, 小明>,可以抽取出<小红,老师,小明>三元组数据,同样能够得到原始句子 中A和B的人物关系。
在这里需要说明的一点是:用于进行人物关系抽取的机器学习模型的训 练数据包有多个,以多个训练数据包中的至少一个训练数据包为单位,设置 每个单位对应的人物名称,如以两个训练数据包为单位,这两个训练数据包 中的句子在进行标准化处理后得到的标准化句子中的人物名称相同,这样可 以使得单位之间的人物名称具有个性化。当然也可以以一个训练数据包为单 位或者所有训练数据包为一个单位,本实施例不进行限定。
102:计算每条标准化句子中每个词之间的注意力,并根据每条标准化句 子中每个词之间的注意力,得到每条标准化句子的句向量。
标准化句子中的人物名称进行标准化处理,使得隶属同一个训练数据包 的句子对应的标准化句子中的人物名称相同,在计算标准化句子中每个词之 间的注意力过程中能够捕获每个词之间的注意力,相对应的标准化句子中统 一的人物名称能够和同句中的其他词计算注意力,使得在计算句向量过程中 不需要添加人物名称的位置信息,也能够保留标准化句子的语义,简化句向 量的计算过程且提高句向量的准确度。
例如通过BERT(Bidirectional Encoder Representations from Transformer)模型,通过BERT模型计算每条标准化句子中每个词之间的注意力过程可参 阅图2所示,过程如下:
对标准化句子进行词语拆分,得到标准化句子中的每个词,将每个词作 为BERT模型的输入,且在BERT模型中添加[CLS]符号也作为BERT模型的 输入,通过BERT模型计算词之间的注意力,BERT模型还能够根据词之间的 注意力输出一个句向量,因此本实施例可通过BERT模型来输出标准化句子 的句向量,其中在BERT模型中添加的[CLS]符号的含义为classification,该 符号对应的输出向量(Class Label)作为标准化句子的语义表示,用于句子分 类,可以理解为:与句子中的其他词相比,这个无明显语义信息的[CLS]符号 能更好的融合句子中各个字/词的语义信息,以提高BERT模型输出的句向量 的准确度。
目前计算句向量可通过PCNN(Piece-Wise-CNN)模型,PCNN模型得到 句向量的过程包括:对句子进行词语拆分,得到句子中的每个词,利用词嵌 入模型(如word2vec)得到词向量序列,然后利用PCNN模型和词向量序列 生成句向量,而在利用BERT模型过程中将拆分后得到的每个词输入到BERT 模型中可以得到句向量,简化句向量的计算过程。且在通过PCNN模型计算 句向量中词向量序列指示的信息量较少,PCNN模型相对于BERT模型来说,PCNN模型的语义理解能力弱于BERT模型的语义理解能力,因此在词向量 序列指示的信息量较少的情况下,PCNN模型得到的句向量的准确度小于 BERT模型的准确度。
并且作为实体词的人物名称,在句子中的位置信息会影响人物关系抽取, 在选择不同实体词组成的目标实体对或调换目标实体对中实体词的头尾顺序 都会影响分类结果。目前在利用PCNN模型计算句向量过程中加入实体词的 位置信息,如PCNN模型将句子按照实体对的位置信息将句子分成三段,然 后分别进行卷积核池化操作,这样能表达实体词的位置特征,但是会PCNN 模型对整体句子的理解,因为句子被拆分成三段。而通过注意力方式计算句 向量不需要考虑位置信息,从而解决因加入位置信息引起的问题,相对于现有技术来说,简化句向量的计算过程且提高句向量的准确度。
在本实施例中,得到每条标准化句子的句向量的一种可行方式是:根据 标准化句子中每个词之间的注意力得到的据向量作为标准化句子的句向量, 例如将标准化句子中每个词输入到BERT模型中,BERT模型得到每个词之间 的注意力,然后BERT模型根据每个词之间的注意力输出一个句向量,该句 向量作为输入到BERT模型中的词所属标准化句子的句向量,即直接将根据 标准化句子中每个词之间的注意力得到的句向量作为标准化句子的句向量, 如图3所示,其示出了在BERT模型(也称为BERT Encoder)中依次输入标 准化句子的每个词,得到BERT模型输出的标准化句子的句向量。
在本实施例中,得到每条标准化句子的句向量的另一种可行方式是:对 每条标准化句子执行以下步骤:
根据每个词之间的注意力得到标准化句子的原始句向量;根据适用于所 有标准化句子的预设特征参数,得到标准化句子的预设特征向量;根据原始 句向量和预设特征向量,得到标准化句子的句向量。
例如将标准化句子中每个词输入到BERT模型中,BERT模型得到每个词 之间的注意力,然后BERT模型根据每个词之间的注意力输出一个句向量, 该句向量作为输入到BERT模型中的词所属标准化句子的原始句向量。
预设特征参数是标准化句子中共有的特征,预设特征参数用于对标准化 句子中的人物名称进行描述和/或对标准化句子的固有特征(如长度)进行描 述,如预设特征参数包括但不限于:长度特征、人物名称相似度、性别特征 和人物名称风格,长度特征用于对标准化句子的长度、标准化句子中人物名 称的长度和标准化句子中人物名称之间的距离进行描述,相对应的长度特征 包括但不限于标准化句子长度、人物名称长度和人物名称之间的距离中的至 少一种;人物名称相似度用于指示标准化句子中的人物名称是否相似,例如人物名称相似度包括但不限于:是否具有相同前缀/后缀和编辑距离中的至少 一种;性别特征用于指示标准化句子中的人物名称为男性还是女性,其可通 过性别概率来表示;人物名称风格用于指示标准化句子中的人物名称具有的 描述特点,如人物名称风格特征包括但不限于中外人名和人物名称附带称谓 中的至少一种。
根据标准化句子中的内容和上述预设特征参数,得到标准化句子与预设 特征参数对应的特征值,然后根据标准化句子与预设特征参数对应的特征值 得到标准化句子的预设特征向量,如按照预设特征参数的组合顺序,得到标 准化句子的预设特征向量,其中预设特征参数的组合顺序用于指示预设特征 参数对应的特征值在预设特征向量中的先后顺序,如预设特征参数的先后顺 序为:长度特征、人物名称相似度、性别特征和人物名称风格,在本实施例 中,预设特征参数和预设特征参数的先后顺序可以预先设定,本实施例不进 行限定。
在得到预设特征向量之后,可以根据原始句向量和预设特征向量,得到 标准化句子的句向量,其中根据原始句向量和预设特征向量,得到标准化句 子的句向量的一种方式如图4所示,可以包括以下过程:
对原始句向量和预设特征向量进行拼接降维,得到标准化句子的目标特 征向量,目标特征向量与预设特征向量的维度相同;将目标特征向量和原始 句向量进行拼接,得到标准化句子的句向量。
之所以通过拼接降维然后再拼接的方式得到标准化句子的句向量是因为 原始句向量是连续值,而预设特征向量是离散值,若直接将预设特征向量和 原始句向量进行拼接,在获取包向量过程中可能会出现只捕获到离散值最大 值的情况,导致获取到的包向量无法准确体现训练数据包的特征,所以在本 实施例中需要通过拼接降维再拼接的方式得到标准化句子的句向量。
103:根据每个训练数据包对应的每条标准化句子的句向量,得到每个训 练数据包的包向量。其中包向量用于体现训练数据包中句子特征,在本实施 例中,一个训练数据包包括多条句子,每条句子经过标准化处理之后转变为 标准化句子,每条标准化句子可以表达成一个句向量,通过多条标准化句子 的句向量得到一个二维矩阵:
Figure BDA0002493484530000101
n表示标准化句子的条数,m表示句向 量的维度,通过对标准化句子的句向量的合并得到对应训练数据包的包向量。
一种得到训练数据包的包向量的方式可以是但不限于是:在每个句向量 的同一个维度上获取最大值,将获取到的最大值合并成一个一维向量,该一 维向量是训练数据包的包向量,如记为g=[g1,g2,...,gm],gi=max(P(1,i),P(2,i),...,P(n,i)), gi表示在维度i上获取到的最大值。
104:计算每个训练数据包的损失值和每条标准化句子的损失值。可以理 解的是:损失值用于描述预测值与真实值之间的误差,以通过损失值来调整 机器学习模型的模型参数。
在本实施例中,训练数据包和标准化句子的损失值可通过一些损失函数 计算,如绝对值损失函数、对数损失函数等中的至少一种。此处需要注意的 一点是:本实施例不单单计算每个训练数据包的损失值,还计算每条标准化 句子的损失值,从而在机器学习模型的训练过程中可以引入每条标准化句子 的损失,使得机器学习模型对句子的表达更充分,提高训练数据包对应的每 条标准化句子的敏感性。
本实施例中其他计算训练数据包的损失值和标准化句子的损失值的方式 如图5但不限于图5所示方式,可以包括以下步骤:
501:将标准化句子的句向量进行降维处理,得到维度与第一关系类别数 相同的目标句向量,其中第一关系类别数指示所有标准化句子对应的人物关 系的总数,第一关系类别数与句子对应的人物关系相关,句子对应的人物关 系可通过对句子的分析得到,当然也可通过其他方式得到句子对应的人物关 系,对此本实施例不在阐述。
而标准化句子的句向量的降维处理可通过但不限于利用一个全连接层对 句向量进行降维处理,得到一个维度与第一关系类别数相同的目标句向量。 一般情况下,第一关系类别数小于句向量的维度,通过降维处理可减少运算 数据量。
502:计算目标句向量的概率分布向量。其中目标句向量的概率分布向量 用于指示目标句向量对应的句子的人物关系,如通过softmax函数计算目标句 向量的概率分布向量,其得到的一个概率分布向量o=[0.1,0.8,0.1],则0.8指示 出目标句向量对应的句子的可能人物关系(视为是人物关系的一个预测值), 当然还可以通过其他方式计算目标句向量的概率分布向量,如sigmoid函数, 本实施例对于概率分布向量的计算方式不进行限定。
503:根据目标句向量的概率分布向量和目标句向量所属标准化句子的标 签数据,得到目标句向量所属标准化句子的损失值。
同样的目标句向量所属标准化句子的标签数据用于指示目标句向量对应 的句子的人物关系,训练数据包中的每条句子通过人为标注方式得到句子的 标签数据,标准化句子是对句子进行标准化处理得到,由此可以将用户为句 子手动标注的标签数据作为标准化句子的标签数据。在得到用于进行人物关 系抽取的机器学习模型之后,也可以通过机器学习模型对句子的人物关系进 行抽取,预测句子的标签数据,以通过机器学习模型对句子的标签数据进行 修正,从而将机器学习模型预测出的标签数据作为标准化句子的标签数据。 而目标句向量所属标准化句子的损失值可通过但不限于通过损失函数的方式 得到,对此本实施例不再阐述。
504:将训练数据包的包向量进行降维处理,得到维度与第二关系类别数 相同的目标包向量,第二关系类别数指示所有训练数据包对应的人物关系的 总数,第二关系类别数的说明请参见上述第一关系类别数的说明,对此本实 施例不再阐述,训练数据包的包向量可通过但不限于利用一个全连接层对包 向量进行降维处理,得到一个维度与第二关系类别数相同的目标包向量,以 减少运算数据量。
505:计算目标包向量的概率分布向量。其中目标包向量的概率分布向量 用于指示目标包向量对应的训练数据包称的人物关系,如通过softmax函数计 算目标包向量的概率分布向量,其得到的一个概率分布向量o=[0.1,0.8,0.1],则 0.8可以指示出目标包向量对应的训练数据包的可能人物关系(视为是人物关 系的一个预测值),当然还可以通过其他方式计算目标包向量的概率分布向 量,如sigmoid函数,本实施例对于概率分布向量的计算方式不进行限定。
506:根据目标包向量的概率分布向量和目标包向量所属训练数据包的标 签数据,得到目标包向量所属训练数据包的损失值,其说明请参见上述得到 目标句向量所属标准化句子的损失值,对此本实施例不再阐述。
105:根据每条标准化句子的句向量、每个训练数据包的包向量、每个训 练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系 抽取的机器学习模型。
在本实施例中,将每条标准化句子的句向量、每个训练数据包的包向量、 每个训练数据包的损失值和每条标准化句子的损失值作为输入进行训练,得 到用于进行人物关系抽取的机器学习模型,使得机器学习模型既可以预测训 练数据包的人物关系也能够预测句子的人物关系,对于训练过程本实施例不 再详述。
在得到用于进行人物关系抽取的机器学习模型之后,若通过机器学习模 型预测一个数据包的人物关系,则将提取句子中的人物名称,将提取到的人 物名称对应的句子存储到一个数据包中,提取到的人物名称作为数据包对应 的人物名称,然后输入到机器学习模型中得到机器学习模型输出的人物关系 预测结果;若通过机器学习模型预测一个句子的人物关系,则将提取到的句 子中的人物关系和句子输入到机器学习模型中,得到机器学习模型输出的人 物关系预测结果。
从上述技术方案可知,在训练用于进行人物关系抽取的机器学习模型过 程中,对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每 条句子对应的标准化句子,计算每条标准化句子中每个词的注意力,并根据 每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向量,根 据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数据包的 包向量,计算每个训练数据包的损失值和每条标准化句子的损失值,根据每 条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系抽取的机器学习 模型。
因为标准化处理使得每个训练数据包的每条句子中的人物名称相同,统 一化的人物名称能够计算与句子中其他词语的注意力,在不额外添加人物名 称的位置信息的前提下可以保留句子的语义且降低因人物名称的重合率低导 致的过拟合问题,提高句向量的准确度,并且在训练机器学习模型过程中加 入每条标准化句子的损失值,提高训练数据包中每条句子的敏感性,以在提 高句向量的准确度和每条句子的敏感性的情况下提高用于进行人物关系抽取 的机器学习模型的准确度。
请参阅图6,其示出了本申请实施例提供的另一种数据处理方法的流程 图,可以包括以下步骤:
601:对每个训练数据包的每条句子中的人物名称进行标准化处理,得到 每条句子对应的标准化句子,其中标准化处理使得每个训练数据包的每条句 子中的人物名称相同。
602:计算每条标准化句子中每个词之间的注意力,并根据每条标准化句 子中每个词之间的注意力,得到每条标准化句子的句向量。
603:根据每个训练数据包对应的每条标准化句子的句向量,得到每个训 练数据包的包向量。
604:计算每个训练数据包的损失值和每条标准化句子的损失值。
605:根据每条标准化句子的句向量、每个训练数据包的包向量、每个训 练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系 抽取的机器学习模型。
606:利用机器学习模型输出训练数据包中句子的概率分布向量。在本实 施例中,机器学习模型的最后一层输出训练数据包中句子的概率分布向量, 如机器学习模型的最后一层为softmax函数或sigmoid函数,通过这两个函数 中的任意一种函数可以输出句子的概率分布向量,以指示训练数据包中句子 的可能人物关系,如输出的概率分布向量o=[0.1,0.8,0.1],则0.8是可能人物关 系,其中可能人物关系表示句子可能会存在的一种人物关系。
607:根据句子的概率分布向量和句子的初始标签数据,得到句子的预测 标签数据,初始标签数据指示标注的句子的人物关系,预测标签数据指示预 测出的句子的人物关系。
可以理解的是:对于训练数据包中的一条句子来说,当机器学习模型得 到的预测标签数据与初始标签数据不一致,且预测标签数据的置信度大于初 始标签数据的置信度,说明初始标签数据的标注错误,这种情况下需要对初 始标签数据进行修正。在目前机器学习模型训练过程中,将训练数据包中的 句子的概率分布向量和初始标签数据对机器学习模型进行训练,但是若训练 数据包中存在较多噪声样本(如初始标签数据错误的句子),会使得机器学习 模型对噪声样本进行学习,为了减少对噪声样本的学习,避免欠拟合来提高模型效果,本实施例会根据句子的概率分布向量和句子的初始标签数据,得 到句子的预测标签数据,以确定是否对初始标签数据进行修正,进行减少机 器学习模型训练过程中噪声样本的数量。
在本实施例中,根据句子的概率分布向量和句子的初始标签数据,得到 句子的预测标签数据的一种方式是:根据初始标签数据,得到一个与初始标 签数据对应的位置向量,根据位置向量、预设置信度向量和概率分布向量, 得到预测标签数据。
预设置信度向量是提前设置的一个置信度向量,预设置信度向量的维度 与第一关系类别数相同,且预设置信度向量中的每个元素的数值介于0和1 之间,是一个人为定义元素的向量。位置向量用于指示初始标签数据所属位 置,例如位置向量可以通过一个one-hot向量来表示,one-hot向量是一个包括 三个元素的向量,如one-hot向量的一种表现形式是:L=[l1,l2,l3],若初始 标签数据的下标r=2,则L=[0,0,1],将位置向量、预设置信度向量和概率 分布向量输入到一个用于计算最大值的函数中,得到函数输出的一个最大值, 该最大值则为预测标签数据。
例如用于计算最大值的函数为r′=argmax(o+max(o)A⊙L),概率分布向量 o=[0.1,0.8,0.1],初始标签数据对应的下标r=2,预设置信度向量A=[0.7,0.7,0.7], 则有:L=[0,0,1],max(o)=0.8,相对应的
max(o)A⊙L=0.8*[0.7,0.7,0.7]⊙[0,0,1]=[0,0,0.8*0.7];
r′=argmax([0.1,0.8,0.1+0.8*0.7])=argmax([0.1,0.8,0.66])=1,则下标从2变为1, 下标1对应的标签数据为预测标签数据,即上述预测标签数据对应上述概率 分布向量中第二个元素对应的人物关系。
但是上述计算预测标签数据的方式存在问题:若第一关系类别数指示的 关系类别的数目较多,例如对于50类分类问题,平均每个人物关系的概率为 1/50=0.02。每个人物关系的概率之间的差值会变比较小,导致预设置信度向 量A失效(预设置信度向量一般设置为0.7-0.9)。例如当输出的概率分布向量 的最大值为0.03,概率为0.02,则需要将A设置为0.33以下才能将预测标签 数据改变。针对这种问题,需要将机器学习模型的最后一层修改为sigmoid函 数,概率分布向量中每个元素的取值范围为0到1之间,且概率分布向量期 望的平均值不会随第一关系类别数的改变发生较大变化,使得概率分布向量 期望的平均值能够趋于平稳,如概率分布向量期望的平均值稳定在0.5,从而 使预设置信度向量不会受第一关系类别数影响,简化预设置信度向量为一个 单一常数,使得机器学习模型更加稳定,相对应的上述用于计算最大值的函 数r′=argmax(o+max(o)a⊙L)转变为r′=argmax(o′+max(o′)a⊙L),α是一个常数。
608:根据初始标签数据和预测标签数据,对句子的标签数据进行修正。
初始标签数据指示标注的句子的人物关系,在得到用于进行人物关系抽 取的机器学习模型之前,初始标签数据是人为标注的句子的人物关系,在得 到用于进行人物关系抽取的机器学习模型之后,通过机器学习模型得出一个 概率分布向量,然后通过概率分布向量和初始标签数据得到一个预测标签数 据,若初始标签数据和预设标签数据相同,则保留句子的标签数据为初始标 签数据,若初始标签数据和预设标签数据不同,则将句子的标签数据从初始 标签数据修改为预测标签数据。
例如初始标签数据对应的下标为2,通过机器学习模型与上述算法得到的 预测标签数据对应的下标为1,则将句子的标签数据对应的下标从2修改为1, 以更改句子的人物关系。相对应的在计算损失值过程中,计算的是机器学习 模型输出的概率分布向量(句子的预测值的一种表现)和句子的标签数据对 应的下标的向量(句子的真实值的一种表现)。在句子的标签数据进行修正的 情况下可能会使得句子所属训练数据包的标签数据也进行修改,对此本实施 例不在阐述,相对应的在计算损失值过程中,计算的是机器学习模型输出的 训练数据包的概率分布向量(训练数据包的预测值的一种表现)和训练数据 包的标签数据对应的下标的向量(训练数据包的真实值的一种表现)。
从上述技术方案可知,根据句子的概率分布向量和句子的初始标签数据, 得到句子的预测标签数据,根据初始标签数据和预测标签数据,对句子的标 签数据进行修正,实现通过预测标签数据对初始标签数据进行修正,以通过 预测标签数据对机器学习模型的模型参数进行调整,减少机器学习模型对噪 声样本的学习,提高机器学习模型预测的准确度。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动 作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的 限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次, 本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例, 所涉及的动作和模块并不一定是本申请所必须的。
与上述方法实施例相对应,本申请实施例还提供一种数据处理装置,其 结构如图7所示,可以包括:标准化处理单元10、第一向量计算单元20、第 二向量计算单元30、损失值计算单元40和训练单元50。
标准化处理单元10,用于对每个训练数据包的每条句子中的人物名称进 行标准化处理,得到每条句子对应的标准化句子,标准化处理使得每个训练 数据包的每条句子中的人物名称相同。
一种标准化处理的可行方式是:以至少一个训练数据包为单位,设置每 个单位对应的人物名称,将每个单位中的句子中的人物名称替换为设置的名 称,例如每个单位对应的人物名称为e1_std和e2_std,这两个人物名称为统 一化每个单位中句子的人物名称,人物名称e1_std和e2_std可以是用户提前 设置的也可以是从每个单位的句子中选取人物名称,例如获取每个单位的句 子中人物名称的出现次数,根据人物名称的出现次数选取作为每个单位对应 的人物名称,详细说明请参见上述方法实施例,对此本实施例不再阐述。
第一向量计算单元20,用于计算每条标准化句子中每个词之间的注意力, 并根据每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向 量。
标准化句子中的人物名称进行标准化处理,使得隶属同一个训练数据包 的句子对应的标准化句子中的人物名称相同,在计算标准化句子中每个词之 间的注意力过程中能够捕获每个词之间的注意力,相对应的标准化句子中统 一的人物名称能够和同句中的其他词计算注意力,使得在计算句向量过程中 不需要添加人物名称的位置信息,也能够保留标准化句子的语义,简化句向 量的计算过程且提高句向量的准确度。例如通过BERT模型计算注意力以及 得到句向量。
在本实施例中,第一向量计算单元的一种可行结构包括:注意力计算子 单元、第一向量计算子单元、第二向量计算子单元和第三向量计算子单元。
注意力计算子单元,用于计算每条标准化句子中每个词之间的注意力; 第一向量计算子单元,用于根据每个词之间的注意力得到标准化句子的原始 句向量,例如注意力计算子单元和第一向量计算子单元,通过BERT模型得 到原始句向量。
第二向量计算子单元,用于根据适用于所有标准化句子的预设特征参数, 得到标准化句子的预设特征向量。预设特征参数是标准化句子中共有的特征, 预设特征参数用于对标准化句子中的人物名称进行描述和/或对标准化句子的 固有特征(如长度)进行描述,对于预设特征参数的可行方式说明请参见上 述方法实施例。第二向量计算子单元根据标准化句子中的内容和上述预设特 征参数,得到标准化句子与预设特征参数对应的特征值,然后根据标准化句 子与预设特征参数对应的特征值得到标准化句子的预设特征向量,如按照预 设特征参数的组合顺序,得到标准化句子的预设特征向量,其中预设特征参 数的组合顺序用于指示预设特征参数对应的特征值在预设特征向量中的先后 顺序,如预设特征参数的先后顺序为:长度特征、人物名称相似度、性别特 征和人物名称风格,在本实施例中,预设特征参数和预设特征参数的先后顺 序可以预先设定,本实施例不进行限定。
第三向量计算子单元,用于根据原始句向量和预设特征向量,得到标准 化句子的句向量。一种方式是:第三向量计算子单元对原始句向量和预设特 征向量进行拼接降维,得到标准化句子的目标特征向量,目标特征向量与预 设特征向量的维度相同;将目标特征向量和原始句向量进行拼接,得到标准 化句子的句向量,以通过拼接降维再拼接方式得到标准化句子的句向量。
第二向量计算单元30,用于根据每个训练数据包对应的每条标准化句子 的句向量,得到每个训练数据包的包向量。其中包向量用于体现训练数据包 中句子特征,在本实施例中,一个训练数据包包括多条句子,每条句子经过 标准化处理之后转变为标准化句子,每条标准化句子可以表达成一个句向量, 通过多条标准化句子的句向量得到一个二维矩阵:
Figure BDA0002493484530000171
n表示标准化句子 的条数,m表示句向量的维度,通过对标准化句子的句向量的合并得到对应 训练数据包的包向量。
一种得到训练数据包的包向量的方式可以是但不限于是:在每个句向量 的同一个维度上获取最大值,将获取到的最大值合并成一个一维向量,该一 维向量是训练数据包的包向量,如记为g=[g1,g2,...,gm],gi=max(P(1,i),P(2,i),...,P(n,i)), gi表示在维度i上获取到的最大值。
损失值计算单元40,用于计算每个训练数据包的损失值和每条标准化句 子的损失值。可以理解的是:损失值用于描述预测值与真实值之间的误差, 以通过损失值来调整机器学习模型的模型参数。在本实施例中,训练数据包 和标准化句子的损失值可通过一些损失函数计算,如绝对值损失函数、对数 损失函数等中的至少一种。
在本实施例中,损失值计算单元的一种可选结构包括:降维处理子单元、 计算子单元和损失值计算子单元。
降维处理子单元,用于将标准化句子的句向量进行降维处理,得到维度 与第一关系类别数相同的目标句向量,第一关系类别数指示所有标准化句子 对应的人物关系的总数,以及将训练数据包的包向量进行降维处理,得到维 度与第二关系类别数相同的目标包向量,第二关系类别数指示所有训练数据 包对应的人物关系的总数。
计算子单元,用于计算目标句向量的概率分布向量,以及计算目标包向 量的概率分布向量。
损失值计算子单元,用于根据目标句向量的概率分布向量和目标句向量 所属标准化句子的标签数据,得到目标句向量所属标准化句子的损失值,以 及根据目标包向量的概率分布向量和目标包向量所属训练数据包的标签数 据,得到目标包向量所属训练数据包的损失值。
对于上述降维处理子单元、计算子单元和损失值计算子单元的说明,请 参见上述方法实施例中的说明,对此本实施例不再阐述。
训练单元50,用于根据每条标准化句子的句向量、每个训练数据包的包 向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于 进行人物关系抽取的机器学习模型。
从上述技术方案可知,在训练用于进行人物关系抽取的机器学习模型过 程中,对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每 条句子对应的标准化句子,计算每条标准化句子中每个词的注意力,并根据 每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向量,根 据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数据包的 包向量,计算每个训练数据包的损失值和每条标准化句子的损失值,根据每 条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系抽取的机器学习 模型。
因为标准化处理使得每个训练数据包的每条句子中的人物名称相同,统 一化的人物名称能够计算与句子中其他词语的注意力,在不额外添加人物名 称的位置信息的前提下可以保留句子的语义且降低因人物名称的重合率低导 致的过拟合问题,提高句向量的准确度,并且在训练机器学习模型过程中加 入每条标准化句子的损失值,提高训练数据包中每条句子的敏感性,以在提 高句向量的准确度和每条句子的敏感性的情况下提高用于进行人物关系抽取 的机器学习模型的准确度。
请参见图8,其示出了本申请实施例提供的另一种数据处理装置的结构, 在上述图7基础上,还可以包括:输出单元60、标签数据获得单元70和修正 单元80。
输出单元60,用于利用机器学习模型输出训练数据包中句子的概率分布 向量。在本实施例中,机器学习模型的最后一层输出训练数据包中句子的概 率分布向量,如机器学习模型的最后一层为softmax函数或sigmoid函数,通 过这两个函数中的任意一种函数可以输出句子的概率分布向量,以指示训练 数据包中句子的可能人物关系,如输出的概率分布向量o=[0.1,0.8,0.1],则0.8 是可能人物关系。
标签数据获得单元70,用于根据句子的概率分布向量和句子的初始标签 数据,得到句子的预测标签数据,初始标签数据指示标注的句子的人物关系, 预测标签数据指示预测出的句子的人物关系,详细过程请参见上述方法实施 例。
修正单元80,用于根据初始标签数据和预测标签数据,对标签数据进行 修正。
从上述技术方案可知,根据句子的概率分布向量和句子的初始标签数据, 得到句子的预测标签数据,根据初始标签数据和预测标签数据,对句子的标 签数据进行修正,实现通过预测标签数据对初始标签数据进行修正,以通过 预测标签数据对机器学习模型的模型参数进行调整,减少机器学习模型对噪 声样本的学习,提高机器学习模型预测的准确度。
本申请还提供一种存储介质,存储介质上存储有计算机程序代码,计算 机程序代码被执行时实现上述任一数据处理方法。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或 组合,各个实施例可以采用递进的方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对 于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单, 相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包 括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括 没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申 请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文 中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实 施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要 符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润 饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种数据处理方法,所述方法包括:
对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每条句子对应的标准化句子,所述标准化处理使得每个训练数据包的每条句子中的人物名称相同;
计算每条标准化句子中每个词之间的注意力,并根据每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向量;
根据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数据包的包向量;
计算每个训练数据包的损失值和每条标准化句子的损失值;
根据所述每条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系抽取的机器学习模型。
2.根据权利要求1所述的方法,所述根据每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向量包括:对每条标准化句子执行以下步骤:
根据每个词之间的注意力得到标准化句子的原始句向量;
根据适用于所有标准化句子的预设特征参数,得到所述标准化句子的预设特征向量;
根据所述原始句向量和所述预设特征向量,得到所述标准化句子的句向量。
3.根据权利要求2所述的方法,所述根据所述原始句向量和所述预设特征向量,得到所述标准化句子的句向量包括:
对所述原始句向量和所述预设特征向量进行拼接降维,得到所述标准化句子的目标特征向量,所述目标特征向量与所述预设特征向量的维度相同;
将所述目标特征向量和所述原始句向量进行拼接,得到所述标准化句子的句向量。
4.根据权利要求1至3任意一项所述的方法,所述方法还包括:
利用所述机器学习模型输出所述训练数据包中句子的概率分布向量;
根据所述句子的概率分布向量和所述句子的初始标签数据,得到所述句子的预测标签数据,所述初始标签数据指示标注的所述句子的人物关系,所述预测标签数据指示预测出的所述句子的人物关系;
根据所述初始标签数据和所述预测标签数据的置信度,对所述句子的标签数据进行修正。
5.根据权利要求1所述的方法,所述计算每个训练数据包的损失值和每条标准化句子的损失值包括:
将所述标准化句子的句向量进行降维处理,得到维度与第一关系类别数相同的目标句向量,所述第一关系类别数指示所有标准化句子对应的人物关系的总数;
计算所述目标句向量的概率分布向量;
根据所述目标句向量的概率分布向量和所述目标句向量所属标准化句子的标签数据,得到所述目标句向量所属标准化句子的损失值;
将所述训练数据包的包向量进行降维处理,得到维度与第二关系类别数相同的目标包向量,所述第二关系类别数指示所有训练数据包对应的人物关系的总数;
计算所述目标包向量的概率分布向量;
根据所述目标包向量的概率分布向量和所述目标包向量所属训练数据包的标签数据,得到所述目标包向量所属训练数据包的损失值。
6.一种数据处理装置,所述装置包括:
标准化处理单元,用于对每个训练数据包的每条句子中的人物名称进行标准化处理,得到每条句子对应的标准化句子,所述标准化处理使得每个训练数据包的每条句子中的人物名称相同;
第一向量计算单元,用于计算每条标准化句子中每个词之间的注意力,并根据每条标准化句子中每个词之间的注意力,得到每条标准化句子的句向量;
第二向量计算单元,用于根据每个训练数据包对应的每条标准化句子的句向量,得到每个训练数据包的包向量;
损失值计算单元,用于计算每个训练数据包的损失值和每条标准化句子的损失值;
训练单元,用于根据所述每条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值,训练得到用于进行人物关系抽取的机器学习模型。
7.根据权利要求6所述的装置,所述第一向量计算单元,包括:
注意力计算子单元,用于计算每条标准化句子中每个词之间的注意力;
第一向量计算子单元,用于根据每个词之间的注意力得到标准化句子的原始句向量;
第二向量计算子单元,用于根据适用于所有标准化句子的预设特征参数,得到所述标准化句子的预设特征向量;
第三向量计算子单元,用于根据所述原始句向量和所述预设特征向量,得到所述标准化句子的句向量。
8.根据权利要求7所述的装置,所述第三向量计算子单元,用于对所述原始句向量和所述预设特征向量进行拼接降维,得到所述标准化句子的目标特征向量,所述目标特征向量与所述预设特征向量的维度相同;将所述目标特征向量和所述原始句向量进行拼接,得到所述标准化句子的句向量。
9.根据权利要求6至8任意一项所述的装置,所述装置还包括:
输出单元,用于利用所述机器学习模型输出所述训练数据包中句子的概率分布向量;
标签数据获得单元,用于根据所述句子的概率分布向量和所述句子的初始标签数据,得到所述句子的预测标签数据,所述初始标签数据指示标注的所述句子的人物关系,所述预测标签数据指示预测出的所述句子的人物关系;
修正单元,用于根据所述初始标签数据和所述预测标签数据,对所述句子的标签数据进行修正。
10.根据权利要求9所述的装置,所述损失值计算单元,包括:
降维处理子单元,用于将所述标准化句子的句向量进行降维处理,得到维度与第一关系类别数相同的目标句向量,所述第一关系类别数指示所有标准化句子对应的人物关系的总数,以及将所述训练数据包的包向量进行降维处理,得到维度与第二关系类别数相同的目标包向量,所述第二关系类别数指示所有训练数据包对应的人物关系的总数;
计算子单元,用于计算所述目标句向量的概率分布向量,以及计算所述目标包向量的概率分布向量;
损失值计算子单元,用于根据所述目标句向量的概率分布向量和所述目标句向量所属标准化句子的标签数据,得到所述目标句向量所属标准化句子的损失值,以及根据所述目标包向量的概率分布向量和所述目标包向量所属训练数据包的标签数据,得到所述目标包向量所属训练数据包的损失值。
CN202010411653.4A 2020-05-15 一种数据处理方法及装置 Active CN111898362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010411653.4A CN111898362B (zh) 2020-05-15 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010411653.4A CN111898362B (zh) 2020-05-15 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111898362A true CN111898362A (zh) 2020-11-06
CN111898362B CN111898362B (zh) 2024-05-28

Family

ID=

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170278510A1 (en) * 2016-03-22 2017-09-28 Sony Corporation Electronic device, method and training method for natural language processing
CN109376250A (zh) * 2018-09-27 2019-02-22 中山大学 基于强化学习的实体关系联合抽取方法
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN109960789A (zh) * 2017-12-22 2019-07-02 广州帷策智能科技有限公司 基于自然语言处理的人物关系分析方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110019685A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于排序学习的深度文本匹配方法及装置
CN110853649A (zh) * 2019-11-05 2020-02-28 集奥聚合(北京)人工智能科技有限公司 基于智能语音技术的标签提取方法、系统、设备及介质
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
US20200134422A1 (en) * 2018-10-29 2020-04-30 International Business Machines Corporation Relation extraction from text using machine learning
CN111125434A (zh) * 2019-11-26 2020-05-08 北京理工大学 一种基于集成学习的关系抽取方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170278510A1 (en) * 2016-03-22 2017-09-28 Sony Corporation Electronic device, method and training method for natural language processing
CN109960789A (zh) * 2017-12-22 2019-07-02 广州帷策智能科技有限公司 基于自然语言处理的人物关系分析方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN109376250A (zh) * 2018-09-27 2019-02-22 中山大学 基于强化学习的实体关系联合抽取方法
US20200134422A1 (en) * 2018-10-29 2020-04-30 International Business Machines Corporation Relation extraction from text using machine learning
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110019685A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于排序学习的深度文本匹配方法及装置
CN110853649A (zh) * 2019-11-05 2020-02-28 集奥聚合(北京)人工智能科技有限公司 基于智能语音技术的标签提取方法、系统、设备及介质
CN111125434A (zh) * 2019-11-26 2020-05-08 北京理工大学 一种基于集成学习的关系抽取方法及系统

Similar Documents

Publication Publication Date Title
US20190287142A1 (en) Method, apparatus for evaluating review, device and storage medium
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN111309915A (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN111461301A (zh) 序列化数据处理方法和装置、文本处理方法和装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114004231A (zh) 一种中文专词抽取方法、系统、电子设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN114218926A (zh) 一种基于分词与知识图谱的中文拼写纠错方法及系统
CN114139537A (zh) 词向量的生成方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant