CN112560475A

CN112560475A - 三元组抽取方法及系统

Info

Publication number: CN112560475A
Application number: CN202011276362.5A
Authority: CN
Inventors: 李文锋; 侯乐; 赵九州; 赵从志
Original assignee: Workway Shenzhen Information Technology Co ltd
Current assignee: Workway Shenzhen Information Technology Co ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-26
Anticipated expiration: 2040-11-16
Also published as: CN112560475B

Abstract

本发明提供一种三元组抽取方法及系统，该方法包括：利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；利用ALBERT模型对所述分词编码文本与分句编码文本进行处理，得到文本向量；根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息；根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组。本发明能提高三元组抽取的准确性。

Description

三元组抽取方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种三元组抽取方法及系统。

背景技术

当前实体关系三元组抽取主要有两类方法，基于传统规则的方法和基于机器学习(深度学习)的方法。基于传统规则的方法，例如基于依存句法分析的实体关系抽取，首先对一个句子进行依存分析，再结合中文语法启发式规则和依存分析的结果抽取关系表述，并根据距离确定实体位置，最后输出三元组；基于机器学习的方法，分别识别三元组中的两个实体，然后对两个实体之间的关系进行分类，最后输出三元组。

然而，当前实体关系三元组抽取技术，在训练及评估阶段，将实体与关系分开抽取，没有使用其关系信息去抽取实体。如三元组(中国,首都,北京)，这个三元组的实体“北京”可以从前面的实体“中国”以及关系“首都”推断而来，用实体及关系之间的关联信息进而可以抽取更加准确的三元组。因此如何利用文本的整体信息进行三元组的抽取成为亟待解决的技术问题。

发明内容

有鉴于此，本发明提供一种三元组抽取方法及系统，以实现利用文本的整体信息进行三元组的抽取，提高三元组抽取的准确性。

一方面，本发明提供一种三元组抽取方法，包括:利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；

利用ALBERT模型对所述分词编码文本与分句编码文本进行处理，得到文本向量；

根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息；

根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组。

进一步地，所述根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括：

将所述文本向量输入全连接层进行学习得到头实体向量，并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息；

将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量，并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。

进一步地，所述根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组的步骤包括：

根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息；

根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本；

将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。

进一步地，所述将所述文本向量输入全连接层进行学习得到头实体向量的步骤中的头实体损失函数表示为：

其中，Hp(s)表示头实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

对于负样本yi＝0，loss＝-log(1-p(yi)),当p(yi)越小时，损失越小。

进一步地，将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量的步骤中的尾实体损失函数表示为：

其中，Hp(o)表示尾实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

另一方面，本发明提供一种三元组抽取系统，包括:分词编码器，用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；

ALBERT模型单元，用于对所述分词编码文本与分句编码文本进行处理，得到文本向量；

全连接层学习单元，用于根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息；

三元组抽取单元，用于根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组。

进一步地，所述全连接层学习单元包括：

第一全连接层学习子单元，用于将所述文本向量输入全连接层进行学习得到头实体向量，并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息；

第二全连接层学习子单元，用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量，并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。

进一步地，所述三元组抽取单元具体用于：根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息；根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本；将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。

进一步地，所述第一全连接层学习子单元中全连接层的头实体损失函数表示为：

其中，Hp(s)表示头实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

进一步地，所述第二全连接层学习子单元中全连接层的尾实体损失函数表示为：

其中，Hp(o)表示尾实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

本发明三元组抽取方法及系统，基于ALBERT预训练词向量模型对文本信息编码，共享网络参数，训练速度更快；批量抽取文本三元组，提升处理速度，同时，根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息，利用头部实体及实体间关系抽取尾实体，使得三元组实体关系联系更加紧密，提高三元组抽取的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据本发明示例性第一实施例的三元组抽取方法的流程图。

图2为根据本发明示例性第二实施例的三元组抽取系统的结构框图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

图1为根据本发明示例性第一实施例的三元组抽取方法的流程图，如图1所示，本发明一种三元组抽取方法，包括：

步骤101：利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；

具体如：输入一批文本信息，例如输入“马志舟，1907年出生，陕西三原人，汉族，中国共产党，任红四团第一连连长，1933年逝世。”，预处理成标准格式。再使用分词编码器对批量文本信息进行编码获取批量文本，分词文本batch_token，分词编码文本batch_token_ids及分句编码文本batch_segment_ids。

如分词文本batch_token：

['[CLS]','马','志','舟','，','1907','年','出','生','，','陕','西','三','原','人','，','汉','族','，','中','国','共','产','党','，','任','红','四','团','第','一','连','连','长','，','1933','年','逝','世','[SEP]']

分词编码文本batch_token_ids：

[[101 7716 2562 5660 8024 11111 2399 1139 4495 8024 7362 6205 6761333 782 8024 3727 3184 8024 704 1744 1066 772 1054 8024 818 5273 1724 17305018 671 6825 6825 7270 8024 9657 2399 6860 686 102]]

分句编码文本batch_segment_ids：

[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0]]

步骤102：利用ALBERT模型对所述分词编码文本与分句编码文本进行处理，得到文本向量；

具体地，通过ALBERT预训练模型结合分词编码文本及分句编码文本，最后接入全连接层,激活函数使用sigmoid获取批量文本头实体向量subject_vector。

头实体向量subject_vector具体可以为:

[[[1.6383085e-05 1.7806211e-05]

[9.9282092e-01 1.1213457e-04]

[5.4219263e-03 1.3647249e-03]

[5.2850257e-04 9.9604082e-01]

[3.9140559e-06 1.0229477e-05]

[5.7376717e-04 4.7726318e-04]

[1.4823048e-04 2.7725991e-04]

[1.4034994e-05 8.0787766e-05]

[3.7717091e-05 9.1288573e-05]

[9.6265003e-06 2.9571061e-06]

[1.6606943e-04 2.5842624e-04]

[1.1317998e-03 1.2814229e-04]

[6.7677787e-03 2.0024562e-03]

[4.8049274e-04 2.8878462e-03]

[8.9886853e-06 1.7700977e-04]

[4.8317752e-06 7.0615297e-06]

[7.4795775e-05 7.2643343e-05]

[4.9002494e-05 9.5113814e-05]

[5.5439637e-06 6.7999604e-06]

[9.2990248e-04 2.7229218e-04]

[1.3483159e-04 7.1443559e-04]

[7.1562776e-05 2.9013116e-05]

[4.1486444e-05 7.3879994e-05]

[3.5302604e-05 7.9673016e-05]

[1.3518434e-05 8.5154488e-06]

[7.0537459e-03 3.6170339e-04]

[1.0175577e-02 5.9276130e-03]

[2.0459041e-03 3.0192044e-03]

[8.1980595e-04 3.6944172e-03]

[9.2655566e-04 3.8995300e-04]

[1.0916624e-03 1.0249600e-03]

[9.0226886e-04 1.3427552e-03]

[8.9861121e-04 1.2142629e-03]

[2.4509151e-04 8.7291811e-04]

[4.4015792e-06 5.1434927e-06]

[1.5291869e-05 3.1277668e-05]

[1.1877058e-05 2.9140390e-05]

[2.7779543e-05 2.4864239e-05]

[8.5670108e-06 3.2425392e-05]

[7.1562458e-06 5.1740095e-05]]]

步骤103：根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息。

优选地，步骤103可以包括：

将所述文本向量输入全连接层(可以称为第一全连接层)进行学习得到头实体向量，并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息；具体地，通过获取设定阈值标注出subject的头部(头部阈值0.6)和尾部(尾部阈值0.5)位置进而获取subject位置信息。如：subject：[[1,3]]。

其中，该第一全连接层学习时的头实体损失函数subject_loss可以表示为：

其中，Hp(s)表示subject_loss的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

对于负样本yi＝0，loss＝-log(1-p(yi)),当p(yi)越小时，损失越小；

将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层(可以称为第二全连接层)进行学习得到尾实体向量，并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。

其中，该第二全连接层学习时的尾实体损失函数object_loss可以表示为：

其中，Hp(o)表示object_loss的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

具体对于第一全连接层以及第二全连接层，可以通过最小化损失函数，使用Adam优化器计算样本的梯度并更新参数：

①计算梯度g_t：

其中，g_t为时间梯度，

为向量值函数，θ_t-1为梯度更新参数；

②计算梯度的指数移动平均数m_t：m_t＝β₁·m_t-1+(1-β₁)·g_t

其中，m_t为t时间梯度的指数移动平均数，m初始化为0，β₁系数为指数衰减率，控制权重分配,通常取接近于1的值，默认为0.9。

③计算梯度平方的指数移动平均数ν_t：

ν_t为t时间梯度平方的指数移动平均数，v初始化为0，β₂系数为指数衰减率，控制权重分配,通常取接近于1的值，默认为0.999。

④对梯度均值m_t进行偏差纠正：

对m_t的偏差纠正值，由于m初始化为0，会导致m_t偏向于0，需要对其进行偏差纠正，降低偏差对训练初期的影响。

⑤对梯度方差ν_t进行偏差纠正：

对ν_t的偏差纠正值，由于v初始化为0，会导致v_t偏向于0，需要对其进行偏差纠正，降低偏差对训练初期的影响

⑥更新参数：

α为初始的学习率，其默认值α＝0.001,ε＝10^-8，避免除数变为0；

为梯度均值，

为梯度方差，θ_t梯度更新参数。

步骤104：根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组。

优选地，步骤104可以包括：

根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置

信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本；

具体地，通过获取到的subject起始位置特征结合token_ids、segment_ids最后接入全连接层进行关系类别预测，关系预测时使用sigmoid激活函数，进而获取批量文本object向量object_vector。在进行关系预测获取predicate标签的同时通过设定阈值标注出object的头部(头部阈值0.6)和尾部(尾部阈值0.5)位置获取object位置信息,结合subject位置信息最终获取三元组整体信息spos。

object_vector:

[[[[2.91123881e-09 2.46642207e-10]

[9.97761526e-11 9.90885485e-10]

[3.74945053e-09 2.23443752e-09]

...

[8.65546497e-08 6.49529808e-09]

[1.74976805e-07 4.43278623e-07]

[4.81345519e-10 5.08497411e-10]]

[[7.06525043e-08 2.06813937e-07]

[1.87188974e-07 4.28198241e-08]

[1.14070349e-06 5.25365010e-07]

...

[1.80095105e-06 8.51713878e-07]

[1.28028269e-05 1.29512429e-07]

[1.77795272e-07 4.59619152e-08]]

[[3.31637245e-10 5.36569511e-10]

[2.67422564e-08 5.65806468e-09]

[6.06007955e-09 1.17912373e-08]

...

[1.94030875e-07 9.17056298e-08]

[5.45119201e-06 2.60209458e-06]

[1.06330340e-08 2.20932295e-09]]

...

[[3.31453620e-08 3.56153551e-10]

[1.69817815e-09 5.59672864e-10]

[1.39201140e-08 2.72824385e-09]

...

[2.40612970e-08 3.86909647e-07]

[2.67341704e-07 1.23063018e-07]

[1.61796887e-08 1.18569909e-09]]

[[2.30255033e-08 6.51014589e-11]

[9.56887902e-10 6.84898638e-10]

[3.28136740e-09 9.74354286e-09]

...

[1.70634408e-07 2.14685912e-07]

[1.54079046e-07 7.49913198e-08]

[1.37496459e-08 6.19298257e-09]]

[[1.84561935e-10 7.08662684e-10]

[4.29948566e-09 7.55873142e-10]

[4.92900121e-09 1.90876559e-09]

...

[2.37555398e-08 1.06577716e-08]

[3.80269341e-07 2.22867948e-06]

[5.15371124e-09 9.48955026e-10]]]]

spos：[(array([1,3]),4,(5,6)),(array([1,3]),13,(10,13)),(array([1,3]),47,(16,17)),(array([1,3]),32,(19,20))]

解析spos信息，通过subject，object在文本中的位置信息获取三元组文本信息，通过predicate标签获取其文本标签，最终输出三元组信息

{'spo_list':

[{'subject':'马志舟','predicate':'出生日期','object':'1907年','subject_offset':0,'object_offset':4},

{'subject':'马志舟','predicate':'出生地','object':'陕西三原','subject_offset':0,'object_offset':12},

{'subject':'马志舟','predicate':'民族','object':'汉族','subject_offset':0,'object_offset':18},

{'subject':'马志舟','predicate':'国籍','object':'中国','subject_offset':0,'object_offset':21}]}

本实施例在进行三元组尾端实体抽取时应用到了头部实体及实体间关系，使得三元组实体关系联系更加紧密；基于ALBERT预训练词向量模型对文本信息编码，共享网络参数，训练速度更快；批量抽取文本三元组，提升处理速度。

图2为根据本发明示例性第二实施例的三元组抽取系统的结构框图。如图2所示，三元组抽取系统包括：

分词编码器201，用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；

ALBERT模型单元202，用于对所述分词编码文本与分句编码文本进行处理，得到文本向量；

全连接层学习单元203，用于根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息；

三元组抽取单元204，用于根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组。

优选地，全连接层学习单元203包括：

第一全连接层学习子单元(图中未示出)，用于将所述文本向量输入全连接层进行学习得到头实体向量，并根据所述头实体向量以及预设的头实体头部阈值以及头实体尾部阈值确定头实体位置信息；

第二全连接层学习子单元(图中未示出)，用于将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量，并根据所述尾实体向量以及预设的尾实体头部阈值以及尾实体尾部阈值确定尾实体位置信息。

优选地，所述三元组抽取单元204具体用于：根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息；根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本；将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。

本实施例在抽取实体时考虑了实体和关系关联信息，能够在抽取三元组头实体和实体关系的基础上进一步抽取尾实体，同时结合ALBER预训练模型获取更好的三元组抽取效果，使用ALBERT预训练向量编码，更好的提取文本信息，进而使用标注结合分类的方式进行实体关系联合抽取，使三元组结果更加准确。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种三元组抽取方法，其特征在于，包括：

利用分词编码器对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；

2.根据权利要求1所述的三元组抽取方法，其特征在于，所述根据所述文本向量、所述分词编码文本与分句编码文本，利用全连接层学习得到头实体位置信息以及尾实体位置信息的步骤包括：

3.根据权利要求2所述的三元组抽取方法，其特征在于，所述根据所述头实体位置信息以及尾实体位置信息，确定抽取得到的三元组的步骤包括：

4.根据权利要求3所述的三元组抽取方法，其特征在于，所述将所述文本向量输入全连接层进行学习得到头实体向量的步骤中的头实体损失函数表示为：

其中，Hp(s)表示头实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

5.根据权利要求4所述的三元组抽取方法，其特征在于，将所述头实体位置信息、所述分词编码文本与分句编码文本输入全连接层进行学习得到尾实体向量的步骤中的尾实体损失函数表示为：

其中，Hp(o)表示尾实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

6.一种三元组抽取系统，其特征在于，包括：

分词编码器，用于对批量文本信息进行处理得到对应的分词文本、以及所述分词文本对应的分词编码文本与分句编码文本；所述分词编码文本包括所述分词文本中每个分词结果对应的编码信息，所述分句编码文本包括所述分词文本中每句话的编码信息；

7.根据权利要求6所述的三元组抽取系统，其特征在于，所述全连接层学习单元包括：

8.根据权利要求7所述的三元组抽取系统，其特征在于，所述三元组抽取单元具体用于：

根据所述头实体位置信息以及尾实体位置信息确定所述头实体与尾实体之间关系实体位置信息；根据所述头实体位置信息、关系实体位置信息、以及尾实体位置信息之间关系实体位置信息在所述分词文本中确定对应的头实体文本、关系实体文本以及尾实体文本；将所述头实体文本、关系实体文本以及尾实体文本作为抽取得到的三元组。

9.根据权利要求8所述的三元组抽取系统，其特征在于，所述第一全连接层学习子单元中全连接层的头实体损失函数表示为：

其中，Hp(s)表示头实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；

10.根据权利要求9所述的三元组抽取系统，其特征在于，所述第二全连接层学习子单元中全连接层的尾实体损失函数表示为：

其中，Hp(o)表示尾实体损失函数的二分类交叉熵损失；

yi表示第i个样本的标签,p(yi)表示该样本属于正样本的概率；

对于正样本yi＝1，loss＝-log(p(yi)),当p(yi)越大时，损失越小；