CN109241295A

CN109241295A - 一种非结构化数据中的特定实体关系的提取方法

Info

Publication number: CN109241295A
Application number: CN201811007387.8A
Authority: CN
Inventors: 束博
Original assignee: Beijing Tianguang Huitong Science & Technology Co Ltd
Current assignee: Beijing Tianguang Huitong Science & Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-18
Anticipated expiration: 2038-08-31
Also published as: CN109241295B

Abstract

一种非结构化数据中的特定实体关系的提取方法，所述方法首先限定实体关系类型，然后从语料文本中筛选出仅包含该关系类型的语料，并只对特征窗口中的语料进行特征识别、组合和提取，同时对实体对进行关系标记，得到实体对的上下文特征以及实体对所包含关系的标记，之后对该标记数据进行学习，得到判断模型，并通过模型准确度的计算，将特征窗口的大小调整到最优，最后利用判断模型从非结构化文本中提取某一特定类型关系的实体对。本发明只对特定关系类型的数据进行提取，并选择最适合该关系提取的特征集和最适合该关系提取的窗口大小。该方法避免了多种关系混合提取时的相互干扰，可提高关系提取的准确度，有效降低计算复杂度和人工标注的工作量。

Description

一种非结构化数据中的特定实体关系的提取方法

技术领域

本发明涉及一种在非结构化数据中提取特定实体关系的方法，属于数据处理技术领域。

背景技术

随着信息技术的发展和互联网的普及，人、机构、事件等实体之间的关系以及实体及其诸如电话、地址等属性之间的关系变得越来越紧密和复杂，如何从海量的非结构化数据中快速准确地提取实体之间的某些关系，对于构建实体之间的关系网络，挖掘实体的关系强度与类型，研究实体之间的联系都有着重要的意义。

目前，从非结构化数据中提取实体之间关系的方法主要有监督的学习方法、半监督的学习方法和无监督的学习方法等三种。

有监督的学习方法需要专家手工在文本中标记出包含特定关系的实体及其关系，然后根据实体所在文本拥有的特征，将关系提取当作分类问题，使用诸如支持向量机、逻辑回归、深度学习等方法进行分类。该方法存在的缺点是需要大量的语料及人工标注。

半监督的学习方法首先使用人工生成若干种子实例，然后在语料中通过查询种子实例来抽取该关系对应的模板，再使用该模板匹配更多的实例，这样迭代地对模板进行优化和补充，以抽取更多的实例。该方法的缺点是准确度不如有监督的学习方法，而且需要一定的人工参与。

无监督的学习方法根据实体对的上下文进行聚类，将拥有某种特定关系的实体对聚为一类。该方法的缺点是准确性较差并且不能确定关系类型。

总之，现有的方法或者提取准确度低，或者计算复杂度高、人工标注的工作量大，因此有必要加以改进。

发明内容

本发明的目的在于针对现有技术之弊端，提供一种非结构化数据中的特定实体关系的提取方法，以提高实体关系提取的准确度，降低计算复杂度和人工标注的工作量。

本发明所述问题是以下述技术方案实现的：

一种非结构化数据中的特定实体关系的提取方法，所述方法首先限定实体关系类型，然后从语料文本中筛选出仅包含该关系类型的语料，并只对一定大小的特征窗口中的语料进行特征识别、组合和提取，同时对实体对进行关系标记，得到实体对的上下文特征以及实体对所包含关系的标记，之后对该标记数据进行学习，得到判断模型，并通过模型准确度的计算，将特征窗口的大小调整到最优，最后利用判断模型从非结构化文本中提取某一特定类型关系的实体对。

上述非结构化数据中的特定实体关系的提取方法，所述方法包括以下步骤：步骤A、数据预处理

具体过程为：

A1.设定实体对的类型，也即设定实体对中第一实体类型E₁和第二实体类型E₂；设定实体对中两实体关系类型r；

A2.收集语料，从互联网上或文档库中获取若干条文本；

A3.语料预标识，首先对每一条语料文本进行句子分割、分词(中文)/词干化(英文)，标识每个词在文本中的位置，即每个词在文本中的顺序数，然后对其进行命名实体标注；

A4.筛选语料，从语料中筛选出那些同时包含属于第一实体类型E₁的实体和属于第二实体类型E₂的实体的语料；

步骤B、训练基于朴素贝叶斯的关系判断模型

具体步骤为：

B1.生成训练集和测试集

包括2个步骤，具体为：

B11.设置训练集占语料的百分比；

B12.对筛选出的每条语料随机生成一个位于区间[0,1]中的浮点数，如果该数大于步骤B11中所设定的百分比，将该语料归入测试集，否则归为训练集；

B2.关系标识

对训练集和测试集中的每一条语料文本用人工进行关系标注，当某个第一实体类型E₁的实体和某个第二实体类型E₂的实体之间存在实体关系r时，标注它们之间存在实体关系r；

B3.拟合实体关系的存在情况与距离之间的关系函数

包括4个步骤，具体为：

B31.从训练集和测试集的每一条语料文本中提取每一对符合实体对类型的实体对；

B32.分别用a和b表示实体对中的两个实体，对步骤B31中得到的每个实体对，使用下式计算两实体之间的距离：

d(a,b)＝position_b-position_a

其中d(a,b)表示实体a和实体b之间的距离，position_a是实体a在语料文本中的位置，position_b是实体b在语料文本中的位置；

B33.统计训练集语料中存在实体关系r的实体对之间的距离出现的次数，以及不存在实体关系r的实体对之间的距离出现的次数；

B34.设存在实体关系r的实体对之间的距离d与其出现的次数之间的关系可以用下式表示：

其中f_p(d)为存在实体关系r的实体对之间的距离d与d出现的次数之间的关系函数，w_pi为多项式中指数为i的项的参数；m为自然数，一般可设为3；

利用B33中得到的存在实体关系r的实体对之间的距离出现的次数和距离，使用最小二乘法进行拟合，得到其参数w_p1,…,w_pm；

设不存在实体关系r的实体对之间的距离出现的次数和距离之间的关系可以用下式表示：

其中f_n(d)为不存在关系r的实体对之间的距离d与d出现的次数之间的关系函数，w_ni为多项式中指数为i的项的参数，m为自然数，一般可设为3；

利用B33中得到的不存在实体关系r的实体对之间的距离出现的次数和距离，使用最小二乘法进行拟合，得到其参数w_n1,…,w_nm；

B4.生成属性候选集

包括3个步骤，具体为：

B41.列出所能标注的属性，组成一个属性集S；

B42.列出属性集S的所有子集，构成一个属性集S′；

B43.列出S′的所有子集，构成一个属性集S″；

B5.筛选属性候选集

包括3个步骤，具体为：

B51.对训练集和测试集中的每一条文本中的每个词标注S里的每个属性；

B52.对B43所生成的属性集S″中的每个元素，进行以下5个操作：

B521.对训练集中的每个文本语料中的每个实体对，即实体a-实体b，进行以下3个操作：

B5211.设置w_s和w_e均为0；

B5212.设置该实体对的特征窗口位置为从位置较小的实体的位置减去w_s开始到位置较大的实体的位置加上w_e结束，如果位置较小的实体的位置减去w_s小于0，那么特征窗口从0开始，如果位置较大的实体的位置加上w_e大于文本中最后一个词的位置，那么特征窗口到文本中最后一个词结束，特征窗口中的每个词都是该实体对的特征词；

B5213.对特征窗口中的每个词提取子集S″中的所有属性，组成该实体对的每个词的特征；

B522.计算实体关系r存在的先验概率p(r)和r不存在的先验概率以及存在关系r时关于特征f_i的条件概率p′(f_i|r)，和不存在r时关于特征f_i的条件概率

包括3个步骤，具体为：

B5221.在训练集中，统计实体a和实体b存在关系r的情况的数量|r|，以及在存在关系r的情况下每个特征f₁,…,f_n出现的次数|(f₁,r)|,…,|(f_n,r)|；

同时也统计实体a和实体b虽然出现在语料中，但实体a和实体b不存在关系r的情况的数量以及该情况下特征f₁,…,f_n出现的次数

B5222.计算实体a和实体b存在关系r时的先验概率p(r)，和实体a和实体b不存在关系r时的先验概率

B5223.对所有f_i，其中i∈[1,n]，计算实体a和实体b存在关系r时的关于特征f_i的条件概率p′(f_i|r)并保存:

对所有f_i，其中i∈[1,n]，计算实体a和实体b不存在关系r时的关于特征f_i的条件概率并保存:

B523.对测试集中的每个文本语料c中的每个实体对，即实体a-实体b，使用B5211，B5212，B5213中的方法，提取特征窗口中的每个词的特征f_ci；

B524.计算测试集中的每个文本语料中的每个实体对是否包含实体关系r，包括2个步骤，具体是：

B5241.在步骤B5223保存的p′(f_i|r)和中查询由步骤B523提取的特征f_ci，如果特征f_ci出现在步骤B5223保存的p′(f_i|r)的f_i中，那么

p(f_ci|r)＝p′(f_i|r)

否则p(f_ci|r)为所有p′(f_i|r)中的最小值即:

如果特征f_ci出现在步骤B5223保存的的f_i中，那么

否则为所有中的最小值即：

B5242.计算语料c中实体a和实体b存在关系r的概率p_c(r|x；(a,b)):

当p_c(r|x；(a,b))的值大于0时，表示实体a和实体b之间存在关系r；

B525.计算测试集中的参数F1_Score:

其中TP是在测试集的每个语料中实体a和实体b标记为拥有关系r时，计算得到的p_c(r|x；(a,b))大于0的实体对的数量；FP是在测试集的每个语料中实体a和实体b标记为不拥有关系r时，计算得到的p_c(r|x；(a,b))大于0的实体对的数量；FN是在测试集的每个语料中实体a和实体b标记为拥有关系r，计算得到的p_c(r|x；(a,b))不大于0的实体对的数量；

B53.对于属性集S″中的每个子集所对应的参数F1_Score，保存其中最大的F1_Score所对应的子集，以及对应的p(r)，和所有的p(f_i|r)，

B6.优化特征窗口大小

包括5个步骤，具体为：

B61.设置特征窗口位置为以实体a的位置和实体b的位置中较小的为初始开始位置ps(包括该位置)，较大的为初始结束位置pe(包括该位置)，设置初始F1_Score′为0，设置初始F1_Score的提高增量x_i为区间(0,1)中某一小于设定值的数，设置窗口增量t为0；

B62.重复执行下列步骤，直到前后2次的F1_Score的提高增量ΔF1小于x_i，ΔF1的计算公式如下：

ΔF1＝F1_Score′-F1_Score

B621.特征窗口的开始位置等于初始开始位置减去窗口增量t，即：

ps＝ps-t

对测试集执行步骤B523、步骤B524和步骤B525的操作，得到本次的F1_Score，计算ΔF1，如果ΔF1<x_i，转至步骤B63，否则执行B622；

B622.更新t、F1_Score的值：

t＝t+1

F1_Score＝F1_Score′

转至步骤B621；

B63.保存窗口开始位置的增量，即w_s＝t，设置窗口增量t＝1；

B64.重复执行下列步骤，直到前后2次的F1_Score的提高增量ΔF1小于x_i：

B641.特征窗口的结束位置等于初始结束位置加上窗口增量t，即：

ps＝ps+t

对测试集执行步骤B523、步骤B524和步骤B525的操作，得到本次的F1_Score，计算ΔF1，如果ΔF1<x_i，转至步骤B65，否则执行B642；

B642.安装步骤B622的方法更新F1_Score、t的值，转至步骤B641；

B65.保存保存窗口结束位置的增量，即w_e＝t；

步骤C、关系提取

包括2个步骤，具体为：

C1.对于要提取关系的文本c，首先按照步骤A3对其进行句子分割、分词(中文)/词干化(英文)，标识每个词在文本中的位置以及命名实体，然后标注步骤B53所得到的子集中涉及的每个属性；

C2.计算关系r是否存在

包括3个步骤，具体为：

C21.根据步骤A1所设置的第一实体类型E₁和第二实体类型E₂，提取文本c中的所有实体对；

C22.按照步骤B6得到的w_s和w_e设置特征窗口，并按照B53所得到的子集使用步骤B5212和B5213的方法提取特征；

C23.按照步骤B5242的方法计算p_c(r|x；(a,b))，当其值大于0时，表示文本c中实体a和实体b之间存在实体关系r。

上述非结构化数据中的特定实体关系的提取方法，所述训练集占所筛选语料的百分比设为90％。

本发明只对特定关系类型的数据进行提取，并选择最适合该关系提取的特征集和最适合该关系提取的窗口大小。该方法避免了多种关系混合提取时的相互干扰，可提高关系提取的准确度，有效降低计算复杂度和人工标注的工作量。

附图说明

下面结合附图对本发明作进一步说明。

图1是本发明的流程图；

图2是训练模型的流程图。

文中各符号为：

E₁：实体类型1

E₂：实体类型2

r：两实体关系类型

p(r)：实体关系存在的先验概率

实体关系不存在的先验概率

f_i：第i个特征

p′(f_i|r)：实体关系r存在时关于特征f_i的条件概率

d(a,b)：两实体之间的距离

position_a：实体a在语料中的位置

f_p(d)：存在关系的实体对之间的距离d与d出现的次数之间的关系函数

f_n(d)：不存在关系的实体对之间的距离d与d出现的次数之间的关系函数

p_c(r|x；(a,b))：文本c中实体a和实体b存在关系r的概率

具体实施方式

本发明提出了一种针对特定实体关系提取的方法。其基本思想是首先限定关系类型，然后从语料文本中筛选出仅包含该关系类型的语料，并使用一定大小的特征窗口，只对该窗口中的语料进行特征识别、组合和提取，同时对实体对进行关系标记，得到实体对的上下文特征以及实体对所包含关系的标记，最后对该标记数据进行学习，得到判断模型，并使用不同大小的特征窗口计算模型的准确度，从而得到最优的窗口大小。在对非结构化文本进行特定关系提取时使用该模型即可从中提取某一特定类型关系的实体对。与其他方法相比，本方法可以在不降低提取准确度的情况下显著减少训练所需的数据量和训练时间。

该方法包括3个步骤：A、数据预处理；B、训练模型；C、关系提取。具体过程为：

步骤A、数据预处理

包括4个步骤，具体为：

步骤A1、设定实体关系类型r，设定实体对的类型，也即设定第一实体类型E₁和第二实体类型E₂。

步骤A2、收集语料，从互联网上或文档库中获取若干条文本。

步骤A3、语料预标识，首先对每一条语料文本进行句子分割、分词(中文)/词干化(英文)，标识每个词在文本中的位置，然后对其进行命名实体标注。

步骤A4、筛选语料，从语料中筛选出那些同时包含属于第一实体类型E₁的实体和属于第二实体类型E₂的实体的语料(以下简称语料)。

步骤B、训练基于朴素贝叶斯的关系判断模型

包括6个步骤，具体为：

步骤B1、生成训练集和测试集，

包括2个步骤，具体为：

步骤B11、设置训练集占语料的百分比，通常可设为90％。

步骤B12、对每条语料随机生成一个位于区间[0,1]中的浮点数，如果该数大于B11中所设定的百分比，将该语料归入测试集，否则归为训练集。

步骤B2、关系标识

对训练集和测试集中的每一条语料文本用人工进行关系标注，当某个第一实体类型E₁的实体和某个第二实体类型E₂的实体之间存在实体关系r时，标注它们之间存在实体关系r。

步骤B3、拟合实体关系的存在情况与距离之间的关系函数

包括4个步骤，具体为：

步骤B31、从训练集和测试集的每一条语料文本中的提取每一对符合实体对类型的实体对。

步骤B32、对步骤B31中得到的每个实体对，计算实体之间的距离：

d(a,b)＝position_b-position_a

其中d表示实体之间的距离，position_a是实体a在语料文本中的位置，position_b是实体b在语料文本中的位置。

步骤B33、统计训练集语料中存在关系的实体对之间的距离出现的次数，以及不存在关系的实体对之间的距离出现的次数。

步骤B34

设存在关系的实体对之间的距离出现的次数和距离之间的关系可以用以下公式表示，其中f_p(d)为实体关系r的实体对之间的距离d与d出现的次数之间的关系函数，w_pi为多项式中指数为i的项的参数，m一般可设为3。

利用B33中得到的存在关系的实体对之间的距离出现的次数和距离，使用最小二乘法进行拟合，得到其参数w_p1,…,w_pm。

设不存在关系的实体对之间的距离出现的次数和距离之间的关系可以用以下公式表示，其中f_p(d)为实体关系r的实体对之间的距离d与d出现的次数之间的关系函数，w_ni为多项式中指数为i的项的参数，m一般可设为3。

利用B33中得到的不存在关系的实体对之间的距离出现的次数和距离，使用最小二乘法进行拟合，得到其参数w_n1,…,w_nm。

步骤B4、生成属性候选集，

包括3个步骤，具体为：

步骤B41、列出所能标注的属性，组成一个属性集S。

步骤B42、列出属性集S的所有子集，构成一个属性集S′。

步骤B43、列出S′的所有子集，构成一个属性集S″。

步骤B5、筛选属性候选集

包括3个步骤，具体为：

步骤B51、对训练集和测试集中的每一条文本中的每个词标注S里的每个属性。

步骤B52、对步骤B43所生成的属性集S″中的每个元素，进行以下5个操作：

步骤B521、对训练集中的每个文本语料中的每个实体对，即实体a-实体b，进行以下3个操作：

步骤B5211、设置w_s和w_e均为0。

步骤B5212、该实体对的特征窗口为从位置较小的实体的位置减去w_s开始到位置较大的实体的位置加上w_e结束(包括开始位置和结束位置，如果位置较小的实体的位置减去w_s小于0，那么特征窗口从0开始，如果位置较大的实体的位置加上w_e大于文本中最后一个词的位置，那么特征窗口到文本中最后一个词结束)，特征窗口中的每个词都是该实体对的特征词。

步骤B5213、对特征窗口中的每个词提取子集S″中的所有属性，组成该实体对的每个词的特征。

步骤B522、计算实体a和实体b存在关系r时的先验概率p(r)，和实体a和实体b不存在关系r时的先验概率

包括3个步骤，具体为：

步骤B5221、在训练集中，统计实体a和实体b存在关系r的情况的数量|r|，以及在存在关系r的情况下每个特征f₁,…,f_n出现的次数|(f₁,r)|,…,|(f_n,r)|同时也统计实体a和实体b虽然出现在语料中，但实体a和实体b不存在关系r的情况的数量以及该情况下特征f₁,…,f_n出现的次数

步骤B5222、计算实体a和实体b存在关系r时的p(r)，和实体a和实体b不存在关系r时的

步骤B5223、对所有f_i，即i∈[1,n]，计算实体a和实体b存在关系r时的p′(f_i|r)并保存。

对所有f_i，即i∈[1,n]，计算实体a和实体b不存在关系r时的并保存。

步骤B523、对测试集中的每个文本语料c中的每个实体对，即实体a-实体b，使用步骤B5211，B5212，B5213中的方法，提取特征窗口中的每个词的特征f_ci。

步骤B524、计算测试集中的每个文本语料中的每个实体对是否包含实体关系r，包括2个步骤，具体是：

步骤B5241、在步骤B5223保存的p′(f_i|r)和中查询由步骤B523提取的特征f_ci，如果特征f_ci出现在步骤B5223保存的p′(f_i|r)或的f_i中，那么

p(f_ci|r)＝p′(f_i|r)

否则p(f_ci|r)为所有p′(f_i|r)中的最小值，为所有中的最小值：

步骤B5242、计算语料c中实体a和实体b存在关系r的后验概率p_c(r|x；(a,b))，当其值大于0时，表示实体a和实体b之间存在关系r。

其中d(a,b)由步骤B32计算得到，f_p的参数由步骤B34计算得到，p(r)，由步骤B5222计算得到，p(f_ci|r)，由步骤B5241计算得到，f_n的参数由步骤B33计算得到。

步骤B525、计算测试集中的参数F1_Score：

其中TP是在测试集的每个语料中实体a和实体b标记为拥有关系r，计算得到的p_c(r|x；(a,b))大于0的实体对的数量；

FP是在测试集的每个语料中实体a和实体b标记为不拥有关系r，计算得到的p_c(r|x；(a,b))大于0的实体对的数量；

FN是在测试集的每个语料中实体a和实体b标记为拥有关系r，计算得到的p_c(r|x；(a,b))不大于0的实体对的数量。

步骤B53、经过步骤B52，可以得到属性集S″中的每个子集所对应的参数F1_Score，保存其中最大的F1_Score所对应的子集，以及对应的p(r)，和所有的p(f_i|r)，

步骤B6、优化特征窗口大小

包括5个步骤，具体为：

步骤B61、设置特征窗口大小为以实体a的位置和实体b的位置中较小的为初始开始位置ps(包括该位置)，较大的为初始结束位置pe(包括该位置)，设置初始F1_Score′为0，设置初始F1_Score的提高增量x_i为区间(0,1)中某一较小的数，如0.001，设置窗口增量t为0。

步骤B62、重复执行下列步骤，直到前后2次的F1_Score的提高增量ΔF1小于x_i，ΔF1的计算公式如下：

ΔF1＝F1_Score′-F1_Score

B621、特征窗口的开始位置等于初始开始位置减去窗口增量t，即：

ps＝ps-t

对测试集执行B523，B524，B525得到本次的F1_Score，使用B62计算ΔF1，如果ΔF1<x_i，转至步骤B63，否则执行B622。

B622、更新t、F1_Score的值，转至步骤B621：

F1_Score＝F1_Score′

t＝t+1

B63、保存窗口开始位置的增量，即w_s＝t，设置窗口增量t＝1。

B64、重复执行下列步骤，直到前后2次的F1_Score的提高增量ΔF1小于x_i。

B641、特征窗口的结束位置等于初始结束位置加上窗口增量t，即：

ps＝ps+t

对测试集执行B523，B524，B525得到本次的F1_Score，使用B62计算ΔF1，如果ΔF1<x_i，转至步骤B65，否则执行B642。

B642、更新F1_Score、t的值，转至步骤B641。

B65、保存保存窗口结束位置的增量，即w_e＝t。

步骤C、关系提取

包括2个步骤，具体为：

步骤C1、对于要提取关系的文本c，首先按照步骤A3对其进行句子分割、分词(中文)/词干化(英文)，标识每个词在文本中的位置以及命名实体，然后标注步骤B53所得到的子集中涉及的每个属性。

步骤C2、计算关系r是否存在

包括3个步骤，具体为：

步骤C21、根据步骤A1所设置的第一实体类型E₁和第二实体类型E₂，提取文本c中的所有实体对。

步骤C22、按照步骤B6得到的w_s和w_e设置特征窗口，并按照B53所得到的子集使用B5212，B5213提取特征。

步骤C23、由步骤B5242计算p_c(r|x；(a,b))，其中各参数的计算参见B5242，当其值大于0时，表示文本c中实体a和实体b之间存在步骤A1中设定的实体关系。

本发明优点：

1.只对特定关系类型进行提取，避免了多种关系混合提取时的相互干扰，可以有效降低计算复杂度和人工标注的工作量；

2.灵活使用多种特征并进行组合，从中找到最适合该关系提取的特征集，可以提高准确度以及降低计算复杂度；

3.通过调整特征窗口的大小，从中找到最适合该关系提取的窗口大小，可以提高准确度以及降低计算复杂度；

4.本方法与具体的关系类型无关，可以扩展到任何实体关系的提取上。下面结合实施例进行说明：

步骤A、数据预处理

包括4个步骤，具体为：

例如：设定实体关系类型r为“人物拥有电话”关系，设定实体对的类型为“人物-电话”，也即设定第一实体类型E₁为“人物”，第二实体类型E₂为“电话”。

例如：收集到下列2条文本：

“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”

“北京市电信局的服务热线是123456。”

例如对句子1：“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”进行标注如表1：

表1句子1的位置和命名实体标记

其中命名实体标记中的“LOCATION”表示位置，“O”表示其他，“PERSON”表示人物，“TEL”表示电话，下同。

对句子2：“北京市电信局的服务热线是123456。”进行标注如表2：

表2句子2的位置和命名实体标记

位置	词	命名实体标
			0	北京市	LOCATION
1	电信局	O
			2	的	O
3	服务	O
			4	热线	O
5	是	O
			6	123456	TEL
7	。	O

例如：

对包含下列文本的语料进行筛选：

“北京市电信局的服务热线是123456。”

筛选后保留下列语料(因为其中既包含“人物”实体又包含“电话”实体)：

步骤B、训练基于朴素贝叶斯的关系判断模型

包括6个步骤，具体为：

步骤B1、生成训练集和测试集

包括2个步骤，具体为：

步骤B11、设置训练集占语料的百分比，通常可设为90％。

例如：

设置训练集占语料的百分比为90％，

例如：

对语料“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”生成的随机浮点数是0.76，因为其小于90％，所以将语料“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”归入训练集。

步骤B2、关系标识

具体为：

例如：

对“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”进行关系标识如表3：

表3句子1的关系标记

其中第13行“关系”中的4表示该行的词“223456”和第4行的词“张三”是步骤A1所设置的“人物-电话”关系。

步骤B3、拟合实体关系的存在情况与距离之间的关系函数

具体为：

例如：如从“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”中提取符合”人物-电话“的下列实体对，即命名第一实体类型E₁为“PERSON”，和命名第二实体类型E₂为“TEL”的实体对如表4：

表4句子1中提取的实体对

实体1	实体2
		张三	123456
张三	223456
		张三	323456
李四	123456
		李四	223456
李四	323456

d(a,b)＝position_b-position_a

例如B31中得到的实体对之间的距离如表5：

表5句子1中实体对的距离

实体1	实体1的位置	实体2	实体2的位置	距离
					张三	4	123456	9	5
张三	4	223456	13	9
					张三	4	323456	19	15
李四	15	123456	9	-6
					李四	15	223456	13	-2
李四	15	323456	19	4

例如：

在训练集语料中存在关系的实体对之间的距离出现的次数如表6：

表6训练集语料中存在关系的实体对之间的距离出现的次数

存在关系的实体对之间的距离	存在关系的实体对之间的距离出现的次数
		-2	2
-1	1
		1	10
2	21
		4	54
6	13
		9	7

在训练集语料中不存在关系的实体对之间的距离出现的次数如表7：

表7训练集语料中不存在关系的实体对之间的距离出现的次数

不存在关系实体对之间的距离	不存在关系实体对之间的距离出现的次数
		-10	22
-7	31
		-4	20
-1	20
		2	12
5	5
		6	14
9	23

步骤B34

设存在关系的实体对之间的距离出现的次数和距离之间的关系可以用如下公式表示，其中d_p(d)为实体关系r的实体对之间的距离d与d出现的次数之间的关系函数，w_pi为多项式中指数为i的项的参数，m一般可设为3。

利用B33中得到的存在关系的实体对之间的距离出现的次数和距离使用最小二乘法进行拟合，得到其参数w_p1,…,w_pm。

设不存在关系的实体对之间的距离出现的次数和距离之间的关系可以用r如下公式表示，其中f_n(d)为不存在关系r的实体对之间的距离d与d出现的次数之间的关系函数，w_ni为多项式中指数为i的项的参数，m一般可设为3：

例如，对步骤B33中的存在关系的实体对之间的距离及其出现的次数进行拟合，得到w_p0,w_p1,w_p2,w_p3分别为：10.90,6.68,-0.07,-0.08。

对步骤B33中的不存在关系的实体对之间的距离及其出现的次数进行拟合，得到w_n0,w_n1,w_n2,w_n3分别为：14.97,-2.40,0.12,0.03。

步骤B4、生成属性候选集

包括3个步骤，具体为：

步骤B41、列出所能标注的属性，组成一个属性集S。

例如，对文本中的词可以标注的属性包括该词在句子中的位置、词、该词的词性、以及词的命名实体标识，那么它们组成的属性集S为：

{该词在句子中的位置，词，该词的词性，该词的命名实体标识}

步骤B42、列出属性集S的所有子集，构成一个属性集S′。

例如：

步骤B43、列出S′的所有子集，构成一个属性集S″。

例如：

步骤B5、筛选属性候选集

包括3个步骤，具体为：

例如：对“北京市海淀区测腾公司张三的电话不是123456，而是223456，李四的电话是323456。”进行属性标注如表8：

表8句子1的属性标注

步骤B5211、设置w_s和w_e均为0。

例如：

实体对“张三-123456”的特征窗口所包含的特征词有：“张三”、“的”、“电话”、“不”、“是”、“123456”。

实体对“张三-223456”的特征窗口所包含的特征词有：“张三”、“的”、“电话”、“不”、“是”、“123456”、“而”、“是”、“223456”。

实体对“李四-123456”的特征窗口所包含的特征词有：“123456”、“，”、“而”、“是”、“223456”、“，”、“李四”。

例如：

实体对“张三-123456”所包含的特征词有：“张三”、“的”、“电话”、“不”、“是”、“123456”。对

对S″的子集{{该词在句子中的位置，该词的词性}，{词，该词的词性}}提取的每个词的特征有：

{4，NR}，{"张三"，NR}，

{5，UDE1}，{"的"，UDE1}，

{6，NR}，{"电话"，NR}，

{7，D}，{"不"，D}，

{8，VSHI}，{"是"，VSHI}，

{9，N}，{"123456"，N}，

包括3个步骤，具体为：

步骤B5221、在训练集中，统计实体a和实体b存在关系r的情况的数量|r|，以及在存在关系r的情况下每个特征f₁,…,f_n出现的次数|(f₁,r)|,…,|(f_n,r)|

例如：

在语料中实体a的实体类型为“人物”，实体b的实体类型为“电话”，实体a和实体b之间存在“人物拥有电话”关系的实例数量有30个，那么|r|＝30，对这30个实体对使用步骤B5213得到特征{"电话"，NR}的数量有20个，那么|({"电话"，NR},r)|＝20。

类似的，在语料中实体a的实体类型为“人物”，实体b的实体类型为“电话”，实体a和实体b之间不存在“人物拥有电话”关系的实例数量有70个，那么对这70个实体对使用步骤B5213得到特征{"电话"，NR}的数量有30个，那么|({"电话"，NR},r)|＝30。

例如：实体a和实体b之间存在“人物拥有电话”关系的实例数量有30个，那么|r|＝30，实体a和实体b之间不存在“人物拥有电话”关系的实例数量有70个，那么

对所有f_i，即i∈[1,n]，计算实体a和实体b不存在关系r时的关于特征f_i的条件概率并保存。

例如，已知|({"电话"，NR},r)|＝20，|r|＝30，那么p'({"电话"，NR}|r)＝|({"电话"，NR},r)|/|r|＝20/30＝0.67。

例如：

测试集里的句子3“王五的手机号码是123456”，提取的实体对有：“王五-123456”，对应的特征有：

{0，NR}，{"王五"，NR}，

{1，UDE1}，{"的"，UDE1}，

{2，NR}，{"手机"，NR}，

{3，NR}，{"号码"，NR}，

{4，VSHI}，{"是"，VSHI}，

{5，N}，{"123456"，N}，

p(f_ci|r)＝p′(f_i|r)

步骤B5242、使用如下公式计算语料c中实体a和实体b存在关系r的概率p_c(r|x；(a,b))，当其值大于0时，表示实体a和实体b之间存在关系r。

例如：

在句子3“王五的手机号码是123456”中，

a＝“王五”,b＝“123456”

d(a,b)＝5

提取的特征f_ci及其对应的条件概率p(f_ci|r)如表9：

表9句子3的特征及其条件概率p(f_ci|r)

提取的特征f_ci及其对应的条件概率如表10：

表10句子3的特征及其条件概率

使用步骤B34中的例子中的参数

f_p(5)＝31.97

f_n(5)＝9.37

因为p_c(r|x；(a,b))大于0，所以实体“王五”和实体“123456”之间存在“人物拥有电话”关系。

步骤B525、如下计算测试集中的参数F1_Score：

例如：

TP＝30，FP＝10，FN＝20，那么：

步骤B53、经过步骤B52，可以得到属性集r″中的每个子集所对应的参数F1_Score，保存其中最大的F1_Score所对应的子集，以及对应的p(r)，和所有的p(f_i|r),

例如：

测试集中

{{该词在句子中的位置，该词的词性}，{词的具体形式，该词的词性}}对应的F1_Score为0.67；

{该词在句子中的位置，该词的词性}对应的F1_Score为0.5；

{该词在句子中的位置，{词的具体形式，该词的词性}}对应的F1_Score为0.6；

其中{{该词在句子中的位置，该词的词性}，{词的具体形式，该词的词性}}对应的F1_Score的0.67最大，那么保存子集{{该词在句子中的位置，该词的词性}，{词的具体形式，该词的词性}}及其对应的p(r)，以及所有的p(f_i|r)，

步骤B6、优化特征窗口大小

包括5个步骤，具体为：

步骤B62、重复执行下列步骤，直到前后2次的F1_Score的提高增量ΔF1小于x_i，ΔF1的计算公式如下。

ΔF1＝F1_Score′-F1_Score

ps＝ps-t

对测试集执行B523，B524，B525得到本次的F1_Score，由B62计算ΔF1，如果ΔF1<x_i，转至步骤B63，否则执行B622。

B622、更新t、F1_Score的值，转至步骤B621。

F1_Score＝F1_Score′

t＝t+1

例如：设置窗口大小为以实体a的位置和实体b的位置中较小的为初始开始位置ps(包括该位置)，较大的为初始结束位置pe(包括该位置)，设置初始F1_Score′为0，设置初始F1_Score的提高增量x_i为0.001，设置窗口增量t为0。

迭代执行B621，B622，每次得到的ΔF1和窗口增量t如表11：

表11ΔF1和窗口增量t

当窗口增量t为4时，ΔF1小于x_i，设置w_s为4，

ps＝ps+t

对测试集执行B523，B524，B525得到本次的F1_Score，由B62计算ΔF1，如果ΔF1<x_i，转至步骤B65，否则执行B642。

B642、使用(18)和(19)更新F1_Score、t的值，转至步骤B641。

B65、保存保存窗口结束位置的增量，即w_e＝t。

例如，设置特征窗口的结束位置等于初始结束位置。

迭代执行B641，B42，每次得到的F1_Score′和窗口增量t如表12：

表12ΔF1和窗口增量t

F1<sub>Score</sub>	t	ΔF1
			0.630	1	0.040
0.650	2	0.020
			0.650	3	0.000

当窗口增量t为3时，ΔF1小于x_i，设置w_s为3。

C、关系提取

包括2个步骤，具体为：

例如，设步骤B53所得到的子集为：{{词在文本中的位置，词}，{命名实体，词性}}对于句子4“北京测腾公司赵六的电话是123456。”，根据步骤A3进行标注，标注结果如表13：

表13句子4的标注结果

位置	词	命名实体	词性
				0	北京	LOCATION	NS
1	测腾	O	NTC
				2	公司	O	NTC
3	赵六	PERSON	NR
				4	的	O	UDE1
5	电话	O	N
				6	是	O	VSHI
7	123456	TEL	N
				8	。	O	W

步骤C2、计算关系r是否存在

包括3个步骤，具体为：

例如，提取句子4“北京测腾公司赵六的电话是123456。”中的实体对为“赵六-123456”。

例如，设按照B6得到的w_s和w_e为4和3，按照B53所得到的子集是{{词在文本中的位置，词}，{命名实体，词性}}，提取的特征是：

{{0,北京},{LOCATION,NS}},

{{1,测腾},{O,NTC}},

{{2,公司},{O,NTC}},

{{3,赵六},{PERSON,NR}},

{{4,的},{O,UDE1}},

{{5,电话},{O,N}},

{{6,是},{O,VSHI}},

{{7,123456},{TEL,N}},

{{8,。},{O,W}},

例如：计算p_c(r|x；(a,b))，

p_c(r|x；(a,b))大于0，因此实体对“赵六-123456”存在“人物拥有电话”关系。

Claims

1.一种非结构化数据中的特定实体关系的提取方法，其特征是，所述方法首先限定实体关系类型，然后从语料文本中筛选出仅包含该关系类型的语料，并只对一定大小的特征窗口中的语料进行特征识别、组合和提取，同时对实体对进行关系标记，得到实体对的上下文特征以及实体对所包含关系的标记，之后对该标记数据进行学习，得到判断模型，并通过模型准确度的计算，将特征窗口的大小调整到最优，最后利用判断模型从非结构化文本中提取某一特定类型关系的实体对。

2.根据权利要求1所述的一种非结构化数据中的特定实体关系的提取方法，其特征是，所述方法包括以下步骤：

步骤A、数据预处理

具体过程为：

A2.收集语料，从互联网上或文档库中获取若干条文本；

步骤B、训练基于朴素贝叶斯的关系判断模型

具体步骤为：

B1.生成训练集和测试集

包括2个步骤，具体为：

B11.设置训练集占语料的百分比；

B2.关系标识

B3.拟合实体关系的存在情况与距离之间的关系函数

包括4个步骤，具体为：

d(a，b)＝position_b-position_a

B4.生成属性候选集

包括3个步骤，具体为：

B41.列出所能标注的属性，组成一个属性集S；

B42.列出属性集S的所有子集，构成一个属性集S′；

B43.列出S′的所有子集，构成一个属性集S″；

B5.筛选属性候选集

包括3个步骤，具体为：

B5211.设置w_s和w_e均为0；

B522.计算实体关系t存在的先验概率p(r)和r不存在的先验概率以及存在关系r时关于特征f_i的条件概率p′(f_i|r)，和不存在r时关于特征f_i的条件概率

包括3个步骤，具体为：

p(f_ci|r)＝p′(f_i|r)

否则p(f_ci|r)为所有p′(f_i|r)中的最小值即:

如果特征f_ci出现在步骤B5223保存的的f_i中，那么

否则为所有中的最小值即：

B5242.计算语料c中实体a和实体b存在关系r的概率p_c(r|x；(a,b)):

B525.计算测试集中的参数F1_Score:

B6.优化特征窗口大小

包括5个步骤，具体为：

ΔF1＝F1_Score′-F1_Score

ps＝ps-t

B622.更新t、F1_Score的值：

t＝t+1

F1_Score＝F1_Score′

转至步骤B621；

B63.保存窗口开始位置的增量，即w_s＝t，设置窗口增量t＝1；

ps＝ps+t

B642.安装步骤B622的方法更新F1_Score、t的值，转至步骤B641；

B65.保存保存窗口结束位置的增量，即w_e＝t；

步骤C、关系提取

包括2个步骤，具体为：

C2.计算关系r是否存在

包括3个步骤，具体为：

3.根据权利要求2所述的一种非结构化数据中的特定实体关系的提取方法，其特征是，所述训练集占所筛选语料的百分比设为90％。