CN111125438A

CN111125438A - 实体信息提取方法、装置、电子设备及存储介质

Info

Publication number: CN111125438A
Application number: CN201911362895.2A
Authority: CN
Inventors: 许超; 卢佳俊; 张晓寒
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111125438B

Abstract

本申请公开了实体信息提取方法、装置、电子设备及存储介质，涉及知识图谱自动构建技术领域。具体实现方案为：从待处理的视频数据中提取文本数据；对文本数据进行特征提取，得到特征组合，特征组合包括文本数据中每个词对应的词性、命名实体和依存关系；将特征组合输入到经过训练的条件随机场模型，得到条件随机场模型的输出结果；从输出结果中提取目标实体属性信息。本申请实施例中的待处理的视频数据可以来自不同结构的网页中，并且选取词性、命名实体和依存关系作为特征组合，利用条件随机场模型从视频的文本数据中提取目标实体属性信息，提高了信息提取的准确性，能够很好地满足用户获取实体信息的实际需求，在一定程度上具有较好的通用性。

Description

实体信息提取方法、装置、电子设备及存储介质

技术领域

本申请涉及一种信息技术领域，尤其涉及一种知识图谱自动构建技术领域。

背景技术

随着网络视频行业的发展，互联网上出现了大量的视频资源。视频资源中包含丰富的信息，可从视频资源中提取出用户需求的实体信息。现有技术的实体信息提取的方法通常是通过配置模板解析出实体信息。例如，用于网站展现的信息，通常有固定的网页模板。对于这种情况，可通过配置模板定位到网站的页面模板的结构化展现信息的部分，对这部分数据进行结构化的抽取。再如，还可以将网页上展现的信息作为一段文本，通过属性的模式进行模板的抽取。

现有技术的实体信息提取的方法缺乏通用性。例如在配置模板解析的时候，通常只能处理相关领域的大型站点。并且任何网站都存在网页模板的不定期更新，一旦网页模板更新，之前的结构化解析就会失效，需要重新配置模板。另外，现有技术的实体信息提取的结果不够准确，不能够很好地满足用户获取实体信息的实际需求。

发明内容

本申请实施例提出一种实体信息提取方法、装置、电子设备及存储介质，以至少解决现有技术中的以上技术问题。

第一方面，本申请实施例提供了一种实体信息提取方法，包括：

从待处理的视频数据中提取文本数据；

对文本数据进行特征提取，得到特征组合，特征组合包括文本数据中每个词对应的词性、命名实体和依存关系；

将特征组合输入到经过训练的条件随机场模型，得到条件随机场模型的输出结果；

从输出结果中提取目标实体属性信息。

本申请实施例中的待处理的视频数据可以来自于不同结构的网页中，并且，选取词性、命名实体和依存关系作为特征组合，利用条件随机场模型从视频的文本数据中提取目标实体属性信息，提高了信息提取的准确性，能够很好地满足用户获取实体信息的实际需求，在一定程度上具有较好的通用性。

在一种实施方式中，条件随机场模型的输出结果包括实体名、实体属性和属性值，以及实体属性对应的评估分值；

从输出结果中提取目标实体属性信息，包括：将评估分值最高的实体属性对应的输出结果确定为目标实体属性信息。

本申请实施例中，从条件随机场模型的输出结果中选择出评估分值最高的实体属性对应的输出结果，可提升实体信息提取的准确性。

在一种实施方式中，从输出结果中提取目标实体属性信息之后，还包括：

估计目标实体属性信息的置信度；

根据预设条件对目标实体属性信息进行筛选，预设条件包括置信度大于等于预设的置信度阈值。

本申请实施例中，在条件随机场模型得到的输出结果中提取目标实体属性信息的基础上，计算目标实体属性信息的置信度，根据置信度做进一步筛选，进一步地提高了实体信息提取的准确性。

在一种实施方式中，估计目标实体属性信息的置信度，包括：

将对应于同一目标实体属性信息的不同提取结果进行统计计数，其中，对应于同一目标实体属性信息的不同提取结果是从多个待处理的视频数据中提取出的：

根据统计计数的结果估计目标实体属性信息的不同提取结果的置信度。

本申请实施例中，通过多源校验的方式，针对多个视频数据提取的目标实体属性信息进行校验。根据统计计数的结果给出不同提取结果的置信度，进一步地提高了实体信息提取的准确性。

若从同一视频数据中提取出对应于同一目标实体属性信息的不同提取结果，则降低目标实体属性信息的不同提取结果的置信度。

本申请实施例中，通过冲突检测的方式，对于提取结果有冲突的数据部分进行检测。对于提取结果有冲突的不同提取结果，降低其置信度分值，有效在排除了可能错误的提取结果，进一步地提高了实体信息提取的准确性。

在一种实施方式中，从待处理的视频数据中提取文本数据之前，还包括：

根据与目标实体的相关度，对多个视频数据进行筛选，得到待处理的视频数据。

本申请实施例中，筛选出与实体相关度比较高的视频资源，可通过视频的质量控制提取文本的质量，保证后续实体信息提取的准确性。

第二方面，本申请实施例提供了一种实体信息提取装置，包括：

第一提取单元，用于从待处理的视频数据中提取文本数据；

第二提取单元，用于对文本数据进行特征提取，得到特征组合，特征组合包括文本数据中每个词对应的词性、命名实体和依存关系；

处理单元，用于将特征组合输入到经过训练的条件随机场模型，得到条件随机场模型的输出结果；

第三提取单元，用于从输出结果中提取目标实体属性信息。

第三提取单元用于：将评估分值最高的实体属性对应的输出结果确定为目标实体属性信息。

在一种实施方式中，上述装置还包括置信单元，置信单元包括：

估计子单元，用于从输出结果中提取目标实体属性信息之后，估计目标实体属性信息的置信度；

确定子单元，用于根据预设条件对目标实体属性信息进行筛选，预设条件包括置信度大于等于预设的置信度阈值。

在一种实施方式中，估计子单元用于：

将对应于同一目标实体属性信息的不同提取结果进行统计计数，其中，对应于同一目标实体属性信息的不同提取结果是从多个待处理的视频数据中提取出的；

在一种实施方式中，估计子单元用于：

在一种实施方式中，上述装置还包括筛选单元，筛选单元用于：

从待处理的视频数据中提取文本数据之前，根据与目标实体的相关度，对多个视频数据进行筛选，得到待处理的视频数据。

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：本申请实施例中的待处理的视频数据可以来自于不同结构的网页中，并且，选取词性、命名实体和依存关系作为特征组合，利用条件随机场模型从视频的文本数据中提取目标实体属性信息，提高了信息提取的准确性，能够很好地满足用户获取实体信息的实际需求，在一定程度上具有较好的通用性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的实体信息提取方法的流程图；

图2是根据本申请实施例的实体信息提取系统结构示意图；

图3是根据本申请实施例的实体信息提取方法的模型特征组合示意图；

图4是根据本申请实施例的实体信息提取装置的结构示意图；

图5是根据本申请实施例的实体信息提取装置的结构示意图；

图6是根据本申请实施例的实体信息提取装置的置信单元的结构示意图；

图7是用来实现本申请实施例的实体信息提取方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例的实体信息提取方法的流程图。参见图1，该实体信息提取方法包括：

步骤S110，从待处理的视频数据中提取文本数据；

步骤S120，对文本数据进行特征提取，得到特征组合，特征组合包括文本数据中每个词对应的词性、命名实体和依存关系；

步骤S130，将特征组合输入到经过训练的条件随机场模型，得到条件随机场模型的输出结果；

步骤S140，从输出结果中提取目标实体属性信息。

视频资源中包含丰富的信息，可从视频资源中提取出用户需求的实体信息。本申请实施例中，首先在步骤S110中从视频数据中提取文本数据，然后在步骤S120中利用自然语言处理工具对文本数据进行处理，通过分词处理将句子拆分成词，再针对每个词进行特征提取，得到包括文本数据中每个词对应的词性、命名实体和依存关系的特征组合。在步骤S130中，利用条件随机场模型对文本数据进行目标实体的实体属性挖掘，得到的条件随机场模型的输出结果中包括目标实体属性信息的三个元素：实体、属性和属性值，以及以上三个元素对应的评估分值。在步骤S140中，根据评估分值从输出结果中提取目标实体属性信息。

其中，目标实体属性信息的三个元素：实体、属性和属性值，可以简称为EAV(Entity-attribute-value)。例如：“张三的生日是1月1日。”从这个句子中可以挖掘出：实体是“张三”，属性是“生日”，属性值是“1月1日”。在另一种表示方式中，目标实体属性信息的三个元素：实体、属性和属性值可以简称为SPO，其中S表示实体，P表示属性，O表示属性值。

一个示例性的实体信息提取系统如图2所示，可从综艺视频、电影或百科视频等网页中筛选出目标视频集合，然后将从视频数据是提取文本数据。其中，百科视频是以短视频定义知识，提升信息获取的效率。在一种实施方式中，可将视频中的字幕数据转换成文本数据。对视频的每一帧图片进行分析，利用OCR(Optical Character Recognition，光学字符识别)技术，提取出每帧图片上面的字幕数据。在另一种实施方式中，由于视频中通常包含音频信息，可以通过语音识别将音频信息转换成文本数据进行处理。提取到文本数据后利用训练好的CRF(Conditional Random Fields，条件随机场)模型预测SPO的结果。最后还可计算SPO的置信度，对预测结果做进一步筛选。

本申请实施例中，选取词性、命名实体、和依存关系作为特征组合，利用CRF模型对文本数据进行目标实体的实体属性挖掘。步骤S120中，对文本数据进行特征提取可包括：

i.词性标注：对于文本数据中的每个词，需要识别出词性。例如名词、动词或助词等。

参见图3的示例，待处理的句子是“谁是张三的老婆。”其中，“谁”的词性标注为r(代词)，“是”的词性标注为v(普通动词)，“张三”的词性标注为nr(人名)，“的”的词性标注为u(助词)，“老婆”的词性标注为n(普通名词)。

ii.命名实体识别：识别出文本数据中的每个词是否与实体名称有关。参见图3，“谁”属于非专有名词(NOR)，“是”属于非专有名词，“张三”属于人名(PER)，“的”属于非专有名词，“老婆”属于人物需求词(RQST_PER)。其中，人物需求词表示与人物相关的属性词。

iii.依存句法分析：依存句法分析主要是完成句子中各成分间的依存关系解析。句子中短语的从属关系或修饰视为依存关系，例如“张三的老婆”，中心语为“老婆”，“张三”和“的”修饰“老婆”，因此以上“的”字结构中存在修饰词与中心词的关系，表示为图3中的“DE”。另外，图3中的“HED”表示句子的核心关系，也就是说“是”是句子的核心词；“SBV”表示主谓关系的成分；“VOB”表示动宾关系的成分。图3中的“ROOT”表示依存句法分析的起点，可从“ROOT”出发，沿着图3中的箭头指引的方向分析整个句子中各成分间的依存关系。

使用CRF模型之前，需要利用样本对模型进行训练。表1是一个样本标注信息的示例。表1中第一列表示句子的分词结果，第二列表示该词的词性、第三列表示该词对应的命名实体、第四列表示该词对应的依存关系，第五列表示模型的期望输出结果。其中，第五列表示标注的训练序列<S，N，O>，也就是期望模型输出该词属于目标实体属性信息的三个元素(实体、属性和属性值)的其中之一，也就是元素S、元素P和元素O的其中之一。从表1可以看出，元素S和元素O是从模型的输出结果中直接的得到的。在训练好的模型的使用中，元素P是由多个标记为“N”的输出结果中提取出来的。“N”表示对应的词是一个常规词。

表1样本标注信息表

表1中，第二列(词性)中的字母表示的含义如下：

ns：地名；

p：介词；

w：标点符号；

vn：名动词；

t：日期；

nx：其他专有名词；

a：形容词；

f：方位名词。

表1中，第三列(依存关系)中的字母表示的含义如下：

ATT：定中关系，定语和中心词之间的关系；

APP：同位语，所指相同、句法功能也相同的两个并列的词或词组；

ADV：状中结构，是谓词性的中心词和其前面的修饰语之间的关系。中心词做谓语时，前面的修饰成分即为句子的状语。中心词多为动词、形容词，修饰语多为副词，介词短语等：

ORG：表示机构；

POB：介宾关系，介词和宾语之间的关系，介词的属性同动词相似。

表1中的其他字母表示的含义可参见上文中关于图3的描述。

在一个示例中，可通过模板配置训练CRF模型。模板配置用于指示模型如何使用特征组合识别实体信息。模板的作用可包括生成CRF中的特征函数。

一个示例性的模板配置如下：

U00：％x[-2，0]

U01：％x[-1，0]

U02：％x[0，0]

U03：％x[1，0]

U04：％x[2，0]

U05：％x[-1，0]/％x[0，0]

U06：％x[0，0]/％x[1，0]

参见上文的模板示例，每一行％x[#，#]生成一个CRFs中的点(state)函数。其中的“s”表示一个点，也就是文本数据中的一个词。点函数可表示为f(s，o)，其中s为t时刻的标签(output)，o为t时刻的上下文。标签是指标注的结果，也就是表1中的第5列，标注的训练序列<S，N，O>。这个标签在函数中赋值给output属性。o是表示t时刻的上下文的词。上下文根据模板的第一列的下标进行解析，(-2，-1，0，1，2)。其中，“0”表示当前词，“1”表示当前词后面的1个词，“2”表示当前词后面的2个词，“-1”表示当前词前面的1个词，“-2”表示当前词前面的2个词。再参见表1，o对应于表1中的第一列(各个词)，s对应于表1中的第5列(标注的输出结果)。

参见上文的模板示例，特征模板格式：％x[row，co1]。方括号里的编号用于标定特征来源，row表示相对当前位置的行，0即是当前行；col对应训练文件中的列。模板配置的第二个参数o都是“0”，表示模型的识别粒度，也就是是希望模型以表1中的数据的第一列(各个词为粒度)进行训练。

在一个示例中，语料句子是：我是中国人，若当前位置为：“中”，则模板的第一列的下标为：(-2，-1，0，1，2)。参见上文的模板示例，U0--U4特征模板表示某个位置与当前位置的信息之间的联系。比如说U00，就是指的“我”和“中”之间的联系。通过模板指示模型比较“中”对应的特征组合与句子中的其他词对应的特征组合的联系，使模型学习到某种特征组合对应的输出结果。

参见上文的模板示例，U5--U6特征模板表示某两个位置与当前位置的信息之间的联系，比如说U05，就是指的“是”、“中”和“中”之间的联系。通过模板指示模型比较“是”的“中”的组合对应的特征组合与“中”之间的联系，使模型学习到某种特征组合对应的输出结果。

参见上文的模板示例，U00～U06的作用是将模型的学习方位限定在一个句子之内。U05～U06的作用是为了加强学习的效果，充分考虑当前词和前一个词的组合跟当前词特征对比，或当前词和后一个词组合跟当前词特征对比，比较特征组合的联系，使模型学习到某种特征组合对应的输出结果，提升分词截断的组合特征在模型识别中的产生效果。

从待处理的视频数据中提取文本数据之前，还包括：

在实际应用过程中，并不是所有的视频都适合做属性的挖掘。如果视频的内容是用来专门介绍人物的个人信息的，则是一个适合的正向的例子。而对于其他视频，例如对于电影、电视剧，视频中更多的是包括对话、剧情的描述。因此，在从待处理的视频数据中提取文本数据之前，可先对视频数据进行筛选。

视频数据的筛选策略可包括以下几种：

(1)网页识别。

识别出网页是否包括实体的介绍，并且识别该网页是否有视频。可通过网页的内容进行建模分析，判断网页的内容中是否存在对一个实体进行描述和介绍。常用的网页识别的方法包括页面分类、关键字命中等。

其中，页面分类包括通过页面上的信息进行分类。例如，首页的路径标签上有“首页-＞综艺节目”、“首页-＞电影”或“首页-＞百科视频”，则可将视频类型归属为“综艺节目”、“电影”或“百科视频”。

(2)视频内容可信度。

可根据视频的点击PV(page view，访问量)，过滤低PV的视频。PV值越高，视频的曝光度越高，则视频中包含的属性信息更可信。

(3)对视频的title(标题)或者标签进行分析。

例如：视频的title是“一分钟了解李某某”。可对title这种短文本进行关键字的匹配。

再如：综艺节目的文本介绍是“嘉宾：王某”。则可对该视频的简介进行实体的识别，看是否命中需要挖掘的实体。

表2是一个模型输入输出数据表的示例。表2中的第1-4列表示模型的输入。其中表2中第一列表示句子的分词结果，第二列表示该词的词性、第三列表示该词对应的命名实体、第四列表示该词对应的依存关系。表2中第五列和第六列表示模型的输出结果。其中第五列表示标注的训练序列<S，N，O>，第六列表示<S，N，O>对应的评估分值，也就是模型输出的关于训练序列<S，N，O>识别准确率的评估分值。在识别准确的情况下对应的评估分值相对高。

表2模型输入输出数据表

老李	nr	PER	DE	O	0.905476
						的	u	NOR	ATT	N	1.000000
女儿	n	RQST_PER	APP	N	1.000000
						小李	nr	PER	SBV	S	0.852166
认定	v	NOR	HED	N	0.999999
						，	w	NOR	WP	N	0.999997
这	r	NOR	SBV	N	0.999978
						是	v	NOR	VOB	N	1.000000
老李	nr	PER	ATT	O	0.736344
						遗嘱	n	NOR	DE	N	0.999996
的	u	NOR	ATT	N	0.999988
						原始	a	NOR	ATT	N	0.999994
版本	n	RQST_GME	VOB	N	0.999950

表2中的“RQST_GME”表示游戏需求词，“WP”表示标点。表2中的其他字母表示的含义可参见上文中关于图3和表1的描述。

参见表2，对于目标实体属性信息的元素S、元素O两个值，CRF会自动识别出来。由表2可知，模型输出的元素S对应的词是“小李”，也就是模型识别出的实体是“小李”。模型输出的元素O对应的词是“老李”，也就是模型识别出的属性值是“老李”。但是元素P的值需要从输出结果“N”中进行选择，可选择评估分值最高的“N”，作为实体属性P对应的输出结果。由表2可知，评估分值最高的“N”对应的词有三个：“的”、“女儿”和“是”。可针对评估分值最高的“N”对应的词进行语义分析，排除掉无用词，也就是排除掉没有信息的词。在以上示例中，将没有信息的词“的”和“是”排除，最后得到模型识别出的实体属性是“女儿”。

表2的示例中从模型的输出结果中提取目标实体属性信息是：小李-女儿-老李。这个实体信息的含义是“小李的女儿是老李，显然这是一个错误的识别结果，可以通过后续的置信度计算排除掉错误的结果，提高信息提取的正确率。

另外，还可以设置一个元素P的属性集合，判断从模型的输出结果中提取出的目标实体属性信息是否命中属性集合。若评估分值最高的“N”没有命中属性集合，可将其排除，从剩下的输出结果中提取出的目标实体属性信息。

表3是一个模型输入输出数据表的示例。表3中每一列数据表示的含义与表2相同，在此不再赘述。表3中的“COO”表示并列关系，指两个相同类型的词并列在一起。表3中的其他字母表示的含义可参见上文中关于图3、表1和表2的描述。

表3模型输入输出数据表

小李	nr	PER	SBV	S	0.960765
						口述	v	NOR	HED	N	1.000000
：	w	NOR	WP	N	0.999996
						父亲	n	RQST_PER	VOB	N	1.000000
老李	nr	PER	APP	O	0.904324
						与	c	NOR	COO	N	0.999999
我们	r	NOR	DE	N	0.999994
						的	u	NOR	DE	N	1.000000
家庭	n	RQST_PER	COO	N	0.999999

由表3可知，模型输出的元素S对应的词是“小李”，也就是模型识别出的实体是“小李”。模型输出的元素O对应的词是“老李”，也就是模型识别出的属性值是“老李”。但是元素P的值需要从输出结果“N”中进行选择，可选择评估分值最高的“N”，作为实体属性P对应的输出结果。由表3可知，评估分值最高的“N”对应的词有三个：“口述”、“父亲”和“的”。可针对评估分值最高的“N”对应的词进行语义分析，排除掉无用词和非专有名词，也就是排除掉没有信息的词。在以上示例中，将无用词“的”和非专有名词“口述”排除，最后得到模型识别出的实体属性是“父亲”。

表3的示例中从模型的输出结果中提取目标实体属性信息是：小李-父亲-老李。这个实体信息的含义是“小李的父亲是老李，显然这是一个正确的识别结果。可以通过后续的置信度计算给正确的结果赋予较高的置信度，提高信息提取的正确率。

本申请实施例中，从实体属性挖掘的结果中选择出评估分值最高的实体属性，可提升实体信息提取的准确性。

估计目标实体属性信息的置信度；

根据模型的属性挖掘产生的SPO的结果，是利用CRF模型对文本数据中的每个句子进行预测产出的结果。为了进一步提高信息提取的准确率，可增加一个置信度计算的模块，利用该模块去判断CRF模型的产出是否准确，并对于准确的数据集合进行保留。

本申请实施例中，通过多源校验的方式，针对多个视频数据提取的目标实体属性信息进行校验。抽取结果中，占比大多数的结果给予较高的置信度分值；占比少数的结果，给予较低的置信度分值。例如，从100个视频数据中提取出的结果中，有90个结果是“小李-父亲-老李”，有10个结果是“小李-女儿-老李”，则将占比大多数的结果“小李-父亲-老李”给予较高的置信度分值，将占比少数的结果“小李-女儿-老李”给予较低的置信度分值。根据统计计数的结果给出不同提取结果的置信度，进一步地提高了实体信息提取的准确性。

本申请实施例中，通过冲突检测的方式，对于提取结果有冲突的数据部分进行检测。对于提取结果有冲突的不同提取结果，降低其置信度分值，有效地排除了可能错误的提取结果，进一步地提高了实体信息提取的准确性。例如，“小李-父亲-老李”和“小李-女儿-老李”这两个提取结果存在互斥冲突，则将这两个提取结果给予较低的置信度分值。

本申请实施例中的待处理的视频数据可以来自于不同结构的网页中，并且，选取词性、命名实体和依存关系作为特征组合，利用条件随机场模型从视频的文本数据中提取目标实体属性信息，提高了信息提取的准确性，能够很好地满足用户获取实体信息的实际需求，在一定程度上具有较好的通用性。从视频数据中获取的目标实体属性信息可用于知识图谱自动构建、知识库自动构建，也可以为信息抽取、信息检索等任务提供较好的服务。

图4是根据本申请实施例的实体信息提取装置的结构示意图。如图4所示，本申请实施例的实体信息提取装置包括：

第一提取单元100，用于从待处理的视频数据中提取文本数据；

第二提取单元200，用于对文本数据进行特征提取，得到特征组合，特征组合包括文本数据中每个词对应的词性、命名实体和依存关系；

处理单元300，用于将特征组合输入到经过训练的条件随机场模型，得到条件随机场模型的输出结果；

第三提取单元400，用于从输出结果中提取目标实体属性信息。

第三提取单元400用于：将评估分值最高的实体属性对应的输出结果确定为目标实体属性信息。

图5是根据本申请实施例的实体信息提取装置的结构示意图。图6是根据本申请实施例的实体信息提取装置的置信单元的结构示意图。如图5和图6所示，在一种实施方式中，上述装置还包括置信单元500，置信单元500包括：

估计子单元510，用于从输出结果中提取目标实体属性信息之后，估计目标实体属性信息的置信度；

确定子单元520，用于根据预设条件对目标实体属性信息进行筛选，预设条件包括置信度大于等于预设的置信度阈值。

在一种实施方式中，估计子单元510用于：

参见图5，在一种实施方式中，上述装置还包括筛选单元600，筛选单元600用于：

本申请实施例各装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的实体信息提取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的实体信息提取方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的实体信息提取方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的实体信息提取方法对应的程序指令/模块(例如，附图4所示的第一提取单元100、第二提取单元200、处理单元300、第三提取单元400，附图5所示的置信单元500、筛选单元600，以及附图6所示的估计子单元510、确定子单元520)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的实体信息提取方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行实体信息提取方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行实体信息提取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行实体信息提取方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与执行实体信息提取方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(LightEmitting Diode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种实体信息提取方法，其特征在于，包括：

从待处理的视频数据中提取文本数据；

对所述文本数据进行特征提取，得到特征组合，所述特征组合包括所述文本数据中每个词对应的词性、命名实体和依存关系；

将所述特征组合输入到经过训练的条件随机场模型，得到所述条件随机场模型的输出结果；

从所述输出结果中提取目标实体属性信息。

2.根据权利要求1所述的方法，其特征在于，所述条件随机场模型的输出结果包括实体名、实体属性和属性值，以及实体属性对应的评估分值；

从所述输出结果中提取目标实体属性信息，包括：将评估分值最高的实体属性对应的输出结果确定为目标实体属性信息。

3.根据权利要求1或2所述的方法，其特征在于，从所述输出结果中提取目标实体属性信息之后，还包括：

估计所述目标实体属性信息的置信度；

根据预设条件对所述目标实体属性信息进行筛选，所述预设条件包括所述置信度大于等于预设的置信度阈值。

4.根据权利要求3所述的方法，其特征在于，估计所述目标实体属性信息的置信度，包括：

将对应于同一目标实体属性信息的不同提取结果进行统计计数，其中，所述对应于同一目标实体属性信息的不同提取结果是从多个所述待处理的视频数据中提取出的；

根据所述统计计数的结果估计所述目标实体属性信息的不同提取结果的置信度。

5.根据权利要求3所述的方法，其特征在于，估计所述目标实体属性信息的置信度，包括：

若从同一视频数据中提取出对应于同一目标实体属性信息的不同提取结果，则降低所述目标实体属性信息的不同提取结果的置信度。

6.根据权利要求1或2所述的方法，其特征在于，从待处理的视频数据中提取文本数据之前，还包括：

根据与所述目标实体的相关度，对多个视频数据进行筛选，得到所述待处理的视频数据。

7.一种实体信息提取装置，其特征在于，包括：

第一提取单元，用于从待处理的视频数据中提取文本数据；

第二提取单元，用于对所述文本数据进行特征提取，得到特征组合，所述特征组合包括所述文本数据中每个词对应的词性、命名实体和依存关系；

处理单元，用于将所述特征组合输入到经过训练的条件随机场模型，得到所述条件随机场模型的输出结果；

第三提取单元，用于从所述输出结果中提取目标实体属性信息。

8.根据权利要求7所述的装置，其特征在于，所述条件随机场模型的输出结果包括实体名、实体属性和属性值，以及实体属性对应的评估分值；

所述第三提取单元用于：将评估分值最高的实体属性对应的输出结果确定为目标实体属性信息。

9.根据权利要求7或8所述的装置，其特征在于，所述装置还包括置信单元，所述置信单元包括：

估计子单元，用于从所述输出结果中提取目标实体属性信息之后，估计所述目标实体属性信息的置信度；

确定子单元，用于根据预设条件对所述目标实体属性信息进行筛选，所述预设条件包括所述置信度大于等于预设的置信度阈值。

10.根据权利要求9所述的装置，其特征在于，所述估计子单元用于：

11.根据权利要求9所述的装置，其特征在于，所述估计子单元用于：

12.根据权利要求7或8所述的装置，其特征在于，所述装置还包括筛选单元，所述筛选单元用于：

从待处理的视频数据中提取文本数据之前，根据与所述目标实体的相关度，对多个视频数据进行筛选，得到所述待处理的视频数据。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。