CN105574111A

CN105574111A - 基于企业属性库的企业实体认证方法

Info

Publication number: CN105574111A
Application number: CN201510925898.8A
Authority: CN
Inventors: 郝静; 张作职
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

一种基于企业属性库的企业实体认证方法，通过建立企业属性库，并建立企业属性信息与企业ID的对应关系，对文本进行分词，并得到文本中词数集出现的位置，如果文本中出现了相同企业ID对应的企业属性信息，且两个属性信息之间的间隔在15个文字之内，认为该文本描述了该企业，再计算文本描述该家企业的概率。本发明通过建立企业属性库与增加企业认证机制，有针对性的抽取企业属性，通过该方法抽取的企业属性具有较高的准确率。

Description

基于企业属性库的企业实体认证方法

技术领域

本发明涉及互联网信息采集的技术领域，具体说是一种基于企业属性库的企业实体认证方法。

背景技术

随之互联网的快速发展，使得网页信息成为了一个巨大的信息发布源和传播源，且网页信息还在飞速增加，而网页中可能包含了用户所需的大量信息。

实际应用中，为了能够有针对性地向用户提供网页信息，一般通过网页信息提取的方式从存在的网页中提取有用的信息，并将提取出的信息提供给用户。现有技术中，提取网页信息时，可以通过关键字匹配等方法实现。具体的，通过关键字匹配法提取网页信息时，在目标网页的源代码中查找与预设的关键字相匹配的信息，并提取与预设的关键字相匹配的信息。应用上述方法能够由目标网页中提取出部分相关信息学，但是由于网页中所包含的信息量较大，有可能会存在多个与预设的关键字相匹配的信息，可能会造成所提取的信息中包含冗余信息或者错误信息，影响用户体验。当提取出的信息中包含冗余信息的情况下，如要剔除冗余信息，则需要对提取出的信息进行二次处理，信息提取效率低。

目前通过智能抽取技术在几大权威网站采集1千多万家企业相关属性信息，已构建了企业属性库，并用于后续的企业实体认证。在文本处理中，需要对企业实体进行证认，主要依赖与企业属性库中各家企业的相关知识，包括企业名称，别称，高管，产品，职位等关键信息。而在企业别称的识别中，由于企业别称可能对应多家企业ID，因此如何通过企业别称更准确识别文本中真正描述的企业是目前函待解决的问题。

发明内容

本发明要解决的技术问题是提供一种基于企业属性库的企业实体认证方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的基于企业属性库的企业实体认证方法，包括以下步骤：

A、建立企业属性库，包括企业ID和涵盖企业名称、别称、高管、产品、职位信息的企业属性信息；

B、根据企业属性库内企业属性字段，建立词数集，并建立企业属性信息与企业ID的对应关系；

C、扫描文本，对文本进行分词，并得到文本中词数集出现的位置；

D、企业认证处理，如果文本中出现了相同企业ID对应的企业名称、企业高管、企业产品等企业属性信息，并且存在两个属性信息之间的间隔在15个文字之内，则初步判断这篇文本描述了该企业,通过该逻辑获得该文本中所有描述的企业ID；

E、计算文本描述该家企业的概率，根据文本的分词结果以及倒文档率，计算排名前20的关键词，如果在前20位关键词中存在已认证的企业属性信息，则判断文章描述该企业的概率较大，再结合企业属性信息在文章中出现的次数以及在文章中出现的位置，总和计算已认证的企业的被描述的概率；

具体计算方法如下：

定义：文章中可能描述企业i的概率为P(i)，描述企业i的权重为Score(i)；

i.对整篇文本进行分词，并统计每个词在文章中出现的次数；

ii.计算各词的TF-IDF值=TF*IDF，其中TF为词频，IDF为逆向文件频率；

iii.将文章中的分词根据计算后的TF-IDF值进行排序，选排名前20的词；

iv.如果前20个关键词中存在企业i的属性信息，则P(i)=1；反之，P(i)=0；

v.分别统计企业i的相关属性信息在标题出现的次数x和在正文中出现的次数y，则Score(i)=P(i)*（5*x+y）。

本发明还可以采用以下技术措施：

当在文章中识别出一个企业别称后，进一步识别该别称具体对应于何企业，识别方法如下：根据文本中出现企业别称对应的其他候选企业属性信息的位置，按就近识别原则，如果存在，则将最近的候选属性信息对应的企业ID作为该企业别称的ID；反之，选择企业属性库中第一个候选企业ID作为该企业别称对应的ID。

本发明具有的优点和积极效果是:

本发明的基于企业属性库的企业实体认证方法中，建立企业属性库，

并建立企业属性信息与企业ID的对应关系，对文本进行分词，并得到文本中词数集出现的位置，如果文本中出现了相同企业ID对应的企业属性信息，且两个属性信息之间的间隔在15个文字之内，认为该文本描述了该企业，再计算文本描述该家企业的概率。本发明通过建立企业属性库与增加企业认证机制，有针对性的抽取企业属性，通过该方法抽取的企业属性具有较高的准确率。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

E、计算文本描述该家企业的概率，根据文本的分词结果以及倒文档率，计算排名前20的关键词，如果在前20位关键词中存在已认证的企业属性信息，则判断文章描述该企业的概率较大，再结合企业属性信息在文章中出现的次数以及在文章中出现的位置，总和计算已认证的企业的被描述的概率，具体计算方法如下：

由于存在多家不同企业都对应于同一企业别称的情况，当在文本扫描后，由企业别称词数集扫描到企业别称后，仍需要进一步根据企业其他属性信息来确定企业别称描述的企业ID。根据文本中出现企业别称对应的其他候选企业属性信息的位置，按就近识别原则，如果存在，则将最近的候选属性信息对应的企业ID作为该企业别称的ID；反之，选择企业属性库中第一个候选企业ID作为该企业别称对应的ID。

样例如下：

如“美亚”分别是天津美亚技术有限公司，广东美亚食品有限公司的别称。当文章中出现美亚的时候，需要按照上述方法进行鉴定。天津美亚技术有限公司的相关属性信息如下：“高管：王某”，广东美亚食品有限公司的相关属性信息如下：“高管：李某”。

当文章内容如下：

“美亚高管王某昨日参加了公司项目会议”。

根据本发明中所述的基于企业属性库的企业实体认证方法中的适配原则，此文描述的美亚的企业全称为天津美亚技术有限公司。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于企业属性库的企业实体认证方法，包括以下步骤：

E、计算文本描述该家企业的概率，根据文本的分词结果以及倒文档率，计算排名前20的关键词，如果在前20位关键词中存在已认证的企业属性信息，则判断文本描述该企业的概率较大，再结合企业属性信息在文本中出现的次数以及在文本中出现的位置，总和计算已认证的企业的被描述的权重；

具体计算方法如下：

ii.计算各词的TF-IDF值＝TF*IDF，其中TF为词频，IDF为逆向文件频率；

iv.如果前20个关键词中存在企业i的属性信息，则P(i)＝1；反之，P(i)＝0；

v.分别统计企业i的相关属性信息在标题出现的次数x和在正文中出现的次数y，则Score(i)＝P(i)*(5*x+y)。

2.根据权利要求1所述的基于企业属性库的企业实体认证方法，其特征在于：当在文章中识别出一个企业别称后，进一步识别该别称具体对应于何企业，识别方法如下：根据文本中出现企业别称对应的其他候选企业属性信息的位置，按就近识别原则，如果存在，则将最近的候选属性信息对应的企业ID作为该企业别称的ID；反之，选择企业属性库中第一个候选企业ID作为该企业别称对应的ID。

样例如下：

如

“美亚”分别是天津美亚技术有限公司，广东美亚食品有限公司的别称。当文章中出现美亚的时候，需要按照上述方法进行鉴定。天津美亚技术有限公司的相关属性信息如下(高管：王某)，广东美亚食品有限公司的相关属性信息如下(高管：李某)

文章内容如下：

“美亚高管王某昨日参加了公司项目会议”。

根据适配原则，此文描述的美亚的企业全称为天津美亚技术有限公司。