CN105574111A - 基于企业属性库的企业实体认证方法 - Google Patents
基于企业属性库的企业实体认证方法 Download PDFInfo
- Publication number
- CN105574111A CN105574111A CN201510925898.8A CN201510925898A CN105574111A CN 105574111 A CN105574111 A CN 105574111A CN 201510925898 A CN201510925898 A CN 201510925898A CN 105574111 A CN105574111 A CN 105574111A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- text
- attributes
- information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于企业属性库的企业实体认证方法,通过建立企业属性库,并建立企业属性信息与企业ID的对应关系,对文本进行分词,并得到文本中词数集出现的位置,如果文本中出现了相同企业ID对应的企业属性信息,且两个属性信息之间的间隔在15个文字之内,认为该文本描述了该企业,再计算文本描述该家企业的概率。本发明通过建立企业属性库与增加企业认证机制,有针对性的抽取企业属性,通过该方法抽取的企业属性具有较高的准确率。
Description
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种基于企业属性库的企业实体认证方法。
背景技术
随之互联网的快速发展,使得网页信息成为了一个巨大的信息发布源和传播源,且网页信息还在飞速增加,而网页中可能包含了用户所需的大量信息。
实际应用中,为了能够有针对性地向用户提供网页信息,一般通过网页信息提取的方式从存在的网页中提取有用的信息,并将提取出的信息提供给用户。现有技术中,提取网页信息时,可以通过关键字匹配等方法实现。具体的,通过关键字匹配法提取网页信息时,在目标网页的源代码中查找与预设的关键字相匹配的信息,并提取与预设的关键字相匹配的信息。应用上述方法能够由目标网页中提取出部分相关信息学,但是由于网页中所包含的信息量较大,有可能会存在多个与预设的关键字相匹配的信息,可能会造成所提取的信息中包含冗余信息或者错误信息,影响用户体验。当提取出的信息中包含冗余信息的情况下,如要剔除冗余信息,则需要对提取出的信息进行二次处理,信息提取效率低。
目前通过智能抽取技术在几大权威网站采集1千多万家企业相关属性信息,已构建了企业属性库,并用于后续的企业实体认证。在文本处理中,需要对企业实体进行证认,主要依赖与企业属性库中各家企业的相关知识,包括企业名称,别称,高管,产品,职位等关键信息。而在企业别称的识别中,由于企业别称可能对应多家企业ID,因此如何通过企业别称更准确识别文本中真正描述的企业是目前函待解决的问题。
发明内容
本发明要解决的技术问题是提供一种基于企业属性库的企业实体认证方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于企业属性库的企业实体认证方法,包括以下步骤:
A、建立企业属性库,包括企业ID和涵盖企业名称、别称、高管、产品、职位信息的企业属性信息;
B、根据企业属性库内企业属性字段,建立词数集,并建立企业属性信息与企业ID的对应关系;
C、扫描文本,对文本进行分词,并得到文本中词数集出现的位置;
D、企业认证处理,如果文本中出现了相同企业ID对应的企业名称、企业高管、企业产品等企业属性信息,并且存在两个属性信息之间的间隔在15个文字之内,则初步判断这篇文本描述了该企业,通过该逻辑获得该文本中所有描述的企业ID;
E、计算文本描述该家企业的概率,根据文本的分词结果以及倒文档率,计算排名前20的关键词,如果在前20位关键词中存在已认证的企业属性信息,则判断文章描述该企业的概率较大,再结合企业属性信息在文章中出现的次数以及在文章中出现的位置,总和计算已认证的企业的被描述的概率;
具体计算方法如下:
定义:文章中可能描述企业i的概率为P(i),描述企业i的权重为Score(i);
i.对整篇文本进行分词,并统计每个词在文章中出现的次数;
ii.计算各词的TF-IDF值=TF*IDF,其中TF为词频,IDF为逆向文件频率;
iii.将文章中的分词根据计算后的TF-IDF值进行排序,选排名前20的词;
iv.如果前20个关键词中存在企业i的属性信息,则P(i)=1;反之,P(i)=0;
v.分别统计企业i的相关属性信息在标题出现的次数x和在正文中出现的次数y,则Score(i)=P(i)*(5*x+y)。
本发明还可以采用以下技术措施:
当在文章中识别出一个企业别称后,进一步识别该别称具体对应于何企业,识别方法如下:根据文本中出现企业别称对应的其他候选企业属性信息的位置,按就近识别原则,如果存在,则将最近的候选属性信息对应的企业ID作为该企业别称的ID;反之,选择企业属性库中第一个候选企业ID作为该企业别称对应的ID。
本发明具有的优点和积极效果是:
本发明的基于企业属性库的企业实体认证方法中,建立企业属性库,
并建立企业属性信息与企业ID的对应关系,对文本进行分词,并得到文本中词数集出现的位置,如果文本中出现了相同企业ID对应的企业属性信息,且两个属性信息之间的间隔在15个文字之内,认为该文本描述了该企业,再计算文本描述该家企业的概率。本发明通过建立企业属性库与增加企业认证机制,有针对性的抽取企业属性,通过该方法抽取的企业属性具有较高的准确率。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
本发明的基于企业属性库的企业实体认证方法,包括以下步骤:
本发明的基于企业属性库的企业实体认证方法,包括以下步骤:
A、建立企业属性库,包括企业ID和涵盖企业名称、别称、高管、产品、职位信息的企业属性信息;
B、根据企业属性库内企业属性字段,建立词数集,并建立企业属性信息与企业ID的对应关系;
C、扫描文本,对文本进行分词,并得到文本中词数集出现的位置;
D、企业认证处理,如果文本中出现了相同企业ID对应的企业名称、企业高管、企业产品等企业属性信息,并且存在两个属性信息之间的间隔在15个文字之内,则初步判断这篇文本描述了该企业,通过该逻辑获得该文本中所有描述的企业ID;
E、计算文本描述该家企业的概率,根据文本的分词结果以及倒文档率,计算排名前20的关键词,如果在前20位关键词中存在已认证的企业属性信息,则判断文章描述该企业的概率较大,再结合企业属性信息在文章中出现的次数以及在文章中出现的位置,总和计算已认证的企业的被描述的概率,具体计算方法如下:
定义:文章中可能描述企业i的概率为P(i),描述企业i的权重为Score(i);
i.对整篇文本进行分词,并统计每个词在文章中出现的次数;
ii.计算各词的TF-IDF值=TF*IDF,其中TF为词频,IDF为逆向文件频率;
iii.将文章中的分词根据计算后的TF-IDF值进行排序,选排名前20的词;
iv.如果前20个关键词中存在企业i的属性信息,则P(i)=1;反之,P(i)=0;
v.分别统计企业i的相关属性信息在标题出现的次数x和在正文中出现的次数y,则Score(i)=P(i)*(5*x+y)。
由于存在多家不同企业都对应于同一企业别称的情况,当在文本扫描后,由企业别称词数集扫描到企业别称后,仍需要进一步根据企业其他属性信息来确定企业别称描述的企业ID。根据文本中出现企业别称对应的其他候选企业属性信息的位置,按就近识别原则,如果存在,则将最近的候选属性信息对应的企业ID作为该企业别称的ID;反之,选择企业属性库中第一个候选企业ID作为该企业别称对应的ID。
样例如下:
如“美亚”分别是天津美亚技术有限公司,广东美亚食品有限公司的别称。当文章中出现美亚的时候,需要按照上述方法进行鉴定。天津美亚技术有限公司的相关属性信息如下:“高管:王某”,广东美亚食品有限公司的相关属性信息如下:“高管:李某”。
当文章内容如下:
“美亚高管王某昨日参加了公司项目会议”。
根据本发明中所述的基于企业属性库的企业实体认证方法中的适配原则,此文描述的美亚的企业全称为天津美亚技术有限公司。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (2)
1.一种基于企业属性库的企业实体认证方法,包括以下步骤:
A、建立企业属性库,包括企业ID和涵盖企业名称、别称、高管、产品、职位信息的企业属性信息;
B、根据企业属性库内企业属性字段,建立词数集,并建立企业属性信息与企业ID的对应关系;
C、扫描文本,对文本进行分词,并得到文本中词数集出现的位置;
D、企业认证处理,如果文本中出现了相同企业ID对应的企业名称、企业高管、企业产品等企业属性信息,并且存在两个属性信息之间的间隔在15个文字之内,则初步判断这篇文本描述了该企业,通过该逻辑获得该文本中所有描述的企业ID;
E、计算文本描述该家企业的概率,根据文本的分词结果以及倒文档率,计算排名前20的关键词,如果在前20位关键词中存在已认证的企业属性信息,则判断文本描述该企业的概率较大,再结合企业属性信息在文本中出现的次数以及在文本中出现的位置,总和计算已认证的企业的被描述的权重;
具体计算方法如下:
定义:文章中可能描述企业i的概率为P(i),描述企业i的权重为Score(i);
i.对整篇文本进行分词,并统计每个词在文章中出现的次数;
ii.计算各词的TF-IDF值=TF*IDF,其中TF为词频,IDF为逆向文件频率;
iii.将文章中的分词根据计算后的TF-IDF值进行排序,选排名前20的词;
iv.如果前20个关键词中存在企业i的属性信息,则P(i)=1;反之,P(i)=0;
v.分别统计企业i的相关属性信息在标题出现的次数x和在正文中出现的次数y,则Score(i)=P(i)*(5*x+y)。
2.根据权利要求1所述的基于企业属性库的企业实体认证方法,其特征在于:当在文章中识别出一个企业别称后,进一步识别该别称具体对应于何企业,识别方法如下:根据文本中出现企业别称对应的其他候选企业属性信息的位置,按就近识别原则,如果存在,则将最近的候选属性信息对应的企业ID作为该企业别称的ID;反之,选择企业属性库中第一个候选企业ID作为该企业别称对应的ID。
样例如下:
如
“美亚”分别是天津美亚技术有限公司,广东美亚食品有限公司的别称。当文章中出现美亚的时候,需要按照上述方法进行鉴定。天津美亚技术有限公司的相关属性信息如下(高管:王某),广东美亚食品有限公司的相关属性信息如下(高管:李某)
文章内容如下:
“美亚高管王某昨日参加了公司项目会议”。
根据适配原则,此文描述的美亚的企业全称为天津美亚技术有限公司。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510925898.8A CN105574111A (zh) | 2015-12-10 | 2015-12-10 | 基于企业属性库的企业实体认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510925898.8A CN105574111A (zh) | 2015-12-10 | 2015-12-10 | 基于企业属性库的企业实体认证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105574111A true CN105574111A (zh) | 2016-05-11 |
Family
ID=55884242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510925898.8A Withdrawn CN105574111A (zh) | 2015-12-10 | 2015-12-10 | 基于企业属性库的企业实体认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574111A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109660590A (zh) * | 2018-10-23 | 2019-04-19 | 西安艾润物联网技术服务有限责任公司 | 信息推送方法及相关产品 |
CN110175330A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
CN102214209A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种用于识别同名信息实体的方法与设备 |
CN102831128A (zh) * | 2011-06-15 | 2012-12-19 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN103631948A (zh) * | 2013-12-11 | 2014-03-12 | 北京京东尚科信息技术有限公司 | 命名实体的识别方法 |
-
2015
- 2015-12-10 CN CN201510925898.8A patent/CN105574111A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
CN102214209A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种用于识别同名信息实体的方法与设备 |
CN102831128A (zh) * | 2011-06-15 | 2012-12-19 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN103631948A (zh) * | 2013-12-11 | 2014-03-12 | 北京京东尚科信息技术有限公司 | 命名实体的识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN108460014B (zh) * | 2018-02-07 | 2022-02-25 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109660590A (zh) * | 2018-10-23 | 2019-04-19 | 西安艾润物联网技术服务有限责任公司 | 信息推送方法及相关产品 |
CN110175330A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
CN110175330B (zh) * | 2019-05-29 | 2023-07-14 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hassan et al. | Twitter sentiment analysis: A bootstrap ensemble framework | |
CN106296059B (zh) | 派送网点确定方法及设备 | |
Boia et al. | A:) is worth a thousand words: How people attach sentiment to emoticons and words in tweets | |
Liu et al. | What’s in a name? using first names as features for gender inference in twitter | |
CN104008186B (zh) | 从目标文本中确定关键词的方法和装置 | |
US20210224269A1 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
US11055373B2 (en) | Method and apparatus for generating information | |
CN108874996B (zh) | 网站分类方法及装置 | |
US20180004718A1 (en) | Fact machine for user generated content | |
CN102193936A (zh) | 一种数据分类的方法及装置 | |
CN104750754A (zh) | 网站所属行业的分类方法和服务器 | |
CN105786799A (zh) | 网络文章原创性判定方法 | |
TW201220233A (en) | by which category information of long tail keywords is provided for users within a specified time period | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN101071443A (zh) | 内容相关广告识别方法和内容相关广告服务器 | |
CN103514181A (zh) | 一种搜索方法和装置 | |
CN105574111A (zh) | 基于企业属性库的企业实体认证方法 | |
Cortez et al. | Joint unsupervised structure discovery and information extraction | |
CN104239552A (zh) | 生成关联关键词、提供关联关键词的方法及系统 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN105279159A (zh) | 联系人的提示方法和装置 | |
CN103309851B (zh) | 短文本的垃圾识别方法及系统 | |
CN106933798B (zh) | 信息分析的方法及装置 | |
CN106033444B (zh) | 文本内容的聚类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant after: Tianjin mass information technology Limited by Share Ltd Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant before: Tianjin Hylanda Information Technology Co.,Ltd. |
|
COR | Change of bibliographic data | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160511 |
|
WW01 | Invention patent application withdrawn after publication |