CN107463616B - 一种企业信息分析方法及系统 - Google Patents

一种企业信息分析方法及系统 Download PDF

Info

Publication number
CN107463616B
CN107463616B CN201710535084.2A CN201710535084A CN107463616B CN 107463616 B CN107463616 B CN 107463616B CN 201710535084 A CN201710535084 A CN 201710535084A CN 107463616 B CN107463616 B CN 107463616B
Authority
CN
China
Prior art keywords
information
data
module
category
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710535084.2A
Other languages
English (en)
Other versions
CN107463616A (zh
Inventor
张永煦
程窦华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fanxiang Network Technology Co ltd
Original Assignee
Shanghai Fanxiang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fanxiang Network Technology Co ltd filed Critical Shanghai Fanxiang Network Technology Co ltd
Priority to CN201710535084.2A priority Critical patent/CN107463616B/zh
Publication of CN107463616A publication Critical patent/CN107463616A/zh
Application granted granted Critical
Publication of CN107463616B publication Critical patent/CN107463616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

一种企业信息分析方法及系统,包括:采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关;根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息。

Description

一种企业信息分析方法及系统
技术领域
本发明涉及一种产品类别识别方法,特别是涉及一种企业信息分析方法及系统。
背景技术
近期在智能推荐系统、精准营销等大数据应用领域,如何对企业进行画像,识别企业产品所属的类别是系统中重要的环节。
全国的注册的企业已达千万之多,而且企业的数量在不断增长。如通过人工方式去查询分析这些企业的产品类别,所属行业等,必将耗费极大的人力和时间。而且,随着企业业务范围的拓展和变化,新的产品不断增加,旧的产品也可能消失,每隔一段时间就需要重新进行统计。因此如果快速、准确的识别企业产品所属类别和企业所属行业就成为了亟待解决的问题。
现有技术存在过度依赖人工查询、信息提取效率低、查询条件无法动态更新,类别信息提取精度差的技术问题。
发明内容
鉴于以上现有技术存在过度依赖人工查询、信息提取效率低、查询条件无法动态更新,类别信息提取精度差的技术问题,本发明的目的在于提供一种企业信息分析方法及系统,包括:一种企业信息分析方法,包括:采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关;根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息。
于本发明的一实施方式中,采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关,包括:对各行业的产品类别进行分类,并分析确定该产品类别的关键词;利用word2vector算法,根据欧式距离确定不少于两个的与关键词的相近词语;筛除相近词语中与关键词的重复内容,最后得到新增关键词;将新增关键词与关键词的集合合并,得到产品的最终关键词。
于本发明的一实施方式中,根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,包括:获取相关网页,从相关网页中提取网页词汇信息;根据网页词汇信息,通过BM25算法计算每一网页与各产品类别的相关程度信息,计算相关程度信息,得到类别关联数据;根据类别关联数据识别产品的类别信息及行业信息。
于本发明的一实施方式中,根据网页分词信息,通过BM25算法计算每一网页与各产品类别的相关程度信息,包括:获取产品类别信息及产品相关网页的网页词汇信息;根据BM25 算法,计算相关性数据IDF(qi),公式如下所示:
Figure BDA0001340108010000021
根据相关性数据IDF(qi)的大小确定相关程度信息,N为索引中的全部文档数,n(qi)为包含qi的文档数;对相关程度信息归一化,得到类别关联数据。
于本发明的一实施方式中,根据类别关联数据识别产品的类别信息及行业信息,包括:对每个产品类对应的类别关联数据排序;取排列中最大值及其后不小于3个类别关联数据求平均值,得产品类别数据;对所示产品类别数据归一化得到类别指示数据;将行业包含产品类别的类别指示数据相加,得到企业在各行业的行业指示数据;计算行业指示数据,得出行业指示数据最大的行业,得行业信息。
于本发明的一实施方式中,一种企业信息分析的系统,其特征在于,包括:关键词库模块和产品类别提取模块;关键词库模块,用于采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关;产品类别提取模块,用于根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,产品类别提取模块与关键词库模块连接。
于本发明的一实施方式中,关键词库模块,包括:关键词确定模块、相近词确定模块、新词获取模块和最终关键词模块;关键词确定模块,用于对各行业的产品类别进行分类,并分析确定该产品类别的关键词;相近词确定模块,用于利用word2vector算法,根据欧式距离确定不少于两个的与关键词的相近词语,相近词确定模块与关键词确定模块连接;新词获取模块,用于筛除相近词语中与关键词的重复内容,最后得到新增关键词,新词获取模块与相近词确定模块连接;最终关键词模块,用于将新增关键词与关键词的集合合并,得到产品的最终关键词,最终关键词模块与关键词确定模块连接,最终关键词模块与新词获取模块连接。
于本发明的一实施方式中,产品类别提取模块,包括:网页分词模块、关联数据计算模块和分类信息识别模块;网页分词模块,用于获取相关网页,从相关网页中提取网页词汇信息;关联数据计算模块,用于根据网页词汇信息,通过BM25算法计算每一网页与各产品类别的相关程度信息,计算相关程度信息,得到类别关联数据,关联数据计算模块与网页分词模块连接;分类信息识别模块,用于根据类别关联数据识别产品的类别信息及行业信息,分类信息识别模块与关联数据计算模块连接。
于本发明的一实施方式中,关联数据计算模块,包括:类别及分词信息获取模块、相关性数据模块、相关程度确定模块和关联数据生成模块;类别及分词信息获取模块,用于获取产品类别信息及产品相关网页的网页词汇信息;相关性数据模块,用于根据BM25算法,计算相关性数据IDF(qi),公式如下所示:
Figure BDA0001340108010000031
,N为索引中的全部文档数,n(qi)为包含qi的文档数,相关性数据模块与类别及分词信息获取模块连接;相关程度确定模块,用于根据相关性数据IDF(qi)的大小确定相关程度信息,相关程度确定模块与相关性数据模块连接;关联数据生成模块,用于对相关程度信息归一化,得到类别关联数据,关联数据生成模块连接相关程度确定模块连接。
于本发明的一实施方式中,分类信息识别模块,包括:关联排序模块、类别数据模块、归一化模块、行业指示数据模块和行业信息计算模块;关联排序模块,用于对每个产品类对应的类别关联数据排序;类别数据模块,用于取排列中最大值及其后不小于3个类别关联数据求平均值,得产品类别数据,类别数据模块与关联排序模块连接;归一化模块,用于对所示产品类别数据归一化得到类别指示数据,归一化模块与类别数据模块连接;行业指示数据模块,用于将行业包含产品类别的类别指示数据相加,得到企业在各行业的行业指示数据,行业指示数据模块与归一化模块连接;行业信息计算模块,用于计算行业指示数据,得出行业指示数据最大的行业,得行业信息,行业信息计算模块与行业指示数据模块连接。
如上所述,本发明提供的一种企业信息分析方法及系统,具有以下有益效果:提供一种基于自然语言处理技术提取企业产品类别的方法,能够通过计算机自动的识别各企业所经营的产品类别,同时识别各企业的所属行业,与传统的人工分析、统计各企业的产品类别及其所属行业,该方法结合数据挖掘、自然语言处理等技术,能够自动、快速、准确的实现个企业的产品类别及其所属行业,大大节省了人力、财力以及时间资源。
综上所述,本发明提供一种企业信息分析方法及系统,搜索互联网,得到产品类别的关键词集合,统计关键词的词频及识别率信息,确定产品类别的关键词,根据word2vector算法获取最终关键词;根据所示关键词筛选网页信息,计算网页及关键词的相关程度信息及每个产品类与每个网页的相关程度信息,计算得到类别关联数据,根据类别关联数据识别产品的类别信息及行业信息首先在提取企业产品类别之前,有大量的准备工作,其中包括语料库建立、产品分类及其关键词确定、各企业的网页数据搜集,以某公司为例来说明产品类别提取的步骤,其他企业的产品类别的提取方法一样,解决了传统技术中过度依赖人工查询、信息提取效率低、查询条件无法动态更新,类别信息提取精度差的技术问题。
附图说明
图1显示为本发明的一种企业信息方法步骤示意图。
图2显示为本发明的产品关键词提取步骤示意图。
图3显示为本发明的企业产品信息获取步骤示意图。
图4显示为本发明的类别管理数据计算步骤示意图。
图5显示为本发明的列别及行业信息获取步骤示意图。
图6显示为本发明的一种企业信息分析的系统模块示意图。
图7显示为本发明的关键词库模块示意图。
图8显示为本发明的产品类别提取模块示意图。
图9显示为本发明的产品类别提取模块示意图。
图10显示为本发明的分类信息识别模块示意图。
元件标号说明
1 企业信息分析的系统
11 关键词库模块
12 产品类别提取模块
111 关键词确定模块
112 相近词确定模块
113 新词获取模块
114 最终关键词模块
121 网页分词模块
122 关联数据计算模块
123 分类信息识别模块
1221 类别及分词信息获取模块
1222 相关性数据模块
1223 相关程度确定模块
1224 关联数据生成模块
1231 关联排序模块
1232 类别数据模块
1233 归一化模块
1234 行业指示数据模块
1235 行业信息计算模块
步骤标号说明
图1 S1~S2
图2 S11~S14
图3 S21~S23
图4 S221~S224
图5 S231~S235
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图10,须知,本说明书所附图式所绘示的结构,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本实用新型所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如”上”、”下”、”左”、”右”、”中间”及”一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,显示为本发明的一种企业信息方法步骤示意图,如图1所示,一种企业信息方法包括:一种企业信息分析方法,包括:
S1、采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关,在提取企业产品类别之前,有大量的准备工作,其中包括语料库建立、产品分类及其关:1词确定、各企业的网页数据搜集;
S2、根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,利用word2vector,采用欧式距离求各产品关键词的同义词,取其最相近的前10个词添加到该产品的关键词中,如和理财最相近的10个词语为:理财产品、理财师、理财专家、家庭理财、封闭期、出借、投资、基金、股票、收益率,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,以某公司为例来说明产品类别提取的步骤,其他企业的产品类别的提取方法一样。
请参阅图2,显示为本发明的产品关键词提取步骤示意图,如图2所示,S1、采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关,包括:
S11、对各行业的产品类别进行分类,并分析确定该产品类别的关键词,从互联网上搜集大量网页数据,这些网页数据包含各行业的专业词汇,得到语料库,然后统计每个词出现的词频及它的IDF值;
S12、利用word2vector算法,根据欧式距离确定不少于两个的与关键词的相近词语,对各行业的产品类别进行分类,并分析确定该产品类别的关键词,这些关键词必须与该产品密切相关,是产品的描述性词语,假设其关键词有w1、w2、w3...wn;
S13、筛除相近词语中与关键词的重复内容,最后得到新增关键词,对每个网页进行分词、去停用词,将这些对获取关键词没有作用的信息和词汇筛除,除去网页中的HTML标签,对剩下的数据进行分词,去停用词,得到如图所示,一个公司的所有网页分词结果保存为一个 txt,一个网页的分词结果为其中的一行;
S14、将新增关键词与关键词的集合合并,得到产品的最终关键词,利用word2vector算法,采用欧式距离来寻找分别与w1、w2、w3...wn最相近的前10个词语,去掉相同的词语,最后得到新增的关键词w1、w2、w3...wm(m小于等于10*n),总的关键词为w1、w2、w3... wn,wn+1...wn+m。
请参阅图3,显示为本发明的企业产品信息获取步骤示意图,如图3所示,S2、根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,包括:
S21、获取相关网页,从相关网页中提取网页词汇信息,除去该企业的每个网页数据的停用词、HTML标签,然后对其进行分词;
S22、根据网页词汇信息,通过BM25算法计算每一网页与各产品类别的相关程度信息,计算相关程度信息,得到类别关联数据,计算每个网页与每个关键词的相关性得分;
S23、根据类别关联数据识别产品的类别信息及行业信息,对每个产品类对应的网页相关性得分进行排序和归一化,根据归一化的数据得企业产品类别及所属行业。
请参阅图4,显示为本发明的类别管理数据计算步骤示意图,如图4所示,S22、根据网页分词信息,通过BM25算法计算每一网页与各产品类别的相关程度信息,包括:
S221、获取产品类别信息及产品相关网页的网页词汇信息,对其进行分词,按照特定的个数作为输入数据;
S222、根据BM25算法,计算相关性数据IDF(qi),BM25算法的一般性公式如下:
Figure BDA0001340108010000071
其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,可以把Query的分词作为语素分析,每个词表示一个语素),d表示一个搜索结果文档,Wi表示语素qi的权重, R(qi,d)表示语素qi与文档d的相关性得分。公式如下所示:
Figure BDA0001340108010000072
其中,N为索引中的全部文档数,n(qi)为包含qi的文档数。
S223、根据相关性数据IDF(qi)的大小确定相关程度信息,计算其前10个最大值的平均得分,即为该公司在每个产品类的得分,最后对其进行归一化,通过产品类的得分高低进行识别,根据IDF的定义可以看出,对于给定的文档集合,包含qi的文档数越多,qi的权重则越低,即当很多文档都包含qi时,qi的区分度就不高,因此使用qi来判断相关性时的重要度就较低;
S224、对相关程度信息归一化,得到类别关联数据,语素qi与文档的相关性得分R(qi,d),其一般形式为:
Figure BDA0001340108010000073
Figure BDA0001340108010000074
其中,k1,k2,b为调节因子,通常根据经验设置,一般ki∈(1.2,2.0),这里取ki=2,b=0.75; fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档d的长度,avgdl为所有文档的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,当k2=0,因此公式可以简化为:
Figure BDA0001340108010000075
从K的定义中可以看出,参数b的作用是调整文档长度对相关性影响的大小。b越大,文档长度对相关性得分的影响越大,反之越小。而文档的相对长度越长,K值将越大,则相关性得分会越小。即当文档较长时,包含qi的机会就越大,因此,同等fi的情况下,长文档与qi的相关性应该比短文档与qi的相关性弱。以一家公司为例,假设该企业共有30个网页数据,计算每个关键词与每个网页的相关性得分,假设一个网页Q出现理财的次数为fi=30,IDF(理财) =3.56,该网页的长度,即总词数为dl=275,所有文档的平均长度avgdl=380,调节因子k1=2, b=0.75,则该网页与理财的相关性得分为:
Figure BDA0001340108010000081
求出所有关键词与该企业的所有网页的相关性得分。
请参阅图5,显示为本发明的列别及行业信息获取步骤示意图,如图5所示,S23、根据类别关联数据识别产品的类别信息及行业信息,包括:
S231、对每个产品类对应的类别关联数据排序,一种产品会含有多个关键词,因此需要将各产品的所有关键词进行加和,得到每个网页与各产品的相关性得分;
S232、取排列中最大值及其后不小于3个类别关联数据求平均值,得产品类别数据,对每个产品类对应的网页相关性得分进行排序,计算其前10个最大值的平均得分;
S233、对所示产品类别数据归一化得到类别指示数据,将产品类与网页的相关性得分进行排序,取前10个最大值的均值,归一化后的值即为该企业在各产品类的得分,从该企业在各产品的得分即可知道该公司经营的产品类有哪些以及该公司属于哪个行业;
S234、将行业包含产品类别的类别指示数据相加,得到企业在各行业的行业指示数据;
S235、计算行业指示数据,得出行业指示数据最大的行业,得行业信息,如想知道企业的所属行业,只需将行业所含产品类别的得分进行相加,即可得到企业在各行业的得分,计算得分最高所属的行业,从而判断出其行业。
请参阅图6,显示为本发明的一种企业信息分析的系统模块示意图,如图6所示,一种企业信息分析的系统1,其特征在于,包括:关键词库模块11和产品类别提取模块12;关键词库模块11,用于采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,产品类别信息与行业信息相关,在提取企业产品类别之前,有大量的准备工作,其中包括语料库建立、产品分类及其关键词确定、各企业的网页数据搜集;产品类别提取模块12,用于根据所计算的关键词集合和网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,利用word2vector,采用欧式距离求各产品关键词的同义词,取其最相近的前10个词添加到该产品的关键词中,如和理财最相近的10个词语为:理财产品、理财师、理财专家、家庭理财、封闭期、出借、投资、基金、股票、收益率,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,以某公司为例来说明产品类别提取的步骤,其他企业的产品类别的提取方法一样,关键词库模块11与产品类别提取模块12连接。
请参阅图7,显示为本发明的关键词库模块示意图,如图7所示,关键词库模块11,包括:关键词确定模块111、相近词确定模块112、新词获取模块113和最终关键词模块114;关键词确定模块111,用于对各行业的产品类别进行分类,并分析确定该产品类别的关键词,从互联网上搜集大量网页数据,这些网页数据包含各行业的专业词汇,得到语料库,然后统计每个词出现的词频及它的IDF值;相近词确定模块112,用于利用word2vector算法,根据欧式距离确定不少于两个的与关键词的相近词语,对各行业的产品类别进行分类,并分析确定该产品类别的关键词,这些关键词必须与该产品密切相关,是产品的描述性词语,假设其关键词有w1、w2、w3...wn,相近词确定模块112与关键词确定模块111连接;新词获取模块113,用于筛除相近词语中与关键词的重复内容,最后得到新增关键词,最后得到新增关键词,对每个网页进行分词、去停用词,将这些对获取关键词没有作用的信息和词汇筛除,除去网页中的HTML标签,对剩下的数据进行分词,去停用词,得到如图所示,一个公司的所有网页分词结果保存为一个txt,一个网页的分词结果为其中的一行,新词获取模块113与相近词确定模块112连接;最终关键词模块114,用于将新增关键词与关键词的集合合并,得到产品的最终关键词,最终关键词模块114与关键词确定模块111连接,利用word2vector算法,采用欧式距离来寻找分别与w1、w2、w3...wn最相近的前10个词语,去掉相同的词语,最后得到新增的关键词w1、w2、w3...wm(m小于等于10*n),总的关键词为w1、w2、 w3...wn,wn+1...wn+m,最终关键词模块114与新词获取模块113连接。
请参阅图8,显示为本发明的产品类别提取模块示意图,如图8所示,产品类别提取模块12,包括:网页分词模块121、关联数据计算模块122和分类信息识别模块123;网页分词模块121,用于获取相关网页,从相关网页中提取网页词汇信息,除去该企业的每个网页数据的停用词、HTML标签,然后对其进行分词;关联数据计算模块122,用于根据网页词汇信息,通过BM25算法计算每一网页与各产品类别的相关程度信息,计算相关程度信息,得到类别关联数据,计算每个网页与每个关键词的相关性得分,关联数据计算模块122与网页分词模块121连接;分类信息识别模块123,用于根据类别关联数据识别产品的类别信息及行业信息,对每个产品类对应的网页相关性得分进行排序和归一化,根据归一化的数据得企业产品类别及所属行业,分类信息识别模块123与关联数据计算模块122连接。
请参阅图9,显示为本发明的产品类别提取模块示意图,如图9所示,关联数据计算模块122,包括:类别及分词信息获取模块1221、相关性数据模块1222、相关程度确定模块1223 和关联数据生成模块1224;类别及分词信息获取模块1221,用于获取产品类别信息及产品相关网页的网页词汇信息,对其进行分词,按照特定的个数作为输入数据;相关性数据模块1222,用于根据BM25算法,计算相关性数据IDF(qi),公式如下所示:
Figure BDA0001340108010000101
BM25算法的一般性公式如下:
Figure BDA0001340108010000102
,其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,可以把Query的分词作为语素分析,每个词表示一个语素),d表示一个搜索结果文档,Wi表示语素qi的权重, R(qi,d)表示语素qi与文档d的相关性得分。公式如下所示:
Figure BDA0001340108010000103
其中,N为索引中的全部文档数,n(qi)为包含qi的文档数,相关性数据模块1222与类别及分词信息获取模块1221连接;相关程度确定模块1223,用于根据相关性数据IDF(qi)的大小确定相关程度信息,计算其前10个最大值的平均得分,即为该公司在每个产品类的得分,最后对其进行归一化,通过产品类的得分高低进行识别,根据IDF的定义可以看出,对于给定的文档集合,包含qi的文档数越多,qi的权重则越低,即当很多文档都包含qi时,qi的区分度就不高,因此使用qi来判断相关性时的重要度就较低,相关程度确定模块1223与相关性数据模块1222连接;关联数据生成模块1224,用于对相关程度信息归一化,得到类别关联数据,关联数据生成模块1224连接相关程度确定模块1223连接,语素qi与文档的相关性得分R(qi,d),其一般形式为:
Figure BDA0001340108010000104
Figure BDA0001340108010000105
其中,k1,k2,b为调节因子,通常根据经验设置,一般ki∈(1.2,2.0),这里取ki=2,b=0.75; fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档d的长度,avgdl为所有文档的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,当k2=0,因此公式可以简化为:
Figure BDA0001340108010000111
从K的定义中可以看出,参数b的作用是调整文档长度对相关性影响的大小。b越大,文档长度对相关性得分的影响越大,反之越小。而文档的相对长度越长,K值将越大,则相关性得分会越小。即当文档较长时,包含qi的机会就越大,因此,同等fi的情况下,长文档与qi的相关性应该比短文档与qi的相关性弱。以一家公司为例,假设该企业共有30个网页数据,计算每个关键词与每个网页的相关性得分,假设一个网页Q出现理财的次数为fi=30,IDF(理财) =3.56,该网页的长度,即总词数为dl=275,所有文档的平均长度avgdl=380,调节因子k1=2, b=0.75,则该网页与理财的相关性得分为:
Figure BDA0001340108010000112
求出所有关键词与该企业的所有网页的相关性得分。
请参阅图10,显示为本发明的分类信息识别模块示意图,如图10所示,分类信息识别模块123,包括:关联排序模块1231、类别数据模块1232、归一化模块1233、行业指示数据模块1234和行业信息计算模块1235;关联排序模块1231,用于对每个产品类对应的类别关联数据排序,一种产品会含有多个关键词,因此需要将各产品的所有关键词进行加和,得到每个网页与各产品的相关性得分;类别数据模块1232,用于取排列中最大值及其后不小于3个类别关联数据求平均值,得产品类别数据,对每个产品类对应的网页相关性得分进行排序,计算其前10个最大值的平均得分,类别数据模块1232与关联排序模块1231连接;归一化模块1233,用于对所示产品类别数据归一化得到类别指示数据,归一化模块1233与类别数据模块1232连接,取前10个最大值的均值,归一化后的值即为该企业在各产品类的得分,从该企业在各产品的得分即可知道该公司经营的产品类有哪些以及该公司属于哪个行业;行业指示数据模块1234,用于将行业包含产品类别的类别指示数据相加,得到企业在各行业的行业指示数据,得到企业在各行业的行业指示数据,行业指示数据模块1234与归一化模块1233 连接;行业信息计算模块1235,用于计算行业指示数据,得出行业指示数据最大的行业,得行业信息,如想知道企业的所属行业,只需将行业所含产品类别的得分进行相加,即可得到企业在各行业的得分,计算得分最高所属的行业,从而判断出其行业,得行业信息,行业信息计算模块1235与行业指示数据模块1234连接。
综上所述,本发明提供的一种企业信息分析方法及系统,具有以下有益效果:提供一种基于自然语言处理技术提取企业产品类别的方法,能够通过计算机自动的识别各企业所经营的产品类别,同时识别各企业的所属行业,与传统的人工分析、统计各企业的产品类别及其所属行业,该方法结合数据挖掘、自然语言处理等技术,能够自动、快速、准确的实现个企业的产品类别及其所属行业,大大节省了人力、财力以及时间资源。
综上所述,本发明提供一种企业信息分析方法及系统,搜索互联网,得到产品类别的关键词集合,统计关键词的词频及识别率信息,确定产品类别的关键词,根据word2vector算法获取最终关键词;根据所示关键词筛选网页信息,计算网页及关键词的相关程度信息及每个产品类与每个网页的相关程度信息,计算得到类别关联数据,根据类别关联数据识别产品的类别信息及行业信息首先在提取企业产品类别之前,有大量的准备工作,其中包括语料库建立、产品分类及其关键词确定、各企业的网页数据搜集,以某公司为例来说明产品类别提取的步骤,其他企业的产品类别的提取方法一样,解决了传统技术中过度依赖人工查询、信息提取效率低、查询条件无法动态更新,类别信息提取精度差的技术问题,具有很高的商业价值和实用性。

Claims (6)

1.一种企业信息分析方法,其特征在于,包括:
采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,所述产品类别信息与行业信息相关,对各行业的产品类别进行分类,并分析确定该产品类别的关键词;利用word2vector算法,根据欧式距离确定不少于两个的与所述关键词的相近词语;筛除所述相近词语中与所述关键词的重复内容,最后得到新增关键词;将所述新增关键词与所述关键词的集合合并,得到所述产品的最终关键词;
根据所计算的所述关键词集合和所述网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,获取相关网页,从相关网页中提取网页词汇信息;根据所述网页词汇信息,通过BM25算法计算每一网页与各所述产品类别的相关程度信息,计算所述相关程度信息,得到类别关联数据;根据所述类别关联数据识别所述产品的类别信息及所述行业信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页词汇信息,通过BM25算法计算每一网页与各所述产品类别的相关程度信息,包括:
获取产品类别信息及产品相关网页的所述网页词汇信息;
根据BM25算法,计算相关性数据IDF(qi),公式如下所示:
Figure FDA0002373168280000011
根据所述相关性数据IDF(qi)的大小确定相关程度信息,其中,qi为一个语素,N为索引中的全部文档数,n(qi)为包含qi的文档数;
对所述相关程度信息归一化,得到所述类别关联数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述类别关联数据识别所述产品的类别信息及所述行业信息,包括:
对每个产品类对应的所述类别关联数据排序;
取排列中最大值及其后不小于3个所述类别关联数据求平均值,得产品类别数据;
对所示产品类别数据归一化得到类别指示数据;
将行业包含产品类别的所述类别指示数据相加,得到企业在各行业的行业指示数据;
计算所述行业指示数据,得出所述行业指示数据最大的所述行业,得所述行业信息。
4.一种企业信息分析的系统,其特征在于,包括:关键词库模块和产品类别提取模块;
所述关键词库模块,用于采集企业的网页数据,并据以处理得到与每种产品类别信息对应的关键词集合,其中,所述产品类别信息与行业信息相关,所述关键词库模块,包括关键词确定模块、相近词确定模块、新词获取模块和最终关键词模块;所述关键词确定模块,用于对各行业的产品类别进行分类,并分析确定该产品类别的关键词;所述相近词确定模块,用于利用word2vector算法,根据欧式距离确定不少于两个的与所述关键词的相近词语;所述新词获取模块,用于筛除所述相近词语中与所述关键词的重复内容,最后得到新增关键词;所述最终关键词模块,用于将所述新增关键词与所述关键词的集合合并,得到所述产品的最终关键词;
所述产品类别提取模块,用于根据所计算的所述关键词集合和所述网页数据的相关程度信息来判断对应的产品类别与该网页数据的相关程度信息,据以得到该网页数据的相关企业所生产产品相关的产品类别,再据以得到该企业相关的行业信息,所述产品类别提取模块,包括:网页分词模块、关联数据计算模块和分类信息识别模块;所述网页分词模块,用于获取相关网页,从相关网页中提取网页词汇信息;所述关联数据计算模块,用于根据所述网页词汇信息,通过BM25算法计算每一网页与各所述产品类别的相关程度信息,计算所述相关程度信息,得到类别关联数据;所述分类信息识别模块,用于根据所述类别关联数据识别所述产品的类别信息及所述行业信息。
5.根据权利要求4所述的系统,其特征在于,所述关联数据计算模块,包括:类别及分词信息获取模块、相关性数据模块、相关程度确定模块和关联数据生成模块;
所述类别及分词信息获取模块,用于获取产品类别信息及产品相关网页的所述网页词汇信息;
所述相关性数据模块,用于根据BM25算法,计算相关性数据IDF(qi),公式如下所示:
Figure FDA0002373168280000021
所述相关程度确定模块,用于根据所述相关性数据IDF(qi)的大小确定相关程度信息,其中,qi为一个语素,N为索引中的全部文档数,n(qi)为包含qi的文档数;
所述关联数据生成模块,用于对所述相关程度信息归一化,得到所述类别关联数据。
6.根据权利要求5所述的系统,其特征在于,所述分类信息识别模块,包括:关联排序模块、类别数据模块、归一化模块、行业指示数据模块和行业信息计算模块;
所述关联排序模块,用于对每个产品类对应的所述类别关联数据排序;
所述类别数据模块,用于取排列中最大值及其后不小于3个所述类别关联数据求平均值,得产品类别数据;
所述归一化模块,用于对所示产品类别数据归一化得到类别指示数据;
所述行业指示数据模块,用于将行业包含产品类别的所述类别指示数据相加,得到企业在各行业的行业指示数据;
所述行业信息计算模块,用于计算所述行业指示数据,得出所述行业指示数据最大的所述行业,得所述行业信息。
CN201710535084.2A 2017-07-03 2017-07-03 一种企业信息分析方法及系统 Active CN107463616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710535084.2A CN107463616B (zh) 2017-07-03 2017-07-03 一种企业信息分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710535084.2A CN107463616B (zh) 2017-07-03 2017-07-03 一种企业信息分析方法及系统

Publications (2)

Publication Number Publication Date
CN107463616A CN107463616A (zh) 2017-12-12
CN107463616B true CN107463616B (zh) 2020-04-10

Family

ID=60546665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710535084.2A Active CN107463616B (zh) 2017-07-03 2017-07-03 一种企业信息分析方法及系统

Country Status (1)

Country Link
CN (1) CN107463616B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280198B (zh) * 2018-01-29 2021-03-02 口碑(上海)信息技术有限公司 榜单生成方法及装置
CN109284392B (zh) * 2018-12-07 2021-04-06 达闼机器人有限公司 一种文本分类方法、装置、终端及存储介质
CN109801118A (zh) * 2018-12-24 2019-05-24 航天信息股份有限公司 识别指定行业的制造业企业的方法、装置、介质和设备
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备
CN111930899B (zh) * 2020-09-25 2021-04-09 成都数联铭品科技有限公司 一种关键词处理方法及系统、关键词搜索方法
CN112435050B (zh) * 2020-11-13 2023-11-28 海创汇科技创业发展股份有限公司 一种关联企业的获取方法、电子设备、计算机存储介质及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789618A (zh) * 2011-12-28 2012-11-21 焦点科技股份有限公司 生成市场景气指数的监测系统及方法
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法
CN103226618A (zh) * 2013-05-21 2013-07-31 焦点科技股份有限公司 基于数据集市挖掘的相关词提取方法及系统
CN103942693A (zh) * 2013-01-18 2014-07-23 阿里巴巴集团控股有限公司 识别杂货铺的方法、装置及搜索店铺的方法、系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238437B2 (ja) * 2008-09-30 2013-07-17 株式会社東芝 ウェブ閲覧目的分類装置、ウェブ閲覧目的分類方法、及びウェブ閲覧目的分類プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789618A (zh) * 2011-12-28 2012-11-21 焦点科技股份有限公司 生成市场景气指数的监测系统及方法
CN103942693A (zh) * 2013-01-18 2014-07-23 阿里巴巴集团控股有限公司 识别杂货铺的方法、装置及搜索店铺的方法、系统
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法
CN103226618A (zh) * 2013-05-21 2013-07-31 焦点科技股份有限公司 基于数据集市挖掘的相关词提取方法及系统

Also Published As

Publication number Publication date
CN107463616A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463616B (zh) 一种企业信息分析方法及系统
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
US11663254B2 (en) System and engine for seeded clustering of news events
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US20180260860A1 (en) A computer-implemented method and system for analyzing and evaluating user reviews
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
US20110112995A1 (en) Systems and methods for organizing collective social intelligence information using an organic object data model
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
US10387805B2 (en) System and method for ranking news feeds
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
Guadie et al. Amharic text summarization for news items posted on social media
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Kavila et al. Extractive text summarization using modified weighing and sentence symmetric feature methods
CN114722183A (zh) 一种面向科研任务的知识推送方法及系统
CN113590738A (zh) 一种基于内容与情感的网络敏感信息的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant