CN113901308A - 基于知识图谱的企业推荐方法及推荐装置、电子设备 - Google Patents
基于知识图谱的企业推荐方法及推荐装置、电子设备 Download PDFInfo
- Publication number
- CN113901308A CN113901308A CN202111076878.XA CN202111076878A CN113901308A CN 113901308 A CN113901308 A CN 113901308A CN 202111076878 A CN202111076878 A CN 202111076878A CN 113901308 A CN113901308 A CN 113901308A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- news
- information
- target
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000008451 emotion Effects 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 20
- 230000007115 recruitment Effects 0.000 abstract description 18
- 230000002996 emotional effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000010219 correlation analysis Methods 0.000 description 5
- 238000012098 association analyses Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001483 mobilizing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的企业推荐方法及推荐装置、电子设备。其中,该推荐方法包括:采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息,基于评论信息,分析与新闻信息对应的情感标签,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱,建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单。本发明解决了相关技术中没有根据舆情考虑对其他关联企业产生的影响,导致推荐的企业名单不符合招商需求的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于知识图谱的企业推荐方法及推荐装置、电子设备。
背景技术
随着互联网技术的快速发展,网络媒体已经成为信息传播以及民众相互交流的主要平台,同时也成为网络舆情形成和传播的主要载体。以微博舆情为例,微博用户的基数庞大,且微博媒体具有虚拟化、快捷化、多元化、开放性、匿名性及互动性等特点,对于一些企业舆情的爆炸极易引起社会的反响,对政府的招商引资工作也带来影响。
相关技术中,现有的舆情分析系统一般从企业的角度出发,给企业提供舆情的实时查询,舆情发展态势实时追踪分析,以及多形式自动预警等,使企业能够及时的处理舆情,然而,现有的舆情分析系统存在如下缺陷:(1)没有从更加细粒度的知识层面对各个企业的舆情进行追踪分析,判断是否对其他企业存在影响;(2)没有从政府的角度考虑,在政府从事招商引资工作时,这些企业的舆情信息是否会给工作人员带来招商线索。
现有的招商引资的模式中,包括:产业链招商、驻点招商、以商招商、以友情招商、活动招商以及委托招商等,其中,产业链招商采用链长制,以地方政府主要官员担任“链长”,聚焦特色产业,重点招引一批产业链标杆性企业和靶向优质企业形成产业聚集,以此吸引更优质的企业;驻点招商是对知名企业进行走访交谈,和各类商会协会沟通交流,加强与在外成功人士联络,完善区域人脉地图;以商招商是充分调动已落户企业的招商工作的积极性,引进合作伙伴和上下游配套企业;以友情招商是如过年过节返乡等活动招商;活动招商是举办一些招商推介的活动;委托招商是制定中介招商、委托招商激励奖励机制,运动商业化的手段,聘请一批中介机构为招商代表、招商大使、招商顾问等。然而,当前的招商方式在数以亿计的企业面前存在如下缺陷:(1)由于考虑的企业的属性较为单一性,会导致招商效果差;(2)政府的宣传成本高,而形成的成效甚微,不能确定需要招引的目标客户;(3)由于信息过载,政府很难很好的获得一个企业的兴趣爱好,以及企业的特色产业,商客也不能很好的获得政府的相关政策信息;(4)没有根据舆情考虑对其他关联企业产生的影响,无法根据舆情提供推荐名单,导致推荐的企业名单不符合招商需求。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于知识图谱的企业推荐方法及推荐装置、电子设备,以至少解决相关技术中没有根据舆情考虑对其他关联企业产生的影响,导致推荐的企业名单不符合招商需求的技术问题。
根据本发明实施例的一个方面,提供了一种基于知识图谱的企业推荐方法,包括:采集与企业对象关联的至少一条新闻信息,其中,每条所述新闻信息至少包括:新闻导语和评论信息;基于所述评论信息,分析与所述新闻信息对应的情感标签;基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱;建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系;若所述情感标签为正向标签,则基于所述图谱关联关系输出企业推荐名单,其中,所述推荐名单中包括所述舆情知识图谱中与所述目标企业对象有关联关系的关联企业对象以及所述企业知识图谱中与所述目标企业对象有关联关系的关联企业对象。
可选地,采集与企业对象关联的至少一条新闻信息的步骤,包括:采集排序序列大于预设序列阈值的多个新闻标题,得到标题集合;对所述标题集合中的每条所述新闻标题进行分词处理和词性标注处理,得到词语集合;遍历所述词语集合的名词性词语,若所述词语集合中存在所述企业对象的名词性词语,则采集与目标新闻标题对应的目标新闻中的新闻导语和评论信息,得到所述新闻信息。
可选地,基于所述评论信息,分析与所述新闻信息对应的情感标签的步骤,包括:提取所述评论信息中的关键词;对每条所述评论信息进行情感分析,得到与所述新闻信息对应的情感分布统计图;基于所述关键词和所述情感分布统计图,为所述新闻信息添加情感标签。
可选地,基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱的步骤,包括:对所述新闻导语进行信息抽取处理,得到所述新闻信息中出现的目标企业对象的对象信息,其中,信息抽取处理的方式包括下述至少之一:实体抽取、属性抽取、关系抽取;基于所述目标企业对象的对象信息,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱。
可选地,在基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱之后,所述企业推荐方法还包括:关联所述舆情知识图谱与舆情知识库,得到更新后的舆情知识图谱,其中,所述舆情知识库预先存储有历史过程中得到的舆情知识图谱;将更新后的所述舆情知识图谱存储到图数据库中。
可选地,在建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系之前,所述企业推荐方法还包括:获取目标企业对象的属性信息以及企业关系数据;基于所述属性信息以及所述企业关系数据,构建企业知识图谱。
可选地,在构建企业知识图谱之后,所述企业推荐方法还包括:获取所述目标企业对象的网络新闻;对所述网络新闻进行预处理,得到处理后的网络新闻数据;将所述网络新闻数据中的企业数据与所述目标企业对象进行融合处理;提取所述网络新闻数据中除所述目标企业对象之外的其它企业对象的企业数据;将所述其它企业对象的企业数据以及所述其它企业对象与所述目标企业对象的对象关系,补充至所述目标企业对象的企业知识图谱中。
可选地,若所述情感标签为正向标签,则基于所述图谱关联关系输出企业推荐名单的步骤,包括:若所述情感标签为正向标签,则基于所述图谱关联关系获取每个所述关联企业对象与所述目标企业对象之间的图谱距离、关联数目、所述关联企业对象的第一排名信息和所述关联企业对象所属的产业链的第二排名信息;确定与所述图谱距离对应的第一权重信息、与所述关联数目对应的第二权重信息、与所述第一排名信息对应的第三权重信息、与所述第二排名信息对应的第四权重信息;基于所述图谱距离以及对应的第一权重信息、所述关联数目以及对应的第二权重信息、所述第一排名信息以及对应的第三权重信息、所述第二排名信息以及对应的第四权重信息,计算每个所述关联企业对象的排名参数;基于所述排名参数,输出企业推荐名单。
可选地,在基于所述图谱关联关系输出企业推荐名单之后,所述企业推荐方法还包括:计算预设时间段内出现的关于所述目标企业对象的多条新闻信息中每条新闻信息的标签得分,其中,所述标签得分包括:第一标签得分或第二标签得分,所述第一标签得分表征正向的情感标签的得分,所述第二标签得分表征负向的情感标签的得分;累加所有新闻信息的所述标签得分,得到标签总分;基于所述标签总分调整所述评论信息对所述关联企业对象的权重信息,以调整所述关联企业对象的排名参数。
根据本发明实施例的另一方面,还提供了一种基于知识图谱的企业推荐装置,包括:采集单元,用于采集与企业对象关联的至少一条新闻信息,其中,每条所述新闻信息至少包括:新闻导语和评论信息;分析单元,用于基于所述评论信息,分析与所述新闻信息对应的情感标签;构建单元,用于基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱;建立单元,用于建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系;输出单元,用于若所述情感标签为正向标签,则基于所述图谱关联关系输出企业推荐名单,其中,所述推荐名单中包括所述舆情知识图谱中与所述目标企业对象有关联关系的关联企业对象以及所述企业知识图谱中与所述目标企业对象有关联关系的关联企业对象。
可选地,所述采集单元包括:第一采集模块,用于采集排序序列大于预设序列阈值的多个新闻标题,得到标题集合;第一处理模块,用于对所述标题集合中的每条所述新闻标题进行分词处理和词性标注处理,得到词语集合;第一遍历模块,用于遍历所述词语集合的名词性词语,若所述词语集合中存在所述企业对象的名词性词语,则采集与目标新闻标题对应的目标新闻中的新闻导语和评论信息,得到所述新闻信息。
可选地,所述分析单元包括:第一提取模块,用于提取所述评论信息中的关键词;第一分析模块,用于对每条所述评论信息进行情感分析,得到与所述新闻信息对应的情感分布统计图;第一添加模块,用于基于所述关键词和所述情感分布统计图,为所述新闻信息添加情感标签。
可选地,所述构建单元包括:第二处理模块,用于对所述新闻导语进行信息抽取处理,得到所述新闻信息中出现的目标企业对象的对象信息,其中,信息抽取处理的方式包括下述至少之一:实体抽取、属性抽取、关系抽取;第一构建模块,用于基于所述目标企业对象的对象信息,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱。
可选地,所述企业推荐装置还包括:第一关联模块,用于在基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱之后,关联所述舆情知识图谱与舆情知识库,得到更新后的舆情知识图谱,其中,所述舆情知识库预先存储有历史过程中得到的舆情知识图谱;第一存储模块,用于将更新后的所述舆情知识图谱存储到图数据库中。
可选地,所述企业推荐装置还包括:第一获取模块,用于在建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系之前,获取目标企业对象的属性信息以及企业关系数据;第二构建模块,用于基于所述属性信息以及所述企业关系数据,构建企业知识图谱。
可选地,所述企业推荐装置还包括:第二获取模块,用于在构建企业知识图谱之后,获取所述目标企业对象的网络新闻;第三处理模块,用于对所述网络新闻进行预处理,得到处理后的网络新闻数据;第四处理模块,用于将所述网络新闻数据中的企业数据与所述目标企业对象进行融合处理;第二提取模块,用于提取所述网络新闻数据中除所述目标企业对象之外的其它企业对象的企业数据;第一补充模块,用于将所述其它企业对象的企业数据以及所述其它企业对象与所述目标企业对象的对象关系,补充至所述目标企业对象的企业知识图谱中。
可选地,所述输出单元包括:第三获取模块,用于若所述情感标签为正向标签,则基于所述图谱关联关系获取每个所述关联企业对象与所述目标企业对象之间的图谱距离、关联数目、所述关联企业对象的第一排名信息和所述关联企业对象所属的产业链的第二排名信息;第一确定模块,用于确定与所述图谱距离对应的第一权重信息、与所述关联数目对应的第二权重信息、与所述第一排名信息对应的第三权重信息、与所述第二排名信息对应的第四权重信息;第一计算模块,用于基于所述图谱距离以及对应的第一权重信息、所述关联数目以及对应的第二权重信息、所述第一排名信息以及对应的第三权重信息、所述第二排名信息以及对应的第四权重信息,计算每个所述关联企业对象的排名参数;基于所述排名参数,输出企业推荐名单。
可选地,所述企业推荐装置还包括:第二计算模块,用于在基于所述图谱关联关系输出企业推荐名单之后,计算预设时间段内出现的关于所述目标企业对象的多条新闻信息中每条新闻信息的标签得分,其中,所述标签得分包括:第一标签得分或第二标签得分,所述第一标签得分表征正向的情感标签的得分,所述第二标签得分表征负向的情感标签的得分;第一累加模块,用于累加所有新闻信息的所述标签得分,得到标签总分;第一调整模块,用于基于所述标签总分调整所述评论信息对所述关联企业对象的权重信息,以调整所述关联企业对象的排名参数。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的基于知识图谱的企业推荐方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的基于知识图谱的企业推荐方法。
本申请中,采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息,基于评论信息,分析与新闻信息对应的情感标签,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱,建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单。本申请通过对采集的实时热点新闻进行分析,筛选出与企业相关的舆情信息,能够分析出该舆情的情感倾向且构建舆情知识图谱,根据舆情知识图谱的关联实体与企业知识图谱进行关联,根据关联分析结果,能够为当地招商政府人员提供合适的推荐企业名单,进而解决了相关技术中没有根据舆情考虑对其他关联企业产生的影响,导致推荐的企业名单不符合招商需求的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的基于知识图谱的企业推荐方法的流程图;
图2是根据本发明实施例的一种可选的舆情知识图谱(b)与企业知识图谱(a)关联示意图;
图3是根据本发明实施例的一种基于知识图谱的企业推荐装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
舆情:是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
知识图谱:是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体、挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
本发明下述各实施例可应用于各种招商系统/企业推荐应用或者其它推荐企业的场景中,涉及的招商类型包括但不限于:政府招商(例如,政府需要出让土地进行招商、需要投资进行招商等)、各企业招商(例如,企业招商合作伙伴)等。本发明对热搜新闻进行实时爬取,并筛选出与企业相关的舆情信息,根据情感分析技术分析该舆情的情感倾向是正面舆情还是负面舆情,并利用舆情知识图谱自动构建技术对舆情知识图谱进行构建并存入知识库,另外,根据舆情知识图谱的关联实体与企业知识图谱进行关联,根据候选企业与主体企业的距离,候选企业与主体企业的关联数目,候选企业的基本情况,以及当地的招商局比较感兴趣的产业链等因素对推荐的结果增加约束条件,对推荐或不推荐的企业进行重新筛选和排序,为招商人员提供招商线索。
实施例一
根据本发明实施例,提供了一种基于知识图谱的企业推荐方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的基于知识图谱的企业推荐方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息。
步骤S104,基于评论信息,分析与新闻信息对应的情感标签。
步骤S106,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱。
步骤S108,建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系。
步骤S110,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单,其中,推荐名单中包括舆情知识图谱中与目标企业对象有关联关系的关联企业对象以及企业知识图谱中与目标企业对象有关联关系的关联企业对象。
通过上述步骤,可以采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息,基于评论信息,分析与新闻信息对应的情感标签,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱,建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单。本发明实施例,通过对采集的实时热点新闻进行分析,筛选出与企业相关的舆情信息,能够分析出该舆情的情感倾向且构建舆情知识图谱,根据舆情知识图谱的关联实体与企业知识图谱进行关联,根据关联分析结果,能够为当地招商政府人员提供合适的推荐企业名单,进而解决了相关技术中没有根据舆情考虑对其他关联企业产生的影响,导致推荐的企业名单不符合招商需求的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
步骤S102,采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息。
在本发明实施例中,可利用网络爬虫技术每隔时间τ对网络新闻(例如,热搜榜)进行爬取,获得热搜标题集合T={t1,t2,...,ti},从中筛选出与企业相关的标题,之后获取该标题新闻下的新闻导语(即为对该条新闻的总结)和评论信息(即为对该新闻的所有评论组成的舆情集合)。
可选的,采集与企业对象关联的至少一条新闻信息的步骤,包括:采集排序序列大于预设序列阈值的多个新闻标题,得到标题集合;对标题集合中的每条新闻标题进行分词处理和词性标注处理,得到词语集合;遍历词语集合的名词性词语,若词语集合中存在企业对象的名词性词语,则采集与目标新闻标题对应的目标新闻中的新闻导语和评论信息,得到新闻信息。
在本发明实施例中,按照网络媒体现有的排序(例如,微搜的热搜排序)采集排序在预设值之前(即排序序列大于预设序列阈值,例如,热搜榜展示30个热搜标题,只采集前20个标题)的新闻标题,得到热搜标题集合T={t1,t2,...,ti},对集合T中的标题序列ti进行分词处理和词性标注处理得到词语集合W={w1,w2,...,wj},对集合W中的名词性词语进行遍历,并与企业知识图谱进行对齐(即判断词语集合中是否存在企业对象的名词性词语),若是存在wi为企业(即词语集合中存在企业对象的名词性词语),则对热点新闻ti(即目标新闻标题对应的目标新闻)下的导语Si(即新闻导语)和舆情O={o1,o2,...,on}(即评论信息)进行爬取,得到新闻信息。
步骤S104,基于评论信息,分析与新闻信息对应的情感标签。
在本发明实施例中,可对舆情集合O中的每一条评论进行遍历分析,得到该新闻信息的情感标签,以判断该新闻是正向新闻还是负向新闻。
可选的,基于评论信息,分析与新闻信息对应的情感标签的步骤,包括:提取评论信息中的关键词;对每条评论信息进行情感分析,得到与新闻信息对应的情感分布统计图;基于关键词和情感分布统计图,为新闻信息添加情感标签。
在本发明实施例中,可使用关键词提取算法,对舆情集合O(即评论信息)进行关键词提取,可遍历舆情集合O的每一条评论信息,利用情感分析技术对舆情信息on进行情感分析,得到该条热点新闻ti的情感分布统计图,结合关键词的可视化展示了解舆情的关键评论,以及情感分布的统计图,给该话题ti(即新闻信息)加情感标签femo,如果该话题ti为一个企业的负面新闻,femo=-1,如果该话题ti为一个企业的正面新闻,femo=1。
步骤S106,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱。
在本发明实施例中,每个新闻应用实时更新的热点新闻ti(即新闻信息)下的导语Si(即新闻导语)是对该条热点新闻的总结,根据该新闻导语进行舆情知识图谱的构建(即构建与新闻信息所指示的目标事件对应的舆情知识图谱)。
可选的,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱的步骤,包括:对新闻导语进行信息抽取处理,得到新闻信息中出现的目标企业对象的对象信息,其中,信息抽取处理的方式包括下述至少之一:实体抽取、属性抽取、关系抽取;基于目标企业对象的对象信息,构建与新闻信息所指示的目标事件对应的舆情知识图谱。
在本发明实施例中,可以利用实体抽取、属性抽取、关系抽取等技术来处理导语Si(即对新闻导语进行信息抽取处理)以获得实体知识(即新闻信息中出现的目标企业对象的对象信息,例如,人名、地名、人物关系等),对于一个企业舆情热点事件来说,核心的关系有相关人物、相关地点、相关时间、相关事件、主体企业、相关企业等,利用知识图谱构建技术来构建该热点事件ti(即新闻信息所指示的目标事件)的舆情知识图谱KGti。
可选的,在基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱之后,企业推荐方法还包括:关联舆情知识图谱与舆情知识库,得到更新后的舆情知识图谱,其中,舆情知识库预先存储有历史过程中得到的舆情知识图谱;将更新后的舆情知识图谱存储到图数据库中。
在本发明实施例中,将得到的热点事件ti的舆情知识图谱KGti与舆情知识库(存储有之前得到的舆情知识图谱)进行关联,即根据企业的舆情是随着时间动态变化的特点,将时间因素考虑进去,能够得到更新后的企业舆情知识图谱KGop(即更新后的舆情知识图谱),并将企业舆情知识图谱KGop存储到图数据库中。
步骤S108,建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系。
在本发明实施例中,将热点事件ti(即目标事件)的舆情知识图谱KGti与企业知识图谱KGEn(即目标企业对象的企业知识图谱)进行关联,即可以将该舆情知识图谱KGti涉及的主体企业,与企业知识图谱KGEn中的企业(即目标企业对象)进行对齐,也可以将舆情知识图谱KGti中涉及的其他属性(例如,相关人物)作为辅助属性进行对齐,得到图谱关联关系。
可选的,在建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系之前,企业推荐方法还包括:获取目标企业对象的属性信息以及企业关系数据;基于属性信息以及企业关系数据,构建企业知识图谱。
在本发明实施例中,可先获取目标企业对象的属性信息,其中,属性信息可以有:企业名称,统一社会信用代码,注册日期,企业类型,法人代表,注册资金,经营范围,所在省份,地区,注册地址等,之后根据企业名称或统一社会信用代码调用企业数据网站API,获得与该企业相关联的企业关系数据(例如,分支机构、参股、对外投资等),之后基于属性信息以及企业关系数据,可以构建企业知识图谱KGEn。
可选的,在构建企业知识图谱之后,企业推荐方法还包括:获取目标企业对象的网络新闻;对网络新闻进行预处理,得到处理后的网络新闻数据;将网络新闻数据中的企业数据与目标企业对象进行融合处理;提取网络新闻数据中除目标企业对象之外的其它企业对象的企业数据;将其它企业对象的企业数据以及其它企业对象与目标企业对象的对象关系,补充至目标企业对象的企业知识图谱中。
在本发明实施例中,可以利用网络新闻对企业知识图谱进行扩充,即利用网络爬虫技术对涉及到该企业(即目标企业对象)的新闻数据(即网络新闻)进行爬取,得到相关的网络新闻,之后对该网络新闻进行预处理(例如,数据清洗等工作),得到规范化的数据(即处理后的网络新闻数据),利用网络新闻数据提及的内容(例如,企业名称、法定代表人等)与目标企业对象进行对齐(即融合处理),提取新闻中除目标企业以外提及的人物名称和企业名称(即其它企业对象的企业数据),作为该企业的隐式关系进行存储,对企业知识图谱进行扩充(即补充至目标企业对象的企业知识图谱中)。
步骤S110,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单,其中,推荐名单中包括舆情知识图谱中与目标企业对象有关联关系的关联企业对象以及企业知识图谱中与目标企业对象有关联关系的关联企业对象。
在本发明实施例中,根据情感标签指示的情感倾向,若为正向的,则对舆情知识图谱KGti和企业知识图谱KGEn进行关联分析后,可以为招商引资提供招商线索(即提供企业推荐名单),该推荐名单可以包括舆情知识图谱中与目标企业对象有关联关系的关联企业对象以及企业知识图谱中与目标企业对象有关联关系的关联企业对象(例如,对外投资、分支机构等)。
可选的,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单的步骤,包括:若情感标签为正向标签,则基于图谱关联关系获取每个关联企业对象与目标企业对象之间的图谱距离、关联数目、关联企业对象的第一排名信息和关联企业对象所属的产业链的第二排名信息;确定与图谱距离对应的第一权重信息、与关联数目对应的第二权重信息、与第一排名信息对应的第三权重信息、与第二排名信息对应的第四权重信息;基于图谱距离以及对应的第一权重信息、关联数目以及对应的第二权重信息、第一排名信息以及对应的第三权重信息、第二排名信息以及对应的第四权重信息,计算每个关联企业对象的排名参数;基于排名参数,输出企业推荐名单。
在本发明实施例中,可以根据该新闻信息对应的目标事件ti的情感标签femo的值为-1还是1来区分该条舆情的情感极性是负向还是正向,如果该企业的舆情为正向新闻,则舆情知识图谱KGop中的关联企业以及关联的企业知识图谱中的关联企业(例如,对外投资,分支机构等)可以被推荐,其中,推荐的企业可以根据以下几个方面进行排序,包括但不仅限于:候选企业(即图谱关联关系获取每个关联企业对象)与主体企业(即目标企业对象)的距离(即图谱距离)x1,候选企业与主体企业的关联数目x2,候选企业的基本情况排名(即第一排名信息,例如,某个被公众认可的排行榜的排名)x3,当地的招商局比较感兴趣的产业链排名(即第二排名信息)x4等,对于候选企业,与主体企业之间的距离越短越被推荐,关联越多越被推荐,企业的基本情况越靠前越被推荐,产业链排名也是越靠前越被推荐,所以推荐企业排名可以采用如下公式:RANK=MAX(βx2-αx1-γx3-δx4),其中,α、β、γ、δ分别代表不同权重(即与图谱距离对应的第一权重信息、与关联数目对应的第二权重信息、与第一排名信息对应的第三权重信息、与第二排名信息对应的第四权重信息),具体的权重设置可以根据每个招商局看重的属性不同灵活确定,之后输出推荐名单。
另一种可选的,如果该企业的舆情为负向新闻,则舆情知识图谱KGop中的关联企业以及关联的企业知识图谱中的关联企业(例如,对外投资,分支机构等)则不被推荐,其中,不推荐的企业可以根据以下几个方面进行排序,包括但不仅限于:候选企业(即图谱关联关系获取每个关联企业对象)与主体企业(即目标企业对象)的距离(即图谱距离)x1,候选企业与主体企业的关联数目x2,候选企业的基本情况排名(即第一排名信息,例如,某个被公众认可的排行榜的排名)x3,当地的招商局比较感兴趣的产业链排名(即第二排名信息)x4等,对于候选企业,与主体企业之间的距离越短越不被推荐,关联越多越不被推荐,企业的基本情况越靠后越不被推荐,产业链排名也是越靠后越不被推荐,所以不推荐企业排名可以采用如下公式:RANK=MAX(βx2-αx1+γx3+δx4),其中,α、β、γ、δ分别代表不同权重(即与图谱距离对应的第一权重信息、与关联数目对应的第二权重信息、与第一排名信息对应的第三权重信息、与第二排名信息对应的第四权重信息),具体的权重设置可以根据每个招商局看重的属性不同灵活确定,之后输出不推荐名单。
可选的,在基于图谱关联关系输出企业推荐名单之后,企业推荐方法还包括:计算预设时间段内出现的关于目标企业对象的多条新闻信息中每条新闻信息的标签得分,其中,标签得分包括:第一标签得分或第二标签得分,第一标签得分表征正向的情感标签的得分,第二标签得分表征负向的情感标签的得分;累加所有新闻信息的标签得分,得到标签总分;基于标签总分调整评论信息对关联企业对象的权重信息,以调整关联企业对象的排名参数。
在本发明实施例中,若一段时间内(即在预设时间段内)该企业(即目标企业对象)发生了多次热点舆情事件(即新闻信息),分别有正面舆情(表示情感标签为正向标签,即第一标签)和负面舆情(表示情感标签为负向标签,即第二标签),则考虑负面舆情和正面舆情的影响力对候选企业的叠加效果,即累加计算正向的情感标签的得分和负向的情感标签的得分,并根据累加的标签总分调整评论信息对关联企业对象的权重信息,来对推荐的企业进行排序(即调整关联企业对象的排名参数)。
本发明实施例,将舆情知识图谱与企业知识图谱进行关联分析后,知识图谱可以直观的表示企业之间的关系,使知识具有可扩展性,并且利用知识图谱的关联性分析后,可以为招商局人员提供招商线索(例如,推荐名单),知识图谱使知识具有可推理性,在提供招商线索的同时,使得推荐的企业列表具有可解释性。
实施例二
本发明实施例体提出了一种基于舆情知识图谱关联的招商推荐方法,可以对热搜新闻进行实时爬取,并筛选出与企业相关的舆情信息,根据情感分析技术分析该舆情的情感倾向是正面舆情还是负面舆情,并利用舆情知识图谱自动构建技术对舆情知识图谱进行构建并存入知识库,另外,根据舆情知识图谱的关联实体与企业知识图谱进行关联,根据候选企业与主体企业的距离,候选企业与主体企业的关联数目,候选企业的基本情况,以及当地的招商部门感兴趣的产业链等因素对推荐的结果增加约束条件,对推荐或不推荐的企业进行重新筛选和排序,为当地招商政府人员提供招商线索,具体步骤如下:
步骤1:信息收集;
步骤1.1:利用网络爬虫技术每隔时间τ对新闻热搜榜进行爬取,获得热搜标题集合T={t1,t2,...,ti};
步骤1.2:对集合T中的标题序列ti进行分词标注得到词语集合W={w1,w2,...,wj},对集合W中的名词性词语进行遍历,并与后台企业知识图谱进行对齐,若是存在wi为企业,则对热点新闻ti下的导语Si和舆情O={o1,o2,...,on}进行爬取;
步骤2:舆情多维数据分析;
步骤2.1:使用关键词提取算法,对步骤1得到的舆情集合O进行关键词提取;
步骤2.2:遍历舆情集合O的每一条评论信息,利用情感分析技术对舆情信息on进行情感分析,并得到该条热点新闻ti的情感分布统计图;
步骤2.3:结合关键词的可视化展示了解舆情的关键评论,以及情感分布的统计图,给该话题ti加情感标签femo,如果该话题ti为一个企业的负面新闻,femo=-1,如果该话题ti为一个企业的正面新闻,femo=1;
步骤3:舆情知识图谱构建;
步骤3.1:每个热点新闻ti下的导语Si是对该条热点新闻的总结,根据该导语Si进行舆情知识图谱的构建。
步骤3.1.1:利用实体抽取、属性抽取、关系抽取技术来处理导语Si获得知识,对于一个企业舆情热点事件来说,核心的关系有相关人物、相关地点、相关时间、相关事件、主体企业、相关企业等,并利用知识图谱构建技术来构建该热点事件ti的舆情知识图谱KGti;
步骤3.2:将得到的热点事件ti的舆情知识图谱KGti与舆情知识库进行关联,并将企业舆情知识图谱KGop存储到图数据库中。
步骤4:企业知识图谱构建;
步骤4.1:企业属性信息获取,可获得企业属性信息如下:企业名称,统一社会信用代码,注册日期,企业类型,法人代表,注册资金,经营范围,所在省份,地区,注册地址等;
步骤4.2:企业关系获取,根据企业名称或统一社会信用代码调用企业数据网站API,获得与该企业相关联的企业数据,如分支机构、参股、对外投资等,并构建企业知识图谱KGEn;
步骤4.3:利用网络数据对企业知识图谱进行扩充;
步骤4.3.1:利用网络爬虫技术对涉及到该企业的新闻数据进行爬取;
步骤4.3.2:对该新闻数据进行预处理,如数据清洗等工作,得到相对规范化的数据后,利用新闻内容提及内容如企业名称、法定代表人等与原目标企业进行对齐;
步骤4.3.3:提取新闻中除原目标企业以外提及的人物名称和企业名称,作为该企业的隐式关系进行存储,对企业知识图谱进行扩充;
步骤5:关联企业知识图谱;
步骤5.1:将热点事件ti的舆情知识图谱KGti与企业知识图谱KGEn进行关联。
步骤5.1.1:该舆情知识图谱KGti涉及的主体企业,与企业知识图谱KGEn中的企业进行对齐,舆情知识图谱KGti中涉及的其他属性如相关人物可作为辅助属性进行对齐。如图2所示,图2中的(a)为A公司的企业知识图谱,包括:公司名称、地址、人数、口号、商标、时间、资金、相关人物等,图2中的(b)为关于A公司新闻的舆情知识图谱,包括:评论关键词、资金、时间、事件、相关人物、省份、相关企业、相关企业的类似事件等,以A公司作为主体企业进行对齐,
以相关人物“吴某某”作为辅助属性进行对齐。
步骤6:推荐(或不推荐)企业;
步骤6.1:根据舆情知识图谱KGti和企业知识图谱KGEn进行关联分析,为招商引资提供招商线索;
步骤6.1.1:根据该舆情话题ti的情感标签femo的值为-1还是1来区分该条舆情的情感极性是负向还是正向;
步骤6.1.2:如果该企业的舆情为正向新闻,则舆情知识图谱KGop中的关联企业以及关联的企业知识图谱中的关联企业(如对外投资,分支机构等)可以被
推荐;
步骤6.1.2.1:步骤6.1.2中推荐的TOPN企业可以根据以下几个方面进行排序,包括但不仅限于候选企业与主体企业的距离(知识图谱中的跳数)x1,候选企业与主体企业的关联数目x2,候选企业的基本情况排名x3,当地的招商局比较感兴趣的产业链排名x4等。
RANK=MAX(βx2-αx1-γx3-δx4) (1);
对于候选企业,与主体企业之间的距离越短越被推荐,关联越多越被推荐,企业的基本情况越靠前越被推荐,产业链排名也是越靠前越被推荐,所以推荐企
业排名如式(1)所示;
另外,每个招商局看重的属性不同,分别使用α、β、γ、δ来代表排序考虑的不同的因素,由当地的招商局灵活确定;
步骤6.1.3:如果该企业的舆情为负向新闻,则舆情知识图谱KGop中的关联企业以及关联的企业知识图谱中的关联企业(如对外投资,分支机构等)则不被推荐;
步骤6.1.3.1:步骤6.1.3中不被推荐的TOPN企业可以根据以下几个方面进行排序,包括但不仅限于候选企业与主体企业的距离(知识图谱中的跳数)x1,候选企业与主体企业的关联数目x2,候选企业的基本情况排名x3,当地的招商局
比较感兴趣的产业链排名x4等;
RANK=MAX(βx2-αx1+γx3+δx4) (2);
对于候选企业,与主体企业之间的距离越短越不被推荐,关联越多越不被推荐,企业的基本情况越靠后越不被推荐,产业链排名也是越靠后越不被推荐,所以不推荐企业排名如式(2)所示;
与步骤6.1.2.1类似,每个招商局看重的属性不同,分别使用α、β、γ、δ来代表排序考虑的不同的因素,由当地的招商局灵活确定;
步骤6.2:由于企业的舆情是随着时间动态变化的,也可以将时间因素考虑进去,再根据舆情知识图谱和企业知识图谱进行关联分析,为招商引资提供招商线索;
步骤6.2.1:一段时间内该企业发生了多次热点舆情事件,分别有正面舆情和负面舆情,那么可以考虑负面舆情和正面舆情的影响力对候选企业的叠加效果,且最近一段时间内的舆情的权重相对较大来对推荐(或不推荐)的企业进行排序。
本发明实施例具有如下有益效果:
(1)将舆情知识图谱与企业知识图谱进行关联分析后,知识图谱可以直观的表示企业之间的关系,使知识具有可扩展性;
(2)利用知识图谱的关联性分析后,可以为招商人员发现招商线索;
(3)知识图谱使知识具有可推理性;
(4)在提供招商线索的同时,使得推荐(或不推荐)的企业列表具有可解释性。
实施例三
本实施例中提供的一种基于知识图谱的企业推荐装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图3是根据本发明实施例的一种基于知识图谱的企业推荐装置的示意图,如图3所示,该推荐装置可以包括:采集单元30,分析单元32,构建单元34,建立单元36,输出单元38,其中,
采集单元30,用于采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息;
分析单元32,用于基于评论信息,分析与新闻信息对应的情感标签;
构建单元34,用于基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱;
建立单元36,用于建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系;
输出单元38,用于若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单,其中,推荐名单中包括舆情知识图谱中与目标企业对象有关联关系的关联企业对象以及企业知识图谱中与目标企业对象有关联关系的关联企业对象。
上述推荐装置,可以通过采集单元30采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息,基于评论信息,通过分析单元32分析与新闻信息对应的情感标签,通过构建单元34基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱,通过建立单元36建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系,通过输出单元38当情感标签为正向标签时,基于图谱关联关系输出企业推荐名单。本发明实施例,通过对采集的实时热点新闻进行分析,筛选出与企业相关的舆情信息,能够分析出该舆情的情感倾向且构建舆情知识图谱,根据舆情知识图谱的关联实体与企业知识图谱进行关联,根据关联分析结果,能够为当地招商政府人员提供合适的推荐企业名单,进而解决了相关技术中没有根据舆情考虑对其他关联企业产生的影响,导致推荐的企业名单不符合招商需求的技术问题。可选的,采集单元包括:第一采集模块,用于采集排序序列大于预设序列阈值的多个新闻标题,得到标题集合;第一处理模块,用于对标题集合中的每条新闻标题进行分词处理和词性标注处理,得到词语集合;第一遍历模块,用于遍历词语集合的名词性词语,若词语集合中存在企业对象的名词性词语,则采集与目标新闻标题对应的目标新闻中的新闻导语和评论信息,得到新闻信息。
可选的,分析单元包括:第一提取模块,用于提取评论信息中的关键词;第一分析模块,用于对每条评论信息进行情感分析,得到与新闻信息对应的情感分布统计图;第一添加模块,用于基于关键词和情感分布统计图,为新闻信息添加情感标签。
可选的,构建单元包括:第二处理模块,用于对新闻导语进行信息抽取处理,得到新闻信息中出现的目标企业对象的对象信息,其中,信息抽取处理的方式包括下述至少之一:实体抽取、属性抽取、关系抽取;第一构建模块,用于基于目标企业对象的对象信息,构建与新闻信息所指示的目标事件对应的舆情知识图谱。
可选的,企业推荐装置还包括:第一关联模块,用于在基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱之后,关联舆情知识图谱与舆情知识库,得到更新后的舆情知识图谱,其中,舆情知识库预先存储有历史过程中得到的舆情知识图谱;第一存储模块,用于将更新后的舆情知识图谱存储到图数据库中。
可选的,企业推荐装置还包括:第一获取模块,用于在建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系之前,获取目标企业对象的属性信息以及企业关系数据;第二构建模块,用于基于属性信息以及企业关系数据,构建企业知识图谱。
可选的,企业推荐装置还包括:第二获取模块,用于在构建企业知识图谱之后,获取目标企业对象的网络新闻;第三处理模块,用于对网络新闻进行预处理,得到处理后的网络新闻数据;第四处理模块,用于将网络新闻数据中的企业数据与目标企业对象进行融合处理;第二提取模块,用于提取网络新闻数据中除目标企业对象之外的其它企业对象的企业数据;第一补充模块,用于将其它企业对象的企业数据以及其它企业对象与目标企业对象的对象关系,补充至目标企业对象的企业知识图谱中。
可选的,输出单元包括:第三获取模块,用于若情感标签为正向标签,则基于图谱关联关系获取每个关联企业对象与目标企业对象之间的图谱距离、关联数目、关联企业对象的第一排名信息和关联企业对象所属的产业链的第二排名信息;第一确定模块,用于确定与图谱距离对应的第一权重信息、与关联数目对应的第二权重信息、与第一排名信息对应的第三权重信息、与第二排名信息对应的第四权重信息;第一计算模块,用于基于图谱距离以及对应的第一权重信息、关联数目以及对应的第二权重信息、第一排名信息以及对应的第三权重信息、第二排名信息以及对应的第四权重信息,计算每个关联企业对象的排名参数;基于排名参数,输出企业推荐名单。
可选的,企业推荐装置还包括:第二计算模块,用于在基于图谱关联关系输出企业推荐名单之后,计算预设时间段内出现的关于目标企业对象的多条新闻信息中每条新闻信息的标签得分,其中,标签得分包括:第一标签得分或第二标签得分,第一标签得分表征正向的情感标签的得分,第二标签得分表征负向的情感标签的得分;第一累加模块,用于累加所有新闻信息的标签得分,得到标签总分;第一调整模块,用于基于标签总分调整评论信息对关联企业对象的权重信息,以调整关联企业对象的排名参数。
上述的控制装置还可以包括处理器和存储器,上述采集单元30,分析单元32,构建单元34,建立单元36,输出单元38等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数基于图谱关联关系输出企业推荐名单。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:采集与企业对象关联的至少一条新闻信息,其中,每条新闻信息至少包括:新闻导语和评论信息,基于评论信息,分析与新闻信息对应的情感标签,基于新闻导语,构建与新闻信息所指示的目标事件对应的舆情知识图谱,建立目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系,若情感标签为正向标签,则基于图谱关联关系输出企业推荐名单。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的基于知识图谱的企业推荐方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的基于知识图谱的企业推荐方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种基于知识图谱的企业推荐方法,其特征在于,包括:
采集与企业对象关联的至少一条新闻信息,其中,每条所述新闻信息至少包括:新闻导语和评论信息;
基于所述评论信息,分析与所述新闻信息对应的情感标签;
基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱;
建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系;
若所述情感标签为正向标签,则基于所述图谱关联关系输出企业推荐名单,其中,所述推荐名单中包括所述舆情知识图谱中与所述目标企业对象有关联关系的关联企业对象以及所述企业知识图谱中与所述目标企业对象有关联关系的关联企业对象。
2.根据权利要求1所述的推荐方法,其特征在于,采集与企业对象关联的至少一条新闻信息的步骤,包括:
采集排序序列大于预设序列阈值的多个新闻标题,得到标题集合;
对所述标题集合中的每条所述新闻标题进行分词处理和词性标注处理,得到词语集合;
遍历所述词语集合的名词性词语,若所述词语集合中存在所述企业对象的名词性词语,则采集与目标新闻标题对应的目标新闻中的新闻导语和评论信息,得到所述新闻信息。
3.根据权利要求1所述的推荐方法,其特征在于,基于所述评论信息,分析与所述新闻信息对应的情感标签的步骤,包括:
提取所述评论信息中的关键词;
对每条所述评论信息进行情感分析,得到与所述新闻信息对应的情感分布统计图;
基于所述关键词和所述情感分布统计图,为所述新闻信息添加情感标签。
4.根据权利要求1所述的推荐方法,其特征在于,基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱的步骤,包括:
对所述新闻导语进行信息抽取处理,得到所述新闻信息中出现的目标企业对象的对象信息,其中,信息抽取处理的方式包括下述至少之一:实体抽取、属性抽取、关系抽取;
基于所述目标企业对象的对象信息,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱。
5.根据权利要求4所述的推荐方法,其特征在于,在基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱之后,所述企业推荐方法还包括:
关联所述舆情知识图谱与舆情知识库,得到更新后的舆情知识图谱,其中,所述舆情知识库预先存储有历史过程中得到的舆情知识图谱;
将更新后的所述舆情知识图谱存储到图数据库中。
6.根据权利要求1所述的推荐方法,其特征在于,在建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系之前,所述企业推荐方法还包括:
获取目标企业对象的属性信息以及企业关系数据;
基于所述属性信息以及所述企业关系数据,构建企业知识图谱。
7.根据权利要求6所述的推荐方法,其特征在于,在构建企业知识图谱之后,所述企业推荐方法还包括:
获取所述目标企业对象的网络新闻;
对所述网络新闻进行预处理,得到处理后的网络新闻数据;
将所述网络新闻数据中的企业数据与所述目标企业对象进行融合处理;
提取所述网络新闻数据中除所述目标企业对象之外的其它企业对象的企业数据;
将所述其它企业对象的企业数据以及所述其它企业对象与所述目标企业对象的对象关系,补充至所述目标企业对象的企业知识图谱中。
8.根据权利要求1所述的推荐方法,其特征在于,若所述情感标签为正向标签,则基于所述图谱关联关系输出企业推荐名单的步骤,包括:
若所述情感标签为正向标签,则基于所述图谱关联关系获取每个所述关联企业对象与所述目标企业对象之间的图谱距离、关联数目、所述关联企业对象的第一排名信息和所述关联企业对象所属的产业链的第二排名信息;
确定与所述图谱距离对应的第一权重信息、与所述关联数目对应的第二权重信息、与所述第一排名信息对应的第三权重信息、与所述第二排名信息对应的第四权重信息;
基于所述图谱距离以及对应的第一权重信息、所述关联数目以及对应的第二权重信息、所述第一排名信息以及对应的第三权重信息、所述第二排名信息以及对应的第四权重信息,计算每个所述关联企业对象的排名参数;
基于所述排名参数,输出企业推荐名单。
9.根据权利要求8所述的推荐方法,其特征在于,在基于所述图谱关联关系输出企业推荐名单之后,所述企业推荐方法还包括:
计算预设时间段内出现的关于所述目标企业对象的多条新闻信息中每条新闻信息的标签得分,其中,所述标签得分包括:第一标签得分或第二标签得分,所述第一标签得分表征正向的情感标签的得分,所述第二标签得分表征负向的情感标签的得分;
累加所有新闻信息的所述标签得分,得到标签总分;
基于所述标签总分调整所述评论信息对所述关联企业对象的权重信息,以调整所述关联企业对象的排名参数。
10.一种基于知识图谱的企业推荐装置,其特征在于,包括:
采集单元,用于采集与企业对象关联的至少一条新闻信息,其中,每条所述新闻信息至少包括:新闻导语和评论信息;
分析单元,用于基于所述评论信息,分析与所述新闻信息对应的情感标签;
构建单元,用于基于所述新闻导语,构建与所述新闻信息所指示的目标事件对应的舆情知识图谱;
建立单元,用于建立所述目标事件的舆情知识图谱与目标企业对象的企业知识图谱之间的关联关系,得到图谱关联关系;
输出单元,用于若所述情感标签为正向标签,则基于所述图谱关联关系输出企业推荐名单,其中,所述推荐名单中包括所述舆情知识图谱中与所述目标企业对象有关联关系的关联企业对象以及所述企业知识图谱中与所述目标企业对象有关联关系的关联企业对象。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任意一项所述的基于知识图谱的企业推荐方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的基于知识图谱的企业推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076878.XA CN113901308A (zh) | 2021-09-14 | 2021-09-14 | 基于知识图谱的企业推荐方法及推荐装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076878.XA CN113901308A (zh) | 2021-09-14 | 2021-09-14 | 基于知识图谱的企业推荐方法及推荐装置、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901308A true CN113901308A (zh) | 2022-01-07 |
Family
ID=79028068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111076878.XA Pending CN113901308A (zh) | 2021-09-14 | 2021-09-14 | 基于知识图谱的企业推荐方法及推荐装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901308A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925160A (zh) * | 2022-04-18 | 2022-08-19 | 北京急救中心 | 一种基于知识图谱技术的院前急救指导推荐系统和方法 |
CN115422470A (zh) * | 2022-11-03 | 2022-12-02 | 中国传媒大学 | 基于新闻异构网络的关系感知新闻推荐方法、系统、设备 |
CN116383511A (zh) * | 2023-05-29 | 2023-07-04 | 四川邕合科技有限公司 | 基于产业链分析的园区招商推荐方法、系统、终端及介质 |
CN117436830A (zh) * | 2023-12-20 | 2024-01-23 | 陕西青叶海棠网络科技有限责任公司 | 一种毕业生就业企业鉴别系统 |
-
2021
- 2021-09-14 CN CN202111076878.XA patent/CN113901308A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925160A (zh) * | 2022-04-18 | 2022-08-19 | 北京急救中心 | 一种基于知识图谱技术的院前急救指导推荐系统和方法 |
CN115422470A (zh) * | 2022-11-03 | 2022-12-02 | 中国传媒大学 | 基于新闻异构网络的关系感知新闻推荐方法、系统、设备 |
CN116383511A (zh) * | 2023-05-29 | 2023-07-04 | 四川邕合科技有限公司 | 基于产业链分析的园区招商推荐方法、系统、终端及介质 |
CN116383511B (zh) * | 2023-05-29 | 2023-08-04 | 四川邕合科技有限公司 | 基于产业链分析的园区招商推荐方法、系统、终端及介质 |
CN117436830A (zh) * | 2023-12-20 | 2024-01-23 | 陕西青叶海棠网络科技有限责任公司 | 一种毕业生就业企业鉴别系统 |
CN117436830B (zh) * | 2023-12-20 | 2024-06-14 | 陕西青叶海棠网络科技有限责任公司 | 一种毕业生就业企业鉴别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615079B1 (en) | Graphical user interface for recurring searches | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
CN110704572B (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
CN113901308A (zh) | 基于知识图谱的企业推荐方法及推荐装置、电子设备 | |
Dey et al. | Acquiring competitive intelligence from social media | |
Neidhardt et al. | Predicting happiness: user interactions and sentiment analysis in an online travel forum | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
US8812505B2 (en) | Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference | |
Jiang et al. | Analyzing firm-specific social media and market: A stakeholder-based event analysis framework | |
US20060184464A1 (en) | System and methods for data analysis and trend prediction | |
US11263523B1 (en) | System and method for organizational health analysis | |
WO2016035072A2 (en) | Sentiment rating system and method | |
WO2011146391A2 (en) | Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking | |
US20110225135A1 (en) | Patent Search Engine with Statistical Snapshots | |
JP2011108053A (ja) | ニュース記事評価システム | |
CN115907568A (zh) | 一种基于冒烟指数的非法金融活动监测方法及系统 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN111125561A (zh) | 一种网络热度的展示方法及装置 | |
JP2007264718A (ja) | ユーザ興味分析装置、方法、プログラム | |
Wegrzyn-Wolska et al. | Tweets mining for French presidential election | |
CN106202299A (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 | |
KR101846122B1 (ko) | 빅데이터 분석을 활용한 공모전 관리 시스템 | |
US20230245144A1 (en) | System for identifying and predicting trends | |
CN112434126A (zh) | 一种信息处理方法、装置、设备和存储介质 | |
Amira et al. | Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |