CN116975393A - 一种企业画像的构建方法、装置及电子设备 - Google Patents

一种企业画像的构建方法、装置及电子设备 Download PDF

Info

Publication number
CN116975393A
CN116975393A CN202311006073.7A CN202311006073A CN116975393A CN 116975393 A CN116975393 A CN 116975393A CN 202311006073 A CN202311006073 A CN 202311006073A CN 116975393 A CN116975393 A CN 116975393A
Authority
CN
China
Prior art keywords
enterprise
data
information
entity
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311006073.7A
Other languages
English (en)
Inventor
黄尧
黄威威
邹伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qizhi Technology Co ltd
Original Assignee
Qizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qizhi Technology Co ltd filed Critical Qizhi Technology Co ltd
Priority to CN202311006073.7A priority Critical patent/CN116975393A/zh
Publication of CN116975393A publication Critical patent/CN116975393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种企业画像的构建方法、装置及电子设备,涉及数据处理的领域。方法应用于服务器,包括:接收企业用户发送的构建请求,构建请求包括预设权重,预设权重包括实体识别权重、关系抽取权重及情感分析权重;根据构建请求,获取企业用户对应的企业文本数据,企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据;对企业基础数据进行实体识别,得到第一企业信息;对企业关系数据进行关系抽取,得到第二企业信息;对企业舆情数据进行情感分析,得到第三企业信息;按照预设权重将第一企业信息、第二企业信息及第三企业信息进行融合,生成企业用户对应的企业画像。实施本申请提供的技术方案,便于根据企业用户需求构建企业画像。

Description

一种企业画像的构建方法、装置及电子设备
技术领域
本申请涉及数据处理的技术领域,具体涉及一种企业画像的构建方法、装置及电子设备。
背景技术
随着信息技术的快速发展,企业信息数据量呈现爆发式增长,如何高效地挖掘、分析和利用这些信息,为企业提供更精准的决策支持,已经成为当前企业面临的一大挑战。
企业画像是针对企业的一种信息描述手段,为企业及其合作伙伴提供全面的信息支持。目前,企业画像的构建方法通常由第三方平台按照统一的构建方式进行处理。但是,由于企业数据体量大且较为繁杂,并且不同企业之间所涉及的构建需求不同,这意味着采用单一构建方式来构建企业画像,将会导致构建结果较为单一化,无法满足不同企业的不同构建需求。
因此,急需一种企业画像的构建方法、装置及电子设备。
发明内容
为了解决上述技术问题,本申请提供了一种企业画像的构建方法、装置及电子设备。
在本申请的第一方面提供了一种企业画像的构建方法,应用于服务器,所述方法包括:接收企业用户发送的构建请求,所述构建请求包括预设权重,所述预设权重包括实体识别权重、关系抽取权重以及情感分析权重;根据所述构建请求,获取所述企业用户对应的企业文本数据,所述企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据;对所述企业基础数据进行实体识别,得到第一企业信息;对所述企业关系数据进行关系抽取,得到第二企业信息;对所述企业舆情数据进行情感分析,得到第三企业信息;按照所述预设权重将所述第一企业信息、第二企业信息以及第三企业信息进行融合,生成所述企业用户对应的企业画像。
通过采用上述技术方案,服务器首先将接收企业用户发送的构建请求,再根据构建请求获取企业用户对应的企业文本数据。接下来,服务器对企业文本数据中的企业基础数据进行实体识别,得到第一企业信息;对企业文本数据中的企业关系数据进行关系抽取,得到第二企业信息;对企业文本数据中的企业舆情数据进行情感分析,得到第三企业信息。最后,服务器按照预设权重将第一企业信息、第二企业信息以及第三企业信息进行融合,从而生成企业用户对应的企业画像。由此,相比相关技术,不再需要第三方平台的单一构建方式,服务器能够根据企业用户需求,对不同信息的重要性进行加权处理,生成更加准确的企业画像。
可选地,所述对所述企业基础数据进行实体识别,得到第一企业信息,具体包括:根据所述企业基础数据,确定第一实体;采用预设维度对所述第一实体进行实体识别,得到所述第一企业信息,所述预设维度包括命名实体维度、时间实体维度以及数量实体维度。
通过采用上述技术方案,服务器得到第一企业信息的具体过程为:服务器首先根据企业基础数据,确定出第一实体。接下来,服务器采用预设维度对第一实体进行实体识别,从而得到第一企业信息。由此,服务器能够从大量的企业文本数据中识别出相关的实体信息,避免了人工处理的繁琐和耗时,得到第一企业信息后,可以进一步进行数据分析和挖掘,有助于企业做出决策、发现潜在机会和风险,提升经营效率和竞争力。
可选地,所述对所述企业关系数据进行关系抽取,得到第二企业信息,具体包括:在所述预设数据库中查找所述第一实体,得到查找结果;若所述查找结果指示所述预设数据库中存在所述第一实体,则获取所述第一实体的直接关系;若所述查找结果指示所述预设数据库中存在与所述第一实体对应的第二实体,则获取所述第一实体与所述第二实体之间的映射关系;根据所述直接关系和所述映射关系,得到所述第二企业信息,所述企业关系数据包括所述直接关系和所述映射关系。
通过采用上述技术方案,服务器首先将在预设数据库中查找第一实体,从而得到查找结果。当查找结果指示预设数据库中存在第一实体时,将获取第一实体的直接关系;当查找结果指示预设数据库中存在与第一实体对应的第二实体时,服务器将获取第一实体与第二实体之间的映射关系。最后,根据直接关系和映射关系,得到第二企业信息。由此,利用关系抽取可以从企业关系数据中识别出关系信息,有助于更好地理解和分析企业之间的关联关系,从而更准确地分析企业的运营情况、市场地位等,为决策提供参考依据。
可选地,所述对所述企业舆情数据进行情感分析,得到第三企业信息,具体包括:将所述企业舆情数据输入至预设分类模型中,得到分类结果,所述分类结果为积极类别、消极类别以及中性类别中的任意一种类别;基于所述分类结果,得到所述第三企业信息。
通过采用上述技术方案,服务器将企业舆情数据输入至预设分类模型中,从而得到分类结果。基于分类结果,服务器将得到第三企业信息。由此,通过情感分析可以了解企业在舆情中的表现和声誉,有助于企业了解自身在公众心目中的形象和声誉,帮助企业进行品牌管理和危机公关。另外,通过参考、对比分析不同企业的舆情表现,帮助企业了解市场动态和竞争态势,为企业战略决策提供支持。
可选地,所述获取所述企业用户对应的企业文本数据,具体包括:接收用户设备发送的目标企业数据包;采用文本指纹运算机制对所述目标企业数据包进行处理,得到所述企业文本数据。
通过采用上述技术方案,服务器通过接收用户设备发送的目标企业数据包,可以获取来自用户的实时数据,有助于企业了解用户需求和反馈。采用文本指纹运算机制对目标企业数据包进行处理,可以将大量的文本数据转化为一种紧凑且唯一的指纹表示形式,减少数据的存储和传输成本。通过文本指纹运算机制处理目标企业数据包,可以提取出数据包中的关键信息和特征,为后续的数据分析和挖掘提供基础。服务器得到企业文本数据后,有助于企业了解市场趋势、用户需求、竞争对手等关键信息,为决策提供支持。
可选地,所述采用文本指纹运算机制对所述目标企业数据包进行处理,得到所述企业文本数据,具体包括:获取所述目标企业数据包中的文本数据;将所述文本数据进行去噪与分词,生成多个特征单词;将所述多个特征单词转换为各对应的特征值,其中,一个特征单词对应一个特征值,所述特征值为仅含有数字0与1中一种或两种的数据串;基于所述多个特征单词各对应的权重对所述特征值设置权重,生成多个权重特征值;将所述多个权重特征值进行累加与降维,得到所述企业文本数据。
通过采用上述技术方案,服务器获取目标企业数据包中的文本数据,可以从数据包中提取出与企业相关的文本信息,有助于对企业进行深入了解和分析。基于特征单词的权重设置,提高了特征的准确性和区分度。将多个权重特征值进行累加与降维,可以将多个特征值合并为一个综合特征值,减少数据维度,简化数据表示和处理,提高了计算效率。得到企业文本数据后,可以进行各种文本分析任务,有助于企业了解市场反馈、用户需求以及竞争情况等,为企业决策和发展提供有力支持。
可选地,在所述生成所述企业用户对应的企业画像之后,所述方法还包括:响应于所述企业用户输入的查询操作;根据所述查询操作,建立意向企业数据表;按照所述意向企业数据表,将所述企业画像进行展示。
通过采用上述技术方案,服务器通过响应企业用户查询操作、建立意向企业数据表和展示企业画像,有助于提高企业用户对其他企业的了解和选择能力,减少企业用户在繁杂的企业数据中的搜索和筛选时间,提升企业用户的效率和满意度。同时,企业也能够通过展示企业画像吸引更多感兴趣的用户,扩大企业的曝光度和市场影响力。
在本申请的第二方面提供了一种企业画像的构建装置,所述构建装置为服务器,所述服务器包括获取模块和处理模块,其中,所述获取模块,用于接收企业用户发送的构建请求,所述构建请求包括预设权重,所述预设权重包括实体识别权重、关系抽取权重以及情感分析权重;所述获取模块,还用于根据所述构建请求,获取所述企业用户对应的企业文本数据,所述企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据;所述处理模块,用于对所述企业基础数据进行实体识别,得到第一企业信息;所述处理模块,还用于对所述企业关系数据进行关系抽取,得到第二企业信息;所述处理模块,还用于对所述企业舆情数据进行情感分析,得到第三企业信息;所述处理模块,还用于按照所述预设权重将所述第一企业信息、第二企业信息以及第三企业信息进行融合,生成所述企业用户对应的企业画像。
在本申请的第三方面提供了一种电子设备,所述电子设备包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上所述的方法。
在本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如上所述的方法。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1.服务器首先将接收企业用户发送的构建请求,再根据构建请求获取企业用户对应的企业文本数据。接下来,服务器对企业文本数据中的企业基础数据进行实体识别,得到第一企业信息;对企业文本数据中的企业关系数据进行关系抽取,得到第二企业信息;对企业文本数据中的企业舆情数据进行情感分析,得到第三企业信息。最后,服务器按照预设权重将第一企业信息、第二企业信息以及第三企业信息进行融合,从而生成企业用户对应的企业画像。由此,相比相关技术,不再需要第三方平台的单一构建方式,服务器能够根据企业用户需求,对不同信息的重要性进行加权处理,生成更加准确的企业画像;
2.通过文本指纹运算机制处理目标企业数据包,可以提取出数据包中的关键信息和特征,为后续的数据分析和挖掘提供基础。得到企业文本数据后,可以进行各种文本分析任务,有助于企业了解市场趋势、用户需求、竞争对手等关键信息,为企业用户决策提供支持;
3.服务器通过响应企业用户查询操作、建立意向企业数据表和展示企业画像,有助于提高企业用户对自身以及其他企业的了解和选择能力,减少企业用户在繁杂的企业数据中的搜索和筛选时间,提升企业用户的效率和满意度。同时,企业也能够通过展示企业画像吸引更多感兴趣的用户,扩大企业的曝光度和市场影响力。
附图说明
图1为本申请实施例提供的一种企业画像的构建方法的流程示意图。
图2为本申请实施例提供的一种企业画像的构建装置的模块示意图。
图3为本申请实施例提供的一种电子设备的结构示意图。
附图标记说明:21、获取模块;22、处理模块;31、处理器;32、通信总线;33、用户接口;34、网络接口;35、存储器。
实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
随着信息技术的迅猛发展,企业面临着海量数据的爆炸式增长。如何高效地挖掘、分析和利用这些信息,为企业提供更精准的决策支持,成为当前的一大挑战。
为了满足企业及其合作伙伴对全面信息支持的需求,企业画像成为一种重要的信息描述手段。目前,通常由第三方平台按照统一的构建方式来处理构建企业画像的工作。然而,由于企业数据的规模庞大且内容繁杂,而且不同企业对于构建企业画像的需求也各不相同。这意味着采用单一的构建方式来创建企业画像将导致结果单一化,无法满足不同企业的多样化构建需求。
为了解决上述技术问题,本申请提供了一种企业画像的构建方法,参照图1,图1为本申请实施例提供的一种企业画像的构建方法的流程示意图。该构建方法应用于服务器,包括步骤S110至步骤S160,上述步骤如下:
S110、接收企业用户发送的构建请求,构建请求包括预设权重,预设权重包括实体识别权重、关系抽取权重以及情感分析权重。
具体地,当企业用户想要构建所在企业的企业画像时,可以向服务器发送构建请求。其中,构建请求包括预设权重,预设权重在本申请实施例中可以理解为企业用户根据自身构建需求预先设置的企业信息的重要程度,当关系抽取权重大于情感分析权重时,表示企业用户对于关系抽取对应的企业信息的重视程度较高。在实际应用中,当企业用户的合作关系均为与某些领域龙头企业的合作,则企业用户在构建请求中可以将关系抽取权重设置较高的权重,从而凸显该合作关系,从而有利于为企业用户吸引投资,改善经营状况。
S120、根据构建请求,获取企业用户对应的企业文本数据,企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据。
具体地,当需要构建企业画像的时候,服务器将首先获取企业文本数据。其中,企业文本数据为多个方面的文本数据整合,举例来说,企业文本数据包括企业基础数据,即企业的基本信息,比如企业架构和企业经营状况等;企业文本数据还包括企业关系数据,即企业竞争力状况,比如企业竞争关系和企业合作关系等;企业文本数据还包括企业舆情数据,比如大众对于企业的评价和报道。在本申请实施例中,服务器获取企业文本数据的方式包括但不限于采用图像识别技术获取企业官网数据、接收终端设备上传以及企业查询系统和/或平台等,例如,服务器从新闻报道、社交媒体帖子以及市场报告获取企业文本数据。
S130、对企业基础数据进行实体识别,得到第一企业信息。
具体地,服务器获取到企业文本数据之后,将会对企业文本数据中的企业基础数据进行实体识别,从而得到第一企业信息。其中,实体识别采用命名实体识别技术,旨在将文本中的命名实体定位并分类为预先定义的类别,比如企业人员、企业位置、企业产值以及企业项目等。
在一种可能的实施方式中,对企业基础数据进行实体识别,得到第一企业信息,具体包括:根据企业基础数据,确定第一实体;采用预设维度对第一实体进行实体识别,得到第一企业信息,预设维度包括命名实体维度、时间实体维度以及数量实体维度。
具体地,服务器首先将根据企业文本数据中的企业基础数据,确定出第一实体。接下来,再按照预设维度对第一实体进行实体识别,从而得到第一企业信息。其中,确定第一实体的方式为文字识别技术,通过识别关键词进行匹配得到第一实体。第一实体为多个方面的实体,比如人名、企业名称、成立时间以及统一信用代码等。命名实体维度指的是识别各种名称的维度,包括识别企业名称、产品名称、行业名称等命名实体;时间实体维度指的是识别时间字段的维度,比如企业的创立时间、上市时间、财务报告时间等时间实体;数量实体维度指的是识别数字和量词的维度,比如企业的收入、利润、市值等数字和量词实体。在本申请实施例中,第一企业信息包括通过三个维度识别的多个企业实体信息。
S140、对企业关系数据进行关系抽取,得到第二企业信息。
具体地,服务器在获取到企业关系数据以及第一企业信息之后,将会对企业关系数据进行关系抽取,从而得到第二企业信息。其中,关系抽取指的是识别企业基础数据和企业关系数据中多个实体之间的关系。举例来说,关系抽取为识别企业之间的股权关系、合作关系、竞争关系等关系类型。其次,第二企业信息中包括企业之间的各种关系,比如A企业与B企业的合作和竞争关系。
在一种可能的实施方式中,对企业关系数据进行关系抽取,得到第二企业信息,具体包括:在预设数据库中查找第一实体,得到查找结果;若查找结果指示预设数据库中存在第一实体,则获取第一实体的直接关系;若查找结果指示预设数据库中存在与第一实体对应的第二实体,则获取第一实体与第二实体之间的映射关系;根据直接关系和映射关系,得到第二企业信息,企业关系数据包括直接关系和映射关系。
具体地,服务器对企业关系数据进行关系抽取,得到第二企业信息的具体过程为:服务器首先将在预设数据库中查找第一实体,并生成查找结果。当查找结果指示预设数据库中存在第一实体时,服务器将获取第一实体的直接关系;当查找结果指示预设数据库中存在与第一实体对应的第二实体时,服务器将获取第一实体与第二实体之间的映射关系。最后,服务器将直接关系和映射关系共同存储,生成第二企业信息。
其中,预设数据库中预先存储有多个实体和实体之间的关系,多个实体包括第二实体。直接关系指的是企业内部各职能部门或个人之间的关系,比如企业内部的股权关系或者企业内部的上下级关系等。映射关系包括企业与外部企业之间的合作或竞争关系,比如A企业与B企业同属于一个领域行业,所生产的产品类别相似,则企业A与企业B之间的映射关系为竞争关系。除此之外,映射关系还包括企业的投资、融资以及金融事件之间的关联关系,比如A企业与B企业之间的商业招标行为关系等。
S150、对企业舆情数据进行情感分析,得到第三企业信息。
具体地,服务器对企业文本数据进行实体识别、关系抽取的同时,将会对企业文本数据中的企业舆情数据进行情感分析,从而得到第三企业信息。其中,情感分析指的是运用自然语言处理技术对文本数据进行情感分析,识别其中的情感倾向和态度,以了解企业的品牌形象、公众舆论和市场反应等。
在一种可能的实施方式中,对企业舆情数据进行情感分析,得到第三企业信息,具体包括:将企业舆情数据输入至预设分类模型中,得到分类结果,分类结果为积极类别、消极类别以及中性类别中的任意一种类别;基于分类结果,得到第三企业信息。
具体地,服务器得到第三企业信息的具体过程为:服务器首先根据企业文本数据,确定企业舆情数据。接下来,服务器将企业舆情数据输入至预设分类模型中,从而得到分类结果。最后,服务器基于分类结果,得到第三企业信息。其中,企业舆情数据指的是关于企业的大众舆论数据,例如,大众舆论数据包括对企业的综合实力评估以及大众风评等。而分类结果则是服务器通过预先训练的分类模型生成的结果,分类结果指的是舆论的风评倾向,比如积极向好类别的,或者消极负面类别的,以及中规中矩类别的。第三企业信息中包括分类结果以及对应的企业舆情数据。除此之外,分类结果还能生成情感强度,例如,大众对A企业十分不满,则分类结果能够包括情感强度为超强。
其中,预设分类模型采用预先构建的支持向量机的决策树模型,用于对企业舆情数据进行分类。服务器首先将获取训练特征向量和分类标签,再将训练特征向量和分类标签输入至分类决策函数中进行参数调整。接下来,服务器将获取分类决策函数的输出结果,当输出结果满足训练条件时,服务器根据调整后的参数和分类决策函数确定预设分类模型。由此,服务器通过训练预设分类模型,能够使得预设分类模型输出的分类结果更加完整和准确。
在一种可能的实施方式中,分类决策函数具体采用如下计算规则:
其中,f(x)为分类决策函数,x为特征向量,xi为支持向量,n为支持向量xi的数量,ai *为拉格朗日参数,yi为类别标记,kmix(x,xi)为支持向量机的核函数,b*为分类阈值。需要说明的是,分类决策函数f(x)是经过训练后的分类决策函数。其中,支持向量、支持向量的数量、拉格朗日参数、类别标记、支持向量机的核函数、分类阈值为在训练过程中不断优化所确定的,在本申请实施例中,上述参数在一定程度上为最优的参数。
S160、按照预设权重将第一企业信息、第二企业信息以及第三企业信息进行融合,生成企业用户对应的企业画像。
具体地,服务器在得到第一企业信息、第二企业信息以及第三企业信息之后,将对三者按照预设权重进行融合,从而得到个性化地企业画像。由此,相比相关技术,不再需要第三方平台的单一构建方式,服务器能够根据企业用户需求,对不同信息的重要性进行加权处理,生成更加准确的企业画像。举例来说,企业用户设置实体识别权重为30%、关系抽取权重为50%、情感分析权重为20%,则服务器构建的企业画像将会重点对关系抽取进行信息获取,从而得到更加准确地企业关系信息,并在企业画像中重点展示该企业关系信息。
在一种可能的实施方式中,获取企业用户对应的企业文本数据,具体包括:接收用户设备发送的目标企业数据包;采用文本指纹运算机制对目标企业数据包进行处理,得到企业文本数据。
具体地,服务器在获取企业用户对应的企业文本数据之前,将接收用户设备发送的目标企业数据包,再采用文本指纹运算机制对目标企业数据包进行处理,从而得到企业文本数据。其中,用户设备的类型包括但不限于:安卓(Android)系统设备、苹果公司开发的移动操作系统(iOS)设备、个人计算机(PC)、全球局域网(World Wide Web,web)设备、虚拟现实(Virtual Reality,VR)设备、增强现实(Augmented Reality,AR)设备等设备。在本申请实施例中,用户设备为电脑,用户设备对应的用户为想要构建企业画像的企业用户。
在一种可能的实施方式中,采用文本指纹运算机制对目标企业数据包进行处理,得到企业文本数据,具体包括:获取目标企业数据包中的文本数据;将文本数据进行去噪与分词,生成多个特征单词;将多个特征单词转换为各对应的特征值,其中,一个特征单词对应一个特征值,特征值为仅含有数字0与1中一种或两种的数据串;基于多个特征单词各对应的权重对特征值设置权重,生成多个权重特征值;将多个权重特征值进行累加与降维,得到企业文本数据。
具体地,文本指纹运算机制的本质是通过哈希函数将输入文本映射到特定的哈希码空间,并使相似的文本在哈希码空间中具有较高的概率被分配到相同的桶。因此,具有相似文本的数据项可以被索引到相同的桶中,从而实现快速的相似性搜索。在本申请实施例中,通过使用诸如n-gram、shingle或其他特征提取算法,将原始文本转换为表示其内容的短序列。接下来,对提取的特征序列应用哈希函数,生成固定长度的二进制指纹。
本申请实施例中哈希函数优选为局部敏感哈希函数。最后,通过使用文本指纹,可以加速文本的比较和匹配过程,并完成文本相似性分析和处理。其中,累加可以理解为将多个权重特征值的每一位相加,降维可以理解为将累加的结果转换为仅含有数字0或1中一种或两种的数字串。
在一种可能的实施方式中,在生成企业用户对应的企业画像之后,方法还包括:响应于企业用户输入的查询操作;根据查询操作,建立意向企业数据表;按照意向企业数据表,将企业画像进行展示。
具体地,服务器除了满足企业用户的企业画像构建需求外,还将响应于企业用户输入的查询操作,服务器根据查询操作,建立得到企业用户相关的意向企业数据表。最后,服务器按照意向企业数据表,从而将企业画像进行展示。由此,服务器能够实现对企业用户的意向企业数据进行分析,例如,当企业用户X多次查询企业A时,服务器将判定企业A为企业用户X的意向企业数据。意向企业数据表中存储有企业用户的查询行为数据和企业文本数据。因此,通过数据可视化技术,可以将企业画像进行可视化展示,以便企业管理人员和决策者更加直观和深入地了解企业的优势和劣势,从而提升企业的核心竞争力。
举例来说,服务器生成的企业画像中的内容包括但不限于企业概况:包括企业的名称、注册地、成立时间、法定代表人等基本信息;经营范围:包括企业的主营业务、产品或服务、市场定位等;组织架构:包括企业的管理层、部门设置、人员构成等;财务状况:包括企业的资产、负债、利润、现金流等财务状况信息;品牌形象:包括企业的品牌定位、品牌形象、品牌价值等;市场竞争力:包括企业在市场上的竞争力、市场份额、市场前景等;技术实力:包括企业的技术研发能力、技术创新、专利数量等,可以反映出企业在技术方面的实力和竞争优势;客户群体:包括企业的客户群体、市场定位、市场份额等,可以帮助用户了解企业的主要客户和市场占有率;研究开发:包括企业的研究开发投入、研发团队、研发成果等,可以反映出企业在研发领域的实力和创新能力等。
本申请还提供了一种企业画像的构建装置,参照图2,图2为本申请实施例提供的一种企业画像的构建装置的模块示意图。该企业画像的构建装置为服务器,服务器包括获取模块21和处理模块22,其中,获取模块21,用于接收企业用户发送的构建请求,构建请求包括预设权重,预设权重包括实体识别权重、关系抽取权重以及情感分析权重;获取模块21,还用于根据构建请求,获取企业用户对应的企业文本数据,企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据;处理模块22,用于对企业基础数据进行实体识别,得到第一企业信息;处理模块22,还用于对企业关系数据进行关系抽取,得到第二企业信息;处理模块22,还用于对企业舆情数据进行情感分析,得到第三企业信息;处理模块22,还用于按照预设权重将第一企业信息、第二企业信息以及第三企业信息进行融合,生成企业用户对应的企业画像。
在一种可能的实施方式中,处理模块22对企业基础数据进行实体识别,得到第一企业信息,具体包括:处理模块22根据企业基础数据,确定第一实体;处理模块22采用预设维度对第一实体进行实体识别,得到第一企业信息,预设维度包括命名实体维度、时间实体维度以及数量实体维度。
在一种可能的实施方式中,处理模块22对企业关系数据进行关系抽取,得到第二企业信息,具体包括:处理模块22在预设数据库中查找第一实体,得到查找结果;若查找结果指示预设数据库中存在第一实体,则获取模块21获取第一实体的直接关系;若查找结果指示预设数据库中存在与第一实体对应的第二实体,则获取模块21获取第一实体与第二实体之间的映射关系;处理模块22根据直接关系和映射关系,得到第二企业信息,企业关系数据包括直接关系和映射关系。
在一种可能的实施方式中,处理模块22对企业舆情数据进行情感分析,得到第三企业信息,具体包括:处理模块22将企业舆情数据输入至预设分类模型中,得到分类结果,分类结果为积极类别、消极类别以及中性类别中的任意一种类别;处理模块22基于分类结果,得到第三企业信息。
在一种可能的实施方式中,获取模块21获取企业用户对应的企业文本数据,具体包括:获取模块21接收用户设备发送的目标企业数据包;处理模块22采用文本指纹运算机制对目标企业数据包进行处理,得到企业文本数据。
在一种可能的实施方式中,处理模块22采用文本指纹运算机制对目标企业数据包进行处理,得到企业文本数据,具体包括:获取模块21获取目标企业数据包中的文本数据;处理模块22将文本数据进行去噪与分词,生成多个特征单词;处理模块22将多个特征单词转换为各对应的特征值,其中,一个特征单词对应一个特征值,特征值为仅含有数字0与1中一种或两种的数据串;处理模块22基于多个特征单词各对应的权重对特征值设置权重,生成多个权重特征值;处理模块22将多个权重特征值进行累加与降维,得到企业文本数据。
在一种可能的实施方式中,在处理模块22生成企业用户对应的企业画像之后,还包括:处理模块22响应于企业用户输入的查询操作;处理模块22根据查询操作,建立意向企业数据表;处理模块22按照意向企业数据表,将企业画像进行展示。
本申请还提供了一种电子设备,参照图3,图3为本申请实施例提供的一种电子设备的结构示意图。电子设备可以包括:至少一个处理器31,至少一个网络接口34,用户接口33,存储器35,至少一个通信总线32。
其中,通信总线32用于实现这些组件之间的连接通信。
其中,用户接口33可以包括显示屏(Display)、摄像头(Camera),可选用户接口33还可以包括标准的有线接口、无线接口。
其中,网络接口34可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器31可以包括一个或者多个处理核心。处理器31利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器35内的指令、程序、代码集或指令集,以及调用存储在存储器35内的数据,执行服务器的各种功能和处理数据。可选的,处理器31可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器31可集成中央处理器(Central ProcessingUnit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器31中,单独通过一块芯片进行实现。
其中,存储器35可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器35包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器35可用于存储指令、程序、代码、代码集或指令集。存储器35可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器35可选的还可以是至少一个位于远离前述处理器31的存储装置。如图3所示,作为一种计算机存储介质的存储器35中可以包括操作系统、网络通信模块、用户接口模块以及一种企业画像的构建方法的应用程序。
在图3所示的电子设备中,用户接口33主要用于为用户提供输入的接口,获取用户输入的数据;而处理器31可以用于调用存储器35中存储一种企业画像的构建方法的应用程序,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有指令。当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (10)

1.一种企业画像的构建方法,其特征在于,应用于服务器,所述方法包括:
接收企业用户发送的构建请求,所述构建请求包括预设权重,所述预设权重包括实体识别权重、关系抽取权重以及情感分析权重;
根据所述构建请求,获取所述企业用户对应的企业文本数据,所述企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据;
对所述企业基础数据进行实体识别,得到第一企业信息;
对所述企业关系数据进行关系抽取,得到第二企业信息;
对所述企业舆情数据进行情感分析,得到第三企业信息;
按照所述预设权重将所述第一企业信息、第二企业信息以及第三企业信息进行融合,生成所述企业用户对应的企业画像。
2.根据权利要求1所述的构建方法,其特征在于,所述对所述企业基础数据进行实体识别,得到第一企业信息,具体包括:
根据所述企业基础数据,确定第一实体;
采用预设维度对所述第一实体进行实体识别,得到所述第一企业信息,所述预设维度包括命名实体维度、时间实体维度以及数量实体维度。
3.根据权利要求2所述的构建方法,其特征在于,所述对所述企业关系数据进行关系抽取,得到第二企业信息,具体包括:
在所述预设数据库中查找所述第一实体,得到查找结果;
若所述查找结果指示所述预设数据库中存在所述第一实体,则获取所述第一实体的直接关系;
若所述查找结果指示所述预设数据库中存在与所述第一实体对应的第二实体,则获取所述第一实体与所述第二实体之间的映射关系;
根据所述直接关系和所述映射关系,得到所述第二企业信息,所述企业关系数据包括所述直接关系和所述映射关系。
4.根据权利要求1所述的构建方法,其特征在于,所述对所述企业舆情数据进行情感分析,得到第三企业信息,具体包括:
将所述企业舆情数据输入至预设分类模型中,得到分类结果,所述分类结果为积极类别、消极类别以及中性类别中的任意一种类别;
基于所述分类结果,得到所述第三企业信息。
5.根据权利要求1所述的构建方法,其特征在于,所述获取所述企业用户对应的企业文本数据,具体包括:
接收用户设备发送的目标企业数据包;
采用文本指纹运算机制对所述目标企业数据包进行处理,得到所述企业文本数据。
6.根据权利要求5所述的构建方法,其特征在于,所述采用文本指纹运算机制对所述目标企业数据包进行处理,得到所述企业文本数据,具体包括:
获取所述目标企业数据包中的文本数据;
将所述文本数据进行去噪与分词,生成多个特征单词;
将所述多个特征单词转换为各对应的特征值,其中,一个特征单词对应一个特征值,所述特征值为仅含有数字0与1中一种或两种的数据串;
基于所述多个特征单词各对应的权重对所述特征值设置权重,生成多个权重特征值;
将所述多个权重特征值进行累加与降维,得到所述企业文本数据。
7.根据权利要求1所述的构建方法,其特征在于,在所述生成所述企业用户对应的企业画像之后,所述方法还包括:
响应于所述企业用户输入的查询操作;
根据所述查询操作,建立意向企业数据表;
按照所述意向企业数据表,将所述企业画像进行展示。
8.一种企业画像的构建装置,其特征在于,所述构建装置为服务器,所述服务器包括获取模块(21)和处理模块(22),其中,
所述获取模块(21),用于接收企业用户发送的构建请求,所述构建请求包括预设权重,所述预设权重包括实体识别权重、关系抽取权重以及情感分析权重;
所述获取模块(21),还用于根据所述构建请求,获取所述企业用户对应的企业文本数据,所述企业文本数据包括企业基础数据、企业关系数据以及企业舆情数据;
所述处理模块(22),用于对所述企业基础数据进行实体识别,得到第一企业信息;
所述处理模块(22),还用于对所述企业关系数据进行关系抽取,得到第二企业信息;
所述处理模块(22),还用于对所述企业舆情数据进行情感分析,得到第三企业信息;
所述处理模块(22),还用于按照所述预设权重将所述第一企业信息、第二企业信息以及第三企业信息进行融合,生成所述企业用户对应的企业画像。
9.一种电子设备,其特征在于,所述电子设备包括处理器(31)、存储器(35)、用户接口(33)以及网络接口(34),所述存储器(35)用于存储指令,所述用户接口(33)和所述网络接口(34)均用于给其他设备通信,所述处理器(31)用于执行所述存储器(35)中存储的指令,以使所述电子设备执行如权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1至7任意一项所述的方法。
CN202311006073.7A 2023-08-10 2023-08-10 一种企业画像的构建方法、装置及电子设备 Pending CN116975393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311006073.7A CN116975393A (zh) 2023-08-10 2023-08-10 一种企业画像的构建方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311006073.7A CN116975393A (zh) 2023-08-10 2023-08-10 一种企业画像的构建方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116975393A true CN116975393A (zh) 2023-10-31

Family

ID=88473025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311006073.7A Pending CN116975393A (zh) 2023-08-10 2023-08-10 一种企业画像的构建方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116975393A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648492A (zh) * 2023-12-12 2024-03-05 广州汉申信息科技有限公司 基于科技项目的实时推送方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648492A (zh) * 2023-12-12 2024-03-05 广州汉申信息科技有限公司 基于科技项目的实时推送方法及系统

Similar Documents

Publication Publication Date Title
CN109522483B (zh) 用于推送信息的方法和装置
US20240233056A1 (en) Method and system for curriculum management services
US10268986B2 (en) Requirement feasibility scoring based on data object and social network website
CN112733042B (zh) 推荐信息的生成方法、相关装置及计算机程序产品
US9218568B2 (en) Disambiguating data using contextual and historical information
CN111552870A (zh) 对象推荐方法、电子装置及存储介质
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
CN111143555B (zh) 基于大数据的客户画像生成方法、装置、设备及存储介质
WO2017027705A1 (en) Method and system for personifying a brand
CN113742492B (zh) 保险方案生成方法、装置、电子设备及存储介质
EP4134900A2 (en) Method and apparatus for recommending content, method and apparatus for training ranking model, device, and storage medium
KR102092906B1 (ko) 결혼정보매칭 온라인 서비스 플랫폼을 이용한 매니저 매칭 방법
CN116304007A (zh) 一种信息推荐方法、装置、存储介质及电子设备
KR102308062B1 (ko) 창업을 위한 정보를 제공하기 위한 전자 장치 및 그 동작 방법
CN116975393A (zh) 一种企业画像的构建方法、装置及电子设备
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN118093801A (zh) 基于大语言模型的信息交互方法、装置以及电子设备
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
KR102581301B1 (ko) 욕구/원인 키워드를 포함하는 사용자 키워드리스트의 운용에 따른 사용자 표출 구매 원인 및 욕구 통찰 방식의 소비 플랫폼 제공방법
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN111382254A (zh) 电子名片推荐方法、装置、设备及计算机可读存储介质
CN115936758A (zh) 基于大数据的智能拓客方法及相关装置
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN113785321A (zh) 公司规模估计系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination