CN116151262A - 一种实体画像构建方法、装置、设备及存储介质 - Google Patents

一种实体画像构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116151262A
CN116151262A CN202310217011.4A CN202310217011A CN116151262A CN 116151262 A CN116151262 A CN 116151262A CN 202310217011 A CN202310217011 A CN 202310217011A CN 116151262 A CN116151262 A CN 116151262A
Authority
CN
China
Prior art keywords
keywords
modeling
labels
entity
target entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310217011.4A
Other languages
English (en)
Inventor
毛航银
陈晓刚
张帆
赖晓翰
张烨华
江樱
张益群
曹莹
舒鹏
李为
陈铁义
李乃一
夏红鑫
黄佳斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202310217011.4A priority Critical patent/CN116151262A/zh
Publication of CN116151262A publication Critical patent/CN116151262A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种实体画像构建方法、装置、设备及存储介质,该方法包括:根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;基于对所述关键词组成的初步标签进行筛选,得到建模标签;基于画像构建规则,通过所述建模标签、标签库以及知识库构建与所述目标实体对应的画像。本申请通过对标签进行筛选提取出高度精炼的标签并将其作为建模标签以完成实体画像,提高了构建实体画像的效率。

Description

一种实体画像构建方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种实体画像构建方法、装置、设备及存储介质。
背景技术
随着大数据技术的深入研究与应用,企业/组织的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“实体”的概念也就应运而生,即根据实体的社会属性、行为、发展趋势等信息抽象出的一个标签化的模型。
目前,首先根据实体的文本描述信息确定对应的关键词;其次,根据实体的浏览行为信息获得实体的特征向量;基于关键词以及特征向量,得到标签;根据标签构建实体对应的标签画像。现有技术中是基于关键词以及特征向量生成标签,然后再将所有的标签用于实体画像的构建,其中,基于关键词以及特征向量生成标签并非全部有效,若将所有的标签用于构建实体画像对构建实体画像的效率有所影响。
发明内容
基于上述问题,本申请提供了一种实体画像构建方法、装置、设备及存储介质,提高构建实体画像的效率。
本申请实施例公开了如下技术方案:
第一方面,本申请提供一种实体画像构建方法,该方法包括:
根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;
基于对所述关键词所进行的分析,得到建模标签;
基于画像构建规则,通过所述建模标签、标签库以及知识库构建与所述目标实体对应的标签画像。
可选地,所述基于对所述关键词组成的初步标签进行筛选,得到建模标签,包括:
对所述关键词进行聚类,得到以三元组形式表示的初步标签;
基于TF-IDF技术对所述以三元组形式表示的初步标签进行评分,得到各所述初步标签的TD-IDF评分;
若所述TF-IDF得分大于预设阈值的所述初步标签作为建模标签。
可选地,所述根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词之后,所述方法还包括:
对所述关键词进行标准化处理,得到标准表示的关键词。
可选地,所述关键词关于人口属性信息或目标实体行为信息,所述基于对所述关键词所进行的分析,得到建模标签之后,所述方法还包括:
基于所述人口属性信息或目标实体行为信息对所述建模标签进行分类,分别得到关于所述目标实体的基础信息标签或行为推测标签。
可选地,所述方法还包括:
对置信度因子进行修改获得新的知识,以便扩充所述知识库。
第二方面,本申请提供一种实体画像构建装置,所述装置包括:确定模块、获得模块以及建模模块;
所述确定模块,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;
所述获取模块,基于对所述关键词所进行的分析,得到建模标签;
所述建模模块,基于画像构建规则,通过所述建模标签、标签库以及知识库构建与所述目标实体对应的标签画像。
可选地,所述获得模块,具体用于:
对所述关键词进行聚类,得到以三元组形式表示的初步标签;
基于TF-IDF技术对所述以三元组形式表示的初步标签进行评分,得到各所述初步标签的TD-IDF评分;
若所述TF-IDF得分大于预设阈值的所述初步标签作为建模标签。
可选地,所述关键词关于人口属性信息或目标实体行为信息,所述装置还包括:分类模块;
所述分类模块,基于所述人口属性信息或目标实体行为信息对所述建模标签进行分类,分别得到关于所述目标实体的基础信息标签或行为推测标签。
可选地,所述装置还包括:标准化模块;
所述标准化模块,用于对所述关键词进行标准化处理,得到标准表示的关键词。
可选地,所述装置还包括:修改模块;
所述修改模块,用于对置信度因子进行修改获得新的知识,以便扩充所述知识库。
第三方面,本申请提供一种计算机设备,该设备包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面任一项所述的实体画像构建方法。
第四方面,本申请提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如第一方面任一项所述的实体画像构建方法。
本申请提供一种实体画像构建方法,首先,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;然后,基于对所述关键词组成的初步标签进行筛选,得到建模标签;最后,基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。本申请通过对生成的初步标签进行筛选,提取出高度精炼的标签并将其作为建模标签以完成实体画像,提高了构建实体画像的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实体画像构建方法的流程图;
图2为本申请实施例提供的另一种实体画像构建方法的流程图;
图3为本申请实施例提供的一种实体画像构建装置的结构示意图;
图4为本申请实施例提供的一种计算机设备结构图。
具体实施方式
正如前文描述,目前的方法如下:首先,根据实体的文本描述信息确定对应的关键词;其次,根据实体的浏览行为信息获得实体的特征向量;基于关键词以及特征向量,得到标签;根据标签构建实体对应的标签画像。现有技术中是基于关键词以及特征向量生成标签,然后再将所有的标签用于实体画像的构建,降低实体画像生成的效率。
有鉴于此,本申请提供一种实体画像构建方法,首先,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;然后,基于对关键词组成的初步标签进行筛选,得到建模标签;最后,基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。本申请通过对生成的初步标签进行筛选,提取出高度精炼的标签并将其作为建模标签以完成实体画像,提高了构建实体画像的效率。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种实体画像构建方法的流程图。
如图1所示,该方法包括:
S101:根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词。
作为示例,目标实体可以是科研人员,在科研评价中“唯论文”指标或过分强调论文指标的现象十分普遍,不同类型的科研人员评价标准也如出一辙,忽略了科研人员其他方面的贡献;虽然目前建立了多个科研人员信息库,但是各类信息由各个部门分别存储,数据分散,缺乏对各类信息的整合与关联,对信息的利用程度不高,科研管理部门想要了解一个科研人员,需要通过各个数据库检索。通过将科研人员作为目标实体,并为其构建实体画像,可以对科研人员有一个直观、快速的了解。
作为示例,文本描述信息可以是目标实体的属性信息或目标实体的行为信息。其中,目标实体的属性信息可以包括:单位、部门、级别、联系号码、OA信息;目标实体的行为信息可以包括:呼入行为、话务沟通行为、提报需求行为、以及运维服务人员的运维服务行为。除此之外,文本描述信息还可以包括:成果信息、偏好信息、合作信息以及社交信息等。其中,成果信息可以是期刊论文、会议论文、学术专著、专利、会议报告;偏好信息可以是代表目标实体对某一研究主题的兴趣的信息;合作信息可以是代表与其他人合作产生的信息;社交信息可以是目标实体在学术社交网络中产生的信息。
在一种可能的实现中,数据源可以是不同的数据源,即根据目标示实体的文本描述信息,在第一数据源中确定与目标实体对应的第一关键词;根据目标示实体的文本描述信息,在第二数据源中确定与目标实体对应的第二关键词。需要注意的是,本实施例中,不对数据源的数量进行相应的限定。
S102:基于对关键词组成的初步标签进行筛选,得到建模标签。
作为示例,初步标签可以由关键词所构成。
由于关键词是从数据源中所获取到的,在获取到关键词之后,并没有对关键词进行进一步的处理,导致获取到的关键词中存在大量重复的冗余信息。本实施例通过对关键词所组成的初步标签进行筛选,可以有效减少冗余信息。
S103:基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。
作为示例,标签库中的标签是以三元组的形式进行存储的。例如,该三元组中的信息包括目标实体、系统及知识、客服三者之间的关联,形成传统类、规划类和预测类的标签库。
本申请提供一种实体画像构建方法,首先,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;然后,基于对所述关键词组成的初步标签进行筛选,得到建模标签;最后,基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。本申请通过对生成的初步标签进行筛选,提取出高度精炼的标签并将其作为建模标签以完成实体画像,提高了构建实体画像的效率。
参见图2,该图为本申请实施例提供的另一种实体画像构建方法的流程图。
如图2所示,该方法包括:
S201:根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词。
S202:对关键词进行标准化处理,得到标准表示的关键词。
作为示例,本实施例中的关键词来自于多个数据源,每个数据源中的关键词的格式都是不一样的,因此需要对关键词的格式进行标准化。
在一可实现的方式中,假如有两个数据源,两个数据源中的关键词的格式均不一样。所以,有以下几种标准化的方式,其一,以第一数据源中关键词的格式为标准,将第二数据源中关键词的格式转化为第一数据源中关键词的格式;其二,以以第二数据源中关键词的格式为标准,将第一数据源中关键词的格式转化为第二数据源中关键词的格式;其三,将第一数据源的关键词和第二数据源中的关键词的格式均转换为第三种格式。
S203:对关键词进行聚类,得到以三元组形式表示的初步标签;基于TF-IDF技术对以三元组形式表示的初步标签进行评分,得到各初步标签的TD-IDF评分;若TF-IDF得分大于预设阈值的初步标签作为建模标签。
具体地,首先,对关键词进行聚类,得到以三元组形式表示的初步标签;然后,基于TF-IDF技术对以三元组形式表示的初步标签进行评分,得到各初步标签的TD-IDF评分;最后,若TF-IDF得分大于预设阈值的初步标签作为建模标签。
作为示例,聚类借助CF-Tree的方法,每个节点是由三个聚类特征所组成,这三个聚类特征构成一个三元组,得到以三元组形式表示的初步标签。例如,该三元组中的信息包括目标实体、系统及知识、客服。
作为示例,TF-IDF(TermFrequency-InverseDocumentFrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是指词频,IDF是指逆文本频率,TF项可以理解为初步标签集合中某初步标签的加权频度,IDF项为逆向频率,即初步标签整体分布概率的对数值的相反数。计算出每个关键词的TF-IDF值,将TF-IDF值大于设定阈值的初步标签作为建模标签。
本实施例中,通过采用对关键词进行聚类,得到以三元组形式表示的初步标签,使得来自不同数据源中的关键词之间的融合度有所提升;除此之外,通过采用TD-IDF评分对初步标签进行筛选,使得获取到的建模标签是高度精炼的标签,进而提升对目标实体进行画像的效率。
S204:基于人口属性信息或目标实体行为信息对所述建模标签进行分类,分别得到关于目标实体的基础信息标签或行为推测标签。
S205:对置信度因子进行修改获得新的知识,以便扩充知识库。
对置信度因子进行修改,获得新知识,总结新经验,扩充、更新知识库。
S206:基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。
本申请提供一种实体画像构建方法,首先,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;然后,基于对所述关键词组成的初步标签进行筛选,得到建模标签;最后,基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。本申请通过对生成的初步标签进行筛选,提取出高度精炼的标签并将其作为建模标签以完成实体画像,提高了构建实体画像的效率。
参见图3,该图为本申请实施例提供的一种实体画像构建装置的结构示意图。
如图3所示,该装置包括:确定模块301、获得模块302以及建模模块303;
确定模块301,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;
获取模块302,基于对关键词所进行的分析,得到建模标签;
建模模块303,基于画像构建规则,通过建模标签、标签库以及知识库构建与目标实体对应的标签画像。
可选地,获得模块302,具体用于:
对关键词进行聚类,得到以三元组形式表示的初步标签;
基于TF-IDF技术对以三元组形式表示的初步标签进行评分,得到各初步标签的TD-IDF评分;
若TF-IDF得分大于预设阈值的初步标签作为建模标签。
可选地,关键词关于人口属性信息或目标实体行为信息,该装置还包括:分类模块;
分类模块,基于人口属性信息或目标实体行为信息对建模标签进行分类,分别得到关于目标实体的基础信息标签或行为推测标签。
可选地,该装置还包括:标准化模块;
标准化模块,用于对关键词进行标准化处理,得到标准表示的关键词。
可选地,该装置还包括:修改模块;
修改模块,用于对置信度因子进行修改获得新的知识,以便扩充知识库。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请实施例所述的实体画像构建方法。
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
如图4所示,本申请实施例提供的一种计算机设备的结构示意图。图4显示的计算机设备12,计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的实体画像构建方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种实体画像构建方法,其特征在于,所述方法包括:
根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;
基于对所述关键词组成的初步标签进行筛选,得到建模标签;
基于画像构建规则,通过所述建模标签、标签库以及知识库构建与所述目标实体对应的画像。
2.如权利要求1所述的方法,其特征在于,所述基于对所述关键词组成的初步标签进行筛选,得到建模标签,包括:
对所述关键词进行聚类,得到以三元组形式表示的初步标签;
基于TF-IDF技术对所述以三元组形式表示的初步标签进行评分,得到各所述初步标签的TD-IDF评分;
若所述TF-IDF得分大于预设阈值的所述初步标签作为建模标签。
3.如权利要求1所述的方法,其特征在于,所述根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词之后,所述方法还包括:
对所述关键词进行标准化处理,得到标准表示的关键词。
4.如权利要求1所述的方法,其特征在于,所述关键词关于人口属性信息或目标实体行为信息,所述基于对所述关键词组成的初步标签进行筛选,得到建模标签之后,所述方法还包括:
基于所述人口属性信息或目标实体行为信息对所述建模标签进行分类,分别得到关于所述目标实体的基础信息标签或行为推测标签。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
对置信度因子进行修改获得新的知识,以便扩充所述知识库。
6.一种实体画像构建装置,其特征在于,所述装置包括:确定模块、获得模块以及建模模块;
所述确定模块,根据目标实体的文本描述信息,在数据源中确定目标实体对应的关键词;
所述获取模块,基于对所述关键词组成的初步标签进行筛选,得到建模标签;
所述建模模块,基于画像构建规则,通过所述建模标签、标签库以及知识库构建与所述目标实体对应的画像。
7.如权利要求6所述的装置,其特征在于,所述获得模块,具体用于:
对所述关键词进行聚类,得到以三元组形式表示的初步标签;
基于TF-IDF技术对所述以三元组形式表示的初步标签进行评分,得到各所述初步标签的TD-IDF评分;
若所述TF-IDF得分大于预设阈值的所述初步标签作为建模标签。
8.如权利要求6所述的装置,其特征在于,所述关键词关于人口属性信息或目标实体行为信息,所述装置还包括:分类模块;
所述分类模块,基于所述人口属性信息或目标实体行为信息对所述建模标签进行分类,分别得到关于所述目标实体的基础信息标签或行为推测标签。
9.一种计算机设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述的实体画像构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1至5任一项所述的实体画像构建方法。
CN202310217011.4A 2023-03-01 2023-03-01 一种实体画像构建方法、装置、设备及存储介质 Pending CN116151262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310217011.4A CN116151262A (zh) 2023-03-01 2023-03-01 一种实体画像构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310217011.4A CN116151262A (zh) 2023-03-01 2023-03-01 一种实体画像构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116151262A true CN116151262A (zh) 2023-05-23

Family

ID=86356288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310217011.4A Pending CN116151262A (zh) 2023-03-01 2023-03-01 一种实体画像构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116151262A (zh)

Similar Documents

Publication Publication Date Title
JP2003140942A (ja) 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品
CN112417274A (zh) 一种消息推送方法、装置、电子设备及存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
US20220237376A1 (en) Method, apparatus, electronic device and storage medium for text classification
CN112017062B (zh) 基于客群细分的资源额度分配方法、装置及电子设备
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN107729944B (zh) 一种低俗图片的识别方法、装置、服务器及存储介质
US11163761B2 (en) Vector embedding models for relational tables with null or equivalent values
CN112948584A (zh) 短文本分类方法、装置、设备以及存储介质
CN111931034A (zh) 数据搜索方法、装置、设备及存储介质
US11847599B1 (en) Computing system for automated evaluation of process workflows
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
US11714637B1 (en) User support content generation
US11922129B2 (en) Causal knowledge identification and extraction
CN116151262A (zh) 一种实体画像构建方法、装置、设备及存储介质
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
JP2022079430A (ja) 方法、システムおよびコンピュータ・プログラム
US20210383072A1 (en) Concept disambiguation for natural language processing
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN114627416A (zh) 视频处理方法和装置
CN117999563A (zh) 用于机器学习算法的无服务器修改和执行的系统和方法
US11163954B2 (en) Propagation of annotation metadata to overlapping annotations of synonymous type

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination