CN113792149A - 一种基于用户关注度分析产生获客方案的方法和装置 - Google Patents
一种基于用户关注度分析产生获客方案的方法和装置 Download PDFInfo
- Publication number
- CN113792149A CN113792149A CN202111344705.1A CN202111344705A CN113792149A CN 113792149 A CN113792149 A CN 113792149A CN 202111344705 A CN202111344705 A CN 202111344705A CN 113792149 A CN113792149 A CN 113792149A
- Authority
- CN
- China
- Prior art keywords
- attention
- user
- text
- probability
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种基于用户关注度分析产生获客方案的方法和装置,所述方法包括:定期采集生成第一文本数据序列;进行用户关注度分析生成第一用户关注数据组集合;组成第一用户关注度记录存入预设的第一用户关注度列表;组成第一用户关注链条;若用户分析模式为第一模式,则根据第一关注类别进行用户关注类别随时间变化趋势的分析得到长期、最近关注类别;并生成第一获客方案;若为第二模式,则根据第一关注类别和第一关注概率进行用户关注程度随时间变化趋势的分析得到关注增强类别;并生成第二获客方案;将第一或第二获客方案向工作人员推送。本发明方法解决了常规用户分析不聚焦的问题,还提升了分析精度、提高了获客方案的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于用户关注度分析产生获客方案的方法和装置。
背景技术
随着信息挖掘技术的发展,目前许多信息平台都为平台合作商家提供了用户数据挖掘、分析的功能,但都主要还是基于一些较为静态的手段,例如对客户日常浏览的静态板块分类、对客户输入的关键字进行收集、累计然后按对应的表格划类。然后我们在长期的实践中发现,其实客户每天的浏览和搜索并不是定向有明确目标的,客户每天可能会输入和浏览很多内容,其中只有小部分是客户真正关心的。如果采用上述方法对客户的关注点与关注度进行分析,往往成功率较低,且范围较大。基于此形成的向合作商家或业务人员推荐的获客方案的准确度也更低。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种基于用户关注度分析产生获客方案的方法、装置、电子设备及计算机可读存储介质,引入人工智能的自然语言处理(Natural Language Processing,NLP)技术对用户在平台上的各种操作信息(聊天信息、浏览的文章信息等)进行文本相似度比对,并将相似度较高的文本进行归类,再对各个归类子集的文本内容进行分类从而得到多个分类类别及其对应的概率,由类别可知用户的关注点、由概率可知用户的关注程度,再对获取到的所有类别也即关注点基于其对应的概率也即关注程度进行筛选,从而实现对用户的关注点与关注度的聚焦,最终根据聚焦后的信息生成用户关注链条,在获得用户关注链条之后若基于该链条对用户的关注类别随时间变化的趋势进行分析就可得到由长期关注类别与最近关注类别引导的获客方案,若基于该链条对用户的关注类别+关注概率随时间变化的趋势进行分析就可得到由体现用户持续增强关注的关注增强类别引导的获客方案。如此一来,通过本发明方法不但可以解决常规用户分析中的分析不聚焦的问题,还可以提升分析精度、提高获客方案的准确度。
为实现上述目的,本发明实施例第一方面提供了一种基于用户关注度分析产生获客方案的方法,所述方法包括:
定期采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列;
根据所述第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合;所述第一用户关注数据组集合包括多个第一用户关注数据组;所述第一用户关注数据组包括第一关注类别和第一关注概率;
由所述第一用户对应的第一用户标识、所述第一用户关注数据组集合和所述第一时段组成第一用户关注度记录,存入预设的第一用户关注度列表;
根据获取的第二用户标识,从所述第一用户关注度列表中抽取近期第二时段内的对应的所述第一用户关注度记录,组成第一用户关注链条;
对预设的用户分析模式进行识别;
若所述用户分析模式为第一模式,则根据所述第一用户关注链条的所述第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;并从预设的产品/服务数据库中,选择与所述长期关注类别匹配的产品或服务构成第一方案内容,选择与所述最近关注类别匹配的产品或服务构成第二方案内容,并以所述第二方案内容排序优先第一方案内容的方式生成第一获客方案;
若所述用户分析模式为第二模式,则根据所述第一用户关注链条的所述第一关注类别和所述第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;并从所述产品/服务数据库中,选择与所述关注增强类别匹配的产品或服务生成第二获客方案;
将所述第一获客方案或所述第二获客方案向与所述第二用户标识对应的用户对接的所述第一信息平台的工作人员推送。
优选的,所述采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列,具体包括:
采集所述第一用户在所述第一时段内与所述第一信息平台的第一工作人员的沟通信息,生成多个第一沟通文本数据;
采集所述第一用户在所述第一时段内与所述第一信息平台的第一聊天机器人的沟通信息,生成多个第二沟通文本数据;
采集所述第一用户在所述第一时段内在所述第一信息平台上浏览的所有文章信息,组成第一文章数据;并对所述第一文章数据进行断句处理生成多个第一文句文本数据;
将得到的所述多个第一沟通文本数据、所述多个第二沟通文本数据和所述多个第一文句文本数据进行排序,生成第一文本数据序列。
优选的,所述根据所述第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合,具体包括:
对所述第一文本数据序列中的任意两个第一文本数据进行相似度识别生成形状为N*N的第一文本相似度矩阵;所述第一文本数据序列包括多个所述第一文本数据;N为所述第一文本数据序列中所述第一文本数据的数量;所述第一文本相似度矩阵包括N*N个第一矩阵节点;所述第一矩阵节点的值为对应的两个所述第一文本数据的相似度概率;
根据所述第一文本相似度矩阵,对所述第一文本数据序列进行相似文本归类处理,得到多个第一类文本数据序列;
对各个所述第一类文本数据序列进行分类确认处理,生成对应的第一分类确认数据组;所述第一分类确认数据组包括第一确认类别和第一确认类别概率;
对得到的多个所述第一分类确认数据组进行用户关注筛选处理,生成多个所述第一用户关注数据组;
由多个所述第一用户关注数据组构成所述第一用户关注数据组集合。
进一步的,所述对所述第一文本数据序列中的任意两个第一文本数据进行相似度识别生成形状为N*N的第一文本相似度矩阵,具体包括:
创建形状为N*N的所述第一文本相似度矩阵;所述第一文本相似度矩阵包括N*N个所述第一矩阵节点Zx,y;x为列标,x的取值范围从1到N;y为行标,y的取值范围从1到N;行、列的起始位置都为矩阵左上角;
对应所述第一矩阵节点Zx,y,从所述第一文本数据序列中选择排序索引为x的所述第一文本数据作为第一对应文本数据,选择排序索引为y的所述第一文本数据作为第二对应文本数据;
按向量空间模型VSM,对所述第一对应文本数据和所述第二对应文本数据分别进行文本向量转换处理,生成对应的第一文本向量和第二文本向量;
通过计算所述第一文本向量与所述第二文本向量夹角的余弦值,生成对应的相似度概率Px,y;所述相似度概率Px,y为第一对应文本数据和第二对应文本数据的相似度概率;相似度概率Px,y=第一文本向量与第二文本向量夹角的余弦值;
使用所述相似度概率Px,y对所述第一矩阵节点Zx,y的值进行设置。
进一步的,所述根据所述第一文本相似度矩阵,对所述第一文本数据序列进行相似文本归类处理,得到多个第一类文本数据序列,具体包括:
从左上角到右下角做对角线将所述第一文本相似度矩阵划分成上下两部分;上部分中同行的所述第一矩阵节点Zx,y的脚标关系为x≥y;下部分中同行的所述第一矩阵节点Zx,y的脚标关系为x≤y;
从所述上部分和所述下部分中任选一个,作为第一矩阵区域;
在所述第一矩阵区域中,将所述相似度概率低于预设的相似度概率阈值的所述第一矩阵节点标记为第一无效节点,并将所述相似度概率不低于所述相似度概率阈值的所述第一矩阵节点标记为第一有效节点;
在所述第一矩阵区域中,以处于所述对角线之下的尚未归类的任一所述第一有效节点作为当前中心点,并将与所述当前中心点同行或同列的处于所述对角线之下的所有所述第一有效节点视为同一类,组成对应的第一类有效节点集合,直到所述对角线下尚未归类的所述第一有效节点的数量为0为止;
将各个所述第一类有效节点集合中的所述第一有效节点所对应的所述第一文本数据归为同一类,组成对应的第一类文本数据序列。
进一步的,所述对各个所述第一类文本数据序列进行分类确认处理,生成对应的第一分类确认数据组,具体包括:
使用训练成熟的文本分类模型,对所述第一类文本数据序列进行文本分类处理,得到多个第一模型分类类别和对应的第一模型分类概率;
将概率值最大的所述第一模型分类概率作为所述第一确认类别概率;
将所述第一确认类别概率对应的所述第一模型分类类别作为所述第一确认类别;
由所述第一确认类别和所述第一确认类别概率组成所述第一分类确认数据组。
进一步的,所述对得到的多个所述第一分类确认数据组进行用户关注筛选处理,生成多个所述第一用户关注数据组,具体包括:
在多个所述第一分类确认数据组中,将所述第一确认类别相同的所述第一分类确认数据组划分为同一集合生成对应的第一分类集合;
对各个所述第一分类集合的所述第一确认类别概率进行总和计算,生成第一概率总和;并对所有所述第一概率总和进行总和计算,生成全概率总和;根据所述全概率总和对各个所述第一概率总和进行归一化处理,生成与各个所述第一分类集合对应的第一分类概率,;
根据预设的分类概率阈值对得到的多个所述第一分类概率进行轮询;若当前被轮询的所述第一分类概率不低于所述分类概率阈值,则将当前被轮询的所述第一分类概率作为所述第一关注概率,将当前被轮询的所述第一分类概率对应的所述第一确认类别作为所述第一关注类别,并由所述第一关注类别与所述第一关注概率组成对应的所述第一用户关注数据组。
本发明实施例第二方面提供了一种用以实现上述第一方面所述的方法步骤的基于用户关注度分析产生获客方案的装置,包括:信息采集模块、用户关注度分析模块、获客方案生成模块和获客方案推送模块;
所述信息采集模块用于定期采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列;
所述用户关注度分析模块用于根据所述第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合,其中,所述第一用户关注数据组集合包括多个第一用户关注数据组,所述第一用户关注数据组包括第一关注类别和第一关注概率;并由所述第一用户对应的第一用户标识、所述第一用户关注数据组集合和所述第一时段组成第一用户关注度记录,存入预设的第一用户关注度列表;
所述获客方案生成模块用于根据获取的第二用户标识,从所述第一用户关注度列表中抽取近期第二时段内的对应的所述第一用户关注度记录,组成第一用户关注链条;并对预设的用户分析模式进行识别;若所述用户分析模式为第一模式,则根据所述第一用户关注链条的所述第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;并从预设的产品/服务数据库中,选择与所述长期关注类别匹配的产品或服务构成第一方案内容,选择与所述最近关注类别匹配的产品或服务构成第二方案内容,并以所述第二方案内容排序优先第一方案内容的方式生成第一获客方案;若所述用户分析模式为第二模式,则根据所述第一用户关注链条的所述第一关注类别和所述第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;并从所述产品/服务数据库中,选择与所述关注增强类别匹配的产品或服务生成第二获客方案;
所述获客方案推送模块用于将所述第一获客方案或所述第二获客方案向与所述第二用户标识对应的用户对接的所述第一信息平台的工作人员推送。
本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种基于用户关注度分析产生获客方案的方法、装置、电子设备及计算机可读存储介质,引入NLP技术对用户在平台上的各种操作信息(聊天信息、浏览的文章信息等)进行文本相似度比对,并将相似度较高的文本进行归类,再对各个归类子集的文本内容进行分类从而得到多个分类类别及其对应的概率,由类别可知用户的关注点、由概率可知用户的关注程度,再对获取到的所有类别也即关注点基于其对应的概率也即关注程度进行筛选,从而实现对用户的关注点与关注度的聚焦,最终根据聚焦后的信息生成用户关注链条,在获得用户关注链条之后若基于该链条对用户的关注类别随时间变化的趋势进行分析就可得到由长期关注类别与最近关注类别引导的获客方案,若基于该链条对用户的关注类别+关注概率随时间变化的趋势进行分析就可得到由体现用户持续增强关注的关注增强类别引导的获客方案。本发明方法不但解决了常规用户分析中的分析不聚焦的问题,还提升了分析精度、提高了获客方案的准确度。
附图说明
图1为本发明实施例一提供的一种基于用户关注度分析产生获客方案的方法示意图;
图2为本发明实施例一提供的第一文本相似度矩阵示意图;
图3为本发明实施例一提供的通过对角线划分出上下部分的第一文本相似度矩阵示意图;
图4为本发明实施例一提供的第一矩阵区域示意图;
图5为本发明实施例二提供的一种基于用户关注度分析产生获客方案的装置的模块结构图;
图6为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
信息平台通过本发明实施例一提供的一种基于用户关注度分析产生获客方案的方法,定期采集用户在平台上的各种操作信息(与工作人员的聊天信息、与虚拟的聊天机器人的聊天信息、在平台上浏览过的文章信息等),并基于NLP技术文本数据要求对采集到的文本信息进行预处理得到文本数据序列,再基于NLP技术对文本数据序列进行包括了文相似度比对、相似文本归类、归类文本分类等子过程的用户关注度分析,并基于分析结果为用户构建用户关注链条,并进一步基于该链条生成不同主题的获客方案,图1为本发明实施例一提供的一种基于用户关注度分析产生获客方案的方法示意图,如图1所示,本方法主要包括如下步骤:
步骤1,定期采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列;
其中,第一时段包括第一起始时间和第一结束时间;
这里,第一信息平台即为当前的信息平台会预先实时保存用户在各个时间上产生的各种操作信息,诸如与工作人员的聊天信息、与虚拟的聊天机器人的聊天信息以及在平台上浏览过的文章信息等;这样信息平台就可以对用户的操作信息进行定期采集,每次采集时均按第一时段中约定的第一起始与第一结束时间进行采集;第一文本数据序列为满足后续步骤中NLP技术处理数据规范的文本数据序列;
具体包括:步骤11,采集第一用户在第一时段内与第一信息平台的第一工作人员的沟通信息,生成多个第一沟通文本数据;
这里,每条聊天记录也就是沟通信息对应一个第一沟通文本数据,每个第一沟通文本数据的内容都是以句号作为结束符;
步骤12,采集第一用户在第一时段内与第一信息平台的第一聊天机器人的沟通信息,生成多个第二沟通文本数据;
这里,每条聊天记录也就是沟通信息对应一个第二沟通文本数据,每个第二沟通文本数据的内容都是以句号作为结束符;
步骤13,采集第一用户在第一时段内在第一信息平台上浏览的所有文章信息,组成第一文章数据;并对第一文章数据进行断句处理生成多个第一文句文本数据;
这里,采集到的第一文章数据中包含了多篇文章,所以第一文章数据中的内容不仅仅包含每篇文章的实质性文本内容,还可能包含每篇文章的标题信息、摘要信息、以及内嵌的图片或文字链接信息等一些与实质内容重复或无关的数据;所以在对第一文章数据进行断句处理时,首先会对第一文章数据进行数据清理,在进行数据清理时本发明实施例会将上述与实质内容重复或无关的数据全部删除,然后再对完成数据清理的第一文章数据中的纯文本内容进行断句处理,在进行断句处理时本发明实施例以句号为文本切断标志将上述纯文本内容切成多条文本,并将每条文本作为一个第一文句文本数据;
步骤14,将得到的多个第一沟通文本数据、多个第二沟通文本数据和多个第一文句文本数据进行排序,生成第一文本数据序列。
这里,融合后得到的第一文本数据序列实际就是由多个文句(以句号作为结束符的一段文字)组成的文句数据序列。
步骤2,根据第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合;
其中,第一用户关注数据组集合包括多个第一用户关注数据组;第一用户关注数据组包括第一关注类别和第一关注概率;
这里,信息平台基于NLP技术对第一文本数据序列进行包括了文本相似度比对、相似文本归类、归类文本分类等子过程的用户关注度分析,从而得到多个反映用户关注点也就是第一关注类别以及对该类别的关注程度也就是第一关注概率的第一用户关注数据组;
具体包括:步骤21,对第一文本数据序列中的任意两个第一文本数据进行相似度识别生成形状为N*N的第一文本相似度矩阵;
其中,第一文本数据序列包括多个第一文本数据;N为第一文本数据序列中第一文本数据的数量;第一文本相似度矩阵包括N*N个第一矩阵节点Zx,y;x为列标,x的取值范围从1到N;y为行标,y的取值范围从1到N;行、列的起始位置都为矩阵左上角;第一矩阵节点的值为对应的两个第一文本数据的相似度概率;
这里,由上文可知第一文本数据序列是由多个文句组成的文句数据序列,第一文本数据即是对应的文句文本数据;本发明实施例基于NLP技术对第一文本数据序列中任意两个第一文本数据的相似度进行计算从而可以得到N*N个相似度概率,按每个相似度概率与其对应的两个第一文本数据的对应关系创建第一文本相似度矩阵,是为了便于后续步骤对高度相似的第一文本数据进行归类;
具体包括:步骤211,创建形状为N*N的第一文本相似度矩阵;
这里,创建的第一文本相似度矩阵如图2为本发明实施例一提供的第一文本相似度矩阵示意图所示,因为文本自身的相似度肯定为1,所以左上角到右下角的对角线上的第一矩阵节点Zx,y的值都为1,除该对角线上的其他第一矩阵节点Zx,y的值都为空;
步骤212,对应第一矩阵节点Zx,y,从第一文本数据序列中选择排序索引为x的第一文本数据作为第一对应文本数据,选择排序索引为y的第一文本数据作为第二对应文本数据;
这里,在从第一文本数据序列任意选择两个第一文本数据时,为避免重复选择造成的冗余计算量,可以第一矩阵节点Zx,y脚标与第一文本数据在第一文本数据序列中的排序索引的对应关系作为挑选原则;例如,第一矩阵节点Z1,2,x=1,y=2,那么第一、第二对应文本数据分别为第一文本数据序列中的第1个、第2个第一文本数据;
步骤213,按向量空间模型(Vector Space Model,VSM),对第一对应文本数据和第二对应文本数据分别进行文本向量转换处理,生成对应的第一文本向量和第二文本向量;
这里,首先将还是文句结构的第一、第二对应文本数据进行分词处理,从而得打多个分词数据,再对每个分词进行词性特征识别从而得到对应的分词词性数据,再统计每个分词在当前文句中的出现频率得到对应的分词词频数据,再基于分词数据+分词词性数据+分词词频数据使用NLP技术领域公知的词频-逆文本频率指数(term frequency–inversedocument frequency,tf-idf)计算方法就可以得到每个分词的分词权重数据,在得到了各个分词数据的分词权重数据之后,就可以按NLP技术领域的向量空间模型进行文本向量的构建,从而得到与第一、第二对应文本数据对应的第一文本向量和第二文本向量;在本发明实施例中对一些特殊的词性特征的权重会设置偏高,例如,时间词性特征、人名词性特征、地名词性特征、疾病名词性特征、疾病症状词性特征、保险险种词性特征、医疗机构/保险机构/体检机构/健康管理机构名称词性特征等;
步骤214,通过计算第一文本向量与第二文本向量夹角的余弦值,生成对应的相似度概率Px,y,相似度概率Px,y=第一文本向量与第二文本向量夹角的余弦值;
其中,相似度概率Px,y为第一对应文本数据和第二对应文本数据的相似度概率;
这里,由公知的向量相似比对原理可知,只需计算两个向量之间的夹角余弦值即可,夹角越小向量相似度越高、余弦值越大,极限的情况下夹角为0°则相似度为最高、余弦值为1;为避免出现正负角度的问题,本发明实施例设定夹角角度为不带方向的角度绝对值;
步骤215,使用相似度概率Px,y对第一矩阵节点Zx,y的值进行设置;
这里,即是将与第一矩阵节点Zx,y的值设定为与其位置对应的第一、第二对应文本数据的相似度概率Px,y;
例如,第一矩阵节点Zx,y为第一矩阵节点Z1,2,x=2,y=1,其位置对应的就是第1个、第2个第一文本数据,通过计算得到二者的相似度概率P1,2为0.823,那么第一矩阵节点Z1,2的值就应为0.823;
步骤22,根据第一文本相似度矩阵,对第一文本数据序列进行相似文本归类处理,得到多个第一类文本数据序列;
具体包括:步骤221,从左上角到右下角做对角线将第一文本相似度矩阵划分成上下两部分;
其中,上部分中同行的第一矩阵节点Zx,y的脚标关系为x≥y;下部分中同行的第一矩阵节点Zx,y的脚标关系为x≤y;
这里,在计算出矩阵中所有节点的值之后,我们会发现矩阵节点的值是沿对角线对称分布的,原因实际就是诸如相似度概率P1,2和相似度概率P2,1实际比对的文本数据是相同的都是第1个、第2个第一文本数据;那么在根据第一文本相似度矩阵按相似度进行文本归类处理时,只需用参考第一文本相似度矩阵的一半节点即可;基于此,本发明实施例会对第一文本相似度矩阵进行截取,截取之前先将可截取的区域按对角线划分出来也就是上文中的上下两部分,具体如图3为本发明实施例一提供的通过对角线划分出上下部分的第一文本相似度矩阵示意图所示;
步骤222,从上部分和下部分中任选一个,作为第一矩阵区域;
这里,本发明实施例默认选择下部分作为第一矩阵区域;
步骤223,在第一矩阵区域中,将相似度概率低于预设的相似度概率阈值的第一矩阵节点标记为第一无效节点,并将相似度概率不低于相似度概率阈值的第一矩阵节点标记为第一有效节点;
这里,本发明实施例预先设定了一个相似度概率阈值,并以作为高度相似的界定条件,将第一矩阵区域中低于此阈值的第一矩阵节点视作为非高度近似节点也就是第一无效节点,将不低于此阈值的第一矩阵节点视作为高度近似节点也就是第一有效节点;这样处理主要是为了排除低相似度数据干扰,从而提高后续文本归类的精确度,同时也可以节约后续步骤的计算量;
需要说明的是,因为对角线上的所有第一矩阵节点的值都默认为1,所以对角线上的所有第一矩阵节点默认都会被标记为第一有效节点;
步骤224,在第一矩阵区域中,以处于对角线之下的尚未归类的任一第一有效节点作为当前中心点,并将与当前中心点同行或同列的处于对角线之下的所有第一有效节点视为同一类,组成对应的第一类有效节点集合,直到对角线下尚未归类的第一有效节点的数量为0为止;
这里,当前步骤实际是对处于对角线下的高度相似的第一有效节点进行聚类处理,本发明实施例的聚类原则基于以下理论:若第一文本与第二文本高度近似,第二文本与第三文本高度近似,则默认第一文本与第三文本也有较强近似关系,所以三者都可以被归为同一类文本;在具体实施时,本发明实施例采用中心点聚类办法,也就是在第一矩阵区域中选择一个第一有效节点作为中心点,将与之同行或同列的其他第一有效节点都聚为同一类;需要说明的是,本发明实施例的聚类方法中所有第一有效节点不能被归为多类之中,也就是说每个第一有效节点只能被一个第一类有效节点集合归集;
例如,当前第一矩阵区域如图4为本发明实施例一提供的第一矩阵区域示意图所示,该第一矩阵区域由一个7*7的矩阵切分而来,其中的被标记为第一有效节点的第一矩阵节点序列为(Z1,1,Z2,2,Z3,3,Z2,4,Z4,4,Z5,5,Z2,6,Z4,6,Z6,6,Z3,7,Z7,7);其中居于对角线上的节点序列为(Z1,1,Z2,2,Z3,3,Z4,4,Z5,5,Z6,6,Z7,7);因为所有对角线上的第一有效节点不被纳入选择范围,所以中心点的可选节点序列为第二矩阵节点序列(Z2,4,Z2,6,Z4,6,Z3,7)
对第二矩阵节点序列(Z2,4,Z2,6,Z4,6,Z3,7)按从前到后的顺序选择中心点,那么第1个中心点应为Z2,4,从图4可知,在第二矩阵节点序列(Z2,4,Z2,6,Z4,6,Z3,7)中与Z2,4同行或同列的第一有效节点包括:Z2,4和Z2,6,那么由此产生对应的第1个第一类有效节点集合(Z2,4,Z2,6);
在得到第1个第一类有效节点集合之后,为避免同一个节点被纳入多个归类中,所以需要根据第1个第一类有效节点集合对第二矩阵节点序列进行已归类节点的删除操作,删除之后的第二矩阵节点序列应为(Z4,6,Z3,7);
继续对第二矩阵节点序列(Z4,6,Z3,7)按从前到后的顺序选择中心点,那么第2个中心点应为Z4,6,从图4可知,在第二矩阵节点序列应为(Z4,6,Z3,7)中与Z4,6同行或同列的尚未被归类的第一有效节点只有Z4,6自身,那么由此产生对应的第2个第一类有效节点集合(Z4,6);
在得到第2个第一类有效节点集合之后,同样要对第第二矩阵节点序列进行已归类节点的删除操作,删除之后的第二矩阵节点序列应为(Z3,7);
继续对第二矩阵节点序列(Z3,7)按从前到后的顺序选择中心点,那么第3个中心点应为Z3,7,从图4可知,在第二矩阵节点序列应为(Z3,7)中与Z3,7同行或同列的尚未被归类的第一有效节点只有Z3,7自身,那么由此产生对应的第3个第一类有效节点集合(Z3,7);
在得到第3个第一类有效节点集合之后,同样要对第二矩阵节点序列进行已归类节点的删除操作,删除之后的第二矩阵节点序列为空也就是对角线下尚未归类的第一有效节点的数量为0;
在对角线下尚未归类的第一有效节点的数量为0时,即可终止当前步骤的循环操作;
步骤225,将各个第一类有效节点集合中的第一有效节点所对应的第一文本数据归为同一类,组成对应的第一类文本数据序列;
这里,对于每个第一类有效节点集合,本发明实施例首选按其中包括的各个第一有效节点的脚标从第一文本数据序列中选择排序索引对应的第一文本数据组成当前文本数据集合,并从中删除重复的文本数据得到对应的第一类文本数据序列;
例如,得到3个第一类有效节点集合,分别为:第1个第一类有效节点集合(Z2,4,Z2,6)、第2个第一类有效节点集合(Z4,6)和第3个第一类有效节点集合(Z3,7);
那么对第1个第一类有效节点集合而言,对应Z2,4的应为第一文本数据序列中的第2个、第4个第一文本数据,对应Z2,6的应为第一文本数据序列中的第2个、第6个第一文本数据,由此得到的当前文本数据集合应为(第2个第一文本数据,第4个第一文本数据,第2个第一文本数据,第6个第一文本数据),其中第2个第一文本数据重复了2次,所以将重复的第2个第一文本数据删除,删除之后得到的就是第1个第一类文本数据序列(第2个第一文本数据,第4个第一文本数据,第6个第一文本数据);
以此类推,对第2个第一类有效节点集合而言,对应的第2个第一类文本数据序列为(第4个第一文本数据,第6个第一文本数据);
对第3个第一类有效节点集合而言,对应的第3个第一类文本数据序列为(第3个第一文本数据,第7个第一文本数据);
步骤23,对各个第一类文本数据序列进行分类确认处理,生成对应的第一分类确认数据组;
其中,第一分类确认数据组包括第一确认类别和第一确认类别概率;
这里,在得到多个文本归类集合之后,就可以对每个归类集合进行文本类型的识别;在本发明实施例中为避免类别过泛化,不利于对用户关注类别的精准定位,所以要求对每个文本归类集合的识别结果也就是第一分类确认数据组锁定在一个类别上;
具体包括:步骤231,使用训练成熟的文本分类模型,对第一类文本数据序列进行文本分类处理,得到多个第一模型分类类别和对应的第一模型分类概率;
这里,本发明实施例使用的文本分类模型都是NLP技术领域中常用的人工智能文本分类模型,诸如基于循环神经网络RNN的文本分类模型的文本分类模型,在使用该模型之前需要使用标注了不同文本类型的词料库或语料库与其进行训练;这里的文本类型常规情况下应至少包括与医学知识相关的文本类型、与健康保健相关的文本类型、与保险知识相关的文本类型、与疾病知识相关的文本类型以及与疾病症状及分类相关的文本类型等类型;
上述人工智能文本分类模型通过模型中的分类器根据预设的多个分类标签输出多个分类概率,本发明实施例将已知的分类标签作为第一模型分类类别,将对应分别标签的输出概率作为第一模型分类概率,最终就可得到多组第一模型分类类别和对应的第一模型分类概率;
步骤232,将概率值最大的第一模型分类概率作为第一确认类别概率;
这里,由上文可知,为避免类别过泛化,要将每个文本归类集合的识别结果锁定在一个类别上,那么就需要选择一个最大可能的类别来锁定,本发明实施例默认概率最大的可能最大,所以在此会对得到的多个第一模型分类概率按最大值进行筛选,并将最大值作为第一确认类别概率;
步骤233,将第一确认类别概率对应的第一模型分类类别作为第一确认类别;
这里,在得到第一确认类别概率之后,自然与其对应的模型分类标签也就是第一模型分类类别就会被提取出来作为第一确认类别;
步骤234,由第一确认类别和第一确认类别概率组成第一分类确认数据组;
这里,第一分类确认数据组即是对每个文本归类集合唯一分类结果,其中只包含一个分类类别也就是第一确认类别,第一确认类别概率为其对应的分类概率,第一确认类别概率的值越高说明用户对第一确认类别的对应的同类文本的兴趣度越大;
步骤24,对得到的多个第一分类确认数据组进行用户关注筛选处理,生成多个第一用户关注数据组;
这里,由上文可知,在对用户进行相似度文本聚类时,可能会产生多个聚类文本集合也就是多个第一类文本数据序列,对每个第一类文本数据序列进行文本分类识别之后,自然就会得到多个第一分类确认数据组,这些第一分类确认数据组中的第一确认类别可能相同也可能不相同,即使存在相同的类别其对应的第一确认类别概率也可能不同,因此本发明实施例需要对得到的多个第一分类确认数据组进行用户关注筛选处理也即是类别的融合处理;
具体包括:步骤241,在多个第一分类确认数据组中,将第一确认类别相同的第一分类确认数据组划分为同一集合生成对应的第一分类集合;
这里,即是根据类别对多个第一分类确认数据组进行聚类处理;
例如,得到3个第一分类确认数据组,分别是:第1个第一分类确认数据组(第一确认类别为“心脏病知识”,第一确认类别概率为0.71),第2个第一分类确认数据组(第一确认类别为“心脏病知识”,第一确认类别概率为0.35),第3个第一分类确认数据组(第一确认类别为“眼科知识”,第一确认类别概率为0.88);
因为第1个、第2个第一分类确认数据组的第一确认类别相同均为“心脏病知识”,所以二者归为一类;第3个第一分类确认数据组与第1个、第2个第一分类确认数据组的第一确认类别都不相同,则自行归为一类;那么经过聚类之后会得到2个第一分类集合,分别是:第1个第一分类集合(第1个第一分类确认数据组,第2个第一分类确认数据组);第2个第一分类集合(第3个第一分类确认数据组);
步骤242,对各个第一分类集合的第一确认类别概率进行总和计算,生成第一概率总和;并对所有第一概率总和进行总和计算,生成全概率总和;根据全概率总和对各个第一概率总和进行归一化处理,生成与各个第一分类集合对应的第一分类概率,;
例如,第1个第一分类集合为(第1个第一分类确认数据组,第2个第一分类确认数据组);第2个第一分类集合为(第3个第一分类确认数据组);
那么第1个第一分类集合对应的第1个第一概率总和=第1个第一分类确认数据组的第一确认类别概率+第2个第一分类确认数据组的第一确认类别概率=0.71+0.35=1.06;第2个第一分类集合对应的第2个第一概率总和=第3个第一分类确认数据组的第一确认类别概率=0.88;
全概率总和=第1个第一概率总和+第2个第一概率总和=1.06+0.88=1.94;
那么归一化处理之后,第1个第一分类集合对应的归一化概率也就是第1个第一分类概率=第1个第一概率总和/全概率总和=1.06/1.94≈0.55, 第2个第一分类集合对应的归一化概率也就是第2个第一分类概率=第2个第一概率总和/全概率总和=0.88/1.94≈0.45;
步骤243,根据预设的分类概率阈值对得到的多个第一分类概率进行轮询;若当前被轮询的第一分类概率不低于分类概率阈值,则将当前被轮询的第一分类概率作为第一关注概率,将当前被轮询的第一分类概率对应的第一确认类别作为第一关注类别,并由第一关注类别与第一关注概率组成对应的第一用户关注数据组;
这里,为进一步收敛用户的关注范围,本发明实施示例通过预设的分类概率阈值对得到的多个第一分类概率进行筛选;
例如,分类概率阈值为0.30,第1个第一分类概率为0.55,第2个第一分类概率为0.45;
那么这2个第一分类概率都是合格的,继而就能得到2个第一用户关注数据组,分别是:第1个第一用户关注数据组(第一关注类别为“心脏病知识”,第一关注概率为0.55),第2个第一用户关注数据组(第一关注类别为“眼科知识”,第一关注概率为0.45);
步骤25,由多个第一用户关注数据组构成第一用户关注数据组集合。
例如,得到2个第一用户关注数据组,则第一用户关注数据组集合为(第1个第一用户关注数据组,第2个第一用户关注数据组)。
步骤3,由第一用户对应的第一用户标识、第一用户关注数据组集合和第一时段组成第一用户关注度记录,存入预设的第一用户关注度列表;
其中,第一用户关注度列表包括多个第一用户关注度记录;第一用户关注度记录包括第一用户标识字段、第一用户关注数据组集合字段、第一起始时间字段和第一结束时间字段。
这里,第一用户关注度列表用于存储信息平台每次对用户进行关注度分析的分析结果;每条第一用户关注度记录对应一个用户的一次关注度分析结果;第一用户标识字段用于存储当前用户的唯一标识码,第一用户关注数据组集合字段用于存储当前用户当次分析的第一用户关注数据组集合,第一起始时间字段用于存储当前用户当次分析所依据时间段也就是第一时段的第一起始时间信息,第一结束时间字段则用于存储第一时段的第一结束时间信息。
综上,通过步骤1-3对所有用户定期的关注度分析,就可以在第一用户关注度列表中积累起所有用户的关注行为轨迹信息。基于该列表,信息平台就可以通过后续步骤完成对各个客户的个性化产品/服务方案定制了,也就是我们常说的获客方案。
步骤4,根据获取的第二用户标识,从第一用户关注度列表中抽取近期第二时段内的对应的第一用户关注度记录,组成第一用户关注链条;
具体包括:对第一用户关注度列表的第一用户关注度记录进行轮询,若当前被轮询的第一用户关注度记录的第一用户标识字段与第二用户标识匹配,且当前被轮询的第一用户关注度记录的第一起始时间字段和第一结束时间字段与第二时段匹配,则将当前被轮询的第一用户关注度记录提取出来加入到第一用户关注链条中。
这里,随着对用户分析的次数增加,信息平台就可以通过第一用户关注度列表的第一用户关注度记录,构建起与每个用户相关的信息链条;这里的第二用户标识数据是获取的某个用户的标识信息,第一用户关注链条即是与第二用户标识数据对应客户相关的信息链条;这里的第二时段的时间间隔一般都以月为单位,常规情况下第二时段都会大于第一时段,第一时段的时间间隔一般都被设为一天或一周。
步骤5,对预设的用户分析模式进行识别;若用户分析模式为第一模式,则转至步骤6;若用户分析模式为第二模式,则转至步骤7。
这里,信息平台在对与每个用户相关的信息链条也就是第一用户关注链条进行分析时,通过预先设定的用户分析模式为用户至少提供两种分析办法:第一模式为横向大类分析和第二模式为纵向深度分析。
步骤6,根据第一用户关注链条的第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;并从预设的产品/服务数据库中,选择与长期关注类别匹配的产品或服务构成第一方案内容,选择与最近关注类别匹配的产品或服务构成第二方案内容,并以第二方案内容排序优先第一方案内容的方式生成第一获客方案;转至步骤8;
这里,用户分析模式为第一模式,意味着对用户近期的关注类别进行横向大类分析,并拆分出长期关注类别与最近关注类别,对应的获客方案也是基于这两种类别进行组装;
具体包括:步骤61,根据第一用户关注链条的第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;
具体包括:步骤611,按时间先后循序对第一用户关注链条中第一用户关注度记录的第一用户关注数据组集合字段进行排序得到第一用户关注数据组集合序列;
步骤612,对第一用户关注数据组集合序列中包含的第一关注类别的重复次数进行统计,并将重复次数处于前指定名次的第一关注类别作为长期关注类别;
这里,前指定名次一般被设定为前2名;
步骤613,若第一用户关注数据组集合序列中最后一个第一用户关注数据组集合的第一关注类别与长期关注类别不匹配,则将最后一个第一用户关注数据组集合的第一关注类别作为最近关注类别;若最后一个第一用户关注数据组集合的第一关注类别与长期关注类别匹配,则继续判断倒数第二个第一用户关注数据组集合的第一关注类别是否与长期关注类别匹配,直到第一个第一用户关注数据组集合;
这里,若遇到以下极端情况:第一用户关注数据组集合序列中所有第一用户关注数据组集合的第一关注类别都与长期关注类别匹配,那么就默认最近关注类别与长期关注类别相同;
步骤62,从预设的产品/服务数据库中,选择与长期关注类别匹配的产品或服务构成第一方案内容,选择与最近关注类别匹配的产品或服务构成第二方案内容,并以第二方案内容排序优先第一方案内容的方式生成第一获客方案;
其中,产品/服务数据库包括多个产品/服务数据记录;产品/服务数据记录至少包括产品/服务内容字段和产品/服务类别字段;
具体包括:步骤621,根据长期关注类别对产品/服务数据库的产品/服务数据记录进行轮询,若当前被轮询的产品/服务数据记录的产品/服务类别字段与长期关注类别匹配,则将当前被轮询的产品/服务数据记录的产品/服务内容字段提取出来加入第一方案内容;
步骤622,根据最近关注类别对产品/服务数据库的产品/服务数据记录进行轮询,若当前被轮询的产品/服务数据记录的产品/服务类别字段与最近关注类别匹配,则将当前被轮询的产品/服务数据记录的产品/服务内容字段提取出来加入第二方案内容;
步骤623,按预设的第一模式获客方案模板,将第二方案内容置于最优推荐方案模块,将第一方案内容置于常规推荐方案模块,从而生成最终的第一获客方案;
其中,第一模式获客方案模板至少包括最优推荐方案模块和常规推荐方案模块。
这里,需要说明的是,若最近关注类别与长期关注类别相同,那么第一方案内容与第二方案内容是相同的;这时,需要对第一方案内容中的产品/服务内容的数量进行判断,若第一方案内容中的产品/服务内容的数量不唯一,则将第一方案内容拆分为两份:第一子方案内容和第二子方案内容,并将第一子方案内容置于最优推荐方案模块,将第二子方案内容常规推荐方案模块;若第一方案内容中的产品/服务内容的数量唯一,则将第一方案内容置于最优推荐方案模块,并取消第一获客方案的常规推荐方案模块。
步骤7,根据第一用户关注链条的第一关注类别和第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;并从产品/服务数据库中,选择与关注增强类别匹配的产品或服务生成第二获客方案;
这里,用户分析模式为第二模式,意味着对用户近期的关注类别进行纵向深度分析,并得出关注度持续增强的类别也就是关注增强类别,对应的获客方案也是基于这种关注增强类别进行组装;
具体包括:步骤71,根据第一用户关注链条的第一关注类别和第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;
具体包括:步骤711,按时间先后循序对第一用户关注链条中第一用户关注度记录的第一用户关注数据组集合字段进行排序得到第二用户关注数据组集合序列;
步骤712,在第二用户关注数据组集合序列中,对连续出现的相同的第一关注类别的进行统计,得到多个第一连续关注类别;
例如,第二用户关注数据组集合序列包括3个第一用户关注数据组集合,分别为:第1个第一用户关注数据组集合[第1个第一用户关注数据组(第一关注类别为“心脏病知识”,第一关注概率为0.55),第2个第一用户关注数据组(第一关注类别为“眼科知识”,第一关注概率为0.45)];第2个第一用户关注数据组集合[第1个第一用户关注数据组(第一关注类别为“心脏病知识”,第一关注概率为0.75)];第3个第一用户关注数据组集合[第1个第一用户关注数据组(第一关注类别为“心脏病知识”,第一关注概率为0.75)];
那么,连续出现的相同的第一关注类别只有1个即“心脏病知识”,自然只得到1个第一连续关注类别也就是“心脏病知识”;
步骤713,对每个第一连续关注类别的连续变化趋势进行分析,若趋势为连续增强则将当前的第一连续关注类别记为关注增强类别;
这里,对每个第一连续关注类别的连续变化趋势进行分析也就是对第一连续关注类别对应的第一关注概率的连续变化趋势进行分析,判断趋势为连续增强的条件为,从时间先后顺序上后一个第一关注概率应大于或等于前一个第一关注概率;
例如,只得到1个第一连续关注类别也就是“心脏病知识”,对“心脏病知识”对应的第一关注概率的连续变化趋势进行分析,也就是对先后三个第一关注概率进行分析:0.55、0.75和0.75;第2个第一关注概率大于第1个第一关注概率满足连续增强趋势,第3个第一关注概率等于第2个第一关注概率也满足连续增强趋势,因此对“心脏病知识”对应的第一关注概率的连续变化趋势分析结果就是连续增强;这种情况下,自然关注增强类别应为“心脏病知识”;
步骤72,从产品/服务数据库中,选择与关注增强类别匹配的产品或服务生成第二获客方案;
具体包括:步骤721,根据关注增强类别对产品/服务数据库的产品/服务数据记录进行轮询,若当前被轮询的产品/服务数据记录的产品/服务类别字段与关注增强类别匹配,则将当前被轮询的产品/服务数据记录的产品/服务内容字段提取出来加入第三方案内容;
步骤722,按预设的第二模式获客方案模板,对第三方案内容进行获客方案转换处理,生成第二获客方案。
步骤8,将第一获客方案或第二获客方案向与第二用户标识对应的用户对接的第一信息平台的工作人员推送。
这里,第一信息平台的工作人员可为信息平台的内部工作人员,也可为信息平台合作方的工作人员。因为他们具体负责向客户体检产品与服务,所以向他们推送获客方案是为了减少他们的客户评估时间、帮助他们更准确、更快速为客户进行服务。
图5为本发明实施例二提供的一种基于用户关注度分析产生获客方案的装置的模块结构图,该装置可以为实现本发明实施例方法的终端设备或者服务器,也可以为与上述终端设备或者服务器连接的实现本发明实施例方法的装置,例如该装置可以是上述终端设备或者服务器的装置或芯片系统。如图5所示,该装置包括:信息采集模块201、用户关注度分析模块202、获客方案生成模块203和获客方案推送模块204。
信息采集模块201用于定期采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列。
用户关注度分析模块202用于根据第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合,其中,第一用户关注数据组集合包括多个第一用户关注数据组,第一用户关注数据组包括第一关注类别和第一关注概率;并由第一用户对应的第一用户标识、第一用户关注数据组集合和第一时段组成第一用户关注度记录,存入预设的第一用户关注度列表。
获客方案生成模块203用于根据获取的第二用户标识,从第一用户关注度列表中抽取近期第二时段内的对应的第一用户关注度记录,组成第一用户关注链条;并对预设的用户分析模式进行识别;若用户分析模式为第一模式,则根据第一用户关注链条的第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;并从预设的产品/服务数据库中,选择与长期关注类别匹配的产品或服务构成第一方案内容,选择与最近关注类别匹配的产品或服务构成第二方案内容,并以第二方案内容排序优先第一方案内容的方式生成第一获客方案;若用户分析模式为第二模式,则根据第一用户关注链条的第一关注类别和第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;并从产品/服务数据库中,选择与关注增强类别匹配的产品或服务生成第二获客方案。
获客方案推送模块204用于将第一获客方案或第二获客方案向与第二用户标识对应的用户对接的第一信息平台的工作人员推送。
本发明实施例提供的一种基于用户关注度分析产生获客方案的装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,信息采集模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本发明实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路(Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
图6为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图6所示,该电子设备可以包括:处理器301(例如CPU)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现本发明上述实施例中提供的方法和处理过程。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。
在图6中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI) 总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM) ,也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中提供的方法和处理过程。
本发明实施例提供了一种基于用户关注度分析产生获客方案的方法、装置、电子设备及计算机可读存储介质,引入NLP技术对用户在平台上的各种操作信息(聊天信息、浏览的文章信息等)进行文本相似度比对,并将相似度较高的文本进行归类,再对各个归类子集的文本内容进行分类从而得到多个分类类别及其对应的概率,由类别可知用户的关注点、由概率可知用户的关注程度,再对获取到的所有类别也即关注点基于其对应的概率也即关注程度进行筛选,从而实现对用户的关注点与关注度的聚焦,最终根据聚焦后的信息生成用户关注链条,在获得用户关注链条之后若基于该链条对用户的关注类别随时间变化的趋势进行分析就可得到由长期关注类别与最近关注类别引导的获客方案,若基于该链条对用户的关注类别+关注概率随时间变化的趋势进行分析就可得到由体现用户持续增强关注的关注增强类别引导的获客方案。本发明方法不但解决了常规用户分析中的分析不聚焦的问题,还提升了分析精度、提高了获客方案的准确度。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于用户关注度分析产生获客方案的方法,其特征在于,所述方法包括:
定期采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列;
根据所述第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合;所述第一用户关注数据组集合包括多个第一用户关注数据组;所述第一用户关注数据组包括第一关注类别和第一关注概率;
由所述第一用户对应的第一用户标识、所述第一用户关注数据组集合和所述第一时段组成第一用户关注度记录,存入预设的第一用户关注度列表;
根据获取的第二用户标识,从所述第一用户关注度列表中抽取近期第二时段内的对应的所述第一用户关注度记录,组成第一用户关注链条;
对预设的用户分析模式进行识别;
若所述用户分析模式为第一模式,则根据所述第一用户关注链条的所述第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;并从预设的产品/服务数据库中,选择与所述长期关注类别匹配的产品或服务构成第一方案内容,选择与所述最近关注类别匹配的产品或服务构成第二方案内容,并以所述第二方案内容排序优先第一方案内容的方式生成第一获客方案;
若所述用户分析模式为第二模式,则根据所述第一用户关注链条的所述第一关注类别和所述第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;并从所述产品/服务数据库中,选择与所述关注增强类别匹配的产品或服务生成第二获客方案;
将所述第一获客方案或所述第二获客方案向与所述第二用户标识对应的用户对接的所述第一信息平台的工作人员推送。
2.根据权利要求1所述的基于用户关注度分析产生获客方案的方法,其特征在于,所述采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列,具体包括:
采集所述第一用户在所述第一时段内与所述第一信息平台的第一工作人员的沟通信息,生成多个第一沟通文本数据;
采集所述第一用户在所述第一时段内与所述第一信息平台的第一聊天机器人的沟通信息,生成多个第二沟通文本数据;
采集所述第一用户在所述第一时段内在所述第一信息平台上浏览的所有文章信息,组成第一文章数据;并对所述第一文章数据进行断句处理生成多个第一文句文本数据;
将得到的所述多个第一沟通文本数据、所述多个第二沟通文本数据和所述多个第一文句文本数据进行排序,生成第一文本数据序列。
3.根据权利要求1所述的基于用户关注度分析产生获客方案的方法,其特征在于,所述根据所述第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合,具体包括:
对所述第一文本数据序列中的任意两个第一文本数据进行相似度识别生成形状为N*N的第一文本相似度矩阵;所述第一文本数据序列包括多个所述第一文本数据;N为所述第一文本数据序列中所述第一文本数据的数量;所述第一文本相似度矩阵包括N*N个第一矩阵节点;所述第一矩阵节点的值为对应的两个所述第一文本数据的相似度概率;
根据所述第一文本相似度矩阵,对所述第一文本数据序列进行相似文本归类处理,得到多个第一类文本数据序列;
对各个所述第一类文本数据序列进行分类确认处理,生成对应的第一分类确认数据组;所述第一分类确认数据组包括第一确认类别和第一确认类别概率;
对得到的多个所述第一分类确认数据组进行用户关注筛选处理,生成多个所述第一用户关注数据组;
由多个所述第一用户关注数据组构成所述第一用户关注数据组集合。
4.根据权利要求3所述的基于用户关注度分析产生获客方案的方法,其特征在于,所述对所述第一文本数据序列中的任意两个第一文本数据进行相似度识别生成形状为N*N的第一文本相似度矩阵,具体包括:
创建形状为N*N的所述第一文本相似度矩阵;所述第一文本相似度矩阵包括N*N个所述第一矩阵节点Zx,y;x为列标,x的取值范围从1到N;y为行标,y的取值范围从1到N;行、列的起始位置都为矩阵左上角;
对应所述第一矩阵节点Zx,y,从所述第一文本数据序列中选择排序索引为x的所述第一文本数据作为第一对应文本数据,选择排序索引为y的所述第一文本数据作为第二对应文本数据;
按向量空间模型VSM,对所述第一对应文本数据和所述第二对应文本数据分别进行文本向量转换处理,生成对应的第一文本向量和第二文本向量;
通过计算所述第一文本向量与所述第二文本向量夹角的余弦值,生成对应的相似度概率Px,y;所述相似度概率Px,y为第一对应文本数据和第二对应文本数据的相似度概率;相似度概率Px,y=第一文本向量与第二文本向量夹角的余弦值;
使用所述相似度概率Px,y对所述第一矩阵节点Zx,y的值进行设置。
5.根据权利要求4所述的基于用户关注度分析产生获客方案的方法,其特征在于,所述根据所述第一文本相似度矩阵,对所述第一文本数据序列进行相似文本归类处理,得到多个第一类文本数据序列,具体包括:
从左上角到右下角做对角线将所述第一文本相似度矩阵划分成上下两部分;上部分中同行的所述第一矩阵节点Zx,y的脚标关系为x≥y;下部分中同行的所述第一矩阵节点Zx,y的脚标关系为x≤y;
从所述上部分和所述下部分中任选一个,作为第一矩阵区域;
在所述第一矩阵区域中,将所述相似度概率低于预设的相似度概率阈值的所述第一矩阵节点标记为第一无效节点,并将所述相似度概率不低于所述相似度概率阈值的所述第一矩阵节点标记为第一有效节点;
在所述第一矩阵区域中,以处于所述对角线之下的尚未归类的任一所述第一有效节点作为当前中心点,并将与所述当前中心点同行或同列的处于所述对角线之下的所有所述第一有效节点视为同一类,组成对应的第一类有效节点集合,直到所述对角线下尚未归类的所述第一有效节点的数量为0为止;
将各个所述第一类有效节点集合中的所述第一有效节点所对应的所述第一文本数据归为同一类,组成对应的第一类文本数据序列。
6.根据权利要求3所述的基于用户关注度分析产生获客方案的方法,其特征在于,所述对各个所述第一类文本数据序列进行分类确认处理,生成对应的第一分类确认数据组,具体包括:
使用训练成熟的文本分类模型,对所述第一类文本数据序列进行文本分类处理,得到多个第一模型分类类别和对应的第一模型分类概率;
将概率值最大的所述第一模型分类概率作为所述第一确认类别概率;
将所述第一确认类别概率对应的所述第一模型分类类别作为所述第一确认类别;
由所述第一确认类别和所述第一确认类别概率组成所述第一分类确认数据组。
7.根据权利要求3所述的基于用户关注度分析产生获客方案的方法,其特征在于,所述对得到的多个所述第一分类确认数据组进行用户关注筛选处理,生成多个所述第一用户关注数据组,具体包括:
在多个所述第一分类确认数据组中,将所述第一确认类别相同的所述第一分类确认数据组划分为同一集合生成对应的第一分类集合;
对各个所述第一分类集合的所述第一确认类别概率进行总和计算,生成第一概率总和;并对所有所述第一概率总和进行总和计算,生成全概率总和;根据所述全概率总和对各个所述第一概率总和进行归一化处理,生成与各个所述第一分类集合对应的第一分类概率,;
根据预设的分类概率阈值对得到的多个所述第一分类概率进行轮询;若当前被轮询的所述第一分类概率不低于所述分类概率阈值,则将当前被轮询的所述第一分类概率作为所述第一关注概率,将当前被轮询的所述第一分类概率对应的所述第一确认类别作为所述第一关注类别,并由所述第一关注类别与所述第一关注概率组成对应的所述第一用户关注数据组。
8.一种用于实现权利要求1-7任一项所述的基于用户关注度分析产生获客方案的方法的装置,其特征在于,所述装置包括:信息采集模块、用户关注度分析模块、获客方案生成模块和获客方案推送模块;
所述信息采集模块用于定期采集第一用户在第一时段内在第一信息平台内的操作信息,生成第一文本数据序列;
所述用户关注度分析模块用于根据所述第一文本数据序列,进行用户关注度分析,生成第一用户关注数据组集合,其中,所述第一用户关注数据组集合包括多个第一用户关注数据组,所述第一用户关注数据组包括第一关注类别和第一关注概率;并由所述第一用户对应的第一用户标识、所述第一用户关注数据组集合和所述第一时段组成第一用户关注度记录,存入预设的第一用户关注度列表;
所述获客方案生成模块用于根据获取的第二用户标识,从所述第一用户关注度列表中抽取近期第二时段内的对应的所述第一用户关注度记录,组成第一用户关注链条;并对预设的用户分析模式进行识别;若所述用户分析模式为第一模式,则根据所述第一用户关注链条的所述第一关注类别,进行用户关注类别随时间变化趋势的分析,得到长期关注类别与最近关注类别;并从预设的产品/服务数据库中,选择与所述长期关注类别匹配的产品或服务构成第一方案内容,选择与所述最近关注类别匹配的产品或服务构成第二方案内容,并以所述第二方案内容排序优先第一方案内容的方式生成第一获客方案;若所述用户分析模式为第二模式,则根据所述第一用户关注链条的所述第一关注类别和所述第一关注概率,进行用户关注程度随时间变化趋势的分析,得到关注增强类别;并从所述产品/服务数据库中,选择与所述关注增强类别匹配的产品或服务生成第二获客方案;
所述获客方案推送模块用于将所述第一获客方案或所述第二获客方案向与所述第二用户标识对应的用户对接的所述第一信息平台的工作人员推送。
9.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-7任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-7任一项所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111344705.1A CN113792149B (zh) | 2021-11-15 | 2021-11-15 | 一种基于用户关注度分析产生获客方案的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111344705.1A CN113792149B (zh) | 2021-11-15 | 2021-11-15 | 一种基于用户关注度分析产生获客方案的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792149A true CN113792149A (zh) | 2021-12-14 |
CN113792149B CN113792149B (zh) | 2022-02-22 |
Family
ID=78955169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111344705.1A Active CN113792149B (zh) | 2021-11-15 | 2021-11-15 | 一种基于用户关注度分析产生获客方案的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792149B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106130756A (zh) * | 2016-06-15 | 2016-11-16 | 晶赞广告(上海)有限公司 | 一种预测访问内容点击率的方法及装置 |
TWI571756B (zh) * | 2015-12-11 | 2017-02-21 | 財團法人工業技術研究院 | 用以分析瀏覽記錄及其文件之方法及其系統 |
CN107341245A (zh) * | 2017-07-06 | 2017-11-10 | 广州优视网络科技有限公司 | 数据处理方法、装置及服务器 |
CN107426620A (zh) * | 2017-08-31 | 2017-12-01 | 江西博瑞彤芸科技有限公司 | 一种节目内容推荐方法 |
CN107688600A (zh) * | 2017-07-12 | 2018-02-13 | 百度在线网络技术(北京)有限公司 | 知识点挖掘方法及装置 |
CN108959550A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 用户关注点挖掘方法、装置、设备及计算机可读介质 |
US20210173680A1 (en) * | 2019-12-05 | 2021-06-10 | Lg Electronics Inc. | Artificial intelligence apparatus and method for extracting user's concern |
-
2021
- 2021-11-15 CN CN202111344705.1A patent/CN113792149B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI571756B (zh) * | 2015-12-11 | 2017-02-21 | 財團法人工業技術研究院 | 用以分析瀏覽記錄及其文件之方法及其系統 |
CN106130756A (zh) * | 2016-06-15 | 2016-11-16 | 晶赞广告(上海)有限公司 | 一种预测访问内容点击率的方法及装置 |
CN107341245A (zh) * | 2017-07-06 | 2017-11-10 | 广州优视网络科技有限公司 | 数据处理方法、装置及服务器 |
CN107688600A (zh) * | 2017-07-12 | 2018-02-13 | 百度在线网络技术(北京)有限公司 | 知识点挖掘方法及装置 |
CN107426620A (zh) * | 2017-08-31 | 2017-12-01 | 江西博瑞彤芸科技有限公司 | 一种节目内容推荐方法 |
CN108959550A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 用户关注点挖掘方法、装置、设备及计算机可读介质 |
US20210173680A1 (en) * | 2019-12-05 | 2021-06-10 | Lg Electronics Inc. | Artificial intelligence apparatus and method for extracting user's concern |
Non-Patent Citations (2)
Title |
---|
MARS、少年: "文本相似度算法-空间向量模型的余弦算法和TF-IDF", 《HTTPS://WWW.CNBLOGS.COM/SUNRUNZHI/P/4262607.HTML》 * |
黄丽等: "基于用户关注度的个性化推荐系统研究", 《软件导刊》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792149B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
WO2021047186A1 (zh) | 咨询对话处理的方法、装置、设备及存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN114119058B (zh) | 用户画像模型的构建方法、设备及存储介质 | |
US20210319280A1 (en) | Interpretable node embedding | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN114547346B (zh) | 知识图谱的构建方法和装置、电子设备和存储介质 | |
CN114357184A (zh) | 事项推荐方法及相关装置、电子设备和存储介质 | |
Xu | Machine Learning for Flavor Development | |
CN116303922B (zh) | 咨询消息应答方法、装置、计算机设备、存储介质和产品 | |
CN107609921A (zh) | 一种数据处理方法及服务器 | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN113792149B (zh) | 一种基于用户关注度分析产生获客方案的方法和装置 | |
CN111986815B (zh) | 基于共现关系的项目组合挖掘方法及相关设备 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN115048504A (zh) | 信息推送方法、装置、计算机设备及计算机可读存储介质 | |
Airlangga et al. | Investigating Software Domain Impact in Requirements Quality Attributes Prediction. | |
CN113987186A (zh) | 一种基于知识图谱生成营销方案的方法和装置 | |
Soni | Text Classification Feature extraction using SVM | |
Kumbhar et al. | Web mining: A Synergic approach resorting to classifications and clustering | |
Romeu | On operations research and statistics techniques: Keys to quantitative data mining | |
CN118365459B (zh) | 一种商保理赔规则智能匹配系统、方法、设备及介质 | |
Mansur et al. | Text Analytics and Machine Learning (TML) CS5604 Fall 2019 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |