CN112052365B - 一种跨境场景画像构建方法和装置 - Google Patents

一种跨境场景画像构建方法和装置 Download PDF

Info

Publication number
CN112052365B
CN112052365B CN202010916545.2A CN202010916545A CN112052365B CN 112052365 B CN112052365 B CN 112052365B CN 202010916545 A CN202010916545 A CN 202010916545A CN 112052365 B CN112052365 B CN 112052365B
Authority
CN
China
Prior art keywords
data
customer
product
portrait
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010916545.2A
Other languages
English (en)
Other versions
CN112052365A (zh
Inventor
狄潇然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010916545.2A priority Critical patent/CN112052365B/zh
Publication of CN112052365A publication Critical patent/CN112052365A/zh
Application granted granted Critical
Publication of CN112052365B publication Critical patent/CN112052365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种跨境场景画像构建方法和装置,该方法包括:获取历史数据和行为数据,根据历史数据,构建客户画像基础部分和产品画像基础部分;根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;根据行为数据,构建行为画像;根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户‑产品标签权重,构建跨境场景画像。本发明能让机器深度理解信息涵义。

Description

一种跨境场景画像构建方法和装置
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种跨境场景画像构建方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
跨境场景作为银行重点领域,一般位列战略级场景首位。如果能够及时、准确地为跨境客户提供优质的个性化金融及非金融服务,那么就能大幅增加客户粘度,获得更多效益以及市场竞争优势。
然而传统的画像构建主要依赖直接使用原始数据作为画像内容或对历史数据进行简单地统计加工,不能精准度量客户、产品的特性与特质,更无法让机器深度理解信息涵义达到为个性化服务提供强有力数据支撑的能力。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
本发明实施例提供一种跨境场景画像构建方法,精准度量客户、产品和行为的特性与特质,让机器深度理解信息涵义;该方法包括:
获取历史数据和行为数据,
根据历史数据,构建客户画像基础部分和产品画像基础部分;
根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;
利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;
根据行为数据,构建行为画像;
根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。
本发明实施例还提供一种跨境场景画像构建装置,包括:
数据获取模块,用于获取历史数据和行为数据,
画像基础部分构建模块,用于根据历史数据,构建客户画像基础部分和产品画像基础部分;
完整客户画像确定模块,用于根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;
完整产品画像确定模块,用于利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;
行为画像构建模块,用于根据行为数据,构建行为画像;
跨境场景画像构建模块,用于根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种跨境场景画像构建方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种跨境场景画像构建方法的计算机程序。
本发明实施例提供的一种跨境场景画像构建方法和装置,首先,获取历史数据和行为数据,根据历史数据,构建客户画像基础部分和产品画像基础部分;然后,根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;根据行为数据,构建行为画像;本发明通过完整客户画像、完整产品画像和行为画像三种画像跨境成精画像,使得最终构建的跨境场景画像内容更加丰富;最后,根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。本发明通过人工智能算法、自然语言处理技术以及器学习算法,对信息数据进行量化,从而使得机器能够深度理解信息涵义,更好的支撑上层个性化服务的开发,精准度量客户、产品和行为的特性与特质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例一种跨境场景画像构建方法示意图。
图2为本发明实施例一种跨境场景画像构建方法构建客户画像基础部分和产品画像基础部分过程示意图。
图3为本发明实施例一种跨境场景画像构建方法确定稠密向量过程示意图。
图4为运行本发明实施的一种跨境场景画像构建方法的计算机装置示意图。
图5为本发明实施例一种跨境场景画像构建装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明实施例一种跨境场景画像构建方法示意图,如图1所示,本发明实施例提供一种跨境场景画像构建方法,精准度量客户、产品和行为的特性与特质,让机器深度理解信息涵义;该方法包括:
步骤101:获取历史数据和行为数据,
步骤102:根据历史数据,构建客户画像基础部分和产品画像基础部分;
步骤103:根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;
步骤104:利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;
步骤105:根据行为数据,构建行为画像;
步骤106:根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。
本发明实施例提供的一种跨境场景画像构建方法,首先,获取历史数据和行为数据,根据历史数据,构建客户画像基础部分和产品画像基础部分;然后,根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;根据行为数据,构建行为画像;本发明通过完整客户画像、完整产品画像和行为画像三种画像跨境成精画像,使得最终构建的跨境场景画像内容更加丰富;最后,根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。本发明通过人工智能算法、自然语言处理技术以及器学习算法,对信息数据进行量化,从而使得机器能够深度理解信息涵义,更好的支撑上层个性化服务的开发,精准度量客户、产品和行为的特性与特质。
在本发明实施例中,画像,是指一种抽象出信息全貌的手段。传统刻画画像主要依赖直接使用原始数据作为画像内容或对历史数据进行简单地统计加工,不能精准度量客户、产品的特性与特质,更无法让机器深度理解信息涵义达到为个性化服务提供强有力数据支撑的能力;为解决上述问题,本发明实施例提供一种跨境场景画像构建方法,具体实施时可以包括:
获取历史数据和行为数据,根据历史数据,构建客户画像基础部分和产品画像基础部分;根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;根据行为数据,构建行为画像;根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。
实施例中,客户画像是对客户信息的量化,它包括:直接使用原始数据作为画像内容;对历史数据进行统计加工,这也是最常见的客户画像数据,常见的客户标签就是这一类;通过机器学习方法,学习出人无法直观理解的稠密向量,这部份内容最容易被忽视,但在实际中承担的作用十分大,这也是本发明实施例的重点;产品画像与客户画像类似,不同的是有些产品自身带有很多描述类信息,例如:游记,资讯等,这就需要使用自然语言处理技术对产品画像进行描绘;行为画像刻画的是客户的行为特征,它通过行为数据将客户与产品关联起来,将产品中的某些特点传递给客户。
所述稠密向量,用于表征隐藏语义;所述隐藏语义,是指潜在隐藏的含义,其无法直观从自然语言上理解但作用很大;例如:一个向量(1.0,0.0,3.0)它有2中表示的方法:1)密集:[1.0,0.0,3.0]其和一般的数组无异;2)稀疏:(3,[0,2],[1.0,3.0])其表示的含义(向量大小,序号,值),序号从0开始。
具体实施本发明实施例提供的一种跨境场景画像构建方法时,在一个实施例中,前述的获取历史数据和行为数据,包括:从银行大数据平台和银行基础数据平台中划定数据获取范围,从所述数据获取范围中获取历史数据和行为数据;其中,所述数据获取范围,至少包括:客户基本信息,客户金融类数据,客户非金融类数据,客户跨境应用的行为数据。
实施例中,可以从行内大数据平台BDP和行内基础数据平台EDP,中划定数据获取范围,从所述数据获取范围中获取历史数据和行为数据;其中,所述数据获取范围,至少包括:客户基本信息,客户金融类数据,客户非金融类数据,客户跨境应用APP的行为数据。
图2为本发明实施例一种跨境场景画像构建方法构建客户画像基础部分和产品画像基础部分过程示意图,如图2所示,具体实施本发明实施例提供的一种跨境场景画像构建方法时,在一个实施例中,前述的根据历史数据,构建客户画像基础部分和产品画像基础部分,包括:
步骤201:从历史数据中获取交互行为数据;
步骤202:构建数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;
步骤203:根据客户数据和产品数据,构建客户画像基础部分和产品画像基础部分。
实施例中,前述的根据历史数据,构建客户画像基础部分和产品画像基础部分,可以包括:首先,使用Spark-Streaming,从历史数据中获取交互行为数据;其中,前述的SparkStreaming是Spark核心API的一个扩展,是一种开源计算框架,可以实现高吞吐量的,具备容错机制的实时流数据处理;支持多种数据源获取数据,接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、DataBase等各种地方。使用Spark-Streaming完成客户浏览、点击、分享、点赞等交互行为数据的采集;
然后,构建RDD的数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;其中,前述的RDD(分布式弹性数据集)是Spark提供的重要的抽象概念,是Spark开源计算框架中的核心概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。RDD可以理解为一个分布式对象的弹性数据集合,本质上是一个只读的分区记录集合;每个RDD可以分成多个分区,每个分区就是一个数据集片段;一个RDD的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算。构建RDD的数据加载算子、数据清洗算子完成客户、产品数据的预处理;
最后,根据客户数据和产品数据,基于Spark-SQL构建客户画像基础部分和产品画像基础部分。其中,前述的Spark SQL是Spark用来处理结构化数据的一个单元,是一种Spark框架组件,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。基于spark-sql完成客户画像、产品画像基础部分基础画像的加工。
图3为本发明实施例一种跨境场景画像构建方法确定稠密向量过程示意图,如图3所示,具体实施本发明实施例提供的一种跨境场景画像构建方法时,在一个实施例中,前述的根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,包括:
步骤301:从客户画像基础部分和产品画像基础部分中提取文本描述类数据;
步骤302:将文本描述类数据进行切词和去停用词处理,确定词集合;其中,词集合,包括:关键词;
步骤303:利用人工智能算法对关键词计算词向量,将每个关键词的词向量进行加权平均,确定稠密向量。
实施例中,对于客户画像基础部分和产品画像基础部分中的文本描述类数据进行提取,使用ansj工具进行切词和去停用词处理,得到词集合;基于人工智能算法word2vector计算关键词词向量,再将每个关键词词向量进行加权平均,得到文本数据的稠密向量,用来表征文本类数据的隐藏语义。
具体实施本发明实施例提供的一种跨境场景画像构建方法时,在一个实施例中,前述的利用自然语言处理技术从产品画像基础部分中提取出画像标签,包括:
从产品画像基础部分中提取文本信息;
对文本信息进行切词和去停用词处理,使用TF-IDF计算得到文本关键词;
利用自然语言处理技术对文本信息进行挖掘,确定文本主题词;
根据文本关键词和文本主题词,确定画像标签。
实施例中,从产品画像基础部分中提取文本信息,其中,提取的文本信息,至少包括:资讯、游记、产品描述等;对资讯、游记、产品描述等文本信息使用ansj工具进行切词、去停用词处理,使用TF-IDF计算得到文本关键词;再使用自然语言处理技术lda算法挖掘出文本主题词;最后利用关键词和主题词构成画像标签。实施例中,前述的TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率指数),是指是一种用于信息检索与数据挖掘的常用加权技术;TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
具体实施本发明实施例提供的一种跨境场景画像构建方法时,在一个实施例中,前述的根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像,包括:
根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,构建客户-产品标签集合的交互矩阵;
根据客户-产品标签集合的交互矩阵,基于机器学习算法,计算客户-产品标签权重,构建跨境场景画像。
实施例中,利用行为数据建立客户与产品之间的连接,客户点击哪些产品,则客户就与对应产品的标签产生关联,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,以此构建客户-产品标签集合的交互矩阵,并基于TOPSIS机器学习算法,计算客户-产品标签的权重,构建跨境场景画像。
基于大数据技术,完成上述数据采集、加工、清洗、模型建立、数据整合等步骤。
图4为运行本发明实施的一种跨境场景画像构建方法的计算机装置示意图,如图4所示,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种跨境场景画像构建方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种跨境场景画像构建方法的计算机程序。
本发明实施例中还提供了一种跨境场景画像构建装置,如下面的实施例所述。由于该装置解决问题的原理与一种跨境场景画像构建相似,因此该装置的实施可以参见一种跨境场景画像构建方法的实施,重复之处不再赘述。
图5为本发明实施例一种跨境场景画像构建装置示意图,如图5所示,本发明实施例还提供一种跨境场景画像构建装置,可以包括:
数据获取模块501,用于获取历史数据和行为数据,
画像基础部分构建模块502,用于根据历史数据,构建客户画像基础部分和产品画像基础部分;
完整客户画像确定模块503,用于根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;
完整产品画像确定模块504,用于利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;
行为画像构建模块505,用于根据行为数据,构建行为画像;
跨境场景画像构建模块506,用于根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。
具体实施本发明实施例提供的一种跨境场景画像构建装置时,在一个实施例中,前述的数据获取模块,具体用于:从银行大数据平台和银行基础数据平台中划定数据获取范围,从所述数据获取范围中获取历史数据和行为数据;其中,所述数据获取范围,至少包括:客户基本信息,客户金融类数据,客户非金融类数据,客户跨境应用的行为数据。
具体实施本发明实施例提供的一种跨境场景画像构建装置时,在一个实施例中,前述的画像基础部分构建模块,具体用于:
从历史数据中获取交互行为数据;
构建数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;
根据客户数据和产品数据,构建客户画像基础部分和产品画像基础部分。
具体实施本发明实施例提供的一种跨境场景画像构建装置时,在一个实施例中,前述的完整客户画像确定模块,具体用于:
从客户画像基础部分和产品画像基础部分中提取文本描述类数据;
将文本描述类数据进行切词和去停用词处理,确定词集合;其中,词集合,包括:关键词;
利用人工智能算法对关键词计算词向量,将每个关键词的词向量进行加权平均,确定稠密向量。
具体实施本发明实施例提供的一种跨境场景画像构建装置时,在一个实施例中,前述的完整产品画像确定模块,具体用于:
从产品画像基础部分中提取文本信息;
对文本信息进行切词和去停用词处理,使用TF-IDF计算得到文本关键词;
利用自然语言处理技术对文本信息进行挖掘,确定文本主题词;
根据文本关键词和文本主题词,确定画像标签。
具体实施本发明实施例提供的一种跨境场景画像构建装置时,在一个实施例中,前述的跨境场景画像构建模块,具体用于:
根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,构建客户-产品标签集合的交互矩阵;
根据客户-产品标签集合的交互矩阵,基于机器学习算法,计算客户-产品标签权重,构建跨境场景画像。
综上,本发明实施例提供的一种跨境场景画像构建方法和装置,首先,获取历史数据和行为数据,根据历史数据,构建客户画像基础部分和产品画像基础部分;然后,根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;根据行为数据,构建行为画像;本发明通过完整客户画像、完整产品画像和行为画像三种画像跨境成精画像,使得最终构建的跨境场景画像内容更加丰富;最后,根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像。本发明通过人工智能算法、自然语言处理技术以及器学习算法,对信息数据进行量化,从而使得机器能够深度理解信息涵义,更好的支撑上层个性化服务的开发,精准度量客户、产品和行为的特性与特质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种跨境场景画像构建方法,其特征在于,包括:
获取历史数据和行为数据,
根据历史数据,构建客户画像基础部分和产品画像基础部分;
根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;
利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;
根据行为数据,构建行为画像;
根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像;
构建客户画像基础部分和产品画像基础部分,包括:
从历史数据中完成客户浏览、点击、分享、点赞的交互行为数据的采集;
构建分布式弹性数据集的数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;
根据客户数据和产品数据,构建客户画像基础部分和产品画像基础部分。
2.如权利要求1所述的方法,其特征在于,获取历史数据和行为数据,包括:从银行大数据平台和银行基础数据平台中划定数据获取范围,从所述数据获取范围中获取历史数据和行为数据;其中,所述数据获取范围,至少包括:客户基本信息,客户金融类数据,客户非金融类数据,客户跨境应用的行为数据。
3.如权利要求1所述的方法,其特征在于,根据历史数据,构建客户画像基础部分和产品画像基础部分,包括:
从历史数据中获取交互行为数据;
构建数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;
根据客户数据和产品数据,构建客户画像基础部分和产品画像基础部分。
4.如权利要求1所述的方法,其特征在于,根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,包括:
从客户画像基础部分和产品画像基础部分中提取文本描述类数据;
将文本描述类数据进行切词和去停用词处理,确定词集合;其中,词集合,包括:关键词;
利用人工智能算法对关键词计算词向量,将每个关键词的词向量进行加权平均,确定稠密向量。
5.如权利要求1所述的方法,其特征在于,利用自然语言处理技术从产品画像基础部分中提取出画像标签,包括:
从产品画像基础部分中提取文本信息;
对文本信息进行切词和去停用词处理,使用TF-IDF计算得到文本关键词;
利用自然语言处理技术对文本信息进行挖掘,确定文本主题词;
根据文本关键词和文本主题词,确定画像标签。
6.如权利要求1所述的方法,其特征在于,根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像,包括:
根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,构建客户-产品标签集合的交互矩阵;
根据客户-产品标签集合的交互矩阵,基于机器学习算法,计算客户-产品标签权重,构建跨境场景画像。
7.一种跨境场景画像构建装置,其特征在于,包括:
数据获取模块,用于获取历史数据和行为数据,
画像基础部分构建模块,用于根据历史数据,构建客户画像基础部分和产品画像基础部分;
完整客户画像确定模块,用于根据客户画像基础部分和产品画像基础部分,利用人工智能算法确定稠密向量,将稠密向量与客户画像基础部分进行组装,确定完整客户画像;
完整产品画像确定模块,用于利用自然语言处理技术从产品画像基础部分中提取出画像标签,将画像标签加入产品画像基础部分,确定完整产品画像;
行为画像构建模块,用于根据行为数据,构建行为画像;
跨境场景画像构建模块,用于根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,计算客户-产品标签权重,构建跨境场景画像;
构建客户画像基础部分和产品画像基础部分,包括:
从历史数据中完成客户浏览、点击、分享、点赞的交互行为数据的采集;
构建分布式弹性数据集的数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;
根据客户数据和产品数据,构建客户画像基础部分和产品画像基础部分。
8.如权利要求7所述的装置,其特征在于,数据获取模块,具体用于:从银行大数据平台和银行基础数据平台中划定数据获取范围,从所述数据获取范围中获取历史数据和行为数据;其中,所述数据获取范围,至少包括:客户基本信息,客户金融类数据,客户非金融类数据,客户跨境应用的行为数据。
9.如权利要求7所述的装置,其特征在于,画像基础部分构建模块,具体用于:
从历史数据中获取交互行为数据;
构建数据加载算子和数据清洗算子,对交互行为数据进行预处理,确定客户数据和产品数据;
根据客户数据和产品数据,构建客户画像基础部分和产品画像基础部分。
10.如权利要求7所述的装置,其特征在于,完整客户画像确定模块,具体用于:
从客户画像基础部分和产品画像基础部分中提取文本描述类数据;
将文本描述类数据进行切词和去停用词处理,确定词集合;其中,词集合,包括:关键词;
利用人工智能算法对关键词计算词向量,将每个关键词的词向量进行加权平均,确定稠密向量。
11.如权利要求7所述的装置,其特征在于,完整产品画像确定模块,具体用于:
从产品画像基础部分中提取文本信息;
对文本信息进行切词和去停用词处理,使用TF-IDF计算得到文本关键词;
利用自然语言处理技术对文本信息进行挖掘,确定文本主题词;
根据文本关键词和文本主题词,确定画像标签。
12.如权利要求7所述的装置,其特征在于,跨境场景画像构建模块,具体用于:
根据行为画像,建立完整客户画像与完整产品画像之间的连接,利用机器学习算法将完整产品画像中的画像标签作为特征传递至完整客户画像,构建客户-产品标签集合的交互矩阵;
根据客户-产品标签集合的交互矩阵,基于机器学习算法,计算客户-产品标签权重,构建跨境场景画像。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行实现权利要求1至6任一项所述方法的计算机程序。
CN202010916545.2A 2020-09-03 2020-09-03 一种跨境场景画像构建方法和装置 Active CN112052365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010916545.2A CN112052365B (zh) 2020-09-03 2020-09-03 一种跨境场景画像构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010916545.2A CN112052365B (zh) 2020-09-03 2020-09-03 一种跨境场景画像构建方法和装置

Publications (2)

Publication Number Publication Date
CN112052365A CN112052365A (zh) 2020-12-08
CN112052365B true CN112052365B (zh) 2024-05-24

Family

ID=73608429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010916545.2A Active CN112052365B (zh) 2020-09-03 2020-09-03 一种跨境场景画像构建方法和装置

Country Status (1)

Country Link
CN (1) CN112052365B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880709B (zh) * 2022-05-23 2023-04-07 上海焱祺华伟信息系统技术有限公司 一种应用人工智能的电商数据防护方法及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229708A (zh) * 2017-05-27 2017-10-03 科技谷(厦门)信息技术有限公司 一种个性化出行服务大数据应用系统及方法
CN109033294A (zh) * 2018-07-13 2018-12-18 东北师范大学 一种融入内容信息的混合推荐方法
CN110134794A (zh) * 2019-04-17 2019-08-16 北京三快在线科技有限公司 一种实体画像的构建方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229708A (zh) * 2017-05-27 2017-10-03 科技谷(厦门)信息技术有限公司 一种个性化出行服务大数据应用系统及方法
CN109033294A (zh) * 2018-07-13 2018-12-18 东北师范大学 一种融入内容信息的混合推荐方法
CN110134794A (zh) * 2019-04-17 2019-08-16 北京三快在线科技有限公司 一种实体画像的构建方法和装置

Also Published As

Publication number Publication date
CN112052365A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US11847113B2 (en) Method and system for supporting inductive reasoning queries over multi-modal data from relational databases
US11087088B2 (en) Automated and optimal encoding of text data features for machine learning models
US9286548B2 (en) Accurate text classification through selective use of image data
US10482394B2 (en) Large-scale in-database machine learning with pure SQL
CN112119388A (zh) 训练图像嵌入模型和文本嵌入模型
CN107844533A (zh) 一种智能问答系统及分析方法
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
CN112074828A (zh) 训练图像嵌入模型和文本嵌入模型
Penchikala Big data processing with apache spark
Velásquez Web site keywords: A methodology for improving gradually the web site text content
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
Deng et al. A distributed PDP model based on spectral clustering for improving evaluation performance
Zoupanos et al. Efficient comparison of sentence embeddings
CN112052365B (zh) 一种跨境场景画像构建方法和装置
Kaur Web content classification: a survey
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN117312518A (zh) 一种智能问答方法、装置、计算机设备及存储介质
CN116578729A (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
CN117056392A (zh) 一种基于动态超图技术的大数据检索服务系统及方法
Malhotra et al. IMSS-P: an intelligent approach to design & development of personalized meta search & page ranking system
US11042538B2 (en) Predicting queries using neural networks
Ghosh et al. Understanding machine learning
RU2727076C1 (ru) Способ интеллектуального информационного поиска и предоставления контекстуальной информации в распределенных хранилищах данных
US20240127575A1 (en) Artificial intelligence system with iterative two-phase active learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant