CN116739641A - 一种跨境电商知识图谱分析方法及系统 - Google Patents

一种跨境电商知识图谱分析方法及系统 Download PDF

Info

Publication number
CN116739641A
CN116739641A CN202310759057.9A CN202310759057A CN116739641A CN 116739641 A CN116739641 A CN 116739641A CN 202310759057 A CN202310759057 A CN 202310759057A CN 116739641 A CN116739641 A CN 116739641A
Authority
CN
China
Prior art keywords
knowledge graph
user
border
data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310759057.9A
Other languages
English (en)
Other versions
CN116739641B (zh
Inventor
詹杰星
陈正琪
吴斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yuemao Global Technology Co ltd
Original Assignee
Guangdong Yuemao Global Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Yuemao Global Technology Co ltd filed Critical Guangdong Yuemao Global Technology Co ltd
Priority to CN202310759057.9A priority Critical patent/CN116739641B/zh
Publication of CN116739641A publication Critical patent/CN116739641A/zh
Application granted granted Critical
Publication of CN116739641B publication Critical patent/CN116739641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨境电商知识图谱分析方法及系统,属于信息技术领域,其中方法包括:通过用户交互获取用户需求,并解析需求生成多个需求词条特征;采集多源跨境电商数据,构建多源数据集合;基于多源数据集合中的关键词特征构建初始知识图谱;从用户历史数据中提取用户深度关联特征;基于需求词条特征、多源数据、用户深度关联特征等,对初始知识图谱进行约束优化,生成专用知识图谱;将用户需求输入该专用知识图谱,输出个性化的分析与推荐结果。本申请解决了现有技术中难以基于用户需求有效构建专用知识图谱和实现个性化分析的技术问题,达到了根据用户需求动态构建知识图谱和提供个性化分析结果的技术效果。

Description

一种跨境电商知识图谱分析方法及系统
技术领域
本发明涉及信息技术领域,具体涉及一种跨境电商知识图谱分析方法及系统。
背景技术
跨境电商是电子商务的重要形式,近年来增长迅速,产生了大量数据资源,如跨境交易模式、跨境物流模式、跨境支付模式等,构建跨境电商知识图谱对于挖掘这些数据,实现知识驱动的跨境电商决策至关重要。然而,现有技术已经从公开数据出发构建初始跨境电商知识图谱,难以满足不同跨境电商企业或个人的个性化需求。
发明内容
本申请通过提供了一种跨境电商知识图谱分析方法及系统,旨在解决现有技术中难以基于用户需求有效构建专用知识图谱和实现个性化分析的技术问题。
鉴于上述问题,本申请提供了一种跨境电商知识图谱分析方法及系统。
本申请公开的第一个方面,提供了一种跨境电商知识图谱分析方法,该方法包括:1.一种跨境电商知识图谱分析方法,其特征在于,方法包括:交互用户的需求数据,并执行需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征;采集多来源数据,构建多源数据集合,其中,多源数据集合带有来源映射;提取多源数据集合中的关键词特征,根据关键词特征提取结果构建初始跨境电商知识图谱,并基于来源映射对关键词特征进行数据比对,生成异常标识;对用户执行历史数据调用,生成用户的深度关联特征;基于深度关联特征和异常标识进行初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱;将N个需求词条特征输入跨境电商知识图谱,输出分析匹配结果。
本申请公开的另一个方面,提供了一种跨境电商知识图谱分析系统,该系统包括:交互需求数据模块,用于交互用户的需求数据,并执行需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征;数据集合构建模块,用于采集多来源数据,构建多源数据集合,其中,多源数据集合带有来源映射;知识图谱构建模块,用于提取多源数据集合中的关键词特征,根据关键词特征提取结果构建初始跨境电商知识图谱,并基于来源映射对关键词特征进行数据比对,生成异常标识;历史数据调用模块,用于对用户执行历史数据调用,生成用户的深度关联特征;图谱关联约束模块,基于深度关联特征和异常标识进行初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱;匹配结果输出模块,用于将N个需求词条特征输入跨境电商知识图谱,输出分析匹配结果。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了通过用户交互获取用户需求,并解析需求生成多个需求词条特征;采集多源跨境电商数据构建初始知识图谱;从用户历史数据中提取用户深度关联特征;基于需求词条特征、多源数据、用户深度关联特征等,对初始知识图谱进行约束优化,生成专用知识图谱;将用户需求输入该专用知识图谱,输出个性化的分析与推荐结果的技术方案,解决了现有技术中难以基于用户需求有效构建专用知识图谱和实现个性化分析的技术问题,达到了根据用户需求动态构建知识图谱和提供个性化分析结果的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了一种跨境电商知识图谱分析方法可能的流程示意图;
图2为本申请实施例提供了一种跨境电商知识图谱分析方法中完成相似筛选聚合可能的流程示意图;
图3为本申请实施例提供了一种跨境电商知识图谱分析方法中对用户的历史数据更新可能的流程示意图;
图4为本申请实施例提供了一种跨境电商知识图谱分析系统可能的结构示意图。
附图标记说明:交互需求数据模块11,数据集合构建模块12,知识图谱构建模块13,历史数据调用模块14,图谱关联约束模块15,匹配结果输出模块16。
具体实施方式
本申请提供的技术方案总体思路如下:
本申请实施例提供了一种跨境电商知识图谱分析方法及系统。首先构建初始知识图谱,然后针对个性化需求进行优化和应用。在构建初始知识图谱方面,采集多源跨境电商数据,利用知识图谱技术构建覆盖面广的初始跨境电商知识图谱。在生成专用知识图谱方面,通过用户需求交互获取用户需求,解析需求生成多个需求词条特征,并从用户历史数据中提取用户深度关联特征,基于上述特征对初始知识图谱进行扩展优化,生成专用知识图谱。在个性化应用方面,将用户输入的需求在该专用知识图谱中进行精确匹配,输出满足需求的知识分析与决策推荐结果。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种跨境电商知识图谱分析方法,该方法包括:
步骤S100:交互用户的需求数据,并执行所述需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征;
具体而言,首先,通过web页面、app界面、小程序界面等提供用户交互界面,让用户输入对知识图谱的自然语言查询内容,该查询内容反映了用户的实际查询需求,如用户输入“跨境电商的发展历程”“影响跨境电商发展的因素”等自然语言查询语句表达查询需求。
其次,采用自然语言解析技术,将用户输入的自然语言查询内容进行解析,获取数据解析结果,例如,采用词法分析、句法分析和语义分析,对用户输入的自然语言查询内容进行结构化解析,识别查询内容中的名词、动词、修饰词等词性,识别查询内容的句子结构和语义角色,提取查询内容中的关键词和短语;又如,基于词典和知识图谱,对解析结果中的关键词和短语执行同义词扩充,将“电商”扩充为“电子商务”“跨境电商”等同义词和短语。
然后,基于词向量技术计算解析结果中任意两个词汇或短语之间的余弦相似度。同时,预设相似度阈值,用于判断两个词汇或短语是否具有高相似度。识别解析结果中相似度高于阈值的关键词和短语对,为相似聚合提供候选信息,对识别的相似关键词和短语对根据相似度大小进行排序,相似度越高越有可能被聚合。统计解析结果中的关键词和短语出现的频率,出现频率高的词汇和短语更有可能成为需求词条特征。根据相似度排序结果和频率统计结果,选择相似度高且频率高的关键词和短语对,将它们聚合为同一需求词条特征,进而获取N个需求词条特征。
通过准确理解用户的查询需求,识别查询需求中的关键词信息,以需求词条特征的形式为知识图谱的查询分析提供支撑,提高查询效果和匹配精度,为实现针对用户的个性化需求提供针对性服务。
步骤S200:采集多来源数据,构建多源数据集合,其中,所述多源数据集合带有来源映射;
具体而言,首先,识别包含跨境电商数据的各类数据源,例如互联网开放数据源、企业内部数据库、第三方支付数据、物流数据等,这些数据源提供结构化数据和非结构化数据。其次,利用爬虫技术、API接口调用等方法从识别的数据源采集数据,涵盖企业信息、产品信息、交易信息、物流信息等跨境电商领域的数据。然后,通过格式检查、值域检查、重复数据删除等对采集的数据进行清洗,识别和过滤无效数据、重复数据、异常数据等,保证数据的正确性和完整性。接着,为每条清洗后的数据赋予来源映射,标识数据来自哪个数据源,来源映射用数据源名称或编号表示。随后,采用数据融合技术将清洗并赋予来源映射的多个数据源的数据集成为多源数据集合。
通过将采集的数据集成为多源数据集合,并为每个数据赋予来源映射,标识数据来自哪个数据源,可以清晰判断每条数据来自何处,为数据比对、异常检测以及知识图谱构建提供基础。
步骤S300:提取所述多源数据集合中的关键词特征,根据所述关键词特征提取结果构建初始跨境电商知识图谱,并基于所述来源映射对所述关键词特征进行数据比对,生成异常标识;
具体而言,通过命名实体识别技术从多源数据集合中识别代表企业、产品、交易等实体的词汇和短语,为关键词特征提供候选信息;同时通过依存句法分析技术从数据集合中抽取代表企业属性、产品属性和交易属性的词汇和短语,也为关键词特征提供候选信息。接着,通过词频统计和TF-IDF技术从实体识别结果和属性抽取结果中提取关键词和短语,构成关键词特征。
然后,将提取的关键词特征作为知识图谱的节点,表示知识图谱需要描述的主要概念和实体,同时,基于关键词特征之间的共现关系构建知识图谱的边。比如,如果两个关键词经常同时出现在同一句话或段落中,则在它们之间建立关联边。接着,对节点进行分类,如关键词可以分类为“产品名称”“技术词汇”等,实体可以分类为“人名”“地名”“机构名”等。然后,明确知识图谱中不同类型节点之间的关系,如“产品-属于-品牌”“人名-创立-公司名”等,关系可以是具体的语义关系,也可以是抽象的“相关”关系。继而,将多个数据源中提取的知识进行融合,识别出表达相同概念或描述同一实体的关键词和实体,将它们合并为同一节点,从而实现初始跨境电商知识图谱的构建。
进而,基于来源映射,将不同数据源中表达相同概念或描述同一实体的关键词和实体识别出来,如“手机”“手机”和“智能手机”这三个关键词来自不同数据源,但它们表达相同的概念,因此可以归为同一关键词特征。然后,对同一关键词特征在不同数据源中的描述信息进行比对和分析,发现某些数据源的描述信息与其他来源存在差异或冲突,这些差异构成异常标识。如某数据源表示“手机”属于“通讯设备”类别,而其他数据源表示“手机”属于“智能产品”类别,则这种类别的差异判定为异常标识。
通过从多源数据集合提取关键词特征构建初始知识图谱,并基于来源映射对关键词特征进行比对与异常标识,为知识图谱的优化与完善奠定基础。
步骤S400:对所述用户执行历史数据调用,生成所述用户的深度关联特征;
具体而言,首先,收集用户的各类历史数据,如搜索历史、浏览历史、购买历史、评价历史等。其中,搜索历史指用户搜索过的关键词;浏览历史指用户浏览过的商品或内容;购买历史指用户购买过的商品;价历史指用户给不同商品的评分信息。然后,基于用户的历史数据挖掘用户兴趣。例如,通过词嵌入技术学习用户历史数据中的词向量,基于词向量计算用户兴趣的语义相关度,相关度高的词表示用户的潜在兴趣。又如,通过路径聚合技术在用户的浏览历史和购买历史中发现用户频繁访问的商品类别和品牌,将其判定为用户兴趣。
进而,根据用户兴趣分析用户的历史行为模式,发现不同兴趣之间的深度关联,如同时购买某品牌手机和某品牌平板,则可以判定用户对该品牌电子产品有深度关联的兴趣。用户的深度关联特征由多个深度关联兴趣构成,更加准确地表示用户的潜在兴趣和需求。
通过采集用户的历史数据,构建用户兴趣模型和分析用户历史行为,识别用户不同兴趣之间的深度关联,最终生成用户的深度关联特征,为后续的知识图谱关联约束和推理提供了基础,有利于生成个性化的跨境电商知识图谱,可以更加精准地匹配用户的需求,为用户提供个性化推荐和提高用户体验。
步骤S500:基于所述深度关联特征和所述异常标识进行所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱;
具体而言,在初始知识图谱中,节点表示关键词、实体或概念,边表示节点之间的关联关系。初始知识图谱由多个数据源中的知识进行融合,为了提高对用户的针对性服务,对初始指数图谱进行约束和优化。首先,基于用户的深度关联特征,在初始知识图谱中识别与用户深度关联兴趣相匹配的节点,如用户对某品牌手机有深度关联兴趣,则识别出与该品牌相关的产品节点、技术节点等。将这些节点及其之间的边构成子图,表示用户潜在的兴趣区域。
进而,在子图中识别出异常标识对应的节点和边,如某节点的语义解释在不同数据源之间存在差异,则该节点及其相关边属于异常标识。通过删除或修改异常标识对应的节点和边,消除知识图谱中存在的不准确或矛盾知识,进而,生成专用跨境电商知识图谱。
通过利用用户深度关联特征识别出用户潜在兴趣相关的知识,再结合异常标识对这些知识进行约束,优化知识的准确性和一致性,最终生成满足个性化用户兴趣的专用跨境电商知识图谱,有效提高知识图谱的适用性和可靠性。
步骤S600:将所述N个需求词条特征输入所述跨境电商知识图谱,输出分析匹配结果。
具体而言,需求词条特征由用户输入的需求词条构成,表示用户的搜索目的或兴趣诉求,需求词条特征中的关键词和实体与知识图谱中的节点对应,表示用户潜在的兴趣点。基于需求词条特征中的关键词在知识图谱中识别出相匹配的节点,这些节点表示与用户需求相关的概念或实体。如需求词条“智能手机”中的“手机”与知识图谱中的“手机”产品类型节点相匹配。进而,基于匹配出的节点以及它们在知识图谱中的关系,推理出更多与用户需求相关的节点。如“手机”节点连接的“操作系统”节点、“处理器”节点也与用户潜在需求相关,共同构成与用户需求匹配的知识子图。最后,将知识子图中的节点及其间的关系构成分析匹配结果,表示用户需求涉及的概念、实体及它们之间的关联,为用户提供全面而准确的知识推荐,如推荐内容可以包括“手机”“操作系统”“处理器”等信息。
通过将需求词条特征与知识图谱进行匹配,识别出与用户需求相关的知识,并基于知识图谱的关联结构进行知识推理和扩展,最终生成全面而准确的分析匹配结果,为用户提供个性化的知识服务和推荐。
进一步的,本申请实施例还包括:
步骤S310:配置领域分类;
步骤S320:基于所述领域分类进行所述多源数据集合的数据领域聚合,生成领域标识;
步骤S330:基于需求精度约束配置相似识别阈值;
步骤S340:对所述关键词特征进行所述相似识别阈值的相似筛选,并基于所述领域标识完成相似筛选聚合;
步骤S350:根据相似筛选聚合结果完成所述初始跨境电商知识图谱构建。
具体而言,首先,配置领域分类,如“手机”“时尚”“母婴”等类别,用于指导后续的数据处理和知识抽取。然后,基于领域分类对多源数据集合进行数据聚合,将与同一领域相关的数据聚合在一起,如将“手机”领域相关的数据源聚合为一组,形成手机领域的数据集合;同时,为每个数据集合生成领域标识,表示其所属领域。
进而,根据需求精度要求配置相似识别阈值,用于判定两个关键词或实体是否表达相近的概念,如阈值设为0.8,则两个词向量的相似度超过0.8才认为它们是相似的。之后,基于相似识别阈值和领域标识对关键词特征执行相似筛选,识别出表达相近概念的关键词,并根据领域标识进行相似聚合。如“手机”和“智能手机”的相似度超过阈值,且其领域标识均为“手机”,则将其聚合为同一关键词特征。最后,基于相似筛选聚合结果中的关键词特征和实体识别知识图谱的节点,基于关键词特征和实体之间的共现关系识别知识图谱的边,构建初始跨境电商知识图谱。
通过对领域内数据进行聚类和标注,然后基于语义识别相似知识,最后构建表达关联知识的初始跨境电商知识图谱,有效利用多源数据实现知识融合,生成关联丰富的知识图谱,为后续知识推理和用户匹配提供基础。
进一步的,如图2所示,本申请实施例还包括:
步骤S341:对所述关键词特征执行多通道分割,生成多通道分割结果;
步骤S342:分别对所述多通道分割结果进行语意检测、概念检测、格式检测,生成同一关键词特征的N个输出结果;
步骤S343:当执行所述相似筛选时,对任意两个关键词特征对应的N个输出结果分别比对,选取比对结果中最大相似值作为相似比对值;
步骤S344:通过所述相似识别阈值对所述相似比对值进行相似筛选,完成相似筛选聚合。
具体而言,首先,对关键词特征执行多通道分割,从不同角度理解关键词特征的语义。例如,将关键词特征拆分为组成它的各个词素,词素表示词语的最小组成单元,保留词素的字面意思,如“电脑屏幕”可以拆分为“电”“脑”“屏”“幕”等词素;基于词性标注将关键词特征拆分为不同的词性,如名词、动词、形容词等,如“跑步机使用”可以拆分为“跑步”(名词)、“机”(名词)、“使用”(动词)等词性;基于概念检测将关键词特征拆分为不同的概念,如产品、品牌、材质等概念;基于关键词特征的词序和词间关系进行拆分,如主谓关系、定中关系等。通过以上多通道分割,可从词素、词性、概念和结构不同的角度理解关键词特征的意思,生成表达同一语义但形式不同的多通道分割结果,为后续的相似度判断提供全面而深入的分析依据。
然后,对不同通道的分割结果分别执行语意检测、概念检测和格式检测。其中,语意检测基于词向量判断两个词或短语的语义相似度;概念检测判断两个词或短语是否表达相同的概念;格式检测判断两个词或短语的词性和结构是否相同。进而,对任意两个关键词特征,分别对其各通道的检测结果进行相似度计算,选取相似度最大的一组结果作为相似比对值。如某两个关键词特征的概念检测结果最相似,则选取该结果作为相似比对值。最后,基于相似识别阈值对相似比对值进行判断,如果超过阈值则表示两个关键词特征是相似的,符合相似聚合的要求。
通过执行多通道分割和语意检测、概念检测、格式检测,从多个维度判断两个关键词特征的相似性,选取最相似的结果作为相似判断依据,并根据判断结果执行相似聚合,可以更加准确地识别词之间的关系,用于构建高质量的知识图谱。
进一步的,本申请实施例还包括:
步骤S360:对所述相似筛选聚合结果进行下层语意的冲突识别,生成冲突识别结果,其中,所述冲突识别结果包括冲突值;
步骤S370:基于所述来源映射对所述冲突识别结果进行冲突来源认证,生成来源认证值;
步骤S380:根据所述冲突值和所述来源认证值生成所述异常标识。
具体而言,首先,对相似筛选聚合结果进行下层语意的冲突识别,判断聚合在一起的两个节点在下层语义上是否存在差异或矛盾。如“手机”和“电脑”节点在上层属于同一“电子产品”类别,但在下层代表不同的产品,属于下层语意的冲突。冲突识别结果包含具体的冲突节点和它们之间的冲突值,表示下层语义的差异程度。
然后,基于来源映射对冲突识别结果进行冲突来源认证,判断造成节点冲突的知识是否来源于同一数据源或不同的数据源。如果来自不同的数据源,则很有可能由于数据源本身的知识偏差或错误导致节点之间的冲突,属于来源差异造成的误差。生成的来源认证值表示冲突知识来源于不同的数据源的可能性。
进而,基于冲突值和来源认证值判断冲突识别结果的严重程度及真实可信度,如冲突值较大且来源认证值较高,则表明该冲突结果具有较高可信度,代表真实的知识差异,需要进行验证和处理。最终生成的异常标识由构成这一判断依据的冲突值、来源认证值以及对应的冲突节点组成。
通过对相似筛选聚合结果进行冲突识别和来源认证,发现并指出知识融合误差和潜在差异,生成的异常标识为校验和图谱优化提供依据和方向,进而删除图谱中的错误信息,纠正因数据源差异导致的误差,提高知识图谱的准确性和一致性。
进一步的,本申请实施例还包括:
步骤S510:基于所述深度关联特征对所述冲突识别结果进行信任识别,生成信任标识;
步骤S520:调用所述异常标识中的所述来源认证值,基于所述来源认证值和所述信任标识进行来源认证重置,基于重置结果和所述冲突值完成所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱。
具体而言,首先,基于用户的深度关联特征对冲突识别结果进行信任识别,判断某个冲突识别结果中的冲突节点是否属于用户的潜在兴趣,如果属于用户兴趣,则其信任度较高,生成的信任标识表明该冲突结果的信任程度。然后,调用异常标识中的来源认证值,基于来源认证值和信任标识对冲突来源进行重新判断。如果某个冲突结果来自不同的数据源但其信任度较高,则表明该结果不是由数据源差异导致的误差,需要保留。基于重新判断的结果,对来源认证值进行重置,更新其表征的含义。进而,基于来源认证值的重置结果和冲突节点之间的冲突值,判断某个冲突识别结果的真实可信度。如果可信度较高,则在知识图谱中保留对应节点和关系,否则进行删除,实现对知识图谱中存在的差异和冲突进行约束。最后,基于约束生成专用跨境电商知识图谱,专用知识图谱是针对用户兴趣定制的知识子图,其融合了来自多个数据源的知识,并在此基础上进行优化和约束,使所包含的知识更加准确可靠,可以准确反映用户兴趣相关的领域知识。
通过判断冲突识别结果的信任度和来源,对存在的差异和错误进行筛选和修正,实现对初始知识图谱的约束和优化,基于深度关联特征和异常标识,生成满足用户个性化兴趣的专用知识图谱,实现了知识融合和差异检测,显著提高知识图谱的质量,为个性化应用提供关键支撑。
进一步的,本申请实施例还包括:
步骤S531:根据所述N个需求词条特征和所述深度关联特征进行用户的行为关联分析;
步骤S532:若关联分析结果低于预设阈值,则生成衰减关联系数;
步骤S533:通过所述衰减关联系数对所述关联约束调整,基于调整结果生成所述专用跨境电商知识图谱。
具体而言,首先,根据基于用户输入获取的N个需求词条特征和用户的深度关联特征,判断用户的潜在兴趣并分析用户的历史行为模式。如果某个兴趣在用户的历史行为中出现的频率较低,则表明用户对该兴趣的关注程度较小,需求词条特征中的相关节点的重要性也较低。然后,基于用户行为关联分析的结果判断某个需求词条特征的重要性是否低于预设阈值,如果低于阈值,表明该需求词条特征与用户的核心兴趣较为周边,其在知识图谱中的相关节点的重要性可以适当减弱,生成衰减关联系数,表示相关节点之间的关联强度可以减小的程度。
进而,通过衰减关联系数对知识图谱中的相关节点和边进行调整,降低它们在图谱中的重要性。如减小节点的中心度、删除边的权重等,实现对知识图谱结构的调整。基于调整后的图谱结构,进一步进行推理和补全,生成调整后的专用知识图谱。调整后的专用知识图谱的知识结构更加贴近用户的实际兴趣分布,核心兴趣相关的知识得到强化,而周边兴趣相关的知识重要性得到削弱。
通过分析用户的行为历史和输入的需求词条,判断用户不同兴趣之间的重要性,并基于判断结果对知识图谱进行结构调整,迭代优化知识图谱,使其更契合个性化应用的需求,使知识图谱可以更精确地反映用户的个性化需求,显著提高知识图谱的个性化,为个性化服务提供基础支撑。
进一步的,如图3所示,本申请实施例还包括:
步骤S610:记录所述用户的用户反馈信息,其中,所述用户反馈信息与所述分析匹配结果具有映射关系;
步骤S620:将所述用户反馈信息作为标识训练数据,重新执行分析匹配的控制寻优;
步骤S630:对控制寻优结果和具有映射关系的所述分析匹配结果进行替代评价;
步骤S640:根据替代评价结果生成补偿数据库,依据所述补偿数据库对所述用户的历史数据更新。
具体而言,首先,记录用户对分析匹配结果的反馈信息,如对推荐结果的点击、喜好反馈等,用户反馈信息与具体的分析匹配结果存在映射关系,可用于评价匹配结果的质量和准确性。然后,将用户反馈信息作为模型训练的数据,重新执行分析匹配过程的优化训练,在优化训练中,模型通过不断学习和迭代提高其对用户兴趣和需求的理解能力,最终输出优化后的分析匹配模型。
进而,基于映射关系,对优化训练得到的新匹配模型输出的结果和原有的分析匹配结果进行替代性评价。通过判断新结果与用户反馈之间的匹配度,评价新匹配模型与原模型的效果差异,得出替代评价结果。最后,基于替代评价的结果生成补偿数据库,包含新旧模型在匹配不同需求时的效果差异信息。补偿数据库用于更新和修正用户的历史数据,提高数据对用户兴趣的刻画能力。经过更新的用户历史数据用于重新构建专用知识图谱,产生新一轮的分析匹配结果。
通过记录和学习用户反馈,构建补偿数据库实现用户数据的增量更新,提高知识图谱和匹配模型的个性化,使其输出的分析结果更加准确满足用户的个性化需求。
综上所述,本申请实施例所提供的一种跨境电商知识图谱分析方法具有如下技术效果:
交互用户的需求数据,并执行需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征,为生成专用知识图谱提供输入;采集多来源数据,构建多源数据集合,其中,多源数据集合带有来源映射,为构建知识图谱提供数据基础;提取多源数据集合中的关键词特征,根据关键词特征提取结果构建初始跨境电商知识图谱,并基于来源映射对关键词特征进行数据比对,生成异常标识,从多源数据中提取特征构建初始知识图谱,并生成异常标识用于图谱优化;对用户执行历史数据调用,生成用户的深度关联特征,为构建专用电商知识图谱提供基础;基于深度关联特征和异常标识进行初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱,为输出针对性的分析匹配结果提供支持;将N个需求词条特征输入跨境电商知识图谱,输出分析匹配结果,实现个性化知识分析与匹配。
实施例二
基于与前述实施例中一种跨境电商知识图谱分析方法相同的发明构思,如图4所示,本申请实施例提供了一种跨境电商知识图谱分析系统,该系统包括:
交互需求数据模块11,用于交互用户的需求数据,并执行所述需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征;
数据集合构建模块12,用于采集多来源数据,构建多源数据集合,其中,所述多源数据集合带有来源映射;
知识图谱构建模块13,用于提取所述多源数据集合中的关键词特征,根据所述关键词特征提取结果构建初始跨境电商知识图谱,并基于所述来源映射对所述关键词特征进行数据比对,生成异常标识;
历史数据调用模块14,用于对所述用户执行历史数据调用,生成所述用户的深度关联特征;
图谱关联约束模块15,基于所述深度关联特征和所述异常标识进行所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱;
匹配结果输出模块16,用于将所述N个需求词条特征输入所述跨境电商知识图谱,输出分析匹配结果。
进一步的,知识图谱构建模块13包括以下执行步骤:
配置领域分类;
基于所述领域分类进行所述多源数据集合的数据领域聚合,生成领域标识;
基于需求精度约束配置相似识别阈值;
对所述关键词特征进行所述相似识别阈值的相似筛选,并基于所述领域标识完成相似筛选聚合;
根据相似筛选聚合结果完成所述初始跨境电商知识图谱构建。
进一步的,知识图谱构建模块13还包括以下执行步骤:
对所述关键词特征执行多通道分割,生成多通道分割结果;
分别对所述多通道分割结果进行语意检测、概念检测、格式检测,生成同一关键词特征的N个输出结果;
当执行所述相似筛选时,对任意两个关键词特征对应的N个输出结果分别比对,选取比对结果中最大相似值作为相似比对值;
通过所述相似识别阈值对所述相似比对值进行相似筛选,完成相似筛选聚合。
进一步的,知识图谱构建模块13还包括以下执行步骤:
对所述相似筛选聚合结果进行下层语意的冲突识别,生成冲突识别结果,其中,所述冲突识别结果包括冲突值;
基于所述来源映射对所述冲突识别结果进行冲突来源认证,生成来源认证值;
根据所述冲突值和所述来源认证值生成所述异常标识。
进一步的,图谱关联约束模块15包括以下执行步骤:
基于所述深度关联特征对所述冲突识别结果进行信任识别,生成信任标识;
调用所述异常标识中的所述来源认证值,基于所述来源认证值和所述信任标识进行来源认证重置,基于重置结果和所述冲突值完成所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱。
进一步的,图谱关联约束模块15还包括以下执行步骤:
根据所述N个需求词条特征和所述深度关联特征进行用户的行为关联分析;
若关联分析结果低于预设阈值,则生成衰减关联系数;
通过所述衰减关联系数对所述关联约束调整,基于调整结果生成所述专用跨境电商知识图谱。
进一步的,匹配结果输出模块16包括以下执行步骤:
记录所述用户的用户反馈信息,其中,所述用户反馈信息与所述分析匹配结果具有映射关系;
将所述用户反馈信息作为标识训练数据,重新执行分析匹配的控制寻优;
对控制寻优结果和具有映射关系的所述分析匹配结果进行替代评价;
根据替代评价结果生成补偿数据库,依据所述补偿数据库对所述用户的历史数据更新。
综上所述的方法的任意步骤都可作为计算机指令或者程序存储在不设限制的计算机存储器中,并可以被不设限制的计算机处理器调用识别用以实现本申请实施例中的任一项方法,在此不做多余限制。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。

Claims (8)

1.一种跨境电商知识图谱分析方法,其特征在于,所述方法包括:
交互用户的需求数据,并执行所述需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征;
采集多来源数据,构建多源数据集合,其中,所述多源数据集合带有来源映射;
提取所述多源数据集合中的关键词特征,根据所述关键词特征提取结果构建初始跨境电商知识图谱,并基于所述来源映射对所述关键词特征进行数据比对,生成异常标识;
对所述用户执行历史数据调用,生成所述用户的深度关联特征;
基于所述深度关联特征和所述异常标识进行所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱;
将所述N个需求词条特征输入所述跨境电商知识图谱,输出分析匹配结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
配置领域分类;
基于所述领域分类进行所述多源数据集合的数据领域聚合,生成领域标识;
基于需求精度约束配置相似识别阈值;
对所述关键词特征进行所述相似识别阈值的相似筛选,并基于所述领域标识完成相似筛选聚合;
根据相似筛选聚合结果完成所述初始跨境电商知识图谱构建。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
对所述关键词特征执行多通道分割,生成多通道分割结果;
分别对所述多通道分割结果进行语意检测、概念检测、格式检测,生成同一关键词特征的N个输出结果;
当执行所述相似筛选时,对任意两个关键词特征对应的N个输出结果分别比对,选取比对结果中最大相似值作为相似比对值;
通过所述相似识别阈值对所述相似比对值进行相似筛选,完成相似筛选聚合。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
对所述相似筛选聚合结果进行下层语意的冲突识别,生成冲突识别结果,其中,所述冲突识别结果包括冲突值;
基于所述来源映射对所述冲突识别结果进行冲突来源认证,生成来源认证值;
根据所述冲突值和所述来源认证值生成所述异常标识。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述深度关联特征对所述冲突识别结果进行信任识别,生成信任标识;
调用所述异常标识中的所述来源认证值,基于所述来源认证值和所述信任标识进行来源认证重置,基于重置结果和所述冲突值完成所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述N个需求词条特征和所述深度关联特征进行用户的行为关联分析;
若关联分析结果低于预设阈值,则生成衰减关联系数;
通过所述衰减关联系数对所述关联约束调整,基于调整结果生成所述专用跨境电商知识图谱。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
记录所述用户的用户反馈信息,其中,所述用户反馈信息与所述分析匹配结果具有映射关系;
将所述用户反馈信息作为标识训练数据,重新执行分析匹配的控制寻优;
对控制寻优结果和具有映射关系的所述分析匹配结果进行替代评价;
根据替代评价结果生成补偿数据库,依据所述补偿数据库对所述用户的历史数据更新。
8.一种跨境电商知识图谱分析系统,其特征在于,所述系统包括:
交互需求数据模块,所述交互需求数据模块用于交互用户的需求数据,并执行所述需求数据的数据解析,对解析结果进行相似聚合,生成N个需求词条特征;
数据集合构建模块,所述数据集合构建模块用于采集多来源数据,构建多源数据集合,其中,所述多源数据集合带有来源映射;
知识图谱构建模块,所述知识图谱构建模块用于提取所述多源数据集合中的关键词特征,根据所述关键词特征提取结果构建初始跨境电商知识图谱,并基于所述来源映射对所述关键词特征进行数据比对,生成异常标识;
历史数据调用模块,所述历史数据调用模块用于对所述用户执行历史数据调用,生成所述用户的深度关联特征;
图谱关联约束模块,所述图谱关联约束模块基于所述深度关联特征和所述异常标识进行所述初始跨境电商知识图谱的关联约束,生成专用跨境电商知识图谱;
匹配结果输出模块,所述匹配结果输出模块用于将所述N个需求词条特征输入所述跨境电商知识图谱,输出分析匹配结果。
CN202310759057.9A 2023-06-26 2023-06-26 一种跨境电商知识图谱分析方法及系统 Active CN116739641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310759057.9A CN116739641B (zh) 2023-06-26 2023-06-26 一种跨境电商知识图谱分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310759057.9A CN116739641B (zh) 2023-06-26 2023-06-26 一种跨境电商知识图谱分析方法及系统

Publications (2)

Publication Number Publication Date
CN116739641A true CN116739641A (zh) 2023-09-12
CN116739641B CN116739641B (zh) 2023-12-12

Family

ID=87911277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310759057.9A Active CN116739641B (zh) 2023-06-26 2023-06-26 一种跨境电商知识图谱分析方法及系统

Country Status (1)

Country Link
CN (1) CN116739641B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180052489A (ko) * 2016-11-10 2018-05-18 주식회사 레드아이스 사용자 경험분석 및 환경요인에 기초한 크로스보더 전자상거래 상품 추천 방법
CN109816397A (zh) * 2018-12-03 2019-05-28 北京奇艺世纪科技有限公司 一种欺诈判别方法、装置及存储介质
CN112612973A (zh) * 2020-12-31 2021-04-06 重庆邮电大学 结合知识图谱的个性化智能服装搭配推荐方法
CN113361793A (zh) * 2021-06-21 2021-09-07 深圳市鸿业电线有限公司 应用于电子商务服务的大数据挖掘方法及人工智能分析系统
CN114880456A (zh) * 2022-04-11 2022-08-09 董金龙 应用于数字化经济的跨境电商大数据分析方法及系统
CN115510248A (zh) * 2022-10-26 2022-12-23 国家电网有限公司 基于深度学习的人员行为特征知识图谱构建与分析方法
CN116186286A (zh) * 2023-02-17 2023-05-30 广州探迹科技有限公司 基于企业知识图谱的国际物流信息推荐方法、系统及介质
CN116245596A (zh) * 2022-12-21 2023-06-09 珠海格力电器股份有限公司 一种物品推荐方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180052489A (ko) * 2016-11-10 2018-05-18 주식회사 레드아이스 사용자 경험분석 및 환경요인에 기초한 크로스보더 전자상거래 상품 추천 방법
CN109816397A (zh) * 2018-12-03 2019-05-28 北京奇艺世纪科技有限公司 一种欺诈判别方法、装置及存储介质
CN112612973A (zh) * 2020-12-31 2021-04-06 重庆邮电大学 结合知识图谱的个性化智能服装搭配推荐方法
CN113361793A (zh) * 2021-06-21 2021-09-07 深圳市鸿业电线有限公司 应用于电子商务服务的大数据挖掘方法及人工智能分析系统
CN114880456A (zh) * 2022-04-11 2022-08-09 董金龙 应用于数字化经济的跨境电商大数据分析方法及系统
CN115510248A (zh) * 2022-10-26 2022-12-23 国家电网有限公司 基于深度学习的人员行为特征知识图谱构建与分析方法
CN116245596A (zh) * 2022-12-21 2023-06-09 珠海格力电器股份有限公司 一种物品推荐方法、装置、电子设备及存储介质
CN116186286A (zh) * 2023-02-17 2023-05-30 广州探迹科技有限公司 基于企业知识图谱的国际物流信息推荐方法、系统及介质

Also Published As

Publication number Publication date
CN116739641B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
US20240028651A1 (en) System and method for processing documents
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN109345399B (zh) 理赔风险评估方法、装置、计算机设备及存储介质
US11200259B2 (en) System and method for processing contract documents
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
US8090724B1 (en) Document analysis and multi-word term detector
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
US8719192B2 (en) Transfer of learning for query classification
CN105378731A (zh) 从被回答问题关联语料库/语料值
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20130060769A1 (en) System and method for identifying social media interactions
Gong et al. A survey on dataset quality in machine learning
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
JP2015518210A (ja) 製品に関連するデータを体系化する方法、装置及びコンピュータ読み取り可能な媒体
US11574287B2 (en) Automatic document classification
US20180181559A1 (en) Utilizing user-verified data for training confidence level models
WO2015084404A1 (en) Matching of an input document to documents in a document collection
US20120233213A1 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
Ackermann et al. Data-driven annotation of textual process descriptions based on formal meaning representations
JP2022035314A (ja) 情報処理装置及びプログラム
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN116739641B (zh) 一种跨境电商知识图谱分析方法及系统
CN114117082B (zh) 用于对待校正数据校正的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant