CN115618018A - 一种基于spu的知识图谱构建方法及存储介质 - Google Patents

一种基于spu的知识图谱构建方法及存储介质 Download PDF

Info

Publication number
CN115618018A
CN115618018A CN202211349295.4A CN202211349295A CN115618018A CN 115618018 A CN115618018 A CN 115618018A CN 202211349295 A CN202211349295 A CN 202211349295A CN 115618018 A CN115618018 A CN 115618018A
Authority
CN
China
Prior art keywords
spu
page
knowledge graph
edge
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211349295.4A
Other languages
English (en)
Other versions
CN115618018B (zh
Inventor
李在灼
胡长春
郑舒丹
姜豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Guoji Information Technology Co ltd
Original Assignee
Fuzhou Guoji Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Guoji Information Technology Co ltd filed Critical Fuzhou Guoji Information Technology Co ltd
Priority to CN202211349295.4A priority Critical patent/CN115618018B/zh
Publication of CN115618018A publication Critical patent/CN115618018A/zh
Application granted granted Critical
Publication of CN115618018B publication Critical patent/CN115618018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19153Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

一种基于页面分析的SPU获取方法及存储介质,其中方法包括如下步骤,获取第一页面中的页面展示内容,所述页面展示内容包括文字;识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;将所述分词结果送入SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别所述第一页面属于不同的SPU的分类结果。上述方案能够对网页等信息页面进行信息读取,并进行分类,通过神经网络进行分类,最终达到分析页面中的SPU相关性的技术效果。提升SPU的识别准确率。

Description

一种基于SPU的知识图谱构建方法及存储介质
技术领域
本发明涉及数据分析领域,尤其涉及一种用于识别SPU的知识图谱的构建方法及存储介质。
背景技术
随着互联网技术的发展,云计算、大数据、分布式应用等技术为我们提供更敏捷的产品交付、更创新的业务模式和更优质的客户体验,但同时也给数据分析带来了新的分析和挑战。
在现有的网络社区中,存在各种各样去中心化的用户发布内容,需要对用户发布内容进行内容提取,以及相关数据的分析解析,因此需要能够对任意的页面内容进行分析。传统的SPU提取的方法,仅是通过分析搜索关键词的方式将搜索结果定位到特定SPU页面上。并没有针对任意页面内容进行内容提取分析的技术方案。
发明内容
因此,需要提供一种进行知识图谱构建的技术方案,能够自动化生成SPU相关的知识图谱的方法及存储介质。
为实现上述目的,发明人提供了一种基于SPU的知识图谱构建方法,包括如下步骤,
建立知识图谱,所述知识图谱包括如下节点:品牌名、别名、第一描述词、SPU名,还包括所述品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述第一描述词与所述别名之间的第三边,以及所述第一描述词与SPU名之间的第四边,和别名与SPU名之间的第五边,
获取第一输入页面信息,将所述第一输入页面信息送入知识图谱机器学习模型,所述知识图谱机器学习模型被配置为,根据第一输入页面信息,进行内容识别,将内容识别的结果作为新的节点加入到知识图谱中,得到更新后的知识图谱。
本申请的一实施例中,还包括第二描述词节点,所述第二描述词节点还通过第六边与第一描述词节点连接。
本申请的一实施例中,所述第二描述词节点还通过第七边与别名连接,所述第二描述词节点还通过第八边与品牌连接。
本申请的一实施例中,所述第一边与第八边的权重不同,或所述第一边与第八边的权重可取值范围不同。
本申请的一实施例中,所述第三边与第七边的权重不同,或所述第三边与第七边的权重可取值范围不同。
本申请的一实施例中,还包括步骤,构建SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别SPU识别神经网络的输入内容属于不同的SPU的分类结果;
获取第一页面中的页面展示内容,所述页面展示内容包括文字;识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;将所述分词结果作为输入送入SPU识别神经网络,得到对第一页面属于何种SPU的分类结果。
本申请的一实施例中,还包括步骤,针对页面的文本共现的元素构建共现矩阵O,针对矩阵中的每个值采用符号函数sgn(x)进行处理,得到只含0和1的共现矩阵,其中每个元素按位置表示为:
Oi,j,i,jfrom1to4
所述元素包括品牌、商品名、别名、描述词,共现矩阵符合下列情况时确定对应的SPU:
Figure BDA0003918319380000031
or
Figure BDA0003918319380000032
所述共现矩阵O的迹越大,识别可靠度越高。
本申请的一实施例中,还包括如下步骤,识别所述分词结果位于页面展示内容中的位置,以所述分词结果在若干次页面下拉操作之后能被显示为依据,设置所述分词结果的权重。
本申请的一实施例中,利用知识图谱进行神经网络学习和判别时,第二分词结果的权重Pf的计算方式如下,
Pf=r·k
其中,r表示话题性权重,根据是否识别为第一符号信息指向的分词结果进行赋值,k为页面展示权重,根据第二分词结果处于页面中的位置进行赋值。
一种SPU的知识图谱构建存储介质,存储有可执行程序,所述可执行程序在被计算机执行时运行上述的SPU的知识图谱构建方法。
上述方法及存储介质能够自动对输入的页面信息进行知识图谱的建设,能够提升知识图谱的构建自动化程度,减少人工接入,提升SPU相关领域的数据识别度。
上述发明内容相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
图1为具体实施方式所述的基于页面分析的SPU获取方法流程图;
图2为具体实施方式所述的分词结果权重调整方法示意图;
图3为具体实施方式所述的建立知识图谱流程图;
图4为具体实施方式所述的分词结果设置方法流程图;
图5为具体实施方式所述的页面分析系统示意图;
图6为具体实时方式所述的知识图谱示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
除非另有定义,本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本申请实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。
在本申请实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本申请的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本申请实施例的限制。
除非另有明确的规定或限定,在本申请实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本申请实施例中的具体含义。
在本申请的方案中,SPU(Standard Product Unit)指的是标准化产品单元,也可以称为商品名,是商品信息聚合的最小单位。SPU是商品的共有集,属性值、特性相同的商品就可以称为一个SPU。一般来说,类目系统中的关键属性(品牌、型号等)能够确定一个SPU。准确地识别出SPU意味着准确挖掘出品牌、商品的投放信息。
示例:以国家药品监督管理局备案的商品名称作为一条SPU的标准名称/商品名,不同(品牌不同、品类不同、系列不同)的产品对应不同的SPU。如:
a.雅诗兰黛小棕瓶特润修护精华液
b.雅诗兰黛特润修护精华眼霜
c.雅诗兰黛白金级花菁萃紧颜精华水
d.雅诗兰黛绝色倾慕唇膏
e.圣罗兰亮颜定妆喷雾
其中:
-a和e不是同一个品牌,所以对应不同的SPU;
-a和c虽然是同一个品牌,但是属于不同的系列、功效也不同,所以对应不同的SPU;
-a和b虽然是同一个系列(雅诗兰黛的特润修护系列),但是产品作用、功能(面部精华与眼霜)不同,所以对应不同的SPU;
-d这条SPU则囊括了所有色号的雅诗兰黛绝色倾慕唇膏,是一个商品共有集的例子。
用户指向某个SPU时,极少会完整出现它的标准备案名称,通常会拆分、精简、排列组合出现,即只通过传递一些关键信息就能让获取信息的人明确具体的商品指向,这是日常表达中的常见现象。例如a,通常被用户提及的时候为:雅诗兰黛小棕瓶。此时我们就需要通过其他手段来确定一个SPU。
在一些实施例中,请参阅图1,为一种基于页面分析的SPU获取方法,包括如下步骤,
S1获取第一页面中的页面展示内容,所述页面展示内容包括文字;
S2识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;
S3将所述分词结果送入SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别所述第一页面属于不同的SPU的分类结果。
在这里,第一页面可以为浏览器、手机应用、电脑软件等展示的页面,第一页面可以为HTML页面。在第一页面中,也可以展示电子格式存储的图片、视频、文字、数字、标点等多种内容。本方案的一些实施例中,至少执行对页面的文字内容进行识别的步骤。借助文本分割工具可以对所述文字内容进行分割,得到分割结果。分割的结果可以帮助神经网络理解文字内容的含义。神经网络被训练为根据知识图谱训练后的SPU识别神经网络。SPU识别神经网络的输入可以是页面内容,也可以是文字内容,也可以是文字内容的分割结果。SPU识别神经网络的输出是属于不同的SPU的分类结果。通过上述方案,能够对现在网络上的网页进行信息读取,并进行分类,最终达到分析页面中的SPU相关性的技术效果。
在一些进一步的实施例中,还可进一步设置步骤,S4将所述第一页面的页面关联数据信息进行分析整合,得到第一SPU的分析整合数据,这里的第一页面的页面关联数据信息可以包括点击率、留存时间、用户名称、用户年龄、用户性别等,通过将第一页面的页面关联数据信息与相关内容进行统计,能够得到基于SPU分类的数据结果,将该结果汇总之后,能够用于进一步的大数据分析。如当第一SPU为b雅诗兰黛特润修护精华眼霜时,通过分析与雅诗兰黛特润修护精华眼霜相关联的页面,通过这些页面的活跃用户统计来获得用户画像等等。能够达到整合第一SPU相关数据的技术效果。
在本申请的一些实施例中,如图2所示,还包括步骤,S21识别所述页面展示内容中的第一符号信息,对所述第一符号信息指向的第一分词结果,提升所述第一分词结果的相应权重。其中,所述第一符号信息可以是逗号、句号、感叹号等标点符号。第一符号信息指向的分词结果可以是第一符号后的若干长度的字符串,如第一字符串为冒号,则第一符号指向的分词结果可以是冒号后的分词;也可以是第一符号所包括的字符串,如所述第一符号为两个井字符,如#小黑瓶##菁纯眼霜#,则第一符号指向的分词结果可选取为两个井字符之间包括的内容。然后将选取到的分词结果进行处理,如提升相应权重,能够使得相关分词结果对应的向量在神经网络识别的过程中的权重更高,识别结果更偏向于该分词结果。
在本申请的一些如图3所示的实施例中,在步骤S3之前还包括步骤,S5建立知识图谱,所述知识图谱包括如下节点:品牌名、别名、第一描述词、SPU名,还包括所述品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述第一描述词与所述别名之间的第三边,以及所述第一描述词与SPU名之间的第四边,和别名与SPU名之间的第五边。其中,品牌名表示SPU的商品品牌,一般与注册商标、法人名称一致或相关,描述词为一个或多个形容词组合形成的对该商品的效果/功能进行修饰、描述的词组。别名为用户或品牌方为特定商品起的别称或昵称。如a的别名可以是小棕瓶。在具体的应用例中,可以设置品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述描述词与所述别名之间的第三边,以及所述描述词与SPU名之间的第四边,和别名与SPU名之间的第五边。建立以上节点-边关系的知识图谱,能够有效梳理各节点与最终SPU名之间的关系,上述结构的知识图谱也更有利于SPU识别神经网络对于分类相关知识点的学习。通过学习知识图谱,能够提升SPU识别神经网络识别SPU名称的准确性。另一些实施例中,SPU识别神经网络还可以执行判断步骤,S51当品牌名、别名、描述词之间通过边的连接可以成环时,可以提升所在环的节点指向的第二SPU名称的识别权重。相当于能够成环则认定所在环的节点指向的第二SPU名,相比于不能成环的指向方式,如直接通过别名确定SPU名称,增加可成环的知识图节点指向的SPU名称的权重能够进一步提升SPU识别神经网络的识别准确性。
其他的一些实施例中,还进行设置:将描述词的节点分为第一描述词节点和第二描述词节点。所述第二描述词节点还通过第六边与第一描述词节点连接。第二描述词节点与第一描述词节点连接,第二描述词节点可设置为不与SPU名直接连接,通过上述设置的第一描述词节点和第二描述词节点的连接关系不同,在知识图谱中的逻辑判断效果也不同。通过设计上述知识图谱结构,使得知识图谱在被应用于识别SPU名称时对描述词进行分级,能够更好地达到SPU识别神经网络进行识别分类的技术效果。
另一些进一步的实施例中,所述第二描述词节点还通过第七边与别名连接,所述第二描述词节点还通过第八边与品牌连接,所述第一边与第八边的权重不同,或所述第一边与第八边的权重可取值范围不同,所述第三边与第七边的权重不同,或所述第三边与第七边的权重可取值范围不同。例如,第一描述词节点向外连接的边(第一边、第三边等)的权重可取值为1-1.2,而第二描述词节点向外连接的边(第八边、第七边)的权重取值为0.8-1。第一描述词节点和第二描述词节点可以看做是在一个SPU相关的知识图谱中,为不同的描述词划分分类等级。如图6所示的实施例中,特润修护可以为第一描述词节点,第七代可以为第二描述词节点,从常识性逻辑的角度讲,特润修护功能在某品牌下更易指向特定的SPU,而第七代的指代性则不够强。上述边的权重可以用于SPU识别神经网络处理运行时调取,SPU识别神经网络需要考虑上述边的取值范围,改变自身调用相关节点和边的变量时的权重取值范围。从人工智能的角度来讲,由于其黑箱特性,发明人调试后认为将描述词节点分级能够节省计算资源,并提升识别准确率。通过设置描述词节点的权重不同。能够将描述词进一步细化,将进行了上述调整后的能够在识别的时候不同的描述词节点所在的环,能够获得不同的权重结果。从而最终提升SPU识别神经网络的准确率。
其他一些实施例中,1.针对同一条SPU的知识图谱,在页面的文本中出现的品牌(b)、商品(g)、spu别称(t)、描述词(d)按顺序构建共现矩阵O(两两元素共同出现的次数);
2.针对矩阵中的每个值采用符号函数sgn(x)进行处理,得到只含0和1的共现矩阵,其中每个元素按位置表示为:
Oi,j,i,jfrom1to4
即:
Figure BDA0003918319380000101
Figure BDA0003918319380000102
上面四种共现矩阵的情况下,可以锁定SPU,其中共现矩阵的迹越大,识别可靠度就越高。可表示为:
Figure BDA0003918319380000111
or
Figure BDA0003918319380000112
在本申请的一些实施例中,这里请看图4,还包括如下步骤,S22识别所述分词结果位于页面展示内容中的位置,以所述分词结果在若干次页面下拉操作之后能被显示为依据,设置所述分词结果的权重。比如,在页面加载时能够在浏览器中直接显示的分词结果的权重,高于在页面加载后需要进行一次下拉操作进而才能够显示的分词结果的权重,又高于在页面加载后需要进行二次下拉操作才能够显示的分词结果的权重。一些实施例中,还可以设置页面解析模块,页面解析模块加载页面内容,分析识别分词结果位于页面展示内容中的位置。设置页面解析模块的好处在于避免使用不同浏览器造成的显示内容的判定差异,有益于统一标准。其他一些进一步的实施例中,由于页面展示内容中存在的图片数量有所差异,页面解析模块还执行步骤,在加载页面展示内容时,将页面中包含的图片内容压缩为预设像素大小,再进行分词结果的位置判定。
在具体的一些实施例中,利用知识图谱进行神经网络学习和判别时,第二分词结果的权重Pf的计算方式如下,
Pf=r·k
其中,r表示话题性权重,根据是否识别为第一符号信息指向的分词结果进行赋值,如是则取略大于1的数值,如1.1-1.2,否则取1。k为页面展示权重,根据第二分词结果处于页面中的下拉位置进行赋值,如能够直接加载显示则为1,下拉刷新操作1次才能够显示设置为小于1,如0.95,下拉刷新操作2次才能够显示则设置为0.90等等。神经网络模型通过学习知识图谱进行训练,训练完成后可执行对分词结果进行判别属于何种SPU分类的技术效果。神经网络模型可以接受的输入为分词结果的向量表达式及其权重,神经网络模型的输出为判别属于何种SPU的概率输出。所述神经网络被训练为输出所述第一页面的页面展示内容属于第一SPU的概率。
又如图5所示的一些综合性的实施例中,本方案包括一种页面分析系统500,所述页面分析系统包括爬取模块,所述爬取模块用于获取预设网址上更新显示的页面数据信息,并将页面数据信息送入第三神经网络模块,第三神经网络模块可以是自然语言分析神经网络(NLP),在这里,第三神经网络根据本方案中知识图谱训练完成,使得分词结果能够贴近预设商品领域的常用词组,譬如“特润修复”可以不再被分词为“特润”及“修复”。第三神经网络模块还根据页面数据信息中分词结果所在页面的位置为分词结果赋权值,然后输出到SPU名识别神经网络中,得到页面数据信息或分词结果属于第一SPU的识别结果。爬取模块还可用于将获取到的页面关联数据信息分享给分析整合模块,第一页面的页面关联数据信息可以包括所有与页面有关的用户(如分享的发布用户和点赞评论的用户)点击率、留存时间、用户名称、用户年龄、用户性别等。分析整合模块可以通过加载第一预设模板展示与多个SPU相关的页面关联数据。
为了达到更好地达到知识图谱构建的效果,让知识图谱能够更有效地被SPU识别神经网络利用,还设置知识图谱生成系统,知识图谱生成系统可以包括知识图谱机器学习模型,所述知识图谱机器学习模型用于按照如下方式生成知识图谱,包括如下步骤,建立知识图谱,所述知识图谱包括如下节点:品牌名、别名、第一描述词、SPU名,还包括所述品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述第一描述词与所述别名之间的第三边,以及所述第一描述词与SPU名之间的第四边,和别名与SPU名之间的第五边。获取第一输入页面信息,将所述第一输入页面信息送入知识图谱机器学习模型,所述知识图谱机器学习模型被配置为,根据第一输入页面信息,进行内容识别,将内容识别的结果作为新的节点加入到知识图谱中,得到更新后的知识图谱。知识图谱机器学习模型在被训练完成后,能够对新输入的页面进行内容提取,对新输入的页面的内容进行识别后将新输入的页面内容加入到新知识图谱中,完成自动识别页面内容,生成新的知识图谱的技术效果。
在一些实施例中,知识图谱机器学习模型可以包括页面内容识别子模块、分词子模块,页面内容识别子模块可以用于识别并提取页面中的文字内容、图片内容识别等,所述分词子模块可以用于将识别提取的文字内容进行分词,并输出分词结果,分词子模块可以是自然语言处理神经网络。为了便于理解,请看下面的例子,知识图谱机器学习模型的训练素材包括作为输入第一素材页面,以及知识图谱的结构,输出为与第一素材页面相关的知识图谱。作为素材的知识图谱中至少包括第一描述词“特润修护”,第二描述词“第七代”。当知识图谱机器学习模型训练完成后,可用于识别新输入的第一待识别页面,第一待识别页面中包括词语“特润修复”、“第六代”,则知识图谱机器学习模型能够将词语“特润修复”分类为第一描述词,将词语“第六代”分类为第二描述词,并分别给出分类置信度。这样知识图谱机器学习模型在训练完成后能够用于自动扩充知识图谱中的节点,只需要设计知识图谱的结构,再不断喂养其新的页面素材即可。在一些实例中,对于分类置信度较低的节点,知识图谱生成系统还可以通过人工标注模块推送给技术人员进行人工标注。上述方案最终能够达到快速生成知识图谱的技术效果。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于SPU的知识图谱构建方法,其特征在于,包括如下步骤,
建立知识图谱,所述知识图谱包括如下节点:品牌名、别名、第一描述词、SPU名,还包括所述品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述第一描述词与所述别名之间的第三边,以及所述第一描述词与SPU名之间的第四边,和别名与SPU名之间的第五边,
获取第一输入页面信息,将所述第一输入页面信息送入知识图谱机器学习模型,所述知识图谱机器学习模型被配置为,根据第一输入页面信息,进行内容识别,将内容识别的结果作为新的节点加入到知识图谱中,得到更新后的知识图谱。
2.根据权利要求1所述的基于SPU的知识图谱构建方法,其特征在于,还包括第二描述词节点,所述第二描述词节点还通过第六边与第一描述词节点连接。
3.根据权利要求2所述的基于SPU的知识图谱构建方法,其特征在于,所述第二描述词节点还通过第七边与别名连接,所述第二描述词节点还通过第八边与品牌连接。
4.根据权利要求3所述的基于SPU的知识图谱构建方法,其特征在于,所述第一边与第八边的权重不同,或所述第一边与第八边的权重可取值范围不同。
5.根据权利要求3所述的基于SPU的知识图谱构建方法,其特征在于,所述第三边与第七边的权重不同,或所述第三边与第七边的权重可取值范围不同。
6.根据权利要求1所述的基于SPU的知识图谱构建方法,其特征在于,还包括步骤,构建SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别SPU识别神经网络的输入内容属于不同的SPU的分类结果;
获取第一页面中的页面展示内容,所述页面展示内容包括文字;识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;将所述分词结果作为输入送入SPU识别神经网络,得到对第一页面属于何种SPU的分类结果。
7.根据权利要求6所述的基于SPU的知识图谱构建方法,其特征在于,本申请的一实施例中,还包括步骤,针对页面的文本共现的元素构建共现矩阵O,针对矩阵中的每个值采用符号函数sgn(x)进行处理,得到只含0和1的共现矩阵,其中每个元素按位置表示为:
Oi,j,i,j from 1 to 4
所述元素包括品牌、商品名、别名、描述词,共现矩阵符合下列情况时确定对应的SPU:
Figure FDA0003918319370000021
or
Figure FDA0003918319370000022
所述共现矩阵O的迹越大,识别可靠度越高。
8.根据权利要求6所述的基于SPU的知识图谱构建方法,其特征在于,还包括如下步骤,识别所述分词结果位于页面展示内容中的位置,以所述分词结果在若干次页面下拉操作之后能被显示为依据,设置所述分词结果的权重。
9.根据权利要求6所述的基于SPU的知识图谱构建方法,其特征在于,利用知识图谱进行神经网络学习和判别时,第二分词结果的权重Pf的计算方式如下,
Pf=r·k
其中,r表示话题性权重,根据是否识别为第一符号信息指向的分词结果进行赋值,k为页面展示权重,根据第二分词结果处于页面中的位置进行赋值。
10.一种基于SPU的知识图谱构建存储介质,其特征在于,存储有可执行程序,所述可执行程序在被计算机执行时运行权利要求1-9任一项所述的SPU的知识图谱构建方法。
CN202211349295.4A 2022-10-31 2022-10-31 一种spu的知识图谱构建方法及存储介质 Active CN115618018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211349295.4A CN115618018B (zh) 2022-10-31 2022-10-31 一种spu的知识图谱构建方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211349295.4A CN115618018B (zh) 2022-10-31 2022-10-31 一种spu的知识图谱构建方法及存储介质

Publications (2)

Publication Number Publication Date
CN115618018A true CN115618018A (zh) 2023-01-17
CN115618018B CN115618018B (zh) 2023-06-20

Family

ID=84877230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211349295.4A Active CN115618018B (zh) 2022-10-31 2022-10-31 一种spu的知识图谱构建方法及存储介质

Country Status (1)

Country Link
CN (1) CN115618018B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611404A (zh) * 2020-05-20 2020-09-01 中国地质调查局发展研究中心 一种基于地质文本语料预测目标区矿产的方法
CN112199516A (zh) * 2020-11-17 2021-01-08 重庆金融资产交易所有限责任公司 一种构建知识图谱的方法、装置、终端和存储介质
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质
CN115222464A (zh) * 2021-03-31 2022-10-21 菜鸟智能物流控股有限公司 数据处理方法、装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611404A (zh) * 2020-05-20 2020-09-01 中国地质调查局发展研究中心 一种基于地质文本语料预测目标区矿产的方法
CN112199516A (zh) * 2020-11-17 2021-01-08 重庆金融资产交易所有限责任公司 一种构建知识图谱的方法、装置、终端和存储介质
CN115222464A (zh) * 2021-03-31 2022-10-21 菜鸟智能物流控股有限公司 数据处理方法、装置、电子设备和存储介质
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质

Also Published As

Publication number Publication date
CN115618018B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US9280525B2 (en) Method and apparatus for forming a structured document from unstructured information
US7689527B2 (en) Attribute extraction using limited training data
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
US20190065991A1 (en) Machine learning document processing
US10614086B2 (en) Orchestrated hydration of a knowledge graph
US20220405607A1 (en) Method for obtaining user portrait and related apparatus
CN108874992A (zh) 舆情分析方法、系统、计算机设备和存储介质
EP3189449A2 (en) Sentiment rating system and method
US20180268307A1 (en) Analysis device, analysis method, and computer readable storage medium
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN108874783A (zh) 电力信息运维知识模型构建方法
US11574123B2 (en) Content analysis utilizing general knowledge base
WO2019071904A1 (zh) 基于贝叶斯网络的问答装置、方法及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN114936623A (zh) 一种融合多模态数据的方面级情感分析方法
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113627190A (zh) 可视化数据转换方法、装置、计算机设备及存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
Papakyriakopoulos et al. Beyond algorithmic bias: A socio-computational interrogation of the Google search by image algorithm
CN114912011A (zh) 一种基于内容提取与评分预测的视频推荐方法
CN111859925B (zh) 一种基于概率情感词典的情感分析系统及方法
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
JP6757840B2 (ja) 文抽出システム、文抽出方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant