CN112784061A - 知识图谱的构建方法、装置、计算设备及存储介质 - Google Patents

知识图谱的构建方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN112784061A
CN112784061A CN202110113682.7A CN202110113682A CN112784061A CN 112784061 A CN112784061 A CN 112784061A CN 202110113682 A CN202110113682 A CN 202110113682A CN 112784061 A CN112784061 A CN 112784061A
Authority
CN
China
Prior art keywords
text
classified
features
classification model
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110113682.7A
Other languages
English (en)
Inventor
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shumao Technology Beijing Co ltd
Original Assignee
Shumao Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shumao Technology Beijing Co ltd filed Critical Shumao Technology Beijing Co ltd
Priority to CN202110113682.7A priority Critical patent/CN112784061A/zh
Publication of CN112784061A publication Critical patent/CN112784061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱的构建方法、装置、计算设备及存储介质,该方法包括:根据跨境平台中商品的文本信息和用户的画像信息构建图谱特征;选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;根据所述文本标注样本生成第二文本分类模型;利用所述第二文本分类模型对待分类文本集合进行标注,得到实体集合、关系集合以及属性集合;根据所述实体集合、关系集合以及属性集合构建跨境平台的知识图谱。本发明方案,可以仅通过少量标注来形成第二文本分类模型,进而实现对待分类文本集合的自动标注,便于构建数据丰富、知识体系准确的知识图谱。

Description

知识图谱的构建方法、装置、计算设备及存储介质
技术领域
本发明涉及互联网技术领域,具体涉及一种知识图谱的构建方法、装置、计算设备及存储介质。
背景技术
现有的跨境电商一般采用搜索和推荐解决网站的引流、拉新以及增长。电商平台最大的挑战是从日益增长的海量商品中挑选出的一个小的子集展示给用户,以满足用户的个性化的购物需求。因此,搜索推荐帮助用户准确定位商品,根据用户检索词推荐合适商品起到了关键的支撑作用。目前搜索依然主要以文本处理为主。这种单纯的文字符号并不能标识出其背后的语义知识,尤其是面对词的二义性问题,语义理解不清楚,导致搜索结果与用户意图不相符;对于非常短的搜索短语,单纯的字符串匹配会召回大量无效结果,对排序算法也是一个极大的挑战。所以,商品知识图谱对搜索推荐以及跨境电商都有非常重要的作用。
然而,受限于现有的跨境电商领域,数据比较单一,若使用通用的数据,则需要与现有的垂类领域进行融合。融合和对齐的过程是一个算法集合集成过程,文本分类技术可以应用到该场景,但是如果选用分类技术需要进行大量的标注任务,会引入大量人工标注检查成分,效率低下,且具有一定的主观成分。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的知识图谱的构建方法、装置、计算设备及存储介质。
根据本发明实施例的一个方面,提供了一种知识图谱的构建方法,包括:
根据商品的文本信息和用户的画像信息构建图谱特征;
选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;
根据所述文本标注样本生成第二文本分类模型;
利用所述第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合;
根据所述实体集合、关系集合以及属性集合构建知识图谱。
根据本发明实施例的另一方面,提供了一种知识图谱的构建装置,包括:
标注模块,适于根据商品的文本信息和用户的画像信息构建图谱特征;
扩充模块,适于选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;
生成模块,适于根据所述文本标注样本生成第二文本分类模型;
分类模块,适于利用所述第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合;
构建模块,适于根据所述实体集合、关系集合以及属性集合构建知识图谱。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述知识图谱的构建方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述知识图谱的构建方法对应的操作。
根据本发明实施例的知识图谱的构建方法、装置、计算设备及存储介质,仅在对少量样本进行标注而构建得到图谱特征后,则可通过第一文本分类模型和该图谱特征来对扩充文本特征进行分类,自动标注得到更丰富的样本,而无需人工标注大量的样本,同时会减少主观因素的介入;然后,利用自动标注得到的大量文本标注样本来训练生成第二文本分类模型,可提高生成的文本分类模型的通用性,而不只是适用于电商领域的文本分类;最后,利用该训练得到的第二文本分类模型对待分类文本集合中的待分类文本特征进行分类,并依据分类得到的三元集合构建知识图谱,进而可得到体系完善的知识图谱。由此可见,本实施例方案,利用文本分类来构建知识图谱,同时可以通过自动标注的方式来得到大量的文本标注样本,减少人工标注量,提高标注样本的丰富性,进而可得到准确的文本分类模型,有利于构建知识体系准确的知识图谱。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的知识图谱的构建方法的流程图;
图2示出了本发明另一个实施例提供的知识图谱的构建方法的流程图;
图3示出了本发明一个具体示例中知识图谱的构建方法的流程图;
图4示出了本发明实施例提供的知识图谱的构建装置的结构示意图;
图5示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的知识图谱的构建方法的流程图。该方法可应用于具有商品搜索推荐的场景中,尤其是跨境电商的商品搜索推荐场景中。该方法可由任意具有数据处理能力的计算设备来执行。如图1所示,该方法包括以下步骤:
步骤S110:根据商品的文本信息和用户的画像信息构建图谱特征。
本步骤中构建图谱特征的过程实质是在标注得到少量的样本。通过从商品的文本信息和用户的画像信息中标注出实体、属性以及关系样本,即得到图谱特征。
步骤S120:选取第一文本分类模型,利用该第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本。
实际中,跨境电商领域中的数据比较单一,在本实施例中,通过对扩充文本特征来进行分类,得到包含其他领域的标注样本。其中,扩充文本特征即电商领域之外的其它领域的部分知识数据,也可理解为部分通用的知识数据。
具体地,第一文本分类模型参照图谱特征反映的实体、属性以及关系样本的标注,对扩充文本特征进行分类,则可得到对应扩充文本特征的文本标注样本,进而丰富了标注样本。其中,第一文本分类模型可由本领域技术人员依据经验进行选择。
步骤S130:根据该文本标注样本生成第二文本分类模型。
在得到文本标注样本后,则可据此生成第二文本分类模型,该第二文本分类模型是依据样本训练得到的,其中,训练输入数据是扩充文本特征,训练输出数据是文本标注样本对应的标注结果。
步骤S140:利用该第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合。
其中,待分类文本集合中包括各个领域中的知识数据,即下文中的待分类文本特征。
利用训练得到的第二文本分类模型来对待分类文本集合中的待分类文本特征进行分类,分类得到实体集合、关系集合以及属性集合,即得到了大量的三元(实体、属性以及关系)集合。
步骤S150:根据该实体集合、关系集合以及属性集合构建知识图谱。
根据本实施例提供的知识图谱的构建方法,仅在对少量样本进行标注而构建得到图谱特征后,则可通过第一文本分类模型和该图谱特征来对扩充文本特征进行分类,自动标注得到更丰富的样本,而无需人工标注大量的样本,同时会减少主观因素的介入;然后,利用自动标注得到的大量文本标注样本来训练生成第二文本分类模型,可提高生成的文本分类模型的通用性,而不只是适用于电商领域的文本分类;最后,利用该训练得到的第二文本分类模型对待分类文本集合中的待分类文本特征进行分类,并依据分类得到的三元集合构建知识图谱,进而可得到体系完善的知识图谱。由此可见,本实施例方案,利用文本分类来构建知识图谱,同时可以通过自动标注的方式来得到大量的文本标注样本,减少人工标注量,提高标注样本的丰富性,进而可得到准确的文本分类模型,有利于构建知识体系准确的知识图谱。
图2示出了本发明另一个实施例提供的知识图谱的构建方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210:根据商品的文本信息和用户的画像信息构建图谱特征。
具体地,根据商品的文本信息对商品、商品属性以及商品类别之间的关系,以及相同商品类别中不同商品之间的关系进行标注处理,得到标注结果,其中,商品属性包括但不限于商品的材质、颜色、用途和/或尺寸,商品类别则包括商品所属的各级类别,例如,电商平台中的一双长筒靴,其所属的最小类别为靴子,更大一级的类别为鞋子,再大一级的类别为服饰。以及,标注得到的标注结果则反映出了商品层面的三元数据构成,商品即为三元数据中的实体,商品类别和/或商品属性即为三元数据中的属性(该属性也称为三元数据中的“客体”,而不同于前文中的商品属性)。例如,商品a(实体)所属的类别(关系)为类目b(属性)。根据该标注结果和用户的画像信息构建图谱特征,换言之,在根据用户层面的标注结果的基础上,进一步依据用户的画像信息来标注得到用户层面的标注结果,而后两者标注结果的结合来构建得到图谱特征,以提高构建的图谱特征的全面性;其中,依据用户的画像信息也可标注出用户层面的三元数据构成,包括标注人物画像、人群画像和人物及人群分布特征,其中,人物画像和/或人群画像即可三元数据中的实体,分布关系即为三元数据中的关系,分布特征即为三元数据中的属性。
步骤S220:选取第一文本分类模型,利用该第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本。
其中,扩充文本特征即电商领域之外的其它领域的部分知识数据。在本发明中,需要将通用的知识数据融合到电商领域中,因而需要考虑到其它领域的知识数据。
具体地,本领域技术人员可依据经验选取第一文本分类模型,用于对扩充文本特征的自动打标,自动打标的过程中:第一文本分类模型图谱特征对扩充文本特征进行分类,其中,图谱特征来源的文本信息和/或画像信息为参照的分类输入,对应的图谱特征则为参照的分类输出,依照参照的分类输入与参照的分类输出的对应关系即可完成对扩充文本特征的分类。上述自动打标的过程相当于将图谱特征输入至第一文本分类模型中进行训练,而后利用训练后的第一文本分类模型来对扩充文本特征进行分类,进而得到涉及各个领域的标注样本。
步骤S230:根据该文本标注样本生成第二文本分类模型。
将扩充文本特征作为训练输入数据,以及将扩充文本特征对应的文本标注样本作为训练输出数据,而后将训练输入数据和训练输出数据输入至神经网络中进行训练,训练完成后得到第二文本分类模型。
在本发明的一些可选的实施例中,该第二文本分类模型包括第一子模型和第二子模型,其中,第一子模型用于对涉及时序的文本特征进行分类,第二子模型用于对不涉及时序的文本特征进行分类。在这些可选的实施例中,在训练生成第二文本分类模型的过程中,根据扩充文本特征是否为时间序列文本特征将训练输入数据分为两组,以及将相应的文本标注样本也分为两组;将时间序列的扩充文本特征和对应的文本标注样本用于训练得到第一子模型;以及,将非时间序列的扩充文本特征和对应的文本标注样本用于训练得到第二子模型,进而可训练得到适应于不同文本特征的分类模型,利于提高后续文本分类的准确性。在一些具体的实施方式中,该第二子模型包括TextCNN、TextRNN、SVM或者LR,而第一子模型则为可以对时序文本进行准确分类的模型,本领域技术人员可灵活选择。
步骤S240:利用该第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合。
针对待分类文本集合中的各个待分类文本特征,将该待分类文本特征输入至第二文本分类模型中,则可输出得到该待分类文本特征中的实体、关系和/或集合。
对于第二文本分类模型包括第一子模型和第二子模型的可选实施例,在该利用该第二文本分类模型对待分类文本集合进行分类之前,针对该待分类集合中的任一待分类文本特征,检测该待分类文本特征是否为时间序列文本特征,其中时间序列文本特征是指包括时间标志的文本特征,例如,时间标志包括年、月、日等标志,换言之,可通过检测待分类文本特征中是否包含时间标志来确定其是否为时间序列文本特征。相应的,在进行分类时,针对任一待分类文本特征,若是时间序列文本特征,则选取第一子模型对该待分类文本特征进行分类;若不是时间序列文本特征,则选取第二子模型对该待分类文本特征进行分类。通过上述方式,有针对性的进行分类,可以提高分类的准确性。
步骤S250:根据该实体集合、关系集合以及属性集合构建知识图谱。
知识图谱的重要构成就是三元组数据,即实体、关系以及属性,当分类得到实体集合、关系集合以及属性集合之后,则可构建得到知识图谱。
步骤S260:检测用户对商品的操作行为;响应于该操作行为,利用该知识图谱提取出该商品的文字描述中商品所属的目标类别信息,和/或商品的目标属性信息。
在本实施例中,在构建得到知识图谱后,当检测到用户对商品的操作行为后,则利用该知识图谱来提取文字描述中的目标类别信息和目标属性信息,其中,目标类别信息则是该商品所属类别的信息,目标属性信息则是该商品所具备的属性的信息。其中,操作行为包括任意可反映用户对商品的喜好的行为,例如,点击行为、查看行为、选择行为、收藏行为、分享行为、和/或购买行为等等。
步骤S270:根据该目标类别信息和/或目标属性信息,以及该知识图谱中的节点关系,向用户推荐目标商品。
该目标类别信息和/或目标属性信息可反映用户的偏好数据,依据这些偏好数据在知识图谱中对应的节点,可以确定相关联的目标三元组数据,而后向用户推荐符合该目标三元组数据的商品。其中,目标三元组数据可以理解知识图谱中,与偏好数据所涉及的节点有相关关系的节点所构成的三元组数据。例如,目标类别信息为靴子,目标属性信息为长筒、白色,则在知识图谱中查找涉及靴子、长筒以及白色的目标节点,并依据图谱中的关系确定出与目标节点相连的关联节点,将关联节点和目标节点确定为目标三元组数据。
另外,需要在此说明的是,本发明构建的知识图谱并不是固定不变的,在将该知识图谱应用于商品推荐的过程中,可以依据用户对推荐结果的反馈不断的进行完善,动态调整知识图谱,使其用于更准确的进行搜索推荐。
为便于对本发明实施例完整过程的理解,下面以一个完整的示例来进行说明。图3示出了本发明一个具体示例中知识图谱的构建方法的流程图,如图3所示,其中,其他文本特征即前文中的扩充文本特征,选择文本分类模型中的文本分类模型即前文中的第一文本分类模型,生成文本分类模型中的文本分类模型即前文中的第二文本分类模型;在构建得到知识图谱后,将知识图谱应用于实际推荐场景中,并通过知识融合、强化学习等技术来不断完善该知识图谱。
根据本实施例提供的知识图谱的构建方法,先通过部分数据的标注和基本的分类技术,来实现自动标注;依据自动标注得到的文本标注样本来训练得到第二文本分类模型,并用于进行实体、属性以及关系的分类,进而构建得到知识图谱;通过强化学习等技术对生成的知识图谱进行完善,可进一步提高构建的知识图谱的准确性。
图4示出了本发明实施例提供的知识图谱的构建装置的结构示意图。如图4所示,该装置包括:
标注模块410,适于根据商品的文本信息和用户的画像信息构建图谱特征;
扩充模块420,适于选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;
生成模块430,适于根据所述文本标注样本生成第二文本分类模型;
分类模块440,适于利用所述第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合;
构建模块450,适于根据所述实体集合、关系集合以及属性集合构建知识图谱。
在一种可选的方式中,所述标注模块进一步适于:
根据商品的文本信息对商品、商品属性以及商品类别之间的关系,以及相同商品类别中不同商品之间的关系进行标注处理,得到标注结果;
根据所述标注结果和用户的画像信息构建图谱特征。
在一种可选的方式中,所述第二文本分类模型包括第一子模型和第二子模型;
所述装置还包括:检测模块,适于针对所述待分类集合中的任一待分类文本特征,检测所述待分类文本特征是否为时间序列文本特征;
所述分类模块进一步适于:针对任一待分类文本特征,若是时间序列文本特征,则选取第一子模型对所述待分类文本特征进行分类;若不是时间序列文本特征,则选取第二子模型对所述待分类文本特征进行分类。
在一种可选的方式中,所述装置还包括:提取模块,适于检测用户对商品的操作行为;响应于所述操作行为,利用所述知识图谱提取出所述商品的文字描述中商品所属的目标类目信息,和/或商品的目标属性信息。
在一种可选的方式中,所述装置还包括:推荐模块,适于根据所述目标类别信息和/或目标属性信息,以及所述知识图谱中的节点关系,向用户推荐目标商品。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的知识图谱的构建方法。
图5示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于计算设备的知识图谱的构建方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
根据商品的文本信息和用户的画像信息构建图谱特征;
选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;
根据所述文本标注样本生成第二文本分类模型;
利用所述第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合;
根据所述实体集合、关系集合以及属性集合构建知识图谱。
在一种可选的方式中,所述程序510使所述处理器502执行以下操作:
根据商品的文本信息对商品、商品属性以及商品类别之间的关系,以及相同商品类别中不同商品之间的关系进行标注处理,得到标注结果;
根据所述标注结果和用户的画像信息构建图谱特征。
在一种可选的方式中,所述第二文本分类模型包括第一子模型和第二子模型;
所述程序510使所述处理器502执行以下操作:
针对所述待分类集合中的任一待分类文本特征,检测所述待分类文本特征是否为时间序列文本特征;
针对任一待分类文本特征,若是时间序列文本特征,则选取第一子模型对所述待分类文本特征进行分类;若不是时间序列文本特征,则选取第二子模型对所述待分类文本特征进行分类。
在一种可选的方式中,所述程序510使所述处理器502执行以下操作:检测用户对商品的操作行为;
响应于所述操作行为,利用所述知识图谱提取出所述商品的文字描述中商品所属的目标类目信息,和/或商品的目标属性信息。
在一种可选的方式中,所述程序510使所述处理器502执行以下操作:
根据所述目标类别信息和/或目标属性信息,以及所述知识图谱中的节点关系,向用户推荐目标商品。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种知识图谱的构建方法,包括:
根据商品的文本信息和用户的画像信息构建图谱特征;
选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;
根据所述文本标注样本生成第二文本分类模型;
利用所述第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合;
根据所述实体集合、关系集合以及属性集合构建知识图谱。
2.根据权利要求1所述的方法,其中,所述根据商品的文本信息和用户的画像信息构建图谱特征进一步包括:
根据商品的文本信息对商品、商品属性以及商品类别之间的关系,以及相同商品类别中不同商品之间的关系进行标注处理,得到标注结果;
根据所述标注结果和用户的画像信息构建图谱特征。
3.根据权利要求1或2所述的方法,其中,所述第二文本分类模型包括第一子模型和第二子模型;
在所述利用所述第二文本分类模型对待分类文本集合进行分类之前,所述方法还包括:
针对所述待分类集合中的任一待分类文本特征,检测所述待分类文本特征是否为时间序列文本特征;
所述利用所述第二文本分类模型对待分类文本集合进行分类进一步包括:
针对任一待分类文本特征,若是时间序列文本特征,则选取第一子模型对所述待分类文本特征进行分类;若不是时间序列文本特征,则选取第二子模型对所述待分类文本特征进行分类。
4.根据权利要求1所述的方法,其中,在所述根据所述实体集合、关系集合以及属性集合构建知识图谱之后,所述方法还包括:
检测用户对商品的操作行为;
响应于所述操作行为,利用所述知识图谱提取出所述商品的文字描述中商品所属的目标类目信息,和/或商品的目标属性信息。
5.根据权利要求4所述的方法,其中,在所述提取出所述商品的文字描述中商品所属的目标类目信息,和/或商品的目标属性信息之后,所述方法还包括:
根据所述目标类别信息和/或目标属性信息,以及所述知识图谱中的节点关系,向用户推荐目标商品。
6.一种知识图谱的构建装置,包括:
标注模块,适于根据商品的文本信息和用户的画像信息构建图谱特征;
扩充模块,适于选取第一文本分类模型,利用所述第一文本分类模型和图谱特征对扩充文本特征进行分类,生成文本标注样本;
生成模块,适于根据所述文本标注样本生成第二文本分类模型;
分类模块,适于利用所述第二文本分类模型对待分类文本集合进行分类,得到实体集合、关系集合以及属性集合;
构建模块,适于根据所述实体集合、关系集合以及属性集合构建知识图谱。
7.根据权利要求6所述的装置,其中,所述标注模块进一步适于:
根据商品的文本信息对商品、商品属性以及商品类别之间的关系,以及相同商品类别中不同商品之间的关系进行标注处理,得到标注结果;
根据所述标注结果和用户的画像信息构建图谱特征。
8.根据权利要求6或7所述的装置,其中,所述第二文本分类模型包括第一子模型和第二子模型;
所述装置还包括:检测模块,适于针对所述待分类集合中的任一待分类文本特征,检测所述待分类文本特征是否为时间序列文本特征;
所述分类模块进一步适于:针对任一待分类文本特征,若是时间序列文本特征,则选取第一子模型对所述待分类文本特征进行分类;若不是时间序列文本特征,则选取第二子模型对所述待分类文本特征进行分类。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的知识图谱的构建方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的知识图谱的构建方法对应的操作。
CN202110113682.7A 2021-01-27 2021-01-27 知识图谱的构建方法、装置、计算设备及存储介质 Pending CN112784061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110113682.7A CN112784061A (zh) 2021-01-27 2021-01-27 知识图谱的构建方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110113682.7A CN112784061A (zh) 2021-01-27 2021-01-27 知识图谱的构建方法、装置、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN112784061A true CN112784061A (zh) 2021-05-11

Family

ID=75759157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110113682.7A Pending CN112784061A (zh) 2021-01-27 2021-01-27 知识图谱的构建方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN112784061A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761207A (zh) * 2021-09-14 2021-12-07 广州汇通国信科技有限公司 一种基于textCNN模型和知识图谱的电网数据分类方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705066A (zh) * 2017-09-15 2018-02-16 广州唯品会研究院有限公司 一种商品入库时信息录入方法及电子设备
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN112084383A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 基于知识图谱的信息推荐方法、装置、设备及存储介质
CN112149400A (zh) * 2020-09-23 2020-12-29 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705066A (zh) * 2017-09-15 2018-02-16 广州唯品会研究院有限公司 一种商品入库时信息录入方法及电子设备
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN112084383A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 基于知识图谱的信息推荐方法、装置、设备及存储介质
CN112149400A (zh) * 2020-09-23 2020-12-29 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁浩宸,王忠明: "基于本体的油茶中文知识图谱构建与应用", 《世界林业研究》 *
左笑晨: "微博热门话题关联商品品类挖掘", 《计算机研究与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761207A (zh) * 2021-09-14 2021-12-07 广州汇通国信科技有限公司 一种基于textCNN模型和知识图谱的电网数据分类方法及装置

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN111444334B (zh) 数据处理方法、文本识别方法、装置及计算机设备
WO2016179938A1 (zh) 题目推荐方法和题目推荐装置
CN111046645A (zh) 生成文章的方法、装置、计算机设备和存储介质
CN105740268A (zh) 一种信息推送方法和装置
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
CN111680165A (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN111666766A (zh) 数据处理方法、装置和设备
CN111369294B (zh) 软件造价估算方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN112784061A (zh) 知识图谱的构建方法、装置、计算设备及存储介质
CN113191858A (zh) 基于图片搜索的商品展示方法及装置
CN117077679A (zh) 命名实体识别方法和装置
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
CN112052332A (zh) 检索方法、装置、电子设备及可读存储介质
CN111523315B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN108491423B (zh) 一种排序方法及装置
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
US11645095B2 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
EP3731108A1 (en) Search system, search method, and program
CN114490993A (zh) 小样本意图识别方法、系统、设备及存储介质
CN114332477A (zh) 特征识别模型训练方法、物品特征识别方法及装置
CN114372202A (zh) 一种内容推荐方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination