CN112328857B

CN112328857B - 一种产品知识聚合方法、装置、计算机设备及存储介质

Info

Publication number: CN112328857B
Application number: CN202011194555.6A
Authority: CN
Inventors: 蔡静; 赵凌燕; 高毅; 王文杰; 梁亚妮; 陈闽; 刘喜声; 陈子豪; 刘畅
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-11-03
Anticipated expiration: 2040-10-30
Also published as: CN112328857A

Abstract

本发明公开了一种产品知识聚合方法、装置、计算机设备及存储介质，涉及人工智能技术领域，方法包括：构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据目标产品的基本属性、关联知识以及关联事件搭建目标产品的内容框架；基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到目标产品的信息点；基于目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到目标产品的关键字段信息；对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。本发明使得零散知识得以聚合，使用户快速获得产品信息点。

Description

一种产品知识聚合方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种产品知识聚合方法、装置、计算机设备及存储介质。

背景技术

随着移动互联网的发展，人们获取信息的来源越来越丰富，为了提高产品推广效果，一般需要针对性的搜索信息并进行提炼，实现信息精准投放。但目前的推荐场景无法高度提炼信息，用户在阅读过程需要查看较长篇章或者咨询较多问题后才能了解相关内容。整体来看，现有技术结果缺少主题聚合、缺少内容与知识的关联，内容呈现缺少灵活交互及友好阅读引导。

此外，受限于内容资源分散，关联知识零散等事实，用户无法短时间内获取最优信息点，导致用户需要高成本的检索、反复提问。

发明内容

本发明的目的是提供一种产品知识聚合方法、装置、计算机设备及存储介质，旨在解决现有技术中产品知识零散、不利于用户快速获取信息点的问题。

第一方面，本发明实施例提供一种产品知识聚合方法，其中，包括：

构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；

基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；

基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；

对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。

第二方面，本发明实施例还提供一种产品知识聚合装置，其中，包括：

内容框架搭建单元，用于构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；

内容爬取单元，用于基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；

内容聚合单元，用于基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；

封装单元，用于对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。

第三方面，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如第一方面所述的产品知识聚合方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如第一方面所述的产品知识聚合方法。

本发明实施例提供了一种产品知识聚合方法、装置、计算机设备及存储介质，方法包括：构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。本发明实施例的方法通过挖掘、提炼和聚合产品相关的基本属性、关联知识和关联事件，并以模板化方式进行呈现，使得产品相关的零散知识得以聚合，使用户可能快速获得产品相关信息点。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种产品知识聚合方法的流程示意图；

图2为本发明实施例提供的一种产品知识聚合方法的子流程示意图；

图3为本发明实施例提供的一种产品知识聚合方法的另一子流程示意图；

图4为本发明实施例提供的一种产品知识聚合方法的另一子流程示意图；

图5为本发明实施例提供的一种产品知识聚合方法的另一子流程示意图；

图6为本发明实施例提供的一种产品知识聚合方法的另一子流程示意图；

图7为本发明实施例提供的一种产品知识聚合装置的示意性框图；

图8为本发明实施例提供的一种产品知识聚合装置的子单元示意性框图；

图9为本发明实施例提供的一种产品知识聚合装置的另一子单元示意性框图；

图10为本发明实施例提供的一种产品知识聚合装置的另一子单元示意性框图；

图11为本发明实施例提供的一种产品知识聚合装置的另一子单元示意性框图；

图12为本发明实施例提供的一种产品知识聚合装置的另一子单元示意性框图；

图13为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种产品知识聚合方法的流程示意图，该产品知识聚合方法包括步骤S101～S104：

S101、构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；

S102、基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；

S103、基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；

S104、对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。

本发明实施例的方法通过挖掘、提炼和聚合产品相关的基本属性、关联知识和关联事件，并以模板化方式进行呈现，使得产品相关的零散知识得以聚合，使用户可能快速获得产品相关信息点。

在一实施例中，如图2所示，所述步骤S101包括步骤S201～S204：

S201、对预先获取到的所述目标产品的基本属性进行文本识别和语义分析，得到所述目标产品的实体信息以及各实体之间的关系；

本步骤中需要先收集目标产品的基本属性信息，所述目标产品的基本属性可以包含基本介绍、产品详情、使用说明、维护方法、费用说明等等。例如以一款保险产品为例，所述保险产品的基本属性可以包括基本介绍、保障详情、投保规则、理赔流程、费用说明等。显然，不同的产品，其基本属性可能会有所不同，本发明实施例可以针对不同的产品，设置不同的基本属性，并收集相应的信息。

收集完成所述目标产品的基本属性信息之后，可对所述目标产品的基本属性进行文本识别和语义分析，其中，文本识别和语义分析可采用自然语言处理技术进行处理，从而从基本属性中分解得到多个实体，同时获取各个实体之间的关系。

例如所述目标产品为保险产品，实体可以是保险名称、保险期限、保险费用、保险额度等等。实体之间的关系即为各实体之间的应有关系，该关系可以是有向关系，也可以是无向关系。

在一实施例中，所述步骤S201之前，包括：

对所述目标产品的基本属性进行数据洗清、分词、词性标注和去停用词处理。

在进行文本识别和语义分析前还需进行预处理，本步骤中，预处理包括数据洗清、分词、词性标注、去停用词的步骤。

数据清洗，就是在文本(即基本属性信息)中找到需要的内容，并将不需要的、视为噪音的内容清洗删除，例如可清洗掉广告、标签、HTML、JS代码和注释等，从而得到标题、摘要、正文等信息，本发明实施例中数据清洗可采用去重、对齐、删除和标注等方式实现，或者采用规则提取、正则表达式匹配、根据词性和命名实体提取等方式实现。

目标产品的基本属性信息一般为一批短文本或者长文本，比如：句子，文章摘要，段落或者整篇文章。而一般句子、段落之间的字、词语是连续的，具有一定含义。所以需要对其进行分词处理，从而使文本处理的最小单位粒度为词或者词语，本发明实施例可采用基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法或基于规则的分词方法进行分词处理。

词性标注是给每个词或者词语打词类标签，如形容词、动词、名词等。这样可以在后面的处理中融入更多有用的语言信息。词性标注是一个序列标注问题。本发明实施例的应用场景中，词性标注可以采用基于规则或基于统计的方法。

停用词一般指对文本特征没有任何贡献作用的字词，比如标点符号、语气、人称等词。去停用词就是去掉这些无法提供贡献的词，去停用词需要根据具体场景来决定，例如在某些场景下，一些语气词需要保留，在其他场景中可能需要去掉，所以本发明实施例需要根据目标产品的具体应用场景来确定是否去某些指定的停用词。

在一实施例中，如图3所示，所述步骤S201包括步骤S301～S302：

S301、采用基于规则与词典的方法从目标产品的基本属性的文本中自动识别并抽取出实体，以及从不同信息源中采集所述实体的属性信息；

S302、通过实体间的关系模型来抽取各实体之间的关系。

在完成上述预处理后，可以进行文本识别和语义分析，其是自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息，文本识别和语义分析具体包括：实体抽取、关系抽取和属性抽取的步骤。

实体抽取是从文本中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大，实体抽取的方法可以采用基于规则与词典的方法、基于统计机器学习的方法或者面向开放域的抽取方法。

属性抽取则是从不同信息源中采集特定实体的属性信息。例如针对某个实体，可以从网络公开信息中得到其属性信息。通过属性抽取步骤可以从多种数据来源中汇集这些信息，实现对实体属性的完整勾画。

关系抽取的目标是解决实体间语义链接的问题，本发明实施例可通过实体间的关系模型来抽取实体之间的关系，具体可采用基于开放式实体关系抽取或者基于联合推理的实体关系抽取两类方法。

S202、按照所述各实体之间的关系将所述目标产品的各实体进行关联，构建所述目标产品的基本属性的知识图谱；

本步骤是将所述目标产品的各个实体进行关联，从而使各个实体之间形成网状的图谱，众多实体之间可能存在各种交织的关系，通过将目标产品的各个实体进行关联，可以构建得到所述目标产品的基本属性的知识图谱，这样根据该知识图谱就可以对该目标产品的基本属性的内容一目了然，从而依据该知识图谱进行后续的信息挖掘。

S203、将所述知识图谱中的每一实体与知识库中的各条知识进行交叉匹配，搜索得到所述目标产品的关联知识，以及从互联网上爬取所述目标产品的关联事件。

本步骤中，对于目标产品来说，一般不会单独存在，其会存在一些关联的产品或者存在一些竞品，例如对于一款产品，可能会同时存在同一系列的产品，或者存在一些附属产品，或者存在一些通过其他形式关联的产品，当然也可能存在竞争对手的对标产品，所以本发明实施例需要从知识库中搜索目标产品的这些关联产品或者竞品(后续统称为关联产品)的关联知识，这些关联知识可是关联产品的基本属性，这样不仅能获取目标产品的基本属性，同时还能获取关联产品的基本属性，使得后续构建的框架内容更加丰富全面。另外，对于目标产品本身的基本属性而言，同样可以存储到知识库中，以便后续针对其关联产品进行卡片生成时，搜索到该目标产品的基本属性。

所述目标产品的关联事件可以是目标产品的数据报告或者法律法规政策等，所述目标产品的关联事件还可以是目标产品的新闻资讯，这些内容都可以从互联网上爬取，以丰富目标产品的框架内容。

所述关联事件以及关联知识可以采用SVM(支持向量机)分类算法进行主题爬取得到，并使用HITS(Hyperlink-Induced Topic Search，超链诱导主题搜索)算法构建主题子图，从而过滤掉与目标产品无关的内容，实现主题爬取。

本发明实施例中，SVM分类算法可以采用SVM多类分类器，所述SVM多类分类器可以通过组合多个二分类器来实现多分类器的构造。

所述HITS算法是在海量的网页中找到与用户查询主题相关的高质量Authority(权威)页面与Hub(目录)页面，尤其是Authority页面，因为这些页面代表了满足用户查询的高质量内容，搜索引擎就以此作为搜索结果返回给用户。本发明实施例中，在所述HITS算法设置了一个二分图，一边为Hub点集，另一边为Authority点集。如果原网络中i网页有指向j网页的超链接，则e[i][j]为1，否则为0。每个网页i都有hub[i]与auth[i]两个权值，初始值都为1。本发明实施例设置所述二分图的目的是调整hub[i]与auth[i]的值，使之满足如下线性方程组，最终得到最优的搜索结果：

auth[i]＝＝sum(hub[j]*e[j][i],j＝1..n)

hub[i]＝＝sum(auth[j]*e[i][j],j＝1..n)

S204、将所述目标产品的基本属性、关联知识以及关联事件填充到预先定义的框架字段中，搭建所述目标产品的内容框架。

本步骤中，需要先定义目标产品的框架字段，该框架字段可以是较为简洁的内容表示。例如对于一款保险产品而言，其框架字段可以是赔付条件、赔付变化条件、额外给付条件、豁免条件等等，当然针对不同产品而言，其框架字段完全不同，所以本步骤可以针对实际产品的不同，对框架字段进行增减或替换，本发明实施例中需要将所述目标产品的基本属性、关联知识以及关联事件对定义好的框架字段进行填充，从而完成所述目标产品的内容框架的搭建。

在一实施例中，如图4所示，所述步骤S102包括步骤S401～S403：

S401、逐个提取所述内容框架的框架字段，从提取的框架字段中筛选出带有预先标记的框架字段，对所述带有预先标记的框架字段对应的字段内容进行内容爬取，获取爬取到的字段信息；

本步骤中，需要基于内容框架的框架字段，对字段内容进行内容爬取。由于内容框架中的字段内容需要进行处理，且字段内容并不都是需要的内容，所以需要先逐个提取框架字段，然后筛选出带有预先标记的框架字段，这些带有预先标记的框架字段对应的字段内容为所需的内容，所以可对其字段内容进行爬取，获取爬取到的字段信息，即字段内容，以便后续对字段内容进行处理。

S402、对所述字段信息进行文本抽取和分割，得到所述目标产品的短文信息；

此步骤中，可采用自然语言处理技术对字段信息进行文本抽取和分割，从而得到目标产品的短文信息，该短文信息是抽取出来的有用信息。

这里文本抽取和分割的方法可以采用前述方法中类似的方式，即文本识别和语义分析，从而分割得到目标产品的短文信息。

S403、将所述目标产品的短文信息组合为核心摘要，并采用预训练模型对所述核心摘要进行上下文理解和排序，得到所述目标产品的信息点。

本步骤中，根据提取出来的短文信息生成核心摘要，即将短文信息组合成核心核心摘要，并进行转写，这样可以获取到目标产品的关键信息(即短文)，这些关键信息表示了目标产品的专业知识、关联知识以及关联事件。

转写可以通过采用预训练模型对核心摘要进行上下文理解和排序实现，即将内容框架中的内容转写为顺畅和简洁的短文，例如一个转写后的短文示例如下：王女士投保目标保险产品，身价31万，重疾保额30万。王女士初次发生120种重疾，赔付30万，叠加满符合条件的额外给付，并豁免未交保费。此外，本步骤中，转写可以采用预训练模型，基于小样本挖掘目标产品的相关知识，通过段落上下问理解和排序，从而评估句子权重与关联性，最终生成信息点。

从短文信息生成核心摘要可以采用AC自动机算法(Aho-Corasick automation)抽取关键要素，并采用TFIDF算法(用于信息检索与数据挖掘的加权技术)和NER实体模型(命名实体识别模型)进行识别。

AC自动机算法在tire树(字典树)的基础上，增加一个fail指针(失配指针)，如果当前点匹配失败，则将指针转移到fail指针指向的地方，这样即可实现无需回溯，以继续匹配。

TFIDF算法，可以拆分为TF和IDF。TF(TermFrequency，缩写为TF)也即词频，即一个词在文中出现的次数，一个词出现次数越多，则这个词作用越大。IDF(InverseDocumentFrequency，缩写为IDF)也即逆文档频率，它的大小与一个词的常见程度成反比。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是所需要的关键词。就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词(如语气词、副词等等)给予最小的权重，较常见的词给予较小的权重，较少见的词给予较大的权重。这个权重即为逆文档频率。

确定词频和逆文档频率后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词就是关键词。

NER实体模型可将文本中的命名实体定位并分类为预先定义的类别，如人员、组织、位置、时间表达式、数量、货币值、百分比等，即从一段自然语言文本中找出相关实体，并标注出其位置以及类型。NER实体模型可以采用条件随机场(Conditional Random Field，CRF)作为基础，其目标函数不仅考虑了输入的状态特征函数，而且还包含了标签转移特征函数。在训练时可以使用SGD(随机梯度下降)学习模型参数。

在一实施例中，如图5所示，所述步骤S103包括步骤S501～S503：

S501、获取所述目标产品的应用场景，并对所述应用场景进行特征提取，得到应用场景特征；

不同的产品其应用场景有所不同，其所需要的信息也有所不同，例如对于商场，其应用场景具有人流量大、人群年轻、周末人多等特点，对于其他场景，其应用场景则会具有完全不同的特点。

本步骤就是对应用场景进行特征提取，从而得到应用场景特征，后续根据应用场景特征来对目标产品的信息点进行处理。

S502、通过知识库问答的方式匹配出所述应用场景特征的候选答案，并将所述候选答案与所述目标产品的信息点进行匹配，筛选出匹配度超过预设阈值的信息点；

本步骤中，需要对目标产品的专业知识、关联知识以及关联事件进行协同召回处理，协同召回的目的是使上述信息更匹配应用场景特征，从而提高最后的卡片推广效果。例如某一应用场景特征是年轻、活力，协同召回的目的就是从多个信息点中找到匹配上述应用场景特征的信息点，剔除其他不符合的信息点。

本发明实施例可以通过KBQA(知识库问答)进行不同字段的协同召回处理。本发明实施例中，KBQA的原理是先将应用场景特征和知识库中的三元组联合编码至统一的向量空间，然后在该向量空间内进行应用场景特征和候选答案间的相似度计算，从而匹配出候选答案。然后将所述候选答案与所述目标产品的信息点进行匹配，与所述候选答案越相似的信息点，其准确性越高，所以可以筛选出匹配度超过预设阈值的信息点。

所述三元组(subject,relation,object)，其中subject和object均为实体，relation代表关系，简写为(s,r,o)，描述了一个事实，而KBQA的任务就是给定一个问题Q，预测(s,r)，只要s,r均预测正确，就可以直接得到答案，即o。

S503、对筛选出的所述信息点进行聚合，得到所述目标产品的关键字段信息。

本步骤中，需要对协同召回的内容进行聚合，即对筛选出的所述信息点进行聚合，从而得到目标产品的关键字段信息，聚合方式就是把协同召回的内容聚集在一起，并剔除提到其他信息，从而使有用信息聚合，使用户对卡片的内容一目了然，快速了解目标产品，并能解答用户的疑问。

在一实施例中，如图6所示，所述步骤S104包括步骤S601～S603：

S601、将所述目标产品的关键字段信息填充至展示元素中，并将各所述展示元素进行组件化处理；

本步骤中，先将目标产品的关键字段信息填充到卡片的展示元素中，该展示元素用来展示不同的关键字段信息，例如展示元素可以是名称展示元素、商标展示元素、简介展示元素等等。

然后将各个展示元素进行组件化处理，从而得到组件化单元，后续可以以组件化单元为单位进行编辑或者位置调整等等。

S602、将组件化处理后得到的单元进行拼接，生成卡片模板；

本步骤中需要将组件化处理得到的各个单元进行拼接，拼接的方式可以是从上至下拼接，也可以是从左至右拼接，或者按照其他不规则方式进行拼接，从而生成卡片模板。

S603、基于所述卡片模板进行渲染，生成所述目标产品的卡片。

本步骤中，可以提前设置一些样式参数，然后按照样式参数对卡片模板进行渲染，从而生成模板产品的最终卡片，用户通过该卡片可以快速获取目标产品的各类有用信息

整个步骤S104是将卡片中元素组件化，确定协议规范，并将组件化的单元拼接生成卡片模板，然后基于卡片模板，渲染生成卡片效果图，以直观可视化的方式编辑卡片，所见即所得。另外本发明实施例还可通过通用api接口，统一对外输出卡片，方便各个业务方使用，减少各业务方的重复劳动。

请参阅图7，其为本发明实施例提供的一种产品知识聚合装置的示意性框图，所述产品知识聚合装置700包括：

内容框架搭建单元701，用于构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；

内容爬取单元702，用于基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；

内容聚合单元703，用于基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；

封装单元704，用于对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。

在一实施例中，如图8所示，所述内容框架搭建单元701包括：

实体识别单元801，用于对预先获取到的所述目标产品的基本属性进行文本识别和语义分析，得到所述目标产品的实体信息以及各实体之间的关系；

知识图谱构建单元802，用于按照所述各实体之间的关系将所述目标产品的各实体进行关联，构建所述目标产品的基本属性的知识图谱；

搜索爬取单元803，用于将所述知识图谱中的每一实体与知识库中的各条知识进行交叉匹配，搜索得到所述目标产品的关联知识，以及从互联网上爬取所述目标产品的关联事件；

填充搭建单元804，用于将所述目标产品的基本属性、关联知识以及关联事件填充到预先定义的框架字段中，搭建所述目标产品的内容框架。

在一实施例中，如图9所示，所述内容爬取单元702包括：

字段爬取单元901，用于逐个提取所述内容框架的框架字段，从提取的框架字段中筛选出带有预先标记的框架字段，对所述带有预先标记的框架字段对应的字段内容进行内容爬取，获取爬取到的字段信息；

抽取分割单元902，用于对所述字段信息进行文本抽取和分割，得到所述目标产品的短文信息；

转写单元903，用于将所述目标产品的短文信息组合为核心摘要，并采用预训练模型对所述核心摘要进行上下文理解和排序，得到所述目标产品的信息点。

在一实施例中，如图10所示，所述内容聚合单元703包括：

特征提取单元1001，用于获取所述目标产品的应用场景，并对所述应用场景进行特征提取，得到应用场景特征；

协同召回单元1002，用于通过知识库问答的方式匹配出所述应用场景特征的候选答案，并将所述候选答案与所述目标产品的信息点进行匹配，筛选出匹配度超过预设阈值的信息点；

信息聚合单元1003，用于对筛选出的所述信息点进行聚合，得到所述目标产品的关键字段信息。

在一实施例中，如图11所示，所述封装单元704包括：

填充单元1101，用于将所述目标产品的关键字段信息填充至各所述展示元素中，并将各展示元素进行组件化处理；

拼接单元1102，用于将组件化处理后得到的单元进行拼接，生成卡片模板；

渲染单元1103，用于基于所述卡片模板进行渲染，生成所述目标产品的卡片。

在一实施例中，所述内容框架搭建单元701还包括：

预处理单元，用于对所述目标产品的基本属性进行数据洗清、分词、词性标注和去停用词处理。

在一实施例中，如图12所示，所述实体识别单元801包括：

文本识别单元1201，用于采用基于规则与词典的方法从目标产品的基本属性的文本中自动识别并抽取出实体，以及从不同信息源中采集所述实体的属性信息；

关系抽取单元1202，用于通过实体间的关系模型来抽取各实体之间的关系。

本发明实施例的装置，通过挖掘、提炼和聚合产品相关的基本属性、关联知识和关联事件，并以模板化方式进行呈现，使得产品相关的零散知识得以聚合，使用户可能快速获得产品相关信息点。

上述产品知识聚合装置700可以实现为计算机程序的形式，该计算机程序可以在如图13所示的计算机设备上运行。

请参阅图13，图13是本发明实施例提供的计算机设备的示意性框图。该计算机设备1300是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图13，该计算机设备1300包括通过系统总线1301连接的处理器1302、存储器和网络接口1305，其中，存储器可以包括非易失性存储介质1303和内存储器1304。

该非易失性存储介质1303可存储操作系统13031和计算机程序13032。该计算机程序13032被执行时，可使得处理器1302执行产品知识聚合方法。

该处理器1302用于提供计算和控制能力，支撑整个计算机设备1300的运行。

该内存储器1304为非易失性存储介质1303中的计算机程序13032的运行提供环境，该计算机程序13032被处理器1302执行时，可使得处理器1302执行产品知识聚合方法。

该网络接口1305用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图13中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1300的限定，具体的计算机设备1300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器1302用于运行存储在存储器中的计算机程序13032，以实现如下功能：构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。

本领域技术人员可以理解，图13中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图13所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架；基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点；基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息；对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种产品知识聚合方法，其特征在于，包括：

对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息；

所述构建目标产品的基本属性的知识图谱，依据所述知识图谱从外界中挖掘所述目标产品的关联知识以及关联事件，并依据所述目标产品的基本属性、关联知识以及关联事件搭建所述目标产品的内容框架，包括：对预先获取到的所述目标产品的基本属性进行文本识别和语义分析，得到所述目标产品的实体信息以及各实体之间的关系；按照所述各实体之间的关系将所述目标产品的各实体进行关联，构建所述目标产品的基本属性的知识图谱；将所述知识图谱中的每一实体与知识库中的各条知识进行交叉匹配，搜索得到所述目标产品的关联知识，以及从互联网上爬取所述目标产品的关联事件；将所述目标产品的基本属性、关联知识以及关联事件填充到预先定义的框架字段中，搭建所述目标产品的内容框架；

所述基于所述内容框架的框架字段，对所述内容框架进行内容爬取，并对所爬取到的内容进行转写，得到所述目标产品的信息点，包括：逐个提取所述内容框架的框架字段，从提取的框架字段中筛选出带有预先标记的框架字段，对所述带有预先标记的框架字段对应的字段内容进行内容爬取，获取爬取到的字段信息；对所述字段信息进行文本抽取和分割，得到所述目标产品的短文信息；将所述目标产品的短文信息组合为核心摘要，并采用预训练模型对所述核心摘要进行上下文理解和排序，得到所述目标产品的信息点；

所述基于所述目标产品的应用场景特征，对所述目标产品的信息点进行内容聚合，得到所述目标产品的关键字段信息，包括：获取所述目标产品的应用场景，并对所述应用场景进行特征提取，得到应用场景特征；通过知识库问答的方式匹配出所述应用场景特征的候选答案，并将所述候选答案与所述目标产品的信息点进行匹配，筛选出匹配度超过预设阈值的信息点；对筛选出的所述信息点进行聚合，得到所述目标产品的关键字段信息；

所述对所述目标产品的关键字段信息进行交互封装，并以模板化组件显示封装后的关键字段信息，包括：将所述目标产品的关键字段信息填充至展示元素中，并将各所述展示元素进行组件化处理；将组件化处理后得到的单元进行拼接，生成卡片模板；基于所述卡片模板进行渲染，生成所述目标产品的卡片。

2.根据权利要求1所述的产品知识聚合方法，其特征在于，所述对预先获取到的所述目标产品的基本属性进行文本识别和语义分析，得到所述目标产品的实体信息以及各实体之间的关系之前，包括：

3.根据权利要求1所述的产品知识聚合方法，其特征在于，所述对预先获取到的所述目标产品的基本属性进行文本识别和语义分析，得到所述目标产品的实体信息以及各实体之间的关系，包括：

采用基于规则与词典的方法从目标产品的基本属性的文本中自动识别并抽取出实体，以及从不同信息源中采集所述实体的属性信息；

通过实体间的关系模型来抽取各实体之间的关系。

4.一种产品知识聚合装置，用于实现如权利要求1-3任一项所述的产品知识聚合方法，其特征在于，所述产品知识聚合装置包括：

5.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的产品知识聚合方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至3任一项所述的产品知识聚合方法。