CN112949312A

CN112949312A - 一种产品知识融合方法和系统

Info

Publication number: CN112949312A
Application number: CN202110327074.6A
Authority: CN
Inventors: 刘征; 王鑫; 邵明; 宗珂
Original assignee: China Academy of Art
Current assignee: China Academy of Art
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-11
Also published as: US20220309248A1

Abstract

本发明公开一种产品知识融合方法和系统，所述方法包括如下步骤：获取产品原始数据；对所述产品原始数据进行知识抽取，获取产品相关的实体、属性和语义关系；根据所述产品相关的实体、属性和语义关系构建实体信息知识库；将所述语义关系和属性融合所述实体，并采用文本匹配模型进行实体匹配，获取相匹配的实体信息对应的产品原始数据；根据匹配后的实体信息建立产品的知识图谱。所述方法和系统采用知识融合的方式，将多源异构数据进行规范化处理，从而可以有效减少因为数据结构、来源不同导致的知识一词多义，指代不清等问题。

Description

一种产品知识融合方法和系统

技术领域

本发明涉及深度学习领域，特别涉及一种产品知识融合方法和系统。

背景技术

为了辅助产品设计师进行产品调研，充分发挥大数据的优势，通过构建产品设计知识图谱，直观、高效地展示产品的关联关系。在构建知识图谱时，知识往往来源于多个不同的数据源，由于数据源之间存在结构、内容上的差异，因此在对获取到的知识进行整合时也会存在一词多义、指代不明的问题。因此，需要进行知识融合处理，消除实体、属性在指代上的歧义，将多源异构数据进行规范化处理。

文本匹配是自然语言处理中一个重要的基础问题，可以应用于大量的NLP任务中，如信息检索、问答系统、复述问题、对话系统、机器翻译等，这些NLP任务在很大程度上可以抽象为文本匹配问题。传统的文本匹配技术有BoW、VSM、TF-IDF、BM25、Jaccord、SimHash等算法，主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题。而实际上，基于词汇重合度的匹配算法有很大的局限性，原因包括：词义局限、结构局限、知识局限。这表明，对于文本匹配任务，不能只停留在字面匹配层面，要深入到语义层面的匹配。

发明内容

本发明其中一个发明目的在于提供一种产品知识融合方法和系统，所述方法和系统采用语义文本进行文本匹配，从而可以克服字词层面匹配的不足，可提高匹配的准确性。

本发明另一个发明目的在于提供一种产品知识融合方法和系统，所述方法和系统采用知识融合的方式，将多源异构数据进行规范化处理，从而可以有效减少因为数据结构、来源不同导致的知识一词多义，指代不清等问题。

本发明另一个发明目的在于提供一种产品知识融合方法和系统，所述方法和系统在词条向量中加入包括但不仅限于命名实体、词性、词法和句法等信息进行融合，从而使得词条向量包含更丰富的语义信息，提高知识识别的准确率。

本发明另一个发明目的在于提供一种产品知识融合方法和系统，所述方法和系统还提取实体的上下文的进行特征提取，获取上下文的语义信息，并将上下的语义信息作为实体自身的语境进行语义识别，可提高实体在文章中含义识别的准确率。

为了实现至少一个上述发明目的，本发明进一步提供一种产品知识融合方法，所述方法包括如下步骤：

获取产品原始数据；

对所述产品原始数据进行知识抽取，获取产品相关的实体、属性和语义关系；

根据所述产品相关的实体、属性和语义关系构建实体信息知识库；

将所述语义关系和属性融合所述实体，并采用文本匹配模型进行实体匹配，获取相匹配的实体信息对应的产品原始数据；

根据匹配后的实体信息建立产品的知识图谱。

根据本发明其中一个较佳实施例，获取产品原始数据中的文本数据，并对文本数据进行分词，获取文本数据的关键词。

根据本发明另一个较佳实施例，将分词后的关键词转化为词向量，获取关键词对应的命名实体、词法、词性和关键词所在句的句法信息转化为特征向量后输入到所述词向量中进行融合，获取融合后的实体信息。

根据本发明另一个较佳实施例，获取实体信息的上下文，并对所述上下文进行特征提取，将所述实体信息和对应的上下文进行K-Max池化操作，并将池化后的特征向量进行拼接，具体为：

再将上述3种向量拼接为

其中

分别表示语句P中第i个命名实体、实体之前的文本片段、实体之后的文本片段，KMax{}为K-Max池化操作，

分别表示通过卷积神经网络和K-Max池化获得的实体、实体上文、实体下文的向量，采用双线性插值法计算不同产品文本数据中语句的匹配的实体信息矩阵。

根据本发明另一个较佳实施例，采用Bilinear相似性度量函数计算两个语句不同位置的交互信息，计算方法如下：

获取两个语句的位置信息p_i、h_i，其中将p_i、h_i的分别转化为向量

和

根据上述两个位置信息的特征向量输出交互矩阵：

进一步计算不同文本数据的颗粒角度的注意力交互：

其中e_ij∈R^m×n

其中e_ij为产品文本数据P中第i个单词和产品文本数据H中第j个单词之间的点乘相似度，exp(e_ik)表示对e_ik归正处理，k为对应文本实体单词，m为文本P中的单词个数，n为文本H中单词个数，exp(e_ik)表示文本数据H中所有单词对文本数据P中的第i个关键词进行归正计算，e_kj表示文本数据P中所有单词对文本数据H中的第j个关键词进行归正计算，P^T为P矩阵的转置矩阵，其中文数据P和H的注意力表示分别为α^p，β^h；其中

是对文本H中的每个词进行加权求和得到的，表示文本P中的第i个单词与文本H中的每个单词的匹配信息；β^h是对文本P中的每个词进行加权求和得到的，表示文本H中的第j个单词与文本P中的每个单词的匹配信息。

根据本发明另一个较佳实施例，采用卷积神经网络对两个文本数据的词嵌入E^p和E^h分别提取局部结构信息，分别获取两个文本的局部语义矩阵：

C^p＝Wide_CNN(E^p)；

C^h＝Wide_CNN(E^h)；

其中C^p∈R^m×1×ck，C^h∈R^n×1×ck，m，n分别为文本数据P和文本数据H中词的个数，ck为卷积核的数目，C^p为词嵌入E^p经过宽卷积神经网络结构后得到的结果；C^h为词嵌入E^h经过宽卷积神经网络结构后得到的结果。

根据本发明另一个较佳实施例，将输出结果C^h，C^p进行注意力交互计算，分别得到文本数据P和文本数据H的局部语义注意力矩阵：cnn^p，cnn^h。

根据本发明另一个较佳实施例，分别计算文本内部的自注意力交互，其中文本数据P的自注意力交互的计算公式为：

其中

其中文本数据H的子注意力的计算公式和文本数据P相同，α_ij表示文本P中单词i和单词j的注意力，并计算以获取两个文本的自注意力交互结果。

根据本发明另一个较佳实施例，将相互匹配两个文本数据P和H的上下文交互矩阵、颗粒角度注意力交互矩阵、局部语义注意力交互矩阵和自注意力交互矩阵分别进行拼接，拼接后分别形成新语义矩阵：

将新语义矩阵分别输入到BiLSTM网络中提取文本语义特征，用于获取最终的匹配结果，根据最终的匹配结果进行知识图谱构建。

为了实现至少一个上述发明目的，本发明进一步提供一种产品知识融合系统，所述产品知识融合系统应用上述一种产品知识融合方法。

为了实现至少一个上述发明目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质保存并应用上述一种产品知识融合系统。

附图说明

图1显示的是本发明一种产品知识融合方法的流程图；

图2显示的是本发明中卷积模型示意图；

图3显示的是本发明中文本匹配模型结构示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

请结合图1-3，本发明公开了一种产品知识融合方法和系统，所述方法充分引入产品实体的语义特征进行匹配，语义特征包括文本数据的颗粒度、局部特征、全局特征的角度，并融合文本数据中实体上下文特征采用深度学习算法进行匹配，从而可以精准匹配出相似的文本数据，可用于产品相似度判断和产品知识图谱的构建。

具体的，所述产品知识融合方法需要首先获取产品原始文本数据，其中所述产品原始文本数据可采用包括但不仅限于爬虫技术获取，获取文本数据后对每一文本数据进行分词，由于本发明是通过两两数据对比的方式实现，因此本发明举例文本数据P和文本数据H作为两个需要进行匹配的文本数据，两个文本数据分别来自于不同的产品。

本发明可采用现有的jieba分词库对采集的文本数据P和文本数据H进行分词，分别获取两个文本数据对应的关键词，需要说明的是，jieba分词库可以采用高精确性模式，可以将长的词进行再次切分，从而获取高精确度关键词。

采用分词库对两个文本数据进行分词后，将分词后的关键词转化为向量，本发明优选Woed2Vect算法将关键词转换为对应的词向量。若关键词未出现在词表中，则将该关键词随机进行初始化表示。其中文本数据P和文本数据H的词向量分别为：

其中，E^p∈R^m×d，E^h∈R^n×d，m，n分别表示产品设计文本P，H中词的个数，d表示词向量的维度。E^P和E^h分别表示文本数据P和文本数据H的词向量。

进一步的，获取每一关键词的词性、词法和关键词所在句的句法。并将词性、词法和关键词所在句的句法转换为特征向量，其中词性可以包括但不仅限于副词、助词、连词和名词等分类，所述词法包括但不仅限于名词用作动词、名词作状语，名词用作副词、形容词用作名词、形容词用作动词、动词用作名词、数词用作动词、动词使动用法、形容词使动用法、名词使动用法等。所述句法包括但不仅限于陈述句、疑问句、祈使句和感叹句等。

采用现有的自然语言处理模型，比如NLTK、StanfordNLP模型识别两个文本的命名实体，将所述命名实体转换为特征向量，将文上述的命名实体、词性、词法和关键词所在句的句法对应的特征向量融合到所述特征向量中，其中采用上述现有模型识别命名实体后获取文本数据P和文本数据H的实体集合：

和

由于实体的含义和文本的上下文语境相关，因此本发明为了更好地获取实体所代表的语义信息，本发明进一步提取实体的上下文特征，具体方法包括如下步骤：

采用不同的一维卷积神经网络Conv_entity和Conv_context络分别对命名实体和命名实体的上下文的文本片段分别进行特征提取，获取命名实体的特征向量和实体上文特征向量和实体下文特征向量，并且分别对命名实体特征向量和上下文特征向量输入到K-Max层进行池化操作，池化操作的公式如下：

其中Conv_entity表示对命名实体进行特征提取的一维卷积神经网络，Conv_context表示对命名实体所处上下文进行特征提取的一维卷积神经网络，

分别表示语句P中第i个命名实体、实体之前的文本片段、实体之后的文本片段。KMax{}为K-Max池化操作，

分别表示通过卷积神经网络和K-Max池化获得的实体、实体上文、实体下文的向量表征。针对文本数据P中的k个实体上下文特征向量

和文本H中的一个实体上下文特征向量

采用Bilinear算法(双线性差值算法)计算文本数据P和文本数据H之间的实体匹配矩阵。将实体在文本数据P中的文本位置p_i和在文本数据H中的文本位置h_i分别转化为向量表示：

和

进一步采用Bilinear算法建立基于文本位置的交互信息：

其中M为不同维度交互的权重矩阵，b是线性部分参数，

表示文本位置的交互矩阵，

表示

的转置矩阵。计算产品文本数据P中第i个关键词和文本数据中第j个词之间的点乘相似度e_ij：

其中e_ij∈R^m×n，R^m×n表示对应维度的矩阵，维度分别和文本数据P和文本数据的词个数m，n相关，

表示文本数据P在i单词处的矩阵，并对P矩阵进行转置，E_j ^h表示文本数据H在j单词处的矩阵，进一步获得文本数据P和文本数据H的上下文注意力矩阵α^p，β^h：

分母部分exp(e_ik)表示对e_ik作归正处理，使结果集中到相同区间，分母是将文本H中所有词对文本P中第i个词做点乘并进行数值归正求和运算，exp(e_ik)表示对e_ik归正处理，k为对应文本实体单词，m为文本P中的单词个数，n为文本H中单词个数，exp(e_ik)表示文本数据H中所有单词对文本数据P中的第i个关键词进行归正计算，e_kj表示文本数据P中所有单词对文本数据H中的第j个关键词进行归正计算，上述文本数据P和文本数据H的注意力α^p，β^h分别是基于颗粒角度的文本注意力，本发明进一步计算基于局部特征的注意力，其中需要获取文本的局部特征，并将局部特征转化为特征向量，并采用上述方法计算方法计算文本局部的注意力交互。需要说明的是，基于局部角度的注意力计算方法和基于颗粒角度的计算方法相同，本发明对此不再详细描述。

为了有效地利用文本中的语义信息，本发明进一步采用宽卷积神经网络对词嵌入向量E^p，E^h分别提取局部结构特征，形成文本语义矩阵：

C^p＝Wide_CNN(E^p)；

C^h＝Wide_CNN(E^h)；

其中，C^p∈R^m×1×ck，C^h∈R^n×1×ck，m，n分别为文本数据P，H中词的个数，l是维度参数，ck为卷积核的数目，C^p为词嵌入向量E^p经过宽卷积神经网络结构后得到的结果，C^h是词嵌入向量E^h经过宽卷积神经网络结构后得到的结果。对经过所述宽卷积神经网络的文本局部结构特征在编码层输出数据进行注意力交互计算，分别得到文本数据P和文本数据H的最终的局部语义注意力矩阵：cnn^p，cnn^h。

为了捕获文本的长距离依赖，考虑文本的语序和上下文信息，得到深层次语义信息，需要在文本内部做交互，寻找文本序列内部的联系。以文本P为例，计算P的自注意力表示SA^p：

其中，

为文本数据P中词i和词j的注意力，d为词向量的维度。同理，得到H的自注意力表示SA^h。

本发明进一步将上述多种交互信息进行融合，融合方法包括如下步骤：

通过多角度的交互矩阵拼接计算可以获得：将上下文交互矩阵、颗粒角度注意力交互矩阵、局部语义注意力交互矩阵和自注意力交互矩阵分别进行拼接，拼接后分别形成新语义矩阵：

将新语义矩阵分别输入到BiLSTM网络中提取文本语义特征，N_S^p表示文本数据P的新语义矩阵，N_S^h表示文本数据H的新语义矩阵。

值得一提的是，在LSTM网络中包含三个门控单元分别为输入门、遗忘门、输出门和两个记忆单元分别为长期记忆和短期记忆。t时刻，LSTM的三个门单元和两个记忆单元的计算方法如下：

输入门：I_t＝σ(W_i·[h_t-1,x_t]+b_i)；

遗忘门：F_t＝σ(W_f·[h_t-1,x_t]+b_f)；

输出门：O_t＝σ(W_o·[h_t-1,x_t]+b_o)；

长期记忆：C_t＝F_t*C_t-1+I_t*[tanh(W_c·[h_t-1,x_t]+b_c)]；

短期记忆：h_t＝O_t*tanh(C_t)；

其中h_t-1为t-1时刻隐藏层的输出，x_t为当前时刻即t时刻的输入，W_i，W_c，W_f，W_o表示不同的权重矩阵，b_i，b_f，b_c，b_o表示不同的偏置矩阵，σ表示sigmiod函数，h_t表示t时刻LSTM单元的输出。

最终的文本语义表示为：

其中

是分别表示经过BiLSTM编码后两个文本t时刻的语义表示。

Pavg＝Avg_Pooling(N_S^p)；

Havg＝Avg_Pooling(F_S^h)；

V＝Concat[Pavg；Havg]；

将拼接后的语义向量V传入带有relu激活函数的多层感知机的分类器中进行分类，使用softmax交叉熵损失函数，整个网络采用反向传播进行端到端的训练，获取最终匹配的实体信息。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线段、电线段、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明，本发明的目的已经完整并有效地实现，本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种产品知识融合方法，其特征在于，所述方法包括如下步骤：

获取产品原始数据；

根据匹配后的实体信息建立产品的知识图谱。

2.根据权利要求1所述的一种产品知识融合方法，其特征在于，获取产品原始数据中的文本数据，并对文本数据进行分词，获取文本数据的关键词。

3.根据权利要求1所述的一种产品知识融合方法，其特征在于，将分词后的关键词转化为词向量，获取关键词对应的命名实体、词法、词性和关键词所在句的句法信息转化为特征向量后输入到所述词向量中进行融合，获取融合后的实体信息。

4.根据权利要求1所述的一种产品知识融合方法，其特征在于，获取实体信息的上下文，并对所述上下文进行特征提取，将所述实体信息和对应的上下文进行K-Max池化操作，并将池化后的特征向量进行拼接，具体为：

再将上述3种向量拼接为

其中

5.根据权利要求4所述的一种产品知识融合方法，其特征在于，采用Bilinear相似性度量函数计算两个语句不同位置的交互信息，计算方法如下：

和

根据上述两个位置信息的特征向量输出交互矩阵：

进一步计算不同文本数据的颗粒角度的注意力交互：

其中e_ij∈R^m×n

其中e_ij为产品文本数据P中第i个单词和产品文本数据H中第j个单词之间的点乘相似度，exp(e_ik)表示对e_ik归正处理，k为对应文本实体单词，m为文本H中的单词个数，n为文本P中单词个数，exp(e_ik)表示文本数据H中所有单词对文本数据P中的第i个关键词进行归正计算，e_kj表示文本数据P中所有单词对文本数据H中的第j个关键词进行归正计算，P^T为P矩阵的转置矩阵，其中文数据P和H的注意力表示分别为α^p，β^h；其中

6.根据权利要求5所述的一种产品知识融合方法，其特征在于，采用卷积神经网络对两个文本数据的词嵌入E^p和E^h分别提取局部结构信息，分别获取两个文本的局部语义矩阵：

C^p＝WideCNN(E^p)；

C^h＝WideCNN(E^h)；

7.根据权利要求6所述的一种产品知识融合方法，其特征在于，将输出结果C^h，C^p进行注意力交互计算，分别得到文本数据P和文本数据H的局部语义注意力矩阵：cnn^p，cnn^h。

其中

其中文本数据H的子注意力的计算公式和文本数据P相同，以获取两个文本的自注意力交互结果。

8.根据权利要求7所述的一种产品知识融合方法，其特征在于，将相互匹配两个文本数据P和H的上下文交互矩阵、颗粒角度注意力交互矩阵、局部语义注意力交互矩阵和自注意力交互矩阵分别进行拼接，拼接后分别形成新语义矩阵：

将新语义矩阵分别输入到BiLSTM网络中提取文本语义特征，用于获取最终的匹配结果，并根据所述最终的匹配结果构建知识图谱。

9.一种产品知识融合系统，其特征在于，所述产品知识融合系统应用上述权利要求1-8中任意一项所述的一种产品知识融合方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质保存并应用上述权利要求9所述的一种产品知识融合系统。