CN115168600B

CN115168600B - 一种个性化定制下的价值链知识发现方法

Info

Publication number: CN115168600B
Application number: CN202210715356.8A
Authority: CN
Inventors: 胡勇军; 朱柳茜
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2023-07-11
Anticipated expiration: 2042-06-23
Also published as: US20240046119A1; CN115168600A; WO2023246007A1

Abstract

本发明公开了一种个性化定制下的价值链知识发现方法，属于信息技术领域。由以下步骤组成：对给定领域文本划定价值主题，进行价值锚定种子词抽取；根据所述价值锚定种子词构建价值语义拓扑空间；对所述价值锚定种子词进行扩充，得到初始主题锚定词集；对所述初始主题锚定词进行更新，得到优化主题锚定词集；以所述优化主题锚定词为约束，获得价值语义文本的多簇网状结构表示；对多个跨领域文本进行锚定约束，构建价值链知识图谱。本发明可以提高模型对文本语料在价值链决策目标约束下的表示学习能力，并支持价值链跨领域、多主体文本语料的关联分析，以了解各主体之间的价值主张与协同程度，为产业价值链协同提供决策支持方法与工具。

Description

一种个性化定制下的价值链知识发现方法

技术领域

本发明涉及信息技术领域，更具体的说是涉及一种个性化定制下的价值链知识发现方法。

背景技术

目前的自然语言处理主流方法包括高频词分析、SOA三元组抽取、LDA主题模型、深度神经网络等，但这些方法存在着知识挖掘准确率较低、依赖预先设置词典、跨领域知识语义表示难以对齐等问题，虽然深度神经网络具有较好的效果，但该算法严重依赖设备运算能力，需要花费大量时间、语料标签等来进行建模分析，且该模型的不可解释性也严重制约了该算法的应用，因此，需要一种知识挖掘准确率高、不依赖预先设置词典、跨领域知识语义表示容易对齐、运算需求低、应用范围广的知识发现方法，船的锚定现象能够启发多源复杂创新情报的语义锚定对齐表示，通过锚定文本中的语义信息，可以有效抓取文本关键信息，从而对信息更高效地进行表示。

发明内容

有鉴于此，本发明提供了一种个性化定制下的价值链知识发现方法，通过少量标签与锚定种子词快速锁定本层主题语义，构建语义拓扑空间，利用锚定语义及拓扑持续同调技术挖掘文本核心内容从而得到文本语义主题特征，从而快速挖掘文本的知识。

为了实现上述目的，本发明提供如下技术方案：

一种个性化定制下的价值链知识发现方法，包括以下步骤：

S1、对给定领域文本划定价值主题，进行价值锚定种子词抽取；

S2、根据所述价值锚定种子词构建价值语义拓扑空间；

S3、对所述价值锚定种子词进行扩充，得到初始主题锚定词集；

S4、对所述初始主题锚定词进行更新，得到优化主题锚定词集；

S5、以所述优化主题锚定词为约束，获得价值语义文本的多簇网状结构表示；

S6、对多个跨领域文本重复步骤S1-S5进行锚定约束，构建价值链知识图谱。

优选的，步骤S1具体为：对给定领域文本进行分词得到文本词序列并划定价值主题，提取所述文本词序列中的概念名词与描述词作为初始词，利用通用文本编码方法对所述概念名词与描述词进行编码处理得到通用语料下的词文本向量，计算所述价值主题内每个初始词之间的语义距离，在每个主题中找出至少3个与其他初始词之间语义距离最近的词作为价值锚定种子词。

优选的，步骤S2具体为：计算所述价值锚定种子词与所述给定领域文本中其他词的语义距离；清除掉与所述价值锚定种子词的语义距离大于第一预设阈值的词，并通过预设拓扑持续同调参数将以所述价值锚定种子词为中心的文本度量空间转变成价值语义拓扑空间。

优选的，步骤S3具体为：在所述价值语义拓扑空间的一个价值主题中，将与主题词的语义距离小于第一预设阈值的价值锚定种子词个数作为所述主题词对所述价值锚定种子词的命中个数，根据命中个数计算所述主题词在所述价值主题内的锚定命中概率，将所述锚定命中概率大于50％的主题词作为扩充词扩充到价值锚定种子词中，获得由价值锚定种子词和扩充词形成的初始主题锚定词集。

优选的，步骤S4具体为：在所述价值语义拓扑空间的一个价值主题中，选中任一初始主题锚定词，统计选中初始主题锚定词与其他初始主题锚定词的语义距离，将与选中初始主题锚定词的语义距离小于第二预设阈值的其他初始主题锚定词个数作为命中个数，根据命中个数计算每个选中初始主题锚定词在初始主题锚定词集中的命中概率，将命中概率最高的前3个初始主题锚定词作为新的锚定种子词，以新的锚定种子词作为初始锚定种子词，重复步骤S3得到优化主题锚定词集。

优选的，步骤S5具体为：在所述价值语义拓扑空间中，计算优化主题锚定词与所述给定领域文本其他词之间的语义距离，将与优化主题锚定词语义距离小于第三预设阈值的词归入优化主题锚定词所属的价值主题，以给定的个性化定制决策目标为约束对价值主题内语义距离小于第四阈值的文本内容进行聚合，并根据时间窗口分析得到所述价值主题的演化规律；基于所述个性化定制决策目标对所述价值主题进行“主体-描述”链状结构表示，得到多链聚合的网状结构主题表示；将词与词之间的锚定命中关系转换成连接关系，以所述优化主题锚定词为约束对价值语义拓扑空间进行拓扑持续同调，调整语义拓扑空间中词连接的稠密度，如果优化主题锚定词与价值主题内相关词的连接稠密度大于与其他主题内相关词的连接稠密度，则在此基础上形成价值语义文本的多簇网状结构表示。

优选的，步骤S6具体为：在价值语义拓扑空间中，利用步骤S1-S5对其他跨领域文本语料进行锚定语义下的知识表示，基于给定决策目标对跨领域文本进行拓扑持续同调，得到跨领域文本中价值对齐的语义特征，并基于给定决策目标的语义特征抽取跨领域、多主体之间的关联关系，得到由文本为节点、文本关联关系为连接的价值链知识图谱。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于锚定语义的价值链知识发现方法，具有以下有益效果：知识挖掘准确率高、知识对决策表征的能力高、不依赖预先设置词典、跨领域知识语义易对齐、运算需求低、应用范围广；基于不同种类的文本对相同领域的描述，可以从多个态势分析事件演变规律，以专利文本和消费端评论文本为例，通过分析某一产品的专利端相关技术，挖掘行业发展技术态势和技术演变趋势，配合消费端舆论、新闻主题讨论等，把技术端发展态势与消费端需求进行结合，对该产品的创新价值链进行抽取分析，从而判断该技术应用发展前景，为决策提供支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的流程示意图；

图2为本发明的拓扑持续同构优化过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

一种个性化定制下的价值链知识发现方法，如图1所示，包括以下步骤：

S1、对给定领域文本划定价值主题，进行价值锚定种子词抽取，具体的：对给定领域文本进行分词得到文本词序列并划定价值主题，提取文本词序列中的概念名词与描述词作为初始词，利用通用文本编码方法对概念名词与描述词进行编码处理得到通用语料下的词文本向量，计算价值主题内每个初始词之间的语义距离，在每个主题中找出至少3个与其他初始词之间语义距离最近的词作为价值锚定种子词。

S2、根据价值锚定种子词构建价值语义拓扑空间，具体的：计算价值锚定种子词与给定领域文本中其他词的语义距离；清除掉与价值锚定种子词的语义距离大于第一预设阈值的词，并通过预设拓扑持续同调参数将以价值锚定种子词为中心的文本度量空间转变成价值语义拓扑空间。

S3、对价值锚定种子词进行扩充，得到初始主题锚定词集，具体的：在价值语义拓扑空间的一个价值主题中，将与主题词的语义距离小于第一预设阈值的价值锚定种子词个数作为主题词对价值锚定种子词的命中个数，根据命中个数计算主题词在价值主题内的锚定命中概率，将锚定命中概率大于50％的主题词作为扩充词扩充到价值锚定种子词中，获得由价值锚定种子词和扩充词形成的初始主题锚定词集。

S4、对初始主题锚定词进行更新，得到优化主题锚定词集，具体的：在价值语义拓扑空间的一个价值主题中，选中任一初始主题锚定词，统计选中初始主题锚定词与其他初始主题锚定词的语义距离，将与选中初始主题锚定词的语义距离小于第二预设阈值的其他初始主题锚定词个数作为命中个数，根据命中个数计算每个选中初始主题锚定词在初始主题锚定词集中的命中概率，将命中概率最高的前3个初始主题锚定词作为新的锚定种子词，以新的锚定种子词作为初始锚定种子词，重复步骤S3得到优化主题锚定词集。

S5、以优化主题锚定词为约束，获得价值语义文本的多簇网状结构表示，具体的：在价值语义拓扑空间中，计算优化主题锚定词与给定领域文本其他词之间的语义距离，将与优化主题锚定词语义距离小于第三预设阈值的词归入优化主题锚定词所属的价值主题，以给定的个性化定制决策目标为约束对价值主题内语义距离小于第四阈值的文本内容进行聚合，并根据时间窗口分析得到价值主题的演化规律；基于个性化定制决策目标对价值主题进行“主体-描述”链状结构表示，得到多链聚合的网状结构主题表示；将词与词之间的锚定命中关系转换成连接关系，以优化主题锚定词为约束对价值语义拓扑空间进行拓扑持续同调，调整语义拓扑空间中词连接的稠密度，如果优化主题锚定词与价值主题内相关词的连接稠密度大于与其他主题内相关词的连接稠密度，则在此基础上形成价值语义文本的多簇网状结构表示。

S6、对多个跨领域文本重复步骤S1-S5进行锚定约束，构建价值链知识图谱，具体的：在价值语义拓扑空间中，利用步骤S1-S5对其他跨领域文本语料进行锚定语义下的知识表示，基于给定决策目标对跨领域文本进行拓扑持续同调，得到跨领域文本中价值对齐的语义特征，并基于给定决策目标的语义特征抽取跨领域、多主体之间的关联关系，得到由文本为节点、文本关联关系为连接的价值链知识图谱。

实施例二：

本发明实施例公开了一种个性化定制下的价值链知识发现方法，以分析刀剪商品的个性化定制生产为例，包括以下步骤：

S1、对某一给定领域文本进行价值锚定种子词抽取；

对刀剪生产工艺技术文本进行脱敏，并分词，得到文本词序列。划定决策目标主题如：耐用性、安全性、舒适性、清洁性等，对少量专利文本进行标注，进行词性提取，得到主题的概念名词和描述词集合，利用通用文本编码方法对概念名词与描述词进行编码处理得到通用语料下的词文本向量，通过计算主题内词与词之间的距离，在每个主题下至少3个具有语义距离最近的价值锚定种子词，例如“耐用性”主题选定以下种子词：刀面、不锈钢、切割；“安全性”主题选定以下种子词：保护、收缩、外壳。

S2、根据价值锚定种子词构建文本语义拓扑空间；

计算各主题的锚定种子词与给定文本中其他词的语义距离；清除掉与锚定种子词在给定语义距离范围以外的词，并通过给定的拓扑持续同调参数将以锚定种子词为中心的文本度量空间转变成价值语义拓扑空间，具体如图2所示。

S3、对价值锚定种子词进行扩充，得到初始的主题锚定词集；

在文本语义拓扑空间的一个主题中，如主题“耐用性”，将其中一个主题词“缺口”与该主题的3个种子词进行语义距离测度，若“缺口”与过半数种子词(即2个及以上)的语义距离都小于给定阈值d₁，则认为“缺口”命中了该主题，可以作为价值锚定种子词的扩充词；对“耐用性”主题中的每个词都进行上述操作，最终得到初始的主题锚定词集。

S4、对锚定种子词进行更新，得到优化的主题锚定词集；

在上述所得“耐用性”主题中初始锚定词集的任一词，如“缺口”，计算它与其他锚定词的语义距离，统计“缺口”与锚定词集中小于给定语义距离阈值d₁的锚定词的个数，并计算语义距离内锚定词个数对锚定词集总数的占比形成“缺口”的命中概率；对主题锚定词集的每一个词都进行命中概率计算，将命中概率最高的前3个词作为新的锚定种子词，并在此基础上，重复初始主题锚定词的确定方法得到优化的主题锚定词。

S5、建立锚定约束下的价值语义文本表示结构；

在价值语义拓扑空间中，计算“耐用性”主题锚定词与其他刀剪专利文本内容之间的语义距离，如在一条最新的刀剪专利文本中出现了“耐磨”与主题锚定词内的“磨损”语义距离接近，则可以把“耐磨”归入“耐用性”主题；以刀剪产业的技术创新优化为决策目标，对“耐用性”主题中的文本进行融合关联分析，并根据主题锚定词的语义特征得出例如“刀口-耐磨”、“不锈钢-抗氧化”的多链组成的网状结构表示；进而以主题锚定词为约束对价值语义拓扑空间进行持续同调，以进行各主题之间的离散化处理，如将“耐用性”主题和“安全性”主题之间的词的连接砍少，提高主题之间的区分度，使文本呈现各主题内部高度聚合、其间稀疏连接的多簇网状结构。

S6、对多个跨领域文本进行锚定约束，构建价值链知识图谱

在价值语义拓扑空间中，以上述同样的步骤对另一领域文本——刀剪商品评论文本进行以消费需求挖掘为决策目标的锚定语义表示，从而形成刀剪产业“生产技术-消费需求”的价值链跨领域文本数据基础；进而在价值语义拓扑空间中以刀剪产品的个性化定制为决策目标进行跨领域文本的拓扑持续同调，得到跨领域文本中与决策目标语义较为一致的价值对齐语义特征，如专利文本和评论文本都关注了刀剪的“质量”、“安全性”、“外观”等关键语义，并基于该语义特征抽取跨领域文本中多元主体之间的关联关系，最终形成由文本内容为节点、文本之间的关联关系为连接的价值链知识图谱，能够帮助刀剪生产企业基于自身技术优势对用户个性化需求进行快速产品定制。

对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种个性化定制下的价值链知识发现方法，其特征在于，包括以下步骤：

S2、根据所述价值锚定种子词构建价值语义拓扑空间；

S6、对多个跨领域文本重复步骤S1-S5进行锚定约束，构建价值链知识图谱；

S1具体为：对给定领域文本进行分词得到文本词序列并划定价值主题，提取所述文本词序列中的概念名词与描述词作为初始词，利用通用文本编码方法对所述概念名词与描述词进行编码处理得到通用语料下的词文本向量，计算所述价值主题内每个初始词之间的语义距离，在每个主题中找出至少3个与其他初始词之间语义距离最近的词作为价值锚定种子词；

S2具体为：计算所述价值锚定种子词与所述给定领域文本中其他词的语义距离；清除掉与所述价值锚定种子词的语义距离大于第一预设阈值的词，并通过预设拓扑持续同调参数将以所述价值锚定种子词为中心的文本度量空间转变成价值语义拓扑空间；

步骤S4具体为：在所述价值语义拓扑空间的一个价值主题中，选中任一初始主题锚定词，统计选中初始主题锚定词与其他初始主题锚定词的语义距离，将与选中初始主题锚定词的语义距离小于第二预设阈值的其他初始主题锚定词个数作为命中个数，根据命中个数计算每个选中初始主题锚定词在初始主题锚定词集中的命中概率，将命中概率最高的前3个初始主题锚定词作为新的锚定种子词，以新的锚定种子词作为初始锚定种子词，重复步骤S3得到优化主题锚定词集；

步骤S5具体为：在所述价值语义拓扑空间中，计算优化主题锚定词与所述给定领域文本其他词之间的语义距离，将与优化主题锚定词语义距离小于第三预设阈值的词归入优化主题锚定词所属的价值主题，以给定的个性化定制决策目标为约束对价值主题内语义距离小于第四阈值的文本内容进行聚合，并根据时间窗口分析得到所述价值主题的演化规律；基于所述个性化定制决策目标对所述价值主题进行“主体-描述”链状结构表示，得到多链聚合的网状结构主题表示；将词与词之间的锚定命中关系转换成连接关系，以所述优化主题锚定词为约束对价值语义拓扑空间进行拓扑持续同调，调整语义拓扑空间中词连接的稠密度，如果优化主题锚定词与价值主题内相关词的连接稠密度大于与其他主题内相关词的连接稠密度，则在此基础上形成价值语义文本的多簇网状结构表示；

步骤S6具体为：在价值语义拓扑空间中，利用步骤S1-S5对其他跨领域文本语料进行锚定语义下的知识表示，基于给定决策目标对跨领域文本进行拓扑持续同调，得到跨领域文本中价值对齐的语义特征，并基于给定决策目标的语义特征抽取跨领域、多主体之间的关联关系，得到由文本为节点、文本关联关系为连接的价值链知识图谱。

2.根据权利要求1所述的一种个性化定制下的价值链知识发现方法，其特征在于，步骤S3具体为：在所述价值语义拓扑空间的一个价值主题中，将与主题词的语义距离小于第一预设阈值的价值锚定种子词个数作为所述主题词对所述价值锚定种子词的命中个数，根据命中个数计算所述主题词在所述价值主题内的锚定命中概率，将所述锚定命中概率大于50%的主题词作为扩充词扩充到价值锚定种子词中，获得由价值锚定种子词和扩充词形成的初始主题锚定词集。