CN117407835A

CN117407835A - 一种数据要素需求挖掘方法

Info

Publication number: CN117407835A
Application number: CN202311727759.5A
Authority: CN
Inventors: 徐锴; 彭真; 曹晔; 漆加丽; 梁晓蓉; 张婷
Original assignee: Sichuan Eli Digital City Technology Co ltd
Current assignee: Sichuan Eli Digital City Technology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-16
Anticipated expiration: 2043-12-15
Also published as: CN117407835B

Abstract

本发明公开了一种数据要素需求挖掘方法，属于数据要素需求挖掘技术领域，包括以下步骤：定义所有行业语料库以及数据要素语料库；采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注；根据已标注的语料库训练隐尔马可夫模型；根据维特比算法，使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字，得到命名实体关键字集合；生成数据要素关键字向量与行业关键字向量；计算数据要素关键字向量与行业关键字向量的匹配相似度，完成数据要素需求挖掘。本发明解决了现有技术无法全面、精准挖掘和分析数据要素需求，也无法对数据要素需求的主体进行分析的问题。

Description

一种数据要素需求挖掘方法

技术领域

本发明属于数据要素需求挖掘技术领域，具体涉及一种数据要素需求挖掘方法。

背景技术

随着全球数字经济进入蓬勃发展时期，数据已成为全新的资产和新的关键生产要素。数据要素正在为企业经营决策、新商品创造、新业务拓展的重要生产资源，并为国家治理带来全新手段。国家正在开展数据要素市场化配置改革，出台相应政策引导鼓励培育多方市场参与者以更好的发挥数据利用价值，实现供需双方的高效匹配。

然而，由于数据要素需求是结合行业应用具体场景的非常高度定制化的，导致数据要素供应方难以掌握并提供出符合需求的数据产品或服务。因此，在数据要素流通交易环境中，已经出现了大量市场主体掌握着原始数据资源，但不知道如何向数据需求方提供合格数据产品，甚至不知道自己的数据可以被哪些市场主体所需要的现象。

目前数据要素市场化配置改革才刚刚提出来没有几年，研究数据要素需求挖掘的方法成果还没有发现，而将技术方法扩展到研究“需求挖掘”，方法主要有四种。

一种是建立需求目录，由需求方按照规范要求填写从而获得需求，该方法必须有明确的需求方，且要求需求方对自身需求属性非常了解，因此不具备需求挖掘的发现性。

第二种是先对收集到的数据需求进行标注处理，提取实体元素、关系元素和属性元素，构建知识图谱用于检索和与供应数据进行配对，该方法的前提是数据需求已经明确，因此也不具备需求挖掘的发现性。

第三种是需要先由人工录入关键句视为获取重点文本数据开始和结束的标志性语句进行特征标记，并通过预先设定的N类需求且每类需求中包含M个关键词进行识别，此方法受限于预设条件和人工标注的丰富程度，容易造成需求挖掘不完整，缺乏需求挖掘的完整性和通用性。

第四种是通过获取原始资料，基于扎根理论对原始资料进行抽象和提炼从而获得需求，包括对原始资料进行分词，得到对应词组集合，过滤无用词组，并根据预先建立的关键词组筛选出多个关键词组，然后建立知识图谱，该方法受限于关键词组库的丰富程度，容易造成需求挖掘不完整和方向性偏移。

综上四种方法，均无法全面、精准挖掘和分析数据要素需求，也无法对数据要素需求的主体进行分析。本发明提供的挖掘方法，可以较好得帮助拥有数据资源的市场主体分析市场对数据要素的需求，帮助实现自身数据的价值转化；帮助优化数据要素市场化配置，推动数据要素流通和以数据要素为基本生产要素的数字经济发展，具有极大的现实意义、迫切性和社会、经济价值。

发明内容

本发明提供了一种数据要素需求挖掘方法，解决了现有技术无法全面、精准挖掘和分析数据要素需求，也无法对数据要素需求的主体进行分析的问题。

为了解决上述技术问题，本发明的技术方案为：一种数据要素需求挖掘方法，包括以下步骤：

S1、整理行业数据文本和数据要素文本，并定义所有行业语料库以及数据要素语料库；

S2、采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注；

S3、根据已标注的语料库训练隐尔马可夫模型；

S4、根据维特比算法，使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字，得到命名实体关键字集合；

S5、处理命名实体关键字集合中的信息，生成数据要素关键字向量与行业关键字向量；

S6、采用余弦相似度计算数据要素关键字向量与行业关键字向量的匹配相似度，得到数据要素与行业用户需求的匹配度，完成数据要素需求挖掘。

进一步地，所述S1的具体步骤为：

S11、定义所有行业集合H，并对每个行业提取行业数据文本，构成所有行业语料库，其中，所有行业集合H中每个元素代表一个行业；

S12、定义所有数据要素集合S，其中，所有数据要素集合S中的每个元素代表一条数据要素；

S13、为所有数据要素集合S中的每条数据要素整理相应的数据要素文本，构成数据要素语料库。

进一步地，所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定，其中，初始状态分布P为每一个标注作为句子第一个字的标注的概率，状态转移概率矩阵A为由某一个标注转移到下一个标注的概率，观测概率矩阵B为在某个标注下生成某个词的概率；所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。

进一步地，所述S4的具体步骤为：

S41、根据维特比算法，使用隐尔马可夫模型提取所有行业数据文本中的行业关键字，并生成行业关键字集合WA，其中，行业关键字集合WA中的每个元素代表一个行业数据文本中提取的所有行业关键字构成的数组；

S42、根据维特比算法，使用隐尔马可夫模型提取所有数据要素文本中的数据要素关键字，并生成数据要素关键字集合WB，其中，数据要素关键字集合WB中的每个元素代表一个数据要素文本中提取的所有数据要素关键字构成的数组；

S43、通过行业关键字集合WA和数据要素关键字集合WB，构成命名实体关键字集合AllKeys。

进一步地，所述S5的具体步骤为：

S51、使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值；

S52、使用TF-IDF算法计算数据要素关键字集合WB中的每个元素中数据要素关键字的TF-IDF值；

S53、根据命名实体关键字集合AllKeys，生成第m条数据要素对应的数据要素关键字向量/>，并将数据要素关键字向量/>归一化，变为单位向量；

S54、根据命名实体关键字集合AllKeys，生成第n个行业对应的行业关键字向量，并将行业关键字向量/>归一化，变为单位向量。

进一步地，所述S51中行业关键字的TF-IDF值的计算公式为：

其中，表示行业关键字在所有行业中出现的普遍程度，/>表示所有行业语料库中的行业数据文本总数，/>表示包含行业关键字/>的文本数目，/>表示第/>个行业数据文本，/>表示行业关键字的TF-IDF值，/>表示行业关键字在某个行业数据文本中出现的频率；

所述S52中数据要素关键字的TF-IDF值的计算公式为：

其中，表示数据要素关键字在所有数据要素中出现的普遍程度，/>表示数据要素语料库中的数据要素文本总数，/>表示包含数据要素关键字/>的文本数目，/>表示第/>个数据要素文本，/>表示数据要素关键字的TF-IDF值，/>表示数据要素关键字在某个数据要素文本中出现的频率。

进一步地，所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成；所述数据要素关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定，若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在，则用对应数据要素关键字的TF-IDF值作为数据要素关键字向量/>中元素的值，否则取0；

所述行业关键字向量由一个行业的所有行业关键字构成；所述行业关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定，若一个行业的行业关键字在某个行业提取的行业关键字中存在，则用对应行业关键字的TF-IDF值作为行业关键字向量中元素的值，否则取0。

进一步地，所述S6的具体步骤为：

S61、采用余弦相似度计算第m个数据要素对应的数据要素关键字向量/>与第n个行业/>对应的行业关键字向量/>的匹配相似度res1；

S62、通过匹配相似度res1表示第n个行业与第m条数据要素的匹配度，当匹配相似度res1越大，表明该数据要素与该行业用户需求的匹配度越高，完成数据要素需求挖掘。

本发明的有益效果是：（1）构建专业领域的语料库，确保数据的多样性，能够提高模型的适应和泛化能力，提高隐尔马可夫模型的性能，使其适用于多个行业。

（2）通过隐马尔可夫模型进行命名实体识别，能够很好的建模数据中的依赖关系，能够捕捉实体在文本中的上下文关系，同时隐马尔可夫模型的参数根据语料库进行调整，可以提高模型的性能，并使用TF-IDF统计结果生成行业关键字向量，以此与行业需求做匹配，能够增强其准确性。

（3）采用维特比算法求解隐尔马可夫模型，能够高效准确地在行业数据文本和数据要素文本中有效提取实体，并且能够降低计算的复杂程度。

（4）生成数据要素关键字向量与行业关键字向量，有助于将文本数据转化为数字表示，通过计算数据要素关键字向量与行业关键字向量之间的相似度，将文本数据的数据要素与指定行业的用户需求进行匹配，能够全面精准地挖掘和分析数据要素需求，对数据要素需求的主体进行分析。

附图说明

图1为本发明数据要素需求挖掘方法的流程图。

具体实施方式

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

实施例

如图1所示，本发明提供了一种数据要素需求挖掘方法，包括以下步骤：

S3、根据已标注的语料库训练隐尔马可夫模型；

所述S1的具体步骤为：

本实施例中，每个行业都需要收集整理语料库，这些语料文本可以在对应行业的期刊论文中提取。

而数据要素定义为表格、文本或相关图形视频的描述信息，所有信息以数字化的形式保存，数据要素必须要具有文本信息作为数据要素的内容或描述信息。

本实施例采用BIOES法对所有行业语料库以及数据要素语料库进行标注，其中，B表示实体开头，E表示实体结尾，I表示在实体内部，O表示非实体，S表示单个字符，本身就是一个实体，句子之间用一个空行隔开。

本实施例采用已标注的语料库训练隐尔马可夫模型，隐尔马可夫模型是命名实体识别模型的一种，可以用来做命名实体识别，隐尔马可夫模型描述的就是隐状态序列(即实体标记序列)生成可观测结果(即人可读的原始语料文本序列)的过程。因为实体标注序列实际可能性有很多种，所以需要维特比算法来找到概率最大路径，也就是最优路径，来找到文本所对应的最优的实体标注序列。

所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定，其中，初始状态分布P为每一个标注作为句子第一个字的标注的概率，状态转移概率矩阵A为由某一个标注转移到下一个标注的概率，观测概率矩阵B为在某个标注下生成某个词的概率；所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。

本实施例中，采用隐马尔可夫模型进行命名实体识别，隐马尔可夫模型描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫模型由初始状态分布P，状态转移概率矩阵A，以及观测概率矩阵B所确定。隐马尔可夫模型的训练，即根据已标注的语料库对模型参数进行估计，因为有观测序列以及其对应的状态序列，所以我们可以使用极大似然估计的方法来估计隐马尔可夫模型的参数。

所述S4的具体步骤为：

所述S5的具体步骤为：

所述S51中行业关键字的TF-IDF值的计算公式为：

所述S52中数据要素关键字的TF-IDF值的计算公式为：

所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成；所述数据要素关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定，若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在，则用对应数据要素关键字的TF-IDF值作为数据要素关键字向量/>中元素的值，否则取0；

本实施例中，使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值，其中，一个行业关键字对应一个TF-IDF值，一个行业的所有行业关键字构成一个TF-IDF向量，即，行业关键字向量，同理，一个数据要素关键字对应一个TF-IDF值，一个数据要素的所有数据要素关键字构成一个TF-IDF向量，即，数据要素关键字向量/>。

同时，生成数据要素关键字向量和行业关键字向量/>时，数据要素关键字向量/>和行业关键字向量/>中的每个元素的取值分两种情况讨论，如上述所示，其中，取0是因为可能存在数据要素关键字在指定数据要素中没有的情况，为保持数据要素关键字向量/>的长度不变，用0占位，或者行业关键字在指定行业中没有的情况，为保持行业关键字向量/>的长度不变，用0占位。例如，“血液”在医学行业较为常见，但不是所有涉及医学行业的文本都会有“血液”这个词。

所述S6的具体步骤为：

本实施例中，本实施例采用余弦相似度计算匹配相似度res1，匹配相似度res1的值在范围-1到1之间，越靠近1则表示越符合需求，越靠近-1则表示则越不符合需求。

因此，本发明通过收集整理行业语料库和数据要素语料库，通过隐马尔可夫模型和维特比算法，从文本中准确提取命名实体，通过生成TF-IDF向量并计算匹配相似度，完成数据要素需求挖掘，可以较好得帮助拥有数据资源的市场主体分析市场对数据要素的需求，帮助实现自身数据的价值转化，同时帮助优化数据要素市场化配置，推动数据要素流通和以数据要素为基本生产要素的数字经济发展，具有极大的现实意义、迫切性和社会、经济价值。

Claims

1.一种数据要素需求挖掘方法，其特征在于，包括以下步骤：

S3、根据已标注的语料库训练隐尔马可夫模型；

2.根据权利要求1所述的数据要素需求挖掘方法，其特征在于，所述S1的具体步骤为：

3.根据权利要求1所述的数据要素需求挖掘方法，其特征在于，所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定，其中，初始状态分布P为每一个标注作为句子第一个字的标注的概率，状态转移概率矩阵A为由某一个标注转移到下一个标注的概率，观测概率矩阵B为在某个标注下生成某个词的概率；所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。

4.根据权利要求1所述的数据要素需求挖掘方法，其特征在于，所述S4的具体步骤为：

5.根据权利要求4所述的数据要素需求挖掘方法，其特征在于，所述S5的具体步骤为：

S54、根据命名实体关键字集合AllKeys，生成第n个行业对应的行业关键字向量/>，并将行业关键字向量/>归一化，变为单位向量。

6.根据权利要求5所述的数据要素需求挖掘方法，其特征在于，所述S51中行业关键字的TF-IDF值的计算公式为：

所述S52中数据要素关键字的TF-IDF值的计算公式为：

7.根据权利要求5所述的数据要素需求挖掘方法，其特征在于，所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成；所述数据要素关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定，若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在，则用对应数据要素关键字的TF-IDF值作为数据要素关键字向量/>中元素的值，否则取0；

所述行业关键字向量由一个行业的所有行业关键字构成；所述行业关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定，若一个行业的行业关键字在某个行业提取的行业关键字中存在，则用对应行业关键字的TF-IDF值作为行业关键字向量/>中元素的值，否则取0。

8.根据权利要求5所述的数据要素需求挖掘方法，其特征在于，所述S6的具体步骤为：