CN117407835A - 一种数据要素需求挖掘方法 - Google Patents
一种数据要素需求挖掘方法 Download PDFInfo
- Publication number
- CN117407835A CN117407835A CN202311727759.5A CN202311727759A CN117407835A CN 117407835 A CN117407835 A CN 117407835A CN 202311727759 A CN202311727759 A CN 202311727759A CN 117407835 A CN117407835 A CN 117407835A
- Authority
- CN
- China
- Prior art keywords
- data element
- industry
- keyword
- data
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005065 mining Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 14
- 101100194362 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res1 gene Proteins 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003698 anagen phase Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据要素需求挖掘方法,属于数据要素需求挖掘技术领域,包括以下步骤:定义所有行业语料库以及数据要素语料库;采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注;根据已标注的语料库训练隐尔马可夫模型;根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;生成数据要素关键字向量与行业关键字向量;计算数据要素关键字向量与行业关键字向量的匹配相似度,完成数据要素需求挖掘。本发明解决了现有技术无法全面、精准挖掘和分析数据要素需求,也无法对数据要素需求的主体进行分析的问题。
Description
技术领域
本发明属于数据要素需求挖掘技术领域,具体涉及一种数据要素需求挖掘方法。
背景技术
随着全球数字经济进入蓬勃发展时期,数据已成为全新的资产和新的关键生产要素。数据要素正在为企业经营决策、新商品创造、新业务拓展的重要生产资源,并为国家治理带来全新手段。国家正在开展数据要素市场化配置改革,出台相应政策引导鼓励培育多方市场参与者以更好的发挥数据利用价值,实现供需双方的高效匹配。
然而,由于数据要素需求是结合行业应用具体场景的非常高度定制化的,导致数据要素供应方难以掌握并提供出符合需求的数据产品或服务。因此,在数据要素流通交易环境中,已经出现了大量市场主体掌握着原始数据资源,但不知道如何向数据需求方提供合格数据产品,甚至不知道自己的数据可以被哪些市场主体所需要的现象。
目前数据要素市场化配置改革才刚刚提出来没有几年,研究数据要素需求挖掘的方法成果还没有发现,而将技术方法扩展到研究“需求挖掘”,方法主要有四种。
一种是建立需求目录,由需求方按照规范要求填写从而获得需求,该方法必须有明确的需求方,且要求需求方对自身需求属性非常了解,因此不具备需求挖掘的发现性。
第二种是先对收集到的数据需求进行标注处理,提取实体元素、关系元素和属性元素,构建知识图谱用于检索和与供应数据进行配对,该方法的前提是数据需求已经明确,因此也不具备需求挖掘的发现性。
第三种是需要先由人工录入关键句视为获取重点文本数据开始和结束的标志性语句进行特征标记,并通过预先设定的N类需求且每类需求中包含M个关键词进行识别,此方法受限于预设条件和人工标注的丰富程度,容易造成需求挖掘不完整,缺乏需求挖掘的完整性和通用性。
第四种是通过获取原始资料,基于扎根理论对原始资料进行抽象和提炼从而获得需求,包括对原始资料进行分词,得到对应词组集合,过滤无用词组,并根据预先建立的关键词组筛选出多个关键词组,然后建立知识图谱,该方法受限于关键词组库的丰富程度,容易造成需求挖掘不完整和方向性偏移。
综上四种方法,均无法全面、精准挖掘和分析数据要素需求,也无法对数据要素需求的主体进行分析。本发明提供的挖掘方法,可以较好得帮助拥有数据资源的市场主体分析市场对数据要素的需求,帮助实现自身数据的价值转化;帮助优化数据要素市场化配置,推动数据要素流通和以数据要素为基本生产要素的数字经济发展,具有极大的现实意义、迫切性和社会、经济价值。
发明内容
本发明提供了一种数据要素需求挖掘方法,解决了现有技术无法全面、精准挖掘和分析数据要素需求,也无法对数据要素需求的主体进行分析的问题。
为了解决上述技术问题,本发明的技术方案为:一种数据要素需求挖掘方法,包括以下步骤:
S1、整理行业数据文本和数据要素文本,并定义所有行业语料库以及数据要素语料库;
S2、采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注;
S3、根据已标注的语料库训练隐尔马可夫模型;
S4、根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;
S5、处理命名实体关键字集合中的信息,生成数据要素关键字向量与行业关键字向量;
S6、采用余弦相似度计算数据要素关键字向量与行业关键字向量的匹配相似度,得到数据要素与行业用户需求的匹配度,完成数据要素需求挖掘。
进一步地,所述S1的具体步骤为:
S11、定义所有行业集合H,并对每个行业提取行业数据文本,构成所有行业语料库,其中,所有行业集合H中每个元素代表一个行业;
S12、定义所有数据要素集合S,其中,所有数据要素集合S中的每个元素代表一条数据要素;
S13、为所有数据要素集合S中的每条数据要素整理相应的数据要素文本,构成数据要素语料库。
进一步地,所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定,其中,初始状态分布P为每一个标注作为句子第一个字的标注的概率,状态转移概率矩阵A为由某一个标注转移到下一个标注的概率,观测概率矩阵B为在某个标注下生成某个词的概率;所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。
进一步地,所述S4的具体步骤为:
S41、根据维特比算法,使用隐尔马可夫模型提取所有行业数据文本中的行业关键字,并生成行业关键字集合WA,其中,行业关键字集合WA中的每个元素代表一个行业数据文本中提取的所有行业关键字构成的数组;
S42、根据维特比算法,使用隐尔马可夫模型提取所有数据要素文本中的数据要素关键字,并生成数据要素关键字集合WB,其中,数据要素关键字集合WB中的每个元素代表一个数据要素文本中提取的所有数据要素关键字构成的数组;
S43、通过行业关键字集合WA和数据要素关键字集合WB,构成命名实体关键字集合AllKeys。
进一步地,所述S5的具体步骤为:
S51、使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值;
S52、使用TF-IDF算法计算数据要素关键字集合WB中的每个元素中数据要素关键字的TF-IDF值;
S53、根据命名实体关键字集合AllKeys,生成第m条数据要素对应的数据要素关键字向量/>,并将数据要素关键字向量/>归一化,变为单位向量;
S54、根据命名实体关键字集合AllKeys,生成第n个行业对应的行业关键字向量,并将行业关键字向量/>归一化,变为单位向量。
进一步地,所述S51中行业关键字的TF-IDF值的计算公式为:
其中,表示行业关键字在所有行业中出现的普遍程度,/>表示所有行业语料库中的行业数据文本总数,/>表示包含行业关键字/>的文本数目,/>表示第/>个行业数据文本,/>表示行业关键字的TF-IDF值,/>表示行业关键字在某个行业数据文本中出现的频率;
所述S52中数据要素关键字的TF-IDF值的计算公式为:
其中,表示数据要素关键字在所有数据要素中出现的普遍程度,/>表示数据要素语料库中的数据要素文本总数,/>表示包含数据要素关键字/>的文本数目,/>表示第/>个数据要素文本,/>表示数据要素关键字的TF-IDF值,/>表示数据要素关键字在某个数据要素文本中出现的频率。
进一步地,所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成;所述数据要素关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定,若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在,则用对应数据要素关键字的TF-IDF值作为数据要素关键字向量/>中元素的值,否则取0;
所述行业关键字向量由一个行业的所有行业关键字构成;所述行业关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定,若一个行业的行业关键字在某个行业提取的行业关键字中存在,则用对应行业关键字的TF-IDF值作为行业关键字向量中元素的值,否则取0。
进一步地,所述S6的具体步骤为:
S61、采用余弦相似度计算第m个数据要素对应的数据要素关键字向量/>与第n个行业/>对应的行业关键字向量/>的匹配相似度res1;
S62、通过匹配相似度res1表示第n个行业与第m条数据要素的匹配度,当匹配相似度res1越大,表明该数据要素与该行业用户需求的匹配度越高,完成数据要素需求挖掘。
本发明的有益效果是:(1)构建专业领域的语料库,确保数据的多样性,能够提高模型的适应和泛化能力,提高隐尔马可夫模型的性能,使其适用于多个行业。
(2)通过隐马尔可夫模型进行命名实体识别,能够很好的建模数据中的依赖关系,能够捕捉实体在文本中的上下文关系,同时隐马尔可夫模型的参数根据语料库进行调整,可以提高模型的性能,并使用TF-IDF统计结果生成行业关键字向量,以此与行业需求做匹配,能够增强其准确性。
(3)采用维特比算法求解隐尔马可夫模型,能够高效准确地在行业数据文本和数据要素文本中有效提取实体,并且能够降低计算的复杂程度。
(4)生成数据要素关键字向量与行业关键字向量,有助于将文本数据转化为数字表示,通过计算数据要素关键字向量与行业关键字向量之间的相似度,将文本数据的数据要素与指定行业的用户需求进行匹配,能够全面精准地挖掘和分析数据要素需求,对数据要素需求的主体进行分析。
附图说明
图1为本发明数据要素需求挖掘方法的流程图。
具体实施方式
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
实施例
如图1所示,本发明提供了一种数据要素需求挖掘方法,包括以下步骤:
S1、整理行业数据文本和数据要素文本,并定义所有行业语料库以及数据要素语料库;
S2、采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注;
S3、根据已标注的语料库训练隐尔马可夫模型;
S4、根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;
S5、处理命名实体关键字集合中的信息,生成数据要素关键字向量与行业关键字向量;
S6、采用余弦相似度计算数据要素关键字向量与行业关键字向量的匹配相似度,得到数据要素与行业用户需求的匹配度,完成数据要素需求挖掘。
所述S1的具体步骤为:
S11、定义所有行业集合H,并对每个行业提取行业数据文本,构成所有行业语料库,其中,所有行业集合H中每个元素代表一个行业;
S12、定义所有数据要素集合S,其中,所有数据要素集合S中的每个元素代表一条数据要素;
S13、为所有数据要素集合S中的每条数据要素整理相应的数据要素文本,构成数据要素语料库。
本实施例中,每个行业都需要收集整理语料库,这些语料文本可以在对应行业的期刊论文中提取。
而数据要素定义为表格、文本或相关图形视频的描述信息,所有信息以数字化的形式保存,数据要素必须要具有文本信息作为数据要素的内容或描述信息。
本实施例采用BIOES法对所有行业语料库以及数据要素语料库进行标注,其中,B表示实体开头,E表示实体结尾,I表示在实体内部,O表示非实体,S表示单个字符,本身就是一个实体,句子之间用一个空行隔开。
本实施例采用已标注的语料库训练隐尔马可夫模型,隐尔马可夫模型是命名实体识别模型的一种,可以用来做命名实体识别,隐尔马可夫模型描述的就是隐状态序列(即实体标记序列)生成可观测结果(即人可读的原始语料文本序列)的过程。因为实体标注序列实际可能性有很多种,所以需要维特比算法来找到概率最大路径,也就是最优路径,来找到文本所对应的最优的实体标注序列。
所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定,其中,初始状态分布P为每一个标注作为句子第一个字的标注的概率,状态转移概率矩阵A为由某一个标注转移到下一个标注的概率,观测概率矩阵B为在某个标注下生成某个词的概率;所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。
本实施例中,采用隐马尔可夫模型进行命名实体识别,隐马尔可夫模型描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫模型由初始状态分布P,状态转移概率矩阵A,以及观测概率矩阵B所确定。隐马尔可夫模型的训练,即根据已标注的语料库对模型参数进行估计,因为有观测序列以及其对应的状态序列,所以我们可以使用极大似然估计的方法来估计隐马尔可夫模型的参数。
所述S4的具体步骤为:
S41、根据维特比算法,使用隐尔马可夫模型提取所有行业数据文本中的行业关键字,并生成行业关键字集合WA,其中,行业关键字集合WA中的每个元素代表一个行业数据文本中提取的所有行业关键字构成的数组;
S42、根据维特比算法,使用隐尔马可夫模型提取所有数据要素文本中的数据要素关键字,并生成数据要素关键字集合WB,其中,数据要素关键字集合WB中的每个元素代表一个数据要素文本中提取的所有数据要素关键字构成的数组;
S43、通过行业关键字集合WA和数据要素关键字集合WB,构成命名实体关键字集合AllKeys。
所述S5的具体步骤为:
S51、使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值;
S52、使用TF-IDF算法计算数据要素关键字集合WB中的每个元素中数据要素关键字的TF-IDF值;
S53、根据命名实体关键字集合AllKeys,生成第m条数据要素对应的数据要素关键字向量/>,并将数据要素关键字向量/>归一化,变为单位向量;
S54、根据命名实体关键字集合AllKeys,生成第n个行业对应的行业关键字向量,并将行业关键字向量/>归一化,变为单位向量。
所述S51中行业关键字的TF-IDF值的计算公式为:
其中,表示行业关键字在所有行业中出现的普遍程度,/>表示所有行业语料库中的行业数据文本总数,/>表示包含行业关键字/>的文本数目,/>表示第/>个行业数据文本,/>表示行业关键字的TF-IDF值,/>表示行业关键字在某个行业数据文本中出现的频率;
所述S52中数据要素关键字的TF-IDF值的计算公式为:
其中,表示数据要素关键字在所有数据要素中出现的普遍程度,/>表示数据要素语料库中的数据要素文本总数,/>表示包含数据要素关键字/>的文本数目,/>表示第/>个数据要素文本,/>表示数据要素关键字的TF-IDF值,/>表示数据要素关键字在某个数据要素文本中出现的频率。
所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成;所述数据要素关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定,若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在,则用对应数据要素关键字的TF-IDF值作为数据要素关键字向量/>中元素的值,否则取0;
所述行业关键字向量由一个行业的所有行业关键字构成;所述行业关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定,若一个行业的行业关键字在某个行业提取的行业关键字中存在,则用对应行业关键字的TF-IDF值作为行业关键字向量中元素的值,否则取0。
本实施例中,使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值,其中,一个行业关键字对应一个TF-IDF值,一个行业的所有行业关键字构成一个TF-IDF向量,即,行业关键字向量,同理,一个数据要素关键字对应一个TF-IDF值,一个数据要素的所有数据要素关键字构成一个TF-IDF向量,即,数据要素关键字向量/>。
同时,生成数据要素关键字向量和行业关键字向量/>时,数据要素关键字向量/>和行业关键字向量/>中的每个元素的取值分两种情况讨论,如上述所示,其中,取0是因为可能存在数据要素关键字在指定数据要素中没有的情况,为保持数据要素关键字向量/>的长度不变,用0占位,或者行业关键字在指定行业中没有的情况,为保持行业关键字向量/>的长度不变,用0占位。例如,“血液”在医学行业较为常见,但不是所有涉及医学行业的文本都会有“血液”这个词。
所述S6的具体步骤为:
S61、采用余弦相似度计算第m个数据要素对应的数据要素关键字向量/>与第n个行业/>对应的行业关键字向量/>的匹配相似度res1;
S62、通过匹配相似度res1表示第n个行业与第m条数据要素的匹配度,当匹配相似度res1越大,表明该数据要素与该行业用户需求的匹配度越高,完成数据要素需求挖掘。
本实施例中,本实施例采用余弦相似度计算匹配相似度res1,匹配相似度res1的值在范围-1到1之间,越靠近1则表示越符合需求,越靠近-1则表示则越不符合需求。
因此,本发明通过收集整理行业语料库和数据要素语料库,通过隐马尔可夫模型和维特比算法,从文本中准确提取命名实体,通过生成TF-IDF向量并计算匹配相似度,完成数据要素需求挖掘,可以较好得帮助拥有数据资源的市场主体分析市场对数据要素的需求,帮助实现自身数据的价值转化,同时帮助优化数据要素市场化配置,推动数据要素流通和以数据要素为基本生产要素的数字经济发展,具有极大的现实意义、迫切性和社会、经济价值。
Claims (8)
1.一种数据要素需求挖掘方法,其特征在于,包括以下步骤:
S1、整理行业数据文本和数据要素文本,并定义所有行业语料库以及数据要素语料库;
S2、采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注;
S3、根据已标注的语料库训练隐尔马可夫模型;
S4、根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;
S5、处理命名实体关键字集合中的信息,生成数据要素关键字向量与行业关键字向量;
S6、采用余弦相似度计算数据要素关键字向量与行业关键字向量的匹配相似度,得到数据要素与行业用户需求的匹配度,完成数据要素需求挖掘。
2.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述S1的具体步骤为:
S11、定义所有行业集合H,并对每个行业提取行业数据文本,构成所有行业语料库,其中,所有行业集合H中每个元素代表一个行业;
S12、定义所有数据要素集合S,其中,所有数据要素集合S中的每个元素代表一条数据要素;
S13、为所有数据要素集合S中的每条数据要素整理相应的数据要素文本,构成数据要素语料库。
3.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定,其中,初始状态分布P为每一个标注作为句子第一个字的标注的概率,状态转移概率矩阵A为由某一个标注转移到下一个标注的概率,观测概率矩阵B为在某个标注下生成某个词的概率;所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。
4.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述S4的具体步骤为:
S41、根据维特比算法,使用隐尔马可夫模型提取所有行业数据文本中的行业关键字,并生成行业关键字集合WA,其中,行业关键字集合WA中的每个元素代表一个行业数据文本中提取的所有行业关键字构成的数组;
S42、根据维特比算法,使用隐尔马可夫模型提取所有数据要素文本中的数据要素关键字,并生成数据要素关键字集合WB,其中,数据要素关键字集合WB中的每个元素代表一个数据要素文本中提取的所有数据要素关键字构成的数组;
S43、通过行业关键字集合WA和数据要素关键字集合WB,构成命名实体关键字集合AllKeys。
5.根据权利要求4所述的数据要素需求挖掘方法,其特征在于,所述S5的具体步骤为:
S51、使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值;
S52、使用TF-IDF算法计算数据要素关键字集合WB中的每个元素中数据要素关键字的TF-IDF值;
S53、根据命名实体关键字集合AllKeys,生成第m条数据要素对应的数据要素关键字向量/>,并将数据要素关键字向量/>归一化,变为单位向量;
S54、根据命名实体关键字集合AllKeys,生成第n个行业对应的行业关键字向量/>,并将行业关键字向量/>归一化,变为单位向量。
6.根据权利要求5所述的数据要素需求挖掘方法,其特征在于,所述S51中行业关键字的TF-IDF值的计算公式为:
其中,表示行业关键字在所有行业中出现的普遍程度,/>表示所有行业语料库中的行业数据文本总数,/>表示包含行业关键字/>的文本数目,/>表示第/>个行业数据文本,/>表示行业关键字的TF-IDF值,/>表示行业关键字在某个行业数据文本中出现的频率;
所述S52中数据要素关键字的TF-IDF值的计算公式为:
其中,表示数据要素关键字在所有数据要素中出现的普遍程度,/>表示数据要素语料库中的数据要素文本总数,/>表示包含数据要素关键字/>的文本数目,/>表示第/>个数据要素文本,/>表示数据要素关键字的TF-IDF值,/>表示数据要素关键字在某个数据要素文本中出现的频率。
7.根据权利要求5所述的数据要素需求挖掘方法,其特征在于,所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成;所述数据要素关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定,若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在,则用对应数据要素关键字的TF-IDF值作为数据要素关键字向量/>中元素的值,否则取0;
所述行业关键字向量由一个行业的所有行业关键字构成;所述行业关键字向量/>的长度由命名实体关键字集合AllKeys中元素个数确定,若一个行业的行业关键字在某个行业提取的行业关键字中存在,则用对应行业关键字的TF-IDF值作为行业关键字向量/>中元素的值,否则取0。
8.根据权利要求5所述的数据要素需求挖掘方法,其特征在于,所述S6的具体步骤为:
S61、采用余弦相似度计算第m个数据要素对应的数据要素关键字向量/>与第n个行业/>对应的行业关键字向量/>的匹配相似度res1;
S62、通过匹配相似度res1表示第n个行业与第m条数据要素的匹配度,当匹配相似度res1越大,表明该数据要素与该行业用户需求的匹配度越高,完成数据要素需求挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727759.5A CN117407835B (zh) | 2023-12-15 | 2023-12-15 | 一种数据要素需求挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727759.5A CN117407835B (zh) | 2023-12-15 | 2023-12-15 | 一种数据要素需求挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117407835A true CN117407835A (zh) | 2024-01-16 |
CN117407835B CN117407835B (zh) | 2024-03-12 |
Family
ID=89491196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311727759.5A Active CN117407835B (zh) | 2023-12-15 | 2023-12-15 | 一种数据要素需求挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407835B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201404337D0 (en) * | 2013-03-14 | 2014-04-23 | Gen Electric | System and method for data entity identification and analysi s of maintenance data |
KR101505546B1 (ko) * | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
US20180276684A1 (en) * | 2017-03-23 | 2018-09-27 | International Business Machines Corporation | Real-time pattern matching of database transactions and unstructured text |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111738002A (zh) * | 2020-05-26 | 2020-10-02 | 北京信息科技大学 | 基于Lattice LSTM的古文领域命名实体识别方法和系统 |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
WO2021109787A1 (zh) * | 2019-12-05 | 2021-06-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质 |
CA3193586A1 (en) * | 2020-09-25 | 2022-03-31 | Genesys Cloud Services, Inc. | Systems and methods relating to bot authoring by mining intents from conversation data using known intents for associated sample utterances |
CN115730602A (zh) * | 2022-11-23 | 2023-03-03 | 中国人民解放军国防科技大学 | 文本关键要素抽取方法、系统、存储介质和电子设备 |
WO2023029420A1 (zh) * | 2021-08-30 | 2023-03-09 | 广东电网有限责任公司湛江供电局 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN116204610A (zh) * | 2023-04-28 | 2023-06-02 | 深圳市前海数据服务有限公司 | 一种基于可研报告命名实体识别的数据挖掘方法及装置 |
-
2023
- 2023-12-15 CN CN202311727759.5A patent/CN117407835B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201404337D0 (en) * | 2013-03-14 | 2014-04-23 | Gen Electric | System and method for data entity identification and analysi s of maintenance data |
KR101505546B1 (ko) * | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
US20180276684A1 (en) * | 2017-03-23 | 2018-09-27 | International Business Machines Corporation | Real-time pattern matching of database transactions and unstructured text |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
WO2021109787A1 (zh) * | 2019-12-05 | 2021-06-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质 |
CN111738002A (zh) * | 2020-05-26 | 2020-10-02 | 北京信息科技大学 | 基于Lattice LSTM的古文领域命名实体识别方法和系统 |
CA3193586A1 (en) * | 2020-09-25 | 2022-03-31 | Genesys Cloud Services, Inc. | Systems and methods relating to bot authoring by mining intents from conversation data using known intents for associated sample utterances |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
WO2023029420A1 (zh) * | 2021-08-30 | 2023-03-09 | 广东电网有限责任公司湛江供电局 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN115730602A (zh) * | 2022-11-23 | 2023-03-03 | 中国人民解放军国防科技大学 | 文本关键要素抽取方法、系统、存储介质和电子设备 |
CN116204610A (zh) * | 2023-04-28 | 2023-06-02 | 深圳市前海数据服务有限公司 | 一种基于可研报告命名实体识别的数据挖掘方法及装置 |
Non-Patent Citations (5)
Title |
---|
IMAD SASSI等: "Fast Parallel Constrained Viterbi Algorithm for Big Data with Applications to Financial Time Series", 《IN PROCEEDINGS OF THE 2021 4TH INTERNATIONAL CONFERENCE ON ROBOT SYSTEMS AND APPLICATIONS (ICRSA \'21)》, 9 September 2021 (2021-09-09), pages 50 - 55 * |
MANTCH: "详解隐马尔可夫模型(HMM)中的维特比算法", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/105788406> * |
MIHAELA MALITA等: "Heterogeneous Computing for Markov Models in Big Data", 《2019 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE (CSCI)》, 20 April 2020 (2020-04-20), pages 1500 - 1505 * |
张杰: "跨界服务模式的挖掘与验证方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 3, 15 March 2021 (2021-03-15), pages 138 - 936 * |
李世超: "基于Hadoop平台和隐马尔可夫模型的生物医学命名实体识别方法研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, no. 1, 15 January 2018 (2018-01-15), pages 080 - 15 * |
Also Published As
Publication number | Publication date |
---|---|
CN117407835B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pane et al. | A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
Obaidat et al. | Enhancing the determination of aspect categories and their polarities in arabic reviews using lexicon-based approaches | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
Shilpa et al. | Sentiment analysis using deep learning | |
Moh et al. | On multi-tier sentiment analysis using supervised machine learning | |
CN112270188A (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN113255353B (zh) | 一种实体标准化方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN117407835B (zh) | 一种数据要素需求挖掘方法 | |
Gammack et al. | Semantic knowledge management system for design documentation with heterogeneous data using machine learning | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN111222342B (zh) | 一种翻译方法和装置 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
Yang et al. | Automatic metadata information extraction from scientific literature using deep neural networks | |
CN113641790A (zh) | 一种基于区分表示深度哈希的跨模态检索模型 | |
CN115512374A (zh) | 针对表格文本的深度学习特征提取分类方法及装置 | |
Koščová et al. | A data-based classification of Slavic languages: Indices of qualitative variation applied to grapheme frequencies | |
CN112149389A (zh) | 简历信息结构化处理方法、装置、计算机设备和存储介质 | |
CN113919355B (zh) | 一种适用于少训练语料场景的半监督命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |