CN115270774A - 一种半监督学习的大数据关键词词典构建方法 - Google Patents

一种半监督学习的大数据关键词词典构建方法 Download PDF

Info

Publication number
CN115270774A
CN115270774A CN202211177760.0A CN202211177760A CN115270774A CN 115270774 A CN115270774 A CN 115270774A CN 202211177760 A CN202211177760 A CN 202211177760A CN 115270774 A CN115270774 A CN 115270774A
Authority
CN
China
Prior art keywords
keyword
corpus
candidate
dictionary
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211177760.0A
Other languages
English (en)
Other versions
CN115270774B (zh
Inventor
杨伊态
段春先
尹胜
陈胜鹏
谢迪
王敬佩
李颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geospace Information Technology Co ltd
Original Assignee
Geospace Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Geospace Information Technology Co ltd filed Critical Geospace Information Technology Co ltd
Priority to CN202211177760.0A priority Critical patent/CN115270774B/zh
Publication of CN115270774A publication Critical patent/CN115270774A/zh
Application granted granted Critical
Publication of CN115270774B publication Critical patent/CN115270774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于城市治理系统智能化技术领域,提供一种半监督学习的大数据关键词词典构建方法,包括:构建种子词词典;获取候选关键词集合;基于候选关键词集合,搜索并提取候选关键词片段并从中筛选出关键词,得到关键词词典;使用关键词词典,训练关键词提取模型,再使用关键词提取模型从文本语料中提取关键词片段,并从中筛选出关键词,添加到关键词词典中得到扩充的关键词词典。本发明提供了一种半监督学习的大数据关键词词典构建方法,通过计算机技术和少量人工开销,在大数据情景下,从大规模语料中提取关键词,构建关键词词典,为下游相关的任务提供支撑和保障。

Description

一种半监督学习的大数据关键词词典构建方法
技术领域
本发明属于城市治理系统智能化技术领域,尤其涉及一种半监督学习的大数据关键词词典构建方法。
背景技术
随着城市治理数字化的应用和普及,很多城市治理系统积累了大规模的历史数据。使用大数据技术分析和挖掘大规模数据的价值,是城市治理系统智能化的重要手段之一。如电话热线中,使用监督学习的算法模型从来话文本内容中自动提取事件地点,然后智能化的推荐处理单位,提高接线员的工作效率。很多已有的监督性算法或模型中,关键词词典是重要的组成部分,关键词词典的好坏直接影响到算法模型的表现。
如在电话热线的案件中,同一小区可能有多个不同的描述,如虚拟小区:甲乙城市花园,可能有甲乙城市花园、甲乙城花、城花等多个描述。如果关键词词典中只包含标准的“甲乙城市花园”,使用了关键词词典的算法模型很难识别出“甲乙城花”、“城花”等小区描述,从而影响算法模型最终的表现。因此希望能够提取尽可能多的小区描述,构建小区关键词词典,方便其他任务的顺利展开,如通过地址集合自动提取POI。
现有的关键词词典构建方法主要分3类。
第一类是基于人工的关键词词典构建方法。这类方法通过人工筛选出关键词,然后将筛选出的关键词集合成关键词词典。这类方法的优点是构建的关键词词典质量高,但人工开销大,不适合在大数据情景中的任务应用。
比如在电话热线的来电案件中,使用人工将来话内容中描述小区的文本筛选出来,构建小区关键词词典。但当来电案件有上千万条时,使用人工筛选的开销非常大,实际业务中人工开销变得不可承受。
第二类是基于规则的关键词词典构建方法。这类方法通过制定提取规则,基于规则从文本中筛选出关键词,然后将筛选的关键词构建成关键词词典。这类方法的优点是人工开销少,效率高,但由于规则固定,对于复杂文本语料中的关键词提取效果较差,无法应对大数据情景下关键词词典的构建。
比如在电话热线的来电案件中,使用正则表达式提取出XX小区,或者根据规律,提取文本中位于词“住在”后的K个词。但当同一个小区有多个不同描述,不同的来电市民有不同的案件描述习惯,且案件数量达到千万级时,编写规则就会变得繁琐,且基于编写规则的方法所提取的小区关键词覆盖率也较低。因此基于规则的关键词词典构建方法也不适合大数据情景中的任务应用。
第三类是基于算法模型的关键词词典构建方法。这类方法包含2种类型,一种是不需要训练的算法模型,如TF-IDF,TextRank等算法。这种算法的优点是人工开销少,但构建的关键词词典质量不高。另一种是先使用训练数据训练算法模型,然后使用训练后的算法模型从文本语料中提取关键词,支持向量机SVM模型等,这类方法相较于基于规则的方法和基于不需要训练的算法模型的方法,优点是其构建的关键词词典质量较高。然而这种方法需要准备已经构建好的质量高的关键词词典作为训练集,因此此类方法只适合扩充关键词词典,难以解决构建关键词词典的训练数据“冷启动”的问题。
发明内容
鉴于上述问题,本发明的目的在于提供一种半监督学习的大数据关键词词典构建方法,旨在解决现有方法无法在较少的人工开销下,构建高质量的关键词词典的技术问题。
本发明采用如下技术方案:
步骤S1、构建种子词词典;
步骤S2、获取候选关键词集合:根据种子词词典中的种子词,通过分词工具对文本语料进行分词,得到切分语料,使用word2vec模型将切分语料中的每个词转换为词向量,针对种子词词典中的每个种子词,筛选出词向量相似度最高的若干个相近词,并从中提取出候选关键词,得到候选关键词集合;
步骤S3、获取关键词词典:基于候选关键词集合,搜索并提取候选关键词片段并从中筛选出关键词,得到关键词词典;
步骤S4、扩充关键词词典:使用关键词词典,训练基于Bert模型、BiLSTM网络、CRF网络的关键词提取模型,再使用关键词提取模型从文本语料中提取关键词片段,并从中筛选出关键词,添加到关键词词典中得到扩充的关键词词典。
本发明的有益效果是:本发明首先通过构建简单的种子关键词,然后使用word2vec模型从语料中提取出候选关键词,并使用候选关键词算法得到候选关键词集合;接着基于候选关键词集合,在语料中搜索并提取候选关键词片段,并通过人工从关键词片段中筛选出关键词,得到关键词词典;最后使用关键词词典,训练基于Bert、BiLSTM、CRF的神经网络模型,再使用训练好神经网络模型从语料中提取关键词片段,并通过人工从关键词片段中筛选出关键词,得到扩充的关键词词典;相较现有方法,本发明方法能够在大数据情景下,使用较少的人工开销获取高质量的关键词词典,提高了在大规模数据中关键词词典的构建效率和构建质量。
附图说明
图1是本发明实施例提供的半监督学习的大数据关键词词典构建的流程图;
图2是本发明实施例提供的关键词词典构建示意图;
图3是本发明实施例提供的关键词提取模型训练示意图;
图4是本发明实施例提供的bert模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的半监督学习的大数据关键词词典构建的流程图,为了便于说明仅示出了与本发明实施例相关的部分。
结合图1、2所示,所述半监督学习的大数据关键词词典构建方法,包括下述步骤:
步骤S1、构建种子词词典。
本步骤构建种子词词典的方法有两种:
方法一,通过输入文本语料Corpus,然后从文本语料Corpus中筛选出多个关键词,得到种子词词典Seed_Key_Dict。文本语料Corpus是由多个语料片段或句子组成。文本语料Corpus是大批量的文本,比如500万个来电案件共同构成文本语料。语料片段往往指一段话,几句话或几句话。一般来讲,某个文本为文本语料corpus,那么这个文本其中的一部分就可以成为语料片段corpus span。
方法二,直接从其他方式得到多个关键词,构建种子关键词词典Seed_Key_Dict。
比如构建电话热线中的小区种子词词典:
使用方法一,就是从每个事件文本中,筛选出描述小区的文本。如对于事件文本“我是山红区甲乙城市花园22栋10单元3102的居民,家里欠费停电了,我充值了一个多小时还没有恢复,尽快处理。”提取出的小区关键词就是“甲乙城市花园”。
使用方法二,可以利用网络爬虫从房产交易网站上爬取相关城市的小区关键词,然后将获取的小区关键词构建成种子词词典。
步骤S2、获取候选关键词集合:根据种子词词典中的种子词,通过分词工具对文本语料进行分词,得到切分语料,使用word2vec模型将切分语料中的每个词转换为词向量,针对种子词词典中的每个种子词,筛选出词向量相似度最高的若干个相近词,并从中提取出候选关键词,得到候选关键词集合。
本步骤主要通过筛选相近词,并提取候选关键词,实现获取候选关键词集合。具体实现过程如下:
S21、将种子词词典中的种子词添加到分词工具的自定义词典中,通过分词工具对文本语料进行分词,得到切分后的切分语料。
将种子词词典Seed_Key_Dict中的种子词添加到jieba分词工具的自定义词典中,然后使用jieba分词工具对文本语料Corpus分词,得到切分后的文本语料,即切分语料Cut_Corpus。
添加种子词到jieba分词工具的自定义词典,目的是让jieba分词工具在对文本分词时,能准确切分出自定义词典中的词。其中Jieba分词是一个分词效果较好的开源分词工具。
如构建电话热线中的小区关键词词典。
对于文本“我是山红区甲乙城市花园22栋10单元3102的居民”,没有加入自定义词典的分词结果为:[我,是,山红区,甲乙,城市,花园,22,栋,10,单元,3102,的,居民] ,加入自定义词典的分词结果为:[我,是,山红区, 甲乙城市花园,22,栋,10,单元,3102,的,居民] 。
S22、将切分语料输入至Word2Vec模型中得到切分语料中每个词的词向量,形成语料词向量集。
Word2Vec是一个将文本转换成词向量的模型,本实施例使用的是在训练中采用的是主体模型工具包Gensim中的Word2Vec模型,Word2Vec训练过程中采用的Skip-Gram模式。每个词经Word2Vec模型转换后,变成n*1维的词向量,n可自由设置,本步骤设置为300。
S23、对于种子词词典中的每个种子词,计算种子词与语料词向量集中词向量的相似度,筛选出相似度最高的k1个词作为相近词。
对于种子词词典Seed_Key_Dict中的每个种子词
Figure 581462DEST_PATH_IMAGE001
,使用余弦公式计算
Figure 5490DEST_PATH_IMAGE001
与语料词向量集中词向量(其他词向量,不含
Figure 264564DEST_PATH_IMAGE001
的词向量)的相似度,并筛选出词向量相似度最高的k1个词作为
Figure 192069DEST_PATH_IMAGE001
的相近词。余弦相似度计算公式如下:
Figure 143975DEST_PATH_IMAGE002
其中
Figure 337190DEST_PATH_IMAGE003
Figure 649223DEST_PATH_IMAGE004
分别表示种子词
Figure 444616DEST_PATH_IMAGE001
Figure 347850DEST_PATH_IMAGE005
的词向量第d维的值,n是
Figure 231623DEST_PATH_IMAGE003
Figure 347347DEST_PATH_IMAGE004
的词向量的维度数。
S24、使用候选关键词算法,获得候选关键词集合。
本步骤具体过程如下:
241、将所有种子词构成初始化的候选关键词集合。
将所有种子词
Figure 734597DEST_PATH_IMAGE001
构成初始化的候选关键词集合Candi_KW_Set。
242、将所有种子词的相近词成候选相近词集合。
将所有种子词
Figure 277574DEST_PATH_IMAGE001
的相近词构成候选相近词集合Candi_Syno_Set。
243、遍历候选相近词集合,针对其中的每个词
Figure 383064DEST_PATH_IMAGE006
,通过Word2Vec模型得到相应的词向量,并计算与语料词向量集中词向量的相似度,得到相似度最高的k2个词作为相近词。
遍历候选相近词集合,比如当前从候选相近词集合Candi_Syno_Set中取出一个词
Figure 302479DEST_PATH_IMAGE006
,使用Word2Vec模型得到词
Figure 801026DEST_PATH_IMAGE006
的词向量,并使用余弦相似度计算公式,得到相似度前k2个词作为相近词。
244、计算词
Figure 514904DEST_PATH_IMAGE006
支持度,所述支持度为词
Figure 701165DEST_PATH_IMAGE006
的k2个相近词在候选关键词集合的个数,当支持度大于或等于设定阈值时,将词
Figure 909424DEST_PATH_IMAGE006
添加到候选关键词集合,并从候选相近词集合删除词
Figure 520534DEST_PATH_IMAGE006
计算词
Figure 421625DEST_PATH_IMAGE006
的支持度sup_value,支持度为词
Figure 750975DEST_PATH_IMAGE006
的k2个相近词在候选关键词集合Candi_KW_Set的个数。当sup_value大于或等于设定的阈值sup_key_value时,将词
Figure 494416DEST_PATH_IMAGE006
添加到候选关键词集合Candi_KW_Set,并从候选相近词集合Candi_Syno_Set删除词
Figure 960032DEST_PATH_IMAGE006
245、重复步骤243、244,直至候选关键词集合不再新增时停止计算。
遍历一遍候选相近词集合Candi_Syno_Set中所有的词,再重复步骤243、244,进行下一次遍历,直至候选关键词集合Candi_KW_Set不再增加新的候选关键词时,停止计算。
如构建电话热线中的小区关键词词典。
设初始化的候选关键词集合={甲乙城市花园,丙丁小公馆,戊己星城}
候选相近词集合={甲乙城花,小公馆,戊己},k2=5,阈值sup_key_value=3
设“甲乙城花”的前k2个相近词={甲乙城市花园,丙丁小公馆,戊己星城,甲乙城,城市花园},
“小公馆”的前k2个相近词={丙丁小公馆,戊己星城,公馆,小公,甲乙城花}
“戊己”的前k2个相近词={星城,戊己星城,戊己城,戊城,己城}
则第一遍遍历时:
“甲乙城花”的支持度为3,“小公馆”的支持度为2,“戊己”的支持度为1,其中“甲乙城花”的支持度达到阈值,将“甲乙城花”加入候选关键词集合,并从候选相近词集合删除。
第二遍遍历时:
“小公馆”的支持度为3,“戊己”的支持度为1,其中“小公馆”的支持度达到阈值,将“小公馆”加入候选关键词集合,并从候选相近词集合删除。
第三遍遍历时:
“戊己”的支持度为1,候选关键词集合没有新增词,停止算法。
最后得到的候选关键词集合为{甲乙城市花园,丙丁小公馆,戊己星城,甲乙城花,小公馆}。
步骤S3、获取关键词词典:基于候选关键词集合,搜索并提取候选关键词片段并从中筛选出关键词,得到关键词词典。
本步骤主要目的是获取关键词词典。具体实现过程如下:
S31、从切分语料中搜索候选关键词集合中的候选关键词;
S32、对于切分语料中每个候选关键词的文本片段,保留文本片段的前k3个和后k3个分词文本,作为候选关键词的候选关键词片段;
S33、统计候选关键词的每个候选关键词片段的频次,保留频次最高的k4个候选关键词片段作为当前候选关键词的关键词片段集合;
S34、对于关键词片段集合中的每一个关键词片段,筛选出关键词;
S35、将候选关键词集合中所有候选关键词对应筛选出的关键词进行组合,构建关键词词典。
上述具体实现过程中,从切分语料Cut_Corpus中搜索候选关键词
Figure 32025DEST_PATH_IMAGE007
,对于切分语料Cut_Corpus中每个
Figure 848671DEST_PATH_IMAGE007
的文本片段,保留文本片段前k3个和后k3个分词文本,做为候选关键词
Figure 398732DEST_PATH_IMAGE007
的候选关键词片段
Figure 531904DEST_PATH_IMAGE008
。统计
Figure 24065DEST_PATH_IMAGE007
的每个候选关键词片段
Figure 816091DEST_PATH_IMAGE008
的频次,并保留频次最高的k4个候选关键词片段做为
Figure 419110DEST_PATH_IMAGE007
的关键词片段集合。对于
Figure 610051DEST_PATH_IMAGE007
的关键词片段集合中的每一个关键词片段,筛选出关键词。对候选关键词集合Candi_KW_Set中的所有候选关键词
Figure 7535DEST_PATH_IMAGE007
,重复上述操作,得到的所有关键词构建成关键词词典Key_Dict。
如构建电话热线中的小区关键词词典。
设候选关键词集合Candi_KW_Set中的一个候选关键词为“城市花园”。K4=5,k3=1。
对于切分语料[我,是,山红区,庚辛,城市花园,22,栋,10,单元,3102,的,居民],步骤S32会抽取“庚辛城市花园22”作为“城市花园”的一个候选关键词片段。
假设候选关键词片段“庚辛城市花园22”在语料中出现10次,则其频次为10。设“城市花园”的频次前5个候选关键词片段为[甲乙城市花园的,庚辛城市花园的,丙丁城市花园的,庚辛城市花园22,住城市花园小区]。步骤S34筛选出的关键词为[甲乙城市花园,庚辛城市花园,丙丁城市花园,城市花园]。
步骤S4、扩充关键词词典:使用关键词词典,训练基于Bert模型、BiLSTM网络、CRF网络的关键词提取模型,再使用关键词提取模型从文本语料中提取关键词片段,并从中筛选出关键词,添加到关键词词典中得到扩充的关键词词典。
本步骤的目的是扩充关键词词典。本步骤具体过程如下:
S41、对于文本语料中的语料片段,如果语料片段中含有关键词词典中的关键词,则将此语料片段作为训练文本,含有的关键词作为关键词标签,如果没有关键词词典中的关键词,则将语料片段作为预测文本。
对于文本语料Corpus中的语料片段,包括文本片段或文本句,如果文本片段或文本句中含有Key_Dict中的关键词,则将此文本片段或文本句作为训练文本,含有的关键词作为关键词标签。如果文本片段或文本句中没有Key_Dict中的关键词,则将本文本片段作为预测文本。
S42、将每个训练文本和对应的关键词标签作为一个训练样本,得到训练样本集,将所有预测文本作为预测语料集。
如构建电话热线中的小区关键词词典。
对于文本“我是山红区甲乙城市花园22栋10单元3102的居民”,含有关键词“甲乙城市花园”。
因此构建训练样本:[“我是山红区甲乙城市花园22栋10单元3102的居民”,“甲乙城市花园”]。
对于文本“我是山红区甲丁城市花园22栋10单元3102的居民”,其中“甲丁城市花园”不在关键词字典中,因此加入预测语料集。
对于文本“我是他们那儿的居民”,其中没有关键词,因此加入预测语料集中。
S43、使用训练样本集训练关键词提取模型,然后使用训练好的关键词提取模型在预测语料集中进一步提取关键词,其中所述关键词提取模型由Bert模型、BiLSTM网络和CRF网络组成。
本步骤目的是训练关键词提取模型并进一步从预测语料集中进一步提取关键词。结合图3、4所述,其中使用训练样本集训练关键词提取模型的具体过程如下:
431、将每个训练样本转换成标准样本,标准样本的格式为[语料片段,语料标记序列]。
训练样本集按比例划分为训练样本和验证样本。其中语料片段是含有关键词的文本片段或文本句子,关键词是需要从语料片段中提取的关键词文本片段。
一个典型的样本如:
[语料片段:“我是山红区甲乙城市花园22栋10单元3102的居民”;关键词:甲乙城市花园]。
每个训练样本转换成标准样本,标准样本由两部分组成[语料片段,语料序列标记]。
对于语料片段中的每个字符,如果字符不属于关键词,则标记为O。如字符属于关键词且关键词字符数大于1,则关键词的第一个字符标记为Kb,关键词的其他字符标记为Ki。如字符属于关键词且关键词字符数等于1,则将字符标记为Ks。所有字符标记按语料片段对应的字符顺序组合成序列标记,并在序列标记开头添加特殊标记S,序列标记结尾添加特殊标记E。添加特殊标记后的序列标记即为语料序列标记。所有标记构成标记集合{E,S,O,Ki,Ks,Kb}。
一个典型的样本如:
[语料片段:“我是山红区甲乙城市花园22栋10单元3102的居民”;
语料序列标记: S, O, O, O, O, O, Ks, Ki, Ki, Ki, Ki, Ki, O, O, O, O,O, O, O, O, O, O, O, O, O, O, E]。
432、使用Bert模型将语料片段转换成对应的词向量。
使用Bert模型将语料片段转换成对应的词向量Span_e,Bert模型为采用Chinese-bert-wwm-ext Bert模型。过程如下:
如图4所示,将标准样本中的语料片段分割成字;通过bert模型将语料片段转换成词元编码,并得到对应的位置编码;将语料片段的词元编码和位置编码分别输入bert模型,得到对应的词向量。
如,对于语料片段:“我是山红区甲乙城市花园22栋10单元3102的居民”
分割成字:[我,是,山,红,区,甲,乙,城,市,花,园,2, 2, 栋,1, 0, 单,元,3, 1,0, 2, 的,居,民]。
词元编码为:[101,2769, 3221, 2255, 5273, 1277, 674, 2145, 1814, 2356,5709, 1736, 8130, 3406, 8108, 1296, 1039, 9643, 8144, 4638, 2233, 3696,102],其中101和102为特殊编码,每个语料片段的词元编码开头都会加上101,末尾加上102。
位置编码为:
[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26]。
433、将词向量输入至BiLSTM网络得到出语料片段发射概率矩阵。
将词向量Span_e输入BiLSTM网络,得到语料片段的隐层状态向量Span_v,再将隐层状态向量Span_v输入全连接层,得到语料片段发射矩阵Emit_m。Emit_m是一个Tag_num*Addr_Len维的矩阵,其中Tag_num是标记集合中标记的个数,Addr_len是样本词元编码的个数。
434、将语料片段发射矩阵输入CRF网络,基于发射矩阵和转移矩阵,计算得到正确标记序列分数和所有可能的标记序列的总分数。
将语料片段发射矩阵Emit_m输入CRF网络,CRF网络基于发射矩阵Emit_m和转移矩阵Trans_m,使用损失分数公式得到正确标记序列分数和所有可能的标记序列的总分数。其中正确标记序列指与样本的语料序列标记一样的序列,所有可能的标记序列指模型能产生的序列的总和,共计
Figure 549506DEST_PATH_IMAGE009
种序列,其中Tag_num是标记集合中标记的个数,Addr_len是样本词元编码的个数。CRF中的转移矩阵Trans_m初始为随机赋值的矩阵,之后第s次训练Trans_m中的值是第s-1次训练后调整的值。
每个标记序列的分数计算公式为:
Figure 487375DEST_PATH_IMAGE010
Figure 798401DEST_PATH_IMAGE011
表示输入样本x,被标记成标记序列y的分数。其中
Figure 366786DEST_PATH_IMAGE012
表示预测标记序列y中第i个标签的发射概率值,s为整个预测标记序列y的长度,
Figure 393123DEST_PATH_IMAGE013
表示预测标记y中第i-1个标记转移到i个标记的转移概率值。
435、根据正确标记序列分数和所有可能的标记序列的总分数,计算损失分数。
损失分数计算公式为:
Figure 72366DEST_PATH_IMAGE014
Figure 237899DEST_PATH_IMAGE015
表示对于输入样本x的正确标记序列分数。
Figure 242765DEST_PATH_IMAGE016
表示对于输入样本x任意可能的标记序列的分数,
Figure 493748DEST_PATH_IMAGE017
表示以自然指数e为底,标记序列的分数为指数,所有可能标记序列的累加和。
Figure 976682DEST_PATH_IMAGE018
表示对于输入样本x,正确标签序列为
Figure 262301DEST_PATH_IMAGE019
的损失分数。
436、根据损失分数,使用梯度下降法修改更新模型参数,选择验证正确率最高的一个参数版本作为最终训练好的关键词提取模型。
模型会多次遍历训练样本,每遍历一次训练样本后,使用验证样本测试模型的准确率。验证过程基本与推断过程一致。模型训练阶段会选择验证正确率最高的一个参数版本作为最终训练好的模型。
上述步骤S43中,使用训练样本集训练得到关键词提取模型。另一方面,步骤S43还需要对关键词提取模型进一步在预测语料集中进一步提取关键词。
具体过程如下:
437、输入预测语料集中的语料片段,将语料片段转换成换成对应的词向量Span_e;将词向量Span_e输入BiLSTM网络,得到出文本地址发射概率矩阵Emit_m;将发射概率矩阵Emit_m输入CRF网路,CRF网路根据发射概率矩阵和转移概率矩阵,输出概率最高的标签序列,得到模型的预测标签序列;根据预测标签序列得到最终的关键词提取结果。
其中根据预测标签序列得到最终的关键词提取结果的过程如下:如果预测标签序列从第k到第j个连续的标签,第k个标签为Kb,第k+1至j的标签为Ki,则将语料片段中对应的第k到第j个文本合并,提取为关键词。如果预测标签序列中第k个标签为Ks,则将语料片段中对应的第k个字符提取为关键词。在提取阶段:直接输出提取的关键词。在验证阶段:如果模型提取的关键词结果与样本的关键词一样,则判断为提取正确;否则判断为提取错误。
S44、将提取的关键词经筛选,将正确的关键词加入关键词词典。
对于个别出现异常的关键词,可以筛除,保留正确的关键词加入关键词词典。
S45、对关键词词典中的关键词做去重处理,得到最终的关键词词典。
去重是指除去关键词词典中重复的关键词,最后得到最终的关键词词典。
综上,本发明实施例提供了一种半监督学习的大数据关键词词典构建方法,能够从大规模数据中提取关键短语,构建关键词词典,相较于已有的方法,本发明方法使用深度学习技术,在可接受的人力花费内,搜索上百万、千万大规模文本中的关键短语,提高了关键词词典的构建效率和关键词覆盖率,并且为在大数据情景下如何构建关键词词典提供了一种可行的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种半监督学习的大数据关键词词典构建方法,其特征在于,所述方法包括下述步骤:
步骤S1、构建种子词词典;
步骤S2、获取候选关键词集合:根据种子词词典中的种子词,通过分词工具对文本语料进行分词,得到切分语料,使用word2vec模型将切分语料中的每个词转换为词向量,针对种子词词典中的每个种子词,筛选出词向量相似度最高的若干个相近词,并从中提取出候选关键词,得到候选关键词集合;
步骤S3、获取关键词词典:基于候选关键词集合,搜索并提取候选关键词片段并从中筛选出关键词,得到关键词词典;
步骤S4、扩充关键词词典:使用关键词词典,训练基于Bert模型、BiLSTM网络、CRF网络的关键词提取模型,再使用关键词提取模型从文本语料中提取关键词片段,并从中筛选出关键词,添加到关键词词典中得到扩充的关键词词典。
2.如权利要求1所述半监督学习的大数据关键词词典构建方法,其特征在于,所述步骤S2的具体过程如下:
S21、将种子词词典中的种子词添加到分词工具的自定义词典中,通过分词工具对文本语料进行分词,得到切分后的切分语料;
S22、将切分语料输入至Word2Vec模型中得到切分语料中每个词的词向量,形成语料词向量集;
S23、对于种子词词典中的每个种子词,计算种子词与语料词向量集中词向量的相似度,筛选出相似度最高的k1个词作为相近词;
S24、使用候选关键词算法,获得候选关键词集合。
3.如权利要求2所述半监督学习的大数据关键词词典构建方法,其特征在于,步骤S24具体过程如下:
241、将所有种子词构成初始化的候选关键词集合;
242、将所有种子词的相近词成候选相近词集合;
243、遍历候选相近词集合,针对其中的每个词
Figure 860111DEST_PATH_IMAGE001
,通过Word2Vec模型得到相应的词向量,并计算与语料词向量集中词向量的相似度,得到相似度最高的k2个词作为相近词;
244、计算词
Figure 598391DEST_PATH_IMAGE001
支持度,所述支持度为词
Figure 885015DEST_PATH_IMAGE001
的k2个相近词在候选关键词集合的个数,当支持度大于或等于设定阈值时,将词
Figure 818949DEST_PATH_IMAGE001
添加到候选关键词集合,并从候选相近词集合删除词
Figure 916349DEST_PATH_IMAGE001
245、重复步骤243、244,直至候选关键词集合不再新增时停止计算。
4.如权利要求3所述半监督学习的大数据关键词词典构建方法,其特征在于,所述步骤S3具体过程如下:
S31、从切分语料中搜索候选关键词集合中的候选关键词;
S32、对于切分语料中每个候选关键词的文本片段,保留文本片段的前k3个和后k3个分词文本,作为候选关键词的候选关键词片段;
S33、统计候选关键词的每个候选关键词片段的频次,保留频次最高的k4个候选关键词片段作为当前候选关键词的关键词片段集合;
S34、对于关键词片段集合中的每一个关键词片段,筛选出关键词;
S35、将候选关键词集合中所有候选关键词对应筛选出的关键词进行组合,构建关键词词典。
5.如权利要求4所述半监督学习的大数据关键词词典构建方法,其特征在于,所述步骤S4具体过程如下:
S41、对于文本语料中的语料片段,如果语料片段中含有关键词词典中的关键词,则将此语料片段作为训练文本,含有的关键词作为关键词标签,如果没有关键词词典中的关键词,则将语料片段作为预测文本;
S42、将每个训练文本和对应的关键词标签作为一个训练样本,得到训练样本集,将所有预测文本作为预测语料集;
S43、使用训练样本集训练关键词提取模型,然后使用训练好的关键词提取模型在预测语料集中进一步提取关键词,其中所述关键词提取模型由Bert模型、BiLSTM网络和CRF网络组成;
S44、将提取的关键词经筛选,将正确的关键词加入关键词词典;
S45、对关键词词典中的关键词做去重处理,得到最终的关键词词典。
6.如权利要求5所述半监督学习的大数据关键词词典构建方法,其特征在于,步骤S43中,使用训练样本集训练关键词提取模型的具体过程如下:
431、将每个训练样本转换成标准样本,标准样本的格式为[语料片段,语料标记序列];
432、使用Bert模型将语料片段转换成对应的词向量;
433、将词向量输入至BiLSTM网络得到出语料片段发射概率矩阵;
434、将语料片段发射矩阵输入CRF网络,基于发射矩阵和转移矩阵,计算得到正确标记序列分数和所有可能的标记序列的总分数;
435、根据正确标记序列分数和所有可能的标记序列的总分数,计算损失分数;
436、根据损失分数,使用梯度下降法修改更新模型参数,选择验证正确率最高的一个参数版本作为最终训练好的关键词提取模型。
CN202211177760.0A 2022-09-27 2022-09-27 一种半监督学习的大数据关键词词典构建方法 Active CN115270774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211177760.0A CN115270774B (zh) 2022-09-27 2022-09-27 一种半监督学习的大数据关键词词典构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211177760.0A CN115270774B (zh) 2022-09-27 2022-09-27 一种半监督学习的大数据关键词词典构建方法

Publications (2)

Publication Number Publication Date
CN115270774A true CN115270774A (zh) 2022-11-01
CN115270774B CN115270774B (zh) 2023-01-03

Family

ID=83756547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211177760.0A Active CN115270774B (zh) 2022-09-27 2022-09-27 一种半监督学习的大数据关键词词典构建方法

Country Status (1)

Country Link
CN (1) CN115270774B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021572A (zh) * 2016-05-31 2016-10-12 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106649662A (zh) * 2016-12-13 2017-05-10 成都数联铭品科技有限公司 一种领域词典的构建方法
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法
CN110705285A (zh) * 2019-09-20 2020-01-17 北京市计算中心 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110704391A (zh) * 2019-09-23 2020-01-17 车智互联(北京)科技有限公司 一种词库构建方法及计算设备
JP2020042545A (ja) * 2018-09-11 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN113761128A (zh) * 2021-07-26 2021-12-07 中国传媒大学 领域同义词典与模式匹配相结合的事件关键信息抽取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021572A (zh) * 2016-05-31 2016-10-12 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106649662A (zh) * 2016-12-13 2017-05-10 成都数联铭品科技有限公司 一种领域词典的构建方法
JP2020042545A (ja) * 2018-09-11 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN110705285A (zh) * 2019-09-20 2020-01-17 北京市计算中心 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110704391A (zh) * 2019-09-23 2020-01-17 车智互联(北京)科技有限公司 一种词库构建方法及计算设备
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN113761128A (zh) * 2021-07-26 2021-12-07 中国传媒大学 领域同义词典与模式匹配相结合的事件关键信息抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备

Also Published As

Publication number Publication date
CN115270774B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN110097085B (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
CN112559556B (zh) 表格模式解析和序列掩码的语言模型预训练方法及系统
CN107315738B (zh) 一种文本信息的创新度评估方法
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN108287858A (zh) 自然语言的语义提取方法及装置
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN110263325A (zh) 中文分词系统
CN110362797B (zh) 一种研究报告生成方法及相关设备
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN115599902A (zh) 一种基于知识图谱的油气百科问答方法及系统
CN115270774B (zh) 一种半监督学习的大数据关键词词典构建方法
CN115795060B (zh) 一种基于知识增强的实体对齐方法
CN116757498A (zh) 一种惠企政策推送方法、设备及介质
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN112966501B (zh) 一种新词发现方法、系统、终端及介质
CN113157866B (zh) 一种数据分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant