CN115964474A - 一种政策关键词抽取方法、装置、存储介质及电子设备 - Google Patents
一种政策关键词抽取方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115964474A CN115964474A CN202211711385.3A CN202211711385A CN115964474A CN 115964474 A CN115964474 A CN 115964474A CN 202211711385 A CN202211711385 A CN 202211711385A CN 115964474 A CN115964474 A CN 115964474A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text data
- keywords
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 62
- 239000013604 expression vector Substances 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 27
- 238000002372 labelling Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种政策关键词抽取方法、装置、存储介质及电子设备,涉及计算机技术领域,其中方法包括:获取关键词抽取模型;获取文本数据,基于关键词抽取模型对文本数据进行关键词抽取,得到至少一个关键词;对文本数据以及至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;分别计算各关键词表示向量与文本表示向量的余弦相似度值,得到至少一个关键词的权重分;基于各权重分对关键词进行排序,将排序最高的关键词确定为文本数据对应的关键词。通过对关键词获取模型获取到的每个关键词进行向量化处理,基于每个关键词的权重分确定文本数据最准确的关键词,能够提高切分关键词的准确性,使得政策关键词的抽取更为准确。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种政策关键词抽取方法、装置、存储介质及电子设备。
背景技术
在检索场景,用户输入检索条件,将检索条件进行切词,在语料库中对每个切分后的词进行召回,这就需要对语料库中的每条文本数据进行准确的关键词抽取。
通用的关键词抽取方法为收集大量语料文本,对语料中的每条文本数据进行分词,通过tf-idf指标计算每个词的权重得分,将权重得分最高的词作为关键词。由于政策场景语料文本数量相对较少,且进行分词时可能会出现无效切分,导致政策关键词的抽取不够准确。
发明内容
本申请提供一种政策关键词抽取方法、装置、存储介质及电子设备,通过对关键词获取模型获取到的每个关键词进行向量化处理,基于每个关键词的权重分确定文本数据最准确的关键词,能够在政策场景下语料文本较少时,提高切分关键词的准确性,进而使得政策关键词的抽取更为准确。
第一方面,本申请提供了一种政策关键词抽取方法,所述方法包括:
获取关键词抽取模型;
获取文本数据,基于所述关键词抽取模型对所述文本数据进行关键词抽取,得到至少一个关键词;
对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;
分别计算各所述关键词表示向量与所述文本表示向量的余弦相似度值,得到所述至少一个关键词的权重分;
基于各所述权重分对所述关键词进行排序,将排序最高的关键词确定为所述文本数据对应的关键词。
通过采用上述技术方案,对关键词抽取模型抽取到的关键词进行向量化处理,计算并比对关键词表示向量与文本表示向量的相似度权重分,基于相似度权重分的排序结果确定文本数据对应的关键词,通过深度学习的理念对抽取到的关键词进行向量化处理与相似度值计算,根据排序结果确定最接近文本数据含义的关键词,能够提高关键词的准确性。
可选的,所述获取关键词抽取模型,包括:
获取文本训练数据;
对所述文本训练数据进行关键词标注,得到标注数据;
基于所述标注数据训练得到关键词抽取模型。
通过采用上述技术方案,使用关键词标注的方式对文本数据进行训练,得到关键词抽取模型,能够应对政策场景下关键词实例较少导致的模型建立情况,提高针对文本数据的关键词切分准确性。
可选的,所述获取文本数据之后,还包括:
搜索并删除所述文本数据中的停用词、非法符号以及年限词。
通过采用上述技术方案,对获取到的文本数据进行数据清洗,对文本数据中的干扰词汇进行删除,能够提高后续针对于文本数据向量化处理的准确性。
可选的,所述对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量,包括:
获取BERT预训练模型;
基于所述BERT预训练模型对所述文本数据进行向量化处理,生成文本表示向量;
基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量。
通过采用上述技术方案,使用BERT预训练模型分别对文本数据以及获取到的至少一个关键词进行向量化处理,能够将文本形式的文本数据转换为向量形式的数据,便于针对不同文本数据以及不同关键词进行相似度值计算。
可选的,所述基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量,包括:
基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,得到至少一个关键词预向量;
分别使用文本表示向量减去所述至少一个关键词预向量,得到至少一个关键词表示向量。
通过采用上述技术方案,关键词表示向量为文本表示向量减去关键词预向量之后得到的,表示原有的文本数据在去掉该关键词后的向量,能够体现某一关键词在文本数据中的重要程度,进而准确判断该关键词的准确性。
可选的,所述将排序最高的关键词确定为所述文本数据对应的关键词,包括:
设定排序阈值N,所述排序阈值N不大于所述关键词的数量;
将权重分值排序最高的N个关键词确定为所述文本数据对应的关键词。
通过采用上述技术方案,基于用户需求或检索需求,文本数据可能对应多个关键词,将权重分值排序最高的关键词均作为文本数据对应的关键词,使得抽取出的文本数据对应的关键词更加准确,提高检索到对应文本数据的可能性。
可选的,所述关键词抽取模型为BERT-CRF模型。
第二方面,本申请提供了一种政策关键词抽取装置,所述装置包括:
模型建立模块,用于获取关键词抽取模型;
关键词抽取模块,用于获取文本数据,基于所述关键词抽取模型对所述文本数据进行关键词抽取,得到至少一个关键词;
向量化处理模块,用于对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;
权重分计算模块,用于分别计算各所述关键词表示向量与所述文本表示向量的余弦相似度值,得到所述至少一个关键词的权重分;
关键词确定模块,用于基于各所述权重分对所述关键词进行排序,将排序最高的关键词确定为所述文本数据对应的关键词。
第三方面,本申请提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述任意一项方法。
第四方面,本申请提供了一种电子设备,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项方法。
综上所述,本申请技术方案所带来的有益效果包括:
在进行关键词抽取之后,对关键词与文本数据进行向量化处理,通过计算相似度值得到每个关键词对应的权重分,将权重分高的关键词确定为最接近文本数据的关键词,能够避免对政策关键词进行无效切分,提高政策关键词的准确性。
附图说明
图1是本申请实施例提供的一种政策关键词抽取方法的流程示意图;
图2是本申请实施例提供的一种政策关键词抽取装置的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
附图标记说明:10、模型建立模块;20、关键词抽取模块;30、向量化处理模块;40、权重分计算模块;50、关键词确定模块;1000、电子设备;1001、处理器;1002、通信总线;1003、用户接口;1004、网络接口;1005、存储器。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
首先对政策关键词的特点作简要说明,在检索场景中,常使用关键词作为检索条件对语料库中的数据进行查找,关键词的准确性决定了能否快速准确地检索到相关数据,政策关键词的第一个特点为语料库中数据文本较少,使用一般的学习模型较难获取到准确的关键词;第二个特点为政策关键词的文本长度较为特殊,使用普通的关键词划分模型容易出现关键词切分错误,导致特定的政策名词被无效切分,影响政策关键词抽取的准确性。
在本申请实施例的描述中,“示性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参见图1,为本申请实施例提供的一种政策关键词抽取方法的流程示意图,该方法可依赖于计算机程序实现,可依赖于单片机实现,也可运行于基于冯诺依曼体系的政策关键词抽取装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。本申请实施例以计算机为例,对政策关键词抽取方法的具体步骤做详细说明。
S101,获取关键词抽取模型。
针对语料库中的文本数据,需要对每个文本数据抽取出对应的关键词,关键词抽取模型为从文本数据中抽取出最能反映文本数据的关键词。
在其中一个实施例中,关键词抽取模型为BERT-CRF模型。在英文文本中单词为最小单位,且每个单词均有一一对应的词性信息,无需进行过多的预处理,但对于中文文本,模型的最小输入单位为单个汉字,但词性信息是根据中文词语进行标注的,因此为满足模型要求,需要对数据进行预处理,将文本柴文为一系列的汉字,并对每个汉字进行词性标注。
BERT模型将每个汉字进行词性标注,通过预测的方式判断是否为同一词性,进而完成对文本数据中的词语划分,CRF层通过加入约束来保证预测结果的准确性,CRF层在训练数据是自动学习可得到相应的约束。
在其中一个实施例中,获取文本训练数据;对文本训练数据进行关键词标注,得到标注数据;基于标注数据训练得到关键词抽取模型。
文本训练数据为已确定关键词的文本数据,文本训练数据可从历史关键词抽取中获取得到,也可由开发人员基于语料库中的已确定文本数据,也可由开发人员手动输入相应的训练样本。
进一步地,可将使用本申请实施例中的方法获取的文本数据对应的关键词作为文本训练数据,再次输入到关键词抽取模型,以扩充文本训练数据的数量,进而建立更加准确的关键词抽取模型。
关键词标注为对文本数据进行关键词标注,为每一条文本数据标注准确的关键词,标注方式包括但不限于人工标注或计算机自动标注,以实现输入到关键词抽取模型的每个文本训练数据均具有准确的关键词。标注数据的数据量根据语料库中已确定的文本训练数据的数量确定。
S102,获取文本数据,基于关键词抽取模型对文本数据进行关键词抽取,得到至少一个关键词。
文本数据为待确定抽取关键词的文本数据,为提高检索准确性,本申请实施例以处理单个文本数据为例,以详细解释如何确定单个文本数据的最佳关键词。
经关键词抽取模型抽取到的关键词的数量通常在一个及以上,不同关键词可能存在部分相同的文字或词语,需要对每个关键词进行处理,以保证抽取到最贴近文本数据语义的关键词。
在其中一个实施例中,搜索并删除文本数据中的停用词、非法符号以及年限词。
停用词为电脑检索中的虚字、非检索用字,例如语气助词、副词、介词以及连接词等;非法符号为不符合审核原则的字符以及词语,例如字母、拼音缩写以及书名号等;年限词为年份时间词,例如“2022年”以及“5月1日”等无实际意义的词语。
搜索并删除文本数据中的这类词语,能够实现对文本数据的数据清洗,减少这类无实际意义的词语对有效信息造成的噪音干扰。
S103,对文本数据以及至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量。
通过开源的预训练模型分别对每个关键词进行向量化处理,同时对文本数据也进行相应的向量化处理,文本表示向量与关键词表示向量为包含词性信息的数据集,不同的向量具有不同的向量长度与数据集。通过关键词的词性信息出现频次,编码出相应的向量数据集。
S104,分别计算各关键词表示向量与文本表示向量的余弦相似度值,得到至少一个关键词的权重分。
在通过定义的词向量将文本数据或关键词转换成向量之后,若不同关键词的长度不一致,可能在进行余弦相似度值计算时会对权重分产生影响,可使用归一化的方式对数据集中的每个向量进行归一化处理,再计算个体间的相似度。
余弦相似度算法是在一个向量空间中,将两个向量夹角间的余弦值作为衡量两个个体之间差异大小的度量值余弦越接近1,表明两个向量的相似度越高。
关键词的权重分为单个的关键词对应的关键词表示向量与文本数据对应的文本表示向量的余弦相似度值,各个权重分是相对独立的,互相之间不会产生影响。
S105,基于各权重分对关键词进行排序,将排序最高的关键词确定为文本数据对应的关键词。
按照权重分从高到低的顺序对关键词进行排序,权重分值最高的关键词即为文本数据对应的最准确的关键词。
通过上述技术方案,训练BERT-CRF模型,根据词性信息划分实现对文本数据中的关键词抽取,将文本数据与关键词进行向量化处理,计算每个关键词表示向量与文本数据表示向量的余弦相似度值,得到每个关键词对应的权重分,将权重分值最高的关键词确定为文本数据对应的关键词,在政策关键词划分阶段使用模型训练的方式,能够提高政策关键词切分的准确性。
在本申请另一个实施例的政策关键词抽取方法的步骤中,详细描述了对于文本数据以及关键词进行向量化处理的过程,以实现对每个关键词的准确向量化,以达到后续余弦相似度计算的准确性要求。
S201,获取关键词抽取模型。
S202,获取文本数据,基于关键词抽取模型对文本数据进行关键词抽取,得到至少一个关键词。
S201、S202在上述实施例中已做详细描述,在此不再赘述。
S203,获取BERT预训练模型。
BERT预训练模型是利用大规模无标注的语料训练,获得文本包含的语义信息的语义表示,在基于深度神经网络的NLP方法中,文本中的字或词通常都使用一维向量来表示,模型的输入为文本中各个字或词的一维词向量,模型的输出为一个可表示文本语义的特征向量,例如“人民日报”中四个字的词性信息后缀均为“/l-nz”,因此可将这个词语划为一个特征词。
S204,基于BERT预训练模型对文本数据进行向量化处理,生成文本表示向量。
对文本数据进行向量化处理,取BERT的cls输出作为文本表示向量,即对文本数据中的每个字均进行向量转换,举例来说,文本表示向量V0=[a1,a2,a3,…,an],其中n表示向量长度。
S205,基于BERT预训练模型对至少一个关键词进行向量化处理,生成至少一个关键词表示向量。
关键词表示向量为关键词经向量化处理之后,在文本表示向量中去掉相应的关键词部分的向量得到的特征向量。
在其中一个实施例中,基于BERT预训练模型对至少一个关键词进行向量化处理,得到至少一个关键词预向量;分别使用文本表示向量减去至少一个关键词预向量,得到至少一个关键词表示向量。
举例来说,某一文本数据向量化处理之后的文本表示向量为V0,抽取的关键词表示预向量分别为V1以及V2,需要理解的是,此处举例关键词为两个,实际关键词数量为多个时,关键词表示预向量可相应为多个。V1=[b1,b2,b3,…,bn],V2=[c1,c2,c3,…,cn],因此关键词表示向量分别为V0-V1=[a1-b1,a2-b2,a3-b3,…,an-bn]以及V0-V2=[a1-c1,a2-c2,a3-c3,…,an-cn],通过比对关键词表示向量与文本表示向量的相似度值,即为比对去掉关键词后的文本数据与原始的文本数据的相似度,据此确定关键词在文本数据中的重要程度。
S206,分别计算各关键词表示向量与文本表示向量的余弦相似度值,得到至少一个关键词的权重分。
举例来说,上述关键词表示预向量V1的权重分为cos(V0,V0-V1),关键词表示预向量V2的权重分为cos(V0,V0-V2),通过余弦相似度的方式计算关键词对应的权重分。
S207,基于各权重分对关键词进行排序,将排序最高的关键词确定为文本数据对应的关键词。
在其中一个实施例中,设定排序阈值N,排序阈值N不大于关键词的数量;将权重分值排序最高的N个关键词确定为文本数据对应的关键词。
基于用户设定或检索关键词数量需求设定排序阈值N,排序阈值N不大于关键词的数量。举例来说,最终得到的权重分排序为{“政策关键词1”:0.8;“政策关键词2”:0.4},设定排序阈值N=1,时,返回政策关键词为“政策关键词1”,相应的权重分为0.8;设定排序阈值N=2时,返回政策关键词分别为“政策关键词1”,对应的权重分为0.8,“政策关键词2”,对应的权重分为0.4,排序阈值N的作用为从排序结果中筛选出期望数量的政策关键词。
通过上述技术方案,将抽取的政策关键词进行向量化处理,通过计算关键词表示向量与文本表示向量的相似度,以判断所抽取关键词在文本数据中的重要程度,从而以权重分形式量化比对各个政策关键词的匹配度,从而提高关键词抽取的准确性。
请参见图2,其示出了本申请一个示例性实施例提供的政策关键词抽取装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括模型建立模块10、关键词抽取模块20、向量化处理模块30、权重分计算模块40以及关键词确定模块50。
模型建立模块10,用于获取关键词抽取模型;
关键词抽取模块20,用于获取文本数据,基于关键词抽取模型对文本数据进行关键词抽取,得到至少一个关键词;
向量化处理模块30,用于对文本数据以及至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;
权重分计算模块40,用于分别计算各关键词表示向量与文本表示向量的余弦相似度值,得到至少一个关键词的权重分;
关键词确定模块50,用于基于各权重分对关键词进行排序,将排序最高的关键词确定为文本数据对应的关键词。
可选的,模型建立模块10还包括模型训练单元11。
模型训练单元11,用于获取文本训练数据;对文本训练数据进行关键词标注,得到标注数据;基于标注数据训练得到关键词抽取模型。
可选的,关键词抽取模块20还包括文本数据清洗单元21。
文本数据清洗单元21,用于搜索并删除文本数据中的停用词、非法符号以及年限词。
可选的,向量化处理模块30还包括预训练模型处理单元31以及关键词表示向量处理单元32。
预训练模型处理单元31,用于获取BERT预训练模型;基于BERT预训练模型对文本数据进行向量化处理,生成文本表示向量;基于BERT预训练模型对至少一个关键词进行向量化处理,生成至少一个关键词表示向量。
关键词表示向量处理单元32,用于基于BERT预训练模型对至少一个关键词进行向量化处理,得到至少一个关键词预向量;分别使用文本表示向量减去至少一个关键词预向量,得到至少一个关键词表示向量。
可选的,关键词确定模块50还包括关键词数量确定单元51。
关键词数量确定单元51,用于设定排序阈值N,排序阈值N不大于关键词的数量;将权重分值排序最高的N个关键词确定为文本数据对应的关键词。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图2所示实施例的所述的政策关键词抽取方法,具体执行过程可以参加图1-图2所示实施例的具体说明,在此不进行赘述。
请参见图3,为本申请实施例提供了一种电子设备的结构示意图。如图3所示,电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行服务器的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及一种政策关键词抽取方法的应用程序。
在图3所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储一种政策关键词抽取方法的应用程序,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
一种电子设备可读存储介质,所述电子设备可读存储介质存储有指令。当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (10)
1.一种政策关键词抽取方法,其特征在于,所述方法包括:
获取关键词抽取模型;
获取文本数据,基于所述关键词抽取模型对所述文本数据进行关键词抽取,得到至少一个关键词;
对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;
分别计算各所述关键词表示向量与所述文本表示向量的余弦相似度值,得到所述至少一个关键词的权重分;
基于各所述权重分对所述关键词进行排序,将排序最高的关键词确定为所述文本数据对应的关键词。
2.根据权利要求1所述的方法,其特征在于,所述获取关键词抽取模型,包括:
获取文本训练数据;
对所述文本训练数据进行关键词标注,得到标注数据;
基于所述标注数据训练得到关键词抽取模型。
3.根据权利要求1所述的方法,其特征在于,所述获取文本数据之后,还包括:
搜索并删除所述文本数据中的停用词、非法符号以及年限词。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量,包括:
获取BERT预训练模型;
基于所述BERT预训练模型对所述文本数据进行向量化处理,生成文本表示向量;
基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量,包括:
基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,得到至少一个关键词预向量;
分别使用文本表示向量减去所述至少一个关键词预向量,得到至少一个关键词表示向量。
6.根据权利要求1所述的方法,其特征在于,所述将排序最高的关键词确定为所述文本数据对应的关键词,包括:
设定排序阈值N,所述排序阈值N不大于所述关键词的数量;
将权重分值排序最高的N个关键词确定为所述文本数据对应的关键词。
7.根据权利要求1所述的方法,其特征在于,所述关键词抽取模型为BERT-CRF模型。
8.一种政策关键词抽取装置,其特征在于,所述装置包括:
模型建立模块,用于获取关键词抽取模型;
关键词抽取模块,用于获取文本数据,基于所述关键词抽取模型对所述文本数据进行关键词抽取,得到至少一个关键词;
向量化处理模块,用于对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;
权重分计算模块,用于分别计算各所述关键词表示向量与所述文本表示向量的余弦相似度值,得到所述至少一个关键词的权重分;
关键词确定模块,用于基于各所述权重分对所述关键词进行排序,将排序最高的关键词确定为所述文本数据对应的关键词。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项所述的方法。
10.一种电子设备,其特征在于,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如权利要求1~7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211711385.3A CN115964474A (zh) | 2022-12-29 | 2022-12-29 | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211711385.3A CN115964474A (zh) | 2022-12-29 | 2022-12-29 | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115964474A true CN115964474A (zh) | 2023-04-14 |
Family
ID=87353851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211711385.3A Pending CN115964474A (zh) | 2022-12-29 | 2022-12-29 | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964474A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629254A (zh) * | 2023-05-05 | 2023-08-22 | 杭州正策信息科技有限公司 | 一种基于文本分析和识别的政策文本分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021203581A1 (zh) * | 2020-04-10 | 2021-10-14 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
CN114742052A (zh) * | 2022-04-25 | 2022-07-12 | 平安普惠企业管理有限公司 | 文本主旨的提取方法、装置、设备及存储介质 |
-
2022
- 2022-12-29 CN CN202211711385.3A patent/CN115964474A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021203581A1 (zh) * | 2020-04-10 | 2021-10-14 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
CN114742052A (zh) * | 2022-04-25 | 2022-07-12 | 平安普惠企业管理有限公司 | 文本主旨的提取方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629254A (zh) * | 2023-05-05 | 2023-08-22 | 杭州正策信息科技有限公司 | 一种基于文本分析和识别的政策文本分析方法 |
CN116629254B (zh) * | 2023-05-05 | 2024-03-22 | 杭州正策信息科技有限公司 | 一种基于文本分析和识别的政策文本分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110543920B (zh) | 图像识别模型的性能检测方法、装置、服务器及存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
US20210004602A1 (en) | Method and apparatus for determining (raw) video materials for news | |
Almiman et al. | Deep neural network approach for Arabic community question answering | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN112581327A (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN115964474A (zh) | 一种政策关键词抽取方法、装置、存储介质及电子设备 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
CN115759085A (zh) | 基于提示模型的信息预测方法、装置、电子设备及介质 | |
CN116089616A (zh) | 主题文本获取方法、装置、设备及存储介质 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 2201, block D, building 1, Chuangzhi Yuncheng bid section 1, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Qizhi Technology Co.,Ltd. Address before: 518000 2201, block D, building 1, Chuangzhi Yuncheng bid section 1, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: Qizhi Network Technology Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |