CN115204156A - 关键词提取方法及装置 - Google Patents
关键词提取方法及装置 Download PDFInfo
- Publication number
- CN115204156A CN115204156A CN202210825995.XA CN202210825995A CN115204156A CN 115204156 A CN115204156 A CN 115204156A CN 202210825995 A CN202210825995 A CN 202210825995A CN 115204156 A CN115204156 A CN 115204156A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- target
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供关键词提取方法及装置,其中所述关键词提取方法包括:获取待处理文本,识别待处理文本的文本类型;根据文本类型,确定文本类型对应的知识图谱;提取待处理文本中的关键词;将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。通过上述方法,利用待处理文本的文本类型,能够确定出与文本类型所属领域相对应的知识图谱,然后利用知识图谱与待处理文本中的关键词进行相似度对比,从而可以提取出准确的、与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
Description
技术领域
本申请涉及计算机领域,特别涉及一种关键词提取方法。本申请同时涉及一种关键词提取装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,关键词提取技术已经被广泛的应用于各个领域,关键词提取是文本检索、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。特别是对于新闻稿件、会议纪要等内容进行关键词提取,可以让读者快速了解其内容的主旨。
目前,进行关键词提取通常是预先利用大量携带有关键词标签的训练样本集对神经网络模型进行训练,然后利用训练好的神经网络模型对关键词进行提取。然而关键词提取的准确性需要依赖训练样本集中样本的数量,训练样本集样本数量的缺乏会直接影响关键词提取的准确性。因此,在训练样本较少的情况下,便无法利用神经网络模型对关键词进行提取,无法满足人们的需求。
发明内容
有鉴于此,本申请实施例提供了一种关键词提取方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种关键词提取装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种关键词提取方法,包括:
获取待处理文本,识别所述待处理文本的文本类型;
根据所述文本类型,确定所述文本类型对应的知识图谱;
提取所述待处理文本中的关键词;
将所述知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定所述待处理文本的目标关键词。
可选地,知识图谱中的信息包括实体信息和属性信息;
将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词,包括:
确定知识图谱中的实体信息和属性信息对应的参考词;
将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度;
若相似度大于或等于第一预设阈值,则确定关键词为目标关键词。
可选地,在确定知识图谱中的实体信息和属性信息对应的参考词之后,上述方法还包括:
将各参考词与待处理文本进行匹配,提取在待处理文本中出现、且不是待处理文本中关键词的目标参考词作为目标关键词。
可选地,提取在待处理文本中出现、且不是待处理文本中关键词的目标参考词作为目标关键词,包括:
提取在待处理文本中出现、且不是待处理文本中的关键词的目标参考词;
将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度;
若关键度大于或等于第二预设阈值,则确定目标参考词作为目标关键词。
可选地,在将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度之后,上述方法还包括:
若关键度小于第二预设阈值,则删除目标参考词。
可选地,在将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度之后,上述方法还包括:
若相似度小于第一预设阈值,则删除关键词。
可选地,文本类型包括文本所属的垂直领域;
识别待处理文本的文本类型,包括:
将待处理文本输入预先训练的领域识别模型,得到待处理文本所属的目标垂直领域,其中,领域识别模型为利用携带有垂直领域标签的样本文本对预设神经网络训练得到;
根据文本类型,确定文本类型对应的知识图谱,包括:
根据目标垂直领域,查找预先基于垂直领域建立的知识图谱库,确定目标垂直领域对应的知识图谱,其中,知识图谱库中记录有不同垂直领域对应的知识图谱。
根据本申请实施例的第二方面,提供了一种关键词提取装置,包括:
识别模块,被配置为获取待处理文本,识别待处理文本的文本类型;
知识图谱确定模块,被配置为根据文本类型,确定文本类型对应的知识图谱;
提取模块,被配置为提取待处理文本中的关键词;
目标关键词确定模块,被配置为将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。
可选地,知识图谱中的信息包括实体信息和属性信息;
目标关键词确定模块,进一步被配置为:
确定知识图谱中的实体信息和属性信息对应的参考词;
将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度;
若相似度大于或等于第一预设阈值,则确定关键词为目标关键词。
可选地,目标关键词确定模块,进一步被配置为:
将各参考词与待处理文本进行匹配,提取在待处理文本中出现、且不是待处理文本中关键词的目标参考词作为目标关键词。
可选地,目标关键词确定模块,进一步被配置为:
提取在待处理文本中出现、且不是待处理文本中的关键词的目标参考词;
将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度;
若关键度大于或等于第二预设阈值,则确定目标参考词作为目标关键词。
可选地,目标关键词确定模块,进一步被配置为:
若关键度小于第二预设阈值,则删除目标参考词。
可选地,目标关键词确定模块,进一步被配置为:
若相似度小于第一预设阈值,则删除关键词。
可选地,文本类型包括文本所属的垂直领域;
识别模块,进一步被配置为:
将待处理文本输入预先训练的领域识别模型,得到待处理文本所属的目标垂直领域,其中,领域识别模型为利用携带有垂直领域标签的样本文本对预设神经网络训练得到;
知识图谱确定模块,进一步被配置为:
根据目标垂直领域,查找预先基于垂直领域建立的知识图谱库,确定目标垂直领域对应的知识图谱,其中,知识图谱库中记录有不同垂直领域对应的知识图谱。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述关键词提取方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述关键词提取方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述关键词提取方法的步骤。
本申请提供的关键词提取方法,通过获取待处理文本,识别待处理文本的文本类型,然后根据文本类型,确定文本类型对应的知识图谱,提取待处理文本中的关键词,将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。通过上述方法,利用待处理文本的文本类型,能够确定出与文本类型所属领域相对应的知识图谱,然后利用知识图谱中的实体信息和属性信息与待处理文本中的关键词进行相似度对比,根据相似度对比结果,将与知识图谱中实体信息和属性信息相似度高的关键词作为待处理文本中的目标关键词,从而能够从待处理文本中提取出准确的、且与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
附图说明
图1示出了根据本申请一实施例提供的一种关键词提取系统的结构示意图;
图2示出了根据本申请一实施例提供的一种关键词提取方法的流程图;
图3示出了根据本申请一实施例提供的第一种目标关键词确定方法的流程图;
图4示出了根据本申请一实施例提供的第二种目标关键词确定方法的流程图;
图5示出了根据本申请一实施例提供的第三种目标关键词确定方法的流程图;
图6示出了根据本申请一实施例提供的第四种目标关键词确定方法的流程图;
图7示出了根据本申请一实施例提供的第五种目标关键词确定方法的流程图;
图8示出了根据本申请一实施例提供的一种目标垂直领域和知识图谱确定方法的流程图;
图9示出了根据本申请一实施例提供的一种应用于会议文章的关键词提取方法的处理流程图;
图10示出了根据本申请一实施例提供的一种关键词提取装置的结构示意图;
图11示出了根据本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
词频-逆向文本频率(TF-IDF,Term Frequency-Inverse Document Frequency):是一种用于信息检索和数据挖掘的加权技术,用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在本申请中,提供了一种关键词提取方法。本申请同时涉及一种关键词提取装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种关键词提取系统的结构示意图。
本申请提供的关键词提取系统包括训练端和应用端,其中,训练端和应用端可以是两个或多个不同的设备,也可以是同一个设备中的两个或多个不同组件,这里不做具体限定。训练端用于进行模型训练,应用端用于利用训练端训练好的模型对输入的待处理文本进行关键词提取。
应用端对待处理文本进行关键词提取具体可以通过以下方式实现:获取待处理文本,识别待处理文本的文本类型,根据文本类型确定文本类型对应的知识图谱,然后提取待处理文本中的关键词,将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。具体识别待处理文本的文本类型、关键词提取的步骤,可以采用训练端训练得到的模型,具体实现过程和模型训练过程见后续实施例。
通过上述方法,利用待处理文本的文本类型,能够确定出与文本类型所属领域相对应的知识图谱,然后利用知识图谱与待处理文本中的关键词进行相似度对比,从而可以提取出准确的、与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
图2示出了根据本申请一实施例提供的一种关键词提取方法的流程图,具体包括以下步骤:
S202、获取待处理文本,识别待处理文本的文本类型。
在本实施例中,待处理文本是指需要进行关键词提取的文本,实现关键词提取的执行主体可以是具有关键词提取功能的计算设备,例如具有关键词匹配功能的服务器、终端等。
要实现对待处理文本进行关键词提取,首先要识别出待处理文本的文本类型,其中,待处理文本的文本类型表征了待处理文本所属领域、结构、属性等。在识别出待处理文本的文本类型之后,便可以根据待处理文本的文本类型,提取出与文本类型关联程度高的目标关键词。
在本说明书实施例的一种可能的实现方式中,待处理文本的文本类型可以是待处理文本的垂直领域,其中,待处理文本的垂直领域是指在一个大的领域下所垂直细分出的待处理文本所属的具体领域,例如,在健康领域这一大领域下,待处理文本的垂直领域具体可以是养生领域、医疗领域、卫生领域等。
在获取到待处理文本之后,执行主体便对待处理文本的文本类型进行识别。识别待处理文本的文本类型的方式有多种,可以是在数据库中预先设置一个文本类型对照表,当获取到待处理文本之后,识别待处理文本的标识信息(具体可以是文本标题、文本编号等),根据标识信息在预设文本类型对照表中进行匹配,将匹配成功的文本类型作为待处理文本的文本类型;也可以利用预先训练好的神经网络模型对待处理文本的文本类型进行识别,例如,先利用携带有文本类型标签(文本类型标签具体可以是医疗领域标签、卫生领域标签等)的文本集作为训练样本集对自然语言处理(NLP,Natural Language Processing)等神经网络模型进行训练,其中,文本集中的每一个训练样本对应一个或者多个文本类型标签,然后将待处理文本输入至训练好的NLP模型,便可得到待处理文本的文本类型。本申请对识别文本类型的方式不做任何限定。
S204、根据文本类型,确定文本类型对应的知识图谱。
知识图谱是指一种将客观世界的实体和实体之间的关系进行相互关联的语义网络,知识图谱中的节点表示客观世界的实体,实体之间的边则代表实体之间的各种语义关系。知识图谱可以实现对语义搜索、情报检索进行充分的挖掘和分析,并展示实体之间的相互联系。
知识图谱的基本单位是“实体”-“关系”-“实体”或者“实体”-“属性”-“属性值”构成的三元组描述规则,即,实体是知识图谱中的基本元素。例如,在一个教育领域的知识图谱中,“学生A”和“老师B”便是知识图谱中的两个实体,“师生”便是“学生A”与“老师B”之间的关系,用“实体”-“关系”-“实体”的三元组描述规则来表示,即“学生A”-“师生”-“老师B”;又例如,对于“老师B”来说,“老师B”的属性是“老师”,属性值是“高中”,用“实体”-“属性”-“属性值”的三元组描述规则来表示,即“老师B”-“老师”-“高中”。
知识图谱的建立具体包括以下步骤:
首先,需要从各种类型的数据源中抽取出实体、属性以及实体之间的相互关系。具体的,抽取实体是指从各种类型的数据源中自动识别出命名实体,主要方法包括基于规则的方法、统计机器学习方法等。经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体与实体联系起来,才能够形成网状的知识结构。关系抽取的主要方法包括人工构造语法和语义规则、统计机器学习以及面向开放域的关系抽取技术等。属性抽取的目标是从不同数据源中采集特定实体的属性信息,例如针对某个公众任务,可以从网络公开信息中得到其昵称、生日、国际、教育背景等信息。
在从各种类型的数据源中抽取出实体、属性以及实体之间的相互关系后,需要将其表达成计算机可存储和计算的结构,具体可以为利用资源描述框架(RDF,ResourceDescription Framework)的三元组(SPO,Subject Property Object)描述规则来描述实体和属性之间的关系。
由于抽取到的实体、属性以及实体之间的相互关系可能包含大量的冗余和错误信息,数据之间的关系也是扁平化,缺乏层次性和逻辑性的。因此还需要进行知识融合对抽取到的实体、属性以及实体之间的相互关系进行逻辑归纳并过滤掉错误的信息,具体可以通过实体链接和知识合并两个流程实现。在进行知识融合之后,知识图谱便可成功构建。
在本实施例中,待处理文本的文本类型会携带对应的标签信息,在构建出若干个知识图谱后,便将知识图谱预先存储于服务器或者终端的数据库中,其中,每个知识图谱会对应一个或者多个文本类型的标签信息。当执行主体确定出待处理文本的文本类型之后,便可根据文本类型所携带的标签信息,在数据库中查找与待处理文本对应的知识图谱。
在本说明书实施例的一种可能的实现方式中,当获取到待处理文本之后,识别出待处理文本的文本类型,即识别出待处理文本的文本类型所携带的标签信息为“教育”,然后执行主体在服务器或者终端的数据库中查找与“教育”相对应的知识图谱,并将该知识图谱确定为文本类型对应的知识图谱。
S206、提取待处理文本中的关键词。
在确定出待处理文本的文本类型所对应的知识图谱后,执行主体便对待处理文本中的关键词进行提取。对待处理文本中的关键词进行提取,为后续进行相似度比对,确定目标关键词奠定了基础。
对待处理文本进行关键词提取可以通过预先训练神经网络模型,然后将待处理文本输入至训练好的神经网络模型进行关键词的提取;也可以利用无监督算法来实现对待处理文本的关键词提取。本说明书对待处理文本中关键词提取的方法不做限定。
在本实施例中,可以利用无监督算法来提取待处理文本中的关键词。例如,可以利用TF-IDF的方法提取待处理文本中的关键词,TF-IDF中的TF指的是词频,即某一个给定的目标词在该文本中出现的频率,具体可以通过以下公式(1)计算得到:
其中,f指的是目标词在文本中出现的次数,w指的是文本的总词数。
IDF指的是逆向文本频率,为了准确的提取出关键词,这时需要引入一个语料库,语料库用来模拟语言的使用环境,例如,语料库可以是预设的包含各个领域内容的文本库,IDF具体可以通过以下公式(2)计算得到:
其中,r指的是语料库中的文本总数,y指的是语料库中包含目标词的文本数;
目标词在文本中的词频-逆向文本频率TF-IDF越大,表示目标词在文本中的关键性程度就越高,就越能作为文本中的关键词,TF-IDF具体可以通过以下公式(3)计算得到:
TF-IDF=TF*IDF (3)
S208、将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。
在提取出待处理文本中的关键词之后,便将与待处理文本对应的知识图谱中的信息与提取得到的关键词进行相似度对比,并基于相似度对比结果确定待处理文本的目标关键词。
将知识图谱中的信息与提取得到的关键词进行相似度对比的方式有多种,例如利用预设的神经网络模型对知识图谱中的信息与提取得到的关键词进行相似度对比,进而得到相似度对比结果;还可以利用无监督算法(例如TF-IDF)计算知识图谱中的信息与提取得到的关键词的相似度。
在本实施例中,可以利用点互信息(PMI,Pointwise Mutual Information)来计算知识图谱中的信息与提取得到的关键词之间的相似度,PMI是用来衡量两个事物(例如两个词语)之间的相似度,PMI越大,则表示两个事物之间的相似度就越高,反之,PMI越小,两个事物之间的相似度就越小。将知识图谱中的信息与提取得到的关键词进行相似度对比的具体实现过程见后续实施例。
上述实施方式中,通过获取待处理文本,识别待处理文本的文本类型,然后根据文本类型,确定文本类型对应的知识图谱,提取待处理文本中的关键词,将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。通过上述方法,利用待处理文本的文本类型,能够确定出与文本类型所属领域相对应的知识图谱,然后利用知识图谱与待处理文本中的关键词进行相似度对比,从而可以提取出准确的、与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
针对图2所示实施例中的S208,具体实现过程如图3所示,图3示出了根据本申请一实施例提供的第一种目标关键词确定方法的流程图,具体包括以下步骤:
S302、确定知识图谱中的实体信息和属性信息对应的参考词。
S304、将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度。
S306、若相似度大于或等于第一预设阈值,则确定关键词为目标关键词。
在本实施例中,参考词是指在待处理文本所对应的知识图谱中,实体信息和属性信息各自指向的词或者短语。由于知识图谱的基本单位是“实体”-“关系”-“实体”或者“实体”-“属性”-“属性值”构成的三元组描述规则,而每个“实体”和“属性”都指向一个自带的词或者短语,因此,可以将“实体”和“属性”所自带的词或者短语作为参考词与待处理文本中的关键词进行相似度对比。
确定知识图谱中的实体信息和属性信息对应的参考词,具体方式为:基于知识图谱中利用三元组描述规则(“实体”-“关系”-“实体”或者“实体”-“属性”-“属性值”)作为基本单位描述实体和属性之间的关系,对应地,利用三元组描述规则确定实体信息和属性信息,根据实体信息和属性信息确定知识图谱中多个对应的词,确定为知识图谱中的参考词。
在一种实施方式中,可以基于三元组描述规则设定对应的正则表达式,利用正则表达式,对知识图谱进行检索,得到实体信息和属性信息对应的参考词。在另一种实施方式中,可以构建多个以三元组描述规则作为基本单位的知识图谱样本,利用知识图谱样本训练文本识别模型,再利用文本识别模型确定知识图谱中的实体信息和属性信息对应的参考词,其中,文本识别模型可以为CNN(Convolutional Neural Network,卷积神经网络模型),也可以为RNN(Recurrent Neural Network,循环神经网络模型),在此不作限定。
在一种实施方式中,可以将待处理文本中的关键词和参考词一并输入至预设的神经网络模型中进行相似度对比,然后输出待处理文本中每一个关键词与知识图谱中的参考词的相似度,相似度越高,则代表待处理文本的该关键词与待处理文本所对应的知识图谱的关联性越大。
在本实施例中,可以利用点互信息(PMI,Pointwise Mutual Information)来计算知识图谱中的信息与提取得到的关键词之间的相似度,PMI可以来衡量两个词语之间的相似程度,PMI越大,则表示两个事物之间的相似度就越高,反之,PMI越小,两个事物之间的相似度就越小。
在本说明书实施例的一种可能的实现方式中,首先预设一个相似度阈值作为第一预设阈值,当提取出待处理文本中的关键词之后,便将提取得到的关键词依次与各参考词进行相似度对比,得到关键词对比结果。例如,从待处理文本中提取到的关键词为“医院”,参考词为“医生”,分别计算出“医院”在知识图谱中出现的概率、“医生”在知识图谱中出现的概率以及“医院”、“医生”同时在知识图谱中出现的概率,然后利用PMI算法计算提取到的关键词“医院”与参考词“医生”之间的相似度,若相似度大于或者等于第一预设阈值的情况下,则确定待处理文本中的关键词为目标关键词。具体可以通过以下公式(4)计算得出关键词与参考词之间的相似度:
其中,x,y分别表示不同的词语;p(x)表示词语x在文本中出现的概率;p(y)表示词语y在文本中出现的概率;p(x,y)表示词语x、y同时在文本中出现的概率;PMI越大,则表示x、y之间的相似度越高;反之,相似度越低。
在上述实施方式中,通过确定知识图谱中的实体信息和属性信息对应的参考词,然后将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度,若相似度大于或者等于第一预设阈值的情况下,则确定关键词为目标关键词。通过上述方法,利用知识图谱中的实体信息和属性信息对应的参考词,与待处理文本中的关键词进行相似度对比,可以提取出与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
针对图3所示实施例中的S302之后,图4示出了根据本申请一实施例提供的第二种目标关键词确定方法的流程图,具体包括以下步骤:
S402、确定知识图谱中的实体信息和属性信息对应的参考词。
S404、将各参考词与待处理文本进行匹配,提取在待处理文本中出现、且不是待处理文本中关键词的目标参考词作为目标关键词。
在本实施例中,若仅利用知识图谱的实体信息和属性信息对应的参考词与待处理文本的关键词进行相似度对比的方法来提取待处理文本中的目标关键词,会有提取出的目标关键词不完整的情况发生。
因此,除了利用知识图谱的实体信息和属性信息对应的参考词与待处理文本的关键词进行相似度对比提取目标关键词外,还需要将知识图谱的实体信息和属性信息对应的参考词与待处理文本进行匹配,然后提取出在待处理文本中出现,且不是待处理文本中关键词的目标参考词作为待处理文本的目标关键词。
在本说明书实施例的一种可能的实现方式中,在确定知识图谱的多个三元组描述规则对应的内容中,根据实体信息和属性信息,提取对应的参考词之后,将各个参考词与待处理文本的整体文本内容进行关键词匹配,根据实体信息和属性信息,从知识图谱中提取在待处理文本中出现,且不是待处理文本中关键词的目标参考词作为目标关键词。例如,在确定出知识图谱中的实体信息和属性信息的参考词分别为“人工智能”、“机器训练”、“神经网络”之后,利用参考词与待处理文本的整体文本内容进行关键词匹配,根据关键词匹配结果,在知识图谱中的实体信息和属性信息所对应的参考词选取待处理文本中出现,且不是待处理文本中关键词的目标参考词为“神经网络”,则将“神经网络”作为待处理文本的目标关键词,并对该目标关键词进行提取。
在上述实施例中,通过将各参考词与待处理文本进行匹配,提取在待处理文本中出现、且不是待处理文本中关键词的目标参考词作为目标关键词。通过上述方法,能够对整个待处理文本的文本内容进行关键词提取,从而使得关键词提取的结果更加的准确、完整。
针对图4所示实施例中的S404,具体实现过程如图5所示,图5示出了根据本申请一实施例提供的第三种目标关键词确定方法的流程图,具体包括以下步骤:
S502、提取在待处理文本中出现、且不是待处理文本中的关键词的目标参考词。
S504、将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度。
S506、若关键度大于或等于第二预设阈值,则确定目标参考词作为目标关键词。
关键词识别模型是指能够实现识别关键词关键性程度功能的任意一种模型,可以利用训练好的神经网络模型对目标参考词进行识别,进而得到目标关键词的关键度,例如,先利用携带有关键度标签的大量词或短语作为训练样本集对神经网络模型进行训练,其中,训练样本集中的每个词或短语可以从预先建立的语料库中获得,然后将各目标参考词输入至训练好的神经网络模型中,便可得到各目标参考词所对应的关键度;
也可以利用TF-IDF的方法计算目标参考词的关键度,例如,首先计算目标参考词在待处理文本中出现的频率TF,具体可以通过上述公式(1)计算得到,然后预设一个包含各个领域内容的文本库作为语料库,然后基于语料库,计算出待处理文本的IDF,具体可以通过上述公式(2)计算得到,根据目标参考词的TF以及待处理文本的IDF,计算出目标参考词在待处理文本中的TF-IDF,具体可以通过上述公式(3)计算得到,TF-IDF越大,表示目标参考词在待处理文本中的关键性程度就越高。本说明书对关键词识别模型的种类不做任何限定。
在本实施例中,当根据待处理文本的关键词确定知识图谱中的实体信息和属性信息对应的参考词后,将各个参考词与整个待处理文本的文本内容进行关键词匹配,基于关键词匹配结果,会在参考词当中提取在待处理文本中出现,且不是待处理文本中的关键词作为目标参考词,然后将目标参考词输入至预先训练的关键词识别模型中,得到目标参考词的关键度,若关键度大于或等于第二预设阈值,则确定目标参考词作为目标关键词。
在本说明书实施例的一种可能的实现方式中,当识别出待处理文本的文本类型为人工智能类型,然后提取出待处理文本的关键词为“人工智能”、“机器学习”、“资金”、“成本”;
根据待处理文本的文本类型,确定出人工智能领域所对应的知识图谱中的实体信息和属性信息的参考词分别为“人工智能”、“机器训练”、“神经网络”、“深度学习”、“模型构建”;
然后将知识图谱中的实体信息和属性信息的各个参考词分别与整个待处理文本的文本内容进行关键词匹配,基于匹配结果,确定出在参考词当中有在待处理文本中出现,且不是待处理文本中的关键词为“深度学习”,即将“深度学习”、“模型构建”确定为知识图谱参考词当中的目标参考词。
然后预设一个关键度阈值作为第二预设阈值,其中,第二预设阈值设为5,将该目标参考词“深度学习”、“模型构建”输入预先训练的关键词识别模型中,计算该目标参考词在整个待处理文本中的关键度,即“深度学习”的关键度为8,“模型构建”的关键度为5,则目标参考词“深度学习”、“模型构建”的关键度满足预设关键度阈值的条件(关键度大于或者等于第二预设阈值),即将目标参考词“深度学习”、“模型构建”确定为待处理文本的目标关键词。
在上述实施例中,通过将各参考词与待处理文本进行匹配,提取在待处理文本中出现、且不是待处理文本中的关键词作为目标参考词,并将目标参考词输入预先训练的关键词识别模型中,得到目标参考词的关键度,如果关键度大于或者等于第二预设阈值,则确定目标参考词作为目标关键词。通过上述方法,能够对整个待处理文本的文本内容进行关键词提取,从而使得关键词提取的结果更加的准确、完整。
针对图5所示实施例中的S504之后,图6示出了根据本申请一实施例提供的第四种目标关键词确定方法的流程图,具体包括以下步骤:
S602、将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度。
S604、若关键度小于第二预设阈值,则删除目标参考词。
在本实施例中,将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度之后,如果关键度小于第二预设阈值,则表示提取出的在待处理文本中出现、且不是待处理文本中的关键词在待处理文本中的重要性程度低,不能够作为待处理文本的目标关键词,因此删除该目标参考词,从而使得关键词提取的结果更加的准确、完整。
在本说明书实施例的一种可能的实现方式中,待处理文本的关键词为“人工智能”、“机器学习”、“资金”、“成本”;知识图谱中的实体信息和属性信息的参考词分别为“人工智能”、“机器训练”、“神经网络”、“深度学习”、“模型构建”、“机器人模型”;
根据各个参考词,分别与整个待处理文本的文本内容进行关键词匹配,基于匹配结果确定出目标参考词分别为“深度学习”、“模型构建”、“机器人模型”;
然后预设一个关键度阈值作为第二预设阈值,其中,第二预设阈值为5,将上述目标参考词输入预先训练的关键词识别模型中,计算上述目标参考词在整个待处理文本中的关键度,即“深度学习”的关键度为8,“模型构建”的关键度为5,“机器人模型”的关键度为4,则目标参考词“机器人模型”的关键度不满足预设关键度阈值的条件(关键度大于或者等于第二预设阈值),即将该目标参考词“机器人模型”删除,将满足预设关键度阈值条件的“深度学习”、“模型构建”确定为待处理文本的目标关键词。
在上述实施方式中,若关键度小于第二预设阈值,则删除目标参考词。通过上述方法,可以将不满足关键度预设阈值的目标参考词进行删除,保留满足关键度预设阈值的目标参考词作为待处理文本的目标关键词,从而使得关键词提取的结果更加的准确、完整。
针对图3所示实施例中的S304之后,图7示出了根据本申请一实施例提供的第五种目标关键词确定方法的流程图,具体包括以下步骤:
S702、将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度。
S704、若相似度小于第一预设阈值,则删除关键词。
在本实施例中,从待处理文本中提取出关键词之后,将关键词依次与各参考词进行相似度对比,得到关键词与各参考词的相似度之后,若相似度小于第一预设阈值,则表示从待处理文本中提取出的关键词与知识图谱中的实体信息和属性信息的关联程度低,不能够作为待处理文本的目标关键词,因此删除该关键词,从而使得关键词提取的结果更加准确、完整。
在本说明书实施例的一种可能的实现方式中,提取出待处理文本中的关键词为“学生”、“中学”、“大学”、“投资成本”、“建设”;
确定出知识图谱中的实体信息和属性信息的参考词分别为“学生”、“学生教育”、“学校”、“教育资源”;
然后预设一个相似度阈值作为第一预设阈值,第一预设阈值为5,
将待处理文本中的关键词与教育领域所对应的知识图谱中的实体信息和属性信息的参考词进行相似度对比,得到相似度对比结果分别为“学生”相似度为10、“中学”相似度为6、“大学”相似度为5、“投资成本”相似度为4、“建设”相似度为0,则确定出相似度对比结果大于或者等于第一预设阈值5的关键词分别为“学生”、“中学”、“大学”,相似度对比结果小于第一预设阈值5的关键词分别为“投资成本”、“建设”,则删除待处理文本中关键词“投资成本”、“建设”,并最终确定“学生”、“中学”、“大学”为待处理文本的目标关键词,并对目标关键词进行提取。
在上述实施方式中,通过将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度,若相似度小于第一预设阈值,则删除关键词。通过上述方法,可以将待处理文本中不满足相似度预设阈值的关键词进行删除,保留满足相似度预设阈值的关键词作为待处理文本的目标关键词,从而可以提取出与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
针对图2所示实施例中的S202、S024,具体实现过程如图8所示,图8示出了根据本申请一实施例提供的一种目标垂直领域和知识图谱确定方法的流程图,具体包括以下步骤:
S802、将待处理文本输入预先训练的领域识别模型,得到待处理文本所属的目标垂直领域。
S804、根据目标垂直领域,查找预先基于垂直领域建立的知识图谱库,确定目标垂直领域对应的知识图谱。
领域识别模型是指能够识别待处理文本所属垂直领域的模型,其中,领域识别模型是利用携带有垂直领域标签的样本文本对预设神经网络训练得到的。
在本实施例中,训练端对领域识别模型进行训练可以通过以下方法实现:
领域识别模型可以为BERT模型,BERT模型是一个预训练语言模型,通过大量的数据训练,该模型能够在多个不同层次获取关键词在句子上下中所代表的词义。
首先获取大量的携带有垂直领域标签的文本集,所谓文本的垂直领域是指该文本在一个大的领域下所垂直细分出的各个具体的领域,例如,该文本内容所对应的大领域范围属于健康领域,则该文本内容所对应的垂直领域可以是养生领域、医疗领域、卫生领域等。
在获取到携带有垂直领域标签的文本集之后,给所有携带有垂直领域标签文本的预设关键词也标注该文本对应的垂直领域标签,并将携带有垂直领域标签的预设关键词作为领域识别模型的训练样本集。例如,在一个携带有医疗、卫生垂直领域标签的文本中,给预设的关键词也标注相应的垂直领域标签,并将其作为领域识别模型的训练样本集,比如该文本中的预设关键词为“医院”,则“医院”也相应的标注有医疗、卫生垂直领域的标签,并将“医院”作为领域识别模型的训练样本集。
在给所有携带有垂直领域标签的文本集中的预设关键词标注对应的垂直领域标签后,将所有携带有垂直领域标签的预设关键词作为BERT模型的训练样本集,然后随机掩盖一部分的预设关键词,通过调整模型的参数使得BERT模型来预测被掩盖部分的预设关键词,然后经过多次迭代训练最终识别准确度达到预设阈值,将识别准确度达到预设阈值的BERT模型作为训练好的领域识别模型。
在领域识别模型训练完成后,将未携带垂直领域标签的文本输入至领域识别模型中,该模型即可识别出文本所对应的垂直领域。
需要说明的是,领域识别模型不仅可以是BERT模型,任何输入为文本,输出为文本对应垂直领域的神经网络模型都可作为本申请的领域识别模型,本申请对领域识别模型的类型不做任何限定。
待处理文本的文本类型包括文本所属的垂直领域,其中,文本所属的垂直领域与知识图谱是相互对应的,一种文本所属的垂直领域可以对应一个或者多个预设的知识图谱。知识图谱是预先存储于知识图谱库中的,知识图谱库中记录有不同垂直领域对应的知识图谱。
在本实施例中,将获取到的待处理文本输入预先训练的领域识别模型中,得到待处理文本所属的目标垂直领域,然后根据目标垂直领域,查找预先基于垂直领域建立的知识图谱库,确定目标垂直领域对应的知识图谱,之所以利用待处理文本所属的目标垂直领域,确定目标垂直领域对应的知识图谱,是由于待处理文本的垂直领域是指该文本在一个大的领域下所垂直细分出的各个具体的领域,因此目标垂直领域与待处理文本的文本内容具有很强的关联性,利用待处理文本所属的目标垂直领域确定出的知识图谱与待处理文本中的关键词进行相似度对比,从而可以提取出准确的、与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
在本说明书实施例的一种可能的实现方式中,首先用携带有垂直领域标签的样本文本对预设神经网络训练,例如可以用携带有娱乐领域标签、医疗领域标签、教育领域标签、人工智能领域标签的训练样本文本集对卷积神经网络模型进行训练,经过多次迭代训练最终将识别准确度达到预设阈值后的卷积神经网络模型作为训练好的领域识别模型。
然后获取到待处理文本之后,便可将该待处理文本输入预先训练的领域识别模型中,得到待处理文本所属的目标垂直领域为“人工智能领域”,则根据该目标垂直领域,在存储于服务器数据中的知识图谱库中查找与“人工智能领域”相对应的知识图谱,“人工智能领域”所对应的知识图谱可以是一个,也可以是多个。
在获取到待处理文本所属垂直领域所对应的知识图谱后,便提取待处理文本中的关键词,然后将知识图谱中的实体信息与属性信息所对应的参考词与提取得到的待处理文本中的关键词进行相似度对比,然后基于对比结果确定待处理文本中的目标关键词。
通过上述方法,将待处理文本输入预先训练的领域识别模型,能够确定出与文本类型所属领域相对应的知识图谱,然后利用知识图谱与待处理文本中的关键词进行相似度对比,从而可以提取出准确的、与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
下述结合附图9以本申请提供的关键词提取方法对人工智能领域的会议文章应用为例,对关键词提取方法进行进一步说明。其中,图9示出了本申请一实施例提供的一种应用于会议文章的关键词提取方法的处理流程图,具体包括以下步骤:
S902:获取会议文章;
S904:利用预先训练的神经网络模型对人工智能领域的会议文章进行识别,得到该会议文章的文本类型;
该会议文章的文本类型为人工智能领域。
S906:根据该会议文章的文本类型,确定对应的知识图谱;
示例性地,对应人工智能领域的知识图谱为:人工智能–方法–机器学习,机器学习–囊括–深度学习,神经网络-囊括-卷积神经网络,卷积神经网络-结构-隐藏层,卷积层-前后结构-激活层。
S908:利用词频-逆向文本频率方法提取该会议文章中的关键词;
示例性地,提取得到该会议文章中的关键词:人工智能、神经网络、卷积神经网络、卷积层。
S910:根据关键词的实体信息和属性信息,从知识图谱中提取在待处理文本中出现、且不是待处理文本中的关键词的目标参考词;
示例性地,根据关键词的实体信息“人工智能”、“”神经网络”、“卷积神经网络”、“卷积层”和属性信息“方法”、“囊括”、“结构”、“前后结构”,从知识图谱中提取目标参考词为:机器学习、隐藏层、激活层。
S912:将目标参考词输入预先训练的关键词识别模型,利用词频-逆向文本频率方法计算目标参考词的关键度;
示例性地,计算得到目标参考词的关键度为:机器学习8,隐藏层6,激活层2。
S914:若关键度大于或等于关键度预设阈值,则确定目标参考词作为目标关键词;
示例性地,关键度预设阈值为5,保留关键度大于关键度预设阈值的目标参考词“机器学习”和“隐藏层”,作为目标关键词。
S916:若关键度小于关键度预设阈值,则删除目标参考词;
删除关键度小于关键度预设阈值的目标参考词“激活层”。
S918:利用点互信息方法依次计算各目标关键词与对应的目标参考词之间的相似度,得到各目标关键词的相似度;
示例性地,利用点互信息方法依次计算各目标关键词与各目标参考词之间的相似度,得到目标关键词“人工智能”和目标参考词“机器学习”之间的相似度为78%,得到目标关键词“卷积神经网络”和目标参考词“隐藏层”之间的相似度为43%。
S920:若相似度大于或等于相似度预设阈值,则保留目标关键词;
示例性地,相似度预设阈值为50%,确定相似度大于相似度预设阈值的关键词“人工智能”为目标关键词。
S922:若相似度小于相似度预设阈值,则删除目标关键词;
示例性地,删除相似度小于相似度预设阈值的关键词“卷积神经网络”。
S924:得到经过两次删除后保留的目标关键词。
得到保留的目标关键词“人工智能”。
本申请提供的应用于会议文章的关键词提取方法,利用预先训练的神经网络模型对会议文章进行识别,得到该会议文章的文本类型,再根据该会议文章的文本类型,确定对应的知识图谱,由于知识图谱包含多个参考词,为后续根据确定目标关键词奠定了基础;利用词频-逆向文本频率方法提取该会议文章中的关键词,并根据关键词的实体信息和属性信息,从知识图谱中提取在待处理文本中出现、且不是待处理文本中的关键词的目标参考词,保证了提取得到的关键词的准确度,同时保证了得到的目标参考词的准确度和完整度;经过预先训练的关键词识别模型,利用词频-逆向文本频率方法计算参考词的关键度,对目标参考词进行筛选,保证了后续将关键词和目标参考词比较的准确度;利用点互信息方法依次计算关键词与各目标参考词之间的相似度,对目标关键词进行筛选,保留了准确的、与待处理文本所属领域关联程度高的目标关键词,提高了最终得到的目标关键词的准确性。
与上述方法实施例相对应,本申请还提供了关键词提取装置实施例,图10示出了根据本申请一实施例提供的一种关键词提取装置的结构示意图。如图10所示,该装置包括:
识别模块1002,被配置为获取待处理文本,识别待处理文本的文本类型;
知识图谱确定模块1004,被配置为根据文本类型,确定文本类型对应的知识图谱;
提取模块1006,被配置为提取待处理文本中的关键词;
目标关键词确定模块1008,被配置为将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。
可选地,知识图谱中的信息包括实体信息和属性信息;
目标关键词确定模块1008,进一步被配置为:
确定知识图谱中的实体信息和属性信息对应的参考词;
将提取得到的关键词依次与各参考词进行相似度对比,得到关键词的相似度;
若相似度大于或等于第一预设阈值,则确定关键词为目标关键词。
可选地,目标关键词确定模块1008,进一步被配置为:
利用三元组描述规则确定知识图谱中的实体信息和属性信息;
根据实体信息和属性信息确定知识图谱中多个对应的词,确定为知识图谱中的参考词。
可选地,目标关键词确定模块1008,进一步被配置为:
将各参考词与待处理文本进行匹配,提取在待处理文本中出现、且不是待处理文本中关键词的目标参考词作为目标关键词。
可选地,目标关键词确定模块1008,进一步被配置为:
提取在待处理文本中出现、且不是待处理文本中的关键词的目标参考词;
将目标参考词输入预先训练的关键词识别模型,得到目标参考词的关键度;
若关键度大于或等于第二预设阈值,则确定目标参考词作为目标关键词。
可选地,目标关键词确定模块1008,进一步被配置为:
若关键度小于第二预设阈值,则删除目标参考词。
可选地,目标关键词确定模块1008,进一步被配置为:
若相似度小于第一预设阈值,则删除关键词。
可选地,文本类型包括文本所属的垂直领域;
识别模块1002,进一步被配置为:
将待处理文本输入预先训练的领域识别模型,得到待处理文本所属的目标垂直领域,其中,领域识别模型为利用携带有垂直领域标签的样本文本对预设神经网络训练得到;
知识图谱确定模块1004,进一步被配置为:
根据目标垂直领域,查找预先基于垂直领域建立的知识图谱库,确定目标垂直领域对应的知识图谱,其中,知识图谱库中记录有不同垂直领域对应的知识图谱。
本申请提供的关键词提取装置,通过获取待处理文本,识别待处理文本的文本类型,然后根据文本类型,确定文本类型对应的知识图谱,提取待处理文本中的关键词,将知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定待处理文本的目标关键词。通过上述方法,利用待处理文本的文本类型,能够确定出与文本类型所属领域相对应的知识图谱,然后利用知识图谱与待处理文本中的关键词进行相似度对比,从而可以提取出准确的、与待处理文本所属领域关联程度高的目标关键词,提高了关键词提取的准确性。
上述为本实施例的一种关键词提取装置的示意性方案。需要说明的是,该关键词提取装置的技术方案与上述的关键词提取方法的技术方案属于同一构思,关键词提取装置的技术方案未详细描述的细节内容,均可以参见上述关键词提取方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图11示出了根据本申请一实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,LocalArea Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperabilityfor Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本申请的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行所述关键词提取方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的关键词提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述关键词提取方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于关键词提取方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的关键词提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述关键词提取方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述关键词提取方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种关键词提取方法,其特征在于,包括:
获取待处理文本,识别所述待处理文本的文本类型;
根据所述文本类型,确定所述文本类型对应的知识图谱;
提取所述待处理文本中的关键词;
将所述知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定所述待处理文本的目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱中的信息包括实体信息和属性信息;
所述将所述知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定所述待处理文本的目标关键词,包括:
确定所述知识图谱中的实体信息和属性信息对应的参考词;
将提取得到的关键词依次与各参考词进行相似度对比,得到所述关键词的相似度;
若所述相似度大于或等于第一预设阈值,则确定所述关键词为目标关键词。
3.根据权利要求2所述的方法,其特征在于,在所述确定所述知识图谱中的实体信息和属性信息对应的参考词之后,所述方法还包括:
将各参考词与所述待处理文本进行匹配,提取在所述待处理文本中出现、且不是所述待处理文本中关键词的目标参考词作为目标关键词。
4.根据权利要求3所述的方法,其特征在于,所述提取在所述待处理文本中出现、且不是所述待处理文本中关键词的目标参考词作为目标关键词,包括:
提取在所述待处理文本中出现、且不是所述待处理文本中的关键词的目标参考词;
将所述目标参考词输入预先训练的关键词识别模型,得到所述目标参考词的关键度;
若所述关键度大于或等于第二预设阈值,则确定所述目标参考词作为目标关键词。
5.根据权利要求4所述的方法,其特征在于,在所述将所述目标参考词输入预先训练的关键词识别模型,得到所述目标参考词的关键度之后,所述方法还包括:
若所述关键度小于所述第二预设阈值,则删除所述目标参考词。
6.根据权利要求2-5中任一项所述的方法,其特征在于,在所述将提取得到的关键词依次与各参考词进行相似度对比,得到所述关键词的相似度之后,所述方法还包括:
若所述相似度小于所述第一预设阈值,则删除所述关键词。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述文本类型包括文本所属的垂直领域;
所述识别所述待处理文本的文本类型,包括:
将所述待处理文本输入预先训练的领域识别模型,得到所述待处理文本所属的目标垂直领域,所述领域识别模型为利用携带有垂直领域标签的样本文本对预设神经网络训练得到;
所述根据所述文本类型,确定所述文本类型对应的知识图谱,包括:
根据所述目标垂直领域,查找预先基于垂直领域建立的知识图谱库,确定所述目标垂直领域对应的知识图谱,所述知识图谱库中记录有不同垂直领域对应的知识图谱。
8.一种关键词提取装置,其特征在于,包括:
识别模块,被配置为获取待处理文本,识别所述待处理文本的文本类型;
知识图谱确定模块,被配置为根据所述文本类型,确定所述文本类型对应的知识图谱;
提取模块,被配置为提取所述待处理文本中的关键词;
目标关键词确定模块,被配置为将所述知识图谱中的信息与提取得到的关键词进行相似度对比,基于对比结果确定所述待处理文本的目标关键词。
9.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至7任意一项所述关键词提取方法的步骤。
10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至7任意一项所述关键词提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210825995.XA CN115204156A (zh) | 2022-07-14 | 2022-07-14 | 关键词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210825995.XA CN115204156A (zh) | 2022-07-14 | 2022-07-14 | 关键词提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115204156A true CN115204156A (zh) | 2022-10-18 |
Family
ID=83579406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210825995.XA Pending CN115204156A (zh) | 2022-07-14 | 2022-07-14 | 关键词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204156A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205221A (zh) * | 2023-05-05 | 2023-06-02 | 北京睿企信息科技有限公司 | 实体识别和文本分类的方法、存储介质和计算机设备 |
CN116933800A (zh) * | 2023-09-12 | 2023-10-24 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN117195913A (zh) * | 2023-11-08 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、存储介质及程序产品 |
CN117743538A (zh) * | 2023-12-19 | 2024-03-22 | 中国人寿保险股份有限公司山东省分公司 | 实时客服云端数据的管理方法、装置及计算机设备 |
-
2022
- 2022-07-14 CN CN202210825995.XA patent/CN115204156A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205221A (zh) * | 2023-05-05 | 2023-06-02 | 北京睿企信息科技有限公司 | 实体识别和文本分类的方法、存储介质和计算机设备 |
CN116933800A (zh) * | 2023-09-12 | 2023-10-24 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN116933800B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN117195913A (zh) * | 2023-11-08 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、存储介质及程序产品 |
CN117195913B (zh) * | 2023-11-08 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、存储介质及程序产品 |
CN117743538A (zh) * | 2023-12-19 | 2024-03-22 | 中国人寿保险股份有限公司山东省分公司 | 实时客服云端数据的管理方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475623B (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN115204156A (zh) | 关键词提取方法及装置 | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及系统 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN113157886B (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
CN116795973A (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN110609886A (zh) | 一种文本分析方法及装置 | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
Meenakshi et al. | Novel Shared Input Based LSTM for Semantic Similarity Prediction | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN114647719A (zh) | 一种基于知识图谱的问答方法及装置 | |
CN114942981A (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
Llopis et al. | Matching user queries in natural language with Cyber-Physical Systems using deep learning through a Transformer approach | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN114861657A (zh) | 会议关键句提取方法及装置 | |
CN112749251B (zh) | 文本处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |