CN113869044A - 关键词自动提取方法、装置、设备及存储介质 - Google Patents

关键词自动提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113869044A
CN113869044A CN202111187827.4A CN202111187827A CN113869044A CN 113869044 A CN113869044 A CN 113869044A CN 202111187827 A CN202111187827 A CN 202111187827A CN 113869044 A CN113869044 A CN 113869044A
Authority
CN
China
Prior art keywords
text
keyword
target
keywords
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111187827.4A
Other languages
English (en)
Inventor
袁超
徐介夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111187827.4A priority Critical patent/CN113869044A/zh
Publication of CN113869044A publication Critical patent/CN113869044A/zh
Priority to PCT/CN2022/071258 priority patent/WO2023060795A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能领域,具体公开了一种关键词自动提取方法、装置、设备及存储介质。该方法包括:获取用于训练的样本文本,从样本文本中提取关键词,按照关键词提取的先后顺序对关键词进行排序,依序对所有关键词进行标签处理,获得含有标签的关键词集合;将样本文本与关键词集合进行关联处理以形成训练数据集;基于训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化语言预测模型,获得目标语言预测模型;获取待处理文本并将待处理文本输入目标语言预测模型中,输出包含标签的目标关键词集合,根据标签从目标关键词集合中提取待处理文本的目标关键词。通过上述方式,本发明能够提高关键词获取效率和准确率。

Description

关键词自动提取方法、装置、设备及存储介质
技术领域
本发明涉及人工智能的自然语言技术领域,特别是涉及一种关键词自动提取方法、装置、设备及存储介质。
背景技术
关键词抽取作为文本挖掘中一项重要的技术,是信息检索、文本分类以及推荐系统等基础性和必要性的工作。文本关键词浓缩了整篇文本的主旨和要义,是对一篇文本的高度概括。通过从一篇文本中提取具有概括功能的词或短语,可以帮助用户快速检索到用户所需要的信息以及快速判断文本的需要性,并有效解决了信息过载的问题。
当前提取关键词的方法有很多种,采用的主要方法有基于统计TF-IDF的算法、基于图模型的TextRank算法以及基于主题模型的LDA算法。但大多数是利用词频、位置等信息来作为衡量关键词的重要特征,这种方式提取的关键词不能很好的概括文本内容,无法很好的获取句子之间以及关键词之间的深层次语义联系,会造成潜在的有用关键词无法提取出来,从而使抽取的关键词的查准率和查全率都不高。
随着Seq2seq框架的提出,在循环神经网络中引入了注意力机制和复制机制,使得该神经网络能够预测出词汇表和源文档以外的关键词,提高了关键词抽取的质量,但关键词抽取的效率仍有待提高。
发明内容
本发明提供一种关键词自动提取方法、装置、设备及存储介质,能够提高关键词获取效率和准确率,解决目前从文本中通过提取摘要获取关键词导致的效率低且不准确的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种关键词自动提取方法,包括:
获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合;
将所述样本文本与所述关键词集合进行关联处理以形成训练数据集;
基于所述训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化所述语言预测模型,获得目标语言预测模型;
获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合,根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词。
根据本发明的一个实施例,所述获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合包括:
获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排列;
在排列结果中的第一个关键词之前插入第一标签,在排列结果中的最后一个关键词之后插入第二标签,在相邻的两个所述关键词之间插入第三标签,获得含有所述第一标签、所述第二标签以及所述第三标签的关键词集合。
根据本发明的一个实施例,所述根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词包括:
从所述目标关键词集合中识别所述第二标签;
根据所述第二标签的位置提取所述待处理文本中的所有所述目标关键词。
根据本发明的一个实施例,所述获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合包括:
获取所述待处理文本,基于Bert网络对所述待处理文本进行特征提取,获得特征向量;
对所述特征向量进行编码处理,获得每个所述特征向量的隐藏向量,对所述隐藏向量进行拼接处理,获得拼接向量;
对所述拼接向量进行解码处理,获得与所述特征向量对应的解码向量;
根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重,并根据所述指针权重获得目标关键词概率分布,根据所述目标关键词概率分布确定所述目标关键词集合。
根据本发明的一个实施例,所述根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重,并根据所述指针权重获得目标关键词概率分布,根据所述目标关键词概率分布确定所述目标关键词集合包括:
基于自注意力机制根据所述隐藏向量和所述解码向量获得所述待处理文本中每个词的注意力分布;
根据所述注意力分布和所述解码向量预测所需生成词的词汇分布;
根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重;
将所述指针权重与所述注意力分布、所述词汇分布进行加权计算,获得目标关键词概率分布,根据目标关键词概率分布确定所述目标关键词集合。
根据本发明的一个实施例,所述指针权重用于确定所述目标关键词的获取方式,所述获取方式包括生成式和抽取式,所述指针权重按照如下公式进行计算:
Figure BDA0003300010200000031
其中,
Figure BDA0003300010200000032
为编码处理过程中每个t时刻的隐藏向量,st为解码过程中t时刻的解码向量,xt为t时刻的所述拼接向量,σ表示sigmoid函数,将值映射到0-1,则,Pgen∈[0,1],Pgen表示生成概率,当Pgen偏向1时,以生成式的方式根据所述词汇分布生成所述目标关键词,当Pgen偏向0时,以抽取式的方式根据所述注意力分布从所述待处理文本中直接复制所述目标关键词。
根据本发明的一个实施例,所述目标关键词概率分布按照如下公式进行计算:
Figure BDA0003300010200000041
其中,
Figure BDA0003300010200000042
表示以抽取式的方式从所述词汇分布中获得所述目标关键词的概率分布,其中,wi表示所述词汇分布中的第i个词汇,
Figure BDA0003300010200000043
表示第t个时间步中,所述词汇分布中第i个词的注意力权重,Pgen表示生成概率,1-Pgen表示从所述待处理文本中直接复制所述目标关键词的概率,Pvocab(w)表示以生成式的方式生成所述目标关键词的概率分布,P(w)表示获取目标关键词w的概率等于从所述词汇分布生成w的概率再加上从所述待处理文本直接复制w的概率。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种关键词自动提取装置,包括:
标签处理模块,用于获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合;
关联处理模块,用于将所述样本文本与所述关键词集合进行关联处理以形成训练数据集;
模型训练模块,用于基于所述训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化所述语言预测模型,获得目标语言预测模型;
关键词提取模块,用于获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合,根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的关键词自动提取方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述关键词自动提取方法。
本发明的有益效果是:通过对语言预测模型的输出结果进行标签识别并根据识别结果提取关键词,并不限制关键词的提取数量,从而实现从文本中提取多个不限数量的关键词,通过标签识别结果直接提取关键词,与现有方案相比,无需通过统计词频或者机器学习的方式获取关键词,从而提高了关键词获取效率和准确率,解决了目前从文本中通过提取摘要获取关键词导致的效率低且不准确的问题。
附图说明
图1是本发明第一实施例的关键词自动提取方法的流程示意图;
图2是本发明实施例的关键词自动提取方法中步骤S101的流程示意图;
图3是本发明实施例的关键词自动提取方法中步骤S104的流程示意图;
图4是本发明实施例的关键词自动提取方法中步骤S304的流程示意图;
图5是本发明实施例的关键词自动提取装置的结构示意图;
图6是本发明实施例的计算机设备的结构示意图;
图7是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
图1是本发明第一实施例的关键词自动提取方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取用于训练的样本文本,从样本文本中提取关键词,按照关键词提取的先后顺序对关键词进行排序,依序对所有关键词进行标签处理,获得含有标签的关键词集合。
在步骤S101中,获取用于训练的样本文本,对样本文本进行预处理,由于所获取的样本文本的质量与后续训练出的预测模型的预测准确度息息相关,因此,需对相似的样本文本进行去重处理,对低质量的样本文本进行过滤处理。对预处理后的样本文本在人工干预的情况下,采用关键词提取算法进行关键词提取并对提取结果进行人工复检。本实施例的关键词提取算法例如,TF-IDF算法以及TextRank算法等。本实施例提取关键词后,按照关键词提取的先后顺序对所有关键词进行排序,在第一个关键词的开头插入起始标签,在最后一个关键词的结尾插入结束标签,在相邻的两个关键词之间插入连接标签,从而获得包含关键词、起始标签、结束标签以及连接标签的关键词集合。例如:起始标签为<START>,结束标签为<EOS>,连接标签为[unused50],从一个样本文本中提取关键词如下:“预训练语言模型、自然语言处理、抽取式摘要、小数据集”,则关键词集合可以表示为“<START>预训练语言模型[unused50]自然语言处理[unused50]抽取式摘要[unused50]小数据集<EOS>”。
进一步地,请参见图2,步骤S101还包括以下步骤:
步骤S201:获取用于训练的样本文本,从样本文本中提取关键词,按照关键词提取的先后顺序对关键词进行排列。
步骤S202:在排列结果中的第一个关键词之前插入第一标签,在排列结果中的最后一个关键词之后插入第二标签,在相邻的两个关键词之间插入第三标签,获得含有第一标签、第二标签以及第三标签的关键词集合。
在步骤S202中,第一标签为起始标签,表示关键词提取开始,第二标签为结束标签,表示关键词提取结束,第三标签为连接标签,表示相邻两个关键词之间的连接,通过第三标签的标识能够准确识别并获取关键词。
本实施例通过起始标签和结束标签识别提取关键词的开始和结束,并不限制关键词的提取数量,从而实现从文本中提取多个不限数量的关键词,通过连接标签将关键词分割,以便直接识别关键词,与现有方案相比,在后续关键词预测结果中无需通过统计词频或者机器学习的方式获取关键词,从而提高了关键词获取效率和准确率,解决了目前从文本中获取摘要,再通过摘要获取关键词导致的获取效率低且不准确的问题。
步骤S102:将样本文本与关键词集合进行关联处理以形成训练数据集。
在步骤S102中,一个样本文本对应一个关键词集合,一个样本文本与对应的关键词集合进行关联处理形成一条训练数据,将多个样本文本分别与其对应的关键词集合进行关联处理形成训练数据集。
步骤S103:基于训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化语言预测模型,获得目标语言预测模型。
在步骤S103中,预构建好的语言预测模型为基于Seq2seq框架的编码-解码模型,该模型融合了指针生成网络。本实施例的语言预测模型包括特征提取模块、编码模块、解码模块以及指针模块,特征提取模块采用Bert网络对每个词进行特征提取,将每个词融合上下文语义,加强了每个词的特征获取能力;编码模块采用双向的LSTM,捕捉特征提取模块输出结果的长距离依赖关系以及位置关系,并运用自注意力机制优化隐藏状态语义表示,提取文本中关键词的特征;解码模块采用单向的LSTM,利用指针网络和Coverage机制提高关键词的注意力分布;指针模块通过计算生成概率判断提取的关键词应该直接从文本中复制还是重新生成。
本实施例对训练数据集进行分割处理,将训练数据集按照第一预设比例分成第一训练集和测试集,将第一训练集按照第二预设比例分成第二训练集和验证集。第一预设比例可以为7:3,第二预设比例可以为9:1。第二训练集用于对预构建好的语言预测模型进行训练,本实施例第二训练集的每一条训练数据中,利用样本文本作为编码模块的输入,对编码模块进行训练,利用关键词集合作为解码模块的输入,对解码模块进行训练,验证集用于对训练好的语言预测模型的测试结果进行验证,测试集用于用经过验证之后重新调整的语言预测模型进行测试。
步骤S104:获取待处理文本并将待处理文本输入目标语言预测模型中,输出包含标签的目标关键词集合,根据标签从目标关键词集合中提取待处理文本的目标关键词。
在步骤S104中,目标语言预测模型的输入为待处理文本的序列,输出为含有标签的目标关键词集合。本实施例从目标关键词集合中识别第二标签;根据第二标签的位置提取待处理文本中的所有目标关键词。例如,目标关键词集合表示为“<START>预训练语言模型[unused50]自然语言处理[unused50]抽取式摘要[unused50]小数据集<EOS>”,则从目标关键词集合中识别出“[unused50]”标签标识,出现在该标签标识左右的词均为目标关键词。
本实施例的目标语言预测模型包括特征提取模块、编码模块、解码模块以及指针模块,本实施例的特征提取模块基于Bert网络对待处理文本进行特征提取;编码模块接收特征提取结果并经过双向的LSTM对特征提取模块的特征提取结果进行编码,得到中间隐藏向量并将中间隐藏向量进行拼接;解码模块接收拼接结果并将拼接结果进行解码;指针模块则通过编码结果和解码结果计算指针权重,根据指针权重确定目标关键词的获取方式。
进一步地,请参见图3,步骤S104中还包括以下步骤:
步骤S301:获取待处理文本,基于Bert网络对待处理文本进行特征提取,获得特征向量。
本实施例获取待处理文本,基于Bert网络对待处理文本中的每个词进行特征提取,获得与每个词对应的特征向量,通过Bert网络可以将每个词融合上下文语义,提高了每个词之间的关联关系。
步骤S302:对特征向量进行编码处理,获得每个特征向量的隐藏向量,对隐藏向量进行拼接处理,获得拼接向量。
本实施例将特征向量输入编码模块中,基于双向的LSTM依序对每个特征向量进行编码处理,对应每个特征向量获得一个中间层的隐藏向量,再对所有隐藏向量进行拼接处理,获得拼接向量,将拼接向量作为编码模块的一个输出。
步骤S303:对拼接向量进行解码处理,获得与特征向量对应的解码向量。
本实施例将拼接向量作为解码模块的输入,依序对拼接向量中的每个元素进行解码,对应每个元素均获得中间层的解码结果,将所有解码结果进行拼接,获得对应的解码向量,将解码向量作为解码模块的输出。
步骤S304:根据隐藏向量、拼接向量以及解码向量计算指针权重,并根据指针权重获得目标关键词概率分布,根据目标关键词概率分布确定目标关键词集合。
本实施例的指针权重用于确定目标关键词的获取方式,获取方式包括生成式和抽取式。
进一步地,请参见图4,步骤S304还包括以下步骤:
步骤S401:基于自注意力机制根据隐藏向量和解码向量获得待处理文本中每个词的注意力分布。
本实施例中,基于自注意力机制,根据每个词的隐藏向量和解码向量计算注意力值,得到与待处理文本对应的词汇的注意力分布,该注意力分布表示从文本中复制目标关键词的概率。
步骤S402:根据注意力分布和解码向量预测所需生成词的词汇分布。
本实施例对注意力分布和解码向量进行线性变换,基于softmax函数将线性变换结果转换成词汇概率分布,即词汇分布,该词汇分布表示重新生成的词汇作为目标关键词的概率。
步骤S403:根据隐藏向量、拼接向量以及解码向量计算指针权重。
本实施例的指针权重表示以生成方式获取目标关键词的概率,根据指针权重能够确定获取目标关键词的方式,指针权重取[0,1],指针权重趋向0,确定以抽取方式获得目标关键词,指针权重趋向1,确定以生成方式获得目标关键词。
进一步地,指针权重按照如下公式进行计算:
Figure BDA0003300010200000101
其中,
Figure BDA0003300010200000102
为编码处理过程中每个t时刻的隐藏向量,st为解码过程中t时刻的解码向量,xt为t时刻的拼接向量,σ表示sigmoid函数,将值映射到0-1,则,Pgen∈[0,1],Pgen表示生成概率,当Pgen偏向1时,以生成式的方式根据词汇分布生成目标关键词,当Pgen偏向0时,以抽取式的方式根据注意力分布从待处理文本中直接复制目标关键词。
步骤S404:将指针权重与注意力分布、词汇分布进行加权计算,获得目标关键词概率分布,根据目标关键词概率分布确定目标关键词集合。
在步骤S404中,目标关键词概率分布按照如下公式进行计算:
Figure BDA0003300010200000111
其中,
Figure BDA0003300010200000112
表示以抽取式的方式从词汇分布中获得目标关键词的概率分布,其中,wi表示词汇分布中的第i个词汇,
Figure BDA0003300010200000113
表示第t个时间步中,词汇分布中第i个词的注意力权重,Pgen表示生成概率,1-Pgen表示从待处理文本中直接复制目标关键词的概率,pvocab(w)表示以生成式的方式生成目标关键词的概率分布,P(w)表示获取目标关键词w的概率等于从词汇分布生成w的概率再加上从待处理文本直接复制w的概率。
本发明第一实施例的关键词自动提取方法通过对语言预测模型的输出结果进行标签识别并根据识别结果提取关键词,并不限制关键词的提取数量,从而实现从文本中提取多个不限数量的关键词,通过标签识别结果直接提取关键词,与现有方案相比,无需通过统计词频或者机器学习的方式获取关键词,从而提高了关键词获取效率和准确率,解决了目前从文本中通过提取摘要获取关键词导致的效率低且不准确的问题。
图5是本发明实施例的关键词自动提取装置的结构示意图。如图5所示,该装置50包括标签处理模块51、关联处理模块52、模型训练模块53和关键词提取模块54。
标签处理模块51用于获取用于训练的样本文本,从样本文本中提取关键词,按照关键词提取的先后顺序对关键词进行排序,依序对所有关键词进行标签处理,获得含有标签的关键词集合;
关联处理模块52用于将样本文本与关键词集合进行关联处理以形成训练数据集;
模型训练模块53用于基于训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化语言预测模型,获得目标语言预测模型;
关键词提取模块54用于获取待处理文本并将待处理文本输入目标语言预测模型中,输出包含标签的目标关键词集合,根据标签从目标关键词集合中提取待处理文本的目标关键词。
请参阅图6,图6为本发明实施例的计算机设备的结构示意图。如图6所示,该计算机设备60包括处理器61及和处理器61耦接的存储器62。
存储器62存储有用于实现上述任一实施例所述的关键词自动提取方法的程序指令。
处理器61用于执行存储器62存储的程序指令以提取关键词。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图7,图7为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件71,其中,该程序文件71可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种关键词自动提取方法,其特征在于,包括:
获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合;
将所述样本文本与所述关键词集合进行关联处理以形成训练数据集;
基于所述训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化所述语言预测模型,获得目标语言预测模型;
获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合,根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合包括:
获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排列;
在排列结果中的第一个关键词之前插入第一标签,在排列结果中的最后一个关键词之后插入第二标签,在相邻的两个所述关键词之间插入第三标签,获得含有所述第一标签、所述第二标签以及所述第三标签的关键词集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词包括:
从所述目标关键词集合中识别所述第二标签;
根据所述第二标签的位置提取所述待处理文本中的所有所述目标关键词。
4.根据权利要求1所述的方法,其特征在于,所述获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合包括:
获取所述待处理文本,基于Bert网络对所述待处理文本进行特征提取,获得特征向量;
对所述特征向量进行编码处理,获得每个所述特征向量的隐藏向量,对所述隐藏向量进行拼接处理,获得拼接向量;
对所述拼接向量进行解码处理,获得与所述特征向量对应的解码向量;
根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重,并根据所述指针权重获得目标关键词概率分布,根据所述目标关键词概率分布确定所述目标关键词集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重,并根据所述指针权重获得目标关键词概率分布,根据所述目标关键词概率分布确定所述目标关键词集合包括:
基于自注意力机制根据所述隐藏向量和所述解码向量获得所述待处理文本中每个词的注意力分布;
根据所述注意力分布和所述解码向量预测所需生成词的词汇分布;
根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重;
将所述指针权重与所述注意力分布、所述词汇分布进行加权计算,获得目标关键词概率分布,根据目标关键词概率分布确定所述目标关键词集合。
6.根据权利要求5所述的方法,其特征在于,所述指针权重用于确定所述目标关键词的获取方式,所述获取方式包括生成式和抽取式,所述指针权重按照如下公式进行计算:
Figure FDA0003300010190000021
其中,
Figure FDA0003300010190000022
为编码处理过程中每个t时刻的隐藏向量,st为解码过程中t时刻的解码向量,xt为t时刻的所述拼接向量,σ表示sigmoid函数,将值映射到0-1,则,Pgen∈[0,1],Pgen表示生成概率,当Pgen偏向1时,以生成式的方式根据所述词汇分布生成所述目标关键词,当Pgen偏向0时,以抽取式的方式根据所述注意力分布从所述待处理文本中直接复制所述目标关键词。
7.根据权利要求6所述的方法,其特征在于,所述目标关键词概率分布按照如下公式进行计算:
Figure FDA0003300010190000031
其中,
Figure FDA0003300010190000032
表示以抽取式的方式从所述词汇分布中获得所述目标关键词的概率分布,其中,wi表示所述词汇分布中的第i个词汇,
Figure FDA0003300010190000033
表示第t个时间步中,所述词汇分布中第i个词的注意力权重,Pgen表示生成概率,1-Pgen表示从所述待处理文本中直接复制所述目标关键词的概率,Pvocab(w)表示以生成式的方式生成所述目标关键词的概率分布,P(w)表示获取目标关键词w的概率等于从所述词汇分布生成w的概率再加上从所述待处理文本直接复制w的概率。
8.一种关键词自动提取装置,其特征在于,包括:
标签处理模块,用于获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合;
关联处理模块,用于将所述样本文本与所述关键词集合进行关联处理以形成训练数据集;
模型训练模块,用于基于所述训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化所述语言预测模型,获得目标语言预测模型;
关键词提取模块,用于获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合,根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的关键词自动提取方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的关键词自动提取方法。
CN202111187827.4A 2021-10-12 2021-10-12 关键词自动提取方法、装置、设备及存储介质 Pending CN113869044A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111187827.4A CN113869044A (zh) 2021-10-12 2021-10-12 关键词自动提取方法、装置、设备及存储介质
PCT/CN2022/071258 WO2023060795A1 (zh) 2021-10-12 2022-01-11 关键词自动提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111187827.4A CN113869044A (zh) 2021-10-12 2021-10-12 关键词自动提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113869044A true CN113869044A (zh) 2021-12-31

Family

ID=78999228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111187827.4A Pending CN113869044A (zh) 2021-10-12 2021-10-12 关键词自动提取方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN113869044A (zh)
WO (1) WO2023060795A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186066A (zh) * 2022-02-16 2022-03-15 子长科技(北京)有限公司 一种报告生成方法、系统、存储介质及电子设备
CN114492669A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114817456A (zh) * 2022-03-10 2022-07-29 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114818685A (zh) * 2022-04-21 2022-07-29 平安科技(深圳)有限公司 关键词提取方法、装置、电子设备及存储介质
CN115062596A (zh) * 2022-06-07 2022-09-16 南京信息工程大学 一种气象专报的生成方法、装置、电子设备及存储介质
CN115329751A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备
WO2023060795A1 (zh) * 2021-10-12 2023-04-20 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564539B (zh) * 2023-07-10 2023-10-24 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统
CN116756294B (zh) * 2023-08-14 2023-12-26 北京智精灵科技有限公司 对话意图识别模型的构建方法、对话意图识别方法及系统
CN117251559B (zh) * 2023-09-20 2024-04-26 广东筑小宝人工智能科技有限公司 基于自然语言大模型的工程标准规范获取方法及系统
CN117422428B (zh) * 2023-12-19 2024-03-08 尚恰实业有限公司 一种基于人工智能的机器人自动审批方法及系统
CN117520754B (zh) * 2024-01-05 2024-04-12 北京睿企信息科技有限公司 一种模型训练数据的预处理系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN110119765B (zh) * 2019-04-18 2021-04-06 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
US11176330B2 (en) * 2019-07-22 2021-11-16 Advanced New Technologies Co., Ltd. Generating recommendation information
CN113869044A (zh) * 2021-10-12 2021-12-31 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023060795A1 (zh) * 2021-10-12 2023-04-20 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质
CN114186066A (zh) * 2022-02-16 2022-03-15 子长科技(北京)有限公司 一种报告生成方法、系统、存储介质及电子设备
CN114492669A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114817456A (zh) * 2022-03-10 2022-07-29 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114817456B (zh) * 2022-03-10 2023-09-05 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114818685A (zh) * 2022-04-21 2022-07-29 平安科技(深圳)有限公司 关键词提取方法、装置、电子设备及存储介质
CN114818685B (zh) * 2022-04-21 2023-06-20 平安科技(深圳)有限公司 关键词提取方法、装置、电子设备及存储介质
CN115062596A (zh) * 2022-06-07 2022-09-16 南京信息工程大学 一种气象专报的生成方法、装置、电子设备及存储介质
CN115329751A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备

Also Published As

Publication number Publication date
WO2023060795A1 (zh) 2023-04-20

Similar Documents

Publication Publication Date Title
CN113869044A (zh) 关键词自动提取方法、装置、设备及存储介质
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN110705206A (zh) 一种文本信息的处理方法及相关装置
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN113887215A (zh) 文本相似度计算方法、装置、电子设备及存储介质
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN116628186B (zh) 文本摘要生成方法及系统
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN114139522A (zh) 一种基于层级注意力和标签引导学习的关键信息识别方法
CN112270184A (zh) 自然语言处理方法、装置及存储介质
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN115510232A (zh) 文本语句分类方法和分类装置、电子设备及存储介质
CN113627197B (zh) 文本的意图识别方法、装置、设备及存储介质
CN112632232B (zh) 一种文本匹配方法、装置、设备及介质
CN115640375A (zh) 专利文献中的技术问题抽取方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40062563

Country of ref document: HK