CN114818685B - 关键词提取方法、装置、电子设备及存储介质 - Google Patents

关键词提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114818685B
CN114818685B CN202210436585.6A CN202210436585A CN114818685B CN 114818685 B CN114818685 B CN 114818685B CN 202210436585 A CN202210436585 A CN 202210436585A CN 114818685 B CN114818685 B CN 114818685B
Authority
CN
China
Prior art keywords
keyword
sample
word
predicted value
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210436585.6A
Other languages
English (en)
Other versions
CN114818685A (zh
Inventor
刘羲
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210436585.6A priority Critical patent/CN114818685B/zh
Publication of CN114818685A publication Critical patent/CN114818685A/zh
Application granted granted Critical
Publication of CN114818685B publication Critical patent/CN114818685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,揭露一种关键词提取方法,包括:将样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;将样本集输入关键词提取模型,得到关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;基于第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化目标损失函数训练关键词提取模型;将目标文本输入训练好的关键词提取模型,得到关键词提取结果。本发明还提供一种关键词提取装置、电子设备及存储介质。本发明提升了模型泛化能力,并提高了关键词提取准确性。

Description

关键词提取方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种关键词提取方法、装置、电子设备及存储介质。
背景技术
随着信息化时代的到来,海量信息纷涌而至,如何从海量信息中查找感兴趣的信息呢?当前,通常通过关键词提取模型提取信息中的关键词,以根据提取到的关键词筛选感兴趣的信息。
关键词提取模型通常是通过最小化交叉熵损失函数训练得到的,这种方式设定的标签太过绝对(非0即1),使得模型为了靠近0或1,而产生过拟合现象,另外这种方式对于样本不均衡的领域,提取的关键词的准确度不高。因此,亟需一种关键词提取方法,以提升模型泛化能力,并提高关键词提取的准确性。
发明内容
鉴于以上内容,有必要提供一种关键词提取方法、装置、电子设备及存储介质,旨在提升模型泛化能力,并提高关键词提取的准确性。
本发明提供的关键词提取方法,包括:
获取携带关键词信息的样本集,对所述样本集中每个样本进行分词处理,得到所述样本集中每个样本对应的第一词语集合,基于所述关键词信息将所述样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;
将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;
基于所述第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化所述目标损失函数以确定所述关键词提取模型的结构参数,得到训练好的关键词提取模型;
响应用户基于客户端发出的针对目标文本的关键词提取请求,确定所述目标文本待提取的关键词数量,将所述目标文本输入所述训练好的关键词提取模型,得到所述目标文本中每个词语作为关键词的第三预测值,基于所述关键词数量及第三预测值确定关键词提取结果。
可选的,所述基于所述第一预测值及第二预测值的大小关系确定目标损失函数,包括:
为实现所述样本集中每个样本对应的关键词集合中任一词语的第一预测值大于其非关键词集合中任一词语的第二预测值的目标,生成初始损失函数;
根据所述样本集中样本的标注误差,修正所述初始损失函数,得到目标损失函数。
可选的,所述将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值,包括:
将所述样本集输入所述关键词提取模型的词向量转换网络执行词向量转换处理,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的词向量;
将所述词向量输入所述关键词提取模型的句向量提取网络执行句向量提取处理,得到所述样本集中每个样本对应的句向量;
拼接所述句向量及词向量,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的融合特征;
将所述融合特征输入所述关键词提取模型的关键词识别网络执行关键词识别处理,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值。
可选的,所述确定所述目标文本待提取的关键词数量,包括:
计算所述目标文本的语义丰富度;
获取预先确定的语义丰富度与关键词数量之间的映射关系,基于所述映射关系及目标文本的语义丰富度确定所述目标文本待提取的关键词数量。
可选的,所述计算所述目标文本的语义丰富度,包括:
对所述目标文本执行分词处理,得到第二词语集合;
剔除所述第二词语集合中预设类型的词语,得到所述目标文本对应的重要词语集合;
根据所述重要词语集合中词语的数量及长度计算所述目标文本的语义丰富度。
可选的,所述基于所述关键词数量及第三预测值确定关键词提取结果,包括:
将所述目标文本中每个词语按照第三预测值从大到小的顺序排序,得到所述目标文本对应的词语序列;
将所述词语序列中靠前的所述关键词数量的词语作为所述目标文本的关键词。
可选的,所述目标损失函数为:
Figure GDA0004195658700000031
其中,Loss为目标损失值,pim为样本集中第i个样本的关键词集合中第m个词语的第一预测值,qin为样本集中第i个样本的非关键词集合中第n个词语的第二预测值,h为样本集中样本的总数量,u为样本集中第i个样本的关键词集合中词语的总数量,v为样本集中第i个样本的非关键词集合中词语的总数量,pi-k为样本集中第i个样本的关键词集合中k个数值最小的词语的第一预测值的平均值,qi-r为样本集中第i个样本的非关键词集合中r个数值最大的词语的第二预测值的平均值,a、b为常数。
为了解决上述问题,本发明还提供一种关键词提取装置,所述装置包括:
拆分模块,用于获取携带关键词信息的样本集,对所述样本集中每个样本进行分词处理,得到所述样本集中每个样本对应的第一词语集合,基于所述关键词信息将所述样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;
输入模块,用于将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;
训练模块,用于基于所述第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化所述目标损失函数以确定所述关键词提取模型的结构参数,得到训练好的关键词提取模型;
提取模块,用于响应用户基于客户端发出的针对目标文本的关键词提取请求,确定所述目标文本待提取的关键词数量,将所述目标文本输入所述训练好的关键词提取模型,得到所述目标文本中每个词语作为关键词的第三预测值,基于所述关键词数量及第三预测值确定关键词提取结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的关键词提取程序,所述关键词提取程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述关键词提取方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有关键词提取程序,所述关键词提取程序可被一个或者多个处理器执行,以实现上述关键词提取方法。
相较现有技术,本发明首先将样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;然后,将样本集输入关键词提取模型,得到样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;接着,基于第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化目标损失函数以训练关键词提取模型;最后,将目标文本输入训练好的关键词提取模型,得到目标文本中每个词语作为关键词的第三预测值,基于关键词数量及第三预测值确定关键词提取结果。本发明通过实现样本集中每个样本对应的关键词集合中每个词语的第一预测值皆大于其非关键词集合中每个词语的第二预测值的目标,构建目标损失函数,解决了模型过拟合的问题,提高了关键词提取的准确性,并且不限于样本不均衡的领域。因此,本发明提升了模型泛化能力,并提高了关键词提取准确性。
附图说明
图1为本发明一实施例提供的关键词提取方法的流程示意图;
图2为本发明一实施例提供的关键词提取装置的模块示意图;
图3为本发明一实施例提供的实现关键词提取方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种关键词提取方法。参照图1所示,为本发明一实施例提供的关键词提取方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,关键词提取方法包括以下步骤S1-S4:
S1、获取携带关键词信息的样本集,对所述样本集中每个样本进行分词处理,得到所述样本集中每个样本对应的第一词语集合,基于所述关键词信息将所述样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合。
本实施例中,先采集携带关键词信息标签的样本集,对于样本集中每个样本,其中属于关键词的字符的标签为1,属于非关键词的字符的标签为0。
可采用正向最大匹配法、逆向最大匹配法或最少切分法对样本集中每个样本执行分词处理,得到样本集中每个样本对应的第一词语集合,将第一词语集合中标签为1的词语分配到关键词集合,将标签为0的词语分配到非关键词集合。
S2、将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值。
本实施例中,所述关键词提取模型用于提取输入文本中的关键词,其预测输入文本中每个词语是关键词的概率值,根据该概率值确定输入文本中的关键词。
所述将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值,包括以下步骤A11-A14:
A11、将所述样本集输入所述关键词提取模型的词向量转换网络执行词向量转换处理,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的词向量;
本实施例中,所述词向量转换网络包括串联连接的多个嵌入层。
A12、将所述词向量输入所述关键词提取模型的句向量提取网络执行句向量提取处理,得到所述样本集中每个样本对应的句向量;
所述句向量提取网络包括堆叠的多个线性层,线性层中配置有运算逻辑,其根据样本中每个词语的词向量确定该样本对应的句向量,作为一种实施方式,可以将该样本中每个词语的词向量的平均值作为该样本对应的句向量。
A13、拼接所述句向量及词向量,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的融合特征;
将样本中每个词语的词向量与该样本的句向量拼接,得到样本中每个词语的融合特征。
A14、将所述融合特征输入所述关键词提取模型的关键词识别网络执行关键词识别处理,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值。
本实施例中,所述关键词识别网络包括串联的多个全连接层,关键词识别网络为样本中每个词语输出一个预测值,将关键词集合中的词语的预测值作为第一预测值,将非关键词集合中的词语的预测值作为第二预测值。
S3、基于所述第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化所述目标损失函数以确定所述关键词提取模型的结构参数,得到训练好的关键词提取模型。
现有技术中,通常将交叉熵损失函数作为关键词提取模型的损失函数进行模型训练,交叉熵损失函数的目的是让正确的关键词的预测值尽可能接近1,错误的关键词(即非关键词)的预测值尽可能接近0,而标签与公式需要的真实值是有差异的,真实值应该是一个概率值,而标签非0即1,模型为了使预测值与标签靠近,容易产生过拟合的情况,从而训练好的模型对关键词的提取的准确率不高。并且,对于有监督训练,若样本分布不均匀,也会导致训练好的模型的关键词提取准确性不高。
为解决上述问题,本实施例中,通过实现样本对应的关键词集合中每个词语的预测值都大于其非关键词集合中每个词语的预测值的目标(即:保证关键词集合中预测值最小的词语的预测值,大于非关键词集合中预测值最大的词语的预测值),构建损失函数,通过最小化该损失函数训练关键词提取模型,能够保证正样例(即关键词集合中的词语)的预测值大于负样例(即非关键词集合中的词语)的预测值,解决了模型过拟合的问题,提高了关键词提取的准确性,且这种方式不受样本分布情况影响,在样本分布不均匀的情况下,依然能保证关键词提取的准确性。
所述基于所述第一预测值及第二预测值的大小关系确定目标损失函数,包括以下步骤B11-B12:
B11、为实现所述样本集中每个样本对应的关键词集合中任一词语的第一预测值大于其非关键词集合中任一词语的第二预测值的目标,生成初始损失函数;
关键词集合中数值最小的词语的第一预测值可以用公式min(xi1,xi2...xik)表示,其中,xik表示样本集中第i个样本的关键词集合中第k个词语的第一预测值。
非关键词集合中数值最大的词语的第二预测值可以用公式max(xi1,xi2...xir)表示,其中,xir表示样本集中第i个样本的非关键词集合中第r个词语的第二预测值。
min(xi1,xi2...xik)的平滑函数可以用(-1/g)*log(e^(-g*x)+e^(-g*y))表示,max(xi1,xi2...xir)的平滑函数可以用(1/g)*log(e^(g*x)+e^(g*y))表示,其中,g为超参数,为了简化,将g设为1,加总上述两个平滑函数,得到的初始损失函数为:
Figure GDA0004195658700000091
其中,L为初始损失值,pim为样本集中第i个样本的关键词集合中第m个词语的第一预测值,qin为样本集中第i个样本的非关键词集合中第n个词语的第二预测值,h为样本集中样本的总数量,u为样本集中第i个样本的关键词集合中词语的总数量,v为样本集中第i个样本的非关键词集合中词语的总数量。
B12、根据所述样本集中样本的标注误差,修正所述初始损失函数,得到目标损失函数。
因实际场景中存在样本标签标注错误的情况,从而标签标注错误的样本将不符合上述初始损失函数,为保证准确性,可将损失函数的目标修改为:同一样本的关键词集合中第一预设比例(例如,80%)的词语的第一预测值,大于其非关键词集合中第二预设比例(例如,85%)的词语的第二预测值,若第一预设比例的词语的第一预测值的下限为sita1,第二预设比例的词语的第二预测值的上限为sita2,则关键词集合中词语的第一预测值的最小值用min(xik,sita1)表示,非关键词集合中词语的第二预测值的最大值用max(xir,sita2)表示,
而sita1=0.9a+0.1*pi-k,sita2=0.9b+0.1*qi-r,其中,pi-k为样本集中第i个样本的关键词集合中k个数值最小的词语的第一预测值的平均值,qi-l为样本集中第i个样本的非关键词集合中r个数值最大的词语的第二预测值的平均值,a、b为常数。
根据上述内容可知,min(xik,sita1)的平滑函数为
Figure GDA0004195658700000092
max(xir,sita2)的平滑函数为/>
Figure GDA0004195658700000093
从而,修正后得到的目标损失函数为:
Figure GDA0004195658700000101
其中,Loss为目标损失值,pim为样本集中第i个样本的关键词集合中第m个词语的第一预测值,qin为样本集中第i个样本的非关键词集合中第n个词语的第二预测值,h为样本集中样本的总数量,u为样本集中第i个样本的关键词集合中词语的总数量,v为样本集中第i个样本的非关键词集合中词语的总数量,pi-k为样本集中第i个样本的关键词集合中k个数值最小的词语的第一预测值的平均值,qi-r为样本集中第i个样本的非关键词集合中r个数值最大的词语的第二预测值的平均值,a、b为常数。
S4、响应用户基于客户端发出的针对目标文本的关键词提取请求,确定所述目标文本待提取的关键词数量,将所述目标文本输入所述训练好的关键词提取模型,得到所述目标文本中每个词语作为关键词的第三预测值,基于所述关键词数量及第三预测值确定关键词提取结果。
接收到目标文本后,需要先确定目标文本对应的待提取的关键词数量,根据关键词提取模型输出的目标文本中每个词语的第三预测值及关键词数量可以确定目标文本对应的关键词提取结果。
所述确定所述目标文本待提取的关键词数量,包括以下步骤C11-C12:
C11、计算所述目标文本的语义丰富度;
所述计算所述目标文本的语义丰富度,包括以下步骤D11-D13:
D11、对所述目标文本执行分词处理,得到第二词语集合;
本实施例中,可根据预先确定的词语词典对目标文本进行分词处理。
D12、剔除所述第二词语集合中预设类型的词语,得到所述目标文本对应的重要词语集合;
本实施例中,所述预设类型的词语是不对目标文本的语义产生影响的词语,所述预设类型的词语包括停用词(例如,你好、再见、谢谢、哦、喂、嗯)、语气词(例如,啊、呀、哇)及其它预先设置的词语。
D13、根据所述重要词语集合中词语的数量及长度计算所述目标文本的语义丰富度。
本实施例中,所述语义丰富度的计算公式可以是:Y=a*M+b*N,其中,Y表示目标文本的语义丰富度,M表示目标文本的重要词语集合中词语的数量,N表示目标文本的重要词语集合中词语的总长度,a、b分别为预先确定的重要词语的数量及长度对应的权重。
例如,若目标文本的重要词语集合中词语共有3个,3个词语的长度(即字长)分别为2、3、3,a为0.6,b为0.4,则目标文本对应的语义丰富度Y=0.6*3+0.4*(2+3+3)=5。
C12、获取预先确定的语义丰富度与关键词数量之间的映射关系,基于所述映射关系及目标文本的语义丰富度确定所述目标文本待提取的关键词数量。
本实施例中,语义丰富度与关键词数量之间的映射关系可以是:
语义丰富度为0~5时,关键词数量为3;
语义丰富度为6~10时,关键词数量为5;
语义丰富度为11~20时,关键词数量为8;
……
所述基于所述关键词数量及第三预测值确定关键词提取结果,包括以下步骤E11-E12:
E11、将所述目标文本中每个词语按照第三预测值从大到小的顺序排序,得到所述目标文本对应的词语序列;
E12、将所述词语序列中靠前的所述关键词数量的词语作为所述目标文本的关键词。
例如,若目标文本待提取的关键词数量为5,目标文本中共15个词语,则将词语序列中前5个词语作为目标文本的关键词。
由上述实施例可知,本发明提出的关键词提取方法,首先,将样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;然后,将样本集输入关键词提取模型,得到样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;接着,基于第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化目标损失函数以训练关键词提取模型;最后,将目标文本输入训练好的关键词提取模型,得到目标文本中每个词语作为关键词的第三预测值,基于关键词数量及第三预测值确定关键词提取结果。本发明通过实现样本集中每个样本对应的关键词集合中每个词语的第一预测值皆大于其非关键词集合中每个词语的第二预测值的目标,构建目标损失函数,解决了模型过拟合的问题,提高了关键词提取的准确性,并且不限于样本不均衡的领域。因此,本发明提升了模型泛化能力,并提高了关键词提取准确性。
如图2所示,为本发明一实施例提供的关键词提取装置的模块示意图。
本发明所述关键词提取装置100可以安装于电子设备中。根据实现的功能,所述关键词提取装置100可以包括拆分模块110、输入模块120、训练模块130及提取模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
拆分模块110,用于获取携带关键词信息的样本集,对所述样本集中每个样本进行分词处理,得到所述样本集中每个样本对应的第一词语集合,基于所述关键词信息将所述样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合。
输入模块120,用于将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值。
所述将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值,包括以下步骤A21-A24:
A21、将所述样本集输入所述关键词提取模型的词向量转换网络执行词向量转换处理,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的词向量;
A22、将所述词向量输入所述关键词提取模型的句向量提取网络执行句向量提取处理,得到所述样本集中每个样本对应的句向量;
A23、拼接所述句向量及词向量,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的融合特征;
A24、将所述融合特征输入所述关键词提取模型的关键词识别网络执行关键词识别处理,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值。
训练模块130,用于基于所述第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化所述目标损失函数以确定所述关键词提取模型的结构参数,得到训练好的关键词提取模型。
所述基于所述第一预测值及第二预测值的大小关系确定目标损失函数,包括以下步骤B21-B22:
B21、为实现所述样本集中每个样本对应的关键词集合中任一词语的第一预测值大于其非关键词集合中任一词语的第二预测值的目标,生成初始损失函数;
B22、根据所述样本集中样本的标注误差,修正所述初始损失函数,得到目标损失函数。
所述目标损失函数为:
Figure GDA0004195658700000131
其中,Loss为目标损失值,pim为样本集中第i个样本的关键词集合中第m个词语的第一预测值,qin为样本集中第i个样本的非关键词集合中第n个词语的第二预测值,h为样本集中样本的总数量,u为样本集中第i个样本的关键词集合中词语的总数量,v为样本集中第i个样本的非关键词集合中词语的总数量,pi-k为样本集中第i个样本的关键词集合中k个数值最小的词语的第一预测值的平均值,qi-r为样本集中第i个样本的非关键词集合中r个数值最大的词语的第二预测值的平均值,a、b为常数。
提取模块140,用于响应用户基于客户端发出的针对目标文本的关键词提取请求,确定所述目标文本待提取的关键词数量,将所述目标文本输入所述训练好的关键词提取模型,得到所述目标文本中每个词语作为关键词的第三预测值,基于所述关键词数量及第三预测值确定关键词提取结果。
所述确定所述目标文本待提取的关键词数量,包括以下步骤C21-C22:
C21、计算所述目标文本的语义丰富度;
C22、获取预先确定的语义丰富度与关键词数量之间的映射关系,基于所述映射关系及目标文本的语义丰富度确定所述目标文本待提取的关键词数量。
所述计算所述目标文本的语义丰富度,包括以下步骤D21-D23:
D21、对所述目标文本执行分词处理,得到第二词语集合;
D22、剔除所述第二词语集合中预设类型的词语,得到所述目标文本对应的重要词语集合;
D23、根据所述重要词语集合中词语的数量及长度计算所述目标文本的语义丰富度。
所述基于所述关键词数量及第三预测值确定关键词提取结果,包括以下步骤E21-E22:
E21、将所述目标文本中每个词语按照第三预测值从大到小的顺序排序,得到所述目标文本对应的词语序列;
E22、将所述词语序列中靠前的所述关键词数量的词语作为所述目标文本的关键词。
如图3所示,为本发明一实施例提供的实现关键词提取方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有关键词提取程序10,所述关键词提取程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及关键词提取程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的关键词提取程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行关键词提取程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的关键词提取程序10是多个指令的组合,在所述处理器12中运行时,可以实现上述关键词提取方法。
具体地,所述处理器12对上述关键词提取程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是非易失性的,也可以是非易失性的。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)。
所述计算机可读存储介质上存储有关键词提取程序10,所述关键词提取程序10可被一个或者多个处理器执行,以实现上述关键词提取方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种关键词提取方法,其特征在于,所述方法包括:
获取携带关键词信息的样本集,对所述样本集中每个样本进行分词处理,得到所述样本集中每个样本对应的第一词语集合,基于所述关键词信息将所述样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;
将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;
基于所述第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化所述目标损失函数以确定所述关键词提取模型的结构参数,得到训练好的关键词提取模型;
响应用户基于客户端发出的针对目标文本的关键词提取请求,确定所述目标文本待提取的关键词数量,将所述目标文本输入所述训练好的关键词提取模型,得到所述目标文本中每个词语作为关键词的第三预测值,基于所述关键词数量及第三预测值确定关键词提取结果;
其中,所述将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值,包括:
将所述样本集输入所述关键词提取模型的词向量转换网络执行词向量转换处理,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的词向量;
将所述词向量输入所述关键词提取模型的句向量提取网络执行句向量提取处理,得到所述样本集中每个样本对应的句向量;
拼接所述句向量及词向量,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的融合特征;
将所述融合特征输入所述关键词提取模型的关键词识别网络执行关键词识别处理,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;
所述基于所述第一预测值及第二预测值的大小关系确定目标损失函数,包括:为实现所述样本集中每个样本对应的关键词集合中任一词语的第一预测值大于其非关键词集合中任一词语的第二预测值的目标,生成初始损失函数;
根据所述样本集中样本的标注误差,修正所述初始损失函数,得到目标损失函数,所述目标损失函数为:
Figure FDA0004195658690000021
其中,Loss为目标损失值,pim为样本集中第i个样本的关键词集合中第m个词语的第一预测值,qin为样本集中第i个样本的非关键词集合中第n个词语的第二预测值,h为样本集中样本的总数量,u为样本集中第i个样本的关键词集合中词语的总数量,v为样本集中第i个样本的非关键词集合中词语的总数量,pi-k为样本集中第i个样本的关键词集合中k个数值最小的词语的第一预测值的平均值,qi-r为样本集中第i个样本的非关键词集合中r个数值最大的词语的第二预测值的平均值,a、b为常数。
2.如权利要求1所述的关键词提取方法,其特征在于,所述确定所述目标文本待提取的关键词数量,包括:
计算所述目标文本的语义丰富度;
获取预先确定的语义丰富度与关键词数量之间的映射关系,基于所述映射关系及目标文本的语义丰富度确定所述目标文本待提取的关键词数量。
3.如权利要求2所述的关键词提取方法,其特征在于,所述计算所述目标文本的语义丰富度,包括:
对所述目标文本执行分词处理,得到第二词语集合;
剔除所述第二词语集合中预设类型的词语,得到所述目标文本对应的重要词语集合;
根据所述重要词语集合中词语的数量及长度计算所述目标文本的语义丰富度。
4.如权利要求1所述的关键词提取方法,其特征在于,所述基于所述关键词数量及第三预测值确定关键词提取结果,包括:
将所述目标文本中每个词语按照第三预测值从大到小的顺序排序,得到所述目标文本对应的词语序列;
将所述词语序列中靠前的所述关键词数量的词语作为所述目标文本的关键词。
5.一种关键词提取装置,其特征在于,所述装置包括:
拆分模块,用于获取携带关键词信息的样本集,对所述样本集中每个样本进行分词处理,得到所述样本集中每个样本对应的第一词语集合,基于所述关键词信息将所述样本集中每个样本的第一词语集合拆分为关键词集合和非关键词集合;
输入模块,用于将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;
训练模块,用于基于所述第一预测值及第二预测值的大小关系确定目标损失函数,通过最小化所述目标损失函数以确定所述关键词提取模型的结构参数,得到训练好的关键词提取模型;
提取模块,用于响应用户基于客户端发出的针对目标文本的关键词提取请求,确定所述目标文本待提取的关键词数量,将所述目标文本输入所述训练好的关键词提取模型,得到所述目标文本中每个词语作为关键词的第三预测值,基于所述关键词数量及第三预测值确定关键词提取结果;
其中,所述将所述样本集输入关键词提取模型,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值,包括:
将所述样本集输入所述关键词提取模型的词向量转换网络执行词向量转换处理,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的词向量;
将所述词向量输入所述关键词提取模型的句向量提取网络执行句向量提取处理,得到所述样本集中每个样本对应的句向量;
拼接所述句向量及词向量,得到所述样本集中每个样本对应的关键词集合和非关键词集合中每个词语的融合特征;
将所述融合特征输入所述关键词提取模型的关键词识别网络执行关键词识别处理,得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值,和非关键词集合中每个词语作为关键词的第二预测值;
所述基于所述第一预测值及第二预测值的大小关系确定目标损失函数,包括:为实现所述样本集中每个样本对应的关键词集合中任一词语的第一预测值大于其非关键词集合中任一词语的第二预测值的目标,生成初始损失函数;
根据所述样本集中样本的标注误差,修正所述初始损失函数,得到目标损失函数,所述目标损失函数为:
Figure FDA0004195658690000041
其中,Loss为目标损失值,pim为样本集中第i个样本的关键词集合中第m个词语的第一预测值,qin为样本集中第i个样本的非关键词集合中第n个词语的第二预测值,h为样本集中样本的总数量,u为样本集中第i个样本的关键词集合中词语的总数量,v为样本集中第i个样本的非关键词集合中词语的总数量,pi-k为样本集中第i个样本的关键词集合中k个数值最小的词语的第一预测值的平均值,qi-r为样本集中第i个样本的非关键词集合中r个数值最大的词语的第二预测值的平均值,a、b为常数。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的关键词提取程序,所述关键词提取程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的关键词提取方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有关键词提取程序,所述关键词提取程序可被一个或者多个处理器执行,以实现如权利要求1至4任一项所述的关键词提取方法。
CN202210436585.6A 2022-04-21 2022-04-21 关键词提取方法、装置、电子设备及存储介质 Active CN114818685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436585.6A CN114818685B (zh) 2022-04-21 2022-04-21 关键词提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436585.6A CN114818685B (zh) 2022-04-21 2022-04-21 关键词提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114818685A CN114818685A (zh) 2022-07-29
CN114818685B true CN114818685B (zh) 2023-06-20

Family

ID=82506635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436585.6A Active CN114818685B (zh) 2022-04-21 2022-04-21 关键词提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114818685B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329751B (zh) * 2022-10-17 2023-01-17 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712609A (zh) * 2019-01-08 2019-05-03 华南理工大学 一种解决关键词识别样本不均衡的方法
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN112667800A (zh) * 2020-12-21 2021-04-16 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
WO2021203581A1 (zh) * 2020-04-10 2021-10-14 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN113869044A (zh) * 2021-10-12 2021-12-31 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109712609A (zh) * 2019-01-08 2019-05-03 华南理工大学 一种解决关键词识别样本不均衡的方法
WO2021203581A1 (zh) * 2020-04-10 2021-10-14 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN112667800A (zh) * 2020-12-21 2021-04-16 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
CN113869044A (zh) * 2021-10-12 2021-12-31 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的短文本分类技术研究;王玉燕;《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》(第5期);I138-1472 *
面向中文文本的关键词提取与情感分析研究;何雨霜;《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》(第1期);I138-3642 *

Also Published As

Publication number Publication date
CN114818685A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN114462412B (zh) 实体识别方法、装置、电子设备及存储介质
CN113688239B (zh) 少样本下的文本分类方法、装置、电子设备及存储介质
CN112597135A (zh) 用户分类方法、装置、电子设备及可读存储介质
CN114818685B (zh) 关键词提取方法、装置、电子设备及存储介质
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN113705692B (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN113706252B (zh) 产品推荐方法、装置、电子设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN113610580B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113850260B (zh) 关键信息抽取方法、装置、电子设备及可读存储介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN113064984B (zh) 意图识别方法、装置、电子设备及可读存储介质
CN114398877A (zh) 基于人工智能的主题提取方法、装置、电子设备及介质
CN114610854A (zh) 智能问答方法、装置、设备及存储介质
CN113469237A (zh) 用户意图识别方法、装置、电子设备及存储介质
CN113723114A (zh) 基于多意图识别的语义分析方法、装置、设备及存储介质
CN114742060B (zh) 实体识别方法、装置、电子设备及存储介质
CN113312482B (zh) 问题分类方法、装置、电子设备及可读存储介质
CN113792539B (zh) 基于人工智能的实体关系分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant