CN113283230B - 文本相似度计算模型的更新方法、装置、设备及存储介质 - Google Patents

文本相似度计算模型的更新方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113283230B
CN113283230B CN202110704233.XA CN202110704233A CN113283230B CN 113283230 B CN113283230 B CN 113283230B CN 202110704233 A CN202110704233 A CN 202110704233A CN 113283230 B CN113283230 B CN 113283230B
Authority
CN
China
Prior art keywords
text
loss value
similarity calculation
keyword
calculation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110704233.XA
Other languages
English (en)
Other versions
CN113283230A (zh
Inventor
刘志慧
金培根
陆林炳
林加新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110704233.XA priority Critical patent/CN113283230B/zh
Publication of CN113283230A publication Critical patent/CN113283230A/zh
Application granted granted Critical
Publication of CN113283230B publication Critical patent/CN113283230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供一种文本相似度计算模型的更新方法、装置、设备及存储介质,方法包括:引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值,第一文本和第二文本为输入至文本相似度计算模型中进行文本相似度计算的两个文本;获取文本相似度计算模型在计算第一文本与第二文本之间的文本相似度时产生的第三损失值;计算出第一损失值、第二损失值以及第三损失值的总和作为总损失值,按照总损失值对文本相似度计算模型进行迭代更新处理。该方法通过引入关键词识别任务,可以增强模型的迭代更新效果,快速地提升文本相似度计算模型的计算准确率。

Description

文本相似度计算模型的更新方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本相似度计算模型的更新方法、装置、设备及存储介质。
背景技术
文本相似技术在搜索、推荐、FAQ等领域中有着广泛的应用。由于深度学习文本相似度技术大部分都是采用单任务进行训练,目前现有的一些文本相似度计算模型通常都是通过模型本身的损失来对模型进行迭代更新的,而发明人发现,通过此种方式进行模型迭代更新时,效果不明显,无法快速地提升相似度计算任务的准确率。
发明内容
有鉴于此,本申请实施例提供了一种文本相似度计算模型的更新方法、装置、设备及存储介质,可以通过引入关键词识别任务,增强文本相似度识别模型的迭代更新效果,实现快速地提升相似度计算的准确率。
本申请实施例的第一方面提供了一种文本相似度计算模型的更新方法,包括:
引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值,所述第一文本和所述第二文本为输入至所述文本相似度计算模型中进行文本相似度计算的两个文本;
获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值;
计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
结合第一方面,在第一方面的第一种可能实现方式中,所述引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值的步骤中,所述关键词识别任务被配置为关键词提取任务或关键词预测任务。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,若所述关键词识别任务被配置为关键词提取任务,所述引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值的步骤,包括:
基于序列标注任务对所述第一文本和所述第二文本分别进行关键词提取处理,获取所述第一文本的关键词标注序列和所述第二文本的关键词标注序列;
根据所述第一文本的关键词标注序列,使用预设的条件随机场算法模型计算出所述第一文本在关键词提取处理过程中产生的损失值作为第一损失值;
根据所述第二文本的关键词标注序列,使用预设的条件随机场算法模型计算出所述第二文本在关键词提取处理过程中产生的损失值作为第二损失值。
结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,若所述关键词识别任务被配置为关键词预测任务,所述引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值的步骤,包括:
基于掩膜词预测任务对所述第一文本和所述第二文本分别进行关键词预测处理,获取所述第一文本中的掩膜词对应的预测关键词以及所述第二文本中的掩膜词对应的预测关键词;
根据所述第一文本中的的掩膜词对应的预测关键词,通过比对掩膜词与预测关键词之间的相似度,计算出所述第一文本在关键词预测处理过程中产生的损失值作为第一损失值;
根据所述第二文本中的掩膜词对应的预测关键词,通过比对掩膜词语预测关键词之间的相似度,计算出所述第二文本在关键词预测处理过程中产生的损失值作为第二损失值。
结合第一方面的第三种可能实现方式,在第一方面的第四种可能实现方式中,所述基于掩膜词预测任务对所述第一文本和所述第二文本分别进行关键词预测处理,获取所述第一文本中的掩膜词对应的预测关键词以及所述第二文本中的掩膜词对应的预测关键词的步骤,包括:
对于所述第一文本和第二文本中的任一文本,采用预训练的预测模型对所述文本中包含的词语进行随机掩膜获取所述文本的掩膜词,以使所述预训练的预测模型根据所述文本中未被掩膜的词语学习所述掩膜词的含义,并按照所述掩膜词的含义从预设的关键词表中获取与所述掩膜词的含义对应的词语作为所述掩膜词对应的预测关键词。
结合第一方面,在第一方面的第五种可能实现方式中,所述获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值的步骤,包括:
基于所述文本相似度计算模型构建交叉熵函数,根据所述交叉熵函数计算所述文本相似度计算模型的损失值,所述损失值表征为所述文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值。
结合第一方面,在第一方面的第六种可能实现方式中,所述计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理的步骤,包括:
初始化配置所述关键词识别任务对应的损失计算权重和所述文本相似度计算模型本身对应的损失计算权重;
按照所述初始化配置的损失计算权重对所述第一损失值、所述第二损失值以及所述第三损失值进行加权求和,获得总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
本申请实施例的第二方面提供了一种文本相似度计算模型的更新装置,所述文本相似度计算模型的更新装置包括:
引入模块,用于引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值,所述第一文本和所述第二文本为输入至所述文本相似度计算模型中进行文本相似度计算的两个文本;
获取模块,用于获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值;
更新模块,用于计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的文本相似度计算模型的更新方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的文本相似度计算模型的更新方法的各步骤。
本申请实施例提供的一种文本相似度计算模型的更新方法、装置、设备及存储介质,具有以下有益效果:
本申请所述方法通过引入关键词识别任务,使得文本相似度计算模型关注文本的关键词信息。通过分别计算出第一文本在进行关键词识别任务时产生的第一损失值、第二文本在进行关键词识别任务时产生的第二损失值以及获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值,并且计算出第一损失值、第二损失值以及第三损失值的总和作为总损失值,按照总损失值来对该文本相似度计算模型进行迭代更新,实现了基于第一文本和第二文本对该文本相似度计算模型进行更关注于关键词的多任务迭代训练,增强模型的迭代更新效果,以及快速地提升文本相似度计算模型的计算准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本相似度计算模型的更新方法的基本方法流程图;
图2为本申请实施例提供的文本相似度计算模型的更新方法中计算第一损失值和第二损失值的一种方法流程示意图;
图3为本申请实施例提供的文本相似度计算模型的更新方法中计算第一损失值和第二损失值的另一方法流程示意图;
图4为本申请实施例提供的文本相似度计算模型的更新方法中计算总损失值的一种方法流程示意图;
图5为本申请实施例提供的一种文本相似度计算模型的更新装置的基本结构框图;
图6为本申请实施例提供的一种电子设备的基本结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,图1为本申请实施例提供的一种文本相似度计算模型的更新方法的基本方法流程图。详述如下:
步骤S11:引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值。
在本实施例中,文本相似度计算模型通过深度学习训练获得,用于执行两个文本之间的文本相似度任务,获得该两个文本之间的文本相似度。该两个文本即称为第一文本、第二文本。在本实施例中,通过在文本相似度计算模型执行相似度计算任务的同时引入关键词识别任务,以基于文本相似度计算任务中的第一文本和第二文本对该文本相似度计算模型进行多任务迭代训练,实现实时更新该文本相似度计算模型。
在本实施例中,关键词识别任务用于对文本来进行关键词识别处理,从文本中获得表征该文本的关键词信息。其中,关键词识别任务包括但不限于关键词提取任务和关键词预测任务中的任意一种。
在本实施例中,当文本相似度计算模型接收到需要进行文本相似度计算的第一文本和第二文本后,通过引入的关键词识别任务,分别对该第一文本和第二文本进行关键词识别处理,已以分别获得表征该第一文本的关键词信息和表征该第二文本的关键词信息。基于该第一文本的关键词信息,计算出该第一文本在进行关键词识别任务时产生的第一损失值。基于该第二文本的关键词信息,计算出该第二文本在进行关键词识别任务时产生的第二损失值。例如通过比对文本与文本的关键词信息之间的差异来确定该文本在进行关键词识别任务时产生的损失值。
步骤S12:获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值。
本实施例中,文本相似度计算模型在计算所述第一文本与所述第二文本之间的相似度时产生的第三损失值,可以通过交叉熵函数进行计算获得。示例性的,在该文本相似度计算模型中,设定一个随机变量X有两个独立的概率p(x)和q(x),其中,基于训练该文本相似度计算模型用的样本可形成一个真实概率p(x),而训练获得的文本相似度计算模型则相当于是学习到的预测概率q(x)。进而,将该文本相似度计算模型的损失表示为真实概率p(x)与预测概率q(x)之间的差异,即两个概率之间的相对熵,相对熵=交叉熵-信息熵,以此构建获得基于该文本相似度计算模型的交叉熵函数。在该交叉熵函数中,文本相似度计算模型的训练过程为通过训练q(x),以使q(x)逼近p(x),即相对熵越小表示模型损失越小,模型预测的结果越好。具体地,模型相对熵的计算公式可以表示为:
Figure BDA0003130527000000071
其中,H(P(x))表示为真实概率分布p(x)对应的信息熵。由于在相似度计算模型中,样本为已知信息,故H(P(x))为常量。由于信息熵H(P(x))为常量,所以,可以直接采用交叉熵来衡量文本相似度计算模型的损失,该文本相似度计算模型的损失即可表征为该文本相似度计算模型在计算所述第一文本与所述第二文本之间的相似度时产生的第三损失值。基于上述相对熵的计算公式,可获得交叉熵的计算关系式如下:
Figure BDA0003130527000000072
在该计算关系式中,i表示为文本相似度计算模型在计算文本相似度时从文本中获得的第i个词特征,n表示为文本相似度计算模型在计算文本相似度时所获得的词特征数量。
步骤S13:计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新。
本实施例中,获得第一文本在进行关键词识别任务时产生的第一损失值、第二文本在进行关键词识别任务时产生的第二损失值以及文本相似度计算模型在计算第一文本与第二文本之间的文本相似度时产生的第三损失值后,计算出该第一损失值、第二损失值和第三损失值的总和,得到一个总损失值,由该总损失值来反映该文本相似度计算模型计算获得的文本相似度的准确率高低,进而按照该总损失值来对文本相似度计算模型进行迭代更新。
以上可以看出,本实施例提供的文本相似度计算模型的更新方法通过引入关键词识别任务,使得文本相似度计算模型关注文本的关键词信息。通过分别计算出第一文本在进行关键词识别任务时产生的第一损失值、第二文本在进行关键词识别任务时产生的第二损失值以及获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值,并且计算出第一损失值、第二损失值以及第三损失值的总和作为总损失值,按照总损失值来对该文本相似度计算模型进行迭代更新,实现了基于第一文本和第二文本对该文本相似度计算模型进行更关注于关键词的多任务迭代训练,增强模型的迭代更新效果,以及快速地提升文本相似度计算模型的计算准确率。
本申请的一些实施例中,请参阅图2,图2为本申请实施例提供的文本相似度计算模型的更新方法中计算第一损失值和第二损失值的一种方法流程示意图。详细如下:
步骤S21:基于序列标注任务对所述第一文本和所述第二文本分别进行关键词提取处理,获取所述第一文本的关键词标注序列和所述第二文本的关键词标注序列;
步骤S22:根据所述第一文本的关键词标注序列,利用条件随机场模型计算出所述第一文本在关键词提取处理过程中产生的损失值作为第一损失值;
步骤S23:根据所述第二文本的关键词标注序列,利用条件随机场模型计算出所述第二文本在关键词提取处理过程中产生的损失值作为第二损失值。
本实施例中,若引入的关键词识别任务为关键词提取任务,在文本相似度计算模型接收到需要进行文本相似度计算的第一文本和第二文本后,基于序列标注任务对该接收到的第一文本和第二文本分别进行关键词提取处理,获取第一文本的关键词标注序列和第二文本的关键词标注序列。在本实施例中,通过在序列标注任务中配置“关键词起始位置(B)”、“关键词结束位置或中间位置(I)”以及“非关键词位置(O)”三种词标签类型,采用该三种词标签类型对输入序列(第一文本或第二文本)的词进行打标签,以此获得第一文本的关键词标注序列和所述第二文本的关键词标注序列。
在本实施例中,条件随机场模型(conditional random field,简称CRF),用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型,即通过CRF模型对文本进行识别处理获得的是整个文本的局部特征的线性加权组合。示例性的,在根据文本的关键词标注序列,计算文本在关键词提取处理过程中产生的损失值(例如第一损失值或第二损失值)时,具体利用CRF模型,通过对由输入序列到关键词标注序列的序列映射进行打分,从而获得关键词标注序列对应的分值Score。其中,分值Score由两个部分组成,一个是转移特征概率,一个是状态特征概率。转移特征概率是指前一个输出标签为B的前提下当前输出标签为某个值比如I的概率大小;而状态特征是指我当前输入某个词的条件下,当前输出标签为某个值比如I的概率大小。在本实施例中,假设Lt表示关键词标注序列t中的总标注数量,i表示关键词标注序列t中的第i个标注,定义CRF模型获得的关键词标注序列t的Score分值为标注序列t中每个标注的Score分值总和,可以由以下计算关系式获得关键词标注序列t的总分值:
Figure BDA0003130527000000091
在本实施例中,基于CRF模型,可以从文本的所有可能输出的关键词标注序列中获得一组最优的关键词标注序列,其中,该最优的关键词标注序列即为所有可能输出的标注序列中输出概率最大的关键词标注序列。在本实施例中,通过计算出该最优的关键词标注序列的输出概率占所有可能输出的关键词标注序列的输出概率总和的比例值,基于该比例值生成该文本在关键词提取过程中产生的损失值。示例性的,基于CRF模型中获得标注序列t总分值的关系式,文本在其关键词提取处理过程中产生的损失值可以通过如下关系式计算获得:
Figure BDA0003130527000000101
其中,e为自然底数;tG表示为真实的标注序列,T表示为所有可能的标注序列。
本申请的一些实施例中,请参阅图3,图3为本申请实施例提供的文本相似度计算模型的更新方法中计算第一损失值和第二损失值的另一方法流程示意图。详细如下:
步骤S31:基于掩膜词预测任务对所述第一文本和所述第二文本分别进行关键词预测处理,获取所述第一文本中的掩膜词对应的预测关键词以及所述第二文本中的掩膜词对应的预测关键词;
步骤S32:根据所述第一文本中的的掩膜词对应的预测关键词,通过比对掩膜词与预测关键词之间的相似度,计算出所述第一文本在关键词预测处理过程中产生的损失值作为第一损失值;
步骤S33:根据所述第二文本中的掩膜词对应的预测关键词,通过比对掩膜词语预测关键词之间的相似度,计算出所述第二文本在关键词预测处理过程中产生的损失值作为第二损失值。
本实施例中,若引入的关键词识别任务为关键词预测任务,在文本相似度计算模型接收到需要进行文本相似度计算的第一文本和第二文本后,基于掩膜词预测任务对该接收到的第一文本和第二文本分别进行关键词预测处理,获取第一文本中的掩膜词对应的预测关键词以及第二文本中的掩膜词对应的预测关键词。示例性的,在本实施例中,对于文本相似度计算模型接收到的第一文本和第二文本中的任意一个文本,采用预训练的预测模型对文本中包含的词语进行随机掩膜获取该文本的掩膜词,然后由该预训练的预测模型根据文本中未被掩膜的词语学习该掩膜词的含义,并按照掩膜词的含义从预设的关键词表中获取与该掩膜词的含义对应的词语作为掩膜词对应的预测关键词。在本实施例中,所述预训练的预测模型可以为bert训练模型(全称Bidirectional Encoder Representation fromTransformers),通过掩膜处理随机对文本中的一些关键词进行隐藏,这些隐藏了的关键词即为掩膜词。得到掩膜词后,由该bert训练模型利用文本中没有被掩膜的词语进行上下文分析,学习到掩膜词在文本中的含义,进而,按照该掩膜词的含义从预设的关键词表中进行查找,以从关键词表中获得一个与该掩膜词含义相同或相似的词语来替代该掩膜词。由此,从关键词表中获得的用于替代该掩膜词的词语即为该掩膜词对应的预测关键词。在本实施例中,在该预训练的预测模型中,预先采用分类任务的方式建立用于预测的关键词表,在关键词表中,针对每一个词都配置有与之对应的、意思相近的一个或多个替代词。在本实施例中,在获得文本中所有掩膜词对应的预测关键词后,可以通过比对各掩膜词和各掩膜词对应的预测关键词之间的相似度的方式,计算得到文本在关键词预测处理过程中产生的损失值。
本申请的一些实施例中,请参阅图4,图4为本申请实施例提供的文本相似度计算模型的更新方法中计算总损失值的一种方法流程示意图。详细如下:
步骤S41:初始化配置所述关键词识别任务对应的损失计算权重和所述文本相似度计算模型本身对应的损失计算权重;
步骤S42:按照所述初始化配置的损失计算权重对所述第一损失值、所述第二损失值以及所述第三损失值进行加权求和,获得总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
本实施例中,对于文本相似度计算模型的更新,可以基于引入的关键词识别任务和该文本相似度计算模型的计算任务,预先初始化配置该关键词识别任务对应的损失计算权重和该文本相似度计算模型本身对应的损失计算权重,假设为w1和w2。进而,按照该初始化配置的损失计算权重对此前获得的第一损失值、第二损失值以及第三损失值进行加权求和,以此获得总损失值。而且在本实例中,初始化配置的损失计算权重w1和w2配置为可学习参数,可以随着文本相似度计算模型的迭代更新进行参数自学习。在本实施例中,基于预先初始化配置的损失计算权重w1和w2,可以定义总损失值的计算关系是如下:
loss=w1*(losskeyword1+losskeyword2)+w2*losssimilarity
其中,loss表示为总损失值;w1和w2表示为分别表示为关键词识别任务的损失计算权重和文本相似度计算模型本身的损失计算权重;losskeyword1表示为第一损失值;losskeyword2表示为第二损失值;losssimilarity表示为第三损失值。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请的一些实施例中,请参阅图5,图5为本申请实施例提供的一种文本相似度计算模型的更新装置的基本结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图5所示,文本相似度计算模型的更新装置包括:引入模块51、获取模块52以及更新模块53。其中:所述引入模块51用于引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值。所述获取模块52用于获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值。所述更新模块53用于计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
应当理解的是,上述文本相似度计算模型的更新装置,与上述的文本相似度计算模型的更新方法一一对应,此处不再赘述。
本申请的一些实施例中,请参阅图6,图6为本申请实施例提供的一种电子设备的基本结构框图。如图6所示,该实施例的电子设备6包括:处理器61、存储器62以及存储在所述存储器62中并可在所述处理器61上运行的计算机程序63,例如文本相似度计算模型的更新方法的程序。处理器61执行所述计算机程序63时实现上述各个文本相似度计算模型的更新方法各实施例中的步骤。或者,所述处理器61执行所述计算机程序63时实现上述文本相似度计算模型的更新装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序63可以被分割成一个或多个模块(单元),所述一个或者多个模块被存储在所述存储器62中,并由所述处理器61执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序63在所述电子设备6中的执行过程。例如,所述计算机程序63可以被分割成获取模块、处理模块和执行模块,各模块具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图6仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器62可以是所述电子设备6的内部存储单元,例如电子设备6的硬盘或内存。所述存储器62也可以是所述电子设备6的外部存储设备,例如所述电子设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器62还可以既包括所述电子设备6的内部存储单元也包括外部存储设备。所述存储器62用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。在本实施例中,所述计算机可读存储介质可以是非易失性,也可以是易失性。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种文本相似度计算模型的更新方法,其特征在于,包括:
引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值,所述第一文本和所述第二文本为输入至所述文本相似度计算模型中进行文本相似度计算的两个文本,其中,计算第一损失值和第二损失值的过程包括:
基于掩膜词预测任务对所述第一文本和所述第二文本分别进行关键词预测处理,获取所述第一文本中的掩膜词对应的预测关键词以及所述第二文本中的掩膜词对应的预测关键词;
根据所述第一文本中的掩膜词对应的预测关键词,通过比对掩膜词与预测关键词之间的相似度,计算出所述第一文本在关键词预测处理过程中产生的损失值作为第一损失值;
根据所述第二文本中的掩膜词对应的预测关键词,通过比对掩膜词语预测关键词之间的相似度,计算出所述第二文本在关键词预测处理过程中产生的损失值作为第二损失值;
获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值;
计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
2.根据权利要求1所述的文本相似度计算模型的更新方法,其特征在于,所述引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值的步骤中,计算所述第一损失值和第二损失值的过程还包括:
基于序列标注任务对所述第一文本和所述第二文本分别进行关键词提取处理,获取所述第一文本的关键词标注序列和所述第二文本的关键词标注序列;
根据所述第一文本的关键词标注序列,使用预设的条件随机场模型计算出所述第一文本在关键词提取处理过程中产生的损失值作为第一损失值;
根据所述第二文本的关键词标注序列,使用预设的条件随机场模型计算出所述第二文本在关键词提取处理过程中产生的损失值作为第二损失值。
3.根据权利要求1所述的文本相似度计算模型的更新方法,其特征在于,所述基于掩膜词预测任务对所述第一文本和所述第二文本分别进行关键词预测处理,获取所述第一文本中的掩膜词对应的预测关键词以及所述第二文本中的掩膜词对应的预测关键词的步骤,包括:
对于所述第一文本和第二文本中的任一文本,采用预训练的预测模型对所述文本中包含的词语进行随机掩膜获取所述文本的掩膜词,以使所述预训练的预测模型根据所述文本中未被掩膜的词语学习所述掩膜词的含义,并按照所述掩膜词的含义从预设的关键词表中获取与所述掩膜词的含义对应的词语作为所述掩膜词对应的预测关键词。
4.根据权利要求1所述的文本相似度计算模型的更新方法,其特征在于,所述获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值的步骤,包括:
基于所述文本相似度计算模型构建交叉熵函数,根据所述交叉熵函数计算所述文本相似度计算模型的损失值,所述损失值表征为所述文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值。
5.根据权利要求1所述的文本相似度计算模型的更新方法,其特征在于,所述计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理的步骤,包括:
初始化配置所述关键词识别任务对应的损失计算权重和所述文本相似度计算模型本身对应的损失计算权重;
按照所述初始化配置的损失计算权重对所述第一损失值、所述第二损失值以及所述第三损失值进行加权求和,获得总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
6.一种文本相似度计算模型的更新装置,其特征在于,包括:
引入模块,用于引入关键词识别任务,分别计算出第一文本在进行关键词识别任务时产生的第一损失值和第二文本在进行关键词识别任务时产生的第二损失值,所述第一文本和所述第二文本为输入至所述文本相似度计算模型中进行文本相似度计算的两个文本,其中,计算第一损失值和第二损失值的过程包括:
基于掩膜词预测任务对所述第一文本和所述第二文本分别进行关键词预测处理,获取所述第一文本中的掩膜词对应的预测关键词以及所述第二文本中的掩膜词对应的预测关键词;
根据所述第一文本中的掩膜词对应的预测关键词,通过比对掩膜词与预测关键词之间的相似度,计算出所述第一文本在关键词预测处理过程中产生的损失值作为第一损失值;
根据所述第二文本中的掩膜词对应的预测关键词,通过比对掩膜词语预测关键词之间的相似度,计算出所述第二文本在关键词预测处理过程中产生的损失值作为第二损失值;
获取模块,用于获取文本相似度计算模型在计算所述第一文本与所述第二文本之间的文本相似度时产生的第三损失值;
更新模块,用于计算出所述第一损失值、所述第二损失值以及所述第三损失值的总和作为总损失值,按照所述总损失值对所述文本相似度计算模型进行迭代更新处理。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202110704233.XA 2021-06-24 2021-06-24 文本相似度计算模型的更新方法、装置、设备及存储介质 Active CN113283230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704233.XA CN113283230B (zh) 2021-06-24 2021-06-24 文本相似度计算模型的更新方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704233.XA CN113283230B (zh) 2021-06-24 2021-06-24 文本相似度计算模型的更新方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113283230A CN113283230A (zh) 2021-08-20
CN113283230B true CN113283230B (zh) 2023-02-03

Family

ID=77285483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704233.XA Active CN113283230B (zh) 2021-06-24 2021-06-24 文本相似度计算模型的更新方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113283230B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209817A (zh) * 2019-05-31 2019-09-06 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法
CN111461155A (zh) * 2019-01-18 2020-07-28 富士通株式会社 训练分类模型的装置和方法
CN112036169A (zh) * 2020-09-02 2020-12-04 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质
CN112232053A (zh) * 2020-09-16 2021-01-15 西北大学 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112364947A (zh) * 2021-01-14 2021-02-12 北京崔玉涛儿童健康管理中心有限公司 一种文本相似度计算方法和装置
CN112507106A (zh) * 2021-02-05 2021-03-16 恒生电子股份有限公司 深度学习模型的训练方法、装置和faq相似度判别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183173B2 (en) * 2010-03-02 2015-11-10 Microsoft Technology Licensing, Llc Learning element weighting for similarity measures
US11449559B2 (en) * 2019-08-27 2022-09-20 Bank Of America Corporation Identifying similar sentences for machine learning
CN113849648A (zh) * 2021-09-28 2021-12-28 平安科技(深圳)有限公司 分类模型训练方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461155A (zh) * 2019-01-18 2020-07-28 富士通株式会社 训练分类模型的装置和方法
CN110209817A (zh) * 2019-05-31 2019-09-06 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法
CN112036169A (zh) * 2020-09-02 2020-12-04 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质
CN112232053A (zh) * 2020-09-16 2021-01-15 西北大学 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112364947A (zh) * 2021-01-14 2021-02-12 北京崔玉涛儿童健康管理中心有限公司 一种文本相似度计算方法和装置
CN112507106A (zh) * 2021-02-05 2021-03-16 恒生电子股份有限公司 深度学习模型的训练方法、装置和faq相似度判别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘润海 等.融合关键词和语义特征的汉越文本相似度计算.《小型微型计算机系统》.2021, *

Also Published As

Publication number Publication date
CN113283230A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN113487028B (zh) 知识蒸馏方法、装置、终端设备及介质
CN112837676B (zh) 一种语句生成方法、语句生成装置及智能设备
CN110825857A (zh) 多轮问答识别方法、装置、计算机设备及存储介质
US20230009946A1 (en) Generative relation linking for question answering
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN113298152B (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN111309878A (zh) 检索式问答方法、模型训练方法、服务器及存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113435499A (zh) 标签分类方法、装置、电子设备和存储介质
CN115840808A (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN113468323A (zh) 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN117609472A (zh) 提升知识库长文本问答准确率的方法
CN113283230B (zh) 文本相似度计算模型的更新方法、装置、设备及存储介质
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN116090538A (zh) 一种模型权重获取方法以及相关系统
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant