CN114428838A - 内容召回方法、装置、计算机设备及存储介质 - Google Patents

内容召回方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114428838A
CN114428838A CN202210061616.4A CN202210061616A CN114428838A CN 114428838 A CN114428838 A CN 114428838A CN 202210061616 A CN202210061616 A CN 202210061616A CN 114428838 A CN114428838 A CN 114428838A
Authority
CN
China
Prior art keywords
corpus
candidate
vector
recall
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210061616.4A
Other languages
English (en)
Inventor
马建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210061616.4A priority Critical patent/CN114428838A/zh
Publication of CN114428838A publication Critical patent/CN114428838A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种内容召回方法、装置、计算机设备及存储介质,应用于人工智能技术领域,用于提高获取召回内容的准确性。本发明提供的方法包括:获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量;获取预设的召回候选集,并基于语义识别方式,对所述目标语料和召回候选集进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,并生成候选语料集的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。

Description

内容召回方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种内容召回方法、装置、计算机设备及存储介质。
背景技术
目前,语义召回技术被广泛应用在基于人工智能的问答系统或者智能推荐场景中,通过目标语句的句向量与召回内容的相似度,为用户匹配对应的回答或者向用户推荐内容。
在内容召回场景中,通常包括召回和排序两大部分,通过计算目标语句或者搜索引擎的使用场景中,根据相似度的大小为召回内容排序,将排序后的召回内容展示给用户。
然而,现有技术一般基于BERT模型对目标语句进行句向量表征,生成目标语句的句向量,再根据相似度为目标语句匹配最相似的召回内容。BERT模型对句向量的表征结果呈锥形分布,高频词聚集在锥头部,匹配词分散在锥尾,因此影响句子的分布,使得不同句子的整体相似度很高,在此基础上,根据相似度匹配召回内容会导致匹配结果准确率不高。
发明内容
本发明提供一种内容召回方法、装置、计算机设备及存储介质,以提高获取召回内容的准确性。
一种内容召回方法,包括:
获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;
获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;
基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;
生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;
将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。
一种内容召回装置,包括:
语料表征向量生成模块,用于获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;
召回候选集获取模块,用于获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;
语义识别模块,用于基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;
相似度计算模块,用于生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;
内容召回模块,用于将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述内容召回方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述内容召回方法的步骤。
本发明提供的内容召回方法、装置、计算机设备及存储介质,通过获取目标语料,并将目标预料输入到预设的句向量表征模型中,得到语料表征向量,并获取预设的召回候选集,并对召回候选集中的候选召回语料以及目标语料进行语义识别,从而根据语义识别结果确定候选召回语料和目标语料的语义相似度结果,根据语义相似度结果从召回候选集中筛选出与目标语料语义更加相似的候选语料集,进一步保证了召回内容与目标语料的相似程度,进一步保证召回更加准确的内容,得到候选语料集之后,计算候选语料集中的候选语料与目标语料的向量相似度值,根据向量相似度值获得与目标语料对应的召回内容,进一步提高了获得与目标语料所匹配的召回内容,提高召回内容的匹配准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中内容召回方法的一应用环境示意图;
图2是本发明一实施例中内容召回方法的一流程图;
图3是本发明一实施例中内容召回装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的内容召回方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备通过网络与服务器交互,以接收或者发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本发明实施例所提供的内容召回方法由服务器执行,相应地,内容召回装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本发明实施例中的终端设备具体可以对应的是实际生产中的应用系统。
在一实施例中,如图2所示,提供一种内容召回方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10,获取目标语料,并将目标语料输入到预设的句向量表征模型中,得到目标语料的语料表征向量,其中,预设的句向量表征模型基于对比学习模型构建。
其中,目标语料是指用以获取召回内容的文本信息或者语音信息,其中,目标语料可以是语句、文本等文档形式,或者包含语音信息的音频文件。
具体是,获取目标语料,对目标语料进行识别,得到目标文本,对目标文本进行标准化处理,得到标准文本,标准文本作为预设的句向量表征模型的输入,通过预设的句向量表征模型输出目标文本即目标语料的语料表征模型。其中,预设的句向量表征模型基于对比学习模型构建。
对比学习(Contrastive Learning)是一种机器学习技术,将同一个样本数据输入到同一个dropout编码器中,得到两个不同的预测向量,作为正样本对。其他batch中的样本作为负样本对,根据正样本对和负样本对的差别,学习文本表示。
在本实施例中,基于SIMCSE(Simple Contrastive Learning of SentenceEmbeddings,句向量对比学习)是一种简单的无监督训练数据的情况下训练句子向量的对比学习方法。
S20,获取预设的召回候选集,其中,召回候选集中包含至少两个候选召回语料。
具体是,基于目标语料中的关键词,根据预设的接口,调取与关键词相关的内容,作为召回候选集,其中,召回候选集中至少包含两个候选召回语料,候选召回语料是指与目标语料存在关联的信息,具体是文本等信息。
S30,基于语义识别方式,对目标语料和每个候选召回语料进行语义识别,得到语义识别结果,并基于语义识别结果,得到候选语料集,其中,候选语料集包含至少两个候选语料。
具体的,对召回候选集中的每个候选召回语料进行语义识别,并对目标语料进行语义识别,得到对候选召回语料和目标语料的语义识别结果,并基于目标语料的语义识别结果,在召回候选集中进行筛选,得到候选语料集。
其中,语义识别技术是自然语言处理技术的重要组成部分之一,语义识别的核心除了理解文本词汇的含义,还要理解这个词语在语句、篇章中所代表的意思。语义识别技术可以分析网页、文件、邮件、音频、论坛、社交媒体中的大量数据,在本实施例中,用以确定语句中的语义相似度和语句对应的情绪特征。
例如,“苹果做成苹果派很好吃。”中,苹果是一个水果。在“苹果新出的手机很贵。”中,苹果是一个手机品牌,因此,同一个关键词“苹果”,在两个句子中的语义不相同,因此整个句子的语义特征也不相同。
例如:“苹果新出的手机很好用。”和“苹果新出的手机好用吗?”中,第一个句子是陈述句,第一个句子是反问句,认为,两个句子的情绪特征不相同,但是两个句子中的“苹果”是指同一个事物,因此,两个句子之间的语义特征存在相似性。
在本实施例中,需要识别出目标语料和每个候选召回语料的情绪特征和语义特征,将语义特征和情绪特征作为语义识别结果,从而从两个维度判断目标语料和候选召回语料的相似程度。
S40,生成每个候选语料的候选语料向量,并计算每个候选语料向量和语料表征向量的向量相似度,得到向量相似度值。
其中,在候选语料集中,生成每个候选语料的候选语料向量,其中候选语料向量是用于表征候选语料的句向量形式,分别计算目标语料与每个候选语料的向量相似度,得到目标语料与每一个候选向量的向量相似度值。
S50,将向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到目标语料对应的召回内容。
具体的,预先设置向量相似度阈值,将向量相似度值大于预先设置的向量相似度阈值的候选语料作为召回内容。其中,召回内容是根据目标语料进行召回的内容,与目标语料相关的内容,例如,与目标内容相关的兴趣点(POI,PointofInterest)、文章的标题、包含目标语料的文章等。其中,目标语料是用户用于获取相关内容的索引信息,根据索引信息进行相关内容召回之后得到的信息作为召回内容,例如,目标语料中包含“深圳机场”,则召回内容则是包含深圳机场的相关内容,例如文章标题为“深圳宝安国际机场XXXX”的文章则是召回内容。
需要说明的是,获取到召回内容之后,可根据召回内容与目标语料的匹配长度,为召回内容进行排序,并将排序之后的召回内容推荐给用户。
本实施例提供的内容召回方法,通过获取目标语料,并将目标预料输入到预设的句向量表征模型中,得到语料表征向量,并获取预设的召回候选集,并对召回候选集中的候选召回语料以及目标语料进行语义识别,从而根据语义识别结果确定候选召回语料和目标语料的语义相似度结果,根据语义相似度结果从召回候选集中筛选出与目标语料语义更加相似的候选语料集,进一步保证了召回内容与目标语料的相似程度,进一步保证召回更加准确的内容,得到候选语料集之后,计算候选语料集中的候选语料与目标语料的向量相似度值,根据向量相似度值获得与目标语料对应的召回内容,进一步提高了获得与目标语料所匹配的召回内容,提高召回内容的匹配准确性。
在本实施例中,作为一种可选的实施方式,在步骤S10,获取目标语料,并将目标语料输入到预设的句向量表征模型中,得到目标语料的语料表征向量之前,包括:
S11,获取训练数据,将训练数据输入到预训练模型中生成训练表征向量,并基于训练表征向量生成损失优化函数,其中,预训练模型基于对比学习模型构建。
S12,将训练数据输入到预训练模型中,并基于预训练模型的初始参数和损失优化函数进行参数迭代,直到迭代停止后,得到训练之后的预训练模型,作为预设的句向量表征模型。
具体是,基于对比学习模型构建预训练模型,基于预训练模型输出训练数据的训练表征向量,根据训练表征向量生成损失优化函数,基于损失优化函数,根据输入的训练数据,对预训练模型的初始参数进行迭代调整,使得最终预测的句向量能够与训练阶段一致,得到预设的句向量表征模型。
在本实施例中,通过损失优化函数,对预训练模型的参数空间进行约束,保证输出的句向量与训练阶段输出的句向量一致,进一步提高了预训练模型的繁华性能,使得预设的局向量表征模型输出的结果更为准确,并且能够提高匹配到的召回内容的准确性。
在本实施例中,作为一种可选的实施方式,在步骤S11,获取训练数据,将熏脸数据输入到预训练模型中生成训练表征向量,并基于训练表征向量生成优化损失函数,包括:
S111,将训练数据中的第一样本数据输入到预训练模型的dropout编码器中,得到第一预测向量,基于第一样本数据的嵌入标签和第一预测向量,生成第一损失函数。
S112,将第一样本数据输入到预训练模型的dropout编码器中,得到第二预测向量,基于第一预测向量和第二预测向量,得到第二损失函数。
S113,基于对比损失函数,根据第一预测向量和第二预测向量生成第三损失函数。
S114,将第一损失函数、第二损失函数以及第三损失函数进行权重求和,得到损失优化函数。
具体是,预训练模型根据对比学习模型构建,将第一样本数据输入到dropout编码器中,输出第一预测向量,通过第一样本数据原有的嵌入标签与第一预测向量的差值,计算出第一损失函数。
将第一样本数据两次经过dropout编码器,第一次得到第一预测向量,第二次得到第二预测向量,根据第一预测向量和第二预测向量之间的对称KL散度作为第二损失函数,其中,第二损失函数可以基于如下公式表示:
Figure BDA0003478434760000091
其中LJS为第二损失函数,
Figure BDA0003478434760000092
代表训练数据中的训练样本,P1(yi|xi)是样本数据经过dropout编码器输出的第一预测向量,P2(yi|xi)是样本数据经过dropout编码器输出的第二预测向量。
通过对比损失函数,构建第三损失函数,具体是:将同一个样本数据输入到dropout编码器得到的第一预测向量作为正样本,将第二预测向量和同一个batch中的其他样本数据作为负样本,通过如下公式表示:
Figure BDA0003478434760000093
其中,hi是指第一预测向量,hi+是第二预测向量,hi-表示一个batch样本中除了hi和hi+之外的其他样本。τ是温度系数,调节对困难样本的关注程度,越小温度系数越关注困难样本,得到更均匀表示,N表示一个batch内样本的个数。
将第一损失函数、第二损失函数以及第三损失函数进行加权求和,得到损失优化函数。
在本实施例中,通过优化损失函数约束预训练模型的参数空间,使得预设的句向量表征模型能够更好地学习出输入的目标语料的句子表示,得到目标语料的句向量。
在本实施例中,作为一种可选的实施方式,在步骤S10,获取目标语料,并将目标语料输入到预设的句向量表征模型中,得到目标语料的预料表征向量包括:
S101,获取用户输入的文本语料,对文本语料进行标准化处理,得到标准语料,作为目标语料。
S102,将目标语料输入到预设的句向量表征模型中,得到目标语料的语料表征向量。
具体的,作为一种可选的实施方式,对用户输入的文本语料进行正则化处理,得到标准语料,作为目标语料,对文本语料进行正则化处理,将不规则的符号去除,得到标准语料,将标准语料作为目标语料输入到预设的句向量表征模型中,得到目标语料的语料表征向量。
在本实施例中,对文本语料进行标准化处理,清楚文本语料中的不规则字符,便于预设的句向量表征模型准确生成出目标语料的语料表征向量,提高目标语料的句子表示的准确性。
在本实施例中,作为一种可选的实施方式,在步骤S30,基于语义识别方式,对目标语料和每个候选召回语料进行语义识别,得到语义识别结果,并基于语义识别结果,得到候选语料集包括:
S301,对预设的召回候选集中的候选召回语料进行语义消歧和语义识别,得到候选召回语料的候选语义特征和候选情绪特征。
S302,对目标语料进行语义识别,得到目标语料的目标语义特征和目标情绪特征。
S303,基于候选语义特征和目标语义特征,确定语义特征相似度,并基于候选情绪特征和目标情绪特征,确定情绪特征相似度,将语义特征相似度和情绪特征相似度作为语义识别结果。
S304,根据语义识别结果,得到候选召回语料和目标语料的语义相似度结果,将语义相似度结果大于预设语义相似度阈值的候选召回语料组合,得到候选语料集,其中,候选语料集包含至少两个候选语料。
其中,语义特征是指语料所代表的含义,情绪特征是指语料所包含的语句特征,例如反问句和陈述句导致语料所代表的含义有所不同。
具体的,对候选语料进行语义识别消歧和语义识别,得到候选语料的候选语义特征和候选情绪特征。
其中,语义消歧(Word Sense Disambiguation)是指对自然语言中,容易对句子的意思造成歧义的词进行区分,明确句子的使用场景以及对应的语义。
对目标语料进行语义识别,得到目标语义特征和目标情绪特征,基于目标语义特征和候选语义特征,确定目标语料和每个候选召回语料的语义特征相似度;基于目标情绪特征和候选情绪特征,确定目标语料和每个候选召回语料的情绪特征相似度,最后,根据情绪特征相似度和语义特征相似度,得到语义相似度结果,作为语义识别结果。
进一步的,通过语义识别结果中的语义相似度结果,在候选召回集中筛选出候选语料集,具体是,根据语义相似度结果的大小,筛选出候选语料集。
在本实施例中,基于目标语料与候选召回集中的候选召回语料的语义相似度,在候选召回集中进一步划定与目标语料匹配度更高的候选语料集,进一步提高召回内容的匹配度。
在本实施例中,作为一种可选的实施方式,在步骤S40,生成每个候选语料的候选语料向量,并计算每个候选语料向量和语料表征向量的向量相似度,得到向量相似度值包括:
S401,将每个候选语料输入到预设的句向量表征模型中,生成每个候选语料对应的候选语料向量。
S402,基于余弦相似度,计算每个候选语料向量与语料表征向量的向量相似度,得到向量相似度值。
具体的,将候选语料集中的每个候选语料,输入到预设的句向量表征模型中,得到每个候选语料的候选语料向量,根据余弦相似度,计算语料表征向量与候选语料向量的向量相似度,得到向量相似度值。
在本实施例中,通过预设的句向量表征模型输出候选语料的候选语料向量,通过计算向量相似度值,定位与目标语料语义表达更相近的候选语料,进而提高匹配到与目标语料更相近的候选语料的可能性,提高匹配召回内容的准确性。
在本实施例中,作为一种可选的实施方式,在步骤S50,将向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到目标语料对应的召回内容包括:
S501,获取向量相似度值大于预设向量相似度阈值的候选语料,作为待召回语料。
S502,根据每个待召回语料的向量相似度值,从高到低对每个待召回语料进行排序,得到排序结果,并将排序结果作为目标预料对应的召回内容。
作为一种实施方式,将满足预设向量相似度阈值的候选语料作为待召回语料,并按照待召回语料的向量相似度值从高到低进行排序,得到排序结果,将排序结果作为召回内容。
在本实施例中,按照向量相似度值的大小进行排序,使得用户可以根据排序的先后顺序,确定与目标语料更相近的召回内容,为用户提供高质量的内容召回内容。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种内容召回装置,该内容召回装置与上述实施例中内容召回方法一一对应。如图3所示,该内容召回装置包括:
语料表征向量生成模块31,用于获取目标语料,并将目标语料输入到预设的句向量表征模型中,得到目标语料的语料表征向量,其中,预设的句向量表征模型基于对比学习模型构建。
召回候选集获取模块32,用于获取预设的召回候选集,其中,召回候选集中包含至少两个候选召回语料。
语义识别模块33,用于基于语义识别方式,对目标语料和每个候选召回语料进行语义识别,得到语义识别结果,并基于语义识别结果,得到候选语料集,其中,候选语料集包含至少两个候选语料。
相似度计算模块34,用于生成每个候选语料的候选语料向量,并计算每个候选语料向量和语料表征向量的向量相似度,得到向量相似度值。
内容召回模块35,用于将向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到目标语料对应的召回内容。
在本实施例中,内容召回装置还包括:
损失函数生成模块,用于获取训练数据,将训练数据输入到预训练模型中生成训练表征向量,并基于训练表征向量生成损失优化函数,其中,预训练模型基于对比学习模型构建。
模型生成模块,用于将训练数据输入到预训练模型中,并基于预训练模型的初始参数和损失优化函数进行参数迭代,直到迭代停止后,得到训练之后的预训练模型,作为预设的句向量表征模型。
在本实施例中,损失函数生成模块包括:
第一损失函数生成单元,用于将训练数据中的第一样本数据输入到预训练模型的dropout编码器中,得到第一预测向量,基于第一样本数据的嵌入标签和第一预测向量,生成第一损失函数。
第二损失函数生成单元,用于将第一样本数据输入到预训练模型的dropout编码器中,得到第二预测向量,基于第一预测向量和第二预测向量,得到第二损失函数。
第三损失函数生成单元,用于基于对比损失函数,根据第一预测向量和第二预测向量生成第三损失函数。
损失优化函数生成单元,用于将第一损失函数、第二损失函数以及第三损失函数进行权重求和,得到损失优化函数。
在本实施例中,语料表征向量生成模块31包括:
目标语料获取单元,用于获取用户输入的文本语料,对文本语料进行标准化处理,得到标准语料,作为目标语料。
语料表征向量生成单元,用于将目标语料输入到预设的句向量表征模型中,得到目标语料的语料表征向量。
在本实施例中,语义识别模块33包括:
候选召回语料识别单元,用于对预设的召回候选集中的候选召回语料进行语义消歧和语义识别,得到候选召回语料的候选语义特征和候选情绪特征。
目标语料识别单元,用于对目标语料进行语义识别,得到目标语料的目标语义特征和目标情绪特征。
语义识别结果单元,用于基于候选语义特征和目标语义特征,确定语义特征相似度,并基于候选情绪特征和目标情绪特征,确定情绪特征相似度,将语义特征相似度和情绪特征相似度作为语义识别结果。
候选语料集生成单元,用于根据语义识别结果,得到候选召回语料和目标语料的语义相似度结果,将语义相似度结果大于预设语义相似度阈值的候选召回语料组合,得到候选语料集,其中,候选语料集包含至少两个候选语料。
在本实施例中,相似度计算模块34包括:
候选向量生成单元,用于将每个候选语料输入到预设的句向量表征模型中,生成每个候选语料对应的候选语料向量。
相似度计算单元,用于基于余弦相似度,计算每个候选语料向量与语料表征向量的向量相似度,得到向量相似度值。
在本实施例中,内容召回模块35包括:
内容筛选单元,用于获取向量相似度值大于预设向量相似度阈值的候选语料,作为待召回语料。
召回内容生成单元,用于根据每个待召回语料的向量相似度值,从高到低对每个待召回语料进行排序,得到排序结果,并将排序结果作为目标预料对应的召回内容。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于内容召回装置的具体限定可以参见上文中对于内容召回方法的限定,在此不再赘述。上述内容召回装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容召回方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容召回方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中内容召回方法的步骤,例如图2所示的步骤S10至步骤S50及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中内容召回装置的各模块/单元的功能,例如图3所示模块31至模块35的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中内容召回方法的步骤,例如图2所示的步骤S10至步骤S50及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中内容召回装置的各模块/单元的功能,例如图3所示模块31至模块35的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种内容召回方法,其特征在于,包括:
获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;
获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;
基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;
生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;
将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。
2.根据权利要求1所述的内容召回方法,其特征在于,在所述获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量之前,包括:
获取训练数据,将所述训练数据输入到预训练模型中生成训练表征向量,并基于所述训练表征向量生成损失优化函数,其中,所述预训练模型基于对比学习模型构建;
将所述训练数据输入到所述预训练模型中,并基于所述预训练模型的初始参数和损失优化函数进行参数迭代,直到迭代停止后,得到训练之后的预训练模型,作为预设的句向量表征模型。
3.根据权利要求2所述的内容召回方法,其特征在于,所述获取训练数据,将所述训练数据输入到预训练模型中生成训练表征向量,并基于所述训练表征向量生成损失优化函数包括:
将所述训练数据中的第一样本数据输入到预训练模型的dropout编码器中,得到第一预测向量,基于第一样本数据的嵌入标签和所述第一预测向量,生成第一损失函数;
将所述第一样本数据输入到所述预训练模型的dropout编码器中,得到第二预测向量,基于所述第一预测向量和所述第二预测向量,得到第二损失函数;
基于对比损失函数,根据所述第一预测向量和所述第二预测向量生成第三损失函数;
将所述第一损失函数、所述第二损失函数以及所述第三损失函数进行权重求和,得到所述损失优化函数。
4.根据权利要求1所述的内容召回方法,其特征在于,所述获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的的语料表征向量包括:
获取用户输入的的文本语料,对所述文本语料进行标准化处理,得到标准语料,作为目标语料;
将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量。
5.根据权利要求1所述的内容召回方法,其特征在于,所述基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集包括:
对所述预设的召回候选集中的候选召回语料进行语义消歧和语义识别,得到所述候选召回语料的候选语义特征和候选情绪特征;
对所述目标语料进行语义识别,得到所述目标语料的目标语义特征和目标情绪特征;
基于所述候选语义特征和所述目标语义特征,确定语义特征相似度,并基于所述候选情绪特征和所述目标情绪特征,确定情绪特征相似度,将所述语义特征相似度和所述情绪特征相似度作为所述语义识别结果;
根据所述语义识别结果,得到所述候选召回语料和所述目标语料的语义相似度结果,将所述语义相似度结果大于预设语义相似度阈值的候选召回语料组合,得到候选语料集,其中,所述候选语料集包含至少两个候选语料。
6.根据权利要求1所述的内容召回方法,其特征在于,所述生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值包括:
将每个所述候选语料输入到预设的句向量表征模型中,生成每个所述候选语料对应的候选语料向量;
基于余弦相似度,计算每个所述候选语料向量与所述语料表征向量的向量相似度,得到向量相似度值。
7.根据权利要求1所述的内容召回方法,其特征在于,所述将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容包括:
获取向量相似度值大于预设向量相似度阈值的候选语料,作为待召回语料;
根据每个所述待召回语料的向量相似度值,从高到低对每个所述待召回语料进行排序,得到排序结果,并将所述排序结果作为所述目标预料对应的召回内容。
8.一种内容召回装置,其特征在于,包括:
语料表征向量生成模块,用于获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;
召回候选集获取模块,用于获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;
语义识别模块,用于基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;
相似度计算模块,用于生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;
内容召回模块,用于将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述内容召回方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述内容召回方法的步骤。
CN202210061616.4A 2022-01-19 2022-01-19 内容召回方法、装置、计算机设备及存储介质 Pending CN114428838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210061616.4A CN114428838A (zh) 2022-01-19 2022-01-19 内容召回方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210061616.4A CN114428838A (zh) 2022-01-19 2022-01-19 内容召回方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114428838A true CN114428838A (zh) 2022-05-03

Family

ID=81312319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210061616.4A Pending CN114428838A (zh) 2022-01-19 2022-01-19 内容召回方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114428838A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414958A (zh) * 2023-02-06 2023-07-11 飞算数智科技(深圳)有限公司 文本语料的生成方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414958A (zh) * 2023-02-06 2023-07-11 飞算数智科技(深圳)有限公司 文本语料的生成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
US20160162569A1 (en) Methods and systems for improving machine learning performance
CN113569135B (zh) 基于用户画像的推荐方法、装置、计算机设备及存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN114528844A (zh) 意图识别方法、装置、计算机设备及存储介质
CN111291187B (zh) 一种情感分析方法、装置、电子设备及存储介质
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113536139B (zh) 基于兴趣的内容推荐方法、装置、计算机设备及存储介质
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN111695591A (zh) 基于ai的面试语料分类方法、装置、计算机设备和介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN112380421A (zh) 简历的搜索方法、装置、电子设备及计算机存储介质
CN115186056A (zh) 文本风格迁移方法、装置、电子设备及存储介质
CN113239697B (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
CN114490949A (zh) 基于bm25算法的文档检索方法、装置、设备及介质
CN113919363A (zh) 基于人工智能的句向量生成模型的处理方法、装置及设备
CN114428838A (zh) 内容召回方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination