CN111783903B - 文本处理方法、文本模型的处理方法及装置、计算机设备 - Google Patents

文本处理方法、文本模型的处理方法及装置、计算机设备 Download PDF

Info

Publication number
CN111783903B
CN111783903B CN202010776786.1A CN202010776786A CN111783903B CN 111783903 B CN111783903 B CN 111783903B CN 202010776786 A CN202010776786 A CN 202010776786A CN 111783903 B CN111783903 B CN 111783903B
Authority
CN
China
Prior art keywords
feature
text
candidate
dimension
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010776786.1A
Other languages
English (en)
Other versions
CN111783903A (zh
Inventor
陈震鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010776786.1A priority Critical patent/CN111783903B/zh
Publication of CN111783903A publication Critical patent/CN111783903A/zh
Application granted granted Critical
Publication of CN111783903B publication Critical patent/CN111783903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及一种文本处理方法、文本模型的处理方法及装置、计算机设备。文本处理方法包括:获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。采用本方法能够提高文本匹配的准确性。

Description

文本处理方法、文本模型的处理方法及装置、计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法、文本模型的处理方法及装置、计算机设备。
背景技术
随着计算机技术的发展,人们越来越多地依赖互联网来获取各方面的信息,比如用户想获取一些信息时,通常通过搜索的方式,在互联网资源中寻找想要的信息。
但是,传统的搜索匹配过程中,在文本处理方面主要基于文本之间关键词的重合程度来进行匹配,这种匹配方式对语义信息的捕捉能力有限,从而导致文本匹配的准确率较低,使得搜索结果存在与用户的搜索意图不匹配的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本匹配准确性的文本处理方法、文本模型的处理方法及装置、计算机设备。
一种文本处理方法,该方法包括:
获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个;
根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。
一种文本处理装置,该装置包括:
获取模块,用于获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个;
增强处理模块,用于根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
削弱处理模块,用于根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
筛选模块,用于基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个;
根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个;
根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。
上述文本处理方法、装置、计算机设备和存储介质,在搜索文本的文本层面获取特征,以尽可能捕捉搜索文本的上下文信息得到搜索文本特征,并获取搜索文本特征匹配的多个候选文本特征;然后基于搜索文本特征,对各候选文本特征在正影响文本匹配的特征维度进行增强处理,得到正反馈特征,并对各候选文本特征在负影响文本匹配的特征维度进行削弱处理,得到负反馈特征;再综合考虑各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。这样,在文本匹配资源筛选的过程中,一方面基于文本全局捕捉上下文信息得到语义相关的特征,可以使得获取的特征能够更加精准且全面,另一方面基于精准且全面的特征更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
一种文本模型的处理方法,该方法包括:
获取文本样本对、正反馈注意力网络和负反馈注意力网络;文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本;
确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征;
通过正反馈注意力网络,根据目标样本文本特征和正相关文本特征,对正相关文本特征在第一特征维度进行增强处理,得到正相关文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
通过负反馈注意力网络,根据目标样本文本特征和负相关文本特征,对负相关文本特征在第二特征维度进行削弱处理,得到负相关文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络;
其中,训练得到的正反馈注意力网络和负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
一种文本模型的处理装置,该装置包括:
获取模块,用于获取文本样本对、正反馈注意力网络和负反馈注意力网络;文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本;
确定模块,用于确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征;
增强处理模块,用于通过正反馈注意力网络,根据目标样本文本特征和正相关文本特征,对正相关文本特征在第一特征维度进行增强处理,得到正相关文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
削弱处理模块,用于通过负反馈注意力网络,根据目标样本文本特征和负相关文本特征,对负相关文本特征在第二特征维度进行削弱处理,得到负相关文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
训练模块,用于按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络;
其中,训练得到的正反馈注意力网络和负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取文本样本对、正反馈注意力网络和负反馈注意力网络;文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本;
确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征;
通过正反馈注意力网络,根据目标样本文本特征和正相关文本特征,对正相关文本特征在第一特征维度进行增强处理,得到正相关文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
通过负反馈注意力网络,根据目标样本文本特征和负相关文本特征,对负相关文本特征在第二特征维度进行削弱处理,得到负相关文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络;
其中,训练得到的正反馈注意力网络和负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取文本样本对、正反馈注意力网络和负反馈注意力网络;文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本;
确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征;
通过正反馈注意力网络,根据目标样本文本特征和正相关文本特征,对正相关文本特征在第一特征维度进行增强处理,得到正相关文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
通过负反馈注意力网络,根据目标样本文本特征和负相关文本特征,对负相关文本特征在第二特征维度进行削弱处理,得到负相关文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络;
其中,训练得到的正反馈注意力网络和负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
上述文本模型的处理方法、装置、计算机设备和存储介质,在目标样本的文本层面获取特征,以尽可能捕捉目标样本、正相关样本和负相关文本各自的上下文信息,得到目标样本文本特征、正相关文本特征以及负相关文本特征,基于目标样本文本特征,对各正相关文本特征在正影响文本匹配的特征维度进行增强处理,得到正反馈特征,并对各负相关文本特征在负影响文本匹配的特征维度进行削弱处理,得到负反馈特征;再按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络,这样,使得正反馈注意力网络学习到对正相关特征维度进行增强处理的能力,且负反馈注意力网络学习到对负相关特征维度进行削弱处理的能力,正反馈注意力网络和负反馈注意力网络在筛选与搜索文本匹配的目标资源时,能够更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的应用场景示意图;
图3为另一个实施例中文本处理方法的应用场景示意图;
图4为一个实施例中文本处理方法的流程示意图;
图5为一个实施例文本处理方法的流程框图;
图6为另一个实施例中文本处理方法的流程示意图;
图7为一个实施例中文本模型的处理方法的流程示意图;
图8为一个实施例中特征提取网络预训练的示意图;
图9为一个实施例中文本模型的结构示意图;
图10为一个实施例中文本模型训练及应用的流程框图;
图11为一个实施例中文本处理装置的结构框图;
图12为一个实施例中文本模型的处理装置的结构框图;
图13为一个实施例中计算机设备的内部结构图;
图14为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102和服务器104均可单独用于执行本申请实施例中提供的文本处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的文本处理方法。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云存储、网络服务、云通信、大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本方案可用于搜索场景下。在搜索场景下,用户提供搜索文本,服务器对搜索文本进行语义分析确定用户搜索行为意图,进而筛选得到与用户搜索行为意图相匹配的搜索结果,并将搜索结果返回给用户。可以理解,用户在搜索场景下提供搜索信息不限于文本格式,也可以是其他数据格式,比如语音、图片或者视频等。服务器可对搜索信息进行文本提取得到搜索文本,再对搜索文本进行处理。
该搜索场景可以是通用搜索场景,也可以是垂直搜索场景。通用搜索场景是基于搜索文本,得到与搜索文本相匹配的各类资源。参照图2,可以看到,基于搜索文本,得到与搜索文本相匹配的网页内容、百科、小视频、小程序等等。垂直搜索场景是基于搜索文本,得到与搜索文本相匹配的指定类别资源。参照图3,可以看到,基于搜索文本,得到与搜索文本相匹配的单一类型资源。
并且,该搜索场景可以是独立的搜索应用程序中的应用场景,也可以是包括搜索功能在内的多种功能的应用程序中的应用场景,比如社交应用程序、购物应用程序等。在独立的搜索应用程序中,用户可搜索网页内容、资讯、视频、图片、问答、百科等等。在多种功能的应用程序中,用户可搜索适用于特定应用程序的资源,比如小程序、公众号、历史消息、联系人、文章、音乐、商品、信息流等等。
本申请提供的文本模型的处理方法,也可以应用于如图1所示的应用环境中。终端102和服务器104均可单独用于执行本申请实施例中提供的文本模型的处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的文本模型的处理方法。
在一个实施例中,提供了一种文本处理方法,本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备可以是上述图1中的终端102或服务器104。如图4所示,包括以下步骤:
步骤402,获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个。
其中,搜索文本是反映用户搜索行为意图的文本。
具体地,终端可检测对搜索引擎的搜索输入区域的触发操作,在检测到对搜索输入区域的触发操作后,获取用户直接输入搜索输入区域中的文本,或者用户输入搜索输入区域中的语音或者图片等,再将语音或者图片转换得到的文本,将该文本发送给服务器,服务器由此获取得到搜索文本。该搜索引擎可内嵌于独立的搜索应用程序,此时服务器为该搜索应用程序的服务器;该搜索引擎也可内嵌于实现包括搜索功能在内的多种功能的应用程序(比如社交应用程序等),此时服务器为该应用程序的服务器。
本申请中,计算机设备需要从备选资源中筛选得到与搜索文本匹配的目标资源。计算机设备可从备选资源中初步筛选得到多个候选资源,再从多个候选资源中进一步筛选得到预设数量的目标资源。其中,备选资源存在于搜索引擎用于检索的数据库。备选资源可包括通用的资源类型,比如网页内容、资讯、视频、图片、问答、百科等等,也可包括适用于特定应用程序的资源类型,比如小程序、公众号、历史消息、联系人、文章、音乐、商品、信息流等等。
具体地,计算机设备获取备选资源的文本信息,对搜索文本和备选资源的文本信息进行语义匹配,以从备选资源中初步筛选出多个候选资源。首先,计算机设备对备选资源的文本信息进行语义分析,得到备选资源的文本信息相应的备选文本特征。接着,通过分析搜索文本特征与各备选文本特征之间的相似度或者差异度,从备选文本特征中筛选出与搜索文本特征的相似度或者差异度满足匹配条件的候选文本特征,该候选文本特征相应的资源即为候选资源。匹配条件具体可以是差异度低于或者不超过预设差异度阈值,或者相似度高于或者达到预设相似度阈值。
其中,计算机设备在根据备选资源的文本信息得到备选资源相应的备选文本特征时,按照文本顺序处理文本信息,尽可能捕捉文本信息中的上下文信息,以得到更准确、更能全面反映文本信息语义的备选文本特征。
备选资源的文本信息可以是备选资源的名称、摘要、简介等。比如,备选资源的资源类型为小程序,备选资源的文本信息可以是小程序的名称和/或简介等;备选资源的资源类型为资讯,备选资源的文本信息可以是资讯的名称和/或摘要等。
其中,文本特征是反映文本的语义特性的数据,语义特性是文本在语义层面所具有的特点。特征维度是指不同属性的特征数据所属的维度。
具体地,文本特征可区分任意两个文本,不同的文本,其文本特征存在差异。比如“XX城市天气”与“XXX城市交通”,二者的文本特征不同。文本特征还可确定任意两个文本在语义层面的相似性,两个文本在语义表达上越接近,其文本特征的相似度越高。比如“XX城市快递”与“XX城市极速快递”的文本特征的相似度,高于“XX城市快递”与“XX城市天气”的文本特征的相似度。
在一个具体的实施例中,计算机设备可对文本进行向量化处理得到文本向量,将该文本向量作为文本特征。向量化是指将其它形式的数据以数学形式进行表达。比如,文本形式的“XXX”表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”,此时,“[0 0 0 1 0 0 0 00 0 0...]”即为对“XXX”进行向量化处理的结果,即为“XXX”的文本向量。
可以理解,这里不限定将文本形式的数据转换为何种表示的向量,只要能够将文本形式的数据进行数学化表示即可。比如可将文本转换为高维稀疏向量,高维稀疏向量是将所有单词的数量作为文本向量的长度,文本向量的每个维度表示一个单词,单词对应的维度为非零值,其它维度为零值。也可将文本转换为低维稠密向量,低维稠密向量的长度低于高维稀疏向量的长度,低维稠密向量的每个维度基本上是非零值,其能够更好地表达文本的特征数据。
在一个具体的实施例中,计算机设备可将搜索文本和备选资源的文本信息分别映射为相同长度的文本向量,文本向量的长度可以认为是文本特征的维度。这样,将搜索文本特征和备选文本特征统一到相同的特征维度,便于后续进行相似度计算。
需要说明的是,搜索文本通常为文本形式的数据。搜索文本特征可以是文本形式的数据,也可以是向量形式的数据,还可以是其它形式的数据。
步骤404,根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度。
可以理解,候选文本特征包括多个特征维度,不同特征维度的特征数据与文本匹配的关系各不相同。如,与文本匹配正相关的关系以及与文本匹配负相关的关系等。与文本匹配正相关是指与文本匹配的准确程度正相关,比如反映文本主题的特征维度等,与文本匹配负相关是指与文本匹配的准确程度负相关,比如噪声数据的特征维度等。在本申请实施例中,计算机设备对各候选文本特征在与文本匹配正相关的特征维度进行增强处理,得到各候选文本特征相应的正反馈特征,可以使得后续在利用正反馈特征进行处理时,能够更多的关注对文本匹配更重要的特征维度的特征数据,从而提高文本匹配和资源筛选的准确性。
其中,在对各候选文本特征在第一特征维度进行增强处理时,可以是对第一特征维度赋予更高的权重,即第一特征维度相对应的权重高于除第一特征维度外其他特征维度相对应的权重。各特征维度相对应的权重可以通过机器学习模型处理得到,也可以根据其他函数或者算法得到,在本申请中对此不作限定。
在一个具体的实施例中,考虑到候选文本特征的特征维度是有限的,而候选资源的文本信息往往是长文本,长文本中通常会包含停用词等低价值文本,如果不加区分地进行特征表示,会导致有限维度的候选文本特征不能够充分体现候选资源的文本信息的语义特性。为了体现出不同维度的特征数据对语义特性的重要程度,通过注意力机制(Attention)对不同维度的特征数据分配不同的正向权重,通过正向权重来体现不同维度的特征数据对语义特性的重要程度,从而凸显出对文本匹配更重要的特征维度的特征数据,增强该特征数据在后续的文本匹配中所起的作用。
可以理解,注意力机制是指利用有限的注意力从大量信息中筛选出高价值信息。比如,在观看一幅画像时,会快速扫描并获取重点区域,在重点区域投入更多的注意力来获取细节信息,从而抑制对非重点区域的关注。
其中,第一特征维度是正影响文本匹配的特征维度。这是由于第一特征维度的特征数据是对语义特性表达重要的特征数据,第一特征维度的特征数据越精确,文本匹配结果越准确,因此第一特征维度的特征数据正影响文本匹配结果。
具体地,计算机设备对候选文本特征在每个维度的特征数据分别分配正向权重,第一特征维度的正向权重大于剩余的特征维度的正向权重,这样,获取得到的正反馈特征可凸显出重要的特征数据。
举例说明,假设候选文本特征p在四个特征维度各自对应的特征数据为p1、p2、p3、p4,其中p1、p2为第一特征维度对应的特征数据,p3、p4为剩余的特征维度对应的特征数据,那么p1、p2各自对应的正向权重均大于p3、p4各自对应的正向权重。
步骤406,根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度。
具体地,计算机设备对各候选文本特征在与文本匹配负相关的特征维度进行增强处理,得到各候选文本特征相应的负反馈特征,可以使得后续在利用负反馈特征进行处理时,能够降低对文本匹配无关的特征维度的特征数据的关注,从而提高文本匹配和资源筛选的准确性。
其中,在对各候选文本特征在第二特征维度进行增强处理时,可以是对第二特征维度赋予更低的权重,即第二特征维度相对应的权重低于除第二特征维度外其他特征维度相对应的权重。各特征维度相对应的权重可以通过机器学习模型处理得到,也可以根据其他函数或者算法得到,在本申请中对此不作限定。
在一个具体的实施例中,为了体现出不同维度的特征数据对语义特性的重要程度,通过注意力机制对不同维度的特征数据分配不同的负向权重,通过负向权重来降低对文本匹配无关的特征维度的特征数据的关注,从而降低该特征数据在后续的文本匹配中所起的作用。
其中,第二特征维度是负影响文本匹配的特征维度。这是由于第二特征维度的特征数据是对语义特性表达不重要的特征数据,第二特征维度的特征数据可能会干扰文本匹配结果,因此第二特征维度的特征数据负影响文本匹配结果。
具体地,计算机设备对候选文本特征在每个维度的特征数据分别分配负向权重,第二特征维度的负向权重小于剩余的特征维度的负向权重,这样,获取得到的负反馈特征削弱了不重要的特征数据。
举例说明,假设候选文本特征q在四个特征维度各自对应的特征数据为q1、q2、q3、q4,其中q1、q2为第二特征维度对应的特征数据,q3、q4为剩余的特征维度对应的特征数据,那么q1、q2各自对应的负向权重均小于q3、q4各自对应的负向权重。
需要说明的是,前述步骤404和步骤406可并行进行。
步骤408,基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。
在一个具体的实施例中,计算机设备可将正反馈特征和负反馈特征分别与搜索文本特征进行比对,计算正反馈特征和搜索文本特征的差异度或者相似度,以及负反馈特征和搜索文本特征的差异度或者相似度,然后从候选资源中筛选出与搜索文本特征的差异度或者相似度共同满足匹配条件的目标资源。其中,匹配条件具体可以是差异度低于或者不超过预设差异度阈值,或者,相似度高于或者达到预设相似度阈值等。
在一个具体的实施例中,计算机设备也可先融合正反馈特征和负反馈特征得到融合特征,再根据融合特征从候选资源中筛选出目标资源。其中,融合特征是最终得到的能够更精准地对语义特性进行表达的数据。可以理解,先对候选文本特征在第一特征维度进行增强处理得到正反馈特征,然后对候选文本特征在第二特征维度进行削弱处理得到负反馈特征,再对正反馈特征和负反馈特征进行融合处理得到融合特征,使得融合特征不仅能够凸显出对文本匹配更重要的特征维度的特征数据,而且降低对文本匹配无关的特征维度的特征数据的关注,便可以更加精准地表达语义特性。
计算机设备在得到正反馈特征和负反馈特征后,可将这两个特征进行融合,得到融合特征。此后,计算机设备则可将该融合特征和搜索文本特征进行比对,计算融合特征和搜索特征的差异度或者相似度,从而从候选资源中筛选出与搜索文本特征相似度或者差异度满足匹配条件的目标资源。
比如,计算机设备可将正反馈特征和负反馈特征分别向量化,得到正反馈特征向量和负反馈特征向量,再将正反馈特征向量和负反馈特征向量融合,得到目标特征向量。这里的融合具体可以是组合、拼接、加和或者按权重加和等。
上述文本处理方法,在搜索文本的文本层面获取特征,以尽可能捕捉搜索文本的上下文信息得到搜索文本特征,并获取搜索文本特征匹配的多个候选文本特征;然后基于搜索文本特征,对各候选文本特征在正影响文本匹配的特征维度进行增强处理,得到正反馈特征,并对各候选文本特征在负影响文本匹配的特征维度进行削弱处理,得到负反馈特征;再综合考虑各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。这样,在文本匹配资源筛选的过程中,一方面基于文本全局捕捉上下文信息得到语义相关的特征,可以使得获取的特征能够更加精准且全面,另一方面基于精准且全面的特征更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
在一个实施例中,计算机设备可具体可获取搜索文本相应的搜索文本特征向量,以及与搜索文本特征向量匹配的多个候选文本特征向量;这些候选文本特征的特征维度为多个。计算机设备然后根据搜索文本特征向量,分别对各候选文本特征向量在第一特征维度进行增强处理,得到各候选文本特征向量相应的正反馈特征向量;以及根据搜索文本特征向量,分别对各候选文本特征向量在第二特征维度进行削弱处理,得到各候选文本特征向量相应的负反馈特征向量;其中,第一特征维度是正影响文本匹配的特征维度,第二特征维度是负影响文本匹配的特征维度。计算机设备再根据各候选文本特征向量相应的正反馈特征向量和负反馈特征向量,从各候选文本特征向量相应的候选资源中,筛选与搜索文本匹配的目标资源。
具体地,计算机设备将各候选文本特征向量依次作为当前文本特征向量,计算当前文本特征向量每个特征维度的特征值,分别与搜索文本特征向量每个特征维度的特征值之间的相关度;然后根据当前文本特征向量每个特征维度计算得到的相关度,确定当前文本特征每个特征维度的正向权重;再根据当前文本特征每个特征维度的特征值与正向权重,得到正反馈特征向量的各向量元素。另外,计算机设备也并行地将各候选文本特征向量依次作为当前文本特征向量,计算当前文本特征向量每个特征维度的特征值,分别与搜索文本特征向量每个特征维度的特征值之间的相关度;然后根据当前文本特征向量每个特征维度计算得到的相关度,确定当前文本特征每个特征维度的负向权重;再根据当前文本特征每个特征维度的特征值与负向权重,得到负反馈特征向量的各向量元素。
在一个实施例中,获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征,包括:获取搜索文本和特征提取网络;通过特征提取网络提取搜索文本相应的搜索文本特征;从文本特征检索库中筛选与搜索文本特征匹配的多个候选文本特征;其中,文本特征检索库中的备选文本特征,通过特征提取网络从备选资源所对应的文本信息中提取得到。
其中,特征提取网络是通过样本学习具备文本向量生成能力的模型。该特征提取网络具体可以是端到端的模型,输入端为文本,输出端为文本向量。特征提取网络为多层网络结构,不同的网络层对输入其的数据进行不同的处理,并输出处理结果至下一网络层。
在一个具体的实施例中,特征提取网络可采用通用的自然语言处理模型,比如Bert(Bidirectional Encoder Representations from Transformers)模型等。
具体地,计算机设备在获取到搜索文本后,可将文本形式的搜索文本直接输入特征提取网络,特征提取网络则将搜索文本映射为相应的搜索文本向量。
举例说明,参照图5,图5示出了一个实施例文本处理方法的流程框图。可以看到,计算机设备将文本形式的搜索文本直接输入特征提取网络,特征提取网络则将搜索文本映射为相应的、固定长度的文本向量。比如将搜索文本“XXXX”映射为相应的、固定长度的文本向量S1、S2、…、Sm
在一个具体的实施例中,计算机设备预先通过特征提取网络提取备选资源的文本信息相应的备选文本向量,根据备选文本向量构建文本特征检索库。同样的,计算机设备将各文本形式的备选资源对应的文本信息依次输入特征提取网络,特征提取网络则将各备选资源对应的文本信息分别映射为相应的、固定长度的文本向量。这样,避免在线上对备选资源的文本信息进行特征提取,减少线上计算量,提高线上场景中文本匹配速度。
在一个具体的实施例中,特征提取网络可将每个文本形式的数据分别映射为相应的、固定长度的文本向量。该固定长度可以认为是文本向量的维度。这样,将搜索文本向量和备选文本向量统一到相同的向量长度,便于后续进行相似度计算、差异度计算等匹配处理。
具体地,计算机设备从文本特征检索库的多个备选文本向量中,根据搜索文本向量,筛选得到多个候选资源的文本信息相应的候选文本向量。计算机设备通过分析搜索文本向量,与文本特征检索库的各备选文本向量之间的相似度或者差异度,从备选文本向量中,筛选出与搜索文本向量的相似度或者差异度满足匹配条件的候选文本向量。匹配条件具体可以是差异度低于或者不超过预设差异度阈值,或者相似度高于或者达到预设相似度阈值。
本实施例中,计算机设备通过特征提取网络来进行特征提取,由于特征提取网络是通过样本训练得到的模型,在选择设置好模型结构、训练样本和相应的训练标签后,即可通过样本自学习到模型参数,从而利用特征提取网络学习到的特征表达能力,尽可能捕捉文本的上下文信息得到文本特征,更好地对文本形式的数据进行向量表达,有利于后续的处理以及目标资源的筛选。
并且,预先构建文本特征检索库,避免在线上对备选资源的文本信息进行特征提取,减少线上计算量,提高线上场景中文本匹配速度。
在一个实施例中,根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征,包括:获取正反馈注意力网络;通过正反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的正向权重;第一特征维度的正向权重大于剩余的特征维度的正向权重;通过正反馈注意力网络,根据各候选文本特征各个特征维度的正向权重,得到各候选文本特征相应的正反馈特征。
其中,正反馈注意力网络是通过样本学习具备识别对语义特性表达重要的特征数据、并着重对重要的特征数据进行增强处理能力的模型。通过正反馈注意力网络,可对输入其的候选文本特征(比如候选文本向量)在各个维度的特征数据进行增强处理,但是对重要的特征数据的增强程度大于对剩余的特征数据的增强程度,从而凸显出重要的特征数据。
可以理解,为了体现出不同维度的特征数据对语义特性的重要程度,通过注意力机制对不同维度的特征数据分配不同的正向权重,通过正向权重增强该特征数据在向量表达中所起的作用。
具体地,正反馈注意力网络针对输入其的候选文本特征,在每个维度的特征数据分别分配正向权重,但是对重要的特征数据分配的正向权重大于对剩余的特征数据分配的正向权重。比如,计算机设备获取了n维的候选文本特征x1、x2、…、xn,在经过正反馈注意力网络处理后,候选文本特征在每个维度的特征数据均被赋予了正向权重,但是明显x1、x2的正向权重明显高于其它维度的特征数据,x1、x2为正反馈注意力网络判定为重要的特征数据。
在一个具体的实施例中,候选文本特征在每个维度的正向权重,可通过正反馈注意力网络,根据候选文本特征每个维度的特征数据以及搜索文本特征每个维度的特征数据确定。将搜索文本特征和候选文本特征输入正反馈注意力网络,通过正反馈注意力网络,计算候选文本特征每个维度的特征数据分别与搜索文本特征每个维度的特征数据之间的相关度,正反馈注意力网络基于候选文本特征每个维度计算得到的相关度,确定候选文本特征每个维度的正向权重。
具体地,通过正反馈注意力网络,根据各候选文本特征各个特征维度的正向权重,对应更新各候选文本特征得到正反馈特征。比如,通过正反馈注意力网络,获取得到候选文本特征x1、x2、…、xn在每个维度的正向权重分别为a1、a2、…、an,那么通过正反馈注意力网络得到的正反馈特征为a1x1、a2x2、…、anxn
本实施例中,采用注意力机制为不同维度的特征数据分配不同的正向权重,这样可以凸显出对文本匹配更重要的特征维度的特征数据,更充分地对文本的语义特性进行表示,大大提高了文本特征的准确性和有效性。
并且,计算机设备通过正反馈注意力网络来进行特征数据增强处理,由于正反馈注意力网络是通过样本训练得到的模型,在选择设置好模型结构、训练样本和相应的训练标签后,即可通过样本自学习到模型参数,从而利用正反馈注意力网络学习到的对正相关特征维度进行增强处理的能力,更好地对文本形式的数据进行向量表达,有利于目标资源的筛选。
在一个实施例中,通过正反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的正向权重,包括:将各候选文本特征依次作为当前文本特征;将搜索文本特征和当前文本特征输入正反馈注意力网络;通过正反馈注意力网络,计算当前文本特征每个特征维度的特征值,分别与搜索文本特征每个特征维度的特征值之间的相关度;通过正反馈注意力网络,根据当前文本特征每个特征维度计算得到的相关度,确定当前文本特征每个特征维度的正向权重。
其中,特征值是文本特征每个维度的特征数据,在文本特征为向量形式时,每个维度的特征数据以特征值的形式进行表示。
具体地,候选文本特征在每个维度的正向权重,可通过正反馈注意力网络,根据候选文本特征每个维度的特征值以及搜索文本特征每个维度的特征值确定。将每个候选文本特征依次作为当前文本特征,将搜索文本特征和当前文本特征输入正反馈注意力网络,通过正反馈注意力网络,计算当前文本特征每个维度的特征值分别与搜索文本特征每个维度的特征值之间的正向相关度,即针对当前文本特征任一维度的特征值,先分别计算与搜索文本特征每个维度的特征值之间的正向相关度,然后基于与搜索文本特征每个维度的正向相关度,再计算每个维度的正向相关度均值或者加权平均值等,得到当前文本特征任一维度的正向权重。
其中,正向相关度是通过正反馈注意力网络,采用其训练好的模型参数计算得到的任意两个特征值之间的相关程度。
首先,以候选文本特征在第j维的特征值为例,计算候选文本特征在第j维的特征值与搜索文本特征每个维度的特征值之间的正向相关度,这里以搜索文本特征在第i维的特征值为例,正向相关度可通过以下公式进行计算:
eij=δ(qi,pj)=tanh(W1·qi+U1·pj)
其中,qi为搜索文本特征在第i维的特征值;pj为候选文本特征在第j维的特征值;W1、U1为正反馈注意力网络的模型参数;eij为qi与pj之间的正向相关度;aij为对eij进行归一化处理后得到的正向相关度。
接着,计算候选文本特征在第j维的正向权重,以计算候选文本特征每个维度的正向相关度均值为例:
其中,afinal-j为候选文本特征在第j维更新后的正向权重;m为搜索文本特征的特征维度。
接着,更新候选文本特征在第j维的特征值:
pfinal-r-j=afinal-j·pj
其中,pfinal-r-j为候选文本特征在第j维更新后的特征值。
接着,更新候选文本特征的特征表示:
pr-j=pfinal-r-j,j=1、2……m
其中,pr-j为候选文本特征更新后的特征表示;m为候选文本特征的特征维度。
举例说明,假设候选文本特征在m个维度各自对应的特征值为p1、p2、…、pm,搜索文本特征在m个特征维度各自对应的特征数据为q1、q2、…、qm,以p1作为当前文本特征,分别计算p1与q1、q2、…、qm之间的正向相关度a11、a21、…、am1,计算a11、a21、…、am1的均值或者加权平均值作为p1的正向权重afinal-1,根据afinal-1更新p1,得到p1更新后的特征值pfinal-r-1。根据候选文本特征各维度更新后的特征值pfinal-r-1、pfinal-r-2、…、pfinal-r-m,得到候选文本特征更新后的特征表示pr-j
本实施例中,通过正反馈注意力网络,根据候选文本特征每个维度的特征值以及搜索文本特征每个维度的特征值确定正向权重,采用注意力机制为不同维度的特征数据分配不同的正向权重,这样可以凸显出对文本匹配更重要的特征维度的特征数据,更充分地对文本的语义特性进行表示,大大提高了文本特征的准确性和有效性。
在一个实施例中,根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征,包括:获取负反馈注意力网络;通过负反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的负向权重;第二特征维度的负向权重小于剩余的特征维度的负向权重;通过负反馈注意力网络,根据各候选文本特征各个特征维度的负向权重,得到各候选文本特征相应的负反馈特征。
其中,负反馈注意力网络是通过样本学习具备识别对语义特性表达不重要的特征数据、并着重对不重要的特征数据进行削弱处理能力的模型。通过负反馈注意力网络,可对输入其的候选文本特征(比如候选文本向量)在各个维度的特征数据进行削弱处理,但是对不重要的特征数据的削弱程度大于对剩余的特征数据的削弱程度,从而降低对文本匹配无关的特征维度的特征数据的关注。
可以理解,为了体现出不同维度的特征数据对语义特性的重要程度,通过注意力机制对不同维度的特征数据分配不同的负向权重,通过负向权重削弱不重要的特征数据在向量表达中所起的作用。
具体地,负反馈注意力网络针对输入其的候选文本特征,在每个维度的特征数据分别分配负向权重,但是对不重要的特征数据分配的负向权重小于对剩余的特征数据分配的负向权重。比如,计算机设备获取了n维的候选文本特征y1、y2、…、yn,在经过负反馈注意力网络处理后,候选文本特征在每个维度的特征数据均被赋予了负向权重,但是明显y1、y2的负向权重明显低于其它维度的特征数据,y1、y2为负反馈注意力网络判定为不重要的特征数据。
在一个具体的实施例中,候选文本特征在每个维度的负向权重,可通过负反馈注意力网络,根据候选文本特征每个维度的特征数据以及搜索文本特征每个维度的特征数据确定。将搜索文本特征和候选文本特征输入负反馈注意力网络,通过负反馈注意力网络,计算候选文本特征每个维度的特征数据分别与搜索文本特征每个维度的特征数据之间的相关度,负反馈注意力网络基于候选文本特征每个维度计算得到的相关度,确定候选文本特征每个维度的负向权重。
具体地,通过负反馈注意力网络,根据各候选文本特征各个特征维度的负向权重,对应更新各候选文本特征得到负反馈特征。比如,通过负反馈注意力网络,获取得到候选文本特征y1、y2、…、yn在每个维度的负向权重分别为b1、b2、…、bn,那么通过负反馈注意力网络得到的负反馈特征为b1y1、b2y2、…、bnyn
本实施例中,采用注意力机制为不同维度的特征数据分配不同的负向权重,这样可以降低对文本匹配无关的特征维度的特征数据的关注,更充分地对文本的语义特性进行表示,大大提高了文本特征的准确性和有效性。
并且,计算机设备通过负反馈注意力网络来进行特征数据削弱处理,由于负反馈注意力网络是通过样本训练得到的模型,在选择设置好模型结构、训练样本和相应的训练标签后,即可通过样本自学习到模型参数,从而利用负反馈注意力网络学习到的对负相关特征维度进行削弱处理的能力,更好地对文本形式的数据进行向量表达,有利于目标资源的筛选。
在一个实施例中,通过负反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的负向权重,包括:将各候选文本特征依次作为当前文本特征;将搜索文本特征和当前文本特征输入负反馈注意力网络;通过负反馈注意力网络,计算当前文本特征每个特征维度的特征值,分别与搜索文本特征每个特征维度的特征值之间的相关度;通过负反馈注意力网络,根据当前文本特征每个特征维度计算得到的相关度,确定当前文本特征每个特征维度的负向权重。
具体地,候选文本特征在每个维度的负向权重,可通过负反馈注意力网络,根据候选文本特征每个维度的特征值以及搜索文本特征每个维度的特征值确定。将每个候选文本特征依次作为当前文本特征,将搜索文本特征和当前文本特征输入负反馈注意力网络,通过负反馈注意力网络,计算当前文本特征每个维度的特征值分别与搜索文本特征每个维度的特征值之间的负向相关度,即针对当前文本特征任一维度的特征值,先分别计算与搜索文本特征每个维度的特征值之间的负向相关度,然后基于与搜索文本特征每个维度的负向相关度,再计算每个维度的负向相关度均值或者加权平均值等,得到当前文本特征任一维度的负向权重。
其中,负向相关度是通过负反馈注意力网络,采用其训练好的模型参数计算得到的任意两个特征值之间的相关程度。
首先,以候选文本特征在第k维的特征值为例,计算候选文本特征在第k维的特征值与搜索文本特征每个维度的特征值之间的负向相关度,这里以搜索文本特征在第i维的特征值为例,负向相关度可通过以下公式进行计算:
cik=δ(qi,pk)=tanh(W2·qi+U2·pk)
其中,qi为搜索文本特征在第i维的特征值;pk为候选文本特征在第k维的特征值;W2、U2为负反馈注意力网络的模型参数;cik为qi与pk之间的负向相关度;bik为对cik进行归一化处理后得到的负向相关度。
接着,计算候选文本特征在第k维的负向权重,以计算候选文本特征每个维度的负向相关度均值为例:
其中,bfinal-k为候选文本特征在第k维更新后的负向权重;m为搜索文本特征的特征维度。
接着,更新候选文本特征在第k维的特征值:
pfinal-n-k=bfinal-k·pk
其中,pfinal-n-k为候选文本特征在第k维更新后的特征值。
接着,更新候选文本特征的特征表示:
pn-k=pfinal-n-k,k=1、2……m
其中,pn-k为候选文本特征更新后的特征表示;m为候选文本特征的特征维度。
举例说明,假设候选文本特征在m个维度各自对应的特征值为p1、p2、…、pm,搜索文本特征在m个特征维度各自对应的特征数据为q1、q2、…、qm,以p1作为当前文本特征,分别计算p1与q1、q2、…、qm之间的负向相关度b11、b21、…、bm1,计算b11、b21、…、bm1的均值或者加权平均值作为p1的负向权重bfinal-1,根据bfinal-1更新p1,得到p1更新后的特征值pfinal-n-1。根据候选文本特征各维度更新后的特征值pfinal-n-1、pfinal-n-2、…、pfinal-n-m,得到候选文本特征更新后的特征表示pn-k
本实施例中,通过负反馈注意力网络,根据候选文本特征每个维度的特征值以及搜索文本特征每个维度的特征值确定负向权重,采用注意力机制为不同维度的特征数据分配不同的负向权重,这样可以降低对文本匹配无关的特征维度的特征数据的关注,更充分地对文本的语义特性进行表示,大大提高了文本特征的准确性和有效性。
在一个实施例中,基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源,包括:基于各候选文本特征相应的正反馈特征和负反馈特征,更新各候选文本特征;确定搜索文本特征与更新后的各候选文本特征之间的相似度;从更新后的各候选文本特征中,选取预设数量的、且相似度大于筛选阈值的目标文本特征;将目标文本特征相应的候选资源作为目标资源。
具体地,计算机设备在得到正反馈特征和负反馈特征后,可将这两个特征进行融合,得到融合特征。此后,计算机设备则可将该融合特征和搜索文本特征进行比对,计算融合特征和搜索特征的相似度,从而从候选资源中筛选出与搜索文本特征相似度满足匹配条件的目标资源。匹配条件具体可以是相似度高于或者达到预设相似度阈值。
比如,计算机设备可将正反馈特征和负反馈特征分别向量化,得到正反馈特征向量和负反馈特征向量,再将正反馈特征向量和负反馈特征向量融合得到目标特征向量。这里的融合具体可以是组合、拼接、加和或者按权重加和等。
举例说明,继续参考图5,可以看到,计算机设备在获取到候选文本特征p(p1、p2、…、pm)后,将候选文本特征分别输入正反馈注意力网络和负反馈注意力网络,分别得到正反馈注意力网络输出的正反馈向量pr-j(pfinal-r-1、pfinal-r-2、…、pfinal-r-m)和负反馈注意力网络输出的负反馈向量pn-k(pfinal-n-1、pfinal-n-2、…、pfinal-n-m),对正反馈向量和负反馈向量加和得到目标向量pt-j(pfinal-t-1、pfinal-t-2、…、pfinal-t-m)。
在一个具体的实施例中,融合特征和搜索文本特征的相似度,可采用余弦相似度、欧氏距离等方式进行衡量。
具体地,在获取到各融合特征与搜索文本特征之间的相似度后,可根据相似度对各融合特征由高至低或者由低至高进行排序,从而选取预设数量的、且相似度大于筛选阈值的目标文本特征。
本实施例中,将正反馈特征和负反馈特征进行融合得到融合特征,该融合特征不仅能够凸显出对文本匹配更重要的特征维度的特征数据,而且降低对文本匹配无关的特征维度的特征数据的关注,可以更加精准地表达语义特性。
在一个实施例中,获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征,包括:获取搜索文本相应的搜索文本特征;确定基于用户操作选择的资源类型;从文本特征检索库中提取资源类型对应的文本特征;从资源类型对应的文本特征中,筛选与搜索文本特征匹配的多个候选文本特征。
其中,资源类型可包括通用的资源类型,比如网页内容、资讯、视频、图片、问答、百科等等,也可包括适用于特定应用程序的资源类型,比如小程序、公众号、历史消息、联系人、文章、音乐、商品、信息流等等。
具体地,计算机设备预先通过特征提取网络提取备选资源的文本信息相应的备选文本向量,根据备选文本向量构建文本特征检索库。计算机设备在获取到搜索文本后,可将文本形式的搜索文本直接输入特征提取网络,特征提取网络则将搜索文本映射为相应的文本向量。并且,计算机设备在获取得到资源类型后,从文本向量检索库中提取资源类型对应的备选文本向量。计算机设备通过分析搜索文本向量与各资源类型对应的备选文本向量之间的相似度或者差异度,从资源类型对应的备选文本向量中,筛选出与搜索文本向量的相似度或者差异度满足匹配条件的候选文本向量。
举例说明,继续参照图3,可以看到,用户可选择资源类型,比如网页、百科、小视频、小程序等等。当用户选中资源类型后,搜索得到的目标资源均属于该资源类型。
本实施例中,可提高在垂直搜索场景下文本匹配的准确性,进而大大提升垂直搜索结果的准确度。
在一个实施例中,获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征,包括:获取基于母应用输入的搜索文本;获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源,包括:基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选子应用中,筛选与搜索文本匹配的目标子应用。
其中,母应用是原生应用。原生应用是可直接运行于操作系统的应用程序。母应用可以是社交应用、邮件应用或者游戏应用等。社交应用包括即时通信应用、SNS(SocialNetwork Service,社交网站)应用或者直播应用等。母应用是承载子应用的应用,为子应用的实现提供环境。子应用是可在母应用提供的环境中实现的应用。子应用具体可以是社交应用、文件管理应用、邮件应用或者游戏应用等。母应用具体可以是微信程序(WeChat),相应的子应用可为小程序。
以社交应用程序为例,社交应用程序中内嵌有搜索引擎,通过搜索引擎的搜索输入区域录入搜索文本,即可查找小程序、公众号、历史消息、联系人、文章、音乐、商品等等。子应用是可基于母应用运行的应用程序,比如小程序等。
具体地,在用户指定搜索子应用的垂直搜索场景下,计算机设备获取备选子应用的文本信息,对搜索文本和备选子应用的文本信息进行语义匹配,以得到多个候选文本特征。备选子应用的文本信息可以是备选子应用的名称和/或简介等。或者,计算机设备直接从文本特征检索库中提取子应用资源类型对应的备选文本特征,从子应用资源类型对应的备选文本特征中筛选得到多个候选文本特征。
在一个具体的实施例中,计算机设备可将正反馈特征和负反馈特征分别与搜索文本特征进行比对,计算正反馈特征和搜索文本特征的差异度或者相似度,以及负反馈特征和搜索文本特征的差异度或者相似度,然后从候选子应用中筛选出与搜索文本特征的差异度或者相似度共同满足匹配条件的目标子应用。筛选出的目标子应用的数量可以为一个也可以多于一个。
在另外的实施例中,计算机设备也可先融合正反馈特征和负反馈特征得到融合特征,将该融合特征和搜索文本特征进行比对,计算融合特征和搜索特征的差异度或者相似度,从而从候选子应用中筛选出与搜索文本特征相似度或者差异度满足匹配条件的目标子应用。
举例说明,继续参照图3,可以看到,用户可基于搜索输入区域录入搜索文本,以对小程序进行搜索。计算机设备通过执行本申请提供的文本处理方法,筛选出与搜索文本匹配的目标子应用后,将目标小程序展示给用户,目标小程序越靠前,说明搜索文本与该目标小程序越匹配。
本实施例中,可提高对小程序搜索的准确度。
本申请还提供一种应用场景,该应用场景应用上述的文本处理方法。具体地,该应用场景为搜索场景。在搜索场景下,用户提供搜索文本,计算机设备对搜索文本进行语义分析确定用户搜索行为意图,进而筛选得到与用户搜索行为意图相匹配的搜索结果,并将搜索结果返回给用户。
该搜索场景可以是通用搜索场景,也可以是垂直搜索场景。通用搜索场景是基于搜索文本,得到与搜索文本相匹配的各类资源。参照图2,可以看到,基于搜索文本,得到与搜索文本相匹配的网页内容、百科、小视频、小程序等等。垂直搜索场景是基于搜索文本,得到与搜索文本相匹配的指定类别资源。参照图3,可以看到,基于搜索文本,得到与搜索文本相匹配的单一类型资源。
并且,该搜索场景可以是独立的搜索应用程序中的应用场景,也可以是包括搜索功能在内的多种功能的应用程序中的应用场景,比如社交应用程序、购物应用程序等。在独立的搜索应用程序中,用户可搜索网页内容、资讯、视频、图片、问答、百科等等。在多种功能的应用程序中,用户可搜索适用于特定应用程序的资源,比如小程序、公众号、历史消息、联系人、文章、音乐、商品、信息流等等。
具体地,参照图6,该文本处理方法在该应用场景的应用如下:
步骤602,获取搜索文本和特征提取网络,通过特征提取网络提取搜索文本相应的搜索文本特征。
步骤604,从文本特征检索库中筛选与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个。
其中,文本特征检索库中的备选文本特征,通过特征提取网络从备选资源所对应的文本信息中提取得到。
步骤606,获取正反馈注意力网络,通过正反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的正向权重,通过正反馈注意力网络,根据各候选文本特征各个特征维度的正向权重,得到各候选文本特征相应的正反馈特征,其中,第一特征维度的正向权重大于剩余的特征维度的正向权重。
其中,将各候选文本特征依次作为当前文本特征;将搜索文本特征和当前文本特征输入正反馈注意力网络;通过正反馈注意力网络,计算当前文本特征每个特征维度的特征值,分别与搜索文本特征每个特征维度的特征值之间的相关度;通过正反馈注意力网络,根据当前文本特征每个特征维度计算得到的相关度,确定当前文本特征每个特征维度的正向权重。
步骤608,获取负反馈注意力网络,通过负反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的负向权重,通过负反馈注意力网络,根据各候选文本特征各个特征维度的负向权重,得到各候选文本特征相应的负反馈特征,其中,第二特征维度的负向权重小于剩余的特征维度的负向权重。
步骤610,基于各候选文本特征相应的正反馈特征和负反馈特征,更新各候选文本特征,确定搜索文本特征与更新后的各候选文本特征之间的相似度,从更新后的各候选文本特征中,选取预设数量的、且相似度大于筛选阈值的目标文本特征,将目标文本特征相应的候选资源作为目标资源。
本实施例中,在文本匹配资源筛选的过程中,一方面基于文本全局捕捉上下文信息得到语义相关的特征,可以使得获取的特征能够更加精准且全面,另一方面基于精准且全面的特征更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
并且,计算机设备通过特征提取网络、正反馈注意力网络、负反馈注意力网络进行数据处理,由于特征提取网络、正反馈注意力网络、负反馈注意力网络是通过样本训练得到的模型,在选择设置好模型结构、训练样本和相应的训练标签后,即可通过样本自学习到模型参数,从而利用特征提取网络学习到的特征表达能力、正反馈注意力网络学习到的对正相关特征维度进行增强处理的能力、负反馈注意力网络学习到的对负相关特征维度进行削弱处理的能力,更好地对文本形式的数据进行向量表达,有利于目标资源的筛选。
在一个实施例中,提供了一种文本模型的处理方法,本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备可以是上述图1中的终端102或服务器104。如图7所示,该方法包括以下步骤:
步骤702,获取文本样本对、正反馈注意力网络和负反馈注意力网络;文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本。
其中,正反馈注意力网络用于识别文本特征中对语义特性表达重要的特征数据、并着重对重要的特征数据进行增强处理。通过正反馈注意力网络,可对输入其的文本特征在各个维度的特征数据进行增强处理,但是对重要的特征数据的增强程度大于对剩余的特征数据的增强程度,从而凸显出重要的特征数据。
负反馈注意力网络用于识别文本特征中对语义特性表达不重要的特征数据、并着重对不重要的特征数据进行削弱处理。通过负反馈注意力网络,可对输入其的文本特征在各个维度的特征数据进行削弱处理,但是对不重要的特征数据的削弱程度大于对剩余的特征数据的削弱程度,从而削弱不重要的特征数据。
可以理解,正反馈注意力网络和负反馈注意力网络具体可以是端到端的模型,对于正反馈注意力网络来说,输入端为文本特征,输出端为正反馈特征;对于负反馈注意力网络来说,输入端为文本特征,输出端为负反馈特征。正反馈注意力网络和负反馈注意力网络均可为多层网络结构,不同的网络层对输入其的数据进行不同的处理,并输出处理结果至下一网络层。
其中,文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本。目标样本可以是搜索文本样本,搜索文本是反映用户搜索行为意图的文本。目标样本的正相关样本是与目标文本存在语义相关性的文本,目标样本的负相关样本是与目标文本不存在语义相关性的文本。
在一个具体的实施例中,正相关文本和负相关文本可以是备选资源的文本信息。备选资源存在于搜索引擎用于检索的数据库。备选资源可包括通用的资源类型,比如网页内容、资讯、视频、图片、问答、百科等等,也可包括适用于特定应用程序的资源类型,比如小程序、公众号、历史消息、联系人、文章、音乐、商品、信息流等等。备选资源的文本信息可以是备选资源的名称、摘要、简介等。比如,备选资源的资源类型为小程序,备选资源的文本信息可以是小程序的名称和/或简介等;备选资源的资源类型为资讯,备选资源的文本信息可以是资讯的名称和/或摘要等。
可以理解,目标样本和目标样本的正相关样本可用于训练正反馈注意力网络,以使正反馈注意力网络学会识别文本特征中对语义特性表达重要的特征数据。目标样本和目标样本的负相关样本可用于训练负反馈注意力网络,以使负相关文本学会识别文本特征中对语义特性表达不重要的特征数据。
步骤704,确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征。
其中,文本特征是反映文本的语义特性的数据,语义特性是文本在语义层面所具有的特点。
具体地,文本特征可区分任意两个文本,不同的文本,其文本特征存在差异。比如“XX城市天气”与“XXX城市交通”,二者的文本特征不同。文本特征还可确定任意两个文本在语义层面的相似性,两个文本在语义表达上越接近,其文本特征的相似度越高。比如“XX城市快递”与“XX城市极速快递”的文本特征的相似度,高于“XX城市快递”与“XX城市天气”的文本特征的相似度。
在一个具体的实施例中,计算机设备可对文本样本进行向量化处理得到文本向量,将该文本向量作为文本特征。向量化是指将其它形式的数据以数学形式进行表达。
可以理解,这里不限定将文本形式的数据转换为何种表示的向量,只要能够将文本形式的数据进行数学化表示即可。比如可将文本样本转换为高维稀疏向量,高维稀疏向量是将所有单词的数量作为文本向量的长度,文本向量的每个维度表示一个单词,单词对应的维度为非零值,其它维度为零值。也可将文本样本转换为低维稠密向量,低维稠密向量的长度低于高维稀疏向量的长度,低维稠密向量的每个维度基本上是非零值,其能够更好地表达文本的特征数据。
在一个具体的实施例中,计算机设备可将目标样本、正相关样本和负相关样本分别映射为相同长度的文本向量,文本向量的长度可以认为是文本特征的维度。这样,将目标样本文本特征、正相关文本特征和负相关文本特征统一到相同的特征维度,便于后续进行相似度计算。
需要说明的是,目标样本、正相关样本和负相关样本通常为文本形式的数据。目标样本文本特征、正相关文本特征和负相关文本特征可以是文本形式的数据,也可以是向量形式的数据,还可以是其它形式的数据。
步骤706,通过正反馈注意力网络,根据目标样本文本特征和正相关文本特征,对正相关文本特征在第一特征维度进行增强处理,得到正相关文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度。
在搜索场景中,搜索文本一般是短文本,而备选资源的文本信息一般是长文本。考虑到候选文本特征的特征维度是有限的,而候选资源的文本信息往往是长文本,长文本中通常会包含停用词等低价值文本,如果不加区分地进行特征表示,会导致有限维度的候选文本特征不能够充分体现候选资源的文本信息的语义特性。
为了体现出不同维度的特征数据对语义特性的重要程度,将目标样本文本特征和正相关文本特征输入正反馈注意力网络,以使正反馈注意力网络学习识别文本特征中对语义特性表达重要的特征数据。
其中,第一特征维度是正影响文本匹配的特征维度。这是由于第一特征维度的特征数据是对语义特性表达重要的特征数据,第一特征维度的特征数据越精确,文本匹配结果越准确,因此第一特征维度的特征数据正影响文本匹配结果。
具体地,计算机设备将目标样本文本特征和正相关文本特征输入正反馈注意力网络,正反馈注意力网络对正相关文本特征不同维度的特征数据分配不同的正向权重。
在一个具体的实施例中,正相关文本特征在每个维度的正向权重,可通过正反馈注意力网络,根据正相关文本特征每个维度的特征数据以及搜索文本特征每个维度的特征数据确定。将搜索文本特征和正相关文本特征输入正反馈注意力网络,通过正反馈注意力网络,计算正相关文本特征每个维度的特征数据分别与搜索文本特征每个维度的特征数据之间的正向相关度,正反馈注意力网络基于正相关文本特征每个维度计算得到的正向相关度,确定正相关文本特征每个维度的正向权重。
具体地,正相关文本特征在每个维度的正向权重,可通过正反馈注意力网络,根据正相关文本特征每个维度的特征值以及目标样本文本特征每个维度的特征值确定。其中,特征值是文本特征每个维度的特征数据,在文本特征为向量形式时,每个维度的特征数据以特征值的形式进行表示。
将每个正相关文本特征依次作为当前文本特征,将目标样本文本特征和当前文本特征输入正反馈注意力网络,通过正反馈注意力网络,计算当前文本特征每个维度的特征值分别与目标样本文本特征每个维度的特征值之间的正向相关度,即针对当前文本特征任一维度的特征值,先分别计算与目标样本文本特征每个维度的特征值之间的正向相关度,然后基于与目标样本文本特征每个维度的正向相关度,再计算每个维度的正向相关度均值或者加权平均值等,得到当前文本特征任一维度的正向权重。其中,正向相关度是通过正反馈注意力网络,采用其模型参数计算得到的任意两个特征值之间的相关程度。
这里具体得到当前文本特征任一维度的正向权重以及得到正相关文本特征的特征表示过程,可具体参考前述实施例中得到候选文本特征任一维度的正向权重,以及得到候选文本特征的正反馈特征表示过程。
步骤708,通过负反馈注意力网络,根据目标样本文本特征和负相关文本特征,对负相关文本特征在第二特征维度进行削弱处理,得到负相关文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度。
本申请中,为了体现出不同维度的特征数据对语义特性的重要程度,将目标样本文本特征和负相关文本特征输入负反馈注意力网络,以使负反馈注意力网络学习识别文本特征中对语义特性表达不重要的特征数据。
其中,第二特征维度是负影响文本匹配的特征维度。这是由于第二特征维度的特征数据是对语义特性表达不重要的特征数据,第二特征维度的特征数据可能会干扰文本匹配结果,因此第二特征维度的特征数据负影响文本匹配结果。
具体地,计算机设备将目标样本文本特征和负相关文本特征输入负反馈注意力网络,负反馈注意力网络对负相关文本特征不同维度的特征数据分配不同的负向权重。
在一个具体的实施例中,负相关文本特征在每个维度的负向权重,可通过负反馈注意力网络,根据负相关文本特征每个维度的特征数据以及目标样本文本特征每个维度的特征数据确定。将目标样本文本特征和负相关文本特征输入负反馈注意力网络,通过负反馈注意力网络,计算负相关文本特征每个维度的特征数据分别与目标样本文本特征每个维度的特征数据之间的负向相关度,负反馈注意力网络基于负相关文本特征每个维度计算得到的负向相关度,确定负相关文本特征每个维度的负向权重。
具体地,负相关文本特征在每个维度的负向权重,可通过负反馈注意力网络,根据负相关文本特征每个维度的特征值以及目标样本文本特征每个维度的特征值确定。
将每个负相关文本特征依次作为当前文本特征,将目标样本文本特征和当前文本特征输入负反馈注意力网络,通过负反馈注意力网络,计算当前文本特征每个维度的特征值分别与目标样本文本特征每个维度的特征值之间的负向相关度,即针对当前文本特征任一维度的特征值,先分别计算与目标样本文本特征每个维度的特征值之间的负向相关度,然后基于与目标样本文本特征每个维度的负向相关度,再计算每个维度的负向相关度均值或者加权平均值等,得到当前文本特征任一维度的负向权重。其中,负向相关度是通过负反馈注意力网络,采用其训练好的模型参数计算得到的任意两个特征值之间的相关程度。
这里具体得到当前文本特征任一维度的负向权重以及得到负相关文本特征的特征表示过程,可具体参考前述实施例中得到候选文本特征任一维度的负向权重,以及得到候选文本特征的负反馈特征表示过程。
步骤710,按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络。
其中,训练得到的正反馈注意力网络和负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
本申请中,计算机设备获取备选资源的文本信息,对搜索文本和备选资源的文本信息进行语义匹配,以从备选资源中筛选得到与搜索文本语义匹配的目标资源。
具体地,通过最小化目标样本文本特征和正反馈特征之间差异,以及最大化目标样本文本特征和负反馈特征之间差异,以优化正反馈注意力网络和负反馈注意力网络的模型参数,使得正反馈注意力网络学习文本特征中对语义特性表达重要的特征数据,负反馈注意力网络学习文本特征中对语义特性表达不重要的特征数据。
随着训练的进行,对于正反馈注意力网络来说,第一特征维度的正向权重大于剩余的特征维度的正向权重,通过正向权重来体现不同维度的特征数据对语义特性的重要程度,凸显出对文本匹配更重要的特征维度的特征数据。对于负反馈注意力网络来说,第二特征维度的负向权重小于剩余的特征维度的负向权重,通过负向权重来降低对文本匹配无关的特征维度的特征数据的关注。
上述文本模型的处理方法,在目标样本的文本层面获取特征,以尽可能捕捉目标样本、正相关样本和负相关文本各自的上下文信息,得到目标样本文本特征、正相关文本特征以及负相关文本特征,基于目标样本文本特征,对各正相关文本特征在正影响文本匹配的特征维度进行增强处理,得到正反馈特征,并对各负相关文本特征在负影响文本匹配的特征维度进行削弱处理,得到负反馈特征;再按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络,这样,使得正反馈注意力网络学习到对正相关特征维度进行增强处理的能力,且负反馈注意力网络学习到对负相关特征维度进行削弱处理的能力,正反馈注意力网络和负反馈注意力网络在筛选与搜索文本匹配的目标资源时,能够更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
在一个实施例中,确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征,包括:获取多个模型结构相同、且共享模型参数的特征提取网络;将目标样本、正相关样本以及负相关样本分别输入不同的特征提取网络中,得到各特征提取网络分别输出的目标样本文本特征、正相关文本特征以及负相关文本特征;其中,特征提取网络预先采用通用的文本样本集进行无监督训练;按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络,包括:按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络、负反馈注意力网络和特征提取网络。
其中,特征提取网络用于对文本提取文本向量,得到文本特征。该特征提取网络具体可以是端到端的模型,输入端为文本,输出端为文本向量。特征提取网络为多层网络结构,不同的网络层对输入其的数据进行不同的处理,并输出处理结果至下一网络层。
具体地,可设置多个特征提取网络,多个特征提取网络在模型结构上完全一致,且共享模型参数。计算机设备先通过多个特征提取网络,分别提取目标样本、正相关样本以及负相关样本的文本特征,得到目标样本文本特征、正相关文本特征以及负相关文本特征。然后,计算机设备将目标样本文本特征、正相关文本特征输入正反馈注意力网络,并将目标样本文本特征、负相关文本特征输入负反馈注意力网络,使得正反馈注意力网络根据目标样本文本特征、正相关文本特征确定正相关文本特征在每个维度的正向权重,得到正反馈特征,负反馈注意力网络根据目标样本文本特征、负相关文本特征确定负相关文本特征在每个维度的负向权重,得到负反馈特征,多个特征提取网络与正反馈注意力网络、负反馈注意力网络联合进行训练,并在训练过程中最小化目标样本文本特征和正反馈特征之间差异,以及最大化目标样本文本特征和负反馈特征之间差异,以使得特征提取网络学习到特征表达能力、正反馈注意力网络学习到对正相关特征维度进行增强处理的能力、负反馈注意力网络学习到对负相关特征维度进行削弱处理的能力。
通过设置多个特征提取网络,一是通过模型结构相同、模型参数共享的特征提取网络学习目标样本、正相关样本以及负相关样本的文本特征,可以产生信息交互的作用,捕捉不同文本样本之间的相关性,提高模型训练效果;二是多个特征提取网络在模型结构上完全一致,且共享模型参数,可减少训练量,降低训练耗时。
具体地,特征提取网络预先采用通用的文本样本集进行无监督训练。参照图8,图8为一个实施例中特征提取网络预训练的示意图。特征提取网络的预训练,可包括以下两部分:一部分是训练特征提取网络进行词预测的能力,即随机掩盖文本样本中某些字,使得特征提取网络根据输入的其它字来预测被掩盖的字;另一部分是训练特征提取网络进行句子预测的能力,即将两个句子组成一个输入样本,使得特征提取网络根据其中一个句子预测下一个句子出现的概率。
在一个具体的实施例中,在采用通用的文本样本集对特征提取网络进行无监督训练后,可采用资源样本的文本信息(比如小程序的文本信息等)对特征提取网络再次进行无监督训练,以使得特征提取网络学习到资源数据的特性。
通过对特征提取网络进行预训练,使得特征提取网络先学习到通用的语法语义规则,在后续的训练过程中可减少对文本样本训练标签的标注数量。
在一个具体的实施例中,特征提取网络可采用通用的自然语言处理模型,比如Bert(Bidirectional Encoder Representations from Transformers)模型等。
本实施例中,多个特征提取网络、正反馈注意力网络、负反馈注意力网络联合进行训练,利用特征提取网络学习到的特征表达能力、正反馈注意力网络学习到的对正相关特征维度进行增强处理的能力、负反馈注意力网络学习到的对负相关特征维度进行削弱处理的能力,特征提取网络、正反馈注意力网络和负反馈注意力网络在筛选与搜索文本匹配的目标资源时,能够更好地对文本形式的数据进行向量表达,有利于目标资源的筛选。
在一个实施例中,按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络,包括:基于目标样本文本特征和正反馈特征之间的第一差异,以及目标样本文本特征和负反馈特征之间的第二差异,共同构建损失函数;按照最小化损失函数的方向,联合训练正反馈注意力网络和负反馈注意力网络,以减小第一差异、增大第二差异并使得第二差异大于第一差异。
具体地,计算机设备在获取得到各特征提取网络分别输出的目标样本文本特征、正相关文本特征以及负相关文本特征。将目标样本文本特征、正相关文本特征输入正反馈注意力网络,并将目标样本文本特征、负相关文本特征输入负反馈注意力网络,使得正反馈注意力网络根据目标样本文本特征、正相关文本特征确定正相关文本特征在每个维度的正向权重,得到正反馈特征,负反馈注意力网络根据目标样本文本特征、负相关文本特征确定负相关文本特征在每个维度的负向权重,得到负反馈特征。基于目标样本文本特征和正反馈特征之间的第一差异,以及目标样本文本特征和负反馈特征之间的第二差异,共同构建损失函数,根据损失函数联合训练正反馈注意力网络和负反馈注意力网络。
可以理解,减小第一差异、增大第二差异并使得第二差异大于第一差异,使得目标样本文本特征和正反馈特征之间的向量距离,小于目标样本文本特征和负反馈特征之间的向量距离。
具体地,损失函数可采用Triplet Loss函数、标准交叉熵损失函数、平方损失函数、Focal Loss函数等。
以Triplet Loss函数为例,首先,获取目标样本文本特征和正反馈特征之间的向量距离:
其中,dr为目标样本文本特征q和正反馈特征pr-j之间的向量距离;m为目标样本文本特征的特征维度。
接着,获取目标样本文本特征和负反馈特征之间的向量距离:
其中,dn为目标样本文本特征q和负反馈特征pn-k之间的向量距离;m为目标样本文本特征的特征维度。
接着,构建损失函数:
其中,L为文本样本的数量;α为超参数。
可以看到,只有当dr小于dn,且dr与dn的差值绝对值大于或等于α时,损失值才为0,否则损失值大于0,因此在降低损失值的过程中,目标样本文本特征和正反馈特征之间的向量距离,向小于目标样本文本特征和负反馈特征之间的向量距离的方向发展。
本实施例中,基于第一差异和第二差异构建损失函数,并根据损失函数联合训练正反馈注意力网络和负反馈注意力网络,使得正反馈注意力网络学习文本特征中对语义特性表达重要的特征数据,负反馈注意力网络学习文本特征中对语义特性表达不重要的特征数据。
在一个实施例中,参照图9,图9为一个实施例中文本模型的结构示意图。可以看到,文本模型包括多个特征提取网络、正反馈注意力网络和负反馈注意力网络,多个特征提取网络在模型结构上完全一致,且共享模型参数。
将目标样本、正相关样本以及负相关样本分别输入不同的特征提取网络中,得到各特征提取网络分别输出的目标样本文本特征、正相关文本特征以及负相关文本特征。将目标样本文本特征、正相关文本特征输入正反馈注意力网络,并将目标样本文本特征、负相关文本特征输入负反馈注意力网络,使得正反馈注意力网络根据目标样本文本特征、正相关文本特征确定正相关文本特征在每个维度的正向权重,得到正反馈特征,负反馈注意力网络根据目标样本文本特征、负相关文本特征确定负相关文本特征在每个维度的负向权重,得到负反馈特征。基于目标样本文本特征和正反馈特征之间的第一差异,以及目标样本文本特征和负反馈特征之间的第二差异,共同构建损失函数,根据损失函数联合训练多个特征提取网络、正反馈注意力网络和负反馈注意力网络,在训练过程中最小化目标样本文本特征和正反馈特征之间差异,以及最大化目标样本文本特征和负反馈特征之间差异。
本实施例中,根据损失函数对多个特征提取网络、正反馈注意力网络、负反馈注意力网络联合进行训练,以使得特征提取网络学习到特征表达能力、正反馈注意力网络学习到对正相关特征维度进行增强处理的能力、负反馈注意力网络学习到对负相关特征维度进行削弱处理的能力,特征提取网络、正反馈注意力网络和负反馈注意力网络在筛选与搜索文本匹配的目标资源时,能够更好地对文本形式的数据进行向量表达,有利于目标资源的筛选。
在一个实施例中,参照图10,图10为一个实施例中文本模型训练及应用的流程框图。可以看到,文本模型训练包括两个阶段,第一阶段是对特征提取网络进行预训练,即采用通用的文本样本集和资源样本的文本信息对特征提取网络进行无监督训练,使得特征提取网络先学习到通用的语法语义规则以及资源数据的特性。第二阶段是对多个特征提取网络、正反馈注意力网络、负反馈注意力网络联合进行训练,使得特征提取网络学习到特征表达能力、正反馈注意力网络学习到对正相关特征维度进行增强处理的能力、负反馈注意力网络学习到对负相关特征维度进行削弱处理的能力。
在文本模型应用时,预先通过特征提取网络提取备选资源的文本信息相应的备选文本向量,根据备选文本向量构建文本特征检索库。在获取到搜索文本后,可将文本形式的搜索文本直接输入特征提取网络,特征提取网络则将搜索文本映射为相应的搜索文本向量。根据搜索文本向量,从文本特征检索库的多个备选文本向量中,筛选得到与搜索文本向量语义匹配的目标文本向量,并将目标文本向量对应的资源作为目标资源。
在这个过程中,先根据搜索文本向量,从文本向量检索库的多个备选文本向量中,筛选得到多个候选资源的文本信息相应的候选文本向量。接着,通过正反馈注意力网络对候选文本向量进行处理,即采用注意力机制为候选文本向量不同维度的语义向量分配不同的正向权重,得到正反馈向量;且通过负反馈注意力网络对候选文本向量进行处理,即采用注意力机制为候选文本向量不同维度的语义向量分配不同的负向权重,得到负反馈向量。基于各候选文本向量相应的正反馈向量和负反馈向量,从各候选文本向量相应的候选资源中,筛选与搜索文本匹配的目标资源。
这样,预先构建文本特征检索库,避免在线上对备选资源的文本信息进行特征提取,减少线上计算量,提高线上场景中文本匹配速度;并且,利用特征提取网络学习到的特征表达能力、正反馈注意力网络学习到的对正相关特征维度进行增强处理的能力、负反馈注意力网络学习到的对负相关特征维度进行削弱处理的能力,特征提取网络、正反馈注意力网络和负反馈注意力网络在筛选与搜索文本匹配的目标资源时,能够更好地对文本形式的数据进行向量表达,有利于目标资源的筛选。
应该理解的是,虽然图4、图6-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图4、图6-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种文本处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1102、增强处理模块1104、削弱处理模块1106和筛选模块1108,其中:
获取模块1102,用于获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;候选文本特征的特征维度为多个;
增强处理模块1104,用于根据搜索文本特征,分别对各候选文本特征在第一特征维度进行增强处理,得到各候选文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
削弱处理模块1106,用于根据搜索文本特征,分别对各候选文本特征在第二特征维度进行削弱处理,得到各候选文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
筛选模块1108,用于基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选资源中,筛选与搜索文本匹配的目标资源。
在一个实施例中,获取模块1102,还用于:获取搜索文本和特征提取网络;通过特征提取网络提取搜索文本相应的搜索文本特征;从文本特征检索库中筛选与搜索文本特征匹配的多个候选文本特征;其中,文本特征检索库中的备选文本特征,通过特征提取网络从备选资源所对应的文本信息中提取得到。
在一个实施例中,增强处理模块1104,还用于:获取正反馈注意力网络;通过正反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的正向权重;第一特征维度的正向权重大于剩余的特征维度的正向权重;通过正反馈注意力网络,根据各候选文本特征各个特征维度的正向权重,得到各候选文本特征相应的正反馈特征。
在一个实施例中,增强处理模块1104,还用于:将各候选文本特征依次作为当前文本特征;将搜索文本特征和当前文本特征输入正反馈注意力网络;通过正反馈注意力网络,计算当前文本特征每个特征维度的特征值,分别与搜索文本特征每个特征维度的特征值之间的相关度;通过正反馈注意力网络,根据当前文本特征每个特征维度计算得到的相关度,确定当前文本特征每个特征维度的正向权重。
在一个实施例中,削弱处理模块1106,还用于:获取负反馈注意力网络;通过负反馈注意力网络,根据搜索文本特征和各候选文本特征,分别确定各候选文本特征各个特征维度的负向权重;第二特征维度的负向权重小于剩余的特征维度的负向权重;通过负反馈注意力网络,根据各候选文本特征各个特征维度的负向权重,得到各候选文本特征相应的负反馈特征。
在一个实施例中,筛选模块1108,还用于:基于各候选文本特征相应的正反馈特征和负反馈特征,更新各候选文本特征;确定搜索文本特征与更新后的各候选文本特征之间的相似度;从更新后的各候选文本特征中,选取预设数量的、且相似度大于筛选阈值的目标文本特征;将目标文本特征相应的候选资源作为目标资源。
在一个实施例中,获取模块1102,还用于:获取搜索文本相应的搜索文本特征;确定基于用户操作选择的资源类型;从文本特征检索库中提取资源类型对应的文本特征;从资源类型对应的文本特征中,筛选与搜索文本特征匹配的多个候选文本特征。
在一个实施例中,获取模块1102,还用于:获取基于母应用输入的搜索文本;获取搜索文本相应的搜索文本特征,以及与搜索文本特征匹配的多个候选文本特征;筛选模块1108,还用于:基于各候选文本特征相应的正反馈特征和负反馈特征,从各候选文本特征相应的候选子应用中,筛选与搜索文本匹配的目标子应用。关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述文本处理装置,在文本匹配资源筛选的过程中,一方面基于文本全局捕捉上下文信息得到语义相关的特征,可以使得获取的特征能够更加精准且全面,另一方面基于精准且全面的特征更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
在一个实施例中,如图12所示,提供了一种文本模型的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1202、确定模块1204、增强处理模块1206、削弱处理模块1208和训练模块1210,其中:
获取模块1202,用于获取文本样本对、正反馈注意力网络和负反馈注意力网络;文本样本对包括目标样本、目标样本的正相关样本以及目标样本的负相关样本;
确定模块1204,用于确定目标样本相应的目标样本文本特征、正相关样本相应的正相关文本特征以及负相关样本相应的负相关文本特征;
增强处理模块1206,用于通过正反馈注意力网络,根据目标样本文本特征和正相关文本特征,对正相关文本特征在第一特征维度进行增强处理,得到正相关文本特征相应的正反馈特征;第一特征维度是正影响文本匹配的特征维度;
削弱处理模块1208,用于通过负反馈注意力网络,根据目标样本文本特征和负相关文本特征,对负相关文本特征在第二特征维度进行削弱处理,得到负相关文本特征相应的负反馈特征;第二特征维度是负影响文本匹配的特征维度;
训练模块1210,用于按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络和负反馈注意力网络;
其中,训练得到的正反馈注意力网络和负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
在一个实施例中,确定模块1204,还用于:获取多个模型结构相同、且共享模型参数的特征提取网络;将目标样本、正相关样本以及负相关样本分别输入不同的特征提取网络中,得到各特征提取网络分别输出的目标样本文本特征、正相关文本特征以及负相关文本特征;其中,特征提取网络预先采用通用的文本样本集进行无监督训练;训练模块1210,还用于:按照最小化目标样本文本特征和正反馈特征之间差异的方向,以及最大化目标样本文本特征和负反馈特征之间差异的方向,联合训练正反馈注意力网络、负反馈注意力网络和特征提取网络。
在一个实施例中,训练模块1210,还用于:基于目标样本文本特征和正反馈特征之间的第一差异,以及目标样本文本特征和负反馈特征之间的第二差异,共同构建损失函数;按照最小化损失函数的方向,联合训练正反馈注意力网络和负反馈注意力网络,以减小第一差异、增大第二差异并使得第二差异大于第一差异。
关于文本模型的处理装置的具体限定可以参见上文中对于文本模型的处理方法的限定,在此不再赘述。上述文本模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述文本模型的处理装置,正反馈注意力网络学习到对正相关特征维度进行增强处理的能力,且负反馈注意力网络学习到对负相关特征维度进行削弱处理的能力,正反馈注意力网络和负反馈注意力网络在筛选与搜索文本匹配的目标资源时,能够更关注正相关特征维度的有效信息,并有效降低负相关特征维度中的噪音,有针对性地利用各特征维度的特征,使得文本匹配及资源筛选的准确性得到极大地提高。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本处理数据和/或文本模型的处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法和/或文本模型的处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本处理方法和/或文本模型的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13、图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
获取搜索文本相应的搜索文本特征,以及与所述搜索文本特征匹配的多个候选文本特征;所述候选文本特征的特征维度为多个;
根据所述搜索文本特征,分别对各所述候选文本特征在第一特征维度进行增强处理,得到各所述候选文本特征相应的正反馈特征,包括:获取正反馈注意力网络;通过所述正反馈注意力网络,根据所述搜索文本特征和各所述候选文本特征,分别确定各所述候选文本特征各个特征维度的正向权重;所述第一特征维度的正向权重大于剩余的特征维度的正向权重;通过所述正反馈注意力网络,根据各所述候选文本特征各个特征维度的正向权重,得到各所述候选文本特征相应的正反馈特征;所述第一特征维度是正影响文本匹配的特征维度;
根据所述搜索文本特征,分别对各所述候选文本特征在第二特征维度进行削弱处理,得到各所述候选文本特征相应的负反馈特征;所述第二特征维度是负影响文本匹配的特征维度;
基于各所述候选文本特征相应的正反馈特征和负反馈特征,从各所述候选文本特征相应的候选资源中,筛选与所述搜索文本匹配的目标资源。
2.根据权利要求1所述的方法,其特征在于,所述获取搜索文本相应的搜索文本特征,以及与所述搜索文本特征匹配的多个候选文本特征,包括:
获取所述搜索文本和特征提取网络;
通过所述特征提取网络提取所述搜索文本相应的搜索文本特征;
从文本特征检索库中筛选与所述搜索文本特征匹配的多个候选文本特征;
其中,所述文本特征检索库中的备选文本特征,通过所述特征提取网络从备选资源所对应的文本信息中提取得到。
3.根据权利要求1所述的方法,其特征在于,所述正反馈注意力网络是通过样本学习具备识别对语义特性表达重要的特征数据、并着重对重要的特征数据进行增强处理能力的模型。
4.根据权利要求1所述的方法,其特征在于,所述通过所述正反馈注意力网络,根据所述搜索文本特征和各所述候选文本特征,分别确定各所述候选文本特征各个特征维度的正向权重,包括:
将各所述候选文本特征依次作为当前文本特征;
将所述搜索文本特征和所述当前文本特征输入所述正反馈注意力网络;
通过所述正反馈注意力网络,计算所述当前文本特征每个特征维度的特征值,分别与所述搜索文本特征每个特征维度的特征值之间的相关度;
通过所述正反馈注意力网络,根据所述当前文本特征每个特征维度计算得到的相关度,确定所述当前文本特征每个特征维度的正向权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述搜索文本特征,分别对各所述候选文本特征在第二特征维度进行削弱处理,得到各所述候选文本特征相应的负反馈特征,包括:
获取负反馈注意力网络;
通过所述负反馈注意力网络,根据所述搜索文本特征和各所述候选文本特征,分别确定各所述候选文本特征各个特征维度的负向权重;所述第二特征维度的负向权重小于剩余的特征维度的负向权重;
通过所述负反馈注意力网络,根据各所述候选文本特征各个特征维度的负向权重,得到各所述候选文本特征相应的负反馈特征。
6.根据权利要求1所述的方法,其特征在于,所述基于各所述候选文本特征相应的正反馈特征和负反馈特征,从各所述候选文本特征相应的候选资源中,筛选与所述搜索文本匹配的目标资源,包括:
基于各所述候选文本特征相应的正反馈特征和负反馈特征,更新各所述候选文本特征;
确定所述搜索文本特征与更新后的各所述候选文本特征之间的相似度;
从更新后的各所述候选文本特征中,选取预设数量的、且相似度大于筛选阈值的目标文本特征;
将所述目标文本特征相应的候选资源作为所述目标资源。
7.根据权利要求1所述的方法,其特征在于,所述获取搜索文本相应的搜索文本特征,以及与所述搜索文本特征匹配的多个候选文本特征,包括:
获取所述搜索文本相应的搜索文本特征;
确定基于用户操作选择的资源类型;
从文本特征检索库中提取所述资源类型对应的文本特征;
从所述资源类型对应的文本特征中,筛选与所述搜索文本特征匹配的多个候选文本特征。
8.根据权利要求1所述的方法,其特征在于,所述获取搜索文本相应的搜索文本特征,以及与所述搜索文本特征匹配的多个候选文本特征,包括:
获取基于母应用输入的搜索文本;
获取所述搜索文本相应的搜索文本特征,以及与所述搜索文本特征匹配的多个候选文本特征;
所述基于各所述候选文本特征相应的正反馈特征和负反馈特征,从各所述候选文本特征相应的候选资源中,筛选与所述搜索文本匹配的目标资源,包括:
基于各所述候选文本特征相应的正反馈特征和负反馈特征,从各所述候选文本特征相应的候选子应用中,筛选与所述搜索文本匹配的目标子应用。
9.一种文本模型的处理方法,其特征在于,所述方法包括:
获取文本样本对、正反馈注意力网络和负反馈注意力网络;所述文本样本对包括目标样本、所述目标样本的正相关样本以及所述目标样本的负相关样本;
确定所述目标样本相应的目标样本文本特征、所述正相关样本相应的正相关文本特征以及所述负相关样本相应的负相关文本特征;
通过所述正反馈注意力网络,根据所述目标样本文本特征和所述正相关文本特征,对所述正相关文本特征在第一特征维度进行增强处理,得到所述正相关文本特征相应的正反馈特征;所述第一特征维度是正影响文本匹配的特征维度;
通过所述负反馈注意力网络,根据所述目标样本文本特征和所述负相关文本特征,对所述负相关文本特征在第二特征维度进行削弱处理,得到所述负相关文本特征相应的负反馈特征;所述第二特征维度是负影响文本匹配的特征维度;
按照最小化所述目标样本文本特征和所述正反馈特征之间差异的方向,以及最大化所述目标样本文本特征和所述负反馈特征之间差异的方向,联合训练所述正反馈注意力网络和所述负反馈注意力网络;
其中,训练得到的所述正反馈注意力网络和所述负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
10.根据权利要求9所述的方法,其特征在于,所述确定所述目标样本相应的目标样本文本特征、所述正相关样本相应的正相关文本特征以及所述负相关样本相应的负相关文本特征,包括:
获取多个模型结构相同、且共享模型参数的特征提取网络;
将所述目标样本、所述正相关样本以及所述负相关样本分别输入不同的特征提取网络中,得到各所述特征提取网络分别输出的所述目标样本文本特征、所述正相关文本特征以及所述负相关文本特征;
其中,所述特征提取网络预先采用通用的文本样本集进行无监督训练;
所述按照最小化所述目标样本文本特征和所述正反馈特征之间差异的方向,以及最大化所述目标样本文本特征和所述负反馈特征之间差异的方向,联合训练所述正反馈注意力网络和所述负反馈注意力网络,包括:
按照最小化所述目标样本文本特征和所述正反馈特征之间差异的方向,以及最大化所述目标样本文本特征和所述负反馈特征之间差异的方向,联合训练所述正反馈注意力网络、所述负反馈注意力网络和所述特征提取网络。
11.根据权利要求9所述的方法,其特征在于,所述按照最小化所述目标样本文本特征和所述正反馈特征之间差异的方向,以及最大化所述目标样本文本特征和所述负反馈特征之间差异的方向,联合训练所述正反馈注意力网络和所述负反馈注意力网络,包括:
基于所述目标样本文本特征和所述正反馈特征之间的第一差异,以及所述目标样本文本特征和所述负反馈特征之间的第二差异,共同构建损失函数;
按照最小化所述损失函数的方向,联合训练所述正反馈注意力网络和所述负反馈注意力网络,以减小所述第一差异、增大所述第二差异并使得所述第二差异大于所述第一差异。
12.一种文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取搜索文本相应的搜索文本特征,以及与所述搜索文本特征匹配的多个候选文本特征;所述候选文本特征的特征维度为多个;
增强处理模块,用于根据所述搜索文本特征,分别对各所述候选文本特征在第一特征维度进行增强处理,得到各所述候选文本特征相应的正反馈特征,包括:获取正反馈注意力网络;通过所述正反馈注意力网络,根据所述搜索文本特征和各所述候选文本特征,分别确定各所述候选文本特征各个特征维度的正向权重;所述第一特征维度的正向权重大于剩余的特征维度的正向权重;通过所述正反馈注意力网络,根据各所述候选文本特征各个特征维度的正向权重,得到各所述候选文本特征相应的正反馈特征;所述第一特征维度是正影响文本匹配的特征维度;
削弱处理模块,用于根据所述搜索文本特征,分别对各所述候选文本特征在第二特征维度进行削弱处理,得到各所述候选文本特征相应的负反馈特征;所述第二特征维度是负影响文本匹配的特征维度;
筛选模块,用于基于各所述候选文本特征相应的正反馈特征和负反馈特征,从各所述候选文本特征相应的候选资源中,筛选与所述搜索文本匹配的目标资源。
13.一种文本模型的处理装置,其特征在于,所述装置包括:
获取模块,用于获取文本样本对、正反馈注意力网络和负反馈注意力网络;所述文本样本对包括目标样本、所述目标样本的正相关样本以及所述目标样本的负相关样本;
确定模块,用于确定所述目标样本相应的目标样本文本特征、所述正相关样本相应的正相关文本特征以及所述负相关样本相应的负相关文本特征;
增强处理模块,用于通过所述正反馈注意力网络,根据所述目标样本文本特征和所述正相关文本特征,对所述正相关文本特征在第一特征维度进行增强处理,得到所述正相关文本特征相应的正反馈特征;所述第一特征维度是正影响文本匹配的特征维度;
削弱处理模块,用于通过所述负反馈注意力网络,根据所述目标样本文本特征和所述负相关文本特征,对所述负相关文本特征在第二特征维度进行削弱处理,得到所述负相关文本特征相应的负反馈特征;所述第二特征维度是负影响文本匹配的特征维度;
训练模块,用于按照最小化所述目标样本文本特征和所述正反馈特征之间差异的方向,以及最大化所述目标样本文本特征和所述负反馈特征之间差异的方向,联合训练所述正反馈注意力网络和所述负反馈注意力网络;
其中,训练得到的所述正反馈注意力网络和所述负反馈注意力网络,联合用于筛选与搜索文本匹配的目标资源。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202010776786.1A 2020-08-05 2020-08-05 文本处理方法、文本模型的处理方法及装置、计算机设备 Active CN111783903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010776786.1A CN111783903B (zh) 2020-08-05 2020-08-05 文本处理方法、文本模型的处理方法及装置、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010776786.1A CN111783903B (zh) 2020-08-05 2020-08-05 文本处理方法、文本模型的处理方法及装置、计算机设备

Publications (2)

Publication Number Publication Date
CN111783903A CN111783903A (zh) 2020-10-16
CN111783903B true CN111783903B (zh) 2023-11-28

Family

ID=72766608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010776786.1A Active CN111783903B (zh) 2020-08-05 2020-08-05 文本处理方法、文本模型的处理方法及装置、计算机设备

Country Status (1)

Country Link
CN (1) CN111783903B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508058B (zh) * 2020-11-17 2023-11-14 安徽继远软件有限公司 基于音频特征分析的变压器故障诊断方法及装置
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN113609279B (zh) * 2021-08-05 2023-12-08 湖南特能博世科技有限公司 一种物料型号提取方法、装置及计算机设备
CN113764061B (zh) * 2021-09-09 2023-06-02 深圳平安智慧医健科技有限公司 基于多维度数据分析的用药检测方法及相关设备
CN117828030A (zh) * 2024-03-01 2024-04-05 微网优联科技(成都)有限公司 基于大数据的用户分析方法及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542014A (zh) * 2011-12-16 2012-07-04 华中科技大学 基于内容的图像检索反馈方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110232183A (zh) * 2018-12-07 2019-09-13 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110765286A (zh) * 2019-09-09 2020-02-07 卓尔智联(武汉)研究院有限公司 跨媒体检索方法、装置、计算机设备和存储介质
CN110795544A (zh) * 2019-09-10 2020-02-14 腾讯科技(深圳)有限公司 内容搜索方法、装置、设备和存储介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111275034A (zh) * 2020-01-19 2020-06-12 世纪龙信息网络有限责任公司 从图像中提取文本区域的方法、装置、设备和存储介质
CN111324728A (zh) * 2020-01-22 2020-06-23 腾讯科技(深圳)有限公司 文本事件摘要的生成方法、装置、电子设备及存储介质
CN111444320A (zh) * 2020-06-16 2020-07-24 太平金融科技服务(上海)有限公司 文本检索方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331768B2 (en) * 2015-09-21 2019-06-25 Tata Consultancy Services Limited Tagging text snippets
US10997233B2 (en) * 2016-04-12 2021-05-04 Microsoft Technology Licensing, Llc Multi-stage image querying

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542014A (zh) * 2011-12-16 2012-07-04 华中科技大学 基于内容的图像检索反馈方法
CN110232183A (zh) * 2018-12-07 2019-09-13 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110765286A (zh) * 2019-09-09 2020-02-07 卓尔智联(武汉)研究院有限公司 跨媒体检索方法、装置、计算机设备和存储介质
CN110795544A (zh) * 2019-09-10 2020-02-14 腾讯科技(深圳)有限公司 内容搜索方法、装置、设备和存储介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111275034A (zh) * 2020-01-19 2020-06-12 世纪龙信息网络有限责任公司 从图像中提取文本区域的方法、装置、设备和存储介质
CN111324728A (zh) * 2020-01-22 2020-06-23 腾讯科技(深圳)有限公司 文本事件摘要的生成方法、装置、电子设备及存储介质
CN111444320A (zh) * 2020-06-16 2020-07-24 太平金融科技服务(上海)有限公司 文本检索方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Joint Deep Model with Multi-Level Attention and Hybrid-Prediction for Recommendation;Zhipeng Lin 等;《entropy》;1-18 *
基于关键词语的文本特征选择及权重计算方案;刘里 等;《计算机工程与设计》;第27卷(第6期);934-936 *
基于词同现频率的文本特征描述;余刚 等;《计算机工程与设计》;第26卷(第8期);2180-2182 *

Also Published As

Publication number Publication date
CN111783903A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN114357151A (zh) 文本类目识别模型的处理方法、装置、设备及存储介质
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN116205700A (zh) 目标产品的推荐方法、装置、计算机设备和存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113761270A (zh) 视频召回方法、装置、电子设备以及存储介质
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN116661940B (zh) 组件识别方法、装置、计算机设备和存储介质
CN116628236B (zh) 多媒体信息的投放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030096

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant