CN111460783B - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents

一种数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111460783B
CN111460783B CN202010237278.6A CN202010237278A CN111460783B CN 111460783 B CN111460783 B CN 111460783B CN 202010237278 A CN202010237278 A CN 202010237278A CN 111460783 B CN111460783 B CN 111460783B
Authority
CN
China
Prior art keywords
word
model
text data
participle
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010237278.6A
Other languages
English (en)
Other versions
CN111460783A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010237278.6A priority Critical patent/CN111460783B/zh
Publication of CN111460783A publication Critical patent/CN111460783A/zh
Application granted granted Critical
Publication of CN111460783B publication Critical patent/CN111460783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及介质,该方法包括:基于第一分词、第二分词以及关键词,确定第一分类特征和第二分类特征;确定第一词向量以及第二词向量,对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型;对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练;在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为目标模型。采用本申请实施例,可以提高文本匹配模型的训练效率以及提高文本匹配的准确度。

Description

一种数据处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
文本匹配是自然语言处理中一个重要的基础问题。在现有技术中,具有文本匹配功能的计算机设备在匹配目标文本对(例如,文本A和文本B)时,通常会默认文本A和文本B之间的所有分词进行两两组合之后,一并给到文本匹配模型进行文本匹配,即判断这两个文本之间的相似性。然而,现有技术在采用文本匹配模型进行文本匹配时,难以对某些具有相似语义但实质内容存在不同的文本进行区别,进而存在该计算机设备输出错误的匹配结果。例如,文本A可以为“从北京到上海的高铁票价为多少”,文本B可以为“从北京到深圳的高铁票价为多少”,由于这两个文本的句式相同,所以计算机设备在进行文本匹配时,存在将实质内容不同的两个文本(即文本A与文本B)误判为相似文本的风险,从而降低了文本匹配的准确度。
申请内容
本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,可以提高文本匹配模型的训练效率以及提高文本匹配的准确度。
本申请实施例一方面提供一种数据处理方法,该方法包括:
基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征;第一分类特征包含与关键词不存在关联关系的文本词的特征;第二分类特征包含与关键词存在关联关系的文本词的特征;文本词包含第一分词、第二分词以及由第一分词与第二分词所构成的组合词;
确定第一分类特征对应的第一词向量以及第二分类特征对应的第二词向量;
对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型;
对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练;
在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
本申请实施例一方面提供一种数据处理装置,该装置包括:
第一确定模块,用于基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征;第一分类特征包含与关键词不存在关联关系的文本词的特征;第二分类特征包含与关键词存在关联关系的文本词的特征;文本词包含第一分词、第二分词以及由第一分词与第二分词所构成的组合词;
第二确定模块,用于确定第一分类特征对应的第一词向量以及第二分类特征对应的第二词向量;
预训练模块,用于对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型;
叠加训练模块,用于对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练;
第三确定模块,用于在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
其中,第一确定模块包括:
第一获取单元,用于获取第一文本数据的第一分词以及第二文本数据的第二分词;
第二获取单元,用于获取由第一分词所构成的第一自相关词对应的组合特征信息,获取由第二分词所构成的第二自相关词对应的组合特征信息,获取由第一分词和第二分词所构成的互相关词对应的组合特征信息;
第一确定单元,用于将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息以及互相关词对应的组合特征信息,作为待处理特征信息;
划分单元,用于基于与第一模型相关联的关键词,将待处理特征信息划分为与关键词不存在关联关系的第一分类特征,以及与关联词存在关联关系的第二分类特征。
其中,第一获取单元包括:
第一获取子单元,用于获取第一文本数据,对第一文本数据进行预分词处理,得到第一文本数据对应的第一分词集合;
第二获取子单元,用于获取第二文本数据,对第二文本数据进行预分词处理,得到第二文本数据对应的第二分词集合;
第一确定子单元,用于确定第一分词集合中的每个分词进行组合后所得到的组合字符串的第一条件概率值,将具有最大第一条件概率值的第一分词集合中的分词作为第一文本数据的第一分词;
第二确定子单元,用于确定第二分词集合中的每个分词进行组合后所得到的组合字符串的第二条件概率值,将具有最大第二条件概率值的第二分词集合中的分词作为第二文本数据的第二分词。
其中,第二获取单元包括:
第三获取子单元,用于获取与第一模型相关联的特征组合值K;特征组合值K用于表征对第一分词和第二分词分别进行特征组合时的总分词数量,K=2;
第一组合子单元,用于将第一分词中的分词进行两两组合,在第一文本数据中将两两组合后的组合词作为第一自相关词,确定第一自相关词对应的组合特征信息;
第二组合子单元,用于将第二分词中的分词进行两两组合,在第二文本数据中将两两组合后的组合词作为第二自相关词,确定第二自相关词对应的组合特征信息;
第三组合子单元,用于将第一分词中的分词与第二分词中的分词进行两两组合,在第一文本数据以及第二文本数据中,将两两组合后的组合词作为互相关词,确定互相关词对应的组合特征信息。
其中,第一确定单元包括:
第一设置子单元,用于将在互相关词中识别到的与第一自相关词具有相同内容且具有不同来源的互相关词,确定为第一互相关词,为第一互相关词设置第一标识,且将具有第一标识的第一互相关词对应的组合特征信息确定为第一互相关特征信息;
第二设置子单元,用于将在互相关词中识别到的与第二自相关词具有相同内容且具有不同来源的互相关词,确定为第二互相关词,为第二互相关词设置第二标识,且将具有第二标识的第二互相关词对应的组合特征信息确定为第二互相关特征信息;
第三确定子单元,用于在互相关词中,将除第一互相关词以及第二互相关词之外的互相关词确定为第三互相关词,将第三互相关词对应的组合特征信息确定为第三互相关特征信息;
第四确定子单元,用于将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息、第一互相关特征信息、第二互相关特征信息以及第三互相关特征信息,作为待处理特征信息。
其中,第一文本数据和第二文本数据所属的领域均为目标领域;目标领域对应的初始词典是第二文本数据对应的第二分词所确定的;
第一确定模块还包括:
第二确定单元,用于确定第二分词中的每个分词在第二文本数据所属的目标领域中的贡献度;
选取单元,用于从第二分词中筛选贡献度满足关键词筛选条件的第二分词,将筛选出的第二分词确定为领域关键词;
添加单元,用于用领域关键词,更新初始词典,将更新后的初始词典作为目标词典添加至第一模型,得到与第一模型相关联的关键词。
其中,第一模型包含平均池化层、全连接层以及分类层;
预训练模块包括:
第一变更单元,用于对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值;
第三确定单元,用于将第一固定值和第二词向量中的值作为第一模型的第一模型参数;
融合单元,用于将具有第一固定值的第一词向量和第二词向量输入至第一模型参数对应的平均池化层中进行融合,将融合得到的融合向量输入至全连接层,由全连接层输出融合向量对应的待分类向量;
输入单元,用于将待分类向量输入至分类层,得到第一文本数据与第二文本数据对应的训练结果;
预训练单元,用于若训练结果指示第一模型参数不满足第一模型的模型收敛条件时,将第一模型参数对应的第一模型,作为第二模型。
其中,叠加训练模块包括:
筛选单元,用于从第二词向量对应的文本词中筛选包含关键词的互相关词,将筛选出的包含关键词的互相关词确定为待处理组合词;
配置单元,用于将待处理组合词的词向量作为待处理词向量,为待处理词向量配置权重参数;
第二变更单元,用于用权重参数与待处理词向量之间的乘积,对待处理词向量中的值进行变更处理,将变更处理后的待处理词向量中的值作为第二固定值;
叠加训练单元,用于将第一固定值和第二固定值作为第二模型的第二模型参数,基于第二模型的模型参数,对第二模型进行叠加训练。
其中,配置单元包括:
第五确定子单元,用于将待处理组合词中的第一分词确定为第一目标分词,将待处理组合词中的第二分词确定为第二目标分词;
编码子单元,用于对第一目标分词进行向量编码得到第一目标词向量,对第二目标分词进行向量编码得到第二目标词向量;
第六确定子单元,用于将待处理组合词的词向量作为待处理词向量,基于第一目标词向量以及第二目标词向量,为待处理词向量配置权重参数。
其中,第三确定模块包括:
第三获取单元,用于获取第一验证文本数据以及第二验证文本数据;
预测单元,用于基于叠加训练后的第二模型,预测第一验证文本数据以及第二验证数据的匹配度,将预测得到的匹配度作为第一验证文本数据与第二验证文本数据的预测匹配结果;
第四获取单元,用于获取与第一验证文本数据以及第二验证文本数据相关联的实际匹配结果;
第四确定单元,用于基于预测匹配结果以及实际匹配结果,确定叠加训练后的第二模型的损失值;
第五确定单元,用于在损失值小于损失函数阈值时,将叠加训练后的第二模型确定为满足模型收敛条件的目标模型。
其中,该装置还包括:
获取模块,用于响应于用户终端发送的业务请求,获取目标样本对中的第一目标文本数据以及第二目标文本数据;第一目标文本数据为用户终端所发送的文本数据;第二目标文本数据为第一目标文本数据对应的候选文本数据;
调用模块,用于调用目标模型,对第一目标文本数据以及第二目标文本数据进行匹配,得到第一目标文本数据与第二目标文本数据的匹配度;
返回模块,用于将匹配度对应的匹配结果返回至用户终端。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
该处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行本申请实施例中上述一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时,执行本申请实施例中上述一方面中的方法。
本申请实施例可以将与第一文本数据以及第二文本数据相关联的文本词的特征,划分为与关键词存在关联关系的第一分类特征以及与关键词不存在关联关系的第二分类特征。进一步地,可以基于第一模型的模型参数(即第一固定值以及第二词向量中的值),对第一模型进行预训练,得到第二模型。其中,第一固定值为对第一分类特征对应的第一词向量进行变更处理后所得到的词向量中的值。进而可以基于第二模型的模型参数(即第一固定值以及第二固定值)对第二模型进行叠加训练,在满足模型收敛条件时,得到目标模型。其中,第二固定值是对第二分类特征对应的第二词向量进行变更处理后所得到的词向量中的值。由此可见,本申请实施例在通过将关键词融合到对文本匹配模型(即前述第一模型和第二模型)的模型训练过程中,可以快速捕捉到第一文本数据中的领域关键词(即上述第一分词所包含的关键词)和第二文本数据中的领域关键词(即上述第二分词中所包含的关键词),以提升文本匹配模型对具有较高相似度的第一文本数据与第二文本数据之间的分辨能力,进而可以快速且准确的得到用于对目标样本对的匹配度进行预测的目标模型,即可以提高文本匹配模型的训练效率。这样,在采用目标模型进行文本匹配时,可以有效地提高文本匹配的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种进行业务数据交互的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种确定第一分类特征以及第二分类特征的场景示意图;
图5是本申请实施例提供的一种确定目标词典的场示意图;
图6a是本申请实施例提供的一种预训练第一模型的场景示意图;
图6b是本申请实施例提供的一种确定第一模型的第一模型参数的场景示意图;
图7是本申请实施例提供的一种确定第二模型的第二模型参数的场景示意图;
图8是本申请实施例提供的一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种应用目标模型的场景示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10和用户终端集群,该用户终端集群可以包括多个用户终端,如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。
如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
如图1所示,该用户终端集群中的每个用户终端均可以安装有目标应用,当该目标应用运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互,其中,该目标应用可以为能够在人工智能领域中执行文本处理业务的应用。例如,该目标应用可以被广泛应用于搜索引擎、推荐系统、文本理解、自动问答、对话领域、智能音箱以及客服机器人等领域,这里将不对目标应用的具体应用领域进行限定。
本申请实施例提供的数据处理方法涉及人工智能领域中的自然语言处理方向。可以理解的是,所谓人工智能(Artificial Intelligence,简称AI)是指利用数字计算机或者数据计算机控制的计算机设备(例如,图1所示服务器10)来进行模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
可以理解的是,本申请实施例中的计算机设备可以为具有文本匹配功能的实体终端,该实体终端可以为如图1所示的服务器10,也可以为终端设备,在此不做限定。
其中,为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、桌上型电脑等具有文本匹配功能的智能终端。例如,本申请实施例可以将图1所示的用户终端100a作为上述目标用户终端,该目标用户终端中可以集成有上述目标应用,此时,该目标用户终端可以通过该目标应用对应的业务数据平台与服务器10之间实现数据交互。
可以理解的是,在问答场景下,第一目标文本数据可以为用户终端100a所发送的问题文本1,第二目标文本数据可以为与问题文本1相关联的问题文本2,比如,可以从该问答场景对应的问答数据库中获取问题文本2。其中,问题文本1可以为“太阳离地球多远”,问题文本2可以为“地球和太阳之间的距离是多少”。服务器10可以调用融入了关键词的目标模型,对问题文本1和问题文本2进行文本匹配,得到问题文本1和问题文本2的匹配度。在该匹配度指示问题文本1与问题文本2为相似文本时,服务器10可以在数据库(即该问答场景对应的答案数据库)中获取问题文本2对应的标准答案文本,并将该标准答案文本作为匹配结果,返回给用户终端。这里可以将问答数据库和答案数据库统称为该问答场景对应的数据库。
可选的,在推荐系统场景下,第一目标文本数据可以为曝光在用户终端100a中且被用户终端对应的用户所查阅的文本1,例如,文本1可以为用户终端100a对应的用户当前正在浏览的文本数据。第二目标文本数据可以为与服务器10相关联的数据库中所存储的与文本1具有相同领域的文本数据。其中,第二目标文本数据是指从该推荐系统场景对应的数据库中所筛选出的与第一目标文本数据待匹配的候选文本数据。可以理解的是,该推荐系统场景对应的数据库中可以存储多个与文本1具有相同领域的文本数据,例如,文本20,文本21,文本22,…,文本2n。可以理解的是,此时,服务器10可以在调用上述融入了关键词的目标模型时,将文本1与数据库中所存储的这些候选文本数据分别进行文本匹配,以得到对应的匹配度。进一步地,服务器10还可以将与文本1具有最高匹配度的文本数据(例如,文本22)作为匹配结果,直接返回给用户终端100a,以使用户终端100a能够在文本1的底端显示相应文本数据。
其中,可以理解的是,本申请实施例可以将文本1和与该文本1相关联的每个候选文本数据确定为一个目标样本对,以通过上述训练好的目标模型对这些目标样本对的文本匹配度进行预测,进而可以得到与每个目标样本对的匹配度。比如,在上述推荐系统场景下,若目标应用为微信应用中的微信读书小程序,则上述第一目标文本数据可以为用户当前正在阅读的电子书籍1,通过上述训练好的目标模型,就可以将这些目标样本对(即电子书籍1和与该电子数据1相似的其他电子书籍所构成的文本对)的匹配度返回给用户终端100a,与此同时,还可以将相应匹配度对应的电子书籍一并推送至用户终端100a,以使用户终端100a对应的用户可以实时地查阅到与当前电子书籍1相似的其他电子书籍。
此外,本申请实施例可以将模型训练过程中所输入的与用户相关联的文本数据称之为第一文本数据,且将第一文本数据的分词称之为第一分词。其中,在娱乐场景下,该第一文本数据可以为娱乐应用(例如,游戏A)中的玩家用户所提出的与游戏相关联的问题文本。例如,“具备速度属性的xx装备可以提升多少速度?”。同理,在其他应用场景(例如,学习场景)下,该第一文本数据也可以为学习应用中的学习用户所提出的与专业知识相关的问题文本。例如,“加速度的概念是什么?”。以此类推,在支付场景下,该第一文本数据还可以为支付应用(例如,微信或者QQ)中的消费用户所提出的与商品有关的问题文本。例如,“女装在商场的哪一层?”。可选的,在重复率查询场景下,该第一文本数据还可以为重复率查询应用中的查询用户所录入的待查询文本,例如,“论文XX”。这里不对其进行限定。
本申请实施例可以将与第一文本数据待匹配的候选文本数据称之为第二文本数据,且将第二文本数据的分词称之为第二分词。可以理解的是,该第二文本数据可以为数据库中所存储的与第一文本数据相关联的问题文本,比如,网页的内容,产品的描述等,这里不对其进行限定。
应当理解,本申请实施例中的计算机设备(如图1所示的服务器10)通过将关键词融合到对文本匹配模型进行交叠训练后,可以得到上述目标模型。可以理解的是,对文本匹配模型进行交叠训练可以为先对文本匹配模型进行预训练,再对预训练后的文本匹配模型进行叠加训练(即对预训练后的文本匹配模型进行多次训练)。在叠加训练后的文本匹配模型不满足模型收敛条件时,可以继续进行预训练和叠加训练的重复操作,直到叠加训练后的文本匹配模型满足模型收敛条件,从而可以得到目标模型。其中,在模型预测阶段,该目标模型可以用于对目标样本对的匹配度进行预测。该目标样本对中可以包含第一目标文本数据以及第二目标文本数据。
为便于理解,进一步地,请参见图2,是本申请实施例提供的一种进行业务数据交互的场景示意图。本申请实施例中的用户终端210可以为上述图1所示的用户终端集群中的任意一个用户终端,例如,用户终端100a。本申请实施例中的服务器200可以为上述图1所示的服务器10,该服务器200具有文本匹配功能。
其中,本申请实施例可以以应用场景为上述推荐系统场景为例,以阐述服务器200对文本数据A以及文本数据B进行文本匹配的具体过程。其中,文本数据A可以为用户终端210对应的用户在上述目标应用的应用界面上所显示的文本数据(例如,该文本数据所属领域的领域标签可以为体育新闻标签、...、娱乐新闻标签),文本数据B可以为与服务器200相关联的数据库中所存储的与前述文本数据A具有相同领域标签的文本数据。
可以理解的是,用户终端210可以向如图2所示的服务器200发送一个针对文本数据A的业务推荐请求。可以理解的是,服务器200在获取到该业务推荐请求时,可以基于该业务推荐请求中所携带的文本数据A所属领域的领域标签,从数据库中筛选并推荐与该文本数据A具有较高匹配度的文本数据。可以理解的是,在模型预测阶段,本申请实施例可以将用户终端所发送的业务处理请求中所携带的文本数据A统称为第一目标文本数据。
比如,服务器200可以基于上述业务推荐请求,从数据库中获取与文本数据A的领域标签相同的至少一个候选文本数据B(例如,文本数据B1,文本数据B2,文本数据B3等)。其中,本申请实施例可以将与第一目标文本数据具有相同领域标签的候选文本统称为第二目标文本数据。进一步地,服务器200可以调用上述融入了关键词的目标模型(例如,图2所示的模型20d),对该文本数据A以及该文本数据B进行文本匹配,得到对应的匹配度。进一步地,服务器200可以将具有最高匹配度的文本数据B(例如,文本数据B1)作为匹配结果,以返回给用户终端210。其中,匹配度是用于指示不同文本(例如,文本数据A以及文本数据B)之间的相似性。匹配度的值越高,则可以理解为文本数据A与文本数据B之间存在相似性的可能性越高,匹配度的值越低,则可以理解为文本数据A与文本数据B之间存在相似性的可能性越低。
其中,本申请实施例中的服务器200确定文本数据A与文本数据B的匹配度的具体实现过程可以如图2所示。应当理解,本申请实施例可以基于训练样本对中的第一文本数据以及第二文本数据,对第一模型进行训练,从而在满足模型收敛条件时,得到用于预测目标样本对的目标模型。其中,本申请实施例可以将模型训练阶段所输入的文本数据称之为第一文本数据,将第一文本数据对应的候选文本数据称之为为第二文本数据。其中,模型20a,模型20b以及模型20c可以统称为训练模型。
可选的,本申请实施例中服务器200可以将模型预测阶段中的第一目标文本数据和第二目标文本数据直接作为模型训练阶段中的第一文本数据和第二文本数据。比如,服务器200可以将文本数据A直接作为输入至模型20a(即第一模型)的第一文本数据,将文本数据B直接作为输入至模型20a的第二文本数据。
如图2所示,该服务器200可以将文本数据A以及文本数据B作为输入至模型20a中的第一文本数据以及第二文本数据,进而服务器200可以获取文本数据A的分词以及文本数据B的分词,其中,文本数据A的分词可以称之为第一分词,文本数据B的分词可以称之为第二分词。
例如,文本数据A可以为“我爱吃苹果”,文本数据A对应的第一分词可以为A1(我)、A2(爱)、A3(吃)以及A4(苹果)。第二文本数据B可以为“我喜欢吃梨”,该第二文本数据B对应的第二分词可以为B1(我)、B2(喜欢)、B3(吃)以及B4(梨)。
进一步地,该服务器200可以根据第一分词和第二分词,确定与第一文本数据以及第二文本数据相关联的组合词。其中,该组合词可以包括由第一分词所构成的第一自相关词、由第二分词所构成的第二自相关词以及由第一分词和第二分词所构成的互相关词。
应当理解,服务器200可以获取与模型20a相关联的特征组合值K。该特征组合值K用于表征对第一分词和第二分词分别进行特征组合时的分词数量。其中,K可以为2,也可以3这样的正整数,在此不做限定。
本申请实施例中的特征组合值可以以2为例。例如,第一自相关词可以为A1(我),A1A2(我,爱),A2A3(爱,吃),A3A4(吃,苹果)。进一步地,服务器200可以确定第一自相关词对应的组合特征信息。
第二自相关词可以为B1(我),B1B2(我,喜欢),B2B3(喜欢,吃),B3B4(吃,梨)。进一步地,服务器200可以确定第二自相关词对应的组合特征信息。
互相关词可以为A1B1(我,我),A1B2(我,喜欢),A1B3(我,吃),A1B4(我,梨),A2B1(爱,我),A2B2(爱,喜欢),A2B3(爱,吃),A2B4(爱,梨),A3B1(吃,我),A3B2(吃,喜欢),A3B3(吃,吃),A3B4(吃,梨),A4B1(苹果,我),A4B2(苹果,喜欢),A4B3(苹果,吃),A4B4(苹果,梨)。进一步地,服务器200可以确定互相关词的组合特征信息。其中,互相关词的组合特征信息可以包括第一互相关特征信息、第二互相关特征信息以及第三互相关特征信息。
进一步地,服务器200可以基于第一分词、第二分词以及与模型20a(即第一模型)相关联的关键词,确定与模型20a相关联的第一分类特征和第二分类特征。例如,本申请实施例中的关键词可以为第一文本数据中的“苹果”和第二文本数据中的“梨”。其中,第一分类特征可以包含与关键词不存在关联关系的文本词的特征;第二分类特征包含与关键词存在关联关系的文本词的特征;文本词包含第一分词、第二分词以及由第一分词与第二分词所构成的组合词。
应当理解,服务器200可以确定第一分类特征对应的词向量,并将第一分类特征对应的词向量称之为第一词向量。同时,服务器200也可以确定第二分类特征对应的词向量,并将第二分类特征对应的词向量确定为第二词向量。进一步地,服务器200可以对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值。此时,服务器200可以基于第一固定值和第二词向量中的值对模型20a进行预训练,得到第二模型(如图2所示的模型20b)。
此时,服务器200可以对模型20b的收敛情况进行检测,若模型20b满足模型收敛条件,则服务器200可以将模型20b作为用于对目标样本对的匹配度进行预测的目标模型。
可选的,若模型20b不满足模型收敛条件,此时,服务器200可以对第二词向量中的值进行变更处理,并可以将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对模型20b进行叠加训练,从而可以得到叠加训练后的第二模型(如图2所示的模型20c)。其中,服务器200对模型20a进行预训练得到模型20b,再对模型20b进行叠加训练得到模型20c的过程可以理解为是对文本匹配模型进行交叠训练的一次过程。
进一步地,服务器200可以对模型20c的收敛条件进行检测,在检测到模型20c满足模型收敛条件时,将满足模型收敛条件的模型20c确定为用于对目标样本对的匹配度进行预测的目标模型。在检测到模型20c不满足模型收敛条件时,可以将模型20c作为新的模型20a,继续对新的模型20a进行预训练以及叠加训练的操作,直到交叠训练后的模型满足模型收敛条件。
由此可见,本申请实施例可以将关键词融合到交叠训练模型的过程中,以更新模型的模型参数,进而可以在模型满足收敛条件时,得到用于进行文本匹配的目标模型,从而可以提高文本匹配的准确率。
其中,计算机设备基于关键词对第一模型进行交叠训练,得到目标模型的具体实现方式可以参见下述图3-图9所对应的实施例。
进一步地,请参见图3,是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由具有文本匹配功能的计算机设备执行。如图3所示,该方法可以包括:
S101,基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征。
具体地,具有文本匹配功能的计算机设备可以获取第一文本数据的第一分词以及第二文本数据的第二分词。进一步地,该计算机设备可以获取由第一分词所构成的第一自相关词对应的组合特征信息,获取由第二分词所构成的第二自相关词对应的组合特征信息,获取由第一分词和第二分词所构成的互相关词对应的组合特征信息。此时,该计算机设备可以将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息以及互相关词对应的组合特征信息,作为待处理特征信息。进一步地,该计算机设备可以基于与第一模型相关联的关键词,将待处理特征信息划分为与关键词不存在关联关系的第一分类特征,以及与关联词存在关联关系的第二分类特征。
其中,本申请实施例中的计算机设备可以为具有文本匹配功能的实体终端,该实体终端可以为服务器,也可以为终端设备,在此不做限定。可以理解的是,本申请实施例中的文本数据可以为一句话,也可以为一段话,还可以为一篇文章,在此不做限定。
本申请实施例中以图1所示的服务器10为例,用以阐述该计算机设备通过所获取的关键词,对第一模型进行交叠训练得到目标模型的过程。可以理解的是,该目标模型可以为用于搜索引擎的模型,也可以为用于推荐系统的模型,还可以为用于客服机器人的模型等,在此不做限定。
应当理解,计算机设备可以获取第一文本数据的第一分词以及第二文本数据的第二分词。其中,可以理解的是,该计算机设备可以获取第一文本数据,进而可以对第一文本数据进行预分词处理,得到第一文本数据对应的第一分词集合。进一步地,该计算机设备可以获取第二文本数据,进而可以对第二文本数据进行预分词处理,得到第二文本数据对应的第二分词集合。该计算机设备可以确定第一分词集合中的每个分词进行组合后所得到的组合字符串的第一条件概率值,将具有最大第一条件概率值的第一分词集合中的分词作为第一文本数据的第一分词;并可以确定第二分词集合的中的每个分词进行组合后所得到的组合字符串的第二条件概率值,将具有最大第二条件概率值的第二分词集合中的分词作为第二文本数据的第二分词。其中,条件概率值可以用于指示该组合字符串存在的可能性。条件概率值越大,该组合字符串存在的可能性越大,对文本数据进行分词处理后得到的分词,越有可能为该组合字符串中的分词,反之亦然。
其中,进行分词处理的常见类别可以为基于词典分词的算法以及基于统计的机器学习算法。可以理解的是,基于词典分词的算法也可以称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。在基于统计的机器学习算法中,常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。随着深度学习的兴起,也出现了基于神经网络的分词器。
本申请实施例以N-gram模型为例,用以阐述计算机设备对文本数据的分词处理过程。其中,N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(字符的顺序序列),输出是这句话对应的组合字符串的条件概率值。其中,特征组合值K用于表征对第一分词和第二分词分别进行特征组合时的总分词数量(以K=2为例)。
例如,该计算机设备可以获取的第一文本数据(例如,句子X)为“我爱深度学习”,此时,该计算机设备可以将句子X输入至N-gram模型中,进而可以对句子X进行预分词处理,得到句子X对应的分词集合。其中,句子X对应的分词集合可以包含多个,本申请实施例仅以3个为例,即分词集合1,分词集合2以及分词集合3。比如,分词集合1可以为{我,爱深,度学习},分词集合2可以为{我爱,深,度学,习},分词集合3可以为{我,爱,深度学习}。
具体地,N-gram模型中的K=2时,条件概率值的计算公式如下述公式(1)所示:
p(X)=p(w1w2…wn)=p(w1)p(w2|w1)…p(wn|wn-1), (1)
其中,X是指文本数据(即句子X),w1是指句子X中的第一个字符,w2是指句子X中的第二个字符,以此类推,wn是指句子X中的最后一个字符。
应当理解,该计算机设备可以根据上述公式(1),确定出这3个集合中的每个分词进行组合后所得到的组合字符串的条件概率值。例如,分词集合1对应的条件概率值p1,即p1=p(我)p(爱深|我)p(度学习|爱深),分词集合2对应的条件概率值p2,即p2=p(我爱)p(深|我爱)p(度学|爱)p(习|度学),分词集合3对应的条件概率值p3,即p3=p(我)p(爱|我)p(深度学习|爱)。
可以理解的是,该计算机设备可以从上述3个条件概率值中确定最大的条件概率值(例如,p3)。此时,该计算机设备可以将具有最大条件概率值的分词集合(例如,分词集合3)中的分词作为句子X的分词,即{我,爱,深度学习}。
进一步地,计算机设备可以基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征。
为便于理解,进一步地,请参见图4,是本申请实施例提供的一种确定第一分类特征以及第二分类特征的场景示意图。可以理解的是,本申请实施例中的分词A(即第一分词)的分词数量以及分词B(即第二分词)的分词数量均可以包含多个,例如,分词A中可以包含4个分词,即A1,A2,A3以及A4。分词B中也可以包含4个分词,即B1,B2,B3以及B4。
其中,如图4所示,分词A对应的文本数据(即第一文本数据)可以为“我爱吃苹果”,分词B对应的文本数据(即第二文本数据)可以为“我喜欢吃梨”。可以理解的是,分词A中可以包含A1(我)、A2(爱)、A3(吃)以及A4(苹果),分词B可以包含B1(我)、B2(喜欢)、B3(吃)以及B4(梨)。
进一步地,该计算机设备可以获取与第一模型相关联的特征组合值K,其中,特征组合值K可以用于表征对第一分词和第二分词分别进行特征组合时的总分词数量(以K=2为例)。
计算机设备可以将分词A中的分词进行两两组合,在第一文本数据中将两两组合后的组合词作为第一自相关词。例如,A1(我),A1A2(我,爱),A2A3(爱,吃),A3A4(吃,苹果)。进一步地,计算机设备可以确定第一自相关词对应的组合特征信息(如图4所示的组合特征信息1)。
计算机设备还可以将分词B中的分词进行两两组合,在第二文本数据中将两两组合后的组合词作为第二自相关词。例如,B1(我),B1B2(我,喜欢),B2B3(喜欢,吃),B3B4(吃,梨)。进一步地,计算机设备可以确定第二自相关词对应的组合特征信息(如图4所示的组合特征信息2)。
计算机设备可以将分词A中的分词与分词B中的分词进行两两组合,在第一文本数据以及第二文本数据中,将两两组合后的组合词作为互相关词。其中,互相关词中可以包含第一互相关词,第二互相关词,第三互相关词。例如,A1B1(我,我),A1B2(我,喜欢),A1B3(我,吃),A1B4(我,梨),A2B1(爱,我),A2B2(爱,喜欢),A2B3(爱,吃),A2B4(爱,梨),A3B1(吃,我),A3B2(吃,喜欢),A3B3(吃,吃),A3B4(吃,梨),A4B1(苹果,我),A4B2(苹果,喜欢),A4B3(苹果,吃),A4B4(苹果,梨)。进一步地,计算机设备可以确定互相关词对应的组合特征信息(如图4所示的组合特征信息3)。
其中,可以理解的是,计算机设备可以在将在互相关词中识别到的与第一自相关词具有相同内容且具有不同来源的互相关词,确定为第一互相关词。此时,计算机设备可以为第一互相关词设置第一标识,且将具有第一标识的第一互相关词对应的组合特征信息确定为第一互相关特征信息。例如,互相关词中的A2B3(爱,吃)与第一自相关词中的A2A3(爱,吃)具有相同内容。此时,计算机设备可以为A2B3(爱,吃)设置第一标识(例如,#),且将具有第一标识的第一互相关词(例如,#A2B3)对应的组合特征信息确定为第一互相关特征信息。可以理解的是,后续计算机设备在对组合特征信息进行向量编码时,由于设置“#”标识,即使A2B3与A2A3各自对应的内容相同,但这两个组合特征信息分别对应的词向量不同。例如,A2B3的词向量可以为词向量a,A2A3的词向量可以为词向量b。
其中,可以理解的是,计算机设备可以在将在互相关词中识别到的与第二自相关词具有相同内容且具有不同来源的互相关词,确定为第二互相关词。此时,计算机设备可以为第二互相关词设置第二标识,且将具有第二标识的第二互相关词对应的组合特征信息确定为第二互相关特征信息。例如,互相关词中的A1B2(我,喜欢)与第二自相关词中的B1B2(我,喜欢)具有相同内容。此时,计算机设备可以为A1B2(我,喜欢)设置第二标识(例如,*),且将具有第二标识的第二互相关词(例如,*A1B2)对应的组合特征信息确定为第二互相关特征信息。可以理解的是,后续计算机设备在对组合特征信息进行向量编码时,由于设置“*”标识,即使B1B2与A1B2各自对应的内容相同,但这两个组合特征信息分别对应的词向量不同。例如,B1B2的词向量可以为词向量c,A1B2的词向量可以为词向量d。
其中,可以理解的是,计算机设备可以在互相关词中,将除第一互相关词以及第二互相关词之外的互相关词确定为第三互相关词,将第三互相关词对应的组合特征信息确定为第三互相关特征信息。进一步地,计算机设备可以将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息、第一互相关特征信息、第二互相关特征信息以及第三互相关特征信息,作为待处理特征信息。
如图4所示,该计算机设备可以将组合特征信息1、组合特征信息2以及组合特征信息3,作为待处理特征信息。进一步地,该计算机设备可以基于与第一模型相关联的关键词(例如,A4“苹果”以及B4“梨”)将待处理特征信息划分为与关键词不存在关联关系的分类特征1(即第一分类特征),以及与关联词存在关联关系的分类特征2(即第二分类特征)。
例如,分类特征1可以包含A1(我),A1A2(我,爱),A2A3(爱,吃),B1(我),B1B2(我,喜欢),B2B3(喜欢,吃),A1B1(我,我),A1B2(我,喜欢),A1B3(我,吃),A2B1(爱,我),A2B2(爱,喜欢),A2B3(爱,吃),A3B1(吃,我),A3B2(吃,喜欢),A3B3(吃,吃)。分类特征2可以包含A3A4(吃,苹果),B3B4(吃,梨),A1B4(我,梨),A2B4(爱,梨),A3B4(吃,梨),A4B1(苹果,我),A4B2(苹果,喜欢),A4B3(苹果,吃),A4B4(苹果,梨)。
进一步地,该计算机设备可以将与第一模型相关联的关键词,融合至第一模型的交叠训练过程中,得到用于对目标样本对的匹配度进行预测的目标模型。其中,可以理解的是,本申请实施例可以将第一文本数据和第二文本数据所属的领域均称之为目标领域;目标领域对应的初始词典可以由第二文本数据对应的第二分词所确定,该初始词典还可以为由第一文本数据对应的第一分词和第二文本数据对应的第二分词所确定的。
应当理解,该计算机设备可以确定第二分词在第二文本数据所属的目标领域中的贡献度。具体地,该计算机设备确定分词的贡献度的计算公式可以如下述公式(2)所示:
y=tf*idf=tf*log(N/df), (2)
其中,tf可以为该分词的频率,该频率可以用于指示该分词在该分词所属文本数据中出现的次数,idf可以为该分词的逆频率,逆频率可以用于指示在目标领域中,该分词在除该分词所属文本数据之外的其他文本数据中出现的频率。df可以为该分词所出现的文本数据的数量,N可以为语料库中目标领域对应的文本数据的总数量。
可以理解的是,tf反应了分词(例如,分词A1)在分词A1所属文本数据(例如,文本数据A)中的词频,idf反映了分词A1的逆频率,若分词A1在很多文本数据中出现,则idf的值较低,例如,常见词“的”,“我”,“了”等。若分词A1在比较少的文本数据中出现,则idf的值较高,例如,专业词“激光陀螺”等。
应当理解,计算机设备可以从第二分词中,筛选贡献度满足关键词筛选条件的第二分词,将筛选出的第二分词确定为领域关键词。其中,关键词筛选条件是在某一分词的贡献度达到贡献度阈值时,则可以将该分词确定为关键词。进一步地,该计算机设备可以用领域关键词,更新初始词典,将更新后的初始词典作为目标词典添加至第一模型,得到与第一模型相关联的关键词。其中,本申请实施例可以将由领域关键词构成的词典称之为目标词典。
为便于理解,进一步地,请参见图5,是本申请实施例提供的一种确定目标词典的场示意图。其中,本申请实施例第一分词的分词数量以及第二分词的分词数量均可以包含多个。如图5所示,初始词典可以由文本数据B(即第二文本数据)对应的第二分词(例如,B1,B2,B3,B4,B5,B6,B7以及B8)所确定的。
例如,文本数据B中可以为与第一文本数据相关联的目标领域中的多个文本数据,目标领域中的文本数据B的个数以3为例,例如,文本数据B可以为“我喜欢吃梨”,“我爱吃水果”,“我想吃苹果”可以理解的是,第二分词中可以包含B1(我)、B2(喜欢)、B3(吃),B4(梨),B5(爱),B6(水果),B7(想),B8(苹果)。
进一步地,该计算机设备可以通过上述公式(2)确定第二分词在第二文本数据所属目标领域中的贡献度。如图5所示,分词B1对应的贡献度可以为y1(例如,0.01),分词B2对应的贡献度可以为y2(例如,0.13),分词B3对应的贡献度可以为y3(例如,0.07),分词B4对应的贡献度可以为y4(例如,0.32)。分词B5对应的贡献度可以为y5(例如,0.05),分词B6对应的贡献度可以为y6(例如,0.21),分词B7对应的贡献度可以为y7(例如,0.13),分词B8对应的贡献度可以为y8(例如,0.42)。
应当理解,该计算机设备可以基于所设定的关键词阈值(例如,0.3),选取满足关键词筛选条件的领域关键词(例如B4(梨)以及B8(苹果))。此时,该计算机设备可以用领域关键词,更新初始词典,并将更新后的初始词典作为目标词典。可以理解的是,该计算机设备可以将该目标词典添加至第一模型(如图2所示的模型20a),从而可以得到与第一模型相关联的关键词(即苹果和梨)。
S102,确定第一分类特征对应的第一词向量以及第二分类特征对应的第二词向量。
具体地,该计算机设备可以对第一分类特征以及第二分类特征分别进行向量编码,得到第一分类特征对应的词向量以及第二分类特征对应的第二词向量。其中,本申请实施例可以将第一分类特征对应的词向量可以称之为第一词向量,将第二分类特征对应的词向量称之为第二词向量。
其中,计算机设备可以通过独热编码(One-Hot Encoding)对第一分类特征以及第二分类特征进行向量编码。可以理解的是,计算机设备可以在对需要进行编码的待处理特征信息进行排序,将排序之后每个待处理特征信息映射在同一映射空间的K个(例如,256个)维度信息中。即在该映射空间中,不同的待处理特征信息中的排序不同,所处的位置也就不同。计算机设备可以将某一个待处理特征信息(例如,分词A1B1)根据排序所处的位置,将K个维度信息中对应的维度值编码为1,而其他维度值都编码为0。
例如,在第一分类特征(如图4所示的分类特征1)中确定出A1B1(我,我)且排序为7,将其映射在具有256个维度信息的映射空间中,该A1B1的第7维度值编码为1,其他255个维度信息编码为0,则A1B1(我,我)的编码向量可以表示为[0 0 0 0 0 0 1 0 0 0 0 0 0 00 0 …],其中,该编码向量中可以包含255个0。
S103,对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型。
具体地,计算机设备可以对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值。此时,计算机设备可以将第一固定值和第二词向量中的值作为第一模型的第一模型参数,进而可以将具有第一固定值的第一词向量和第二词向量输入至第一模型参数对应的平均池化层中进行融合,并将融合得到的融合向量输入至全连接层,由全连接层输出融合向量对应的待分类向量。进一步地,计算机设备可以将待分类向量输入至分类层,得到第一文本数据与第二文本数据对应的训练结果。若训练结果指示第一模型参数不满足第一模型的模型收敛条件时,计算机设备可以将第一模型参数对应的第一模型,作为第二模型。
为便于理解,进一步地,请参见图6a,是本申请实施例提供的一种预训练第一模型的场景示意图。本申请实施例中第一模型可以包含平均池化层、全连接层以及分类层。
其中,可以理解的是,文本数据A(即第一文本数据)中的第一分词对应的词特征信息可以为图6a所示的Token A1、Token A2……Token Ai,文本数据B(即第二文本数据)中的第二分词对应的词特征信息可以为图6a所示的Token B1、Token B2…Token Bj。其中,i,j均可以为正整数,i与j可以相同,也可以不同,在此不做限定。如图6a所示的待处理特征信息是文本数据A以及文本数据B对应的文本词对应的组合特征信息。其中,待处理特征信息可以包含第一自相关词对应组合特征信息(例如,A1,A1A2等),第二自相关词对应的组合特征信息(例如,B1,B1B2等),以及互相关词对应的组合特征信息(例如,A1B1,…,AiBj)。
进一步地,计算机设备可以基于与第一模型相关联的关键词,将待处理特征信息划分为第一分类特征以及第二分类特征。可以理解的是,计算机设备可以对第一分类特征进行向量编码,得到对应的第一词向量(如图6a所示的词向量a),对第二分类特征进行向量编码,得到对应的第二词向量(如图6a所示的词向量b)。
进一步地,请参见图6b,是本申请实施例提供的一种确定第一模型的第一模型参数的场景示意图。如图6b所示,词向量a可以为图6a所示的第一分类特征对应的词向量a,词向量b可以为图6a所示的第二分类特征对应的词向量b。
应当理解,计算机设备可以对词向量a中的值进行变更处理,从而可以得到变更处理后的词向量a(即图6b所示的词向量c)。进一步地,计算机设备可以将变更处理后的词向量a中的值作为固定值1(即第一固定值)。
例如,该计算机设备可以基于与词向量a相关联的文本词在该第一文本数据以及第二文本数据中的贡献度,对词向量a中的值进行变更处理,从而可以得到词向量b,并将词向量b中的值作为固定值1。
此时,计算机设备可以将固定值1(例如,词向量c中的值)和第二词向量中的值(例如,词向量b中的值)作为训练模型的模型参数1,即第一模型(如图2所示的模型20a)的第一模型参数。
如图6a所示,计算机设备可以将具有固定值1的词向量a和词向量b输入至第一模型参数对应的平均池化层中,进而可以进行融合,得到融合向量60,并将融合向量60输入至全连接层进行归一化处理,由全连接层输出融合向量60对应的待分类向量61。进一步地,计算机设备可以将待分类向量61输入至分类层,得到文本数据A与文本数据B对应的训练结果。
若训练结果指示第一模型参数满足第一模型的模型收敛条件时,计算机设备可以将第一模型作为用于对目标样本对的匹配度进行预测的目标模型。若训练结果指示第一模型参数不满足第一模型的模型收敛条件时,计算机设备可以将第一模型参数对应的第一模型,作为第二模型(如图2所示的模型20b)。
S104,对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练。
具体地,计算机设备可以从第二词向量对应的文本词中筛选包含关键词的互相关词,并将筛选出的包含关键词的互相关词确定为待处理组合词。进一步地,计算机设备可以将待处理组合词的词向量作为待处理词向量,为待处理词向量配置权重参数。此时,计算机设备可以用权重参数与待处理词向量之间的乘积,对待处理词向量中的值进行变更处理,将变更处理后的待处理词向量中的值作为第二固定值。进一步地,计算机设备可以将第一固定值和第二固定值作为第二模型的第二模型参数,基于第二模型的模型参数,从而可以对第二模型进行叠加训练。
为便于理解,进一步地,请参见图7,是本申请实施例提供的一种确定第二模型的第二模型参数的场景示意图。如图7所示,固定值1可以为对图6b所示的对词向量a进行变更处理后所得到的词向量c中的值。词向量b可以为图6b所示的第二分类特征对应的词向量b。
应当理解,如图7所示,计算机设备可以从词向量b(即第二词向量)对应的文本词中筛选包含关键词的互相关词,将筛选出的包含关键词的互相关词确定为待处理组合词(例如,AkBq)。进一步地,计算机设备可以将待处理组合词的词向量作为待处理词向量,为待处理词向量配置权重参数。其中,可以理解的是,计算机设备可以将AkBq中的第一分词确定为第一目标分词(即Ak),将AkBq中的第二分词确定为第二目标分词(即Bq)。进一步地,计算机设备可以对Ak进行向量编码得到第一目标词向量,并对Bq进行向量编码得到第二目标词向量。进一步地,计算机设备可以基于第一目标词向量以及第二目标词向量,根据下述公式(3)得到为待处理词向量所配置的权重参数(即Wkq)。
具体地,为待处理词向量配置的权重参数wkq的计算公式可以如下述公式(3)所示:
Figure BDA0002431412890000241
其中,wk可以为分词k(第一目标分词)的词向量,wq可以为分词q(第二目标分词)的词向量。分词k与分词q可以为待处理词向量对应的互相关词中的两个分词。
应当理解,计算机设备可以用上述公式(3)所配置的权重参数与待处理词向量之间的乘积,对待处理词向量中的值进行变更处理,将变更处理后的待处理词向量中的值(即词向量d中的值)作为第二固定值(例如,图7所示的固定值2),进而可以将固定值1和固定值2作为第二模型的第二模型参数,即如图7所示的训练模型的模型参数2。该训练模型可以为图2所示的模型20b。此时,计算机设备可以基于第二模型的模型参数,对第二模型进行叠加训练。可以理解的是,计算机设备在对第二模型进行叠加训练时,可以对第二模型进行R次训练,其中R可以为正整数,为便于理解,本申请实施例中的R可以以大于或者等于2的正整数为例,用以阐述计算机设备对第二模型进行叠加训练的过程。
其中,可以理解的是,计算机设备在对第二模型进行第一次训练时,可以对词向量b中的值进行变更处理,得到词向量d(例如,词向量d1),此时,计算机设备可以将词向量d1中的值作为固定值2,并将固定值2和固定值1作为训练模型(即第二模型)的模型参数2。应当理解,计算机设备可以将具有固定值2的词向量d(即词向量d1)和具有固定值1的词向量c输入至模型参数2(即第二模型参数)对应的平均池化层中,以完成第一次训练。
进一步地,计算机设备在对第二模型进行第二次训练时,可以直接对模型参数2中的固定值2中的值进行变更处理。其中,可以理解的是,计算机设备可以对词向量d(即词向量d1)中的值进行变更处理,得到变更处理后的词向量d(例如,词向量d2),此时,计算机设备可以将词向量d2中的值重新确定为新的固定值2,将新的固定值2和固定值1作为训练模型(即第二模型)的模型参数2。应当理解,计算机设备可以将具有新的固定值2的词向量d(即词向量d2)和具有固定值1的词向量c输入至平均池化层中,以完成第二次训练,以此类推。其中,词向量d1、词向量d2可以统称为词向量d。
可选的,在不考虑权重参数的情况下,计算机设备可以直接依据与词向量b(即第二词向量)对应的组合词的贡献度,对词向量b进行变更处理,从而可以得到变更处理后的词向量b(例如,词向量e)。此时,计算机设备可以将词向量e中的值作为固定值2,并将固定值2与固定值1作为训练模型的模型参数2。基于训练模型的模型参数2,对训练模型进行叠加训练。可以理解的是,计算机设备可以将具有固定值2的词向量e和具有固定值1的词向量c输入至模型参数2(即第二模型参数)对应的平均池化层中,具体步骤可以参见计算机设备对第一模型进行预训练的描述,在此不再继续进行赘述。
其中,步骤S103中对第一模型进行预训练得到第二模型的具体实现过程,和步骤S104中对第二模型进行叠加训练得到叠加训练后的第二模型的具体实现过程可以称之为对文本匹配模型进行交叠训练的过程。
S105,在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为目标模型。
具体地,计算机设备可以检测叠加训练后的第二模型的收敛情况。应当理解,计算机设备可以获取第一验证文本数据以及第二验证文本数据。基于叠加训练后的第二模型,该计算机设备可以预测第一验证文本数据以及第二验证数据的匹配度,并将预测得到的匹配度作为第一验证文本数据与第二验证文本数据的预测匹配结果。进一步地,计算机设备可以获取与第一验证文本数据以及第二验证文本数据相关联的实际匹配结果。基于预测匹配结果以及实际匹配结果,计算机设备可以确定叠加训练后的第二模型的损失值。在损失值小于损失函数阈值时,计算机设备可以将叠加训练后的第二模型确定为满足模型收敛条件的目标模型。
应当理解,计算机设备可以获取1000对验证文本对,以确定叠加训练后的第二模型在对目标样本对进行匹配度预测时的损失值。其中,叠加训练后的第二模型可以为进行一次训练后的第二模型,也可以为进行多次训练后的第二模型,在此不做限定。其中,验证文本对中可以包含第一验证文本数据和第二验证文本数据。可以理解的是,计算机设备可以将验证文本对输入至叠加训练后的第二模型中,预测验证文本对的匹配度,将预测得到的匹配度作为预测匹配结果。进而计算机设备可以获取与第一验证文本数据以及第二验证文本数据相关联的实际匹配结果。
可以理解的是,在预测匹配结果与实际匹配结果一致时,可以理解为叠加训练后的第二模型的预测成功。在预测匹配结果与实际匹配结果不一致时,可以理解为叠加训练后的第二模型的预测失败。此时,计算机设备可以统计这1000对验证文本对中,通过叠加训练后的第二模型预测成功的数量(例如,数量1),以及通过叠加训练后的第二模型预测失败的数量(例如,数量2)。进一步地,计算机设备可以基于数量1以及数量2,确定叠加训练后的第二模型的损失值。
在损失值大于或者损失函数阈值(例如,0.05)时,可以理解为叠加训练后的第二模型不满足模型收敛条件。此时,计算机设备需要将叠加训练后的第二模型更新为新的第一模型,以重复上述步骤S103-步骤S104(即对模型进行交叠训练)的过程。
在损失值小于损失函数阈值(例如,0.05)时,将叠加训练后的第二模型确定为满足模型收敛条件的目标模型。例如,计算机设备确定的损失值为0.03,换言之,损失值小于损失阈值大于0.05。此时,计算机设备可以将该叠加训练后的第二模型确定为目标模型。
由此可见,本申请实施例在通过将关键词融合到对文本匹配模型(即前述第一模型和第二模型)的模型训练过程中,可以快速捕捉到第一文本数据中的领域关键词(即上述第一分词所包含的关键词)和第二文本数据中的领域关键词(即上述第二分词中所包含的关键词),以提升文本匹配模型对具有较高相似度的第一文本数据与第二文本数据之间的分辨能力,进而可以快速且准确的得到用于对目标样本对的匹配度进行预测的目标模型,即可以提高文本匹配模型的训练效率。这样,在采用目标模型进行文本匹配时,可以有效地提高文本匹配的准确度。
进一步地,请参见图8,是本申请实施例提供的一种数据处理方法的流程示意图。该方法涉及文本匹配系统中的用户终端和具有文本匹配功能的计算机设备。如图8所示,该方法可以包括:
S201,基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征。
具体地,具有文本匹配功能的计算机设备可以获取第一文本数据的第一分词以及第二文本数据的第二分词。进一步地,该计算机设备可以获取由第一分词所构成的第一自相关词对应的组合特征信息,获取由第二分词所构成的第二自相关词对应的组合特征信息,获取由第一分词和第二分词所构成的互相关词对应的组合特征信息。此时,该计算机设备可以将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息以及互相关词对应的组合特征信息,作为待处理特征信息。进一步地,该计算机设备可以基于与第一模型相关联的关键词,将待处理特征信息划分为与关键词不存在关联关系的第一分类特征,以及与关联词存在关联关系的第二分类特征。
其中,本申请实施例中的计算机设备可以为具有文本匹配功能的实体终端,该实体终端可以为服务器,也可以为终端设备,在此不做限定。可以理解的是,本申请实施例中的文本数据可以为一句话,也可以为一段话,还可以为一篇文章,在此不做限定。
本申请实施例中以图1所示的服务器10为例,用以阐述该计算机设备通过所获取的关键词,对第一模型进行交叠训练得到目标模型的过程。可以理解的是,该目标模型可以为用于搜索引擎的模型,也可以用于推荐系统的模型,还可以为用于客服机器人的模型等,在此不做限定。
S202,确定第一分类特征对应的第一词向量以及第二分类特征对应的第二词向量。
具体地,该计算机设备可以对第一分类特征以及第二分类特征分别进行向量编码,得到第一分类特征对应的词向量以及第二分类特征对应的第二词向量。其中,本申请实施例可以将第一分类特征对应的词向量可以称之为第一词向量,将第二分类特征对应的词向量称之为第二词向量。
S203,对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型。
具体地,计算机设备可以对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值。此时,计算机设备可以将第一固定值和第二词向量中的值作为第一模型的第一模型参数,进而可以将具有第一固定值的第一词向量和第二词向量输入至第一模型参数对应的平均池化层中进行融合,并将融合得到的融合向量输入至全连接层,由全连接层输出融合向量对应的待分类向量。进一步地,计算机设备可以将待分类向量输入至分类层,得到第一文本数据与第二文本数据对应的训练结果。若训练结果指示第一模型参数不满足第一模型的模型收敛条件时,计算机设备可以将第一模型参数对应的第一模型,作为第二模型。
S204,对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练。
具体地,计算机设备可以从第二词向量对应的文本词中筛选包含关键词的互相关词,并将筛选出的包含关键词的互相关词确定为待处理组合词。进一步地,计算机设备可以将待处理组合词的词向量作为待处理词向量,为待处理词向量配置权重参数。此时,计算机设备可以用权重参数与待处理词向量之间的乘积,对待处理词向量中的值进行变更处理,将变更处理后的待处理词向量中的值作为第二固定值。进一步地,计算机设备可以将第一固定值和第二固定值作为第二模型的第二模型参数,基于第二模型的模型参数,从而可以对第二模型进行叠加训练。
S205,在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为目标模型。
具体地,计算机设备可以检测叠加训练后的第二模型的收敛情况。应当理解,计算机设备可以获取第一验证文本数据以及第二验证文本数据。基于叠加训练后的第二模型,该计算机设备可以预测第一验证文本数据以及第二验证数据的匹配度,并将预测得到的匹配度作为第一验证文本数据与第二验证文本数据的预测匹配结果。进一步地,计算机设备可以获取与第一验证文本数据以及第二验证文本数据相关联的实际匹配结果。基于预测匹配结果以及实际匹配结果,计算机设备可以确定叠加训练后的第二模型的损失值。在损失值小于损失函数阈值时,计算机设备可以将叠加训练后的第二模型确定为满足模型收敛条件的目标模型。
其中,该步骤S201-步骤S205的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S105的描述,这里将不再赘述。
S206,响应于用户终端发送的业务请求,获取目标样本对中的第一目标文本数据以及第二目标文本数据。
具体地,用户终端可以响应用户终端对应的用户的触发操作,从而可以向计算机设备发送一个业务请求。该业务请求中可以携带第一目标文本数据。其中,该触发操作可以包含点击或者长按等接触性操作,也可以包含语音或者手势等非接触性操作,这里将不对其进行限定。基于该业务请求,计算机设备可以从与计算机设备相关联的数据库中,获取与第一目标文本数据对应的候选文本数据。其中,本申请实施例可以将与第一目标文本数据对应的候选文本称之为第二目标文本数据。
S207,调用目标模型,对第一目标文本数据以及第二目标文本数据进行匹配,得到第一目标文本数据与第二目标文本数据的匹配度。
具体地,计算机设备可以调用上述目标模型,将第一目标文本数据以及第二目标文本数据输入至目标模型中进行匹配,以得到目标模型所输出的第一目标文本数据与第二目标文本数据的匹配度。
S208,将匹配度对应的匹配结果返回至用户终端。
具体地,计算机设备可以将匹配度对应的匹配结果返回给用户终端。其中,匹配结果可以为第一目标文本数据与第二目标文本数据的匹配概率,匹配结果还可以为匹配度指示第一目标文本数据与第二目标文本数据相似时,将数据库中所存储的与第二目标文本数据相关联的文本数据。
为便于理解,进一步地,请参见图9,是本申请实施例提供的一种应用目标模型的场景示意图。本申请实施例中的计算机设备可以为具有文本匹配功能的服务器800,服务器800可以为上述图1所示的服务器10。如图9所示,本申请实施例中的用户终端810可以为上述图1所示的用户终端集群中的任意一个用户终端(例如,用户终端100a)。本申请实施例中的数据库可以为与该服务器800具有网络连接关系的数据库。该数据库中所存储的文本数据可以包括问题文本数据和答案文本数据。其中,本申请实施例中的服务器800可以以问答机器人所对应的服务器为例,用以阐述在问答场景中服务器800的文本匹配过程。
应当理解,用户终端810可以响应该用户终端810对应的用户的触发操作,从而可以向该服务器800发送业务请求,该业务请求中可以携带问题文本数据a。其中,该触发操作可以包含点击或者长按等接触性操作,也可以包含语音或者手势等非接触性操作,这里将不对其进行限定。
其中,在娱乐场景下,该问题文本数据a可以为娱乐应用(例如,游戏A)中的玩家用户所提出的与游戏相关联的问题文本。例如,“具备速度属性的xx装备可以提升多少速度?”。同理,在其他应用场景(例如,学习场景)下,该问题文本数据a也可以为学习应用中的学习用户所提出的与专业知识相关的问题文本。例如,“加速度的概念是什么?”。以此类推,在支付场景下,该问题文本数据a还可以为支付应用(例如,微信或者QQ)中的消费用户所提出的与商品有关的问题文本。例如,“女装在商场的哪一层?”。可选的,在重复率查询场景下,该问题文本数据a还可以为重复率查询应用中的查询用户所录入的待查询文本,例如,“论文XX”。这里不对其进行限定。
进一步地,该服务器800在接收到问题文本数据a后,可以从数据库中获取与问题文本数据a的领域标签相同的至少一个候选文本数据(例如,问题文本数据b)。此时,该服务器800可以调用融入关键词的目标模型(图2所示的模型20d),对问题文本数据a以及问题文本数据b进行文本匹配,从而可以快速得到问题文本数据a以及问题文本数据b之间的匹配度。
在匹配度大于匹配度阈值(例如,95%)时,服务器800可以确定出问题文本数据a以及问题文本数据b具有相似性。进一步地,该服务器800可以将该问题文本数据b对应的答案文本数据(例如,答案文本XXX)作为该问题文本数据a的答案文本数据,并将该答案文本数据作为匹配度对应的匹配结果,以返回给该用户终端810。
在匹配度小于或者等于匹配度阈值(例如,95%)时,服务器800可以确定出问题文本数据a以及问题文本数据b不具有相似性,则可以理解为问题文本数据a为一个新问题,该数据库中暂无问题文本数据a对应的答案文本数据。进一步地,该服务器800可以生成一个提示信息,例如,“您所搜索的问题暂无答案”。并将提示信息作为匹配度对应的匹配结果,以返回给该用户终端810。
由此可见,本申请实施例在通过将关键词融合到对文本匹配模型(即前述第一模型和第二模型)的模型训练过程中,可以快速捕捉到第一文本数据中的领域关键词(即上述第一分词所包含的关键词)和第二文本数据中的领域关键词(即上述第二分词中所包含的关键词),以提升文本匹配模型对具有较高相似度的第一文本数据与第二文本数据之间的分辨能力,进而可以快速且准确的得到用于对目标样本对的匹配度进行预测的目标模型,即可以提高文本匹配模型的训练效率。这样,在采用目标模型进行文本匹配时,可以有效地提高文本匹配的准确度。此外,在调用目标模型对目标样本对中的第一目标文本数据以及第二目标文本数据进行匹配时,可以快速且准确的确定第一目标文本数据以及第二目标文本数据的匹配度,并将匹配度对应的匹配结果快速返回给用户终端。
进一步地,请参见图10,是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置为一个应用软件;该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以运行于具有文本匹配功能的计算机设备,该计算机设备可以为上述图2所对应实施例中的服务器200。该数据处理装置1可以包括:第一确定模块10,第二确定模块20,预训练模块30,叠加训练模块40,第三确定模块50,获取模块60,调用模块70以及返回模块80。
该第一确定模块10,用于基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征;第一分类特征包含与关键词不存在关联关系的文本词的特征;第二分类特征包含与关键词存在关联关系的文本词的特征;文本词包含第一分词、第二分词以及由第一分词与第二分词所构成的组合词。
其中,第一确定模块10包括:第一获取单元101,第二获取单元102,第一确定单元103,划分单元104,第二确定单元105,选取单元106以及添加单元107。
该第一获取单元101,用于获取第一文本数据的第一分词以及第二文本数据的第二分词。
其中,第一获取单元101包括:第一获取子单元1011,第二获取子单元1012,第一确定子单元1013以及第二确定子单元1014。
该第一获取子单元1011,用于获取第一文本数据,对第一文本数据进行预分词处理,得到第一文本数据对应的第一分词集合;
该第二获取子单元1012,用于获取第二文本数据,对第二文本数据进行预分词处理,得到第二文本数据对应的第二分词集合;
该第一确定子单元1013,用于确定第一分词集合中的每个分词进行组合后所得到的组合字符串的第一条件概率值,将具有最大第一条件概率值的第一分词集合中的分词作为第一文本数据的第一分词;
该第二确定子单元1014,用于确定第二分词集合中的每个分词进行组合后所得到的组合字符串的第二条件概率值,将具有最大第二条件概率值的第二分词集合中的分词作为第二文本数据的第二分词。
其中,该第一获取子单元1011,第二获取子单元1012,第一确定子单元1013以及第二确定子单元1014的具体实现方式可以参见上述图3所对应实施例中对分词的描述,这里将不再继续进行赘述。
该第二获取单元102,用于获取由第一分词所构成的第一自相关词对应的组合特征信息,获取由第二分词所构成的第二自相关词对应的组合特征信息,获取由第一分词和第二分词所构成的互相关词对应的组合特征信息。
其中,第二获取单元102包括:第三获取子单元1021,第一组合子单元1022,第二组合子单元1023以及第三组合子单元1024。
该第三获取子单元1021,用于获取与第一模型相关联的特征组合值K;特征组合值K用于表征对第一分词和第二分词分别进行特征组合时的总分词数量,K=2;
该第一组合子单元1022,用于将第一分词中的分词进行两两组合,在第一文本数据中将两两组合后的组合词作为第一自相关词,确定第一自相关词对应的组合特征信息;
该第二组合子单元1023,用于将第二分词中的分词进行两两组合,在第二文本数据中将两两组合后的组合词作为第二自相关词,确定第二自相关词对应的组合特征信息;
该第三组合子单元1024,用于将第一分词中的分词与第二分词中的分词进行两两组合,在第一文本数据以及第二文本数据中,将两两组合后的组合词作为互相关词,确定互相关词对应的组合特征信息。
其中,该第三获取子单元1021,第一组合子单元1022,第二组合子单元1023以及第三组合子单元1024的具体实现方式可以参见上述图3所对应实施例中对组合特征信息的描述,这里将不再继续进行赘述。
该第一确定单元103,用于将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息以及互相关词对应的组合特征信息,作为待处理特征信息;
其中,第一确定单元103包括:第一设置子单元1031,第二设置子单元1032,第三确定子单元1033以及第四确定子单元1034。
该第一设置子单元1031,用于将在互相关词中识别到的与第一自相关词具有相同内容且具有不同来源的互相关词,确定为第一互相关词,为第一互相关词设置第一标识,且将具有第一标识的第一互相关词对应的组合特征信息确定为第一互相关特征信息;
该第二设置子单元1032,用于将在互相关词中识别到的与第二自相关词具有相同内容且具有不同来源的互相关词,确定为第二互相关词,为第二互相关词设置第二标识,且将具有第二标识的第二互相关词对应的组合特征信息确定为第二互相关特征信息;
该第三确定子单元1033,用于在互相关词中,将除第一互相关词以及第二互相关词之外的互相关词确定为第三互相关词,将第三互相关词对应的组合特征信息确定为第三互相关特征信息;
该第四确定子单元1034,用于将第一自相关词对应的组合特征信息、第二自相关词对应的组合特征信息、第一互相关特征信息、第二互相关特征信息以及第三互相关特征信息,作为待处理特征信息。
其中,该第一设置子单元1031,第二设置子单元1032,第三确定子单元1033以及第四确定子单元1034的具体实现方式可以参见上述图3所对应实施例中对待处理特征信息的描述,这里将不再继续进行赘述。
该划分单元104,用于基于与第一模型相关联的关键词,将待处理特征信息划分为与关键词不存在关联关系的第一分类特征,以及与关联词存在关联关系的第二分类特征。
其中,第一文本数据和第二文本数据所属的领域均为目标领域;目标领域对应的初始词典是由第一文本数据对应的第一分词和第二文本数据对应的第二分词所确定的;
该第二确定单元105,用于确定第二分词中的每个分词在第二文本数据所属的目标领域中的贡献度;
该选取单元106,用于从第二分词中筛选贡献度满足关键词筛选条件的第二分词,将筛选出的第二分词确定为领域关键词;
该添加单元107,用于用领域关键词,更新初始词典,将更新后的初始词典作为目标词典添加至第一模型,得到与第一模型相关联的关键词。
其中,该第一获取单元101,第二获取单元102,第一确定单元103,划分单元104,第二确定单元105,选取单元106以及添加单元107的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
该第二确定模块20,用于确定第一分类特征对应的第一词向量以及第二分类特征对应的第二词向量;
该预训练模块30,用于对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型。
其中,第一模型包含平均池化层、全连接层以及分类层;
该预训练模块30包括:第一变更单元301,第三确定单元302,融合单元303,输入单元304以及预训练单元305。
该第一变更单元301,用于对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值;
该第三确定单元302,用于将第一固定值和第二词向量中的值作为第一模型的第一模型参数;
该融合单元303,用于将具有第一固定值的第一词向量和第二词向量输入至第一模型参数对应的平均池化层中进行融合,将融合得到的融合向量输入至全连接层,由全连接层输出融合向量对应的待分类向量;
该输入单元304,用于将待分类向量输入至分类层,得到第一文本数据与第二文本数据对应的训练结果;
该预训练单元305,用于若训练结果指示第一模型参数不满足第一模型的模型收敛条件时,将第一模型参数对应的第一模型,作为第二模型。
其中,该第一变更单元301,第三确定单元302,融合单元303,输入单元304以及预训练单元305的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述,这里将不再继续进行赘述。
该叠加训练模块40,用于对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练。
其中,叠加训练模块40包括:筛选单元401,配置单元402,第二变更单元403以及叠加训练单元404。
该筛选单元401,用于从第二词向量对应的文本词中筛选包含关键词的互相关词,将筛选出的包含关键词的互相关词确定为待处理组合词;
该配置单元402,用于将待处理组合词的词向量作为待处理词向量,为待处理词向量配置权重参数;
其中,该配置单元403包括:第五确定子单元4031,编码子单元4032以及第六确定子单元4033。
该第五确定子单元4031,用于将待处理组合词中的第一分词确定为第一目标分词,将待处理组合词中的第二分词确定为第二目标分词;
该编码子单元4032,用于基于第一目标分词以及第二目标分词的来源,对第一目标分词进行向量编码得到第一目标词向量,对第二目标分词进行向量编码得到第二目标词向量;
该第六确定子单元4033,用于将待处理组合词的词向量作为待处理词向量,基于第一目标词向量以及第二目标词向量,为待处理词向量配置权重参数。
其中,该第五确定子单元4031,编码子单元4032以及第六确定子单元4033的具体实现方式可以参见上述图3所对应实施例中对所获取的权重参数的描述,这里将不再继续进行赘述。
该第二变更单元403,用于用权重参数与待处理词向量之间的乘积,对待处理词向量中的值进行变更处理,将变更处理后的待处理词向量中的值作为第二固定值;
该叠加训练单元404,用于将第一固定值和第二固定值作为第二模型的模型参数,基于第二模型的模型参数,对第二模型进行叠加训练。
其中,该筛选单元401,配置单元402,第二变更单元403以及叠加训练单元404的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再继续进行赘述。
该第三确定模块50,用于在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
其中,第三确定模块50包括:第三获取单元501,预测单元502,第四获取单元503,第四确定单元504以及第五确定单元505。
该第三获取单元501,用于获取第一验证文本数据以及第二验证文本数据;
该预测单元502,用于基于叠加训练后的第二模型,预测第一验证文本数据以及第二验证数据的匹配度,将预测得到的匹配度作为第一验证文本数据与第二验证文本数据的预测匹配结果;
该第四获取单元503,用于获取与第一验证文本数据以及第二验证文本数据相关联的实际匹配结果;
该第四确定单元504,用于基于预测匹配结果以及实际匹配结果,确定叠加训练后的第二模型的损失值;
该第五确定单元505,用于在损失值小于损失函数阈值时,将叠加训练后的第二模型确定为满足模型收敛条件的目标模型。
其中,该第三获取单元501,预测单元502,第四获取单元503,第四确定单元504以及第五确定单元505的具体实现方式可以参见上述图3所对应实施例中对步骤S105的描述,这里将不再继续进行赘述。
该获取模块60,用于响应于用户终端发送的业务请求,获取目标样本对中的第一目标文本数据以及第二目标文本数据;第一目标文本数据为用户终端所发送的文本数据;第二目标文本数据为第一目标文本数据对应的候选文本数据;
该调用模块70,用于调用目标模型,对第一目标文本数据以及第二目标文本数据进行匹配,得到第一目标文本数据与第二目标文本数据的匹配度;
该返回模块80,用于将匹配度对应的匹配结果返回至用户终端。
其中,该第一确定模块10,第二确定模块20,预训练模块30,叠加训练模块40,第三确定模块50,获取模块60,调用模块70以及返回模块80的具体实现方式可以参见上述图8所对应实施例中对步骤S201-步骤S208的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图11,是本申请实施例提供的一种计算机设备的示意图。如图11所示,该计算机设备1000可以为上述图2对应实施例中的服务器200,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的计算机设备1000中,网络接口1004主要用于与用户终端进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与第一模型相关联的第一分类特征和第二分类特征;第一分类特征包含与关键词不存在关联关系的文本词的特征;第二分类特征包含与关键词存在关联关系的文本词的特征;文本词包含第一分词、第二分词以及由第一分词与第二分词所构成的组合词;
确定第一分类特征对应的第一词向量以及第二分类特征对应的第二词向量;
对第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于第一固定值和第二词向量中的值对第一模型进行预训练,得到第二模型;
对第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于第一固定值和第二固定值,对第二模型进行叠加训练;
在检测到叠加训练后的第二模型满足模型收敛条件时,将叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图8所对应实施例中对该数据处理方法的描述,也可执行前文图10所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3或者图8所对应实施例中对该数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与所述第一模型相关联的第一分类特征和第二分类特征;所述第一分类特征包含与所述关键词不存在关联关系的文本词的特征;所述第二分类特征包含与所述关键词存在关联关系的文本词的特征;所述文本词包含所述第一分词、所述第二分词以及由所述第一分词与所述第二分词所构成的组合词;所述组合词包括由所述第一分词所构成的第一自相关词、由所述第二分词所构成的第二自相关词以及由所述第一分词和所述第二分词所构成的互相关词;
确定所述第一分类特征对应的第一词向量以及所述第二分类特征对应的第二词向量;
对所述第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于所述第一固定值和所述第二词向量中的值对所述第一模型进行预训练,得到第二模型;
对所述第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于所述第一固定值和所述第二固定值,对所述第二模型进行叠加训练;
在检测到叠加训练后的第二模型满足模型收敛条件时,将所述叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与所述第一模型相关联的第一分类特征和第二分类特征,包括:
获取第一文本数据的第一分词以及第二文本数据的第二分词;
获取由所述第一分词所构成的第一自相关词对应的组合特征信息,获取由所述第二分词所构成的第二自相关词对应的组合特征信息,获取由所述第一分词和所述第二分词所构成的互相关词对应的组合特征信息;
将所述第一自相关词对应的组合特征信息、所述第二自相关词对应的组合特征信息以及所述互相关词对应的组合特征信息,作为待处理特征信息;
基于与所述第一模型相关联的关键词,将所述待处理特征信息划分为与所述关键词不存在关联关系的第一分类特征,以及与所述关键词存在关联关系的第二分类特征。
3.根据权利要求2所述的方法,其特征在于,所述获取第一文本数据的第一分词以及第二文本数据的第二分词,包括:
获取第一文本数据,对所述第一文本数据进行预分词处理,得到所述第一文本数据对应的第一分词集合;
获取第二文本数据,对所述第二文本数据进行预分词处理,得到所述第二文本数据对应的第二分词集合;
确定所述第一分词集合中的每个分词进行组合后所得到的组合字符串的第一条件概率值,将具有最大第一条件概率值的第一分词集合中的分词作为所述第一文本数据的第一分词;
确定所述第二分词集合中的每个分词进行组合后所得到的组合字符串的第二条件概率值,将具有最大第二条件概率值的第二分词集合中的分词作为所述第二文本数据的第二分词。
4.根据权利要求2所述的方法,其特征在于,所述获取由所述第一分词所构成的第一自相关词对应的组合特征信息,获取由所述第二分词所构成的第二自相关词对应的组合特征信息,获取由所述第一分词和所述第二分词所构成的互相关词对应的组合特征信息,包括:
获取与所述第一模型相关联的特征组合值K;所述特征组合值K用于表征对所述第一分词和所述第二分词分别进行特征组合时的总分词数量,所述K=2;
将所述第一分词中的分词进行两两组合,在所述第一文本数据中将两两组合后的组合词作为第一自相关词,确定所述第一自相关词对应的组合特征信息;
将所述第二分词中的分词进行两两组合,在所述第二文本数据中将两两组合后的组合词作为第二自相关词,确定所述第二自相关词对应的组合特征信息;
将所述第一分词中的分词与所述第二分词中的分词进行两两组合,在所述第一文本数据以及所述第二文本数据中,将两两组合后的组合词作为互相关词,确定所述互相关词对应的组合特征信息。
5.根据权利要求2所述的方法,其特征在于,所述将所述第一自相关词对应的组合特征信息、所述第二自相关词对应的组合特征信息以及所述互相关词对应的组合特征信息,作为待处理特征信息,包括:
将在所述互相关词中识别到的与所述第一自相关词具有相同内容且具有不同来源的互相关词,确定为第一互相关词,为所述第一互相关词设置第一标识,且将具有所述第一标识的第一互相关词对应的组合特征信息确定为第一互相关特征信息;
将在所述互相关词中识别到的与所述第二自相关词具有相同内容且具有不同来源的互相关词,确定为第二互相关词,为所述第二互相关词设置第二标识,且将具有所述第二标识的第二互相关词对应的组合特征信息确定为第二互相关特征信息;
在所述互相关词中,将除所述第一互相关词以及所述第二互相关词之外的互相关词确定为第三互相关词,将所述第三互相关词对应的组合特征信息确定为第三互相关特征信息;
将所述第一自相关词对应的组合特征信息、所述第二自相关词对应的组合特征信息、所述第一互相关特征信息、所述第二互相关特征信息以及所述第三互相关特征信息,作为待处理特征信息。
6.根据权利要求2所述的方法,其特征在于,所述第一文本数据和所述第二文本数据所属的领域均为目标领域;所述目标领域对应的初始词典是由所述第二文本数据对应的第二分词所确定的;
所述方法还包括:
确定所述第二分词在所述第二文本数据所属的目标领域中的贡献度;
从所述第二分词中筛选贡献度满足关键词筛选条件的第二分词,将筛选出的第二分词确定为领域关键词;
用所述领域关键词,更新所述初始词典,将更新后的初始词典作为目标词典添加至所述第一模型,得到与所述第一模型相关联的关键词。
7.根据权利要求1所述的方法,其特征在于,所述第一模型包含平均池化层、全连接层以及分类层;
所述对所述第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于所述第一固定值和所述第二词向量中的值对所述第一模型进行预训练,得到第二模型,包括:
对所述第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值;
将所述第一固定值和所述第二词向量中的值作为所述第一模型的第一模型参数;
将具有所述第一固定值的第一词向量和所述第二词向量输入至所述第一模型参数对应的平均池化层中进行融合,将融合得到的融合向量输入至所述全连接层,由所述全连接层输出所述融合向量对应的待分类向量;
将所述待分类向量输入至所述分类层,得到所述第一文本数据与所述第二文本数据对应的训练结果;
若所述训练结果指示所述第一模型参数不满足所述第一模型的模型收敛条件时,将所述第一模型参数对应的第一模型,作为第二模型。
8.根据权利要求2所述方法,其特征在于,所述对所述第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于所述第一固定值和所述第二固定值,对所述第二模型进行叠加训练,包括:
从所述第二词向量对应的文本词中筛选包含所述关键词的互相关词,将筛选出的包含所述关键词的互相关词确定为待处理组合词;
将所述待处理组合词的词向量作为待处理词向量,为所述待处理词向量配置权重参数;
用所述权重参数与所述待处理词向量之间的乘积,对所述待处理词向量中的值进行变更处理,将变更处理后的待处理词向量中的值作为第二固定值;
将所述第一固定值和所述第二固定值作为所述第二模型的第二模型参数,基于所述第二模型的模型参数,对所述第二模型进行叠加训练。
9.根据权利要求8所述的方法,其特征在于,所述将所述待处理组合词的词向量作为待处理词向量,为所述待处理词向量配置权重参数,包括:
将所述待处理组合词中的第一分词确定为第一目标分词,将所述待处理组合词中的第二分词确定为第二目标分词;
对所述第一目标分词进行向量编码得到第一目标词向量,对所述第二目标分词进行向量编码得到第二目标词向量;
将所述待处理组合词的词向量作为待处理词向量,基于所述第一目标词向量以及所述第二目标词向量,为所述待处理词向量配置权重参数。
10.根据权利要求1所述的方法,其特征在于,所述在检测到叠加训练后的第二模型满足模型收敛条件时,将所述叠加训练后的第二模型确定为目标模型,包括:
获取第一验证文本数据以及第二验证文本数据;
基于叠加训练后的第二模型,预测所述第一验证文本数据以及所述第二验证文本数据的匹配度,将预测得到的匹配度作为所述第一验证文本数据与所述第二验证文本数据的预测匹配结果;
获取与所述第一验证文本数据以及所述第二验证文本数据相关联的实际匹配结果;
基于所述预测匹配结果以及所述实际匹配结果,确定所述叠加训练后的第二模型的损失值;
在所述损失值小于损失函数阈值时,将所述叠加训练后的第二模型确定为满足模型收敛条件的目标模型。
11.根据权利要求1所述的方法,其特征在于,还包括:
响应于用户终端发送的业务请求,获取目标样本对中的第一目标文本数据以及第二目标文本数据;所述第一目标文本数据为所述用户终端所发送的文本数据;所述第二目标文本数据为所述第一目标文本数据对应的候选文本数据;
调用目标模型,对所述第一目标文本数据以及所述第二目标文本数据进行匹配,得到所述第一目标文本数据与所述第二目标文本数据的匹配度;
将所述匹配度对应的匹配结果返回至所述用户终端。
12.一种数据处理装置,其特征在于,包括:
第一确定模块,用于基于第一文本数据的第一分词、第二文本数据的第二分词以及与第一模型相关联的关键词,确定与所述第一模型相关联的第一分类特征和第二分类特征;所述第一分类特征包含与所述关键词不存在关联关系的文本词的特征;所述第二分类特征包含与所述关键词存在关联关系的文本词的特征;所述文本词包含所述第一分词、所述第二分词以及由所述第一分词与所述第二分词所构成的组合词;所述组合词包括由所述第一分词所构成的第一自相关词、由所述第二分词所构成的第二自相关词以及由所述第一分词和所述第二分词所构成的互相关词;
第二确定模块,用于确定所述第一分类特征对应的第一词向量以及所述第二分类特征对应的第二词向量;
预训练模块,用于对所述第一词向量中的值进行变更处理,将变更处理后的第一词向量中的值作为第一固定值,基于所述第一固定值和所述第二词向量中的值对所述第一模型进行预训练,得到第二模型;
叠加训练模块,用于对所述第二词向量中的值进行变更处理,将变更处理后的第二词向量中的值作为第二固定值,基于所述第一固定值和所述第二固定值,对所述第二模型进行叠加训练;
第三确定模块,用于在检测到叠加训练后的第二模型满足模型收敛条件时,将所述叠加训练后的第二模型确定为用于对目标样本对的匹配度进行预测的目标模型。
13.一种计算机设备,其特征在于,包括:处理器、存储器、网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-11任一项所述的方法。
CN202010237278.6A 2020-03-30 2020-03-30 一种数据处理方法、装置、计算机设备及存储介质 Active CN111460783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010237278.6A CN111460783B (zh) 2020-03-30 2020-03-30 一种数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010237278.6A CN111460783B (zh) 2020-03-30 2020-03-30 一种数据处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111460783A CN111460783A (zh) 2020-07-28
CN111460783B true CN111460783B (zh) 2021-07-27

Family

ID=71680226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010237278.6A Active CN111460783B (zh) 2020-03-30 2020-03-30 一种数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111460783B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347231B (zh) * 2020-11-17 2024-09-03 广联达科技股份有限公司 建筑清单匹配模型的构建方法、匹配方法及装置
CN113392104B (zh) * 2021-05-19 2021-12-28 江苏星月测绘科技股份有限公司 一种基于cim的海量数据分析方法及系统
CN113762589A (zh) * 2021-07-16 2021-12-07 国家电网有限公司 一种输变电工程变更预测系统及方法
CN117312534B (zh) * 2023-11-28 2024-02-23 南京中孚信息技术有限公司 一种基于保密知识库的智能问答实现方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN110532393A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
WO2020020287A1 (zh) * 2018-07-25 2020-01-30 中兴通讯股份有限公司 一种获取文本相似度的方法、装置、设备及可读存储介质
CN110796160A (zh) * 2019-09-16 2020-02-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
WO2020020287A1 (zh) * 2018-07-25 2020-01-30 中兴通讯股份有限公司 一种获取文本相似度的方法、装置、设备及可读存储介质
CN110532393A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
CN110796160A (zh) * 2019-09-16 2020-02-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Short Text Similarity with Word Embeddings;Tom Kenter et al.;《CIKM’15》;20151023;第1-10页 *
结合预训练模型和语言知识库的文本匹配方法;周烨恒 等;《中文信息学报》;20200228;第34卷(第2期);第63-72页 *

Also Published As

Publication number Publication date
CN111460783A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN111460783B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN111159409A (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN114417865A (zh) 灾害事件的描述文本处理方法、装置、设备及存储介质
CN115455171A (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN117874234A (zh) 基于语义的文本分类方法、装置、计算机设备及存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN113886535B (zh) 基于知识图谱的问答方法、装置、存储介质及电子设备
CN114357203B (zh) 多媒体检索方法、装置及计算机设备
CN114676701B (zh) 文本向量的处理方法、装置、介质以及电子设备
CN113434649A (zh) 基于政策faq数据库的问题匹配方法、装置、设备及介质
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
CN113704462A (zh) 文本处理方法、装置、计算机设备及存储介质
CN114817697A (zh) 标签信息的确定方法、装置、电子设备以及存储介质
CN118230224B (zh) 标签打分方法、标签打分模型训练方法和装置
CN117725153B (zh) 文本匹配方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025830

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant