CN114969316B - 一种文本数据处理方法、装置、设备以及介质 - Google Patents
一种文本数据处理方法、装置、设备以及介质 Download PDFInfo
- Publication number
- CN114969316B CN114969316B CN202110205983.2A CN202110205983A CN114969316B CN 114969316 B CN114969316 B CN 114969316B CN 202110205983 A CN202110205983 A CN 202110205983A CN 114969316 B CN114969316 B CN 114969316B
- Authority
- CN
- China
- Prior art keywords
- vector
- target
- sample
- text data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 777
- 238000000034 method Methods 0.000 claims abstract description 84
- 230000011218 segmentation Effects 0.000 claims description 125
- 238000012545 processing Methods 0.000 claims description 84
- 238000012549 training Methods 0.000 claims description 56
- 230000007704 transition Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 34
- 238000013507 mapping Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 238000013210 evaluation model Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 10
- 230000010365 information processing Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 230000000875 corresponding effect Effects 0.000 description 255
- 230000008569 process Effects 0.000 description 32
- 238000010606 normalization Methods 0.000 description 28
- 230000008451 emotion Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000000605 extraction Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000013585 weight reducing agent Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本数据处理方法、装置、设备以及介质,该方法涉及人工智能领域,方法包括:获取待推送信息流的目标文本数据,通过第一网络模型确定编码特征向量;获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定规则特征向量;获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定相关特征向量;将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签。采用本申请,可以提高分类标签识别的准确性,进而提高信息优化的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本数据处理方法、装置、设备以及介质。
背景技术
现有的低俗识别任务通常是直接使用任务数据集对预训练模型进行微调(fine-tuning),以得到对文本数据进行低俗识别的低俗文本分类模型。但是,当任务数据集中的样本数量不足,或者低俗文本分类模型对新鲜样本的适应能力(即低俗文本分类模型的泛化能力)不足时,难以确保对文本数据进行低俗识别的准确性。
基于此,当采用现有的低俗文本分类模型对某个携带低俗文本的目标文本数据(例如,视频D的文本数据)进行误识别之后,则会将该携带低俗文本的目标文本数据(例如,视频D的文本数据)所对应的视频D误添加至内容数据库。这样,当后台服务器向某个用户推送信息流时,会无差别地将从内容数据库拿到的多个视频或者图文等构建成信息流,以直接将其推送给该用户对应的用户终端,以至于存在将前述携带低俗文本的视频D推送至用户终端的现象,这意味着现有的信息流的推送方式,难以实现对当前推送的信息流的信息优化。
发明内容
本申请实施例提供一种文本数据处理方法、装置、设备以及介质,可以提高分类标签识别的准确性,进而提高信息优化的准确度。
本申请实施例一方面提供了一种文本数据处理方法,包括:
获取待推送信息流的目标文本数据,通过第一网络模型确定目标文本数据对应的编码特征向量;第一网络模型属于与目标文本数据相关联的目标推荐模型;目标推荐模型包括不同于第一网络模型的第二网络模型和第三网络模型;
获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定目标文本数据对应的规则特征向量;
获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定目标文本数据对应的相关特征向量;
将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标文本数据的目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签;目标分类标签用于对待推送信息流进行信息处理。
本申请实施例一方面提供了一种文本数据处理装置,包括:
第一输出模块,用于获取待推送信息流的目标文本数据,通过第一网络模型确定目标文本数据对应的编码特征向量;第一网络模型属于与目标文本数据相关联的目标推荐模型;目标推荐模型包括不同于第一网络模型的第二网络模型和第三网络模型;
第二输出模块,用于获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定目标文本数据对应的规则特征向量;
第三输出模块,用于获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定目标文本数据对应的相关特征向量;
标签确定模块,用于将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标文本数据的目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签;目标分类标签用于对待推送信息流进行信息处理。
其中,第一输出模块包括:
文本获取单元,用于基于从内容数据库中获取到的多媒体数据,生成用于下发给用户的待推送信息流,从待推送信息流中获取目标多媒体数据对应的目标文本数据;目标多媒体数据属于获取到的多媒体数据;
分词转换单元,用于对目标文本数据进行分词处理,得到目标文本数据的文本分词,将文本分词进行分词转换,得到文本分词对应的分词向量;
位置编码单元,用于在目标文本数据中确定文本分词的文本位置,对文本位置进行位置编码,得到文本位置对应的位置向量;
向量融合单元,用于确定文本分词对应的分割向量,将分词向量、位置向量和分割向量进行特征融合,得到文本分词的待编码文本向量;
编码处理单元,用于将待编码文本向量输入至目标推荐模型中的第一网络模型,由第一网络模型对待编码文本向量进行编码处理,得到文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,确定目标文本数据对应的编码特征向量。
其中,第一网络模型包括目标编码单元;目标编码单元包括多头注意力层、第一标准化层、前馈网络层和第二标准化层;
编码处理单元包括:
第一提取子单元,用于在目标推荐模型的第一网络模型中,将待编码文本向量输入至多头注意力层,由多头注意力层对待编码文本向量进行特征提取,得到与待编码文本向量相关联的第一隐藏向量;
第一处理子单元,用于将待编码文本向量和第一隐藏向量输入至第一标准化层,由第一标准化层对待编码文本向量和第一隐藏向量进行残差处理,得到第一残差向量,将第一残差向量进行标准化处理,得到待编码文本向量对应的第一标准化向量;
第二提取子单元,用于将第一标准化向量输入至前馈网络层,由前馈网络层对第一标准化向量进行特征提取,得到第一标准化向量对应的第二隐藏向量;
第二处理子单元,用于将第一标准化向量和第二隐藏向量输入至第二标准化层,由第二标准化层对第一标准化向量和第二隐藏向量进行残差处理,得到第二残差向量,将第二残差向量进行标准化处理,得到待编码文本向量对应的第二标准化向量,基于第二标准化向量得到文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,确定目标文本数据对应的编码特征向量。
其中,多头注意力层包括目标自注意力层、目标自注意力层对应的第一全连接层、向量拼接层、第二全连接层;向量拼接层用于将由多头注意力层中的每个自注意力层所输出的特征向量进行向量拼接;一个自注意力层对应一个第一全连接层;
第一提取子单元包括:
目标获取子单元,用于在目标推荐模型的第一网络模型中,从多头注意力层所具备的多个自注意力层中获取目标自注意力层;
第一确定子单元,用于基于待编码文本向量和目标自注意力层对应的第一全连接层,确定与待编码文本向量相关联的第一输入参数、第二输入参数和第三输入参数;
第二确定子单元,用于将第一输入参数、第二输入参数和第三输入参数输入至目标自注意力层,由目标自注意力层对第一输入参数、第二输入参数和第三输入参数进行特征处理,得到目标自注意力层对应的输出特征向量;
第三确定子单元,用于当多头注意力层中的每个自注意力层均被作为目标自注意力层时,得到每个自注意力层对应的输出特征向量,通过向量拼接层将每个自注意力层对应的输出特征向量进行向量拼接,得到与待编码文本向量相关联的注意力拼接向量;
第四确定子单元,用于将注意力拼接向量输入至第二全连接层,由第二全连接层对注意力拼接向量进行向量特征提取,得到与待编码文本向量相关联的第一隐藏向量。
其中,第二输出模块包括:
规则匹配单元,用于获取与第二网络模型相关联的规则知识库,对目标文本数据和规则知识库中的规则类知识进行规则匹配,得到与目标文本数据相关联的规则匹配结果;
规则确定单元,用于若规则匹配结果指示规则知识库中存在与目标文本数据相匹配的规则类知识,则将与目标文本数据相匹配的规则类知识确定为目标规则类知识;
第一映射单元,用于将目标规则类知识所对应的规则字符串输入至第二网络模型,由第二网络模型对规则字符串进行向量映射,得到目标规则类知识对应的规则文本向量;
第一确定单元,用于基于规则文本向量,确定目标文本数据对应的规则特征向量。
其中,第二输出模块还包括:
第二确定单元,用于若规则匹配结果指示规则知识库中不存在与目标文本数据相匹配的规则类知识,则获取与规则知识库相关联的辅助规则向量,将辅助规则向量作为目标文本数据对应的规则特征向量。
其中,第三输出模块包括:
相关匹配单元,用于获取与第三网络模型相关联的领域知识库,对目标文本数据和领域知识库中的正相关词知识进行相关词匹配,得到与目标文本数据相关联的相关匹配结果;
相关确定单元,用于若相关匹配结果指示领域知识库中存在与目标文本数据相匹配的正相关词知识,则将与目标文本数据相匹配的正相关词知识确定为目标正相关词知识;
第二映射单元,用于将目标正相关词知识输入至第三网络模型,由第三网络模型对目标正相关词知识进行向量映射,得到目标正相关词知识对应的相关文本向量;
第三确定单元,用于基于相关文本向量,确定目标文本数据对应的相关特征向量。
其中,第三输出模块还包括:
第四确定单元,用于若相关匹配结果指示领域知识库中不存在与目标文本数据相匹配的正相关词知识,则获取与领域知识库相关联的辅助相关向量,将辅助相关向量作为目标文本数据对应的相关特征向量。
其中,装置还包括:
第一处理模块,用于若目标分类标签属于第一分类标签,则在待推送信息流中,对目标文本数据所对应的目标多媒体数据进行删除处理;
第二处理模块,用于若目标分类标签属于第二分类标签,则在待推送信息流中,将目标文本数据所对应的目标多媒体数据作为用于生成信息推送流的目标推送数据。
本申请实施例一方面提供了一种文本数据处理方法,包括:
获取用于训练初始推荐模型的样本文本数据和样本文本数据的样本分类标签,通过第一样本模型确定样本文本数据对应的样本特征向量;第一样本模型属于与样本文本数据相关联的初始推荐模型;初始推荐模型包括不同于第一样本模型的第二样本模型和第三样本模型;
获取与第二样本模型相关联的规则知识库,基于样本文本数据和规则知识库中的规则类知识,确定样本文本数据对应的样本规则向量;
获取与第三样本模型相关联的领域知识库,基于样本文本数据和领域知识库中的正相关词知识,确定样本文本数据对应的样本相关向量;
基于样本特征向量、样本规则向量、样本相关向量、样本分类标签和初始推荐模型的分类器,对初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型。
本申请实施例一方面提供了一种文本数据处理装置,包括:
第一确定模块,用于获取用于训练初始推荐模型的样本文本数据和样本文本数据的样本分类标签,通过第一样本模型确定样本文本数据对应的样本特征向量;第一样本模型属于与样本文本数据相关联的初始推荐模型;初始推荐模型包括不同于第一样本模型的第二样本模型和第三样本模型;
第二确定模块,用于获取与第二样本模型相关联的规则知识库,基于样本文本数据和规则知识库中的规则类知识,确定样本文本数据对应的样本规则向量;
第三确定模块,用于获取与第三样本模型相关联的领域知识库,基于样本文本数据和领域知识库中的正相关词知识,确定样本文本数据对应的样本相关向量;
模型训练模块,用于基于样本特征向量、样本规则向量、样本相关向量、样本分类标签和初始推荐模型的分类器,对初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型。
其中,模型训练模块包括:
向量拼接单元,用于将样本特征向量、样本规则向量以及样本相关向量进行向量拼接,得到样本文本数据的样本拼接向量,将样本拼接向量输入至初始推荐模型的分类器,由分类器输出样本文本数据所属的预测分类标签;
损失确定单元,用于基于预测分类标签和样本分类标签,确定初始推荐模型的模型损失函数;
参数调整单元,用于当初始推荐模型的模型损失函数不满足模型收敛条件时,基于不满足模型收敛条件的模型损失函数,对初始推荐模型的模型参数进行调整;
迭代训练单元,用于将调整模型参数后的初始推荐模型确定为过渡推荐模型,对过渡推荐模型进行迭代训练,直到迭代训练后的过渡推荐模型的模型损失函数满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标推荐模型。
其中,装置还包括:
目标确定模块,用于基于候选词生成规则对样本文本数据进行候选词提取,得到样本文本数据对应的候选词列表,从候选词列表中获取待输入至属性评估模型的目标候选词;
结果确定模块,用于通过属性评估模型对目标候选词进行属性评估,得到目标候选词的属性评估结果,且对目标候选词进行候选词审核,得到目标候选词的候选词审核结果;
第一添加模块,用于若属性评估结果指示目标候选词满足候选词生成规则中的评估条件,且候选词审核结果指示目标候选词满足候选词生成规则中的审核条件,则在候选词列表中将目标候选词确定为第一正相关词知识,将第一正相关词知识添加至与第三样本模型相关联的领域知识库。
其中,装置还包括:
第二添加模块,用于基于候选词生成规则获取独立于候选词列表的辅助文本数据表,将辅助文本数据表中的辅助文本确定为第二正相关词知识,将第二正相关词知识添加至领域知识库,将领域知识库中的第一正相关词知识和第二正相关词知识均作为领域知识库中的正相关词知识。
其中,目标确定模块包括:
分词处理单元,用于基于候选词生成规则对样本文本数据进行分词处理,得到样本文本数据的样本分词,基于样本分词组合策略对样本分词进行分词组合,得到与样本文本数据相关联的初始候选词;
频次统计单元,用于统计初始候选词在样本文本数据中的出现频次,将出现频次满足频次阈值的初始候选词确定为过渡候选词,确定过渡候选词与样本分类标签之间的互信息量,将互信息量满足候选词生成规则中的互信息阈值的过渡候选词作为待筛选候选词;
数量筛选单元,用于基于待筛选候选词中的样本分词的分词数量,从待筛选候选词中筛选分词数量满足数量阈值的待筛选候选词;
列表生成单元,用于基于筛选出的待筛选候选词生成样本文本数据对应的候选词列表,从候选词列表中获取待输入至属性评估模型的目标候选词。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
在本申请实施例中,计算机设备在获取到待推送信息流的目标文本数据时,可以通过第一网络模型确定目标文本数据对应的编码特征向量。其中,第一网络模型属于与目标文本数据相关联的目标推荐模型,该目标推荐模型还包括不同于第一网络模型的第二网络模型和第三网络模型。进一步地,计算机设备可以获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定目标文本数据对应的规则特征向量。进一步地,计算机设备可以获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定目标文本数据对应的相关特征向量。进一步地,计算机设备可以将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标文本数据的目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签。由此可见,本申请实施例可以通过联合训练得到的目标推荐模型,准确识别出目标文本数据的目标分类标签。比如,本申请实施例可以通过第一网络模型提取得到目标文本数据的编码特征向量,应当理解,这里的编码特征向量为该目标文本数据的语义信息向量。此外,本申请实施例还可以通过第二网络模型提取得到目标文本数据的规则特征向量,且通过第三网络模型提取得到目标文本数据的相关特征向量,应当理解,这里的规则特征向量和相关特征向量为该目标文本数据的辅助信息向量。这样,当对编码特征向量、规则特征向量和相关特征向量(即前述语义信息向量和辅助信息向量)进行向量拼接后,可以通过目标推荐模型中的分类器对拼接得到的目标拼接向量进行标签识别,以准确输出目标文本数据所属的分类标签。进一步地,本申请实施例还可以根据该目标文本数据所属的分类标签是否为目标分类标签(例如,低俗文本标签),自适应地对待推送信息流进行信息处理。比如,这里的信息处理具体可以包括对低俗类文本(即前述携带低俗文本标签的目标文本数据)所对应的信息流自适应地进行不同类型的信息优化,这样,在自适应地对待推送信息流进行信息优化的过程中,还可以根据目标分类标签提高信息优化的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种进行数据交互的场景示意图;
图3是本申请实施例提供的一种文本数据处理方法的流程示意图;
图4是本申请实施例提供的一种构建待编码文本向量的场景示意图;
图5是本申请实施例提供的一种第一网络模型的结构示意图;
图6是本申请实施例提供的一种目标编码单元的结构示意图;
图7是本申请实施例提供的一种多头注意力机制的流程示意图;
图8是本申请实施例提供的一种缩放点积注意力机制的流程示意图;
图9是本申请实施例提供的一种输出规则特征向量的流程示意图;
图10是本申请实施例提供的一种文本数据处理方法的流程示意图;
图11是本申请实施例提供的一种构建领域知识库的流程示意图;
图12是本申请实施例提供的一种进行模型训练的场景示意图;
图13是本申请实施例提供的一种文本数据处理装置的结构示意图;
图14是本申请实施例提供的一种文本数据处理装置的结构示意图;
图15是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,本申请实施例提供的方案主要涉及人工智能的自然语言处理(NatureLanguage Processing,简称NLP)技术与机器学习(Machine Learning,简称ML)技术。
其中,自然语言处理(Nature Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体的,请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括业务服务器2000和用户终端集群。其中,用户终端集群具体可以包括一个或者多个用户终端,这里将不对用户终端集群中的用户终端的数量进行限定。如图1所示,多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n;用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接,以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。
其中,业务服务器2000可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
应当理解,如图1所示的用户终端集群中的每个用户终端均可以集成安装有应用客户端,当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中,该应用客户端可以理解为一种能够加载并显示文本数据的应用,例如,这里的应用客户端具体可以包括:车载客户端、智能家居客户端、娱乐客户端、多媒体客户端、社交客户端以及资讯类客户端(例如,新闻客户端)等。其中,为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、笔记本电脑、智能电视、车载设备等具有视频加载功能的智能终端。例如,本申请实施例可以将图1所示的用户终端3000a作为目标用户终端。
可以理解的是,上述网络框架可以适用于文本分析任务。这里的文本分析主要是指计算机设备(例如,上述业务服务器2000)可以通过相应的文本数据处理方法,对文本数据(例如,文本数据W1和文本数据W2)的语义信息进行语义识别的过程。例如,这里的语义识别可以包括:低俗识别场景和情感分析场景等,这里将不对具体的业务场景进行一一列举。
比如,在低俗识别场景下,文本数据W1可以为当前待推送的信息流(简称待推送信息流)中的多媒体数据D1(例如,视频、图文等)的文本数据,计算机设备(例如,上述业务服务器2000)在将人工知识(例如,规则类知识和正相关词知识)融入目标推荐模型时,可以准确地对文本数据W1进行文本分析,以得到文本数据W1的目标分类标签,进而可以基于目标分类标签对文本数据W1所属的多媒体数据D1进行信息优化,以实现对该多媒体数据D1所属的待推送信息流进行信息处理。比如,计算机设备可以在文本数据W1的目标分类标签为第一分类标签(例如,该第一分类标签为低俗文本标签)时,确定文本数据W1所属的多媒体数据D1(即目标多媒体数据)携带低俗文本标签,进而可以在该多媒体数据D1所属的待推送信息流中删除该多媒体数据D1(即目标多媒体数据)。可选的,可以理解的是,计算机设备还可以在文本数据W1的目标分类标签为第二分类标签(例如,该第二分类标签为非低俗文本标签)时,确定文本数据W1所属的多媒体数据D1(即目标多媒体数据)携带非低俗文本标签,进而可以在该多媒体数据D1所属的待推送信息流中保留该多媒体数据D1(即目标多媒体数据)。
又比如,在情感分析场景下,文本数据W2可以为当前待推送信息流(例如,当前播放的音视频所对应的待推送弹幕流)中的多媒体数据D2(即弹幕数据)的文本数据,计算机设备(例如,上述业务服务器2000)在将人工知识(例如,规则类知识和正相关词知识)融入目标推荐模型时,可以准确地对文本数据W2进行文本分析,以得到文本数据W2的目标分类标签(这里的目标分类标签可以为与情感分析相关联的情感标签),进而可以基于目标分类标签确定文本数据W2所属的弹幕数据的标识。此时,目标分类标签可以用于表达情感倾向性,例如,喜、怒、哀、乐等。应当理解,本申请实施例可以将这些用于表达情感倾向性的情感标签划分为情感消极性(即负向情感标签)和情感积极性(即正向情感标签)。可以理解的是,计算机设备可以在文本数据W2的目标分类标签为正向情感标签时,确定文本数据W2所属的多媒体数据D2(即弹幕数据)携带正向情感标签,进而可以在该多媒体数据D2所属的待推送信息流(即前述待推送弹幕流)中,为该正向情感标签所属的多媒体数据D2(即目标多媒体数据)添加正向标识。可选的,计算机设备还可以在文本数据W2的目标情感标签为负向情感标签时,确定文本数据W2所属的多媒体数据D2携带负向情感标签,进而可以在该多媒体数据D2所属的待推送信息流(即前述待推送弹幕流)中,为该负向情感标签所属的多媒体数据D2(即目标多媒体数据)添加负向标识。应当理解,情感分析场景包括但不限于上述当前播放的音视频的待推送弹幕流中的弹幕数据的情感分析。比如,这里的情感分析场景还可以用于对观影后的音视频(例如,电影)进行电影影评分析等。
可以理解的是,本申请实施例可以应用于上述多个业务场景中的任意一个业务场景,为便于理解,在下述图2-图12所对应的实施例中,以该业务场景为低俗识别场景为例,以阐述识别目标文本数据的目标分类标签的具体过程。
应当理解,在低俗识别场景下,计算机设备(例如,上述业务服务器2000)可以对应用客户端的信息流内容(即信息推送流中的多媒体数据)中的目标文本数据进行低俗(软色情)文本识别。其中,多媒体数据可以包括多种形态,例如,图文和视频等,此时,多媒体数据的目标文本数据可以为视频标题或图文标题等标题文本信息。可选的,多媒体数据的目标文本数据还可以为视频描述或图文描述等描述文本信息。
可选的,应用客户端还可以用于在接收到业务服务器2000所推送的信息流内容的情况下,向用户展示推送的视频的封面文本数据。这意味着,在此之前,计算机设备(例如,上述业务服务器2000)从待推送信息流中所获取到的目标文本数据还可以包括前述推送的视频的封面文本数据。应当理解,计算机设备对封面文本数据进行文本分析的具体实现方式,可以参见上述对多媒体数据D1进行文本分析的具体过程的描述,这里将不再继续进行赘述。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种进行数据交互的场景示意图。其中,如图2所示的推荐服务器可以为上述图1所对应实施例中的业务服务器2000,如图2所示的用户终端Z可以为上述图1所对应实施例的用户终端集群中的任意一个用户终端,为便于理解,本申请实施例以上述图1所示的用户终端3000a作为该用户终端Z为例,以阐述推荐服务器为用户终端Z对应的目标用户推送信息推送流的具体过程。
如图2所示的内容数据库可以用于存储多媒体数据,该内容数据库中可以包括多个数据库,多个数据库具体可以包括数据库20a、数据库20b、…、数据库20n。应当理解,图2所示的多个数据库可以用于存储不同类型的多媒体数据,进而在进行多媒体数据推荐时,丰富多媒体数据的推荐类型。比如,数据库20a可以用于存储视频类的多媒体数据200a,数据库20b可以用于存储文本类的多媒体数据200b,数据库20n可以用于存储图片类的多媒体数据200c。可选的,推荐服务器也可以从同一数据库中批量性的获取相同类型的多个多媒体数据,这里将不对用于构建待推送信息流的多媒体数据的具体类型进行限定。
可以理解的是,推荐服务器可以从内容数据库中获取与目标用户相关联的一个或多个多媒体数据,进而可以基于从内容数据库中获取到的一个或多个多媒体数据,生成用于下发给目标用户的待推送信息流,例如,推荐服务器可以从数据库20a中获取多媒体数据200a、从数据库20b中获取多媒体数据200b和从数据库20n中获取多媒体数据200c,以基于获取到的多媒体数据200a、多媒体数据200b和多媒体数据200c生成待推送信息流。进一步地,推荐服务器可以从待推送信息流中获取目标多媒体数据,进而可以获取目标多媒体数据的目标文本数据。
如图2所示,推荐服务器可以在获取到目标多媒体数据的目标文本数据时,通过目标推荐模型输出目标文本数据所属的目标分类标签,这里的目标推荐模型可以包括第一网络模型、第二网络模型和第三网络模型。可以理解的是,通过对目标文本数据进行预处理,可以得到目标文本数据的文本分词的待编码文本向量,进而可以通过第一网络模型确定文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,可以确定目标文本数据对应的编码特征向量;通过对目标文本数据和规则知识库中的规则类知识进行规则匹配,可以确定目标规则类知识,进而可以基于第二网络模型和目标规则类知识,确定目标文本数据对应的规则特征向量(即与目标规则类知识相关联的规则特征向量);通过对目标文本数据和领域知识库中的正相关词知识进行相关词匹配,可以确定目标正相关词知识,进而可以基于第三网络模型和目标正相关词知识,确定目标文本数据对应的相关特征向量(即与目标正相关词知识相关联的相关特征向量)。
其中,对目标文本数据进行预处理,具体涉及对目标文本数据的文本分词的待编码文本向量进行向量确定、对目标文本数据和规则类知识进行规则匹配、以及对目标文本数据和正相关词知识进行相关词匹配。如图2所示,进一步地,推荐服务器可以对上述编码特征向量、规则特征向量、相关特征向量进行向量拼接,进而基于向量拼接得到的目标拼接向量和目标推荐模型的分类器,确定目标文本数据所属的目标分类标签。
可以理解的是,在待推送信息流中的多媒体数据200a、多媒体数据200b和多媒体数据200c均被作为目标多媒体数据时,推荐服务器可以基于多媒体数据200a、多媒体数据200b和多媒体数据200c中的文本数据所属的分类标签,对多媒体数据200a、多媒体数据200b和多媒体数据200c进行不同类型的信息优化,进而确定出满足数据推送条件的目标推送数据。
其中,目标推送数据可以为待推送信息流中携带非低俗文本标签的多媒体数据,比如,在多媒体数据200a中的文本数据的分类标签Q1属于第二分类标签(例如,非低俗文本标签)时,可以确定多媒体数据200a携带非低俗文本标签,进而可以将多媒体数据200a作为目标推送数据。又比如,在多媒体数据200b中的文本数据的分类标签Q2属于第二分类标签(例如,非低俗文本标签)时,可以确定多媒体数据200b携带非低俗文本标签,进而可以将多媒体数据200b作为目标推送数据。又比如,在多媒体数据200c中的文本数据的分类标签Q3属于第一分类标签(例如,低俗文本标签)时,可以确定多媒体数据200c携带低俗文本标签,进而可以对多媒体数据200c进行删除处理。
可以理解的是,推荐服务器可以基于待推送信息流中满足数据推送条件的目标推送数据(例如,上述多媒体数据200a和多媒体数据200b),生成用于推送至用户终端Z的信息推送流,以使用户终端Z对应的目标用户可以在用户终端Z上浏览信息推送流中的目标推送数据(例如,多媒体数据200a和多媒体数据200b)。
其中,推荐服务器确定目标文本数据的目标分类标签以及训练初始推荐模型的具体过程,可以参见下述图3-图12所对应的实施例。
进一步地,请参见图3,图3是本申请实施例提供的一种文本数据处理方法的流程示意图。该方法可以由用户终端(例如,上述图1所示的用户终端3000a)执行,也可以由业务服务器(例如,上述图1所示的业务服务器2000)执行,还可以由用户终端和业务服务器共同执行。为便于理解,本实施例以该方法由业务服务器执行为例进行说明。其中,该文本数据处理方法至少可以包括以下步骤S101-步骤S104:
步骤S101,获取待推送信息流的目标文本数据,通过第一网络模型确定目标文本数据对应的编码特征向量;
具体的,业务服务器可以基于从内容数据库中获取到的多媒体数据,生成用于下发给用户的待推送信息流,从待推送信息流中获取目标多媒体数据对应的目标文本数据。其中,目标多媒体数据属于获取到的多媒体数据。进一步地,业务服务器可以对目标文本数据进行分词处理,得到目标文本数据的文本分词,将文本分词进行分词转换,得到文本分词对应的分词向量。进一步地,业务服务器可以在目标文本数据中确定文本分词的文本位置,对文本位置进行位置编码,得到文本位置对应的位置向量。进一步地,业务服务器可以确定文本分词对应的分割向量,将分词向量、位置向量和分割向量进行特征融合,得到文本分词的待编码文本向量。进一步地,业务服务器可以将待编码文本向量输入至目标推荐模型中的第一网络模型,由第一网络模型对待编码文本向量进行编码处理,得到文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,确定目标文本数据对应的编码特征向量。其中,与目标文本数据相关联的目标推荐模型还包括不同于第一网络模型的第二网络模型和第三网络模型。
应当理解,分词处理就是将连续的字序列(即目标文本数据)按照一定的规范重新组合成词序列(即文本分词)的过程。例如,在目标文本数据为:“我和我的小伙伴”时,可以对目标文本数据进行分词处理,以得到目标文本数据的文本分词为:“我”、“和”、“我”、“的”、“小”、“伙”、“伴”。
可以理解的是,业务服务器通过词嵌入算法(例如,Word2Vec(即word tovector)、Glove等算法)可以将文本分词进行分词转换,以得到文本分词对应的分词向量;业务服务器通过位置公式可以对文本位置进行位置编码,以得到文本位置对应的位置向量。应当理解,本申请实施例对分词转换以及位置编码的具体实现方式不做限定。
可以理解的是,将分词向量(即Token Embedding)、位置向量(即PositionEmbedding)和分割向量(即Segment Embedding)进行特征融合的方式可以为向量相加的方式,还可以为加权平均的方式,本申请实施例不对特征融合的方式进行限定。可选的,业务服务器在得到文本分词对应的分词向量和文本位置对应的位置向量时,可以直接将分词向量和位置向量进行特征融合,而无需使用分割向量,以得到文本分词的待编码文本向量。
可以理解的是,第一网络模型可以为基于变压器的双向编码器表征(Bidirectional Encoder Representations from Transformers,简称BERT)模型。可选的,第一网络模型也可以为用于语言表征自监督学习的轻量级BERT模型(A Lite BERT forSelf-supervised Learning of Language Representations,简称ALBERT),第一网络模型还可以为一种鲁棒优化的BERT预训练方法(ARobustly Optimized BERT Pre-trainingApproach,简称RoBERTa),本申请实施例不对第一网络模型的具体类型进行限定。
应当理解,BERT模型为预训练模型(Pre-Training Model,简称PTM),该预训练模型凭借强大的语义信息提取能力在许多NLP任务上取得了较好的结果。其中,BERT模型是一个多任务模型,主要包括两个自监督任务,即遮蔽语言模型(Masked Language Model,简称MLM)和下句预测(Next Sentence Prediction,简称NSP)。MLM主要是指在模型训练的时候随机从输入语料上遮蔽(即Mask)一些单词,随后通过上下文预测该遮蔽的单词。其中,15%的单词(即Token)会被随机遮蔽,在被遮蔽掉的单词中,80%会被直接替换为“[Mask]”,10%会被替换为其他任意单词,10%会保留原始单词。NSP的训练语料是两句话,用于预测第二句话是否是第一句话的下一句话。
应当理解,文本分词的待编码文本向量可以为第一网络模型的输入,在文本分词的数量大于第一网络模型的输入阈值(例如,512个)时,可以对目标文本数据做截断处理,以将目标文本数据的前512个文本分词所对应的待编码文本向量作为第一网络模型的输入。可选的,本申请实施例还可以在文本分词的数量大于第一网络模型的输入阈值时,将目标文本数据划分为多段文本数据,以分别将多段文本数据的文本分词的待编码文本向量输入至第一网络模型。
为便于理解,请参见图4,图4是本申请实施例提供的一种构建待编码文本向量的场景示意图。如图4所示场景示意图可以为目标文本数据的预处理过程,BERT模型(即第一网络模型)输入的待编码文本向量是三个嵌入特征(即词嵌入向量)的和,这三个嵌入特征是:分词向量、位置向量和分割向量。
其中,分词向量中的第一个单词是CLS(即classification)标志,该标志可以用于分类任务;位置向量指将单词的位置信息编码成特征向量;分割向量中使用SEP(即separator)标志区分两个句子。比如,可以在对话、问答等场景中表示B句(即第二个句子)是否是A句(即第一个句子)的下文。
其中,为便于理解,这里以目标文本数据为“我的狗很可爱,它喜欢玩球”这一个句子为例,通过对该目标文本数据进行分词处理之后,得到的文本分词可以为:“我”、“的”、“狗”、“很”、“可”、“爱”、“,”、“它”、“喜”、“欢”、“玩”、“球”,则对文本分词添加标识符后,可以得到预处理过程的输入为:“[CLS]”、“我”、“的”、“狗”、“很”、“可”、“爱”、“,”、“它”、“喜”、“欢”、“玩”、“球”、“[SEP]”。其中,“[CLS]”和“[SEP]”可以属于文本分词。
因此,文本分词对应的分词向量可以为:“E[CLS]”、“E我”、…、“E爱”、“E,”、“E它”、…、“E球”、“E[SEP]”;文本位置对应的位置向量可以为:“E0”、“E1”、…、“E13”;文本分词对应的分割向量可以为:“EA”、“EA”、…、“EA”。应当理解,本申请实施例中的目标文本数据为单个句子,无需使用“E[SEP]”代替单个句子中的“E,”。
例如,文本分词“我”对应的分词向量为“E我”、位置向量为“E1”、分割向量为“EA”,则文本分词“我”对应的待编码文本向量可以为分词向量“E我”、位置向量“E1”和分割向量“EA”的和,则文本分词“我”对应的待编码文本向量可以为“E我+E1+EA”。
应当理解,第一网络模型可以包括目标编码单元,该目标编码单元可以包括多头注意力层、第一标准化层、前馈网络层和第二标准化层。因此,基于待编码文本向量,得到目标文本数据对应的编码特征向量的具体过程可以描述为:业务服务器可以在目标推荐模型的第一网络模型中,将待编码文本向量输入至多头注意力层,由多头注意力层对待编码文本向量进行特征提取,得到与待编码文本向量相关联的第一隐藏向量。进一步地,业务服务器可以将待编码文本向量和第一隐藏向量输入至第一标准化层,由第一标准化层对待编码文本向量和第一隐藏向量进行残差处理,得到第一残差向量,将第一残差向量进行标准化处理,得到待编码文本向量对应的第一标准化向量。进一步地,业务服务器可以将第一标准化向量输入至前馈网络层,由前馈网络层对第一标准化向量进行特征提取,得到第一标准化向量对应的第二隐藏向量。进一步地,业务服务器可以将第一标准化向量和第二隐藏向量输入至第二标准化层,由第二标准化层对第一标准化向量和第二隐藏向量进行残差处理,得到第二残差向量,将第二残差向量进行标准化处理,得到待编码文本向量对应的第二标准化向量,基于第二标准化向量得到文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,确定目标文本数据对应的编码特征向量。
应当理解,BERT模型(即第一网络模型)使用Transformer结构作为主要框架,Transformer结构可以更彻底地捕捉文本数据中的双向关系。其中,Transformer结构可以包括编码器(即Encoder Block)和解码器(即Decoder Block),BERT模型可以使用Transformer结构中的编码器作为主要框架。其中,Transformer结构中的编码器可以包括Multi-Head Attention(即多头注意力机制)、Feed Forward(即前馈神经网络)和Add&Norm(Add指Residual Connection,即残差连接,Norm指Layer Normalization,即层标准化)。
可以理解的是,Transformer结构中的编码器可以为第一网络模型中的目标编码单元。Transformer结构中的Multi-Head Attention可以对应目标编码单元中的多头注意力层,Transformer结构中的Feed Forward可以对应目标编码单元中的前馈网络层,Transformer结构中的Add&Norm的数量为两个,两个Add&Norm分别对应目标编码单元中的第一标准化层和第二标准化层。
应当理解,第一网络模型中可以包括一个或多个目标编码单元,即目标编码单元的层数可以为一层或者多层,例如,第一网络模型中可以包括12个目标编码单元,本申请实施例不对第一网络模型中的目标编码单元的数量进行限定。
为便于理解,请参见图5,图5是本申请实施例提供的一种第一网络模型的结构示意图。如图5所示,第一网络模型中可以包括目标编码单元(例如,目标编码单元5a和目标编码单元5b),目标编码单元5a和目标编码单元5b可以分别对应Transformer结构中的一个编码器,即图5所示的每个目标编码单元中的多个编码器可以对应Transformer结构中的一个编码器。
如图5所示,本申请实施例以第一网络模型中包括两层目标编码单元为例进行说明。H1、H2、…、HN可以为第一网络模型的输入,即待编码文本向量,这里的输入可以通过上述图4所示的预处理过程得到,例如,H1可以为上述图4所对应实施例中文本分词“[CLS]”对应的待编码文本向量,H2可以为上述图4所对应实施例中文本分词“我”对应的待编码文本向量,…,HN可以为上述图4所对应实施例中文本分词“[SEP]”对应的待编码文本向量。
如图5所示,T1、T2、…、TN可以为第一网络模型的输出,即编码文本向量,将待编码文本向量H1、待编码文本向量H2、…、待编码文本向量HN输入至第一网络模型,由第一网络模型可以输出编码文本向量T1、编码文本向量T2、…、编码文本向量TN。其中,待编码文本向量H1对应的编码文本向量可以为编码文本向量T1,待编码文本向量H2对应的编码文本向量可以为编码文本向量T2,…,待编码文本向量HN对应的编码文本向量可以为编码文本向量TN。
其中,可以理解的是,编码文本向量T1、编码文本向量T2、…、编码文本向量TN均取决于第一网络模型的输入,例如,编码文本向量T1取决于待编码文本向量H1对待编码文本向量H2、…、待编码文本向量HN的计算。其中,待编码文本向量为文本分词的原始向量表示,编码文本向量为文本分词融合了目标文本数据的语义信息后的增强向量表示。
可以理解的是,将待编码文本向量H1、待编码文本向量H2、…、待编码文本向量HN输入至第一网络模型中的目标编码单元5b,由目标编码单元5b可以输出编码文本向量P1、编码文本向量P2、…、编码文本向量PN。其中,待编码文本向量H1对应的编码文本向量可以为编码文本向量P1,待编码文本向量H2对应的编码文本向量可以为编码文本向量P2,…,待编码文本向量HN对应的编码文本向量可以为编码文本向量PN。进一步地,将编码文本向量P1、编码文本向量P2、…、编码文本向量PN输入至第一网络模型中的目标编码单元5a,由目标编码单元5a可以输出编码文本向量T1、编码文本向量T2、…、编码文本向量TN。编码文本向量T1、编码文本向量T2、…、编码文本向量TN可以统称为编码文本向量50,基于图5所示的编码文本向量50,可以确定目标文本数据对应的编码特征向量。
应当理解,第一网络模型中的每个目标编码单元的输出可以统称为编码文本向量。这样,编码文本向量T1和编码文本向量P1可以统称为待编码文本向量H1对应的编码文本向量,编码文本向量T2和编码文本向量P2可以统称为待编码文本向量H2对应的编码文本向量,…,编码文本向量TN和编码文本向量PN可以统称为待编码文本向量HN对应的编码文本向量。
应当理解,目标编码单元中的第一标准化层和第二标准化层具有相同的结构,这里的第一标准化层或第二标准化层可以包括两个部分:残差连接和层标准化。其中,残差连接对较深层的神经网络有比较好的作用,可以减少信息在传播过程中的衰减;层标准化可以防止在某些层中由于位置过大或过小导致数值过大或过小,将分布归一化后,对应的梯度增大,可以减弱梯度消失,进而可以加快收敛速度。
应当理解,目标编码单元中的前馈网络层可以为前馈神经网络,该前馈神经网络由两个全连接层(即dense层)组成:FFN(x)=W2 max(0,W1x+b1)+b2,这里的两个全连接层可以为第一连接层和第二连接层,这里的W1和W2可以分别为第一连接层和第二连接层上每个神经元对应的权重(即连接系数),这里的b1和b2可以为偏置项。其中,在第一连接层上使用ReLU函数作为激活函数,第二连接层上不使用激活函数,ReLU函数可以表示为:f(x)=max(0,x),该ReLU函数可以加快梯度下降法的收敛速度。
应当理解,目标编码单元中的多头注意力层由平行的自注意力层组成,自注意力层的个数即为头(head)的个数,对于S个头(即自注意力层)中的任意一个头(即自注意力层)而言,在将数据输入至自注意力层之前,首先将queries(即q),keys(即k),values(即v)通过dense层(即通过第一全连接层进行线程变换),最后将S个头(即自注意力层)的输出(即连接起来(即[o(1),...,o(s)])输入dense层(即通过第二全连接层进行线程变换):o=wo[o(1),...,o(s)]。其中,这里的queries,keys,values可以为第一网络模型输入的待编码文本向量,/>可以为queries对应的权重矩阵,/>可以为keys对应的权重矩阵,/>可以为values对应的权重矩阵,[o(1),...,o(s)]可以为沿Y轴(即纵轴)方向进行向量拼接(即以列向量的形式进行拼接)所得到的向量(即下述注意力拼接向量)。
为便于理解,请参见图6,图6是本申请实施例提供的一种目标编码单元的结构示意图。如图6所示为目标编码单元60的结构示意图,该目标编码单元60可以为上述图5所对应实施例中的目标编码单元5a或目标编码单元5b,图6所示的输入向量可以为文本分词的待编码文本向量,输出向量可以为文本分词对应的编码文本向量。
如图6所示,将目标编码单元60的输入向量(即待编码文本向量)输入至多头注意力机制(即多头注意力层),由多头注意力层可以输出与待编码文本向量相关联的第一隐藏向量。进一步地,将第一隐藏向量和待编码文本向量输入至残差连接&层标准化(即第一标准化层),由第一标准化层可以输出待编码文本向量对应的第一标准化向量。进一步地,将第一标准化向量输入至前馈神经网络(即前馈网络层),由前馈网络层可以输出第一标准化向量对应的第二隐藏向量。进一步地,将第二隐藏向量和第一标准化向量输入至残差连接&层标准化(即第二标准化层),由第二标准化层可以输出待编码文本向量对应的第二标准化向量。
可以理解的是,第二标准化向量可以为文本分词对应的编码文本向量,则目标编码单元60的输出向量可以为第二标准化向量。基于文本分词对应的编码文本向量,可以确定目标文本数据对应的编码特征向量,可选的,目标编码单元60的输出向量还可以理解为目标文本数据对应的编码特征向量。
应当理解,多头注意力层包括目标自注意力层、目标自注意力层对应的第一全连接层、向量拼接层、第二全连接层,该向量拼接层可以用于将由多头注意力层中的每个自注意力层所输出的特征向量进行向量拼接。其中,一个自注意力层对应一个第一全连接层。因此,基于待编码文本向量,得到与待编码文本向量相关联的第一隐藏向量的具体过程可以描述为:业务服务器可以在目标推荐模型的第一网络模型中,从多头注意力层所具备的多个自注意力层中获取目标自注意力层。进一步地,业务服务器可以基于待编码文本向量和目标自注意力层对应的第一全连接层,确定与待编码文本向量相关联的第一输入参数、第二输入参数和第三输入参数。进一步地,业务服务器可以将第一输入参数、第二输入参数和第三输入参数输入至目标自注意力层,由目标自注意力层对第一输入参数、第二输入参数和第三输入参数进行特征处理,得到目标自注意力层对应的输出特征向量。进一步地,业务服务器可以当多头注意力层中的每个自注意力层均被作为目标自注意力层时,得到每个自注意力层对应的输出特征向量,通过向量拼接层将每个自注意力层对应的输出特征向量进行向量拼接,得到与待编码文本向量相关联的注意力拼接向量。进一步地,业务服务器可以将注意力拼接向量输入至第二全连接层,由第二全连接层对注意力拼接向量进行向量特征提取,得到与待编码文本向量相关联的第一隐藏向量。
可以理解的是,多头注意力层中可以包括多个自注意力层(例如,S个自注意力层),在不同的自注意力层对应的第一全连接层中使用权重矩阵对待编码文本向量进行线性变换,可以实现多个自注意力层的并行计算,以使不同的自注意力层可以形成多个子空间,进而捕获不同的子空间信息。
为便于理解,请参见图7,图7是本申请实施例提供的一种多头注意力机制的流程示意图。如图7所示为目标编码单元中的多头注意力层的处理流程,该多头注意力层可以包括S个自注意力层和S个第一全连接层,S个自注意力层中的每个自注意力层分别对应一个第一全连接层,从S个自注意力层中可以获取目标自注意力层。
如图7所示,将v、k和q(即待编码文本向量)输入至目标自注意力层对应的第一全连接层,由目标自注意力层对应的第一全连接层对待编码文本向量进行线性变换,可以输出与待编码文本向量相关联的第一输入参数、第二输入参数和第三输入参数。其中,待编码文本向量v、待编码文本向量k和待编码文本向量q可以是相同的,第一全连接层可以输出待编码文本向量v对应的第一输入参数(例如,),第一全连接层可以输出待编码文本向量k对应的第二输入参数(例如,/>),第一全连接层可以输出待编码文本向量q对应的第三输入参数(例如,/>)。
其中,业务服务器可以将待编码文本向量v、待编码文本向量k和待编码文本向量q输入目标自注意力层对应的一个第一全连接层,以对待编码文本向量v、待编码文本向量k和待编码文本向量q进行相同的线性变换。可选的,目标自注意力层对应的一个第一全连接层中可以包括:第一全连接层L1、第一全连接层L2和第一全连接层L3,以通过第一全连接层L1对待编码文本向量v进行线性变换、通过第一全连接层L2对待编码文本向量k进行线性变换、通过第一全连接层L3对待编码文本向量q进行线性变化,应当理解,这里的第一全连接层L1、第一全连接层L2和第一全连接层L3可以统称为目标自注意力层对应的一个第一全连接层。
进一步地,业务服务器可以将第一输入参数、第二输入参数和第三输入参数输入至目标自注意力层,由目标自注意力层输出目标自注意力层对应的输出特征向量(例如,o(i))。进一步地,业务服务器可以将获取到的S个自注意力层中的每个自注意力层对应的输出特征向量输入至向量拼接层,由向量拼接层输出待编码文本向量对应的注意力拼接向量(例如,[o(1),...,o(s)])。进一步地,业务服务器可以将注意力拼接向量输入至第二全连接层,由第二全连接层对注意力拼接向量进行线性变换,输出待编码文本向量对应的第一隐藏向量(例如,o=wo[o(1),...,o(s)])。
为便于理解,请参见图8,图8是本申请实施例提供的一种缩放点积注意力机制的流程示意图。如图8所示为多头注意力层中的多个自注意力层中的一个自注意力层的处理流程,该自注意力层可以为目标自注意力层。输入特征向量Q可以为上述第三输入参数(例如,Qi)、输入特征向量K可以为上述第二输入参数(例如,Ki)、输入特征向量V可以为上述第一输入参数(例如,Vi),输出特征向量可以表示为:即输出特征向量可以为:/>可以理解的是,输入特征向量Q还可以称之为查询向量,输入特征向量K还可以称之为键向量,输入特征向量V还可以称之为值向量。
如图8所示,将第二输入参数K和第三输入参数Q进行矩阵相乘,可以得到QKT,QKT可以表示在编码某个文本分词的过程中有多重视目标文本数据的其它部分。进一步地,对QKT进行缩放可以得到该缩放操作可以使梯度更稳定,其中,dk可以为键向量的维度。进一步地,可以对文本分词进行遮蔽操作,该遮蔽操作可以为上述BERT模型的遮蔽操作,应当理解,该遮蔽操作是可选执行的。进一步地,将/>输入归一化指数函数,可以得到/>归一化指数函数输出的softmax分数可以决定目标文本数据中每个文本分词对编码某个文本分词的贡献。最后,将归一化指数函数的输出与第一输入参数V进行矩阵相乘,可以得到/>即目标自注意力层对应的输出特征向量。
可以理解的是,目标自注意力层的编码过程可以理解为在编码某个文本分词时,将所有文本分词的表示(值向量)进行加权求和,这里的权重是通过该文本分词的表示(键向量)与被编码词的表示(查询向量)的点积并通过softmax得到。
步骤S102,获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定目标文本数据对应的规则特征向量;
具体的,业务服务器可以获取与第二网络模型相关联的规则知识库,对目标文本数据和规则知识库中的规则类知识进行规则匹配,得到与目标文本数据相关联的规则匹配结果。进一步地,若规则匹配结果指示规则知识库中存在与目标文本数据相匹配的规则类知识,则业务服务器可以将与目标文本数据相匹配的规则类知识确定为目标规则类知识。进一步地,业务服务器可以将目标规则类知识所对应的规则字符串输入至第二网络模型,由第二网络模型对规则字符串进行向量映射,得到目标规则类知识对应的规则文本向量。进一步地,业务服务器可以基于规则文本向量,确定目标文本数据对应的规则特征向量。
其中,规则类知识可以为系统早期积累的正则表达式,该规则类知识是基于领域知识构建的一些较强的特征,具有很强的可解释性。其中,正则表达式描述了一种字符串匹配的模式。
可选的,若规则匹配结果指示规则知识库中不存在与目标文本数据相匹配的规则类知识,则业务服务器可以获取与规则知识库相关联的辅助规则向量,将辅助规则向量作为目标文本数据对应的规则特征向量。
可以理解的是,目标文本数据可以与多条规则类知识相匹配,即目标文本数据可以被多条规则类知识命中。应当理解,目标规则类知识的数量可以为零个、一个或多个,本申请实施例不对规则匹配得到的目标规则类知识的数量进行限定。
可以理解的是,业务服务器可以基于多个规则文本向量中的每个规则文本向量,确定目标文本数据对应的规则特征向量,例如,业务服务器可以对多个规则文本向量进行平均处理,以得到规则特征向量。可选的,业务服务器确定规则特征向量的方式还可以包括但不限于序列建模模型,例如,这里的序列建模模型可以为长短期记忆网络(Long Short-Term Memory,简称LSTM),还可以为Transformer模型。
可选的,业务服务器可以在对目标文本数据和规则类知识进行规则匹配之前,将规则知识库中的规则类知识所对应的规则字符串进行向量映射(即嵌入映射),得到每个规则类知识对应的规则文本向量,以将规则知识库中的全部规则类知识对应的规则文本向量存储至规则向量库。这样,业务服务器在规则知识库中确定与目标文本数据相匹配的目标规则类知识时,可以直接从规则向量库中获取目标规则类知识所对应的规则文本向量。
为便于理解,请参见图9,图9是本申请实施例提供的一种输出规则特征向量的流程示意图。如图9所示,规则知识库中可以包括G个规则类知识,这里的G可以为正整数,G个规则类知识具体可以包括:规则1、规则2、规则3、…、规则G,业务服务器可以对目标文本数据和规则1、规则2、规则3、…、规则G进行规则匹配。若在规则1、规则2、规则3、…、规则G中,与目标文本数据相匹配的规则类知识为规则2和规则3,则可以将规则2和规则3确定为目标规则类知识,这里的规则2可以为目标规则类知识90a,这里的规则3可以为目标规则类知识90b。
可以理解的是,业务服务器可以将目标规则类知识90a和目标规则类知识90b输入第二网络模型,由第二网络模型对目标规则类知识90a和目标规则类知识90b所对应的规则字符串进行向量映射,以得到目标规则类知识90a对应的规则文本向量9a和目标规则类知识90b对应的规则文本向量9b。进一步地,业务服务器可以对规则文本向量9a和规则文本向量9b进行平均处理,将平均处理得到的向量确定为目标文本数据对应的规则特征向量。
步骤S103,获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定目标文本数据对应的相关特征向量;
具体的,业务服务器可以获取与第三网络模型相关联的领域知识库,对目标文本数据和领域知识库中的正相关词知识进行相关词匹配,得到与目标文本数据相关联的相关匹配结果。进一步地,若相关匹配结果指示领域知识库中存在与目标文本数据相匹配的正相关词知识,则业务服务器可以将与目标文本数据相匹配的正相关词知识确定为目标正相关词知识。进一步地,业务服务器可以将目标正相关词知识输入至第三网络模型,由第三网络模型对目标正相关词知识进行向量映射,得到目标正相关词知识对应的相关文本向量。进一步地,业务服务器可以基于相关文本向量,确定目标文本数据对应的相关特征向量。
其中,正相关词知识是在训练集上提取到的,应当理解,无论是上述规则类知识,还是正相关词知识,都是基于领域知识构建的一些较强的特征,具有很强的可解释性。该正相关词知识对重度低俗文本的识别尤为重要。
可选的,若相关匹配结果指示领域知识库中不存在与目标文本数据相匹配的正相关词知识,则业务服务器可以获取与领域知识库相关联的辅助相关向量,将辅助相关向量作为目标文本数据对应的相关特征向量。
可以理解的是,目标文本数据可以与多条正相关词知识相匹配,即目标文本数据可以被多条正相关词知识命中。应当理解,目标正相关词知识的数量可以为零个、一个或多个,本申请实施例不对相关词匹配得到的目标正相关词知识的数量进行限定。
可以理解的是,业务服务器可以基于多个相关文本向量中的每个相关文本向量,确定目标文本数据对应的相关特征向量,例如,业务服务器可以对多个相关文本向量进行平均处理,以得到相关特征向量。可选的,业务服务器确定相关特征向量的方式还可以包括但不限于序列建模模型,例如,这里的序列建模模型可以为长短期记忆网络(Long Short-Term Memory,简称LSTM),还可以为Transformer模型。
可选的,业务服务器可以在对目标文本数据和正相关词知识进行相关词匹配之前,将领域知识库中的正相关词知识进行向量映射(即嵌入映射),得到每个正相关词知识对应的相关文本向量,以将领域知识库中的全部正相关词知识对应的相关文本向量存储至领域向量库。这样,业务服务器在领域知识库中确定与目标文本数据相匹配的目标正相关词知识时,可以直接从领域向量库中获取目标正相关词知识所对应的相关文本向量。
应当理解,业务服务器输出目标文本数据对应的相关特征向量的具体过程,可以参见上述图9所对应实施例中对输出目标文本数据对应的规则特征向量的描述,本申请在此不进行赘述。
步骤S104,将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标文本数据的目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签。
其中,目标分类标签用于对待推送信息流进行信息处理。
应当理解,目标分类标签可以用于对待推送信息流中的目标多媒体数据进行不同类型的信息优化。若目标分类标签属于第一分类标签(例如,低俗文本标签),则业务服务器可以在待推送信息流中,对目标文本数据所对应的目标多媒体数据进行删除处理。可选的,若目标分类标签属于第二分类标签(例如,非低俗文本标签),则业务服务器可以在待推送信息流中,将目标文本数据所对应的目标多媒体数据作为用于生成信息推送流的目标推送数据。
可以理解的是,在将目标拼接向量输入至目标推荐模型的分类器时,由目标推荐模型的分类器可以输出目标文本数据属于分类标签的概率(即目标文本数据对应的概率值),进而可以基于该概率值确定目标文本数据所属的目标分类标签,这里的分类标签可以包括第一分类标签(例如,低俗文本标签)和第二分类标签(例如,非低俗文本标签)。例如,在概率值满足概率阈值时,将第一分类标签确定为目标文本数据所属的目标分类标签,在概率值不满足概率阈值时,将第二分类标签确定为目标文本数据所属的目标分类标签。
可选的,可以理解的是,在第一分类标签为低俗文本标签(例如,低俗文本标签可以为“是”)、第二分类标签为非低俗文本标签(例如,非低俗文本标签可以为“否”)时,基于目标文本数据对应的概率值,可以确定目标文本数据为低俗类文本(即携带低俗文本标签的目标文本数据)或者非低俗类文本(即携带非低俗文本标签的目标文本数据)的可能性。在目标文本数据为低俗类文本的可能性较高(即非低俗类文本的可能性较低)时,业务服务器可以在待推送信息流中,对目标文本数据所对应的目标多媒体数据进行降权处理。其中,这里的降权可以理解为降低目标文本数据所对应的目标多媒体数据在信息推送流中的顺序(例如,将目标多媒体数据调整至信息推送流中靠后的位置),这里的降权还可以理解为减少目标文本数据所对应的目标多媒体数据在不同用户的信息推送流中的推送量(例如,将目标多媒体数据推送给10个用户中的5个用户)。
本申请实施例可以通过联合训练得到的目标推荐模型,准确识别出目标文本数据的目标分类标签。比如,本申请实施例可以通过第一网络模型提取得到目标文本数据的编码特征向量,应当理解,这里的编码特征向量为该目标文本数据的语义信息向量。此外,本申请实施例还可以通过第二网络模型提取得到目标文本数据的规则特征向量,且通过第三网络模型提取得到目标文本数据的相关特征向量,应当理解,这里的规则特征向量和相关特征向量为该目标文本数据的辅助信息向量。这样,当对编码特征向量、规则特征向量和相关特征向量(即前述语义信息向量和辅助信息向量)进行向量拼接后,可以通过目标推荐模型中的分类器对拼接得到的目标拼接向量进行标签识别,以准确输出目标文本数据所属的分类标签。进一步地,本申请实施例还可以根据该目标文本数据所属的分类标签是否为目标分类标签(例如,低俗文本标签),自适应地对待推送信息流进行信息处理。比如,这里的信息处理具体可以包括对低俗类文本(即前述携带低俗文本标签的目标文本数据)所对应的信息流自适应地进行不同类型的信息优化,这样,在自适应地对待推送信息流进行信息优化的过程中,还可以根据目标分类标签提高信息优化的准确度。
进一步地,请参见图10,图10是本申请实施例提供的一种文本数据处理方法的流程示意图。该方法可以由用户终端(例如,上述图1所示的用户终端3000a)执行,也可以由业务服务器(例如,上述图1所示的业务服务器2000)执行,还可以由用户终端和业务服务器共同执行。为便于理解,本实施例以该方法由业务服务器执行为例进行说明。其中,该文本数据处理方法可以包括以下步骤:
步骤S201、获取用于训练初始推荐模型的样本文本数据和样本文本数据的样本分类标签,基于候选词生成规则对样本文本数据进行候选词提取,得到样本文本数据对应的候选词列表,从候选词列表中获取待输入至属性评估模型的目标候选词;
具体的,业务服务器可以获取用于训练初始推荐模型的样本文本数据和样本文本数据的样本分类标签,基于候选词生成规则对样本文本数据进行分词处理,得到样本文本数据的样本分词,基于样本分词组合策略对样本分词进行分词组合,得到与样本文本数据相关联的初始候选词。进一步地,业务服务器可以统计初始候选词在样本文本数据中的出现频次,将出现频次满足频次阈值的初始候选词确定为过渡候选词,确定过渡候选词与样本分类标签之间的互信息量,将互信息量满足候选词生成规则中的互信息阈值的过渡候选词作为待筛选候选词。进一步地,业务服务器可以基于待筛选候选词中的样本分词的分词数量,从待筛选候选词中筛选分词数量满足数量阈值的待筛选候选词。进一步地,业务服务器可以基于筛选出的待筛选候选词生成样本文本数据对应的候选词列表,从候选词列表中获取待输入至属性评估模型的目标候选词。
可以理解的是,样本分词组合策略可以根据样本分词在样本文本数据中的位置,对一个或多个样本分词进行分词组合,在组合后得到的初始候选词中的样本分词的数量为两个及两个以上时,样本分词在初始候选词中的顺序与在样本文本数据中的顺序是相同的。
应当理解,业务服务器可以使用N-Gram模型确定与样本文本数据相关联的初始候选词,N-Gram模型可以将样本文本数据中的内容按照字节进行大小为N的滑动窗口操作,形成长度是N的字节片段序列,第N个词(即字节、样本分词)的出现只与前面N-1个词(即字节、样本分词)相关。其中,每一个字节片段称为gram(即初始候选词)。
应当理解,正相关词知识具有两个主要特征:第一是在目标任务(即样本文本数据)中出现频率高;第二是具有较高的互信息(Mutual Information,简称MI)。因此,本申请实施例可以将满足上述第一个特征的初始候选词确定为过渡候选词,进而可以将满足上述第二个特征的过渡候选词确定为待筛选候选词。
其中,可以理解的是,互信息(即低俗互信息)是衡量随机变量之间互相依赖程度的度量,假设存在一个随机变量X和一个随机变量Y,随机变量X和随机变量Y之间的互信息量(即互信息的计算结果)为:I(X;Y)=H(X)-H(X|Y)。其中,H(X)是X的信息熵,H(X|Y)是已知Y的情况下,X带来的信息熵。
可以理解的是,在已知存在两个随机事件X和随机事件Y时,随机事件X带来的不确定性为H(X),如果随机事件X和随机事件Y之间存在关联,当已知随机事件Y时,随机事件X带来的不确定性会发生变化,这个变化值就是随机事件X和随机事件Y之间的互信息量,即随机事件X的信息熵减去已知随机事件Y时,随机事件X的条件熵。其中,随机事件X可以表示过渡候选词,随机事件Y可以表示样本分类标签(该样本分类标签是对样本文本数据是否携带低俗文本的标注),通过计算过渡候选词与样本分类标签的互信息,可以确定过渡候选词为低俗文本标签或者非低俗文本标签的相关性,进而可以基于得到的互信息量,在过渡候选词中确定待筛选候选词。
比如,数据集中可以包括8条样本文本数据,这8条样本文本数据可以为:样本1、…、样本8。其中,样本1、…、样本4可以的标注可以为非低俗文本标签,样本5、…、样本8的标注可以为低俗文本标签,过渡候选词可以为“CC”,该过渡候选词“CC”在样本3、样本4和样本5中出现。因此,随机事件X的信息熵可以表示为: 已知随机事件Y时,随机事件X的条件熵可以表示为:H(X|Y)=∑y∈Yp(y)H(X|Y=y)=P(Y=否)H(X|Y=否)+P(Y=是)H(X|Y=是)=-(4/8)*((2/4)*log(2/4)+(2/4)*log(2/4))一(4/8)*((1/4)*log(1/4)+(3/4)*log(3/4))。
为便于理解,根据中文的特征,本申请实施例可以设置保留的最大N-Gram为4-Gram,即候选词(例如,目标候选词)中样本分词的数量可以为1个、2个、3个或者4个。例如,样本文本数据可以为“我爱中国”(假设下述生成的目标候选词属于待筛选候选词),在目标候选词中的样本分词的数量为1个时,目标候选词可以为:“我”,“爱”,“中”,“国”;在目标候选词中的样本分词的数量为2个时,目标候选词可以为:“我爱”,“爱中”,“中国”;在目标候选词中的样本分词的数量为3个时,目标候选词可以为:“我爱中”,“爱中国”;在目标候选词中的样本分词的数量为4个时,目标候选词可以为:“我爱中国”。
可选的,可以理解的是,本申请实施例可以在基于样本分词组合策略对所述样本分词进行分词组合时,确定分词组合得到的初始候选词的分词数量满足数量阈值,这样,在基于上述正相关词知识的两个主要特征确定待筛选候选词时,可以直接基于该待筛选候选词生成样本文本数据对应的候选词列表,而无需再从待筛选候选词中筛选分词数量满足数量阈值的待筛选候选词。
步骤S202、通过属性评估模型对目标候选词进行属性评估,得到目标候选词的属性评估结果,且对目标候选词进行候选词审核,得到目标候选词的候选词审核结果;
可以理解的是,属性评估模型(即低俗识别模型)可以为已经训练好的、用于对目标候选词进行属性评估(即打分)的网络模型,这里的属性评估模型可以为BERT模型,本申请实施例不对属性评估模型的具体类型进行限定。
步骤S203、若属性评估结果指示目标候选词满足候选词生成规则中的评估条件,且候选词审核结果指示目标候选词满足候选词生成规则中的审核条件,则在候选词列表中将目标候选词确定为第一正相关词知识,将第一正相关词知识添加至领域知识库;
其中,领域知识库可以用于对下述第三样本模型进行模型训练。
步骤S204、基于候选词生成规则获取独立于候选词列表的辅助文本数据表,将辅助文本数据表中的辅助文本确定为第二正相关词知识,将第二正相关词知识添加至领域知识库,将领域知识库中的第一正相关词知识和第二正相关词知识均作为领域知识库中的正相关词知识;
可以理解的是,不同的候选词可以具有相同的意思,随着互联网技术的快速发展,网络中出现了许多新词或新梗,这些新词或新梗与现有的正相关词知识可以具有相同的意思。本申请实施例可以解决新词新梗的问题,在遇到新词新梗时,可以将这些新词新梗映射到含义相近的正相关词知识,以提升新词新梗的召回能力。
为便于理解,请参见图11,图11是本申请实施例提供的一种构建领域知识库的流程示意图。如图11所示,通过候选词生成算法(即候选词生成规则)可以得到样本文本数据(该样本文本数据即为语料)对应的候选词词表(即候选词列表),候选词词表中存储的候选词可以称之为目标候选词,例如,这里的候选词词表中可以存储有:“敏感词M1”、“敏感词M2”、“敏感词M3”、“敏感词M4”、“敏感词M5”和“敏感词M6”。
如图11所示,通过属性评估模型对候选词词表中的目标候选词进行打分(即属性评估),可以得到目标候选词的属性评估结果,对目标候选进行人工审核(即候选词审核),可以得到目标候选词的候选词审核结果。进一步地,业务服务器可以将通过模型打分和人工审核的目标候选词确定为第一正相关词知识,进而将第一正相关词知识添加至低俗正相关词词表(即领域知识库)。
其中,在“敏感词M3”的属性评估结果指示“敏感词M3”不满足候选词生成规则中的评估条件时,且在“敏感词M4”的候选词审核结果指示“敏感词M4”不满足候选词生成规则中的审核条件时,将候选词词表中的“敏感词M1”、“敏感词M2”、“敏感词M5”、“敏感词M6”确定为第一正相关词知识,进而可以将第一正相关词知识添加至低俗正相关词词表。
可以理解的是,由于样本文本数据(即语料)的局限性,从样本文本数据中提取到的正相关词知识是不全面的,因此,本申请实施例还可以获取外部敏感词表(即辅助文本数据表),将外部敏感词表中的辅助文本确定为第二正相关词知识,进而可以将第二正相关词知识添加至低俗正相关词词表(即领域知识库)。如图11所示,低俗正相关词词表中的“敏感词M7”和“敏感词M8”可以为第二正相关词知识。
其中,辅助文本数据表中的辅助文本(即第二正相关词知识)与第一正相关词知识是不同的,即候选词词表与外部敏感词表是相互独立的。可选的,从外部敏感词表中获取的辅助文本可以与第一正相关词知识是相同的,这样,业务服务器可以将从辅助文本数据表中获取到的与第一正相关词知识不同的辅助文本,确定为第二正相关词知识。
步骤S205、通过第一样本模型确定样本文本数据对应的样本特征向量;
其中,第一样本模型属于与样本文本数据相关联的初始推荐模型,该初始推荐模型还包括不同于第一样本模型的第二样本模型和第三样本模型。
其中,业务服务器通过第一样本模型确定样本文本数据对应的样本特征向量的具体过程,可以参见通过第一网络模型确定目标文本数据对应的编码特征向量的具体过程,即参见上述图3所对应实施例中对步骤S101的描述,这里将不再进行赘述。
步骤S206、获取与第二样本模型相关联的规则知识库,基于样本文本数据和规则知识库中的规则类知识,确定样本文本数据对应的样本规则向量;
其中,业务服务器通过第二样本模型确定样本文本数据对应的样本规则向量的具体过程,可以参见通过第二网络模型确定目标文本数据对应的规则特征向量的具体过程,即参见上述图3所对应实施例中对步骤S102的描述,这里将不再进行赘述。
步骤S207、获取与第三样本模型相关联的领域知识库,基于样本文本数据和领域知识库中的正相关词知识,确定样本文本数据对应的样本相关向量;
其中,业务服务器通过第三样本模型确定样本文本数据对应的样本相关向量的具体过程,可以参见通过第三网络模型确定目标文本数据对应的相关特征向量的具体过程,即参见上述图3所对应实施例中对步骤S103的描述,这里将不再进行赘述。
步骤S208、基于样本特征向量、样本规则向量、样本相关向量、样本分类标签和初始推荐模型的分类器,对初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型;
具体的,业务服务器可以将样本特征向量、样本规则向量以及样本相关向量进行向量拼接,得到样本文本数据的样本拼接向量,将样本拼接向量输入至初始推荐模型的分类器,由分类器输出样本文本数据所属的预测分类标签。进一步地,业务服务器可以基于预测分类标签和样本分类标签,确定初始推荐模型的模型损失函数。进一步地,当初始推荐模型的模型损失函数不满足模型收敛条件时,业务服务器可以基于不满足模型收敛条件的模型损失函数,对初始推荐模型的模型参数进行调整。进一步地,业务服务器可以将调整模型参数后的初始推荐模型确定为过渡推荐模型,对过渡推荐模型进行迭代训练,直到迭代训练后的过渡推荐模型的模型损失函数满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标推荐模型。
可以理解的是,本申请实施例可以将人工知识(这里的人工知识可以包括人工规则和正相关词(例如,低俗正相关词),人工规则即为规则类知识,低俗正相关词即为正相关词知识)与深度模型融合,采用wide&deep的结构,deep侧利用深层模型的泛化(即Generalization)能力,wide侧利用浅层模型的记忆(即Memorization)能力,使得目标推荐模型同时具备记忆能力和泛化能力,能够快速处理并记忆大量历史行为特征,并且具有强大的表达能力。
其中,本申请实施例在deep侧采用BERT模型(BERT模型是一个泛化能力较强的预训练模型),在wide侧引入人工知识的特征向量(即规则类知识对应的规则文本向量和正相关词知识对应的相关文本向量),以对人工知识进行表征,在BERT模型的微调阶段进行端到端的联合训练。
应当理解,本申请实施例使用的模型损失函数可以为逻辑损失函数。可选的,本申请实施例使用的模型损失函数还可以为交叉熵损失函数。本申请实施例不对模型损失函数的类型进行限定。
为便于理解,请参见图12,图12是本申请实施例提供的一种进行模型训练的场景示意图。如图12所示为对初始推荐模型进行联合训练的场景示意图,该初始推荐模型可以包括图12所示的第一样本模型、第二样本模型和第三样本模型。
可以理解的是,对样本文本数据进行分词处理,可以得到样本文本数据的样本分词:“[CLS]”、“词1”、“词2”、…、“[SEP]”,将样本分词对应的分词向量、位置向量和分割向量进行特征融合,可以得到样本分词的待编码样本向量。如图12所示,将样本分词的待编码样本向量输入至第一样本模型,由第一样本模型可以输出样本分词对应的编码样本向量,进而基于该样本分词对应的编码样本向量,可以确定样本文本数据对应的样本特征向量(即CLS分类特征)。
如图12所示,对样本文本数据和规则知识库中的规则类知识进行规则匹配,可以得到与样本文本数据相匹配的样本规则类知识(假设规则知识库中存在与样本文本数据相匹配的规则类知识),这里的样本规则类知识可以包括:12a、12b、…、12g。进一步地,将样本规则类知识所对应的规则字符串输入至第二样本模型,由第二样本模型对样本规则类知识所对应的规则字符串进行向量映射,可以得到样本规则类知识对应的规则知识向量,进而可以基于该规则知识向量(例如,对规则知识向量进行平均处理),得到样本文本数据对应的样本规则向量。
如图12所示,对样本文本数据和领域知识库中的正相关词知识进行相关词匹配,可以得到与样本文本数据相匹配的样本正相关词知识(假设领域知识库中存在与样本文本数据相匹配的正相关词知识),这里的样本正相关词知识可以包括:120a、120b、…、120k。进一步地,将样本正相关词知识输入至第三样本模型,由第三样本模型对样本正相关词知识进行向量映射,可以得到样本正相关词知识对应的相关知识向量,进而可以基于该相关知识向量(例如,对相关知识向量进行平均处理),得到样本文本数据对应的样本相关向量。
可以理解的是,业务服务器可以将样本特征向量、样本规则向量以及样本相关向量进行向量拼接,基于向量拼接得到的样本拼接向量和样本文本数据的样本分类标签,确定初始推荐模型的损失函数,进而在该损失函数不满足收敛条件时,调整初始推荐模型的模型参数。
步骤S209、获取待推送信息流的目标文本数据,通过第一网络模型确定目标文本数据对应的编码特征向量;
其中,第一网络模型属于与目标文本数据相关联的目标推荐模型,该目标推荐模型还包括不同于第一网络模型的第二网络模型和第三网络模型。
可以理解的是,第一网络模型和上述第一样本模型可以统称为第一泛化模型,第一网络模型和第一样本模型属于第一泛化模型在不同时刻的名称,在训练阶段,第一泛化模型可以称之为第一样本模型,在预测阶段,第一泛化模型可以称之为第一网络模型。
步骤S210、获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定目标文本数据对应的规则特征向量;
可以理解的是,第二网络模型和上述第二样本模型可以统称为第二泛化模型,第二网络模型和第二样本模型属于第二泛化模型在不同时刻的名称,在训练阶段,第二泛化模型可以称之为第二样本模型,在预测阶段,第二泛化模型可以称之为第二网络模型。因此,与第二网络模型相关联的规则知识库和与第二样本模型相关联的规则知识库是相同的。
步骤S211、获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定目标文本数据对应的相关特征向量;
可以理解的是,第三网络模型和上述第三样本模型可以统称为第三泛化模型,第三网络模型和第三样本模型属于第三泛化模型在不同时刻的名称,在训练阶段,第三泛化模型可以称之为第三样本模型,在预测阶段,第三泛化模型可以称之为第三网络模型。因此,与第三网络模型相关联的领域知识库和与第三样本模型相关联的领域知识库是相同的。
步骤S212、将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标文本数据的目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签;
步骤S213,判断目标分类标签是否属于第一分类标签;
可以理解的是,业务服务器可以判断目标分类标签是否属于第一分类标签(例如,低俗文本标签),进而可以根据判断结果来对待推送信息流中的目标多媒体数据进行信息优化。比如,若判断为是,即若判断出目标分类标签属于第一分类标签,则可以执行下述步骤S214;可选的,若判断为否,即若判断出目标分类标签不属于第一分类标签(即目标分类标签属于第二分类标签,该第二分类标签可以为非低俗文本标签),则可以执行下述步骤S215。
步骤S214、若判断为是,则在待推送信息流中,对目标文本数据所对应的目标多媒体数据进行删除处理;
步骤S215、若判断为否,则在待推送信息流中,将目标文本数据所对应的目标多媒体数据作为用于生成信息推送流的目标推送数据。
应当理解,本申请实施例可以在信息流的推送过程中,获取待推送信息流(即由图文、视频等内容所组成的信息流)的目标文本数据,进而可以将人工知识(比如,规则类知识和正相关词知识)融入到训练好的wide&deep结构模型(即目标推荐模型),以便于能够在对目标文本数据的分类标签进行识别的过程中,在目标文本数据的语义信息所对应的编码特征向量的基础上,强化规则类知识对应的规则特征向量和正相关词知识对应的相关特征向量,进而可以提高标签识别的准确性。此外,可以理解的是,本申请实施例还可以根据该目标文本数据所属的分类标签是否为目标分类标签(比如,是否低俗识别场景下的低俗文本标签),对当前的待推送信息流进行不同类型的信息处理。比如,这里的信息处理具体可以包括对低俗类文本所对应的信息流进行过滤或者降权,以及对非低俗类文本所对应的信息流进行信息推送等,这样,可以自适应地对待推送信息流进行信息优化,进而可以提高信息优化的准确度。
进一步地,请参见图13,图13是本申请实施例提供的一种文本数据处理装置的结构示意图。其中,该文本数据处理装置1可以包括:第一输出模块11,第二输出模块12,第三输出模块13,标签确定模块14;进一步地,文本数据处理装置1还可以包括:第一处理模块15,第二处理模块16;
第一输出模块11,用于获取待推送信息流的目标文本数据,通过第一网络模型确定目标文本数据对应的编码特征向量;第一网络模型属于与目标文本数据相关联的目标推荐模型;目标推荐模型包括不同于第一网络模型的第二网络模型和第三网络模型;
其中,第一输出模块11包括:文本获取单元111,分词转换单元112,位置编码单元113,向量融合单元114,编码处理单元115;
文本获取单元111,用于基于从内容数据库中获取到的多媒体数据,生成用于下发给用户的待推送信息流,从待推送信息流中获取目标多媒体数据对应的目标文本数据;目标多媒体数据属于获取到的多媒体数据;
分词转换单元112,用于对目标文本数据进行分词处理,得到目标文本数据的文本分词,将文本分词进行分词转换,得到文本分词对应的分词向量;
位置编码单元113,用于在目标文本数据中确定文本分词的文本位置,对文本位置进行位置编码,得到文本位置对应的位置向量;
向量融合单元114,用于确定文本分词对应的分割向量,将分词向量、位置向量和分割向量进行特征融合,得到文本分词的待编码文本向量;
编码处理单元115,用于将待编码文本向量输入至目标推荐模型中的第一网络模型,由第一网络模型对待编码文本向量进行编码处理,得到文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,确定目标文本数据对应的编码特征向量。
其中,第一网络模型包括目标编码单元;目标编码单元包括多头注意力层、第一标准化层、前馈网络层和第二标准化层;
编码处理单元115包括:第一提取子单元1151,第一处理子单元1152,第二提取子单元1153,第二处理子单元1154;
第一提取子单元1151,用于在目标推荐模型的第一网络模型中,将待编码文本向量输入至多头注意力层,由多头注意力层对待编码文本向量进行特征提取,得到与待编码文本向量相关联的第一隐藏向量;
其中,多头注意力层包括目标自注意力层、目标自注意力层对应的第一全连接层、向量拼接层、第二全连接层;向量拼接层用于将由多头注意力层中的每个自注意力层所输出的特征向量进行向量拼接;一个自注意力层对应一个第一全连接层;
第一提取子单元1151包括:目标获取子单元11511,第一确定子单元11512,第二确定子单元11513,第三确定子单元11514,第四确定子单元11515;
目标获取子单元11511,用于在目标推荐模型的第一网络模型中,从多头注意力层所具备的多个自注意力层中获取目标自注意力层;
第一确定子单元11512,用于基于待编码文本向量和目标自注意力层对应的第一全连接层,确定与待编码文本向量相关联的第一输入参数、第二输入参数和第三输入参数;
第二确定子单元11513,用于将第一输入参数、第二输入参数和第三输入参数输入至目标自注意力层,由目标自注意力层对第一输入参数、第二输入参数和第三输入参数进行特征处理,得到目标自注意力层对应的输出特征向量;
第三确定子单元11514,用于当多头注意力层中的每个自注意力层均被作为目标自注意力层时,得到每个自注意力层对应的输出特征向量,通过向量拼接层将每个自注意力层对应的输出特征向量进行向量拼接,得到与待编码文本向量相关联的注意力拼接向量;
第四确定子单元11515,用于将注意力拼接向量输入至第二全连接层,由第二全连接层对注意力拼接向量进行向量特征提取,得到与待编码文本向量相关联的第一隐藏向量。
其中,目标获取子单元11511,第一确定子单元11512,第二确定子单元11513,第三确定子单元11514以及第四确定子单元11515的具体实现方式,可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再进行赘述。
第一处理子单元1152,用于将待编码文本向量和第一隐藏向量输入至第一标准化层,由第一标准化层对待编码文本向量和第一隐藏向量进行残差处理,得到第一残差向量,将第一残差向量进行标准化处理,得到待编码文本向量对应的第一标准化向量;
第二提取子单元1153,用于将第一标准化向量输入至前馈网络层,由前馈网络层对第一标准化向量进行特征提取,得到第一标准化向量对应的第二隐藏向量;
第二处理子单元1154,用于将第一标准化向量和第二隐藏向量输入至第二标准化层,由第二标准化层对第一标准化向量和第二隐藏向量进行残差处理,得到第二残差向量,将第二残差向量进行标准化处理,得到待编码文本向量对应的第二标准化向量,基于第二标准化向量得到文本分词对应的编码文本向量,基于文本分词对应的编码文本向量,确定目标文本数据对应的编码特征向量。
其中,第一提取子单元1151,第一处理子单元1152,第二提取子单元1153以及第二处理子单元1154的具体实现方式,可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再进行赘述。
其中,文本获取单元111,分词转换单元112,位置编码单元113,向量融合单元114以及编码处理单元115的具体实现方式,可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再进行赘述。
第二输出模块12,用于获取与第二网络模型相关联的规则知识库,基于目标文本数据和规则知识库中的规则类知识,确定目标文本数据对应的规则特征向量;
其中,第二输出模块12包括:规则匹配单元121,规则确定单元122,第一映射单元123,第一确定单元124;可选的,第二输出模块12可以进一步包括:第二确定单元125;
规则匹配单元121,用于获取与第二网络模型相关联的规则知识库,对目标文本数据和规则知识库中的规则类知识进行规则匹配,得到与目标文本数据相关联的规则匹配结果;
规则确定单元122,用于若规则匹配结果指示规则知识库中存在与目标文本数据相匹配的规则类知识,则将与目标文本数据相匹配的规则类知识确定为目标规则类知识;
第一映射单元123,用于将目标规则类知识所对应的规则字符串输入至第二网络模型,由第二网络模型对规则字符串进行向量映射,得到目标规则类知识对应的规则文本向量;
第一确定单元124,用于基于规则文本向量,确定目标文本数据对应的规则特征向量。
可选的,第二确定单元125,用于若规则匹配结果指示规则知识库中不存在与目标文本数据相匹配的规则类知识,则获取与规则知识库相关联的辅助规则向量,将辅助规则向量作为目标文本数据对应的规则特征向量。
其中,规则匹配单元121,规则确定单元122,第一映射单元123,第一确定单元124以及第二确定单元125的具体实现方式,可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再进行赘述。
第三输出模块13,用于获取与第三网络模型相关联的领域知识库,基于目标文本数据和领域知识库中的正相关词知识,确定目标文本数据对应的相关特征向量;
其中,第三输出模块13包括:相关匹配单元131,相关确定单元132,第二映射单元133,第三确定单元134;可选的,第三输出模块13可以进一步包括:第四确定单元135;
相关匹配单元131,用于获取与第三网络模型相关联的领域知识库,对目标文本数据和领域知识库中的正相关词知识进行相关词匹配,得到与目标文本数据相关联的相关匹配结果;
相关确定单元132,用于若相关匹配结果指示领域知识库中存在与目标文本数据相匹配的正相关词知识,则将与目标文本数据相匹配的正相关词知识确定为目标正相关词知识;
第二映射单元133,用于将目标正相关词知识输入至第三网络模型,由第三网络模型对目标正相关词知识进行向量映射,得到目标正相关词知识对应的相关文本向量;
第三确定单元134,用于基于相关文本向量,确定目标文本数据对应的相关特征向量。
可选的,第四确定单元135,用于若相关匹配结果指示领域知识库中不存在与目标文本数据相匹配的正相关词知识,则获取与领域知识库相关联的辅助相关向量,将辅助相关向量作为目标文本数据对应的相关特征向量。
其中,相关匹配单元131,相关确定单元132,第二映射单元133,第三确定单元134以及第四确定单元135的具体实现方式,可以参见上述图3所对应实施例中对步骤S103的描述,这里将不再进行赘述。
标签确定模块14,用于将编码特征向量、规则特征向量以及相关特征向量进行向量拼接,得到目标文本数据的目标拼接向量,将目标拼接向量输入至目标推荐模型的分类器,由分类器输出目标文本数据所属的目标分类标签;目标分类标签用于对待推送信息流进行信息处理。
可选的,第一处理模块15,用于若目标分类标签属于第一分类标签,则在待推送信息流中,对目标文本数据所对应的目标多媒体数据进行删除处理;
第二处理模块16,用于若目标分类标签属于第二分类标签,则在待推送信息流中,将目标文本数据所对应的目标多媒体数据作为用于生成信息推送流的目标推送数据。
其中,第一输出模块11,第二输出模块12,第三输出模块13,标签确定模块14,第一处理模块15以及第二处理模块16的具体实现方式,可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图14,图14是本申请实施例提供的一种文本数据处理装置的结构示意图。其中,该文本数据处理装置2可以包括:第一确定模块21,第二确定模块22,第三确定模块23,模型训练模块24;进一步地,文本数据处理装置2还可以包括:目标确定模块25,结果确定模块26,第一添加模块27,第二添加模块28;
第一确定模块21,用于获取用于训练初始推荐模型的样本文本数据和样本文本数据的样本分类标签,通过第一样本模型确定样本文本数据对应的样本特征向量;第一样本模型属于与样本文本数据相关联的初始推荐模型;初始推荐模型包括不同于第一样本模型的第二样本模型和第三样本模型;
第二确定模块22,用于获取与第二样本模型相关联的规则知识库,基于样本文本数据和规则知识库中的规则类知识,确定样本文本数据对应的样本规则向量;
第三确定模块23,用于获取与第三样本模型相关联的领域知识库,基于样本文本数据和领域知识库中的正相关词知识,确定样本文本数据对应的样本相关向量;
模型训练模块24,用于基于样本特征向量、样本规则向量、样本相关向量、样本分类标签和初始推荐模型的分类器,对初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型。
其中,模型训练模块24包括:向量拼接单元241,损失确定单元242,参数调整单元243,迭代训练单元244;
向量拼接单元241,用于将样本特征向量、样本规则向量以及样本相关向量进行向量拼接,得到样本文本数据的样本拼接向量,将样本拼接向量输入至初始推荐模型的分类器,由分类器输出样本文本数据所属的预测分类标签;
损失确定单元242,用于基于预测分类标签和样本分类标签,确定初始推荐模型的模型损失函数;
参数调整单元243,用于当初始推荐模型的模型损失函数不满足模型收敛条件时,基于不满足模型收敛条件的模型损失函数,对初始推荐模型的模型参数进行调整;
迭代训练单元244,用于将调整模型参数后的初始推荐模型确定为过渡推荐模型,对过渡推荐模型进行迭代训练,直到迭代训练后的过渡推荐模型的模型损失函数满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标推荐模型。
其中,向量拼接单元241,损失确定单元242,参数调整单元243以及迭代训练单元244的具体实现方式,可以参见上述图10所对应实施例中对步骤S208的描述,这里将不再进行赘述。
可选的,目标确定模块25,用于基于候选词生成规则对样本文本数据进行候选词提取,得到样本文本数据对应的候选词列表,从候选词列表中获取待输入至属性评估模型的目标候选词;
其中,目标确定模块25包括:分词处理单元251,频次统计单元252,数量筛选单元253,列表生成单元254;
分词处理单元251,用于基于候选词生成规则对样本文本数据进行分词处理,得到样本文本数据的样本分词,基于样本分词组合策略对样本分词进行分词组合,得到与样本文本数据相关联的初始候选词;
频次统计单元252,用于统计初始候选词在样本文本数据中的出现频次,将出现频次满足频次阈值的初始候选词确定为过渡候选词,确定过渡候选词与样本分类标签之间的互信息量,将互信息量满足候选词生成规则中的互信息阈值的过渡候选词作为待筛选候选词;
数量筛选单元253,用于基于待筛选候选词中的样本分词的分词数量,从待筛选候选词中筛选分词数量满足数量阈值的待筛选候选词;
列表生成单元254,用于基于筛选出的待筛选候选词生成样本文本数据对应的候选词列表,从候选词列表中获取待输入至属性评估模型的目标候选词。
其中,分词处理单元251,频次统计单元252,数量筛选单元253以及列表生成单元254的具体实现方式,可以参见上述图10所对应实施例中对步骤S201的描述,这里将不再进行赘述。
结果确定模块26,用于通过属性评估模型对目标候选词进行属性评估,得到目标候选词的属性评估结果,且对目标候选词进行候选词审核,得到目标候选词的候选词审核结果;
第一添加模块27,用于若属性评估结果指示目标候选词满足候选词生成规则中的评估条件,且候选词审核结果指示目标候选词满足候选词生成规则中的审核条件,则在候选词列表中将目标候选词确定为第一正相关词知识,将第一正相关词知识添加至与第三样本模型相关联的领域知识库。
可选的,第二添加模块28,用于基于候选词生成规则获取独立于候选词列表的辅助文本数据表,将辅助文本数据表中的辅助文本确定为第二正相关词知识,将第二正相关词知识添加至领域知识库,将领域知识库中的第一正相关词知识和第二正相关词知识均作为领域知识库中的正相关词知识。
其中,第一确定模块21,第二确定模块22,第三确定模块23以及模型训练模块24的具体实现方式,可以参见上述图10所对应实施例中对步骤S205-步骤S208的描述,这里将不再进行赘述。可选的,目标确定模块25,结果确定模块26,第一添加模块27以及第二添加模块28的具体实现方式,可以参见上述图10所对应实施例中对步骤S201-步骤S204的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图15,图15是本申请实施例提供的一种计算机设备的结构示意图。如图15所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图15所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3或图10所对应实施例中对文本数据处理方法的描述,也可执行前文图13或图14所对应实施例中对文本数据处理装置1和文本数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的文本数据处理装置1和文本数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3或图10所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3或图10所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (18)
1.一种文本数据处理方法,其特征在于,包括:
获取待推送信息流的目标文本数据,通过第一网络模型确定所述目标文本数据对应的编码特征向量;所述第一网络模型属于与所述目标文本数据相关联的目标推荐模型;所述目标推荐模型包括不同于所述第一网络模型的第二网络模型和第三网络模型;所述编码特征向量为用于表示所述目标文本数据的向量;
从与所述第二网络模型相关联的规则知识库中获取与所述目标文本数据相匹配的目标规则类知识,将所述目标规则类知识所对应的规则字符串输入至所述第二网络模型,由所述第二网络模型对所述规则字符串进行向量映射,得到所述目标规则类知识对应的规则文本向量,基于所述规则文本向量,确定所述目标文本数据对应的规则特征向量;所述规则知识库中的规则类知识为正则表达式,所述正则表达式用于表示字符串匹配的模式;
从与所述第三网络模型相关联的领域知识库中获取与所述目标文本数据相匹配的目标正相关词知识,将所述目标正相关词知识输入至所述第三网络模型,由所述第三网络模型对所述目标正相关词知识进行向量映射,得到所述目标正相关词知识对应的相关文本向量,基于所述相关文本向量,确定所述目标文本数据对应的相关特征向量;所述领域知识库中的正相关词知识为通过出现频率和互信息所确定的词,所述互信息用于衡量依赖程度;
将所述编码特征向量、所述规则特征向量以及所述相关特征向量进行向量拼接,得到所述目标文本数据的目标拼接向量,将所述目标拼接向量输入至所述目标推荐模型的分类器,由所述分类器输出所述目标文本数据所属的目标分类标签;所述目标分类标签用于对所述待推送信息流进行信息处理。
2.根据权利要求1所述的方法,其特征在于,所述获取待推送信息流的目标文本数据,通过第一网络模型确定所述目标文本数据对应的编码特征向量,包括:
基于从内容数据库中获取到的多媒体数据,生成用于下发给用户的待推送信息流,从所述待推送信息流中获取目标多媒体数据对应的目标文本数据;所述目标多媒体数据属于所述获取到的多媒体数据;
对所述目标文本数据进行分词处理,得到所述目标文本数据的文本分词,将所述文本分词进行分词转换,得到所述文本分词对应的分词向量;
在所述目标文本数据中确定所述文本分词的文本位置,对所述文本位置进行位置编码,得到所述文本位置对应的位置向量;
确定所述文本分词对应的分割向量,将所述分词向量、所述位置向量和所述分割向量进行特征融合,得到所述文本分词的待编码文本向量;
将所述待编码文本向量输入至目标推荐模型中的第一网络模型,由所述第一网络模型对所述待编码文本向量进行编码处理,得到所述文本分词对应的编码文本向量,基于所述文本分词对应的编码文本向量,确定所述目标文本数据对应的编码特征向量。
3.根据权利要求2所述的方法,其特征在于,所述第一网络模型包括目标编码单元;所述目标编码单元包括多头注意力层、第一标准化层、前馈网络层和第二标准化层;
所述将所述待编码文本向量输入至目标推荐模型中的第一网络模型,由所述第一网络模型对所述待编码文本向量进行编码处理,得到所述文本分词对应的编码文本向量,基于所述文本分词对应的编码文本向量,确定所述目标文本数据对应的编码特征向量,包括:
在所述目标推荐模型的第一网络模型中,将所述待编码文本向量输入至所述多头注意力层,由所述多头注意力层对所述待编码文本向量进行特征提取,得到与所述待编码文本向量相关联的第一隐藏向量;
将所述待编码文本向量和所述第一隐藏向量输入至所述第一标准化层,由所述第一标准化层对所述待编码文本向量和所述第一隐藏向量进行残差处理,得到第一残差向量,将所述第一残差向量进行标准化处理,得到所述待编码文本向量对应的第一标准化向量;
将所述第一标准化向量输入至所述前馈网络层,由所述前馈网络层对所述第一标准化向量进行特征提取,得到所述第一标准化向量对应的第二隐藏向量;
将所述第一标准化向量和所述第二隐藏向量输入至所述第二标准化层,由所述第二标准化层对所述第一标准化向量和所述第二隐藏向量进行残差处理,得到第二残差向量,将所述第二残差向量进行标准化处理,得到所述待编码文本向量对应的第二标准化向量,基于所述第二标准化向量得到所述文本分词对应的编码文本向量,基于所述文本分词对应的编码文本向量,确定所述目标文本数据对应的编码特征向量。
4.根据权利要求3所述的方法,其特征在于,所述多头注意力层包括目标自注意力层、所述目标自注意力层对应的第一全连接层、向量拼接层、第二全连接层;所述向量拼接层用于将由所述多头注意力层中的每个自注意力层所输出的特征向量进行向量拼接;一个自注意力层对应一个第一全连接层;
所述在所述目标推荐模型的第一网络模型中,将所述待编码文本向量输入至所述多头注意力层,由所述多头注意力层对所述待编码文本向量进行特征提取,得到与所述待编码文本向量相关联的第一隐藏向量,包括:
在所述目标推荐模型的第一网络模型中,从所述多头注意力层所具备的多个自注意力层中获取目标自注意力层;
基于所述待编码文本向量和所述目标自注意力层对应的第一全连接层,确定与所述待编码文本向量相关联的第一输入参数、第二输入参数和第三输入参数;
将所述第一输入参数、所述第二输入参数和所述第三输入参数输入至所述目标自注意力层,由所述目标自注意力层对所述第一输入参数、所述第二输入参数和所述第三输入参数进行特征处理,得到所述目标自注意力层对应的输出特征向量;
当所述多头注意力层中的每个自注意力层均被作为所述目标自注意力层时,得到所述每个自注意力层对应的输出特征向量,通过所述向量拼接层将所述每个自注意力层对应的输出特征向量进行向量拼接,得到与所述待编码文本向量相关联的注意力拼接向量;
将所述注意力拼接向量输入至所述第二全连接层,由所述第二全连接层对所述注意力拼接向量进行向量特征提取,得到与所述待编码文本向量相关联的第一隐藏向量。
5.根据权利要求1所述的方法,其特征在于,所述从与所述第二网络模型相关联的规则知识库中获取与所述目标文本数据相匹配的目标规则类知识,包括:
获取与所述第二网络模型相关联的规则知识库,对所述目标文本数据和所述规则知识库中的规则类知识进行规则匹配,得到与所述目标文本数据相关联的规则匹配结果;
若所述规则匹配结果指示所述规则知识库中存在与所述目标文本数据相匹配的规则类知识,则将与所述目标文本数据相匹配的规则类知识确定为目标规则类知识。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述规则匹配结果指示所述规则知识库中不存在与目标文本数据相匹配的规则类知识,则获取与所述规则知识库相关联的辅助规则向量,将所述辅助规则向量作为所述目标文本数据对应的规则特征向量。
7.根据权利要求1所述的方法,其特征在于,所述从与所述第三网络模型相关联的领域知识库中获取与所述目标文本数据相匹配的目标正相关词知识,包括:
获取与所述第三网络模型相关联的领域知识库,对所述目标文本数据和所述领域知识库中的正相关词知识进行相关词匹配,得到与所述目标文本数据相关联的相关匹配结果;
若所述相关匹配结果指示所述领域知识库中存在与所述目标文本数据相匹配的正相关词知识,则将与所述目标文本数据相匹配的正相关词知识确定为目标正相关词知识。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
若所述相关匹配结果指示所述领域知识库中不存在与目标文本数据相匹配的正相关词知识,则获取与所述领域知识库相关联的辅助相关向量,将所述辅助相关向量作为所述目标文本数据对应的相关特征向量。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标分类标签属于第一分类标签,则在所述待推送信息流中,对所述目标文本数据所对应的目标多媒体数据进行删除处理;
若所述目标分类标签属于第二分类标签,则在所述待推送信息流中,将所述目标文本数据所对应的目标多媒体数据作为用于生成信息推送流的目标推送数据。
10.一种文本数据处理方法,其特征在于,包括:
获取用于训练初始推荐模型的样本文本数据和所述样本文本数据的样本分类标签,通过第一样本模型确定所述样本文本数据对应的样本特征向量;所述第一样本模型属于与所述样本文本数据相关联的初始推荐模型;所述初始推荐模型包括不同于所述第一样本模型的第二样本模型和第三样本模型;所述样本特征向量为用于表示所述样本文本数据的向量;
从与所述第二样本模型相关联的规则知识库中获取与所述样本文本数据相匹配的规则类知识,将与所述样本文本数据相匹配的规则类知识所对应的规则字符串输入至所述第二样本模型,由所述第二样本模型对所述规则字符串进行向量映射,得到与所述样本文本数据相匹配的规则类知识对应的规则文本向量,基于所述规则文本向量,确定所述样本文本数据对应的样本规则向量;所述规则知识库中的规则类知识为正则表达式,所述正则表达式用于表示字符串匹配的模式;
从与所述第三样本模型相关联的领域知识库中获取与所述样本文本数据相匹配的正相关词知识,将与所述样本文本数据相匹配的正相关词知识输入至所述第三样本模型,由所述第三样本模型对与所述样本文本数据相匹配的正相关词知识进行向量映射,得到与所述样本文本数据相匹配的正相关词知识对应的相关文本向量,基于所述相关文本向量,确定所述样本文本数据对应的样本相关向量;所述领域知识库中的正相关词知识为通过出现频率和互信息所确定的词,所述互信息用于衡量依赖程度;
基于所述样本特征向量、所述样本规则向量、所述样本相关向量、所述样本分类标签和所述初始推荐模型的分类器,对所述初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型。
11.根据权利要求10所述的方法,所述基于所述样本特征向量、所述样本规则向量、所述样本相关向量、所述样本分类标签和所述初始推荐模型的分类器,对所述初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型,包括:
将所述样本特征向量、所述样本规则向量以及所述样本相关向量进行向量拼接,得到所述样本文本数据的样本拼接向量,将所述样本拼接向量输入至所述初始推荐模型的分类器,由所述分类器输出所述样本文本数据所属的预测分类标签;
基于所述预测分类标签和所述样本分类标签,确定所述初始推荐模型的模型损失函数;
当所述初始推荐模型的模型损失函数不满足模型收敛条件时,基于不满足所述模型收敛条件的模型损失函数,对所述初始推荐模型的模型参数进行调整;
将调整模型参数后的初始推荐模型确定为过渡推荐模型,对所述过渡推荐模型进行迭代训练,直到迭代训练后的过渡推荐模型的模型损失函数满足所述模型收敛条件时,将满足所述模型收敛条件的过渡网络模型作为所述目标推荐模型。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
基于候选词生成规则对所述样本文本数据进行候选词提取,得到所述样本文本数据对应的候选词列表,从所述候选词列表中获取待输入至属性评估模型的目标候选词;
通过所述属性评估模型对所述目标候选词进行属性评估,得到所述目标候选词的属性评估结果,且对所述目标候选词进行候选词审核,得到所述目标候选词的候选词审核结果;
若所述属性评估结果指示所述目标候选词满足所述候选词生成规则中的评估条件,且所述候选词审核结果指示所述目标候选词满足所述候选词生成规则中的审核条件,则在所述候选词列表中将所述目标候选词确定为第一正相关词知识,将所述第一正相关词知识添加至与所述第三样本模型相关联的领域知识库。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
基于候选词生成规则获取独立于所述候选词列表的辅助文本数据表,将所述辅助文本数据表中的辅助文本确定为第二正相关词知识,将所述第二正相关词知识添加至所述领域知识库,将所述领域知识库中的所述第一正相关词知识和所述第二正相关词知识均作为所述领域知识库中的正相关词知识。
14.根据权利要求12所述的方法,其特征在于,所述基于候选词生成规则对所述样本文本数据进行候选词提取,得到所述样本文本数据对应的候选词列表,从所述候选词列表中获取待输入至属性评估模型的目标候选词,包括:
基于候选词生成规则对所述样本文本数据进行分词处理,得到所述样本文本数据的样本分词,基于样本分词组合策略对所述样本分词进行分词组合,得到与所述样本文本数据相关联的初始候选词;
统计所述初始候选词在所述样本文本数据中的出现频次,将出现频次满足频次阈值的初始候选词确定为过渡候选词,确定所述过渡候选词与所述样本分类标签之间的互信息量,将互信息量满足所述候选词生成规则中的互信息阈值的过渡候选词作为待筛选候选词;
基于所述待筛选候选词中的样本分词的分词数量,从所述待筛选候选词中筛选分词数量满足数量阈值的待筛选候选词;
基于筛选出的待筛选候选词生成所述样本文本数据对应的候选词列表,从所述候选词列表中获取待输入至属性评估模型的目标候选词。
15.一种文本数据处理装置,其特征在于,包括:
第一输出模块,用于获取待推送信息流的目标文本数据,通过第一网络模型确定所述目标文本数据对应的编码特征向量;所述第一网络模型属于与所述目标文本数据相关联的目标推荐模型;所述目标推荐模型包括不同于所述第一网络模型的第二网络模型和第三网络模型;所述编码特征向量为用于表示所述目标文本数据的向量;
第二输出模块,用于从与所述第二网络模型相关联的规则知识库中获取与所述目标文本数据相匹配的目标规则类知识,将所述目标规则类知识所对应的规则字符串输入至所述第二网络模型,由所述第二网络模型对所述规则字符串进行向量映射,得到所述目标规则类知识对应的规则文本向量,基于所述规则文本向量,确定所述目标文本数据对应的规则特征向量;所述规则知识库中的规则类知识为正则表达式,所述正则表达式用于表示字符串匹配的模式;
第三输出模块,用于从与所述第三网络模型相关联的领域知识库中获取与所述目标文本数据相匹配的目标正相关词知识,将所述目标正相关词知识输入至所述第三网络模型,由所述第三网络模型对所述目标正相关词知识进行向量映射,得到所述目标正相关词知识对应的相关文本向量,基于所述相关文本向量,确定所述目标文本数据对应的相关特征向量;所述领域知识库中的正相关词知识为通过出现频率和互信息所确定的词,所述互信息用于衡量依赖程度;
标签确定模块,用于将所述编码特征向量、所述规则特征向量以及所述相关特征向量进行向量拼接,得到所述目标文本数据的目标拼接向量,将所述目标拼接向量输入至所述目标推荐模型的分类器,由所述分类器输出所述目标文本数据所属的目标分类标签;所述目标分类标签用于对所述待推送信息流进行信息处理。
16.一种文本数据处理装置,其特征在于,包括:
第一确定模块,用于获取用于训练初始推荐模型的样本文本数据和所述样本文本数据的样本分类标签,通过第一样本模型确定所述样本文本数据对应的样本特征向量;所述第一样本模型属于与所述样本文本数据相关联的初始推荐模型;所述初始推荐模型包括不同于所述第一样本模型的第二样本模型和第三样本模型;所述样本特征向量为用于表示所述样本文本数据的向量;
第二确定模块,用于从与所述第二样本模型相关联的规则知识库中获取与所述样本文本数据相匹配的规则类知识,将与所述样本文本数据相匹配的规则类知识所对应的规则字符串输入至所述第二样本模型,由所述第二样本模型对所述规则字符串进行向量映射,得到与所述样本文本数据相匹配的规则类知识对应的规则文本向量,基于所述规则文本向量,确定所述样本文本数据对应的样本规则向量;所述规则知识库中的规则类知识为正则表达式,所述正则表达式用于表示字符串匹配的模式;
第三确定模块,用于从与所述第三样本模型相关联的领域知识库中获取与所述样本文本数据相匹配的正相关词知识,将与所述样本文本数据相匹配的正相关词知识输入至所述第三样本模型,由所述第三样本模型对与所述样本文本数据相匹配的正相关词知识进行向量映射,得到与所述样本文本数据相匹配的正相关词知识对应的相关文本向量,基于所述相关文本向量,确定所述样本文本数据对应的样本相关向量;所述领域知识库中的正相关词知识为通过出现频率和互信息所确定的词,所述互信息用于衡量依赖程度;
模型训练模块,用于基于所述样本特征向量、所述样本规则向量、所述样本相关向量、所述样本分类标签和所述初始推荐模型的分类器,对所述初始推荐模型进行迭代训练,将迭代训练后的初始推荐模型作为目标推荐模型。
17.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-14任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205983.2A CN114969316B (zh) | 2021-02-24 | 2021-02-24 | 一种文本数据处理方法、装置、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205983.2A CN114969316B (zh) | 2021-02-24 | 2021-02-24 | 一种文本数据处理方法、装置、设备以及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969316A CN114969316A (zh) | 2022-08-30 |
CN114969316B true CN114969316B (zh) | 2024-04-26 |
Family
ID=82973561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110205983.2A Active CN114969316B (zh) | 2021-02-24 | 2021-02-24 | 一种文本数据处理方法、装置、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969316B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024060066A1 (zh) * | 2022-09-21 | 2024-03-28 | 京东方科技集团股份有限公司 | 一种文本识别方法、模型及电子设备 |
CN115292611B (zh) * | 2022-10-09 | 2023-01-17 | 深圳市华云中盛科技股份有限公司 | 一种案件信息处理方法及系统 |
CN116108162B (zh) * | 2023-03-02 | 2024-03-08 | 广东工业大学 | 一种基于语义增强的复杂文本推荐方法及系统 |
CN116308754B (zh) * | 2023-03-22 | 2024-02-13 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
CN116821966B (zh) * | 2023-08-25 | 2023-12-19 | 杭州海康威视数字技术股份有限公司 | 机器学习模型训练数据集隐私保护方法、装置及设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359301A (zh) * | 2018-10-19 | 2019-02-19 | 国家计算机网络与信息安全管理中心 | 一种网页内容的多维度标注方法及装置 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
CN110569377A (zh) * | 2019-09-11 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种媒体文件的处理方法和装置 |
CN110569500A (zh) * | 2019-07-23 | 2019-12-13 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
CN110909864A (zh) * | 2019-10-22 | 2020-03-24 | 北京大学 | 一种结合正则表达式和神经网络的自然语言任务处理方法和装置 |
CN111444340A (zh) * | 2020-03-10 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类和推荐方法、装置、设备及存储介质 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
US10803057B1 (en) * | 2019-08-23 | 2020-10-13 | Capital One Services, Llc | Utilizing regular expression embeddings for named entity recognition systems |
CN111931935A (zh) * | 2020-09-27 | 2020-11-13 | 中国人民解放军国防科技大学 | 基于One-shot学习的网络安全知识抽取方法和装置 |
CN112163428A (zh) * | 2020-09-18 | 2021-01-01 | 中国人民大学 | 语义标签的获取方法、装置、节点设备及存储介质 |
WO2021027533A1 (zh) * | 2019-08-13 | 2021-02-18 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10937416B2 (en) * | 2019-02-01 | 2021-03-02 | International Business Machines Corporation | Cross-domain multi-task learning for text classification |
-
2021
- 2021-02-24 CN CN202110205983.2A patent/CN114969316B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359301A (zh) * | 2018-10-19 | 2019-02-19 | 国家计算机网络与信息安全管理中心 | 一种网页内容的多维度标注方法及装置 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
CN110569500A (zh) * | 2019-07-23 | 2019-12-13 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
WO2021027533A1 (zh) * | 2019-08-13 | 2021-02-18 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
US10803057B1 (en) * | 2019-08-23 | 2020-10-13 | Capital One Services, Llc | Utilizing regular expression embeddings for named entity recognition systems |
CN110569377A (zh) * | 2019-09-11 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种媒体文件的处理方法和装置 |
CN110909864A (zh) * | 2019-10-22 | 2020-03-24 | 北京大学 | 一种结合正则表达式和神经网络的自然语言任务处理方法和装置 |
CN111444709A (zh) * | 2020-03-09 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质及设备 |
CN111444340A (zh) * | 2020-03-10 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类和推荐方法、装置、设备及存储介质 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN112163428A (zh) * | 2020-09-18 | 2021-01-01 | 中国人民大学 | 语义标签的获取方法、装置、节点设备及存储介质 |
CN111931935A (zh) * | 2020-09-27 | 2020-11-13 | 中国人民解放军国防科技大学 | 基于One-shot学习的网络安全知识抽取方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于AN和LSTM的恶意域名检测;周康;万良;丁红卫;;计算机工程与应用;20201231(第04期);全文 * |
结合TFIDF方法与Skip-gram模型的文本分类方法研究;邬明强;《电子技术与软件工程》;20180317(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114969316A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114969316B (zh) | 一种文本数据处理方法、装置、设备以及介质 | |
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN111931517A (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN114328807A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN111783903A (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN110162624A (zh) | 一种文本处理方法、装置以及相关设备 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN111026852B (zh) | 一种面向金融事件的混合型因果关系发现方法 | |
CN116977457A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN113065027A (zh) | 视频推荐的方法、装置、电子设备和存储介质 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN114579876A (zh) | 虚假信息检测方法、装置、设备及介质 | |
CN114330296A (zh) | 新词发现方法、装置、设备以及存储介质 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |