CN110956018B - 文本处理模型的训练方法、文本处理方法、装置及存储介质 - Google Patents

文本处理模型的训练方法、文本处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110956018B
CN110956018B CN201911158483.7A CN201911158483A CN110956018B CN 110956018 B CN110956018 B CN 110956018B CN 201911158483 A CN201911158483 A CN 201911158483A CN 110956018 B CN110956018 B CN 110956018B
Authority
CN
China
Prior art keywords
text processing
processing model
text
sample set
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911158483.7A
Other languages
English (en)
Other versions
CN110956018A (zh
Inventor
李少波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911158483.7A priority Critical patent/CN110956018B/zh
Publication of CN110956018A publication Critical patent/CN110956018A/zh
Application granted granted Critical
Publication of CN110956018B publication Critical patent/CN110956018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本处理模型的训练方法,包括:获取第一训练样本集合;对所述第一训练样本集合进行去噪处理,形成相应的第二训练样本集合;通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。本发明还提供了文本处理方法、装置及存储介质。本发明能够使得文本处理模型的泛化能力更强,提升文本处理模型的训练精度与训练速度,提升生成文本的准确性与可读性。

Description

文本处理模型的训练方法、文本处理方法、装置及存储介质
技术领域
本发明涉及信息处理技术,尤其涉及文本处理模型的训练方法、文本处理方法、装置及存储介质。
背景技术
相关技术中,动态商品广告生成过程中,实现长文本到短文本的文本内容压缩主要的文本处理方式包括:基于RNN的生成式处理,另一种则是基于RNN的生成式与抽取式相结合的文本处理,但是,上述两种处理方式中RNN作为语义特征和综合特征抽取器,其性能较弱,因此,RNN能力的限制,使得文本处理模型难以产生高质量的文本处理结果,进而影响动态商品广告生成。
发明内容
有鉴于此,本发明实施例提供一种文本处理模型的训练方法、文本处理方法、装置及存储介质,本发明实施例的技术方案是这样实现的:
本发明提供了一种文本处理模型的训练方法,包括:
获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;
对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;
响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;
根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。
本发明实施例还提供了一种文本处理模型的文本处理方法,所述方法包括:
获取视频中的动态多媒体信息,并将所述动态多媒体信息转换为相应的可识别文本信息;
通过文本处理模型的编码器,确定与文本信息所对应的至少一个词语级的隐变量;
通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本处理词语以及所述文本处理词语的被选取概率;
根据所述文本处理结果的被选取概率,选取至少一个文本处理词语组成与所述文本信息相对应的文本处理结果;
输出所述文本处理结果。
本发明实施例还提供了一种文本处理模型的训练装置,所述训练装置包括:
数据传输模块,用于获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;
去噪模块,用于对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
文本处理模型训练模块,用于通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;
所述文本处理模型训练模块,用于响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;
所述文本处理模型训练模块,用于根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。
上述方案中,
所述去噪模块,用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
所述去噪模块,用于根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的第二训练样本集合。
上述方案中,
所述去噪模块,用于确定与所述文本处理模型的使用环境相对应的固定噪声阈值;
所述去噪模块,用于根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的第二训练样本集合。
上述方案中,
所述文本处理模型训练模块,用于将所述第二训练样本集合中不同语句样本,代入由所述文本处理模型的编码器和所述解码器构成的自编码网络对应的损失函数;
所述文本处理模型训练模块,用于确定所述损失函数满足收敛条件时对应所述文本处理模型中编码器的参数和相应的解码器参数作为所述文本处理模型的更新参数。
上述方案中,
所述文本处理模型训练模块,用于通过所述文本处理模型的更新参数,确定与所述第二训练样本集合相匹配的第二噪声参数,所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值;
所述文本处理模型训练模块,用于当所述第二噪声参数到达相应的噪声值阈值时,根据所述第二噪声参数的噪声值,对所述文本处理模型的编码器参数和解码器参数进行迭代更新,直至所述文本处理模型的编码器和所述解码器构成的自编码网络对应的损失函数满足对应的收敛条件。
上述方案中,
所述文本处理模型训练模块,用于响应于所述文本处理模型的训练样本字典集合,确定所述第二训练样本集合的注意力参数集合;
根据所述训练样本字典集合和所述第二训练样本集合的注意力参数集合,对所述第二训练样本集合进行加权处理,以实现所述第二训练样本集合与所述文本处理模型的训练样本字典集合相适配。
上述方案中,
所述文本处理模型训练模块,用于对所述第一训练样本集合进行负例处理,以形成与所述第一训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于调整所述文本处理模型的编码器参数和解码器参数调整;
所述文本处理模型训练模块,用于根据所述负例样本集合确定相应的双语评估研究值,其中,所述双语评估研究值,用于作为监督参数对所述文本处理模型的文本处理结果进行评价。
上述方案中,
所述文本处理模型训练模块,用于将所述文本处理模型的解码器中待输出语句进行随机组合,以形成与所述第一训练样本集合相对应的负例样本集合;
所述文本处理模型训练模块,用于对所述文本处理模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。
上述方案中,
所述文本处理模型训练模块,用于根据所述第一训练样本集合,确定所述文本处理模型的使用环境;
所述文本处理模型训练模块,用于对与所述文本处理模型的使用环境相匹配的数据源中的训练样本进行召回处理;
所述文本处理模型训练模块,用于根据所述召回处理的结果,触发相应的学习进程,以实现获取所述数据源中携带有商品名称的语句样本;
所述文本处理模型训练模块,用于对所述学习进程中所获取的携带有商品名称的语句样本进行标注,以形成所述第一训练样本集合。
本发明实施例还提供了一种文本处理模型处理装置,所述装置包括:
编码器模块,用于通过获取视频中的动态多媒体信息,并将所述动态多媒体信息转换为相应的可识别文本信息;
所述编码器模块,用于通过文本处理模型的编码器,确定与文本信息所对应的至少一个词语级的隐变量;
解码器模块,用于通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本处理词语以及所述文本处理词语的被选取概率;
所述解码器模块,用于根据所述文本处理结果的被选取概率,选取至少一个文本处理词语组成与所述文本信息相对应的文本处理结果;
所述解码器模块,用于输出所述文本处理结果。
本发明实施例还提供了一种文本处理模型的训练装置,所述训练装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本处理模型的训练方法。
本发明实施例还提供了一种文本处理模型的文本处理装置,所述装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本处理方法。
本发明实施例一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的文本处理模型的训练方法,或者实现前序的文本处理模型的文本处理方法。
本发明实施例具有以下有益效果:
通过获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。由此,使得文本处理模型的泛化能力更强,提升文本处理模型的训练精度与训练速度,同时还可以有效充分利用已有的携带有商品信息的训练语句对模型训练的增益,使得文本处理模型能够适应不同的使用场景,避免环境噪声对文本处理模型的影响,使得文本处理模型能够产生高质量的文本处理结果,提升动态商品广告生成的准确性与可读性。
附图说明
图1为本发明实施例提供的文本处理模型训练方法的使用场景示意图;
图2为本发明实施例提供的文本处理模型训练装置的组成结构示意图;
图3为现有技术中,基于RNN的Seq2Seq模型生成文本处理结果的示意图;
图4为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图;
图5为本发明实施例中文本处理模型一个可选的结构示意图;
图6为本发明实施例中文本处理模型一个可选的词语级机器阅读示意图;
图7为本发明实施例中文本处理模型中编码器一个可选的结构示意图;
图8为本发明实施例中文本处理模型中编码器的向量拼接示意图;
图9为本发明实施例中文本处理模型中编码器的编码过程示意图;
图10为本发明实施例中文本处理模型中解码器的解码过程示意图;
图11为本发明实施例中文本处理模型中解码器的解码过程示意图;
图12为本发明实施例中文本处理模型中解码器的解码过程示意图;
图13为本发明实施例中文本处理模型一个可选的语句级文本处理示意图;
图14为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图;
图15为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图;
图16为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图;
图17为本发明实施例提供的文本处理模型处理装置的组成结构示意图;
图18为本发明实施例提供的文本处理模型的文本处理方法一个可选的流程示意图;
图19为本发明实施例所提供的文本处理模型的应用环境示意图;
图20为本发明实施例所提供的文本处理模型的应用环境示意图;
图21为传统的文本处理模型工作示意图;
图22为传统的文本处理模型工作示意图;
图23为本发明实施例所提供的文本处理模型的工作过程示意图;
图24为本发明所提供的文本处理模型的组织结构示意图;
图25为本发明所提供的文本处理模型的组织结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)机器阅读理解:一种将文本问题和相关文档作为输入将文本答案作为输出的自动问答技术
2)BERT:全称为Bidirectional Encoder Representations from Transformers,一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务,如文本分类、文本匹配、机器阅读理解等。
3)人工神经网络:简称神经网络(Neural Network,NN),在机器学习和认知科学领域,是一种模仿生物神经网络结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
4)模型参数:是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中,模型参数通常是实数矩阵。
5)API:全称Application Programming Interface,可文本处理成应用程序接口,是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。
6)SDK:全称Software Development Kit,可文本处理成软件开发工具包,是为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合广义上包括辅助开发某一类软件的相关文档、范例和工具的集合。
7)参考语句,预先设置的对源语句进行语言转换之后的对应某种自然语言的参考标准。
8)忠实度,表征目标语句的内容与源语句内容接近程度的介于0和1之间的参数,作为评价对源语句文本处理准确度高低的标准,值越大表明目标语句的内容与源语句内容接近程度越高,即文本处理的准确度越高。
9)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
10)编码器-解码器结构:机器文本处理技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
11)DPA广告:动态商品广告。分为MDPA,SDPA。MDPA为动态多商品广告,一个广告对应着多个商品,各个用户在不同的场景下看到的商品不一样;SDPA为动态单商品广告,一个广告对应着单个商品。DPA广告主要是利用模版+商品的方式实现大量商品广告的海量生产。
12)视频DPA广告:DPA广告的图文动态化。
13)商品短名:是对商品名的缩略,因为有的商品名很长,需要缩略之后才能达到在特定应用场景下的需求。商品短名必须要满足两个基本的条件:保留原有的主要信息不能丢失,通顺,通常10个字以内。
图1为本发明实施例提供的文本处理模型训练方法的使用场景示意图,参考图1,终端(包括终端10-1和终端10-2)上设置有文本处理软件的客户端,用户通过所设置的文本处理软件客户端可以输入相应的用于表征商品名称的待处理语句,客户端也可以接收相应的文本处理结果,并将所接收的文本处理结果(新的商品名称)向用户进行展示;当然,服务器200也可以对服务器400中的多媒体信息中的文本信息(视频广告中的商品名称)进行处理,并将经过处理所形成的新文本信息(视频广告中的新的商品名称)向终端发送,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述文本处理模型并对所述文本处理模型进行训练,以对所述文本处理模型的编码器和解码器的网络参数进行迭代更新,以实现将通过文本处理模型中的编码器参数和解码器生成针对目标待处理语句的文本处理结果,并通过终端(终端10-1和/或终端10-2)展示文本处理模型所生成的与待处理语句相对应的文本处理结果。
当然在通过文本处理模型对目标待处理语句进行处理以生成相应的文本处理结果之前,还需要对文本处理模型进行训练,具体包括:获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新,以实现通过所述文本处理模型对表征商品名称的语句进行处理。
下面对本发明实施例的文本处理模型的训练装置的结构做详细说明,文本处理模型的训练装置可以各种形式来实施,如带有文本处理模型训练功能的专用终端,也可以为设置有文本处理模型训练功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的文本处理模型的训练装置的组成结构示意图,可以理解,图2仅仅示出了文本处理模型的训练装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的文本处理模型的训练装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。文本处理模型的训练装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本处理模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本处理模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本处理模型训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本处理模型的训练装置采用软硬件结合实施的示例,本发明实施例所提供的文本处理模型的训练装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本处理模型训练方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本处理模型的训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本处理模型训练方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持文本处理模型的训练装置的操作。这些数据的示例包括:用于在文本处理模型的训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本处理模型训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本处理模型的训练装置可以采用软件方式实现,图2示出了存储在存储器202中的文本处理模型的训练装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括文本处理模型的训练装置,文本处理模型的训练装置中包括以下的软件模块:数据传输模块2081,去噪模块2082和文本处理模型训练模块2083。当文本处理模型的训练装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的文本处理模型训练方法,下面介绍本发明实施例中文本处理模型的训练装置中各个软件模块的功能,其中,
数据传输模块2081,用于获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;
去噪模块2082,用于对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
文本处理模型训练模块2083,用于通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;
所述文本处理模型训练模块2083,用于响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;
所述文本处理模型训练模块2083,用于根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。
结合图2示出的文本处理模型的训练装置说明本发明实施例提供的文本处理模型的训练方法,在介绍本发明实施例提供的文本处理模型的训练方法之前,首先介绍本申请中文本处理模型根据待处理语句(长语句)生成相应文本处理结果(新的短语句)的过程中,图3为传统方案中生成文本处理结果的示意图,其中,eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中,编码器(Encode)是将输入序列转化成一个固定长度的向量,解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示,编码器(Encoder)对输入的待处理语句进行编码,得到待处理语句的文本特征;解码器(Decoder)对文本特征进行解码后输出生成相应的文本处理结果,其中,编码器(Encode)和解码器(Decode)是一一对应的。
可见,对于图3所示的相关技术来说基于Seq2Seq模型的文本处理模型的缺点在于,相关技术中的模型本身只对训练数据目标文本y-标注信息建立一对一的关系,很多实际场景中,同一个目标文本y可以有很多种标注信息,现有的Seq2Seq模型由于编码器(Encode)和解码器(Decode)是一一对应的,并不能够有效对这种一对多问题进行处理,同时很容易受到噪声信息的干扰,触发无用的识别,用户体验差。
为解决这一相关技术中的缺陷,参见图4,图4为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图,可以理解地,图4所示的步骤可以由运行文本处理模型训练装置的各种电子设备执行,例如可以是如带有文本处理功能的专用终端、带有文本处理模型训练功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。
步骤401:文本处理模型训练装置获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本。
在本发明的一些实施例中,第一训练样本集合可以为同一语种的语言样本,或者也可以为不同语种的语言样本,对此不作限制。其中,第一训练样本集合的语种可以根据实际文本处理需求进行设置。例如,当文本处理模型应用于中译英的应用场景时,第一训练样本集合的语种可以为中文,再例如,当文本处理模型应用于英文的应用场景时,第一训练样本集合的语种可以为英文。当然无论第一训练样本采用何种语言,第一训练样本集合中语句样本据均来自于相应的商品名称,其中,商品名称的获取可以通过抓取网页快照并对所抓取的网页快照进行文字识别获得,也可以通过;识别动态视频广告的文本获得。
步骤402:文本处理模型训练装置对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合。
在本发明的一些实施例中,所述对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合,可以通过以下方式实现:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中由于文本处理模型的使用环境不同,与所述文本处理模型的使用环境相匹配的动态噪声阈值也不相同,例如,图像广告播放的使用环境中,与所述文本处理模型的使用环境相匹配的动态噪声阈值需要小于动态视频广告环境中的动态噪声阈值。
在本发明的一些实施例中,所述对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合,可以通过以下方式实现:
确定与所述文本处理模型相对应的固定噪声阈值;根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的第二训练样本集合。其中,当文本处理模型固化于相应的硬件机构中,例如短视频播放时,使用环境为动态视频广告播放时,由于噪声较为单一,通过固定文本处理模型相对应的固定噪声阈值,能够有效提神文本处理模型的训练速度,减少用户的等待时间。
步骤403:文本处理模型训练装置通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数。
步骤404:文本处理模型训练装置响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数。
在本发明的一些实施例中,响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数,可以通过以下方式实现:
将所述第二训练样本集合中不同语句样本,代入由所述文本处理模型的编码器和所述解码器构成的自编码网络对应的损失函数;确定所述损失函数满足收敛条件时对应所述文本处理模型中编码器的参数和相应的解码器参数作为所述文本处理模型的更新参数。
其中,文本处理型的组成可以包括:编码器网络和解码器网络,在本发明的一些实施例中,文本处理模型可以为双向注意力神经网络模型(BERT Bidirectional EncoderRepresentations from Transformers)。继续参考图5,图5为本发明实施例中文本处理模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。
继续参考图6,图6为本发明实施例中文本处理模型一个可选的词语级机器阅读示意图,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入目标为“视频同款某某品牌连衣裙”经过文本处理模型的处理,输出的机器阅读示结果为:“连衣裙”。
继续参考图7,图7为本发明实施例中文本处理模型中编码器一个可选的结构示意图,其中,其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重。
继续参考图7,图7中示出了本发明实施例中文本处理模型中编码器的向量示意,其中Q,K和V的是通过输入encoder的向量x与W^Q,W^K,W^V相乘得到Q,K和V。W^Q,W^K,W^V在文章的维度是(512,64),然后假设我们inputs的维度是(m,512),其中m代表了字的个数。所以输入向量与W^Q,W^K,W^V相乘之后得到的Q、K和V的维度就是(m,64)。
继续参考图8,图8为本发明实施例中文本处理模型中编码器的向量拼接示意图,其中,Z0到Z7就是对应的8个并行的head(维度是(m,64)),然后concat这个8个head之后就得到了(m,512)维度。最后与W^O相乘之后就到了维度为(m,512)的输出的矩阵,那么这个矩阵的维度就和进入下一个encoder的维度保持一致。
继续参考图9,图9为本发明实施例中文本处理模型中编码器的编码过程示意图,其中,x1经过self-attention到了z1的状态,通过了self-attetion的张量还需要进过残差网络和Later Norm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。
继续参考图10,图10为本发明实施例中文本处理模型中解码器的解码过程示意图,其中,decoder的输入输出和解码过程:
输出:对应i位置的输出词的概率分布;
输入:encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention,它的K,V来自encoder,Q来自上一位置decoder的输出。
继续参考图11和图12,图11为本发明实施例中文本处理模型中解码器的解码过程示意图,其中,解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中文本处理模型中解码器的解码过程示意图,Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量,然后softmax层根据这个logits向量,将其转换为了概率值,最后找到概率最大值的位置,即完成了解码器的输出。
在本发明的一些实施例中,文本处理模型可以为双向注意力神经网络模(BERTBidirectional Encoder Representations from Transformers)。继续参考图5,图5为本发明实施例中文本处理模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。
继续参考图13,图13为本发明实施例中文本处理模型一个可选的语句级机器阅读示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入目标为英语“This is a beautiful solidcolor T-shirt”经过文本处理模型的处理,输出的机器阅读示结果为:“纯色T恤”。
当然,本发明中的BERT模型也使用前向神经网络模型(Bi-LSTM Bi-directionalLong Short-Term Memory)、门控循环单元网络模型(GRU Gated Recurrent Unit)模型、深度语境化词表征网络模型(ELMo embedding from language model)、GPT模型、GPT2模型代替,对此,本发明不再赘述。
步骤405:文本处理模型训练装置根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。
继续参考图14,图14为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图,可以理解地,图14所示的步骤可以由运行文本处理模型训练装置的各种电子设备执行,例如可以是如带有文本处理模型训练功能的专用终端、带有文本处理模型训练功能的服务器或者服务器集群。下面针对图14示出的步骤进行说明。
步骤1401:文本处理模型训练装置响应于所述文本处理模型的训练样本字典集合,确定所述第二训练样本集合的注意力参数集合。
步骤1402:文本处理模型训练装置根据所述训练样本字典集合和所述第二训练样本集合的注意力参数集合,对所述第二训练样本集合进行加权处理。
由此,可以实现所述第二训练样本集合与所述文本处理模型的训练样本字典集合相适配。
由此,可以实现不但重点考虑第二训练样本中的文本重要信息,又兼顾了整个字典集中可能更好的信息,提升了所产生的文本处理结果的可读性。
步骤1403:文本处理模型训练装置通过所述文本处理模型的更新参数,确定与所述第二训练样本集合相匹配的第二噪声参数,所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值。
其中,所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值;其中,第二训练样本集合中的每一个训练样本的权重都是相同的,这些权重相同训练样本可以称为平行语句样本。
步骤1404:文本处理模型训练装置判断所述第二噪声参数到达相应的噪声值阈值时,根据所述第二噪声参数的噪声值,对所述文本处理模型的编码器参数和解码器参数进行迭代更新,直至所述文本处理模型的编码器和所述解码器构成的自编码网络对应的损失函数满足对应的收敛条件。
在本发明的一些实施例中其中,其中,编码器网络的损失函数表示为:
loss_A=∑(decoder_A(encoder(warp(x1)))-x1)2;其中,decoder_A为解码器A,warp为待识别语句的函数,x1为待识别语句,encoder为编码器。
在迭代训练的过程中,通过将待识别语句代入编码器网络的损失函数,求解损失函数按照梯度(例如最大梯度)下降时编码器A和解码器A的参数,当损失函数收敛时(即确定能够形成与所述待识别语句所对应的词语级的隐变量时),结束训练。
对编码器网络的训练过程中,编码器网络的损失函数表示为:loss_B=∑(decoder_B(encoder(warp(x2)))-x2)2;其中,decoder_B为解码器B,warp为待识别语句的函数,x2为待识别语句,encoder为编码器。
在迭代训练的过程中,通过将待识别语句代入编码器网络的损失函数,求解损失函数按照梯度(例如最大梯度)下降时编码器B和解码器B的参数;当损失函数收敛时(即当解码得到与所述待识别语句相对应的文本处理结果的被选取概率时),结束调整和训练。
继续参考图15,图15为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图,可以理解地,图15所示的步骤可以由运行文本处理模型训练装置的各种电子设备执行,例如可以是如带有文本处理模型训练功能的专用终端、带有文本处理模型训练功能的服务器或者服务器集群。下面针对图15示出的步骤进行说明。
步骤1501:文本处理模型训练装置对所述第一训练样本集合进行负例处理,以形成与所述第一训练样本集合相对应的负例样本集合。
其中,所述负例样本集合用于调整所述文本处理模型的编码器参数和解码器参数调整。
在本发明的一些实施例中,所述对所述第一训练样本集合进行负例处理,可以通过以下方式实现:
将所述文本处理模型的解码器中待输出语句进行随机组合,以形成与所述第一训练样本集合相对应的负例样本集合;或者,
对所述文本处理模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。
步骤1502:文本处理模型训练装置根据所述负例样本集合确定相应的双语评估研究值。
其中,所述双语评估研究值,用于作为监督参数对所述文本处理模型的文本处理结果进行评价。
其中,当文本处理模型所应用的使用场景为非中文动态视频广告处理(可以是单一的英语或其他语种的动态视频广告的使用环境,也可以是至少包括两种语言信息源的动态视频广告的使用环境)使用环境时,根据所述负例样本集合所确定相应的双语评估研究值可以用于作为监督参数对所述文本处理模型的文本处理结果进行评价。
继续参考图16,图16为本发明实施例提供的文本处理模型训练方法一个可选的流程示意图,可以理解地,图16所示的步骤可以由运行文本处理模型训练装置的各种电子设备执行,例如可以是如带有文本处理模型训练功能的专用终端、带有文本处理模型训练功能的服务器或者服务器集群。下面针对图16示出的步骤进行说明。
步骤1601:文本处理模型训练装置根据所述第一训练样本集合,确定所述文本处理模型的使用环境。
其中,数据源中包括各类型应用场景的数据作为相应的训练本的数据来源,例如,本发明所提供的文本处理模型可以作为软件模块封装于车载电子设备中,也可以封装于不同的智能家居(包括但不限于:音箱、电视、冰箱、空调、洗衣机、灶具),当然也可以固化于智能机器人的硬件设备中,针对这些文本处理模型的不同使用场景,可以使用相对应的训练样本对文本处理模型进行针对性性的训练。
步骤1602:文本处理模型训练装置对与所述文本处理模型的使用环境相匹配的数据源中的训练样本进行召回处理;
步骤1603:文本处理模型训练装置根据所述召回处理的结果,触发相应的学习进程,以实现获取所述数据源中携带有商品名称的语句样本;
步骤1604:文本处理模型训练装置对所述学习进程中所获取的携带有商品名称的语句样本进行标注,以形成所述第一训练样本集合。
下面对本发明实施例的文本处理模型处理装置的结构做详细说明,文本处理模型处理装置可以各种形式来实施,如带有根据能够运行文本处理模型的专用终端,也可以为带有文本处理功能的服务器,以根据终端中的应用程序所接收的待处理语句生成相应的文本处理结果(例如前序图1中的服务器200)。图17为本发明实施例提供的文本处理模型处理装置的组成结构示意图,可以理解,图17仅仅示出了文本处理模型处理装置的示例性结构而非全部结构,根据需要可以实施图17示出的部分结构或全部结构。
本发明实施例提供的文本处理模型处理装置包括:至少一个处理器1301、存储器1302、用户接口1303和至少一个网络接口1304。文本处理模型处理装置130中的各个组件通过总线系统1305耦合在一起。可以理解,总线系统1305用于实现这些组件之间的连接通信。总线系统1305除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图17中将各种总线都标为总线系统1305。
其中,用户接口1303可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器1302可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器1302能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本处理模型处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本处理模型处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本处理模型的文本处理方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本处理模型处理装置采用软硬件结合实施的示例,本发明实施例所提供的文本处理模型处理装置可以直接体现为由处理器1301执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器1302,处理器1301读取存储器1302中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器1301以及连接到总线1305的其他组件)完成本发明实施例提供的文本处理模型的文本处理方法。
作为示例,处理器1301可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本处理模型处理装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器1301来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本处理模型的文本处理方法。
本发明实施例中的存储器1302用于存储各种类型的数据以支持文本处理模型处理装置130的操作。这些数据的示例包括:用于在文本处理模型处理装置130上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本处理模型的文本处理方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本处理模型处理装置可以采用软件方式实现,图17示出了存储在存储器1302中的文本处理模型处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器1302中存储的程序的示例,可以包括文本处理模型处理装置,文本处理模型处理装置中包括以下的软件模块:编码器模块13081,解码器模块13082。当文本处理模型处理装置中的软件模块被处理器1301读取到RAM中并执行时,将实现本发明实施例提供的文本处理模型的文本处理方法,文本处理模型处理装置中各个软件模块的功能包括:
编码器模块13081,用于通过获取视频中的动态多媒体信息,并将所述动态多媒体信息转换为相应的可识别文本信息;
所述编码器模块13081,用于通过文本处理模型的编码器,确定与文本信息所对应的至少一个词语级的隐变量;
解码器模块13082,用于通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本处理词语以及所述文本处理词语的被选取概率;
所述解码器模块13082,用于根据所述文本处理结果的被选取概率,选取至少一个文本处理词语组成与所述文本信息相对应的文本处理结果;
所述解码器模块13082,用于输出所述文本处理结果。
结合图17示出的文本处理模型处理装置130说明本发明实施例提供的文本处理模型的文本处理方法,参见图18,图18为本发明实施例提供的文本处理模型的文本处理方法一个可选的流程示意图,可以理解地,图18所示的步骤可以由运行文本处理模型处理装置的各种电子设备执行,例如可以是如带有文本处理处理功能的专用终端、带有文本处理功能的服务器或者服务器集群。下面针对图18示出的步骤进行说明。
步骤1801:文本处理模型处理装置获取视频中的动态多媒体信息,并将所述动态多媒体信息转换为相应的可识别文本信息;
步骤1802:文本处理模型处理装置通过文本处理模型的编码器,确定与文本信息所对应的至少一个词语级的隐变量;
步骤1803:文本处理模型处理装置通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本处理词语以及所述文本处理词语的被选取概率;
步骤1804:文本处理模型处理装置根据所述文本处理结果的被选取概率,选取至少一个文本处理词语组成与所述文本信息相对应的文本处理结果;
步骤1805:文本处理模型处理装置输出所述文本处理结果。
由此,实现了通过文本处理模型将旧的文本信息转换为新的文本信息。
下面以视频播放过程中对动态视频广告中的文本进行处理的过程对本发明实施例所提供的文本处理模型的训练与处理过程进行说明,其中,图19为本发明实施例所提供的文本处理模型的应用环境示意图,图20为本发明实施例所提供的文本处理模型的应用环境示意图,具体使用场景本申请不做具体限制,其中,作为云服务提供给企业客户,帮助其根据不同的设备使用环境对文本处理模型进行训练,其中,视频DPA广告在显示过程中需要显示商品名,但是如果商品名称太长,整个视频DPA显示在视频中影响美观;另外一方面传递的信息太过于杂乱,重点不突出,影响DPA广告的显示效果,同样影响用户的观看体验。因此需要通过相应的文本处理模型将视频DPA中的长商品名为短商品名(如图),以对整个视频DPA的显示效果进行调整。
参考图21,图21为传统的文本处理模型工作示意图,其中,图21所示的生成式文本处理模型对长文本的处理过程中,对于目标长文本部分,通过RNN算法得到对于输入长文本的编码隐向量。短文本部分利用长文本最后的编码结果,结合前序的输出,得到当前位置的字的概率分布。其中,当前位置的字的概率分布对应的处理函数为:
Figure GDA0004115020840000241
Figure GDA0004115020840000242
本实施例所示的生成式算法的典型特点是在生成输出文本的时候,不考虑原文本,只考虑整个字典集合中字的概率分布,其中,对目标长文本的处理结果参考表1。
Figure GDA0004115020840000243
表1
继续参考图22,图22为传统的文本处理模型工作示意图,其中,图22所示的生成式文本处理模型对长文本的处理过程中,其中,通过生成式与抽取式结合文本处理模型,长文本部分,用RNN算法得到对于输入长文本的编码隐向量。短文本部分利用长文本最后的编码结果,结合上一步输出,得到当前位置的字的概率分布。另外一个部分就是比较特别的概率组合部分。通过该文本处理模型,在考虑文本输出的时候,不仅要考虑整个字典中字的概率分布,还要单独考虑输入长文本中各个字的attention分布。通过这两个分布相加,即可得到当前位置应取字的概率分布。由此,既兼顾了整个字典中所有字出现的可能,也重点考虑了原文本(目标长文本)中的字。期待在原文本中能找到关键字,保留更多信息。
但是,前序图21和图22所示的文本处理模型将长文本信息转换为短文本信息的过程中,由于均使用RNN作为语义特征和综合特征抽取器,但是RNN其性能较弱,因此,RNN能力的限制,使得文本处理模型难以产生高质量的文本处理结果,进而影响动态商品广告生成。
图23为本发明实施例所提供的文本处理模型的工作过程示意图,具体包括以下步骤:
步骤2301:服务器获取待处理的长文本语句;
其中,所获取的长文本语句可以是视频DPA中的长商品名称。
步骤2302:过文本处理模型的编码器,确定与待处理语句所对应的至少一个词语级的隐变量。
其中,图24为本发明所提供的文本处理模型的组织结构示意图。编码器部分对输入的文本编码解析,得到输出;这个输出作为输入传到相对应的解码器部分。
步骤2303:通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率;
步骤2304:根据所述处理结果的被选取概率,选取至少一个处理词语组成与所述待处理语句相对应的处理结果。
其中,参考图25,图25为本发明所提供的文本处理模型的组织结构示意图,解码器部分结合此输入和之前解码过的内容,来确定当前位置的字。但是在考虑当前位置可能字的分布的时候,只考虑了整个字典集合中的字,没有对输入的文本进行重点加权。因此,在本发明的一些实施例中,在解码的时候考虑到了原文本,可以通过下述公式(3)计算原文本(待处理的长文本语句)的attention分布:
Figure GDA0004115020840000251
进一步地,可以将原文本的attention分布和整个字典集中所有字的分布通过如下公式(4)进行加权处理:
Figure GDA0004115020840000261
由此,得到的结果中既重点考虑原文本的重要信息,又兼顾了整个字典集中可能更好的信息,使得文本处理模型能够产生高质量的文本处理结果,提升动态商品广告生成的准确性与可读性。
步骤2305:输出所述处理结果(短文本语句)。
1)、相比于传统技术中所使用的生成式文本处理模型或者融合型(生成式与抽取式的结合)文本处理模型,本发明所提供的文本处理方法在相应的自动评估指标和人工评估指标上,都要好于基础的基于RNN的生成式和融合式算法,参考表2,
Figure GDA0004115020840000262
表2
其中前7个指标都是自动评判的比较参考输出和算法输出相似性的指标。采用的就是标准的指标计算方式。准确性和可读性是针对我们这个问题设定的人工评估标准。其中准确性衡量的是算法生成的商品短名有没有保留原长名的重要信息。有3种评分(0,1,2),0分表示完全不准确,1分表示一般,2分表示准确无误。可读性指的生成的短名是否通顺可读,有5种评分(1,2,3,4,5),1分表示不可读,5分表示可读性好。
2)、在长文本到短文本的文本内容压缩工作,在生成目的短文的过程中不仅仅考虑整个词典中各个字的可能概率分布,还重点考虑输入的长文本中每个字的attention分布。将这两个概率分布有机结合,从而确定哪个字在当前位置最合适使得文本处理模型难以产生高质量的文本处理结果,进而影响动态商品广告生成,使得文本处理模型能够产生高质量的文本处理结果,提升动态商品广告生成的准确性与可读性
有益技术效果:
通过获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;响应于所述文本处理模型的初始参数,通过所述文本处理模型对所述第二训练样本集合进行处理,确定所述文本处理模型的更新参数;根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。由此,使得文本处理模型的泛化能力更强,提升文本处理模型的训练精度与训练速度,同时还可以有效充分利用已有的携带有商品信息的训练语句对模型训练的增益,使得文本处理模型能够适应不同的使用场景,避免环境噪声对文本处理模型的影响,使得文本处理模型能够产生高质量的文本处理结果,提通过文处理模型所生成的新文本的准确性与可读性。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种文本处理模型的训练方法,其特征在于,
获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;
对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;
将所述第二训练样本集合中不同语句样本,代入由所述文本处理模型的编码器和解码器构成的自编码网络对应的损失函数;
确定所述损失函数满足收敛条件时对应所述文本处理模型中编码器的参数和相应的解码器参数作为所述文本处理模型的更新参数;
响应于所述文本处理模型的训练样本字典集合,确定所述第二训练样本集合的注意力参数集合;
根据所述训练样本字典集合和所述第二训练样本集合的注意力参数集合,对所述第二训练样本集合进行加权处理,以实现所述第二训练样本集合与所述文本处理模型的训练样本字典集合相适配;
根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新,以实现通过所述文本处理模型对表征商品名称的语句进行处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合,包括:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的第二训练样本集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合,包括:
确定与所述文本处理模型的使用环境相对应的固定噪声阈值;
根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的第二训练样本集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器和所述解码器构成的自编码网络进行迭代更新,包括:
通过所述文本处理模型的更新参数,确定与所述第二训练样本集合相匹配的第二噪声参数,所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值;
当所述第二噪声参数到达相应的噪声值阈值时,
根据所述第二噪声参数的噪声值,对所述文本处理模型的编码器参数和解码器参数进行迭代更新,直至所述文本处理模型的编码器和所述解码器构成的自编码网络对应的损失函数满足对应的收敛条件。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第一训练样本集合进行负例处理,以形成与所述第一训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于调整所述文本处理模型的编码器参数和解码器参数调整;
根据所述负例样本集合确定相应的双语评估研究值,其中,所述双语评估研究值,用于作为监督参数对所述文本处理模型的文本处理结果进行评价。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一训练样本集合进行负例处理,包括:
将所述文本处理模型的解码器中待输出语句进行随机组合,以形成与所述第一训练样本集合相对应的负例样本集合;或者,
对所述文本处理模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一训练样本集合,确定所述文本处理模型的使用环境;
对与所述文本处理模型的使用环境相匹配的数据源中的训练样本进行召回处理;
根据所述召回处理的结果,触发相应的学习进程,以实现获取所述数据源中携带有商品名称的语句样本;
对所述学习进程中所获取的携带有商品名称的语句样本进行标注,以形成所述第一训练样本集合。
8.一种文本处理模型的文本处理方法,其特征在于,所述方法包括:
获取视频中的动态多媒体信息,并将所述动态多媒体信息转换为相应的可识别文本信息;
通过文本处理模型的编码器,确定与文本信息所对应的至少一个词语级的隐变量;
通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本处理词语以及所述文本处理词语的被选取概率;
根据文本处理结果的被选取概率,选取至少一个文本处理词语组成与所述文本信息相对应的文本处理结果;
输出所述文本处理结果;
其中,所述文本处理模型基于如权利要求1至7任一项所述的方法训练得到。
9.一种文本处理模型的训练装置,其特征在于,所述训练装置包括:
数据传输模块,用于获取第一训练样本集合,其中所述第一训练样本集合包括至少一组表征商品名称的语句样本;
去噪模块,用于对所述第一训练样本集合进行去噪处理,以形成相应的第二训练样本集合;
文本处理模型训练模块,用于通过文本处理模型对所述第二训练样本集合进行处理,以确定所述文本处理模型的初始参数;
所述文本处理模型训练模块,用于将所述第二训练样本集合中不同语句样本,代入由所述文本处理模型的编码器和解码器构成的自编码网络对应的损失函数;
所述文本处理模型训练模块,用于确定所述损失函数满足收敛条件时对应所述文本处理模型中编码器的参数和相应的解码器参数作为所述文本处理模型的更新参数;
所述文本处理模型训练模块,用于响应于所述文本处理模型的训练样本字典集合,确定所述第二训练样本集合的注意力参数集合;
所述文本处理模型训练模块,用于根据所述训练样本字典集合和所述第二训练样本集合的注意力参数集合,对所述第二训练样本集合进行加权处理,以实现所述第二训练样本集合与所述文本处理模型的训练样本字典集合相适配;
所述文本处理模型训练模块,用于根据所述文本处理模型的更新参数,通过所述第二训练样本集合对所述文本处理模型的编码器参数和解码器参数进行迭代更新。
10.一种文本处理模型处理装置,其特征在于,所述装置包括:
编码器模块,用于通过获取视频中的动态多媒体信息,并将所述动态多媒体信息转换为相应的可识别文本信息;
所述编码器模块,用于通过文本处理模型的编码器,确定与文本信息所对应的至少一个词语级的隐变量;
解码器模块,用于通过所述文本处理模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的文本处理词语以及所述文本处理词语的被选取概率;
所述解码器模块,用于根据文本处理结果的被选取概率,选取至少一个文本处理词语组成与所述文本信息相对应的文本处理结果;
所述解码器模块,用于输出所述文本处理结果;
其中,所述文本处理模型基于如权利要求1至7任一项所述的方法训练得到。
11.一种文本处理模型的训练装置,其特征在于,所述训练装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至7任一项所述的文本处理模型的训练方法。
12.一种文本处理模型的文本处理装置,其特征在于,所述装置包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求8所述的文本处理模型的文本处理方法。
13.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至7任一项所述的文本处理模型的训练方法,或者实现权利要求8所述的文本处理模型的文本处理方法。
CN201911158483.7A 2019-11-22 2019-11-22 文本处理模型的训练方法、文本处理方法、装置及存储介质 Active CN110956018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911158483.7A CN110956018B (zh) 2019-11-22 2019-11-22 文本处理模型的训练方法、文本处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911158483.7A CN110956018B (zh) 2019-11-22 2019-11-22 文本处理模型的训练方法、文本处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110956018A CN110956018A (zh) 2020-04-03
CN110956018B true CN110956018B (zh) 2023-04-18

Family

ID=69978278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911158483.7A Active CN110956018B (zh) 2019-11-22 2019-11-22 文本处理模型的训练方法、文本处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110956018B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489422B (zh) * 2020-04-10 2023-03-28 广东博智林机器人有限公司 海报生成及其模型训练方法、装置、电子设备及存储介质
CN111552797B (zh) * 2020-04-30 2021-06-22 腾讯科技(深圳)有限公司 名称预测模型的训练方法、装置、电子设备及存储介质
CN111552799B (zh) * 2020-04-30 2021-07-09 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备及存储介质
CN111831805A (zh) * 2020-07-01 2020-10-27 中国建设银行股份有限公司 一种模型创建方法、装置、电子设备和可读存储装置
CN111739520B (zh) * 2020-08-10 2020-11-20 腾讯科技(深圳)有限公司 一种语音识别模型训练方法、语音识别方法、装置
CN112672157B (zh) * 2020-12-22 2022-08-05 广州博冠信息科技有限公司 视频编码方法、装置、设备及存储介质
CN112579729B (zh) * 2020-12-25 2024-05-21 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN112668308A (zh) * 2020-12-30 2021-04-16 上海犀语科技有限公司 一种基于内容分类的营销文本短句生成方法
CN112733507B (zh) * 2021-01-16 2023-06-09 江苏网进科技股份有限公司 一种自动生成法律文本标记事件的方法
CN113011529B (zh) * 2021-04-28 2024-05-07 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及可读存储介质
CN113255645B (zh) * 2021-05-21 2024-04-23 北京有竹居网络技术有限公司 一种文本行图片的解码方法、装置和设备
CN113570427A (zh) * 2021-07-22 2021-10-29 上海普洛斯普新数字科技有限公司 一种提取识别线上或系统商品特征信息的系统
CN114925660B (zh) * 2022-05-23 2023-07-28 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN115344678A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于多种算法融合的聚类方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015083B1 (en) * 2012-03-23 2015-04-21 Google Inc. Distribution of parameter calculation for iterative optimization methods
US9311299B1 (en) * 2013-07-31 2016-04-12 Google Inc. Weakly supervised part-of-speech tagging with coupled token and type constraints
WO2016062044A1 (zh) * 2014-10-24 2016-04-28 华为技术有限公司 一种模型参数训练方法、装置及系统
WO2017074785A1 (en) * 2015-10-30 2017-05-04 Alibaba Group Holding Limited Method and system for statistics-based machine translation
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN109918684A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 模型训练方法、翻译方法、相关装置、设备及存储介质
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791580B1 (en) * 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US9390065B2 (en) * 2012-07-23 2016-07-12 University Of Southern California Iterative estimation of system parameters using noise-like perturbations
CA3063738A1 (en) * 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
CN108846126B (zh) * 2018-06-29 2021-07-27 北京百度网讯科技有限公司 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN109086709B (zh) * 2018-07-27 2023-04-07 腾讯科技(深圳)有限公司 特征提取模型训练方法、装置及存储介质
CN110083834B (zh) * 2019-04-24 2023-05-09 北京百度网讯科技有限公司 语义匹配模型训练方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015083B1 (en) * 2012-03-23 2015-04-21 Google Inc. Distribution of parameter calculation for iterative optimization methods
US9311299B1 (en) * 2013-07-31 2016-04-12 Google Inc. Weakly supervised part-of-speech tagging with coupled token and type constraints
WO2016062044A1 (zh) * 2014-10-24 2016-04-28 华为技术有限公司 一种模型参数训练方法、装置及系统
WO2017074785A1 (en) * 2015-10-30 2017-05-04 Alibaba Group Holding Limited Method and system for statistics-based machine translation
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN109918684A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 模型训练方法、翻译方法、相关装置、设备及存储介质
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jianming Zhang et al.Top-Down Neural Attention by Excitation Backprop.《International Journal of Computer Vision》.2017,1084-1102. *
单晨琪.基于注意力模型的推荐算法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,I138-1385. *
靖慧.大数据知识工程中基于自动编码器的文本分类研究与应用.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,I138-1031. *

Also Published As

Publication number Publication date
CN110956018A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110956018B (zh) 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN110807332B (zh) 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN110795945B (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110807333B (zh) 一种语义理解模型的语义处理方法、装置及存储介质
CN111324769A (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN114676234A (zh) 一种模型训练方法及相关设备
CN110472255B (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN116820429B (zh) 代码处理模型的训练方法、装置、电子设备及存储介质
CN111144093A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN111739520B (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN111125323B (zh) 一种聊天语料标注方法、装置、电子设备及存储介质
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN112163434B (zh) 基于人工智能的文本翻译方法、装置、介质及电子设备
CN116629211B (zh) 基于人工智能的写作方法及系统
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN112861580A (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN110909142B (zh) 一种问答模型的问题语句处理方法、装置、电子设备及存储介质
CN112966520B (zh) 自然语言生成方法及装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN114547256B (zh) 面向消防安全知识智能问答的文本语义匹配方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022505

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant