CN113887245A - 一种模型训练方法及相关装置 - Google Patents
一种模型训练方法及相关装置 Download PDFInfo
- Publication number
- CN113887245A CN113887245A CN202111455084.4A CN202111455084A CN113887245A CN 113887245 A CN113887245 A CN 113887245A CN 202111455084 A CN202111455084 A CN 202111455084A CN 113887245 A CN113887245 A CN 113887245A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- training
- segment
- text segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种人工智能领域的模型训练方法及相关装置,其中该方法包括:获取基础训练文本,对所述基础训练文本进行拆分处理,得到基础文本片段序列;在基础文本片段序列中确定待替换文本片段,从待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用目标替换文本片段替换基础文本片段序列中的待替换文本片段,得到目标文本片段序列;将目标文本片段序列及其对应的标签标注结果作为训练样本,标签标注结果包括目标文本片段序列中各文本片段各自对应的标注标签;基于训练样本训练文本语义识别模型;文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。该方法能够提高模型训练速度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练方法及相关装置。
背景技术
文本语义识别技术如今被广泛地应用于很多应用场景,例如,文本分类、情感分析、意图识别等等。在各应用场景中应用文本语义识别技术时,通常需要先利用文本语义识别模型,确定待处理文本的全局语义向量,进而根据待处理文本的全局语义向量,执行应用场景中的特定任务。
相关技术中,常用的文本语义识别模型包括BERT(Bidirectional EncoderRepresentations from Transformers)模型和ELECTRA(Efficiently Learning anEncoder that Classifies Token Replacements Accurately)模型。经本申请发明人研究发现,BERT模型和ELECTRA模型均存在模型收敛速度慢、所需耗费的训练时间长的问题。
发明内容
本申请实施例提供了一种模型训练方法及相关装置,能够提高模型收敛的速度,减少模型训练所需耗费的训练时间。
有鉴于此,本申请第一方面提供了一种模型训练方法,所述方法包括:
获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
本申请第二方面提供了一种模型训练装置,所述装置包括:
文本拆分模块,用于获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
片段替换模块,用于在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
样本构建模块,用于将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
模型训练模块,用于基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
本申请第三方面提供了一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的模型训练方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的模型训练方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的模型训练方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种模型训练方法,该方法训练文本语义识别模型前,会针对所获取的基础训练文本进行拆分处理,得到该基础训练文本对应的基础文本片段序列,然后在该基础文本片段序列中确定待替换文本片段,并从该待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用该目标替换文本片段替换该基础文本片段序列中的该待替换片段,得到目标文本片段序列;进而,将该目标文本片段序列及其对应的标签标注结果作为训练样本,该标签标注结果中包括目标文本片段序列中各文本片段各自对应的标注标签,该标注标签用于表征其对应的文本片段是否被替换过;最终,基于如此构建的训练样本训练文本语义识别模型,训练该文本语义识别模型时,需要使该文本语义识别模型针对输入的文本片段序列,预测其中各文本片段是否被替换过。一方面,训练文本语义识别模型时,使该文本语义识别模型预测文本片段序列中各文本片段是否被替换过,可以使该文本语义识别模型同时学习文本片段序列中所有文本片段的语义,有利于更快地调整该文本语义识别模型的模型参数,从而提升模型训练速度。另一方面,训练文本语义识别模型前,对基础文本片段序列中的文本片段进行替换处理得到目标文本片段序列,并标注目标文本片段序列中的各文本片段是否被替换过,在一定程度上简化了所训练的文本语义识别模型所需执行的任务,使文本语义识别模型具有更简单的模型结构、更少的模型参数,也有利于提升模型训练速度。
附图说明
图1为本申请实施例提供的模型训练方法的应用场景示意图;
图2为本申请实施例提供的模型训练方法的流程示意图;
图3为本申请实施例提供的文本片段序列、替换文本片段以及标签标注结果的示意图;
图4为本申请实施例提供的论坛平台和微博平台的界面示意图;
图5为本申请实施例提供的级联主贴文本和跟帖文本的实现方式示意图;
图6为本申请实施例提供的级联微博文本和转发文本的实现方式示意图;
图7为本申请实施例提供的参考相似度序列示意图;
图8为本申请实施例提供的文本语义识别模型的模型结构示意图;
图9为本申请实施例提供的下游任务处理架构示意图;
图10为本申请实施例提供的模型训练方法的实现架构示意图;
图11为本申请实施例提供的模型训练装置的结构示意图;
图12为本申请实施例提供的终端设备的结构示意图;
图13为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
相关技术中,常见的文本语义识别模型包括BERT模型以及ELECTRA模型。其中,BERT模型的训练思想是,将训练文本中的部分片段替换为特殊符号[MASK],然后,使BERT模型学习训练文本中被替换为[MASK]的位置原本存在的文本片段。ELECTRA模型包括生成器和判别器,其中,生成器的训练思想与BERT模型的训练思想基本相同,即用于预测训练文本中被替换为[MASK]的位置原本存在的文本片段,但是该生成器还需要对其还原得到的训练文本中的文本片段进行替换处理,得到更新训练文本;判别器的训练思想是,针对生成器生成的更新训练文本判断其中的文本片段是否被替换过。
对于BERT模型,由于其每轮训练过程中仅关注被替换为[MASK]的位置处的文本片段,因此导致其在每轮训练过程中能够学习到的知识较少,相应地导致BERT模型的训练速度极慢。对于ELECTRA模型,由于其中同时包括生成器和判别器,因此训练该ELECTRA模型等同于同时训练两个BERT模型,该ELECTRA模型占用的内存空间大、模型结构复杂、模型参数较多,往往也需要耗费较长的训练时间才能使该ELECTRA模型收敛。
为了解决上述相关技术存在的问题,本申请实施例提供了一种模型训练方法,该方法能够有效地提高模型训练速度,使所训练的文本语义识别模型较快地收敛。
具体的,在本申请实施例提供的模型训练方法中,先获取基础训练文本,并对所获取的基础训练文本进行拆分处理,得到该基础训练文本对应的基础文本片段序列。然后,在该基础文本片段序列中确定待替换文本片段,并从该待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用该目标替换文本片段替换基础文本片段序列中的该待替换文本片段,得到目标文本片段序列。进而,将该目标文本片段序列及其对应的标签标注结果作为训练样本,该标签标注结果中包括该目标文本片段序列中各文本片段各自对应的标注标签,该标注标签用于表征其对应的文本片段是否被替换过。最终,基于该训练样本训练文本语义识别模型,该文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
相比BERT模型的训练机制,上述模型训练方法训练文本语义识别模型时,会使该文本语义识别模型针对输入的文本片段序列预测其中各文本片段是否被替换,即使该文本语义识别模型在每轮训练中同时关注文本片段序列中所有文本片段的语义,如此可以使得文本语义识别模型在每轮训练中学习到更多的知识,有利于使该文本语义识别模型更快收敛,提高模型训练速度。相比ELECTRA模型的训练机制,上述模型训练方法训练文本语义识别模型前,即对基础文本片段序列中的文本片段进行替换处理,得到目标文本片段序列,并标注目标文本片段序列中的各文本片段是否被替换过,相比于ELECTRA模型省去了生成器的结构,使得所训练的文本语义识别模型具有更简单的结构、更少的模型参数,降低了文本语义识别模型占用的内存空间,从而有利于提高模型训练速度。
应理解,本申请实施例提供的模型训练方法可以由具备文本处理能力的计算机设备执行,该计算机设备可以是终端设备或服务器。其中,终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等;服务器具体可以为应用服务器或Web服务器,在实际部署时,可以为独立服务器,也可以为由多个物理服务器构成的集群服务器或云服务器。本申请实施例涉及的数据,如文本、文本序列、文本序列对应的标签标注结果等,可以保存于区块链上。
为了便于理解本申请实施例提供的模型训练方法,下面以该模型训练方法的执行主体为服务器为例,对该模型训练方法的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的模型训练方法的应用场景示意图。如图1所示,该应用场景中包括服务器110和数据库120,服务器110可以通过网络从数据库120中调取数据,或者数据库120也可以集成在服务器110中。其中,服务器110用于执行本申请实施例提供的模型训练方法,以训练得到可以投入实际业务中使用的文本语义识别模型;数据库120用于存储基础训练文本。
在实际应用中,服务器110训练文本语义识别模型前,可以先从数据库120中获取基础训练文本;该基础训练文本可以为通过任意方式产生的文本,例如可以为从网络平台上采集的用户生成内容(User Generated Content,UGC),又例如可以为用于训练文本语义识别模型的通用训练样本集中的文本,等等,本申请在此不对该基础训练文本做任何限定。然后,服务器110可以对该基础训练文本进行拆分处理,将该基础训练文本拆分为若干文本片段,并基于这些文本片段在基础训练文本中的排布顺序,利用这些文本片段组成该基础训练文本对应的基础文本片段序列。如图1所示,服务器将基础训练文本拆分为文本片段1、文本片段2、……、文本片段n,进而,利用文本片段1、文本片段2、……、文本片段n组成该基础训练文本对应的基础文本片段序列。
然后,服务器可以在该基础文本片段序列中确定待替换文本片段,并从该待替换文本片段对应的候选片段集合中选出目标替换文本片段,进而利用该目标替换文本片段替换基础文本片段序列中的该待替换文本片段,得到目标文本片段序列。如图1所示,假设服务器确定基础文本片段序列中的待替换文本片段为文本片段2,则服务器可以从该文本片段2对应的候选片段集合中选出目标替换文本片段,如选出文本片段21,进而,利用该文本片段21来替换基础文本片段序列中的文本片段2,得到目标文本片段序列。
进而,服务器可以将上述目标文本片段序列及其对应的标签标注结果,作为训练样本;此处的标签标注结果中包括目标文本片段序列中各文本片段各自对应的标注标签,该标注标签能够表征其对应的文本片段是否被替换过。例如,对于图1中的目标文本片段序列,其中文本片段1对应的标注标签、文本片段n对应的标注标签均用于表征其对应的文本片段未被替换过,文本片段21对应的标注标签用于表征其对应的文本片段被替换过。
最终,服务器可以基于通过上述方式构建的训练样本训练文本语义识别模型;该文本语义识别模型的训练思想是,使该文本语义识别模型针对输入的文本片段序列,预测其中所有的文本片段是否被替换过。例如,对于图1中的目标文本片段序列,将该目标文本片段序列输入所训练的文本语义识别模型后,该文本语义识别模型需要预测其中的文本片段1、文本片段21、……、文本片段n是否被替换过,得到文本片段1、文本片段21、……、文本片段n各自对应的预测标签,进而,服务器可以根据文本片段1、文本片段21、……、文本片段n各自对应的标注标签和预测标签构建目标损失函数,基于该目标损失函数调整该文本语义识别模型的模型参数。
应理解,图1所示的应用场景仅为示例,在实际应用中,本申请实施例提供的模型训练方法还可以应用于其它场景,例如,服务器110可以直接从相关网络平台采集基础训练文本,在此不对本申请实施例提供的模型训练方法适用的应用场景做任何限定。
下面通过方法实施例对本申请提供的模型训练方法进行详细介绍。
参见图2,图2为本申请实施例提供的模型训练方法的流程示意图。为了便于描述,下述实施例仍以该模型训练方法的执行主体为服务器为例进行介绍。如图2所示,该模型训练方法包括以下步骤:
步骤201:获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列。
服务器训练文本语义识别模型之前,需要先获取基础训练文本,并对所获取的基础训练文本进行拆分处理,将该基础训练文本分解为若干文本片段,进而,基于这些文本片段在基础训练文本中的排布顺序,利用这些文本片段组成该基础训练文本对应的基础文本片段序列。
需要说明的是,上述基础训练文本可以理解为,训练文本语义识别模型时使用的训练文本的生成基础,即在本申请实施例中,需要对基础训练文本进行文本片段替换处理,才能得到实际训练文本语义识别模型时使用的训练文本。该基础训练文本可以是通过任意方式产生的文本,例如可以是从网络平台上采集的文本,又例如可以是文本语义识别模型的通用训练样本集中的文本,再例如可以是人为构建的文本,等等,本申请在此不对基础训练文本的产生方式做任何限定。
上述基础训练文本对应的基础文本片段序列,是将拆分基础训练文本得到的各文本片段排列起来生成的文本片段序列;例如,假设基础训练文本为“我很喜欢这个游戏,虽然游戏非常氪金,但它给我们带来了欢乐”,对该基础训练文本进行拆分处理,得到以下文本片段:我、很、喜欢、这个、游戏、,、虽然、游戏、非常、氪金、,、但、它、给、我们、带来、了、欢乐,按照这些文本片段各自在基础训练文本中的排布位置组合这些文本片段,即可得到图3中第一行所示的基础文本片段序列。应理解,对于基础训练文本的拆分方式可以根据实际需求设定,例如可以通过分词的方式拆分基础训练文本,又例如可以通过分词和短语结合的方式拆分基础训练文本,等等,本申请在此不对拆分基础训练文本得到其对应的基础文本片段序列的方式做任何限定。
在一种可能的实现方式中,服务器可以从预先构建的基础训练文本集合中,获取上述基础训练文本。该基础训练文本集合中的各基础训练文本可以是基于从目标网络平台上采集的用户生成内容(UGC)生成的,下面对该种基础训练文本的生成方式进行介绍:
在目标网络平台上,获取目标发布文本以及其对应的各反馈文本,此处的目标网络平台是指支持针对发布文本执行反馈操作的网络平台,上述目标发布文本是通过文本发布操作发布的文本,上述反馈文本是通过针对该目标发布文本执行直接反馈操作或间接反馈操作时产生的文本。然后,将该目标发布文本及其对应的各反馈文本组合起来,得到基础训练文本。
需要说明的是,本申请实施例中的目标网络平台是指支持用户发布文本,且支持用户针对自身或其他用户发布的文本执行反馈操作的网络平台。目标发布文本是指用户通过目标网络平台提供的文本发布功能发布的文本。目标发布文本对应的反馈文本是指用户通过目标网络平台提供的反馈功能,针对目标发布文本执行直接反馈操作或间接反馈操作时产生的文本;此处的反馈操作可以是在目标发布文本的基础上执行的与该目标发布文本相关的任一种操作,直接反馈操作是针对目标发布文本直接执行反馈操作,间接反馈操作是针对目标发布文本对应的反馈文本执行反馈操作。
例如,上述目标网络平台可以是论坛平台;用户可以通过论坛平台提供的发帖功能发布主贴,该主贴文本即可被视为目标发布文本;用户可以通过论坛平台提供的跟帖功能或者回帖功能,在主贴的基础上进行跟帖或者回帖,所发布的跟帖文本或者回帖文本即可为视为目标发布文本对应的反馈文本。如图4中(a)所示,用户通过论坛平台发布的主贴401可以作为目标发布文本,用户在主贴401下面发布的各条跟帖402可以作为目标发布文本对应的反馈文本。
又例如,上述目标网络平台可以是微博平台;用户可以通过微博平台提供的发微博功能发布微博,该微博文本即可被视为目标发布文本;用户可以通过微博平台提供的转发微博功能转发该微博,并且在转发微博时配上转发文本,该转发文本即可被视为目标发布文本对应的反馈文本。如图4中(b)所示,用户通过微博平台发布的微博403可以作为目标发布文本,用户在微博403的基础上进行转发,产生转发微博404,该转发微博404的文本可以作为目标发布文本对应的反馈文本;当然,若在转发微博404的基础上进一步进行转发,产生转发微博405,该转发微博405也可以作为目标发布文本对应的反馈文本。
应理解,在实际应用中,目标网络平台也可以为其它网络平台,如支持用户执行文本评论操作的网络平台等等,本申请在此不对该目标网络平台做任何限定。
由于目标网络平台上通过文本发布功能发布的目标发布文本、以及通过针对该目标发布文本执行反馈操作产生的反馈文本之间通常语义相关,因此,服务器可以对目标发布文本及其对应的各反馈文本进行整合,将该目标发布文本及其对应的各反馈文本组合为一个单独的文本,作为本申请实施例中的基础训练文本。如此,对众多零散的文本进行整合,可以大幅减少训练文本语义识别模型时使用的训练文本的数量,提高模型训练速度,同时能够保证文本语义识别模型可以充分地学习各种文本语义,即在简化训练文本的同时,保证训练文本的语义丰富。
作为一种示例,上述目标网络平台具体可以是支持针对发布文本执行回复操作的网络平台,相应地,上述反馈文本可以是通过针对目标发布文本执行直接回复操作或间接回复操作时产生的文本。此时,服务器可以根据目标发布文本的发布时间和各反馈文本对应的回复时间,通过分隔符将目标发布文本和各反馈文本级联成单个文本,如此得到基础训练文本。
在实际应用中,上文介绍的论坛平台即属于此种支持针对发布文本执行回复操作的目标网络平台,论坛平台所支持的跟帖功能或者回帖功能本质上即属于文本回复功能。针对论坛平台上的目标发布文本和目标发布文本对应的各反馈文本进行整合处理时,可以按照时间从前至后的顺序,根据目标发布文本的发布时间和各反馈文本各自对应的回复时间,将目标发布文本与各反馈文本级联起来,并在级联文本时在相邻的文本之间插入分隔符[SEP],如此得到基础训练文本。
图5示出了一种示例性的级联主贴文本和跟帖文本的实现方式示意图,如图5所示,用户在TIME0发布了主贴文本TEXT0,其他用户在该主贴下发布了跟帖文本TEXT1、TXET2、……、TEXT10,跟帖文本TEXT1、TXET2、……、TEXT10各自对应的发布时间为TIME1、TIME2、……、TIME10,并且主贴文本的发布时间与各跟帖文本的发布时间满足TIME0≤TIME1≤TIME2≤……≤TIME10,在该种情况下,服务器可以将TEXT0、TEXT1、TXET2、……、TEXT10,通过分隔符[SEP]级联成单个文本TEXT0+[SEP]+TEXT1+[SEP]+ TXET2+[SEP]+……+[SEP]+TEXT10,该单个文本即可作为基础训练文本,添加至基础训练文本集合中。
应理解,除了论坛平台属于上述支持针对发布文本执行回复操作的目标网络平台外,上述支持针对发布文本执行回复操作的目标网络平台例如还可以是支持针对发布文本进行评论的网络平台,等等,本申请在此不对该支持回复操作的目标网络平台做任何限定。对于此类目标网络平台,本申请实施例除了可以基于各文本的产生时间将各文本级联起来外,还可以采用其它方式,将各文本级联成单个的基础训练文本,例如,根据目标发布文本的发布时间、各反馈文本各自对应的反馈时间、以及各反馈文本之间的回复关系,将目标发布文本及其对应的各反馈文本级联成基础训练文本,本申请在此也不对生成基础训练文本的方式做任何限定。
如此,对于此类支持针对发布文本执行回复操作的网络平台,服务器可以通过上述方式将从此类网络平台上采集的零散的文本整合起来,既可以大幅减少后续模型训练时所需处理的文本数量,提高模型训练速度,又可以保证模型能够学习到丰富的文本语义。
作为另一种示例,上述目标网络平台具体可以是支持针对发布文本执行转发操作的网络平台,相应地,上述反馈文本可以是通过针对目标发布文本执行直接转发操作或间接转发操作时产生的文本。此时,服务器可以根据各反馈文本相对于目标发布文本的转发关系,构建转发关系图谱;该转发关系图谱中包括多个节点,每个节点对应于目标发布文本或反馈文本;进而,根据该转发关系图谱、目标发布文本的发布时间、以及各反馈文本对应的转发时间,通过分隔符将目标发布文本和各反馈文本级联成单个文本,如此得到基础训练文本。
在实际应用中,上文介绍的微博平台即属于此种支持针对发布文本执行转发操作的目标网络平台,微博平台所支持的微博转发功能本质上即属于该转发操作。针对微博平台上的目标发布文本和目标发布文本对应的各反馈文本进行整合处理时,服务器可以先根据各反馈文本与目标发布文本之间的转发关系,构建用于表示该转发关系的转发关系图谱;具体的,服务器可以先创建目标发布文本和各反馈文本各自对应的节点,进而将具有直接转发关系的两个文本各自对应的节点连接起来;例如,假设反馈文本a是转发目标发布文本时产生的转发文本,反馈文本b是转发反馈文本a时产生的转发文本,则构建转发关系图谱时,应将反馈文本a对应的节点与目标发布文本对应的节点连接起来,将反馈文本b对应的节点与反馈文本a对应的节点连接起来,由于反馈文本b与目标发布文本之间的关系不属于直接转发关系,因此反馈文本b对应的节点与目标发布文本a对应的节点间不具有连接关系。
完成转发关系图谱的构建后,服务器可以根据该转发关系图谱、目标发布文本的发布时间、以及各反馈文本各自对应的转发时间,将目标发布文本和各反馈文本通过分隔符[SEP]级联起来得到单个文本,该单个文本即可作为基础训练文本添加至基础训练文本集合中。示例性的,服务器可以将转发关系图谱拆解为若干子转发链,每个子转发链上可以包括一个或者多个节点,子转发链上包括多个节点时,这多个节点各自对应的文本之间具有直接转发关系;针对每个子转发链,服务器可以将该子转发链上最早产生的文本的产生时间作为该子转发链对应的产生时间,并且根据该子转发链上各节点各自对应的产生时间,将各文本直接级联起来,并在级联过程中在相邻的两个文本之间插入分隔符[SEP],得到该子转发链对应的级联文本;进而,服务器可以按照产生时间从前至后的顺序,根据各子转发链各自对应的产生时间,将各子转发链各自对应的级联文本进一步级联起来,并在此级联过程中在相邻的两个级联文本之间插入分隔符[SEP],从而得到基础训练文本。
图6示出了一种示例性的级联微博及其对应的转发微博的实现方式示意图,如图6所示,用户USER0在TIME0发布了原始微博文本TEXT0,其它用户USER1、USER2、……、USER6在此微博的基础上进行转发,分别在TIME1、TIME2、……、TIME6产生了转发微博文本TEXT1、TEXT2、……、TEXT6,这些转发微博相对于原始微博的转发关系如图6所示,即USER1、USER4和USER5直接转发了原始微博,USER2和USER3转发了USER1的转发微博,USER6转发了USER5的转发微博。对于上述微博文本TEXT0、TEXT1、TEXT2、……、TEXT6,服务器可以从最底层转发微博开始向上递归,比如,USER1、USER2和USER3形成了一个子转发链,并且TIME1≤TIME2≤TIME3,则服务器可以将TIME1作为该子转发链对应的产生时间,按照产生时间从前至后的顺序将TEXT1、TEXT2和TEXT3级联起来,得到该子转发链对应的级联文本TEXT1+[SEP]+TEXT2+[SEP]+TEXT3;相类似地,对于由USER5和USER6形成的子转发链,可以确定该子转发链对应的产生时间为TIME5,并生成该子转发链对应的级联文本TEXT5+[SEP]+TEXT6;对于由USER4形成的子转发链,由于其中仅包括一个节点,因此,可以直接确定该子转发链对应的产生时间为TIME4、该子转发链对应的级联文本为TEXT4;然后,进一步递归上述三个级联文本,在TIME0≤TIME1≤TIME4≤TIME5的情况下,将上述三个级联文本与原始微博文本级联起来,将产生如下基础训练文本TEXT0+[SEP]+TEXT1+[SEP]+TEXT2+[SEP]+TEXT3+[SEP]+TEXT4+[SEP]+TEXT5+[SEP]+TEXT6,该基础训练文本可以被添加至基础训练文本集合中。
应理解,除了微博平台属于上述支持针对发布文本执行转发操作的目标网络平台外,在实际应用中,上述支持针对发布文本执行转发操作的目标网络平台也可以为其它网络平台,本申请在此不对该支持针对发布文本执行转发操作的目标网络平台作具体限定。对于此类目标网络平台,本申请实施例除了可以通过上文介绍的方式,将目标发布文本与各反馈文本整合起来外,也可以采用其它方式整合目标发布文本与各反馈文本,本申请在此也不对该种情况下生成基础训练文本的方式做任何限定。
如此,对于此类支持针对发布文本执行转发操作的网络平台,服务器可以通过上述方式将从此类网络平台上采集的零散的文本整合起来,既可以大幅减少后续模型训练时所需处理的文本数量,提高模型训练速度,又可以保证模型能够学习到丰富的文本语义。
应理解,在实际应用中,服务器训练文本语义识别模型前,除了可以从包括通过上述方式生成的基础训练文本的基础训练文本集合中,获取训练文本语义识别模型时所依据的训练文本外,还可以在训练文本语义识别模型前,实时地从目标网络平台采集UGC,并通过上述方式实时地生成基础训练文本,即本申请实施例在此不对基础训练文本的获取方式做任何限定。
需要说明的是,服务器训练文本语义识别模型前,往往需要先确定训练文本中涉及的各文本片段的词向量,进而,使所训练的文本语义识别模型根据训练文本涉及的各文本片段的词向量,学习训练文本的文本全局向量。而训练文本涉及的各文本片段的词向量是通过训练词向量模型得到的,下面对如何获得各训练文本涉及的文本片段的词向量进行介绍:
在服务器已通过上述方式生成各基础训练文本,并利用各基础训练文本组成基础训练文本集合的情况下,服务器可以对该基础训练文本中的各基础训练文本分别进行拆分处理,得到各基础训练文本包括的文本片段;并利用各基础训练文本包括的文本片段,构建参考文本片段集合;进而,服务器可以基于该参考文本片段集合中的各参考文本片段训练词向量模型,从而得到各参考文本片段各自的词向量。
具体实现时,服务器可以先对基础训练文本集合中的每个基础训练文本进行拆分处理,将每个基础训练文本拆分为若干文本片段,并利用这些文本片段组成参考文本片段集合。应理解,由于训练文本语义识别模型时使用的即是基础训练文本集合中的基础训练文本,并且也会将基础训练文本拆分为若干文本片段,因此通过上述方式构建的参考文本片段集合理论上应当可以覆盖模型训练时可能使用的文本片段,相应地,针对该参考文本片段中的各参考文本片段生成词向量,可以保证后续训练文本语义识别模型时可以获取到所需的文本片段的词向量。
进而,服务器可以基于上述参考文本片段集合中的各参考文本片段训练词向量模型,从而得到各参考文本片段各自的词向量。示例性的,服务器可以利用拆分后的各基础训练文本训练词向量模型word2vec,word2vec模型的基本思想是通过训练将每个文本片段映射成K维(K通常为模型的超参数)词向量,通过文本片段的词向量之间的距离(如欧式距离、cosine相似度等)判断文本片段之间的语义相似度,应理解,语义越相近的两个文本片段,这两个文本片段各自对应的词向量之间的距离应越小。由于训练word2vec模型时通常只考虑当前文本片段与预设窗口范围内的文本片段之间的语义关系,因此,通过训练word2vec模型得到的文本片段的词向量仅是携带有局部语义信息的向量。
如此,服务器采用成熟的词向量模型训练方法,可以根据基础训练文本集合中的各基础训练文本训练出词向量模型,从而得到参考文本片段集合中各参考文本片段各自的词向量,该参考文本片段各自的词向量在后续的文本语义识别模型的训练过程中,可以为模型训练提供可靠的局部语义信息,有利于辅助进行文本语义识别模型的训练。
在一种可能的实现方式中,服务器构建上述参考文本片段集合时,可以构建混合有分词和短语的参考文本片段集合。具体的,服务器可以对基础训练文本集合中的各基础训练文本分别进行分词处理,得到各基础训练文本包括的基础分词;针对每个基础分词,服务器可以根据包括各基础分词的各基础训练文本,确定是否存在该基础分词对应的关联分词,若存在,则利用该基础分词及其对应的关联分词组成基础短语;进而,服务器可以利用各基础训练文本包括的基础分词和各基础短语,组成上述参考文本片段集合。
示例性的,服务器可以采用LTP分词器对各基础训练文本进行分词处理,得到各基础训练文本各自包括的基础分词。进而,针对每个基础分词,服务器可以确定包括该基础分词的各基础训练文本,并在各基础训练文本中查找是否存在与该基础分词相邻出现(相邻出现是指分词在基础训练文本中与该基础分词相邻)、且相邻出现的概率超过预设概率阈值的分词,该分词即可被视为该基础分词对应的关联分词;例如,假设针对基础分词a,服务器确定基础训练文本集合中包括该基础分词a的基础训练文本有10个,其中8个基础训练文本中基础分词a与基础分词b相邻出现,即基础分词a与基础分词b相邻出现的概率为80%,超过预设概率阈值,此时,服务器可以将基础分词b视为基础分词a的关联分词。在某基础分词存在其对应的关联分词的情况下,服务器可以利用该基础分词及其对应的关联分词组成基础短语。进而,服务器可以利用各基础训练文本包括的各基础分词、以及通过上述方式确定的各基础短语,作为参考文本片段,并相应地构建参考文本片段集合。
如此,通过上述方式构建混合有分词和短语的参考文本片段集合,可以使参考文本片段集合中的内容更丰富,并且使参考文本片段集合包括的参考文本片段更符合实际文本环境;相应地,针对该参考文本片段集合中各参考文本片段确定的词向量,在后续的文本语义识别模型训练过程中能够更好地表达对应的局部语义。
应理解,在服务器预先构建有上述参考文本片段集合的情况下,服务器针对训练文本语义识别模型时所使用的基础训练文本进行拆分处理时,可以参考该参考文本片段集合进行拆分。即服务器通过步骤201执行对基础训练文本的拆分处理时,可以使经拆分处理得到的基础文本片段序列中的各文本片段均所属于参考文本片段集合,也即该基础文本片段序列包括的文本片段可以是参考文本片段集合中的基础分词,也可以是参考文本片段集合中的基础短语。
步骤202:在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列。
服务器完成对于基础训练文本的拆分处理,得到该基础训练文本对应的基础文本片段序列后,可以在该基础文本片段序列中确定待替换位置,该待替换位置处的文本片段相应地即为待替换文本片段。然后,服务器可以获取该待替换文本片段对应的候选片段集合,并从该候选片段集合中选出目标替换文本片段;进而,利用该目标替换文本片段替换基础文本片段序列中的该待替换文本片段,从而得到目标文本片段序列。
需要说明的是,上述待替换文本片段是在基础文本片段序列中选取的任一个或多个所需替换的文本片段。在基础文本片段序列中选择待替换文本片段时,服务器可以先基于预设的选取比例,确定所需在基础文本片段序列中选取的待替换文本片段的数量;例如,假设预设的选取比例为10%-15%,对于图3中第一行所示的基础文本片段序列,基于该选取比例可以确定需要从中选取3个文本片段作为待替换文本片段。然后,服务器可以采用随机数生成器(如numpy工具包)随机生成待替换位置,所生成的待替换位置的数量与上文确定的所需选取的待替换文本片段的数量相同,基础文本片段序列中该待替换位置处的文本片段即可相应地作为待替换文本片段;例如,对于图3中第一行所示的基础文本片段序列,服务器通过随机数生成器产生的待替换位置的编号为2、7和9,相应地,该基础文本片段序列中的“喜欢”、“游戏”和“氪金”即被作为待替换文本片段,如图3中的第二行所示。当然,在实际应用中,服务器也可以采用其它方式确定基础文本片段序列中的待替换文本片段,本申请在此不对该待替换文本片段的确定方式做任何限定。
需要说明的是,上述待替换文本片段对应的候选片段集合是预先构建的、用于承载该待替换文本片段对应的候选片段的集合,待替换文本片段对应的候选片段是可用于替换该待替换文本片段的文本片段,作为示例,该待替换文本片段对应的候选片段可以是与待替换文本片段语义相似的文本片段。
在一种可能的实现方式中,服务器预先构建出上文介绍的参考文本片段集合,并确定出该参考文本片段集合中各参考文本片段各自的词向量后,可以进一步基于各参考文本片段各自的词向量,构建各参考文本片段各自对应的候选片段集合。相应地,当服务器需要获取基础文本片段序列中待替换文本片段对应的候选片段集合时,服务器可以直接获取预先构建好的该待替换文本片段(待替换文本片段属于参考文本片段集合)对应的候选片段集合。
针对参考文本片段集合中的目标参考文本片段构建对应的候选片段集合时,服务器可以针对参考文本片段集合中除该目标参考文本片段以外的每个参考文本片段,根据该参考文本片段的词向量以及该目标参考文本片段的词向量,确定该参考文本片段与该目标参考文本片段之间的相似度,作为该参考文本片段对应的参考相似度。进而,在参考文本片段集合中,选出所对应的参考相似度满足预设相似条件的参考文本片段,组成该待替换文本片段对应的候选片段集合。
具体的,服务器针对参考文本片段集合中的某个参考文本片段构建对应的候选片段集合时,可以将该参考文本片段视为目标参考文本片段(此处的目标参考文本片段仅是为了便于区分,并无特殊含义)。针对参考文本片段集合中除该目标参考文本片段外的每个参考文本片段,服务器可以通过如下式(1),计算该参考文本片段的词向量与目标参考文本片段的词向量之间的相似度,作为该参考文本片段对应的参考相似度:
Sij = Vi * Vj/(|Vi|*|Vj|) (1)
其中,Vi为目标参考文本片段Wi的词向量,Vj为参考文本片段Wj的词向量,Sij为目标参考文本片段Wi与参考文本片段Wj之间的相似度,也即参考文本片段Wj对应的参考相似度。
服务器通过上述方式,计算出参考文本片段集合中除目标参考文本片段外的各参考文本片段各自对应的参考相似度后,可以从这些参考文本片段中选出所对应的参考相似度满足预设相似条件的参考文本片段,作为该目标参考文本片段对应的候选片段,组成该目标参考文本片段对应的候选片段集合。此处的预设相似条件可以是所对应的参考相似度高于预设相似度阈值;也可以对各参考文本片段各自对应的参考相似度进行排序,进而将排序靠前的若干个参考相似度视为满足预设相似条件,本申请在此不对该预设相似条件做任何限定。
如此,服务器通过上述方式针对参考文本片段集合中的各参考文本片段,构建出其各自对应的候选片段集合,此参考文本片段对应的候选片段集合可以直接被用于替换基础训练文本中的待替换文本片段,并且能够保证替换前后的文本片段之间具有语义相似性,有利于对文本语义识别模型进行训练时使该文本语义识别模型更好地学习文本语义。
对于通过上述方式构建的待替换文本片段对应的候选片段集合,服务器可以通过以下方式,从该待替换文本片段对应的候选片段集合中,选出用于替换该待替换文本片段的目标替换文本片段:
服务器可以按照预设顺序,排列待替换文本片段对应的候选片段集合中各参考文本片段各自对应的参考相似度,得到参考相似度序列。然后,针对该参考相似度序列中的每个参考相似度,将该参考相似度与参考相似度序列中位于该参考相似度前的各参考相似度累加,得到该参考相似度对应的累加相似度;并对该累加相似度进行归一化处理,得到该参考相似度对应的参考累加相似度。进而,服务器可以基于随机生成的相似度参考值,在参考相似度序列中各参考相似度各自对应的参考累加相似度中,选取出目标累加相似度;并确定该目标累加相似度对应的参考相似度对应的参考文本片段,作为用于替换待替换文本片段的目标替换文本片段。
示例性的,对于待替换文本片段对应的候选片段集合,服务器可以按照从大到小的顺序,排列该候选片段集合中各候选片段各自对应的参考相似度,得到参考相似度序列;例如,对于图3中第二行所示的各待替换文本片段“喜欢”、“游戏”和“氪金”,其各自对应的参考相似度序列如图7所示,图7中701中包括“喜欢”对应的候选片段序列(按照候选片段对应的参考相似度从大到小的顺序排列)、以及参考相似度序列(按照参考相似度从大到小的顺序排列),图7中702包括“游戏”对应的候选片段序列(按照候选片段对应的参考相似度从大到小的顺序排列)、以及参考相似度序列(按照参考相似度从大到小的顺序排列),图7中703包括“氪金”对应的候选片段序列(按照候选片段对应的参考相似度从大到小的顺序排列)、以及参考相似度序列(按照参考相似度从大到小的顺序排列)。
假设服务器通过上述处理,得到待替换文本片段对应的参考相似度序列为S1、S2、……、Sk,这些参考相似度分别对应于候选片段W1、W2、……、Wk。此时,服务器可以针对该参考相似度序列中的每个参考相似度进行累加处理;即对于参考相似度S1,由于其位于参考相似度序列中的第一位,因此其对应的累加相似度即为其本身S1;对于参考相似度S2,服务器可以将其与参考相似度序列中位于其之前的各参考相似度累加起来,得到S1+S2,作为参考相似度S2对应的累加相似度;对于参考相似度S3,服务器可以将其与参考相似度序列中位于其之前的各参考相似度累加起来,得到S1+S2+S3,作为参考相似度S3对应的累加相似度;以此类推,对于参考相似度Sk,服务器将计算得到作为参考相似度Sk对应的累加相似度。进而,服务器可以对各参考相似度各自对应的累加相似度进行归一化处理,得到各参考相似度各自对应的参考累加相似度;示例性的,对于参考相似度S1对应的累加相似度,服务器可以计算作为其对应的参考累加相似度,对于参考相似度S2对应的累加相似度,服务器可以计算作为其对应的参考累加相似度,对于参考相似度S3对应的累加相似度,服务器可以计算作为其对应的参考累加相似度,以此类推,参考相似度Sk对应的参考累加相似度等于1。
如此,服务器针对每个参考相似度,将其自身与参考相似度序列中位于其之前的各参考相似度累加,得到对应的累加相似度,并利用所有参考相似度的累加值对每个参考相似度对应的累加相似度进行归一化处理,得到每个参考相似度对应的参考累加相似度。按照各参考相似度各自在参考相似度序列中的排列位置,相应地排列各参考相似度各自对应的参考累加相似度,将得到由小到大排列的参考累加相似度队列,并且在该参考累加相似度队列中,排列位置靠前的参考累加相似度对应的参考文本片段与待替换文本片段之间的语义相似度更高,排列位置靠后的参考累加相似度对应的参考文本片段与待替换文本片段之间的语义相似度更低。基于如此排列方式的参考累加相似度序列选取用于替换待替换文本片段的目标替换文本片段,可以更好地同时将文本片段的相似性以及文本片段选取的随机性,融入目标替换文本片段的选取过程中,使得所选取的目标替换文本片段与待替换文本片段之间的关系,更符合模型训练的需求,更有利于所训练的文本语义识别模型学习相关知识。
进而,服务器可以随机一个生成0到1的实数,作为相似度参考值;并基于该相似度参考值,在参考相似度序列中各参考相似度各自对应的参考累加相似度中,选出目标参考累加相似度,并确定该目标参考累加相似度对应的参考相似度对应的参考文本片段,作为目标替换文本片段。例如,假设参考相似度序列中各参考相似度各自对应的参考累加相似度分别为0.5、0.8、0.9、0.95、1.0,服务器此时随机生成的相似度参考值为0.91,在此情况下,服务器可以在各参考累加相似度中找出大于该相似度参考值的、最小的参考累加相似度,作为目标参考累加相似度,由于在上述各参考累加相似度中,0.95是大于相似度参考值的最小的参考累加相似度,因此可以确定0.95为目标参考累加相似度,进而可以确定0.95对应的参考相似度对应的参考文本片段为目标替换文本片段。
如此,随机生成相似度参考值,基于该相似度参考值选择目标替换文本片段,可以更好地实现目标替换文本片段选取的随机性,即保证所选取的目标替换文本片段兼具相似性(即与待替换文本片段之间的相似性)和随机性,该种目标替换文本片段对于文本语义识别模型的训练来说更有价值,有助于使所训练的文本语义识别模型更好地学习相关知识。应理解,在实际应用中,候选片段集合中可能包括大量的候选片段,相应地通过上述方式确定的参考累加相似度的数量也是巨大的,此时为了提高目标替换文本片段的查找效率,可以使用python的bisect包中的二分查找工具,查找目标参考累加相似度。
如此,通过上述方式在待替换文本片段对应的候选片段集合中查找到的目标替换文本片段,兼顾了模型训练所需要的随机性和相似性,相应地提高了所生成的模型训练样本的质量。
需要说明的是,上述目标文本片段序列是将基础文本片段序列中的待替换文本片段替换为目标替换文本片段后得到的文本片段序列。如图3所示,服务器通过执行目标替换文本片段的选取处理后,可以产生图3中第三行所示的目标替换文本片段,即确定待替换文本片段“喜欢”、“游戏”和“氪金”各自对应的目标替换文本片段分别为“中意”、“比赛”和“充钱”,进而,服务器可以利用各目标替换文本片段,相应地替换基础文本片段序列中与其对应的待替换文本片段,得到图3中第四行所示的目标文本片段序列。
步骤203:将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过。
服务器将基础文本片段序列中的待替换文本片段替换为对应的目标替换文本片段,得到目标文本片段序列后,可以获取该目标文本片段序列对应的标签标注结果,该标签标注结果包括该目标文本片段序列中各文本片段各自对应的标注标签,该标注标签能够相应地反映其对应的文本片段是否被替换过。服务器可以利用目标文本片段机器对应的标签标注结果,组成用于训练文本语义识别模型的训练样本。
示例性的,如图3所示,对于图3中第四行所示的目标文本片段序列,其对应的标签标注结果如图3中的第五行所示。由于该目标文本片段序列中的文本片段“中意”、“比赛”和“充钱”,是对基础文本片段序列中的文本片段“喜欢”、“游戏”和“氪金”进行替换得到的,因此,目标文本片段序列中的文本片段“中意”、“比赛”和“充钱”各自对应的标注标签均为“是”,即用于表征这些文本片段均是被替换过的。对于目标文本片段序列中的其它文本片段,由于这些文本片段并未被替换过,因此这些文本片段各自对应的标注标签均为“否”,即用于表征这些文本片段未被替换过。
在实际应用中,服务器还可以在目标文本片段序列的前后分别加上特殊字符[CLS]和[SEP],并针对特殊字符配置用于表征其未被替换过的标注标签,进而,利用包括有上述特殊字符的目标文本片段序列、以及包括有特殊字符对应的标注标签和各文本片段各自对应的标注标签的标签标注结果,组成用于训练文本语义识别模型的训练样本。
可选的,在本申请实施例中,为了使所训练的文本语义识别模型能够学习到更丰富的知识,服务器还可以进一步选择对于目标文本片段序列的处理模式,并基于该处理模式对目标文本片段序列做进一步的处理,以根据处理后的目标文本片段序列,生成用于训练文本语义识别模型的训练样本。
具体的,服务器可以在候选处理模式集合中,针对目标文本片段序列选择目标处理模式;上述候选处理模式集合包括粗粒度处理模式、细粒度处理模式以及混合粒度处理模式,其中,粗粒度处理模式用于使文本片段序列中各文本片段均为粗粒度文本片段,细粒度处理模式用于使文本片段序列中各文本片段均为细粒度文本片段,混合粒度处理模式用于使文本片段序列中同时包括粗粒度文本片段和细粒度文本片段。然后,服务器可以基于所选择的目标处理模式处理目标文本片段序列,得到目标训练文本片段序列。相应地,服务器可以将该目标训练文本片段序列及其对应的标签标注结果,作为用于训练文本语义识别模型的训练样本,该标签标注结果包括目标训练文本片段序列中各文本片段各自对应的标注标签,该标注标签用于表征其对应的文本片段是否被替换过。
示例性的,服务器可以预先设置三种可供选择的不同粒度的处理模式,这三种处理模式可以使所处理的文本片段序列中的文本片段呈现不同的粒度。具体的,粗粒度处理模式可以使所处理的文本片段序列中的各文本片段均为粗粒度文本片段,该粗粒度文本片段可以理解为短语或分词层级的文本片段;细粒度处理模式可以使所处理的文本片段序列中的各文本片段均为细粒度文本片段,该细粒度文本片段可以理解为字层级的文本片段,所谓字层级即是将文本片段分解为单个的字;混合粒度处理模式可以使所处理的文本片段序列同时包括粗粒度文本片段和细粒度文本片段,即同时包括分词或短语层级的文本片段、以及字层级的文本片段。此外,服务器还可以针对这三种处理模式分别设置对应的选择概率,例如,针对粗粒度处理模式、细粒度处理模式和混合粒度处理模式,分别设置80%、10%和10%的选择概率,即服务器在选择处理模式时,存在80%的概率选择粗粒度处理模式,存在10%的概率选择细粒度处理模式,存在10%的概率选择混合粒度处理模式。
对目标文本片段序列进行处理时,服务器可以基于粗粒度处理模式、细粒度处理模式和混合粒度处理模式各自对应的选择概率,从粗粒度处理模式、细粒度处理模式和混合粒度处理模式中,选择用于处理该目标文本片段序列的目标处理模式。
当所选择的目标处理模式为粗粒度处理模式时,服务器可以直接将目标文本片段序列,作为目标训练文本片段序列。应理解,由于目标文本片段序列是将基础文本片段序列中的待替换文本片段进行替换处理得到的,因此,该目标文本片段序列中各文本片段的粒度应当与基础文本片段序列中各文本片段的粒度一致;通常情况下,服务器拆分处理基础训练文本时,均以分词或短语为单位拆分该基础训练文本,即拆分得到的基础文本片段序列中的各文本片段通常为粗粒度的分词或短语;基于此,当服务器针对目标文本片段序列选择的目标处理模式为粗粒度处理模式时,服务器可以直接保留该目标文本片段序列中各文本片段的粒度,即直接将该目标文本片段序列作为目标训练文本片段序列即可。
当所选择的目标处理模式为细粒度处理模式时,服务器可以针对目标文本片段序列中的每个文本片段进行细化拆分处理,得到每个文本片段对应的子文本片段;进而,利用目标文本片段序列中各文本片段各自对应的子文本片段,组成目标训练文本片段序列。
正如上文所介绍的,目标文本片段序列中的各个文本片段通常为粗粒度的分词或短语,因此,当服务器针对目标文本片段序列选择的目标处理模式为细粒度处理模式时,服务器可以针对该目标文本片段序列中的每个文本片段做进一步地细化拆分处理,将每个文本片段拆分为字层级的子文本片段。例如,对于图3中第四行所示的目标文本片段序列,服务器可以针对其中的每个文本片段做进一步地细化拆分处理,对于其中的文本片段“我”、“很”、“但”、“它”、“给”、“了”等无法再进一步拆分的文本片段,服务器可以直接将这些文本片段自身作为其对应的子文本片段;对于文本片段“中意”,服务器可以将其拆分为子文本片段“中”和“意”,对于文本片段“这个”,服务器可以将其拆分为子文本片段“这”和“个”,以此类推,服务器可以通过上述方式完成对于目标文本片段序列中各文本片段的拆分处理,得到各文本片段各自对应的子文本片段,并利用各文本片段各自对应的子文本片段组成目标训练文本片段序列。
对于该目标训练文本片段序列,其对应的标签标注结果中包括其中各子文本片段各自对应的标注标签,该子文本片段对应的标注标签用于表征该子文本片段所属的文本片段是否被替换过。例如,对于上述文本片段“中意”对应的子文本片段“中”和“意”,其各自对应的标注标签即表征其被替换过。
当所选择的目标处理模式为混合粒度处理模式时,服务器可以在目标文本片段序列中确定待拆分文本片段和不拆分文本片段;并对待拆分文本片段进行细化拆分处理,得到该待拆分文本片段对应的子文本片段。进而,利用目标文本片段序列中各待拆分文本片段各自对应的子文本片段、以及各不拆分文本片段,组成目标训练文本片段序列。
具体的,针对混合粒度处理模式,服务器可以预先设置文本片段序列中待拆分文本片段和不拆分文本片段各自的分布比例,进而,基于该分布比例,针对目标文本片段序列中各文本片段随机确定其属于待拆分文本片段,还是属于不拆分文本片段。对于待拆分文本片段,服务器可以采用细粒度处理模式下的文本片段拆分方式,将该待拆分文本片段拆分成字层级的子文本片段;对于不拆分文本片段,服务器可以直接保留该不拆分文本片段本身。进而,服务器可以利用各待拆分文本片段各自对应的子文本片段、以及各不拆分文本片段,组成目标训练文本片段序列。
对于该目标训练文本片段序列,其对应的标签标注结果中包括各待拆分文本片段中各子文本片段各自对应的标注标签、以及各不拆分文本片段各自对应的标注标签;其中,待拆分文本片段中的子文本片段对应的标注标签,用于表征该子文本片段所属的待拆分文本片段是否被替换过,不拆分文本片段对应的标注标签用于表征该不拆分文本片段本身是否被替换过。
如此,采用不同粒度的处理模式,对目标文本片段序列中的文本片段做进一步处理,得到目标训练文本片段序列,使得所产生的目标训练文本片段序列中的文本片段粒度更丰富,基于该目标训练文本片段序列训练文本语义识别模型,可以使该文本语义识别模型学习到不同粒度的文本语义,即使得该文本语义识别模型可以学习到更丰富的语义知识,有助于提高该文本语义识别模型的模型性能。
步骤204:基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
服务器通过上述方式构建出训练样本后,可以利用所构建的训练样本,对所需训练的文本语义识别模型进行训练。具体训练该文本语义识别模型时,可以根据训练样本中的目标文本片段序列(或目标训练文本片段序列)生成训练输入向量,然后将该训练输入向量输入该文本语义识别模型,该文本语义识别模型通过对该训练输入向量进行分析处理,将相应地输出该目标文本片段序列(或目标训练文本片段序列)中各文本片段各自对应的预测标签,该预测标签用于表征文本语义识别模型所预测的该文本片段是否被替换过。
需要说明的是,上述文本语义识别模型是用于针对输入的文本,生成其中各文本片段各自对应的文本全局语义向量的模型;此处的文本片段对应的文本全局语义向量,是能够表征输入文本全局语义的向量。在本申请实施例中,训练该文本语义识别模型时,以使该文本语义识别模型针对输入的文本片段序列预测其中各文本片段是否被替换过作为训练目标,在基于上述训练目标训练该文本语义识别模型的过程中,该文本语义识别模型中的语义特征提取结构逐渐具备针对输入文本提取其中各文本片段对应的全局语义向量的能力。完成对于该文本语义模型的训练后,可以将该文本语义识别模型中的语义特征提取结构应用至实际业务中,以对实际业务中所需处理的文本,提取其中文本片段对应的文本全局语义特征向量。
具体训练上述文本语义识别模型时,服务器可以根据目标文本片段序列(或目标训练文本片段序列)中各文本片段各自对应的词向量和位置向量,生成训练输入向量;然后,通过所要训练的文本语义识别模型,根据该训练输入向量,确定该目标文本练片段序列(或目标训练文本片段序列)中各文本片段各自对应的预测标签。进而,根据目标文本片段序列(或目标训练文本片段序列)中各文本片段各自对应的标注标签和预测标签,构建目标损失函数;并基于该目标损失函数,调整该文本语义识别模型的模型参数。
示例性的,假设目标文本片段序列中包括的各文本片段分别为W2、W7、W3、W8、W54和W66,这些文本片段分别是参考文本片段集合中编号为2、7、3、8、54和66的参考文本片段,由于服务器训练文本语义识别模型之前,会预先针对参考文本片段集合中的各参考文本片段确定其对应的词向量,因此,服务器此时可以直接获取W2、W7、W3、W8、W54和W66各自的词向量,即获取V2、V7、V3、V8、V54和V66。对于目标文本片段序列中的每个文本片段,服务器还需要根据该文本片段在目标文本片段序列中所处的位置,确定该文本片段对应的位置向量,例如,对于文本片段W2、W7、W3、W8、W54和W66,其各自对应的位置向量分别为L1、L2、L3、L4、L5和L6。通常情况下,文本片段的词向量和位置向量具有相同的维度,基于此,服务器可以将L1+V2、L2+V7、L3+V3、L4+V8、L5+V54和L6+V66作为训练输入向量,此处的“+”表示在相同维度上进行数值相加处理。
需要说明的是,在服务器后续采用细粒度处理模式或混合粒度处理模式,对目标文本片段序列做进一步处理的情况下,所生成的目标训练文本片段序列中包括的子文本片段,可能无法通过上述方式确定其对应的词向量,原因在于这种子文本片段不属于参考文本片段集合,相应地服务器此前并未生成该子文本片段对应的词向量。在这种情况下,服务器可以针对该种子文本片段配置对应的初始词向量,并在模型训练的过程中,对该子文本片段对应的初始词向量不断地更新,以在模型训练的过程中同步学习该子文本片段对应的词向量。
将上述训练输入向量输入所训练的文本语义识别模型中后,该文本语义识别模型可以根据该训练输入向量,预测目标文本片段序列中对应的文本片段是否被替换过。对于每个文本片段Wi,服务器可以根据文本语义识别模型输出的该文本片段Wi对应的预测标签p、以及标签标注结果中文本片段Wi对应的标注标签c,通过如下式(2)构建该文本片段Wi对应的损失项lossi:
示例性的,对于标注标签cj,若其表示文本片段未被替换,则其为[0,1],若其表示文本片段被替换,则其为[1,0]。当pj为p0时,其表示文本语义识别模型预测的文本片段Wi被替换的概率,当pj为p1时,其表示文本语义识别模型预测的文本片段Wi未被替换的概率。
进而,服务器可以根据目标文本片段序列中各文本片段各自对应的损失项,构建目标损失函数;具体的,服务器可以通过如下式(3)将各文本片段各自对应的损失项相加,得到目标损失函数loss:
其中,K表示目标文本片段序列中所包括的文本片段的总数,lossi为第i个文本片段对应的损失项。
最终,服务器可以将最小化该目标损失函数为目标,调整文本语义识别模型的模型参数,达到训练该文本语义识别模型的目的。
服务器可以通过上述方式,基于不同的训练样本对文本语义识别模型进行多轮迭代训练,直至该文本语义识别模型满足训练结束条件为止,此时即可得到可投入实际应用的文本语义识别模型。此处的训练结束条件例如可以为文本语义识别模型的预测准确率达到预设阈值,又例如可以为文本语义识别模型的预测准确率不再有明显提高,再例如可以为文本语义识别模型的迭代训练次数达到预设训练次数,本申请在此不对该训练结束条件做任何限定。
需要说明的是,本申请实施例示例性的可以选择transformer模型的编码器结构,作为所要训练的文本语义识别模型的结构,图8所示即为该文本语义识别模型的模型结构示意图。如图8所示,该文本语义识别模型可以包括N(N为大于1的整数)个级联的编码网络,每个编码网络包括自注意力层和前馈神经网络层,该文本语义识别模型还包括分类(SoftMax)层,该分类层连接在最后一个编码网络后面,用于基于该编码网络输出的各文本片段各自对应的文本全局语义向量,预测文本片段序列中各文本片段是否被替换过。经本申请发明人实验,对图8所示的文本语义识别模型进行训练,在整个训练样本集上遍历训练2-3次,学习率设置为10-5左右,即可使目标损失函数保持稳定,不再明显下降。
当然,在实际应用中,还可以选择其它结构的神经网络模型,作为所要训练的文本语义识别模型,本申请在此不对该文本语义识别模型的结构做任何限定。
服务器完成对于文本语义识别模型的训练后,可以通过该文本语义识别模型,对待处理文本进行处理;基于该文本语义识别模型中最后一个编码网络的输出结果,确定待处理文本的文本全局语义向量;进而,根据该待处理文本的文本全局语义向量,执行目标文本处理任务。
示例性的,服务器训练得到的文本语义识别模型可以应用在情感分析、标签抽取、文本相关性分析等下游任务中;对于情感分析、标签抽取等下游任务,其输入通常为单个句子,其任务处理架构如图9中的(a)所示;对于文本相关性分析等下游任务,其输入通常为两个句子,此时需要通过分隔符将输入的两个句子级联起来,其任务处理架构如图9中的(b)所示。
无论下游任务的输入为单个句子还是多个句子,通过本申请实施例训练得到的文本语义识别模型均可对输入文本进行分析处理,生成输入文本中各文本字段各自对应的文本全局语义向量,即文本语义识别模型可以参考输入文本的全局,确定输入文本中各文本字段的文本全局语义向量,具体的,该文本语义识别模型的最后一个编码网络,可以输出输入文本中各文本字段的文本全局语义向量。进而,可以基于该输入文本中任一个或多个文本字段的文本全局语义向量执行相应地下游任务,如情感分析、标签抽取、文本相关性分析等等;通常情况下,可以仅基于输入文本中第一个文本字段[CLS]对应的文本全局语义向量执行相关下游任务。
经本申请发明人实验,在下游任务情感分析中,对于本申请实施例中的文本语义识别模型,在情感数据集上遍历训练5-10轮,将学习率设置在10-6左右,即可使模型在测试样本集上取得较好的效果。
本申请实施例提供的模型训练方法,一方面,训练文本语义识别模型时,使该文本语义识别模型预测文本片段序列中各文本片段是否被替换过,可以使该文本语义识别模型同时学习文本片段序列中所有文本片段的语义,有利于更快地调整该文本语义识别模型的模型参数,从而提升模型训练速度。另一方面,训练文本语义识别模型前,对基础文本片段序列中的文本片段进行替换处理得到目标文本片段序列,并标注目标文本片段序列中的各文本片段是否被替换过,在一定程度上简化了所训练的文本语义识别模型所需执行的任务,使文本语义识别模型具有更简单的模型结构、更少的模型参数,也有利于提升模型训练速度。
为了便于进一步理解本申请实施例提供的模型训练方法,下面以该模型训练方法用于训练适用于游戏场景的文本语义识别模型为例,结合图10,对该模型训练方法进行整体示例性介绍。
所训练的文本语义识别模型具体可以用于监测游戏玩家的讨论内容,以便基于该监测结果进行运营决策。该文本语义识别模型还可以用于分析游戏玩家对于游戏的评价内容,尤其是负面的评价内容,以便基于该分析结果给出应对措施(如调整游戏设计、调整游戏运营模式等),从而完善游戏环境。该文本语义识别模型还可以用于针对各种游戏投放渠道监测其中用户对于游戏的关注内容,从而更好地进行游戏投放。当然,该文本语义识别模型还可以应用至其它业务场景,在其它业务场景中起到相应的作用,本申请在此不对该文本语义识别模型的适用的业务场景以及所起的作用做任何限定。
如图10所示,对于文本语义模型的训练主要包括三个阶段:第一个阶段是基于数据形态对游戏UGC文本进行整合,第二个阶段是构造文本语义识别模型的训练样本,第三个阶段是训练文本语义识别模型,使该文本语义识别模型可以投入到下游任务中。下面对这三个阶段的实现过程分别进行介绍:
在第一个阶段中,服务器可以从论坛平台和微博平台,采集与游戏相关的UGC文本(即图2所示实施例中介绍的目标发布文本及其对应的反馈文本),并对所采集的UGC文本进行整合,得到基础训练文本。从论坛平台上采集的UGC文本,可以是用户发布的主贴文本、以及其他用户在该主贴文本下发布的回帖文本,该主贴文本与回帖文本之间存在一定的语义关系,因此可以将该主贴文本与回帖文本整合为单个文本,作为基础训练文本。从微博平台上采集的UGC文本,可以是用户发布的微博文本、以及其他用户转发该微博时发布的转发文本,该微博文本与转发文本之间也存在一定的语义关系,因此也可以将该微博文本与转发文本整合为单个文本,作为基础训练文本。具体整合上述UGC文本的方式,可参见图2所示实施例中的相关介绍内容。
如此,将主贴文本和回帖文本整合、以及将微博文本与转发文本整合,可以极大地减少模型训练时所需训练的文本数量,从而极大地缩短训练时间,经实验证明,可以减少60%以上的训练时间。
在第二个阶段中,服务器可以将所有整合得到的基础训练文本,拆分为文本片段;具体可以采用任一种成熟的分词方法进行上述拆分处理,例如,采用LTP分词器对各基础训练文本进行分词处理。进而,服务器可以利用分词处理后的基础训练文本训练词向量模型,例如,可以采用开源的word2vec工具训练词向量模型,从而获得拆分基础训练文本得到的各文本片段各自的词向量。由于word2vec工具训练词向量模型时,仅考虑当前分词与预设窗口范围内的分词之间的语义关系,因此如此得到的文本片段的词向量仅携带了局部语义信息。
假设服务器拆分各基础训练文本得到M个文本片段,服务器可以利用这M个文本片段组成参考文本片段集合。针对参考文本片段集合中的每个参考文本片段,服务器可以基于其对应的词向量与其它各参考文本片段各自对应的词向量之间的相似度,在参考文本片段集合中,确定出与该参考文本片段相似度最高的k个参考文本片段;进而,利用这k个参考文本片段、以及这k个参考文本片段各自与该参考文本片段之间的相似度,构建该参考文本片段对应的相似词-相似度序列(也即图2所示实施例中的候选片段集合以及各候选片段各自对应的参考相似度)。例如,对于参考文本片段Wi,其对应的相似词-相似度序列可以为{Wm:Sm,Wn:Sn,………,Wr:Sr},其中,Sm>Sn>………>Sr。
对于每个分词处理后的基础训练文本,也即基础文本片段序列,服务器可以按照预设比例(如10%- 15%),从中选出待替换文本片段。针对每个待替换文本片段,服务器可以基于该待替换文本片段对应的相似词-相似度序列,从中选出一个相似词作为目标替换文本片段,利用该目标替换文本片段替换该基础文本片段序列中的该待替换文本片段,得到目标文本片段序列。具体选择待替换文本片段的方式、以及选择目标替换文本片段的方式,可参见图2所示实施例中的相关介绍内容。
此外,服务器还需要针对该目标文本片段序列中的各文本片段,生成其对应的标注标签,该标注标签用于表征其对应的文本片段是否被替换过,并利用目标文本片段序列中各文本片段各自对应的标注标签,组成该目标文本片段序列对应的标签标注结果,并将该目标文本片段序列及其对应的标签标注结果,作为用于训练文本语义识别模型的训练样本。
在第三个阶段,服务器针对训练样本中的目标文本片段序列,可以根据其中各文本片段各自对应的词向量和位置向量,构建训练输入向量,并将该训练输入向量输入所要训练的文本语义识别模型,该文本语义识别模型可以基于训练输入向量生成目标文本片段序列中各文本片段各自对应的文本全局语义向量,并基于各文本片段各自对应的文本全局语义向量,相应地预测各文本片段是否被替换过。该文本语义识别模型的训练目标即是尽可能地增大预测标签(即用于表征文本片段是否被替换过)的准确率,该文本语义识别模型具体可以采用transformer的编码器结构。具体训练该文本语义识别模型的方式,可参见图2所示实施例中的相关介绍内容。
完成对于该文本语义识别模型的训练后,可以保留该文本语义识别模型的所有模型参数供下游任务使用。下游任务示例性的可以包括情感分析、标签抽取、文本相关性分析等。
本申请发明人实验发现,通过本申请实施例提供的模型训练方法对文本语义识别模型进行训练,可以使模型的训练时长减少95%以上,在4个月的游戏文本数据的基础上,对原始的BERT模型进行训练,需要200天的时间才能完成一轮训练,而采用本申请实施例提供的方法训练文本语义识别模型仅需4天即可完成一轮训练。并且,通过本申请实施例提供的方法训练得到的文本语义识别模型,在情感分析、标签抽取、文本相关性分析等任务中,均取得了F1值在80%以上的优秀效果,在游戏事件监测、游戏口碑分析、游戏内容标签化等业务中也取得了较好的效果。
针对上文描述的模型训练方法,本申请还提供了对应的模型训练装置,以使上述模型训练方法在实际中得以应用及实现。
参见图11,图11是与上文图2所示的模型训练方法对应的一种模型训练装置1100的结构示意图。如图11所示,该模型训练装置1100包括:
文本拆分模块1101,用于获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
片段替换模块1102,用于在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
样本构建模块1103,用于将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
模型训练模块1104,用于基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
可选的,所述装置还包括:
文本片段集合构建模块,用于对基础训练文本集合中的各所述基础训练文本分别进行拆分处理,得到各所述基础训练文本包括的文本片段;基于各所述基础训练文本包括的文本片段,构建参考文本片段集合;
词向量生成模块,用于基于所述参考文本片段集合中的各参考文本片段训练词向量模型,得到各所述参考文本片段各自的词向量;
相似度确定模块,用于构建所述待替换文本片段对应的候选片段集合时,针对所述参考文本片段集合中的每个参考文本片段,根据所述参考文本片段的词向量以及所述待替换文本片段的词向量,确定所述参考文本片段与所述待替换文本片段之间的相似度,作为所述参考文本片段对应的参考相似度;
候选片段集合构建模块,用于在所述参考文本片段集合中,选取出所对应的参考相似度满足预设相似条件的参考文本片段,组成所述待替换文本片段对应的候选片段集合。
可选的,所述片段替换模块1102具体用于:
按照预设顺序,排列所述候选片段集合中各参考文本片段各自对应的参考相似度,得到参考相似度序列;
针对所述参考相似度序列中的每个参考相似度,将所述参考相似度与所述参考相似度序列中位于所述参考相似度前的各参考相似度累加,得到所述参考相似度对应的累加相似度;并对所述累加相似度进行归一化处理,得到所述参考相似度对应的参考累加相似度;
基于随机生成的相似度参考值,在所述参考相似度序列中各参考相似度各自对应的参考累加相似度中,选取出目标参考累加相似度;确定所述目标参考累加相似度对应的参考相似度对应的参考文本片段,作为所述目标替换文本片段。
可选的,所述文本片段集合构建模块具体用于:
对所述基础训练文本集合中的各所述基础训练文本分别进行分词处理,得到各所述基础训练文本包括的基础分词;
针对每个所述基础分词,根据包括所述基础分词的各所述基础训练文本,确定是否存在所述基础分词对应的关联分词;若存在,则利用所述基础分词及其对应的关联分词组成基础短语;
利用各所述基础训练文本包括的基础分词和各所述基础短语,组成所述参考文本片段集合。
可选的,所述装置还包括:基础训练文本生成模块;所述基础训练文本生成模块用于:
在目标网络平台上,获取目标发布文本以及其对应的各反馈文本;所述目标网络平台是支持针对发布文本执行反馈操作的网络平台;所述目标发布文本是通过文本发布操作发布的文本,所述反馈文本是通过针对所述目标发布文本执行直接反馈操作或间接反馈操作时产生的文本;
将所述目标发布文本以及其对应的各反馈文本组合起来,得到所述基础训练文本。
可选的,当所述目标网络平台是支持针对发布文本执行回复操作的网络平台时,所述反馈文本是通过针对所述目标发布文本执行直接回复操作或间接回复操作时产生的文本;所述基础训练文本生成模块具体用于:
根据所述目标发布文本的发布时间和各所述反馈文本对应的回复时间,通过分隔符将所述目标发布文本和各所述反馈文本级联成单个文本,得到所述基础训练文本。
可选的,当所述目标网络平台是支持针对发布文本执行转发操作的网络平台时,所述反馈文本是通过针对所述目标发布文本执行直接转发操作或间接转发操作时产生的文本;所述基础训练文本生成模块具体用于:
根据各所述反馈文本相对于所述目标发布文本的转发关系,构建转发关系图谱;所述转发关系图谱中包括多个节点,所述节点对应于所述目标发布文本或所述反馈文本;
根据所述转发关系图谱、所述目标发布文本的发布时间、以及各所述反馈文本对应的转发时间,通过分隔符将所述目标发布文本和各所述反馈文本级联成单个文本,得到所述基础训练文本。
可选的,所述装置还包括:
处理模式选择模块,用于在候选处理模式集合中,针对所述目标文本片段序列选择目标处理模式;所述候选处理模式集合包括粗粒度处理模式、细粒度处理模式以及混合粒度处理模式;所述粗粒度处理模式用于使文本片段序列中各文本片段均为粗粒度文本片段,所述细粒度处理模式用于使文本片段序列中各文本片段均为细粒度文本片段,所述混合粒度处理模式用于使文本片段序列中同时包括粗粒度文本片段和细粒度文本片段;
片段序列处理模块,用于基于所述目标处理模式处理所述目标文本片段序列,得到目标训练文本片段序列;
则所述样本构建模块1103具体用于:
将所述目标训练文本片段序列及其对应的标签标注结果,作为所述训练样本;所述标签标注结果包括所述目标训练文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过。
可选的,所述片段序列处理模块具体用于:
当所述目标处理模式为粗粒度处理模式时,将所述目标文本片段序列,作为所述目标训练文本片段序列;
当所述目标处理模式为细粒度处理模式时,针对所述目标文本片段序列中的每个文本片段进行细化拆分处理,得到每个文本片段对应的子文本片段;利用所述目标文本片段序列中各文本片段各自对应的子文本片段,组成所述目标训练文本片段序列;
当所述目标处理模式为混合粒度处理模式时,在所述目标文本片段序列中确定待拆分文本片段和不拆分文本片段;对所述待拆分文本片段进行细化拆分处理,得到所述待拆分文本片段对应的子文本片段;利用所述目标文本片段序列中各所述待拆分文本片段各自对应的子文本片段、以及各所述不拆分文本片段,组成所述目标训练文本片段序列。
可选的,所述模型训练模块1104具体用于:
根据所述目标文本片段序列中各文本片段各自对应的词向量和位置向量,生成训练输入向量;
通过所述文本语义识别模型,根据所述训练输入向量,确定所述目标文本练片段序列中各文本片段各自对应的预测标签;
根据所述目标文本片段序列中各文本片段各自对应的标注标签和预测标签,构建目标损失函数;
基于所述目标损失函数,调整所述文本语义识别模型的模型参数。
可选的,所述装置还包括:模型应用模块;所述模型应用模块用于:
完成对于所述文本语义识别模型的训练后,通过所述文本语义识别模型,对待处理文本进行处理;
基于所述文本语义识别模型中最后一个编码网络的输出结果,确定所述待处理文本的文本全局语义向量;
根据所述待处理文本的文本全局语义向量,执行目标文本处理任务。
本申请实施例提供的模型训练装置,一方面,训练文本语义识别模型时,使该文本语义识别模型预测文本片段序列中各文本片段是否被替换过,可以使该文本语义识别模型同时学习文本片段序列中所有文本片段的语义,有利于更快地调整该文本语义识别模型的模型参数,从而提升模型训练速度。另一方面,训练文本语义识别模型前,对基础文本片段序列中的文本片段进行替换处理得到目标文本片段序列,并标注目标文本片段序列中的各文本片段是否被替换过,在一定程度上简化了所训练的文本语义识别模型所需执行的任务,使文本语义识别模型具有更简单的模型结构、更少的模型参数,也有利于提升模型训练速度。
本申请实施例还提供了一种用于训练模型的计算机设备,该设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图12,图12是本申请实施例提供的终端设备的结构示意图。如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales,POS)、车载电脑等任意终端设备,以终端为计算机为例:
图12示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图12,计算机包括:射频(Radio Frequency,RF)电路1210、存储器1220、输入单元1230(其中包括触控面板1231和其他输入设备1232)、显示单元1240(其中包括显示面板1241)、传感器1250、音频电路1260(其可以连接扬声器1261和传声器1262)、无线保真(wirelessfidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1280是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行计算机的各种功能和处理数据,从而对计算机进行整体监控。可选的,处理器1280可包括一个或多个处理单元;优选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
在本申请实施例中,该终端所包括的处理器1280还具有以下功能:
获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
可选的,所述处理器1280还用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。
参见图13,图13为本申请实施例提供的一种服务器1300的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。
其中,CPU 1322用于执行如下步骤:
获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
可选的,CPU 1322还可以用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种模型训练方法,其特征在于,所述方法包括:
获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
2.根据权利要求1所述的方法,其特征在于,所述待替换文本片段对应的候选片段集合是通过以下方式构建的:
对基础训练文本集合中的各所述基础训练文本分别进行拆分处理,得到各所述基础训练文本包括的文本片段;基于各所述基础训练文本包括的文本片段,构建参考文本片段集合;
基于所述参考文本片段集合中的各参考文本片段训练词向量模型,得到各所述参考文本片段各自的词向量;
构建所述待替换文本片段对应的候选片段集合时,针对所述参考文本片段集合中的每个参考文本片段,根据所述参考文本片段的词向量以及所述待替换文本片段的词向量,确定所述参考文本片段与所述待替换文本片段之间的相似度,作为所述参考文本片段对应的参考相似度;
在所述参考文本片段集合中,选取出所对应的参考相似度满足预设相似条件的参考文本片段,组成所述待替换文本片段对应的候选片段集合。
3.根据权利要求2所述的方法,其特征在于,所述从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,包括:
按照预设顺序,排列所述候选片段集合中各参考文本片段各自对应的参考相似度,得到参考相似度序列;
针对所述参考相似度序列中的每个参考相似度,将所述参考相似度与所述参考相似度序列中位于所述参考相似度前的各参考相似度累加,得到所述参考相似度对应的累加相似度;并对所述累加相似度进行归一化处理,得到所述参考相似度对应的参考累加相似度;
基于随机生成的相似度参考值,在所述参考相似度序列中各参考相似度各自对应的参考累加相似度中,选取出目标参考累加相似度;确定所述目标参考累加相似度对应的参考相似度对应的参考文本片段,作为所述目标替换文本片段。
4.根据权利要求2所述的方法,其特征在于,所述对基础训练文本集合中的各所述基础训练文本分别进行拆分处理,得到各所述基础训练文本包括的文本片段;基于各所述基础训练文本包括的文本片段,构建参考文本片段集合,包括:
对所述基础训练文本集合中的各所述基础训练文本分别进行分词处理,得到各所述基础训练文本包括的基础分词;
针对每个所述基础分词,根据包括所述基础分词的各所述基础训练文本,确定是否存在所述基础分词对应的关联分词;若存在,则利用所述基础分词及其对应的关联分词组成基础短语;
利用各所述基础训练文本包括的基础分词和各所述基础短语,组成所述参考文本片段集合。
5.根据权利要求1或2所述的方法,其特征在于,所述基础训练文本是通过以下方式生成的:
在目标网络平台上,获取目标发布文本以及其对应的各反馈文本;所述目标网络平台是支持针对发布文本执行反馈操作的网络平台;所述目标发布文本是通过文本发布操作发布的文本,所述反馈文本是通过针对所述目标发布文本执行直接反馈操作或间接反馈操作时产生的文本;
将所述目标发布文本以及其对应的各反馈文本组合起来,得到所述基础训练文本。
6.根据权利要求5所述的方法,其特征在于,当所述目标网络平台是支持针对发布文本执行回复操作的网络平台时,所述反馈文本是通过针对所述目标发布文本执行直接回复操作或间接回复操作时产生的文本;
所述将所述目标发布文本以及其对应的各反馈文本组合起来,得到所述基础训练文本,包括:
根据所述目标发布文本的发布时间和各所述反馈文本对应的回复时间,通过分隔符将所述目标发布文本和各所述反馈文本级联成单个文本,得到所述基础训练文本。
7.根据权利要求5所述的方法,其特征在于,当所述目标网络平台是支持针对发布文本执行转发操作的网络平台时,所述反馈文本是通过针对所述目标发布文本执行直接转发操作或间接转发操作时产生的文本;
所述将所述目标发布文本以及其对应的各反馈文本组合起来,得到所述基础训练文本,包括:
根据各所述反馈文本相对于所述目标发布文本的转发关系,构建转发关系图谱;所述转发关系图谱中包括多个节点,所述节点对应于所述目标发布文本或所述反馈文本;
根据所述转发关系图谱、所述目标发布文本的发布时间、以及各所述反馈文本对应的转发时间,通过分隔符将所述目标发布文本和各所述反馈文本级联成单个文本,得到所述基础训练文本。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在候选处理模式集合中,针对所述目标文本片段序列选择目标处理模式;所述候选处理模式集合包括粗粒度处理模式、细粒度处理模式以及混合粒度处理模式;所述粗粒度处理模式用于使文本片段序列中各文本片段均为粗粒度文本片段,所述细粒度处理模式用于使文本片段序列中各文本片段均为细粒度文本片段,所述混合粒度处理模式用于使文本片段序列中同时包括粗粒度文本片段和细粒度文本片段;
基于所述目标处理模式处理所述目标文本片段序列,得到目标训练文本片段序列;
则所述将所述目标文本片段序列及其对应的标签标注结果作为训练样本,包括:
将所述目标训练文本片段序列及其对应的标签标注结果,作为所述训练样本;所述标签标注结果包括所述目标训练文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过。
9.根据权利要求8所述的方法,其特征在于,所述基于所述目标处理模式处理所述目标文本片段序列,得到目标训练文本片段序列,包括:
当所述目标处理模式为粗粒度处理模式时,将所述目标文本片段序列,作为所述目标训练文本片段序列;
当所述目标处理模式为细粒度处理模式时,针对所述目标文本片段序列中的每个文本片段进行细化拆分处理,得到每个文本片段对应的子文本片段;利用所述目标文本片段序列中各文本片段各自对应的子文本片段,组成所述目标训练文本片段序列;
当所述目标处理模式为混合粒度处理模式时,在所述目标文本片段序列中确定待拆分文本片段和不拆分文本片段;对所述待拆分文本片段进行细化拆分处理,得到所述待拆分文本片段对应的子文本片段;利用所述目标文本片段序列中各所述待拆分文本片段各自对应的子文本片段、以及各所述不拆分文本片段,组成所述目标训练文本片段序列。
10.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本训练文本语义识别模型,包括:
根据所述目标文本片段序列中各文本片段各自对应的词向量和位置向量,生成训练输入向量;
通过所述文本语义识别模型,根据所述训练输入向量,确定所述目标文本练片段序列中各文本片段各自对应的预测标签;
根据所述目标文本片段序列中各文本片段各自对应的标注标签和预测标签,构建目标损失函数;
基于所述目标损失函数,调整所述文本语义识别模型的模型参数。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
完成对于所述文本语义识别模型的训练后,通过所述文本语义识别模型,对待处理文本进行处理;
基于所述文本语义识别模型中最后一个编码网络的输出结果,确定所述待处理文本的文本全局语义向量;
根据所述待处理文本的文本全局语义向量,执行目标文本处理任务。
12.一种模型训练装置,其特征在于,所述装置包括:
文本拆分模块,用于获取基础训练文本;并对所述基础训练文本进行拆分处理,得到所述基础训练文本对应的基础文本片段序列;
片段替换模块,用于在所述基础文本片段序列中确定待替换文本片段;并从所述待替换文本片段对应的候选片段集合中选出目标替换文本片段,利用所述目标替换文本片段替换所述基础文本片段序列中的所述待替换文本片段,得到目标文本片段序列;
样本构建模块,用于将所述目标文本片段序列及其对应的标签标注结果作为训练样本;所述标签标注结果包括所述目标文本片段序列中各文本片段各自对应的标注标签,所述标注标签用于表征其对应的文本片段是否被替换过;
模型训练模块,用于基于所述训练样本训练文本语义识别模型;所述文本语义识别模型用于针对输入的文本片段序列预测其中各文本片段是否被替换过。
13.一种计算机设备,其特征在于,所述设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至11中任一项所述的模型训练方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至11中任一项所述的模型训练方法。
15.一种计算机程序产品,包括计算机程序或者指令,其特征在于,所述计算机程序或者所述指令被处理器执行时,实现权利要求1至11中任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111455084.4A CN113887245B (zh) | 2021-12-02 | 2021-12-02 | 一种模型训练方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111455084.4A CN113887245B (zh) | 2021-12-02 | 2021-12-02 | 一种模型训练方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887245A true CN113887245A (zh) | 2022-01-04 |
CN113887245B CN113887245B (zh) | 2022-03-25 |
Family
ID=79016222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111455084.4A Active CN113887245B (zh) | 2021-12-02 | 2021-12-02 | 一种模型训练方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887245B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
WO2019201068A1 (zh) * | 2018-04-18 | 2019-10-24 | 山东科技大学 | 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
WO2021169288A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
WO2021217935A1 (zh) * | 2020-04-29 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 问题生成模型的训练方法、问题生成方法及其相关设备 |
-
2021
- 2021-12-02 CN CN202111455084.4A patent/CN113887245B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
WO2019201068A1 (zh) * | 2018-04-18 | 2019-10-24 | 山东科技大学 | 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
WO2021169288A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
WO2021217935A1 (zh) * | 2020-04-29 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 问题生成模型的训练方法、问题生成方法及其相关设备 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113887245B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684478B (zh) | 分类模型训练方法、分类方法及装置、设备和介质 | |
CN108255805B (zh) | 舆情分析方法及装置、存储介质、电子设备 | |
Potash et al. | Here's my point: Joint pointer architecture for argument mining | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
Jose et al. | Prediction of election result by enhanced sentiment analysis on twitter data using classifier ensemble Approach | |
CN110209844B (zh) | 多媒体数据匹配方法、装置和存储介质 | |
JP5157314B2 (ja) | 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム | |
CN110569354B (zh) | 弹幕情感分析方法及装置 | |
CN113505204B (zh) | 召回模型训练方法、搜索召回方法、装置和计算机设备 | |
Drovo et al. | Named entity recognition in Bengali text using merged hidden Markov model and rule base approach | |
Man et al. | Selecting optimal context sentences for event-event relation extraction | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Subramanian et al. | A survey on sentiment analysis | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
Alexandridis et al. | A knowledge-based deep learning architecture for aspect-based sentiment analysis | |
Hasan et al. | Sentiment classification in bangla textual content: A comparative study | |
Guo et al. | Who is answering whom? Finding “Reply-To” relations in group chats with deep bidirectional LSTM networks | |
MacDermott et al. | Using deep learning to detect social media ‘trolls’ | |
Zhuang et al. | An ensemble approach to conversation generation | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN113887245B (zh) | 一种模型训练方法及相关装置 | |
Liu et al. | Finding social media trolls: Dynamic keyword selection methods for rapidly-evolving online debates | |
Ragit et al. | Stress analysis based on social interactions on social media networks-twitter | |
CN114942986B (zh) | 文本生成方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |