CN113515942A - 文本处理方法、装置、计算机设备及存储介质 - Google Patents

文本处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113515942A
CN113515942A CN202011545249.2A CN202011545249A CN113515942A CN 113515942 A CN113515942 A CN 113515942A CN 202011545249 A CN202011545249 A CN 202011545249A CN 113515942 A CN113515942 A CN 113515942A
Authority
CN
China
Prior art keywords
text
character
scene
sample
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011545249.2A
Other languages
English (en)
Inventor
吴坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011545249.2A priority Critical patent/CN113515942A/zh
Publication of CN113515942A publication Critical patent/CN113515942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本处理方法、装置、计算机设备及存储介质,属于计算机领域。本申请通过对主场景和副场景两种不同的样本文本,分别进行文本特征的提取、命名实体识别以及场景类型的预测,得到样本文本的预测实体、预测实体类型和预测场景类型,通过预测场景类型来判别提取到的文本特征是否能够表征主场景与副场景的样本文本之间的共性信息,基于对抗学习的思想对初始语言模型进行参数调整,得到目标语言模型,这一目标语言模型提取出的文本特征能够表征多场景文本的共性信息,且能够用于精准识别跨场景文本中的命名实体,而并不局限于某一特定场景的文本,从而提高了文本处理的准确度,提升了模型的泛化能力。

Description

文本处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种文本处理方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术及信息产业的发展,海量的文本数据不断产生,如何高效地从海量的文本数据中提取出有用的信息成为一个研究热点。在信息抽取技术中,命名实体识别(Named Entity Recognition,NER)是一项重要的任务,NER的目的是从给定的文本数据中识别出具有特定意义的实体,该实体包括但不限于人名、地名、机构名、专有名词等。
通常,将待处理文本输入到双向长短时记忆(Bi-directional Long Short-TermMemory,Bi-LSTM)模型中提取文本特征,将提取到的文本特征输入到条件随机场(Conditional Random Field,CRF)模型中进行序列标注,以识别出文本数据中的实体词语。
在上述过程中,由于NER识别通常都基于特定场景的文本进行训练,导致Bi-LSTM模型和CRF模型仅针对某一特定场景的文本具有较高的NER识别效果,但在其他场景的文本上进行文本处理的准确度较差,也即模型的泛化能力较差。
发明内容
本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,能够提升NER识别准确度。该技术方案如下:
一方面,提供了一种文本处理方法,所述方法包括:
将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征,所述多个样本文本包括主场景的样本文本和副场景的样本文本;
基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型;
基于所述文本特征,获取所述多个样本文本的预测场景类型,所述预测场景类型包括所述主场景和所述副场景;
基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型,所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征,所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。
一方面,提供了一种文本处理装置,该装置包括:
输入输出模块,用于将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征,所述多个样本文本包括主场景的样本文本和副场景的样本文本;
实体识别模块,用于基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型;
获取模块,用于基于所述文本特征,获取所述多个样本文本的预测场景类型,所述预测场景类型包括所述主场景和所述副场景;
对抗学习模块,用于基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型,所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征,所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。
在一种可能实施方式中,所述获取模块用于:
将所述文本特征输入梯度反转层,通过所述梯度反转层对所述文本特征进行恒等变换,得到恒等变换后的特征;
将所述恒等变换后的特征输入场景判别网络,通过所述场景判别网络分别对所述多个样本文本进行分类,输出所述多个样本文本的所述预测场景类型;
其中,所述梯度反转层用于在前向传播中对所述文本特征进行恒等变换、在反向传播中更改所述场景判别网络回传的梯度符号。
在一种可能实施方式中,所述对抗学习模块用于:
基于所述预测实体、所述预测实体类型和所述多个样本文本的实体标注信息,确定第一损失函数值;
基于所述预测场景类型和所述多个样本文本的场景标注信息,确定第二损失函数值;
基于所述第一损失函数值和所述第二损失函数值,确定本次迭代过程的目标损失函数值;
响应于所述目标损失函数值不符合停止条件,迭代训练所述初始语言模型,直到所述目标损失函数值符合所述停止条件,得到所述目标语言模型。
在一种可能实施方式中,所述输入输出模块用于:
对任一样本文本进行字符划分,得到所述任一样本文本的字符序列;
将所述字符序列输入所述初始语言模型中的至少一个编码层;
通过所述至少一个编码层对所述字符序列进行编码,将最后一个编码层输出的特征序列确定为所述任一样本文本的文本特征。
在一种可能实施方式中,所述实体识别模块包括:
第一输出单元,用于对任一样本文本,将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符,所述第一字符为所述预测实体的首位字符;
第二输出单元,用于将所述任一样本文本的文本特征输入第二全连接网络,输出所述任一样本文本中的第二字符,所述第二字符为所述预测实体的末位字符;
确定单元,用于基于所述第一字符和所述第二字符,确定所述预测实体和所述预测实体类型。
在一种可能实施方式中,所述第一输出单元用于:
调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第一概率,一个第一概率用于表示所述字符序列中的一个字符为第一字符的可能性;
基于所述至少一个第一概率,确定所述任一样本文本中的第一字符。
在一种可能实施方式中,所述第一输出单元用于:
调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第二概率,一个第二概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第一字符的可能性;
基于所述至少一个第二概率,确定所述任一样本文本中的第一字符和所述第一字符所对应的预测实体类型。
在一种可能实施方式中,所述第二输出单元用于:
将所述任一样本文本的文本特征和所述加权后的特征进行拼接,得到目标拼接特征;
调用所述第二全连接网络对所述目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第三概率,一个第三概率用于表示所述字符序列中的一个字符为第二字符的可能性;
基于所述至少一个第三概率,确定所述任一样本文本中的第二字符。
在一种可能实施方式中,所述第二输出单元用于:
将所述任一样本文本的文本特征和所述加权后的特征进行拼接,得到目标拼接特征;
调用所述第二全连接网络对所述目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第四概率,一个第四概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第二字符的可能性;
基于所述至少一个第四概率,确定所述任一样本文本中的第二字符和所述第二字符所对应的预测实体类型。
在一种可能实施方式中,所述主场景的样本文本为内容项文本,所述副场景的样本文本包括资讯文本、应用程序描述文本或者物品描述文本中的至少一项。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的文本处理方法。
一方面,提供了一种存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实现方式的文本处理方法。
一方面,提供一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得计算机设备能够执行上述任一种可能实施方式的文本处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过对主场景和副场景两种不同的样本文本,分别进行文本特征的提取、命名实体识别以及场景类型的预测,得到样本文本的预测实体、预测实体类型和预测场景类型,通过预测场景类型来判别提取到的文本特征是否能够表征主场景与副场景的样本文本之间的共性信息,基于对抗学习的思想对初始语言模型进行参数调整,得到目标语言模型,这一目标语言模型提取出的文本特征能够表征多场景文本的共性信息,且能够用于精准识别跨场景文本中的命名实体,而并不局限于某一特定场景的文本,从而提高了文本处理的准确度,提升了模型的泛化能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理方法的实施环境示意图;
图2是本申请实施例提供的一种文本处理方法的系统架构图;
图3示出了本申请实施例提供的一种用户画像标签的示意图;
图4是本申请实施例提供的一种广告系统的原理性示意图;
图5是本申请实施例提供的一种文本处理方法的流程图;
图6是本申请实施例提供的一种BERT模型的原理性示意图;
图7是本申请实施例提供的一种第一全连接网络的原理性示意图;
图8是本申请实施例提供的一种文本处理方法的原理性流程图;
图9是本申请实施例提供的一种文本处理方法的原理性示意图;
图10是本申请实施例提供的一种文本处理方法的流程图;
图11是本申请实施例提供的一种文本处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一位置是指两个或两个以上的第一位置。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。
让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中,自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括命名实体识别、机器翻译、文本预处理、语义理解、机器人问答、知识图谱等技术。
在NLP技术中,命名实体识别(Named Entity Recognition,NER)又称为实体识别、实体分块和实体提取,是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在NLP技术走向实用化的过程中占有重要地位。一般来说,NER的任务就是识别出待处理文本中具有特定意义的实体,例如,实体可包括人名、地名、机构名、专有名词等。
在一些实施例中,给定一段纯文本,在进行NER识别时包括两个子任务,其一是识别实体边界,其二是识别实体类型,实体边界是指实体从哪个字符开始、到哪个字符结束,实体类型是指实体具体属于哪一个行业标签。在一个示例中,给定一段纯文本:
“XX月XX日,汽车公司A的汽车品牌B正式宣布:知名影视演员C将出任全新一代汽车车系D的代言人,影视演员C作为国内一线明星在影视剧领域所取得的成就和良好的公众形象有目共睹,作为华语影视圈极富才华与实力的男演员,影视演员C先后主演了《剧目1》、《剧目2》、《剧目3》等多部大火的银幕作品。”
基于上述文本进行NER,可识别出的实体包括:汽车公司A-组织机构,汽车品牌B-汽车品牌,影视演员C-娱乐人物,汽车车系D-汽车车系,剧目1-作品,剧目2-作品,剧目3-作品。其中,符号“-”前面的字符是指识别出的实体,符号“-”后面的字符是指识别出的实体类型,而实体的首位字符和末位字符构成了实体边界。以剧目1为例,剧目1的首位字符和末位字符构成了剧目1的实体边界。
在相关技术中执行NER任务时,一方面,将经过词语划分的待处理文本输入到双向长短时记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)模型中提取文本特征,将文本特征输入到条件随机场(Conditional Random Field,CRF)模型中进行序列标注,以识别出文本数据中的实体词语。由于在提取文本特征时需要对文本进行词语划分,并以词语为基本单位来进行命名实体识别,一旦划分出的词语错误,这一错误会在Bi-LSTM模型和CRF模型中传播,导致识别出的实体边界错误,因此NER识别准确度差。另一方面,由于NER识别通常都基于特定类型的文本进行训练,导致Bi-LSTM模型和CRF模型仅针对某一特定类型的文本具有较高的NER识别效果,但在其他场景的文本上进行文本处理的准确度较差,也即模型的泛化能力较差,而由于需要进行NER识别的场景类型常常跨行业、跨场景,因此亟需一种能够针对跨行业、跨场景的文本进行NER精准识别的方法。
进一步地,在针对多场景下的文本进行NER识别时,可借鉴多任务学习的思想,把一种特定场景下的文本NER识别作为主任务,把其余场景下的文本NER识别作为辅任务,通过多任务学习来充分利用多场景下的文本。然而,多任务学习并没有考虑到多场景之间的文本差异,辅任务反而会为主任务带来噪声,导致整个NER模型的效果变差。
有鉴于此,本申请实施例提供一种文本处理方法,能够将多场景、多行业的文本数据联合起来,打破单一场景下的文本数据孤岛,能够实现联合价值,找到不同场景下文本数据之间的分布相似部分,通过对抗学习能够找出主场景和副场景的共性信息,提高深度学习模型在只有少量标注数据的目标场景多行业NER任务上的性能。此外,还能够基于样本文本的字符序列提取出文本特征,并基于两个全连接网络分别识别出实体的首位字符和末位字符,并将从首位字符到末位字符之间的各个字符确定为命名实体,并进一步确定出命名实体所属的实体类型,由于这一方式能够从字符层面识别实体边界,而并非从词汇层面来直接识别实体,因此并不会传递分词错误,提升了NER识别的准确度。可选地,上述多行业是指待识别的实体分布于不同的行业,也即NER任务关注的是各个行业内的细粒度实体,例如,涉及6个行业20种实体类型。
可选地,上述多场景是指待处理文本分布于多种不同的应用场景,该应用场景是指待处理文本所处的语言环境(俗称为语境),换言之,一个待处理文本的应用场景是指产生该待处理文本时所具有的语言环境,例如,假设待处理文本为内容项文本,由于内容项文本通常所处的语言环境都是用作广告文案,因此内容项文本所在的应用场景称为广告场景。
可选地,待处理文本的场景类型可以包括主场景和副场景,主场景通常是指命名实体识别任务所针对的业务场景,而副场景则是指除了主场景之外的其他场景,副场景可以包括一种或多种,本申请实施例不对副场景的类型进行具体限定。需要说明的是,在不同业务场景下可以设置不同的主场景,换言之,同一场景的待处理文本可以在一种业务场景下属于主场景,但在另一种业务场景下属于副场景。
在一些实施例中,在采集到多场景的待处理文本后,可以将标注信息最少的文本所属的场景作为主场景,将除了主场景之外的其他所有场景作为副场景,这样即使针对一些具有很少标注信息的主场景的待处理文本,也能够通过结合副场景的待处理文本的标注信息进行对抗训练,提取不同场景的待处理文本之间的共性信息,也即利用副场景的标注信息来协助训练主场景的文本特征表达能力,能够在无需额外付出人工标注成本的基础上,大大提升针对主场景的待处理文本的特征提取能力,从而进一步提升针对主场景的待处理文本的NER识别准确度。
在一个示例中,在广告业务场景下,主场景的待处理文本是指内容项文本,副场景的待处理文本则包括资讯文本、应用程序(Application,APP)描述文本、物品描述文本等。在另一示例中,在APP业务场景下,主场景的待处理文本是指APP描述文本,而副场景的待处理文本则包括内容项文本、资讯文本、物品描述文本等。例如,该内容项文本可以为广告,该资讯文本可以为资讯文章,该应用程序描述文本可以为应用程序详情信息,该物品描述文本可以为电商上架的商品标题,本申请实施例不对待处理文本的内容进行具体限定。
以下,对本申请实施例的系统架构进行说明。
图1是本申请实施例提供的一种文本处理方法的实施环境示意图。参见图1,在该实施环境中包括终端101和服务器102,下面进行详述:
终端101是能够提供待处理的样本文本的任一计算机设备,终端101安装和运行有能够提供样本文本的应用程序,可选地,该样本文本包括内容项文本、资讯文本、应用程序描述文本或者物品描述文本中的至少一项,本申请实施例不对此进行具体限定。终端101在经过用户的授权后,采集与用户相关的样本文本,比如,以社交应用为例,终端101在用户授权的情况下,采集用户在社交应用中浏览过的资讯文本、分享过的商品标题、点击过的广告以及终端101上安装的各个应用程序的描述文本等,将采集到的文本作为样本文本发送至服务器102。
终端101以及服务器102之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
服务器102是能够提供NER服务的任一计算机设备,当服务器102接收到该终端101发送的样本文本时,通过本申请实施例提供的文本处理方法,训练得到能够提取出不同场景的样本文本之间共性信息的目标语言模型,将目标语言模型投入到下游的NER任务中,基于目标语言模型可以提取输入文本的文本特征,并识别出输入文本中的命名实体,基于识别出的实体构建用户的画像标签,将这一画像标签投入到其他各类任务中。例如,画像标签可用于对终端101进行广告推荐、商品推荐、资讯推荐、应用程序推荐等各类资源推荐任务中,以提升资源推荐准确性。
在一些实施例中,服务器102包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。服务器102用于基于接收到的样本文本训练目标语言模型。可选地,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,终端101与服务器102之间采用分布式计算架构进行协同计算。
可选地,服务器102是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。
可选地,终端101的设备类型包括:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器或者电子书阅读器中至少一项,但并不局限于此。
本领域技术人员可以知晓,终端101可以泛指多个终端中的一个,上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个,或者上述终端101为几十个或几百个,或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。
图2是本申请实施例提供的一种文本处理方法的系统架构图,请参考图2,服务器获取终端采集的多场景文本201,例如,多场景文本201由终端基于用户的历史行为数据进行挖掘得到,多场景文本201包括但不限于用户点击过的广告、用户安装或下载过的应用程序描述文本、用户购买过的电商商品标题、用户阅读过的资讯文本等,服务器对多场景文本201进行多场景命名实体识别(NER),识别出多场景文本201中的实体(Item)标签,该实体标签可用于进行广告上下文内容分析、利用排序模型抽取广告语义特征或者其他广告场景的下游任务,进一步地,基于该实体标签可对用户行为建模,得到用户实体词标签(User Tag)202,也即用户的画像标签,基于该用户实体词标签202可进行用户行为兴趣定向,并构建用户语义特征203,用户语义特征203也可投入到整个广告系统中,用于预测用户可能感兴趣的广告,或者投入到推荐系统中,用于预测用户可能感兴趣的商品,提升定点投放的准确度,提升用户转化率。
图3示出了本申请实施例提供的一种用户画像标签的示意图,请参考图3,300所示的用户画像标签由多个实体标签构成,通过对多场景文本进行多行业命名实体识别,使得识别出的各个实体标签能够从各种维度来反映这一用户的画像,使得用户语义特征具有更好的表达能力。
图4是本申请实施例提供的一种广告系统的原理性示意图,请参考图4,在广告系统400中包括投放端401和流量端402,投放端401也即服务端,流量端402也即客户端。在一些实施例中,投放端401根据用户的画像标签,可进行曝光/人群预估、智能创意制作、定向标签推荐等任务,在投放端401可配置广告索引数据库。进一步地,广告播放引擎接收流量端402的广告请求之后,基于投放端401所提供的广告索引数据库,利用NLP、用户标签、机器学习、分布式检索等技术进行广告的定向检索和广告召回;对于召回的广告,可以利用粗排模型进行粗选排序,粗排过程可以俗称为“万里挑百”,粗排阶段的关键技术包括但不限于:NLP、推荐算法、机器学习、分布式计算等;对于粗排挑选出的广告,可以利用精排模型进行精选排序,精排过程可以俗称为“百里挑一”,精排阶段的关键技术包括但不限于:NLP、推荐算法、机器学习、分布式计算等,然后,广告播放引擎将精排阶段中的排序靠前的广告发送至流量端402。也即是说,用户的画像标签可以应用于整个广告系统400,可以应用于投放、检索召回、粗排、精排中任一阶段,贯穿着整个广告系统,除此以外,实体标签还广泛的应用于上下文广告、广告主标签搜索推荐服务、垂直行业专项优化等项目。
由于本申请实施例所涉及的待处理文本(也即样本文本),分布于多场景、多行业,也即文本处理方法要处理的任务是多场景多行业的NER,多场景是指待处理文本包括但不限于:内容项文本、应用程序描述文本、物品描述文本、资讯文本,多行业则是指模型关注的是各个行业内的细粒度实体。如表1所示,示出了涉及13个行业69种实体类型的细粒度实体类型。需要说明的是,表1仅为细粒度实体类型的一种示例性说明,但不应构成对本申请实施例提供的文本处理方法所识别的实体的限定。
表1
Figure BDA0002855813300000121
Figure BDA0002855813300000131
Figure BDA0002855813300000141
图5是本申请实施例提供的一种文本处理方法的流程图。参见图5,该实施例应用于计算机设备,以计算机设备为服务器为例进行说明,该实施例包括下述步骤:
501、服务器将多个样本文本输入初始语言模型,输出该多个样本文本的文本特征,该多个样本文本包括主场景的样本文本和副场景的样本文本。
可选地,该样本文本包括内容项文本、资讯文本、应用程序描述文本或者物品描述文本中的至少一项,本申请实施例不对此进行具体限定。在一个示例中,该内容项文本为广告,该资讯文本为资讯文章,该应用程序描述文本为应用程序详情信息,该物品描述文本为电商上架的商品标题。
在一些实施例中,服务器将任一场景的样本文本作为主场景的样本文本,将其余场景的样本文本作为副场景的样本文本;或者,服务器将NER任务的业务场景的样本文本作为主场景的样本文本,将其余场景的样本文本作为副场景的样本文本;或者,服务器将标注信息最少的场景的样本文本作为主场景的样本文本,将其余场景的样本文本作为副场景的样本文本,本申请实施例不对主场景、副场景两者的选取方式进行具体限定。例如,选取内容项文本作为主场景的样本文本,选取资讯文本、应用程序描述文本或者物品描述文本中的至少一项作为副场景的样本文本。
在一些实施例中,终端根据用户的历史行为数据,采集得到多个样本文本,向服务器发送多个样本文本,服务器接收该多个样本文本,并调用初始语言模型提取该多个样本文本的文本特征。或者,终端向服务器发送用户的历史行为数据,由服务器对该历史行为数据进行分析,得到该多个样本文本,并调用初始语言模提取该多个样本文本的文本特征。本申请实施例不对样本文本的来源进行具体限定。
在一些实施例中,对任一样本文本,服务器在提取该任一样本文本的文本特征时,先对该任一样本文本进行字符划分(token),得到该任一样本文本的字符序列,再将该字符序列输入该初始语言模型中的至少一个编码层,通过该至少一个编码层对该字符序列进行编码,将最后一个编码层输出的特征序列确定为该任一样本文本的文本特征。
可选地,服务器利用分词(Token)工具对该任一样本文本进行字符划分,这里的字符划分是指将一段样本文本中的各个字符拆解成一个字符序列,其中,字符包括中文字、数字、特殊符号、标点符号等。
可选地,该初始语言模型是一个Seq2Seq(Sequence-To-Sequence,序列到序列)模型,Seq2Seq模型的输入是一个序列(样本文本的字符序列),输出也是一个序列(样本文本的特征序列)。初始语言模型包括输入层、至少一个编码层和输出层,输入层中包括经过字符划分所得的字符序列,编码层则用于对输入层中的字符序列进行编码,输出层则用于输出字符序列所对应的特征序列(也即该样本文本的文本特征)。
在一些实施例中,该Seq2Seq模型的架构包括但不限于:BERT(BidirectionalEncoder Representation From Transformers,采用双向编码表示的翻译模型)、ERNIE(Enhanced Language Representation with Informative Entities,利用信息实体增强语言表示的模型)、XLNET(Generalized Autoregressive Pretraining for LanguageUnderstanding,基于广义自回归的预训练语言模型)、SpanBERT(Improving Pre-trainingby Representing and Predicting Spans,基于表现和预测跨度的改进预训练BERT模型)、Transformers(一种经典的翻译模型)、NNLM(Neural Network Language Model,神经网络语言模型)、ELMo(Embeddings From Language Models,采用嵌入处理的语言模型)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、Bi-LSTM(BidirectionalLong Short-Term Memory,双向长短期记忆网络)、GRU(Gated Recurrent Unit,门循环单元)等,本申请实施例不对初始语言模型的架构进行具体限定。
在一些实施例中,服务器在对该字符序列进行编码之前,可以对该字符序列进行嵌入(embedding)处理,将各个字符映射成embedding空间的各个embedding向量,然后将各个embedding向量输入该初始语言模型的至少一个编码层。
在上述过程中,通过对各个字符进行embedding处理,能够将各个字符从自然语言转换成易于机器处理的embedding向量,便于后续编码层的编码工作,能够提升模型处理速率。在一些实施例中,也可以采用独热编码(one-hot)的方式获取到各个字符对应的特征向量,并将各个特征向量输入到编码层中,这样可以简化预处理流程,本申请实施例对此不作具体限定。
在一些实施例中,以初始语言模型为BERT模型为例进行说明,BERT模型是一种基于Transformers结构的深度双向语言表征模型,在本质上利用Transformers结构构造了一个多层双向的编码(Encoder)网络。BERT模型包括至少一个双向编码层,每个双向编码层用于对输入信号进行正向编码和反向编码,每个双向编码层的输出作为下一个双向编码层的输入。在每个双向编码层中包括两部分,一部分是注意力网络,另一部分是前向全连接层,注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得,使得每一个隐层都能和上一层的所有隐层直接关联,利用输入的长序列信息(也即字符序列)能够得到一个用于表征全局化信息的隐层向量(也即文本特征),而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工,以增强整个BERT模型的学习能力。
BERT模型的编码过程包括:将该字符序列输入到BERT模型中的至少一个双向编码层,通过该至少一个双向编码层对该字符序列进行正向编码和反向编码,将最后一个双向编码层中输出的特征序列获取为该样本文本的文本特征。
以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该字符序列所对应的embedding向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该embedding向量序列进行加权,以提取该embedding向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最后一个双向编码层所输出的隐向量序列也即是该样本文本的文本特征。由于在双向编码层中引入注意力机制,能够在每次进行语义编码时,使得各个字符聚焦于与自身关联较大(关系更密切)的字符,使得最终获取的语义特征具有更高的准确性。
在上述过程中,服务器通过双向编码层对字符序列中的各个字符分别进行了正向编码和反向编码,通过正向编码使得每个字符的特征能够融合该字符之前出现的历史字符的相关信息,而通过反向编码使得每个字符的特征能够融合该字符之后出现的未来字符的相关信息,两个方向的编码操作能够大大提升各个字符的特征的表达能力,也即能够提升该文本特征的表达能力。
图6是本申请实施例提供的一种BERT模型的原理性示意图,如600所示,以单个句子(Single Sentence)作为样本文本,对样本文本进行字符划分,得到字符序列{[CLS],Tok1,Tok2,…,TokN},其中,[CLS]为分类符。接着,对字符序列中的各个字符进行embedding预处理,得到各个字符的embedding向量序列{E[CLS],E1,E2,…,EN},将embedding向量序列输入到BERT模型的各个双向编码层中进行正向编码和反向编码,将最后一个双向编码层所输出的特征序列{C,T1,T2,…,TN}获取为该样本文本的文本特征。
由于在相关技术中,输入层都是以“词语”为基本单位进行命名实体识别,一旦分词产生错误,则这个错误会在整个命名实体识别过程中传播,并且直接采用预处理得到的embedding向量作为文本特征,那么这一静态的embedding向量无法处理动态词义的问题,也即是说,尽管同一词语(多义词)在不同语境中具有不同的含义,但却对应于同一个静态的embedding向量。
而在本申请实施例中,通过引入BERT模型对各个字符的embedding向量(也即输入序列)进行建模,在输入层中以字符为基本单位,避免了传递分词错误,并且在识别命名实体时,也并不以词语为基本单位,而是仍然以字符为基本单位,分别识别出各个实体的首位字符和各个实体的末位字符,从而实现以字符为基本单位的实体边界精准识别。
502、服务器基于该文本特征,对该多个样本文本进行命名实体识别,得到该多个样本文本中的预测实体和该预测实体所对应的预测实体类型。
在一些实施例中,对任一样本文本,服务器可以将该任一样本文本的文本特征输入第一全连接(Full Connected,FC)网络,输出该任一样本文本中的第一字符,该第一字符为该预测实体的首位字符;将该任一样本文本的文本特征输入第二全连接网络,输出该任一样本文本中的第二字符,该第二字符为该预测实体的末位字符;基于该第一字符和该第二字符,确定该预测实体和该预测实体类型。其中,该第一全连接网络用于识别出文本中的第一字符,该第二全连接网络用于识别出文本中的第二字符。
在上述过程中,由于在初始语言模型之上接了两个全连接网络,分别用于识别各个实体的首位字符和末位字符,因此这两个全连接网络可以视为一个整体的“二元模型”,该二元模型用于建模实体标签之间的转移关系。
可选地,该第一全连接网络包括输入层、至少一个隐藏层和输出层,输入层中包括该文本特征,该至少一个隐藏层用于对该文本特征进行加权处理,该输出层中包括该第一字符,可选地,该隐藏层的数量可以仅为一个,或者为两个或两个以上,本申请实施例不对隐藏层的数量进行具体限定。
在上述过程中,通过第一全连接网络对文本特征进行处理,能够基于字符序列中各个字符的特征,预测出字符序列中的第一字符,可选地,该第一全连接网络可以是二分类模型,也即用于识别出每个字符是否为第一字符,输出标签为“是(Yes)”或者“否(No)”,或者,该第一全连接网络可以是多分类模型,也即不但用于识别出每个字符是否为第一字符,而且用于识别各个第一字符具体属于哪种实体类型,本申请实施例不对第一全连接网络的类型进行具体限定。
在一些实施例中,以第一全连接网络为二分类模型为例,服务器调用该第一全连接网络对该任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化(Softmax)处理,得到至少一个第一概率,一个第一概率用于表示该字符序列中的一个字符为第一字符的可能性;基于该至少一个第一概率,确定该任一样本文本中的第一字符。
可选地,服务器将第一概率大于第一阈值的字符确定为该第一字符,该第一阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过二分类模型来识别字符序列中的第一字符,能够降低识别第一字符时的计算复杂度,提升命名实体的识别效率。
在一些实施例中,以第一全连接网络为多分类模型为例,服务器调用该第一全连接网络对该任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第二概率,一个第二概率用于表示该字符序列中的一个字符为与一种实体类型对应的第一字符的可能性;基于该至少一个第二概率,确定该任一样本文本中的第一字符和该第一字符所对应的预测实体类型。
可选地,对每个字符,第一全连接网络输出该字符的多个第二概率,每个第二概率用于表示该字符为与一种实体类型对应的第一字符的可能性,服务器确定该多个第二概率中的最大值,也即最大第二概率,将最大第二概率大于第二阈值的字符确定为该第一字符,且将最大第二概率所对应的实体类型确定为第一字符的预测实体类型,该第二阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过多分类模型来识别字符序列中的第一字符,不仅能够识别出属于位于命名实体首位的第一字符,而且还能够进一步识别出第一字符所对应的预测实体类型,提升了命名实体识别的准确度,且方便了基于识别出的实体构建用户画像标签、执行资源推荐等下游任务。
图7是本申请实施例提供的一种第一全连接网络的原理性示意图,如700所示,第一全连接网络包括输入层、隐藏层和输出层,这里仅以单个隐藏层(也即全连接层)为例进行说明,输入层中包括文本特征(也即各个字符的特征,可构成一个特征序列),在隐藏层中,每个神经元对输入层中所有字符的特征进行加权处理,得到加权后的特征,利用Softmax函数对加权后的特征进行映射,可得到第一概率或第二概率,在输出层中,基于各个字符的第一概率或第二概率,确定各个字符是否为第一字符,并输出识别出的第一字符。
在一些实施例中,服务器在识别第二字符时,将该任一样本文本的文本特征和该加权后的特征进行拼接(Concat),得到目标拼接特征;将该目标拼接特征输入第二全连接网络,通过该第二全连接网络对该目标拼接特征进行处理,输出该第二字符。
可选地,该第二全连接网络包括输入层、至少一个隐藏层和输出层,输入层中包括该目标拼接特征,该至少一个隐藏层用于对该目标拼接特征进行加权处理,该输出层中包括该第二字符,可选地,该隐藏层的数量可以仅为一个,或者为两个或两个以上,本申请实施例不对隐藏层的数量进行具体限定。第二全连接网络的结构与上述图7所示的第一全连接网络的结构类似,这里不做赘述。
在上述过程中,通过第二全连接网络对目标拼接特征进行处理,能够基于各个字符的特征以及各个字符在经过第一全连接网络加权后的特征,预测出字符序列中的第二字符,可选地,该第二全连接网络可以是二分类模型,也即用于识别出每个字符是否为第二字符,输出标签为“是(Yes)”或者“否(No)”,或者,该第二全连接网络可以是多分类模型,也即不但用于识别出每个字符是否为第二字符,而且用于识别各个第二字符具体属于哪种实体类型,本申请实施例不对第二全连接网络的类型进行具体限定。
在上述过程中,服务器对该文本特征和该加权后的特征进行拼接,得到目标拼接特征,是将该文本特征和该加权后的特征进行融合的一种可能实施方式,拼接方式能够降低特征融合的计算复杂度,在一些实施例中,服务器还可以对该文本特征和该加权后的特征进行按元素相加、按元素相乘、双线性汇合等,能够充分对该文本特征和该加权后的特征进行融合,本申请实施例不对融合方式进行具体限定。
在一些实施例中,以第二全连接网络为二分类模型为例,服务器调用该第二全连接网络对该目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第三概率,一个第三概率用于表示该字符序列中的一个字符为第二字符的可能性;基于该至少一个第三概率,确定该任一样本文本中的第二字符。
可选地,服务器将第三概率大于第三阈值的字符确定为该第二字符,该第三阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过二分类模型来识别各个字符中的第二字符,能够降低识别第二字符时的计算复杂度,提升命名实体的识别效率。
在一些实施例中,以第二全连接网络为多分类模型为例,服务器调用该第二全连接网络对该目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第四概率,一个第四概率用于表示该字符序列中的一个字符为与一种实体类型对应的第二字符的可能性;基于该至少一个第四概率,确定该任一样本文本中的第二字符和该第二字符所对应的预测实体类型。
可选地,对每个字符,第二全连接网络输出该字符的多个第四概率,每个第四概率用于表示该字符为与一种实体类型对应的第二字符的可能性,服务器确定该多个第四概率中的最大值,也即最大第四概率,将最大第四概率大于第四阈值的字符确定为该第二字符,且将最大第四概率所对应的实体类型确定为第二字符的预测实体类型,该第四阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过多分类模型来识别各个字符中的第二字符,不仅能够识别出属于位于命名实体末位的第二字符,而且还能够进一步识别出第二字符所对应的预测实体类型,提升了命名实体识别的准确度,且方便了基于识别出的实体构建用户画像标签、执行资源推荐等下游任务。
在一些实施例中,服务器在基于该第一字符和该第二字符,确定该预测实体和该预测实体类型时,如果第一全连接网络和第二全连接网络均为二分类模型,则对每个第一字符,确定该第一字符之后且与该第一字符距离最近的第二字符,将该第一字符、该第二字符以及该第一字符与第二字符之间的所有字符确定为一个预测实体,以此类推,可预测得到所有的命名实体。
在上述基础上,对主场景和副场景的所有样本文本,服务器可以构建与各个场景下的样本文本对应的多种可能的实体类型,服务器中可预存有各个命名实体与各个实体类型之间的映射关系,基于该映射关系,确定出各个命名实体所对应的预测实体类型,这样能够简化实体类型识别的流程。
可选地,服务器还可以将识别出的各个命名实体再输入到一个多分类模型中,通过该多分类模型识别出各个命名实体所属的预测实体类型,这样能够提升预测实体类型的准确度。其中,该多分类模型用于确定命名实体所对应的实体类型,该多分类模型包括但不限于:逻辑回归(Logistic Regression,LR)模型、支持向量机(Support Vector Machine,SVM)、分类树(Classification Tree)等。
在一些实施例中,服务器在基于该第一字符和该第二字符,确定该预测实体和该预测实体类型时,如果第一全连接网络和第二全连接网络均为多分类模型,则对每个第一字符,基于该第一字符的预测实体类型,查询与该预测实体类型对应的第二字符,将上述第一字符、上述第二字符以及上述第一字符与第二字符之间的所有字符确定为一个预测实体,且能够直接得到该预测实体所对应的预测实体类型,以此类推,可预测得到所有的命名实体及其所属的实体类型。
图8是本申请实施例提供的一种文本处理方法的原理性流程图,如800所示,对多场景文本(即多个样本文本)“宝马发布新宝马3系”进行字符划分,得到各个字符所构成的字符序列{[CLS],宝,马,发,布,新,宝,马,3,系,[SEP]},其中,[CLS]为分类符,置于字符序列的首位,[SEP]为语句分隔符,用于分隔样本文本中的不同语句。接着,对该字符序列进行embedding预处理,得到各个字符的embedding向量序列{E[CLS],E,E,E,E,E,E,E,E3,E,E[SEP]},将该embedding向量序列输入到BERT模型(即目标语言模型)中进行双向编码,最后一个双向编码层输出文本特征{C,T,T,T,T,T,T,T,T3,T,T[SEP]}。接着,以第一全连接网络和第二全连接网络均为多分类模型为例进行说明,服务器将该文本特征输入到第一全连接网络中,基于第一全连接网络预测各个第一字符及其预测实体类型,然后将该文本特征以及第一全连接网络的加权后特征输入到第二全连接网络中,基于第二全连接网络预测各个第二字符及其预测实体类型。这里将各个第一字符视为开始(Start)层,将各个第二字符视为结束(End)层。在本示例中,识别出两个第一字符,分别包括样本文本中的第一个字符“宝”,预测实体类型的标识码为51(汽车品牌),以及样本文本中的第六个字符“宝”,预测实体类型的标识码为52(车系)。
在相关技术中,都是将实体边界和实体类型同时建模,用CRF模型进行解码,每个实体类型标签需要和4个实体边界标签进行组合,而本申请实施例提供的细粒度实体类型组合后的标签数高达277个,而过多的标签数会影响模型的解码效果,且CRF无法解决标签重叠的问题。
在本申请实施例中,通过BERT模型与二元模型结合的方法,能够提升多行业细粒度命名实体识别问题,二元模型用两层来分别建模哪类实体的开始和结尾。其中,Start层采用多分类的方式来建模哪类实体的开始(识别第一字符),End层采用多分类的方式来建模哪类实体的结尾(识别第二字符),同时在计算End层时还考虑Start层的计算结果,也即End层的输入不但包括文本特征,还包括Start层产出的加权后特征,用于影响End层的计算结果。Start层是一个全连接层,输入是BERT模型输出的文本特征(例如,长度为768的向量),输出为当前字符是哪类实体类型的开始,如果不属于任一实体类型的开始,则输出“0”。End层也是一个全连接层,输入是目标拼接特征,该目标拼接特征是由BERT模型输出的文本特征(例如,长度为768的向量)和Start层输出的加权后特征(本质上仍是一个Embedding向量)做拼接操作所得,输出为当前字符是哪类实体类型的结尾,如果不属于任一实体类型的结尾,则输出“0”。
需要说明的是,上述过程提供的基于BERT模型和二元模型结合的方式来识别样本文本的命名实体以及对应的实体类型,由于BERT模型和二元模型以及下述步骤503中涉及的场景判别网络,三者是联合进行对抗训练的,因此三个模型都会在迭代过程中进行参数调整,以使得整体模型的损失函数达到最小。也即是说,在训练得到目标语言模型之后,将任一个待处理文本输入到目标语言模型中提取文本特征,将文本特征输入到二元模型进行命名实体识别时,仍然可以通过二元模型来逐个字符判断是否为第一字符或第二字符,从而避免分词错误的持续传播。
503、服务器基于该文本特征,获取该多个样本文本的预测场景类型,该预测场景类型包括该主场景和该副场景。
可选地,服务器将该文本特征输入梯度反转层,通过该梯度反转层对该文本特征进行恒等变换,得到恒等变换后的特征;将该恒等变换后的特征输入场景判别网络,通过该场景判别网络分别对该多个样本文本进行分类,输出该多个样本文本的该预测场景类型;其中,该梯度反转层用于在前向传播中对该文本特征进行恒等变换、在反向传播中更改该场景判别网络回传的梯度符号。
梯度反转层在模型的前向计算和反向传播过程的数学原理可用伪函数R(x)形式化地表示为如下公式:
R(x)=X
Figure BDA0002855813300000231
其中,x表示输入梯度反转层的文本特征,R(x)表示经过梯度反转层进行恒等变换后的特征,dR/dx表示R对x求一阶导数,I表示单位矩阵。
分析上述公式可知,梯度反转层在模型的前向计算过程相当于恒等变化,而在模型的误差反向传播学习过程中改变了由场景判别网络回传的梯度符号。
在上述过程中,通过增加梯度反转层,一方面能够保证在前向计算中进行恒等变换时,场景判别网络可以基于恒等变换后的特征来进行场景类型的识别,以确保场景类型的识别准确度,避免丢失掉文本特征中的细节信息导致场景类型判别错误。
另一方面,由于BERT模型是用于提取共性信息,而场景判别网络是用于提取差异信息(也即个性化信息),可见两者的训练目标是恰恰相反的,正是基于BERT模型和场景判别网络两者之间的对抗学习才能训练得到最终的目标语言模型。而在反向传播中,模型将损失(预测值和真实值的差距)逐层向后传递,然后每层网络都会根据传回来的误差计算梯度,进而更新本层网络的参数,通过梯度反转层能够将传到本层的误差乘以一个负数(从而能够改变回传的梯度符号),这样就会使得梯度反转层前后的网络其训练目标相反,以实现对抗学习的效果。
504、服务器基于该预测实体、该预测实体类型和该预测场景类型,对该初始语言模型进行对抗学习,得到目标语言模型,该目标语言模型用于提取表征该主场景和该副场景的样本文本之间的共性信息的文本特征,该目标语言模型提取到的该文本特征用于识别对应文本中的命名实体。
在上述过程中,该目标语言模型用于提取输入文本的文本特征,使得该文本特征能够表征出输入文本分别在主场景和副场景下的共性信息,进一步可以将目标语言模型提取到的文本特征投入到下游的NER识别任务中,例如,将文本特征输入到二元模型(第一全连接网络和第二全连接网络)中,以识别出输入文本中的各个命名实体以及对应的实体类型。
可选地,服务器基于该预测实体、该预测实体类型和该多个样本文本的实体标注信息,确定第一损失函数值;基于该预测场景类型和该多个样本文本的场景标注信息,确定第二损失函数值;基于该第一损失函数值和该第二损失函数值,确定本次迭代过程的目标损失函数值;响应于该目标损失函数值不符合停止条件,迭代训练该初始语言模型,直到该目标损失函数值符合该停止条件,得到该目标语言模型。
可选地,该停止条件为目标损失函数值小于目标阈值,或者,该停止条件为迭代次数大于次数阈值,该目标阈值为任一大于或等于0且小于或等于1的数值,该次数阈值为任一大于或等于1的整数。
在一些实施例中,由于人工标注的场景标注信息可能会出错,为了降低人工标注错误的信息对模型产生过大的负面影响,可以在第二损失函数上考虑标签平滑正则化。标签平滑的主要思想是假设样本以阿尔法(α)的概率为其它实体类型,从而降低标签置信度,这样在训练时就可以避免模型“过分”相信样本文本的场景标注信息。因此,第二损失函数可以采用带标签平滑的交叉熵损失函数,如下述公式:
Figure BDA0002855813300000251
其中,H(y,p)表示第二损失函数值,K为实体类型的类别数,α为标签平滑所引入的超参数,yk在k为正确类别时为1,其余情况为0,也即是yk∈{0,1},pt为正确类别对应的输出概率,pi为错误类别对应的输出概率,pk为未知类别(任一类别)对应的输出概率。
在上述对抗学习(也称为对抗训练)过程中,涉及到初始语言模型、二元模型(第一全连接网络和第二全连接网络)和场景判别网络。在样本文本分布于多行业、多场景的情况下,对抗训练能够打破多场景文本的数据孤岛,实现多场景文本的联合价值,能够学习到主场景和其他场景的共性信息。
可选地,初始语言模型和二元模型用于进行命名实体识别,能够学习属于不同场景训练文本的共性信息,而场景判别网络则用于学习不同场景训练文本的个性化信息,并且,二元模型和场景判别网络共享初始语言模型输出的特征向量。
在不同场景样本文本中公有实体的学习过程中,以不同场景作为分类目标进行对抗学习,能够优化公有实体的学习质量,使得模型收敛于真实数据(指技术人员的标注数据),二元模型和场景判别网络学习到的信息对于整个训练任务都体现出积极作用。
图9是本申请实施例提供的一种文本处理方法的原理性示意图,请参考图9,以广告场景作为主场景,其他场景(如资讯、APP、电商)作为副场景为例,在优化单一主场景时,通过对抗学习来学习主场景和其他场景之间的共性信息。由于联合使用对抗样本和原始样本参与深度学习模型的训练,称为对抗训练,在本申请实施例中,原始样本是指广告场景标注文本,对抗样本是指APP场景标注文本、资讯场景标注文本以及电商场景标注文本。由于单场景的标注数据存在明显的稀疏,因此结合多场景的标注数据集有望进一步提升模型的性能。虽然不同场景的训练文本可能分布差异较大,但可以通过学习场景无关的文本特征(指语义特征),增强模型的泛化性能。
对抗训练框架主要划分为4个部分:数据输入模块901、特征抽取模块(共享向量)902、命名实体识别模块903和场景判别模块904。数据输入模块901中包括多行业、多场景的样本文本,以及各个样本文本的实体标注信息和场景标注信息。特征抽取模块902中包括多行业、多场景的样本文本中涉及到的相同实体及相同实体类型,利用BERT模型对这些共性信息进行特征抽取,可得到能够表征该共性信息的文本特征。命名实体识别模块903用于基于BERT模型输出的文本特征,获取样本文本中的各个预测实体及预测实体类型。场景判别模块904则用于基于BERT模型输出的文本特征,获取样本文本的预测场景类型。可选地,场景判别模块904主要通过抽取在主场景和副场景可迁移的特征表示,来降低不同场景数据的分布差异,从而能够提高深度学习模型在只有少量标注数据的主场景多行业命名实体识别任务上的性能。
基于上述示例,通过对抗学习能够学习出广告场景与其他场景的样本文本数据之间分布相似的部分,从而将Domain-Share(共性信息)与Domain-Special(个性化信息)进行有效区分。
在上述过程中,对抗训练的主要目标是将主场景训练数据和副场景训练数据映射到一个共同的特征空间,以降低主场景与副场景训练数据分布之间的差异性,从而提高只有少量标注数据的主场景NER模型的性能。通过引入一个场景判别模块904,并在特征抽取模块902与场景判别网络之间添加梯度反转层,能够实现上述训练目标。形象地来说,整个对抗学习策略相当于一个双人博弈游戏,其中一个玩家是场景判别器Gd(也即场景判别网络),用于区分输入的数据来自主场景还是副场景,也即用于区分输入样本的场景类型;另外一个玩家是特征抽取器Gf(也即BERT模型),用来迷惑场景判别器Gd,使它无法正确地区分数据来源,也即使得抽取出的文本特征尽可能地剥离掉不同场景的个性化信息。
在一些实施例中,该场景判别网络为一个场景二分类模型,该场景二分类模型用于判别输入文本的场景类型是否为主场景,也即,将BERT模型提取到的文本特征输入梯度反转层中进行恒等变换,将恒等变换后的特征输入到场景二分类模型中,场景二分类模型的输出为“是”(YES)或者“否”(NO),如果该场景二分类模型输出“是”,说明对场景类型的预测结果为主场景,如果该场景二分类模型输出“否”,说明对场景类型的预测结果为副场景。可选地,上述场景二分类模型包括但不限于:LR模型、SVM模型、分类树模型、决策树模型、梯度提升决策树模型等。
在一些实施例中,为了抽取领域不变性的文本特征,特征抽取模块902通过最大化场景判别器的损失函数Ld来学习参数θf,场景判别器通过最小化损失函数Ld来调整场景判别器的参数θd。整个对抗学习框架的损失函数还包括最小化目标任务的损失函数Ly。整个场景对抗学习框架的目标代价函数如下:
Figure BDA0002855813300000271
其中,Cost表示目标代价函数(也即目标损失函数值),xi表示第i个样本文本,yi表示第i个样本文本的实体标注信息,di表示第i个样本文本的场景标注信息,Gf表示BERT模型,Gy表示二元模型,Gd表示场景判别器,θf表示BERT模型Gf的模型参数,θy表示二元模型Gy的模型参数,θd表示场景判别器Gd的模型参数,Ly表示第一损失函数值,Ld表示第二损失函数值,Ds表示副场景的样本文本数据集,Dt表示主场景的样本文本数据集,ns表示Ds的样本容量,n表示Ds和Dt的并集的样本容量。
可选地,BERT模型和二元模型可以采用分层学习率,需要说明的是,学习率(Learning Rate,也称学习速率)是模型训练过程的一个超参数,学习率代表了神经网络中随时间推移时信息累积的速度。学习率能够控制模型的有效容量,当学习率最优时模型的有效容量最大。而分层学习率,则是指针对BERT模型中的各个双向编码层分别设置不同的学习率,或者,针对二元模型中的两个全连接网络分别设置不同的学习率。通过分层学习率能够使得二元模型的对抗学习更加充分,并在模型训练过程中对预训练后的BERT模型进行参数微调,使得BERT模型能够更好地拟合多行业多场景命名实体识别任务。
上述基于场景迁移的对抗学习策略,能够训练多场景多行业的命名实体识别任务,可以将包含较多标注数据的其他场景样本训练分类器,对抗迁移至只有少量标注数据的主场景进行微调(Finetune)和测试。由于训练数据和测试数据具有一定的分布差异,传统训练方法很难在主场景上取得较好的性能,然而通过领域迁移的对抗学习方法,能够将模型从副场景数据集有效地迁移到主场景数据集,从而大大降低了对主场景数据集进行标注的人力成本,提升了模型训练效率。
表2是传统NER方案与本申请实施例提供的NER方案的效果对比表,如表2所示,以广告场景为主场景、其他场景为副场景为例进行测试,可以看出,BERT模型+二元模型相较于传统的Bi-LSTM+CRE模型,在准确率、召回率及F值等指标上均有显著提升,尤其F值提升了7.13%。其中,F值是一种统计量,是准确率和召回率的加权调和平均值,是一种用于评价分类模型性能优劣的指标。
表2
F值 准确率 召回率
Bi-LSTM+CRF 0.8569 0.8246 0.89185
BERT+二元模型+对抗学习 0.9282 0.9275 0.9288
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,通过对主场景和副场景两种不同的样本文本,分别进行文本特征的提取、命名实体识别以及场景类型的预测,得到样本文本的预测实体、预测实体类型和预测场景类型,通过预测场景类型来判别提取到的文本特征是否能够表征主场景与副场景的样本文本之间的共性信息,基于对抗学习的思想对初始语言模型进行参数调整,得到目标语言模型,这一目标语言模型提取出的文本特征能够表征多场景文本的共性信息,且能够用于精准识别跨场景文本中的命名实体,而并不局限于某一特定场景的文本,从而提高了文本处理的准确度,提升了模型的泛化能力。
图10是本申请实施例提供的一种文本处理方法的流程图,请参考图10,该实施例应用于计算机设备,以计算机设备为服务器为例,将对如何利用目标语言模型对待处理文本进行命名实体识别的过程进行说明,该实施例包括下述步骤:
1001、服务器获取待处理文本,该待处理文本包括内容项文本、资讯文本、应用程序描述文本或者物品描述文本中的至少一项。
其中,该待处理文本是指待识别命名实体的文本。
在一些实施例中,该内容项文本为广告,该资讯文本为资讯文章,该应用程序描述文本为应用程序详情信息,该物品描述文本为电商上架的商品标题。
在一些实施例中,终端根据用户的历史行为数据,采集得到待处理文本,向服务器发送待处理文本,服务器接收该待处理文本。
在一些实施例中,终端向服务器发送用户的历史行为数据,由服务器对该历史行为数据进行分析,得到该待处理文本,本申请实施例不对待处理文本的来源进行具体限定。
1002、服务器对该待处理文本进行字符划分,得到该待处理文本的字符序列。
可选地,服务器利用分词(Token)工具对待处理文本进行字符划分,这里的字符划分是指将一段待处理文本中的各个字符拆解成一个字符序列,其中,字符包括中文字、数字、特殊符号、标点符号等。
1003、服务器调用目标语言模型对该字符序列进行特征提取,得到该待处理文本的文本特征。
其中,该文本特征用于表示该待处理文本中的字符的特征。
可选地,该目标语言模型是一个Seq2Seq模型,Seq2Seq模型的输入是一个序列(待处理文本的字符序列),输出也是一个序列(待处理文本的特征序列)。目标语言模型包括输入层、至少一个编码层和输出层,输入层中包括经过字符划分所得的字符序列,编码层则用于对输入层中的字符序列进行编码,输出层则用于输出字符序列所对应的特征序列(也即该待处理文本的文本特征)。
在一些实施例中,该Seq2Seq模型的架构包括但不限于:BERT、ERNIE、XLNET、SpanBERT、Transformers、NNLM、ELMo、CNN、RNN、LSTM、Bi-LSTM、GRU等,本申请实施例不对目标语言模型的架构进行具体限定。
可选地,服务器将该字符序列输入该目标语言模型中的至少一个编码层;通过该至少一个编码层对该字符序列进行编码,将最后一个编码层输出的特征序列确定为该文本特征。
在一些实施例中,服务器在对该字符序列进行编码之前,可以对该字符序列进行embedding处理,将各个字符映射成embedding空间的各个embedding向量,然后将各个embedding向量输入该目标语言模型的至少一个编码层。
在上述过程中,通过对各个字符进行embedding处理,能够将各个字符从自然语言转换成易于机器处理的embedding向量,便于后续编码层的编码工作,能够提升模型处理速率。在一些实施例中,也可以采用one-hot编码的方式获取到各个字符对应的特征向量,并将各个特征向量输入到编码层中,这样可以简化预处理流程,本申请实施例对此不作具体限定。
在一些实施例中,以目标语言模型为BERT模型为例进行说明,BERT模型是一种基于Transformers结构的深度双向语言表征模型,在本质上利用Transformers结构构造了一个多层双向的编码(Encoder)网络。BERT模型包括至少一个双向编码层,每个双向编码层用于对输入信号进行正向编码和反向编码,每个双向编码层的输出作为下一个双向编码层的输入。在每个双向编码层中包括两部分,一部分是注意力网络,另一部分是前向全连接层,注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得,使得每一个隐层都能和上一层的所有隐层直接关联,利用输入的长序列信息(也即字符序列)能够得到一个用于表征全局化信息的隐层向量(也即文本特征),而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工,以增强整个BERT模型的学习能力。
BERT模型的编码过程包括:将该字符序列输入到BERT模型中的至少一个双向编码层,通过该至少一个双向编码层对该字符序列进行正向编码和反向编码,将最后一个双向编码层中输出的特征序列获取为该待处理文本的文本特征。
以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该字符序列所对应的embedding向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该embedding向量序列进行加权,以提取该embedding向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最后一个双向编码层所输出的隐向量序列也即是该待处理文本的文本特征。由于在双向编码层中引入注意力机制,能够在每次进行语义编码时,使得各个字符聚焦于与自身关联较大(关系更密切)的字符,使得最终获取的语义特征具有更高的准确性。
在上述过程中,服务器通过双向编码层对字符序列中的各个字符分别进行了正向编码和反向编码,通过正向编码使得每个字符的特征能够融合该字符之前出现的历史字符的相关信息,而通过反向编码使得每个字符的特征能够融合该字符之后出现的未来字符的相关信息,两个方向的编码操作能够大大提升各个字符的特征的表达能力,也即能够提升该文本特征的表达能力。
在上述步骤1002-1003中,提供了服务器获取待处理文本的文本特征的一种可能实施方式,基于目标语言模型对各个字符的embedding向量(也即输入序列)进行建模,在输入层中以字符为基本单位,避免了传递分词错误,并且在识别命名实体时,也并不以词语为基本单位,而是仍然以字符为基本单位,分别识别出各个实体的首位字符和各个实体的末位字符,从而实现以字符为基本单位的实体边界精准识别。
在另一些实施例中,也可以在对待处理文本进行字符划分,得到字符序列后,直接将各个字符的embedding向量作为该文本特征,从而能够简化文本处理流程,提升获取文本特征的速率。
1004、服务器调用第一全连接网络对该文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第二概率,一个第二概率用于表示该字符序列中一个字符为与一种实体类型对应的第一字符的可能性。
其中,该第一全连接网络用于基于文本特征识别出文本中的第一字符,而每个第一字符为该待处理文本中的实体的首位字符。
可选地,该第一全连接网络包括输入层、至少一个隐藏层和输出层,输入层中包括该文本特征,该至少一个隐藏层用于对该文本特征进行加权处理,该输出层中包括该至少一个第一字符,可选地,该隐藏层的数量可以仅为一个,或者为两个或两个以上,本申请实施例不对隐藏层的数量进行具体限定。
在上述过程中,通过第一全连接网络对文本特征进行处理,能够基于各个字符的特征,预测出字符序列中的第一字符,可选地,该第一全连接网络可以是二分类模型,也即用于识别出每个字符是否为第一字符,输出标签为“是(Yes)”或者“否(No)”,或者,该第一全连接网络可以是多分类模型,也即不但用于识别出每个字符是否为第一字符,而且用于识别各个第一字符具体属于哪种实体类型,本申请实施例不对第一全连接网络的类型进行具体限定。
在本申请实施例中,以第一全连接网络为多分类模型为例进行说明,多分类模型表示分类任务中有多个类别,比如对一堆水果图片分类,它们可能是橘子、苹果、梨等,多分类是假设每个样本都被设置了一个且仅有一个标签,一个水果可以是苹果或者梨,但是同时不可能是两者。
在上述步骤1004中,服务器可以将该文本特征输入到第一全连接网络的至少一个隐藏层中,在每个隐藏层中包括多个神经元,每个神经元对输入层中所有字符的特征进行加权处理,得到加权后的特征,利用Softmax函数对加权后的特征进行映射,得到至少一个第二概率,并执行下述步骤1005。
1005、服务器基于该至少一个第二概率,确定该待处理文本中的至少一个第一字符和该至少一个第一字符所对应的至少一种实体类型。
可选地,对每个字符,第一全连接网络输出该字符的多个第二概率,每个第二概率用于表示该字符为与一种实体类型对应的第一字符的可能性,服务器确定该多个第二概率中的最大值,也即最大第二概率,将最大第二概率大于第二阈值的至少一个字符确定为该至少一个第一字符,且将最大第二概率所对应的实体类型确定为第一字符的实体类型,该第二阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过多分类模型来识别各个字符中的第一字符,不仅能够识别出属于位于命名实体首位的第一字符,而且还能够进一步识别出第一字符所对应的实体类型,提升了命名实体识别的准确度,且方便了基于识别出的实体构建用户画像标签、执行资源推荐等下游任务。
在一些实施例中,在第一全连接网络为二分类模型时,上述步骤1004-1005还可以采用下述方式进行替换:服务器调用该第一全连接网络对该文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第一概率,一个第一概率用于表示该字符序列中的一个字符为第一字符的可能性;基于该至少一个第一概率,确定该至少一个第一字符。可选地,服务器将第一概率大于第一阈值的至少一个字符确定为该至少一个第一字符,该第一阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过二分类模型来识别字符序列中的第一字符,能够降低识别第一字符时的计算复杂度,提升命名实体的识别效率。
在上述步骤1004-1005中,服务器将该文本特征输入第一全连接网络,通过该第一全连接网络对该文本特征进行处理,输出该至少一个第一字符,换言之,服务器基于该文本特征,确定该待处理文本中的至少一个第一字符,由于在确定实体边界时是以字符为基本单位、利用第一全连接网络逐字符进行识别,因此能够避免在识别实体时传递分词错误,提升了命名实体识别的准确度。
1006、服务器将该文本特征和该加权后的特征进行拼接,得到目标拼接特征。
在上述过程中,服务器通过对该文本特征和该加权后的特征进行拼接,得到目标拼接特征,是将该文本特征和该加权后的特征进行融合的一种可能实施方式,拼接方式能够降低特征融合的计算复杂度。
在一些实施例中,服务器还可以对该文本特征和该加权后的特征进行按元素相加、按元素相乘、双线性汇合等,能够充分对该文本特征和该加权后的特征进行融合,本申请实施例不对融合方式进行具体限定。
1007、服务器调用第二全连接网络对该目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第四概率,一个第四概率用于表示该字符序列中一个字符为与一种实体类型对应的第二字符的可能性。
其中,该第二全连接网络用于基于目标拼接特征识别出文本中的第二字符,每个第二字符为该待处理文本中的实体的末位字符。
可选地,该第二全连接网络包括输入层、至少一个隐藏层和输出层,输入层中包括该目标拼接特征,该至少一个隐藏层用于对该目标拼接特征进行加权处理,该输出层中包括该至少一个第二字符,可选地,该隐藏层的数量可以仅为一个,或者为两个或两个以上,本申请实施例不对隐藏层的数量进行具体限定。
在上述过程中,通过第二全连接网络对目标拼接特征进行处理,能够基于各个字符的特征以及各个字符在经过第一全连接网络加权后的特征,预测出各个字符中的第二字符,可选地,该第二全连接网络可以是二分类模型,也即用于识别出每个字符是否为第二字符,输出标签为“是(Yes)”或者“否(No)”,或者,该第二全连接网络可以是多分类模型,也即不但用于识别出每个字符是否为第二字符,而且用于识别各个第二字符具体属于哪种实体类型,本申请实施例不对第二全连接网络的类型进行具体限定。
在本申请实施例中,以第二全连接网络为多分类模型为例进行说明,服务器可以将该目标拼接特征输入到第二全连接网络的至少一个隐藏层中,在每个隐藏层中包括多个神经元,每个神经元对输入层中的目标拼接特征进行加权处理,得到加权后的特征,利用Softmax函数对加权后的特征进行映射,得到至少一个第四概率,并执行下述步骤1008。
1008、服务器基于该至少一个第四概率,确定该待处理文本中的至少一个第二字符和该至少一个第二字符所对应的至少一种实体类型。
可选地,对每个字符,第二全连接网络输出该字符的多个第四概率,每个第四概率用于表示该字符为与一种实体类型对应的第二字符的可能性,服务器确定该多个第四概率中的最大值,也即最大第四概率,将最大第四概率大于第四阈值的至少一个字符确定为该至少一个第二字符,且将最大第四概率所对应的实体类型确定为第二字符的实体类型,该第四阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过多分类模型来识别字符序列中的第二字符,不仅能够识别出属于位于命名实体末位的第二字符,而且还能够进一步识别出第二字符所对应的实体类型,提升了命名实体识别的准确度,且方便了基于识别出的实体构建用户画像标签、执行资源推荐等下游任务。
在一些实施例中,在第二全连接网络为多分类模型时,上述步骤1007-1008还可以采用下述方式进行替换:服务器调用该第二全连接网络对该目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第三概率,一个第三概率用于表示该字符序列中一个字符为第二字符的可能性;基于该至少一个第三概率,确定该至少一个第二字符。可选地,服务器将第三概率大于第三阈值的至少一个字符确定为该至少一个第二字符,该第三阈值为任一大于或等于0且小于或等于1的数值。
在上述过程中,通过二分类模型来识别字符序列中的第二字符,能够降低识别第二字符时的计算复杂度,提升命名实体的识别效率。
在上述步骤1007-1008中,服务器将该目标拼接特征输入第二全连接网络,通过该第二全连接网络对该目标拼接特征进行处理,输出该至少一个第二字符,换言之,服务器基于该文本特征和该至少一个第一字符,确定该待处理文本中的至少一个第二字符,由于在确定实体边界时是以字符为基本单位、利用第二全连接网络逐字符进行识别,因此能够避免在识别实体时传递分词错误,提升了命名实体识别的准确度。
1009、服务器基于该至少一个第一字符和该至少一个第二字符,确定该待处理文本中的至少一个实体和该至少一个实体所对应的实体类型。
在一些实施例中,如果第一全连接网络和第二全连接网络均为二分类模型,则对每个第一字符,确定该第一字符之后且与该第一字符距离最近的第二字符,将该第一字符、该第二字符以及该第一字符与第二字符之间的所有字符确定为一个实体,以此类推,可识别出所有的命名实体。
在上述基础上,对任一场景类型的待处理文本,服务器确定与该场景类型所对应的多个可能的实体类型,服务器中可预存有各个命名实体与各个实体类型之间的映射关系,基于该映射关系,确定出各个命名实体所对应的实体类型,这样能够简化实体类型识别的流程。
可选地,服务器还可以将识别出的各个命名实体再输入到一个多分类模型中,通过该多分类模型识别出各个命名实体所属的实体类型,这样能够提升实体类型识别的准确度。其中,该多分类模型用于确定命名实体所对应的实体类型,该多分类模型包括但不限于:逻辑回归(Logistic Regression,LR)模型、支持向量机(Support Vector Machine,SVM)、分类树(Classification Tree)等。
在一些实施例中,如果第一全连接网络和第二全连接网络均为多分类模型,则对每个第一字符,基于该第一字符的实体类型,从该至少一个第二字符中查询与该实体类型对应的第二字符,将该第一字符、该第二字符以及该第一字符与第二字符之间的所有字符确定为一个实体,并将该实体类型确定为识别出的实体所对应的实体类型,以此类推,可识别出所有的命名实体及其所属的实体类型。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,基于任一待处理文本的文本特征,以字符为NER识别的基本单位,分别识别出位于各个实体首位的第一字符和位于各个实体末位的第二字符,从而确定出待处理文本中的各个实体和各个实体的实体类型,由于输入文本涉及多行业、多场景,而不同的待处理文本所对应的实体类型也不尽相同,因此这种文本NER识别方式并不局限于某一特定类型的文本,在不损失NER识别准确性的同时还具有更好的泛化能力。
图11是本申请实施例提供的一种文本处理装置的结构示意图,请参考图11,该装置包括:
输入输出模块1101,用于将多个样本文本输入初始语言模型,输出该多个样本文本的文本特征,该多个样本文本包括主场景的样本文本和副场景的样本文本;
实体识别模块1102,用于基于该文本特征,对该多个样本文本进行命名实体识别,得到该多个样本文本中的预测实体和该预测实体所对应的预测实体类型;
获取模块1103,用于基于该文本特征,获取该多个样本文本的预测场景类型,该预测场景类型包括该主场景和该副场景;
对抗学习模块1104,用于基于该预测实体、该预测实体类型和该预测场景类型,对该初始语言模型进行对抗学习,得到目标语言模型,该目标语言模型用于提取表征该主场景和该副场景的样本文本之间的共性信息的文本特征,该目标语言模型提取到的该文本特征用于识别对应文本中的命名实体。
本申请实施例提供的装置,通过对主场景和副场景两种不同的样本文本,分别进行文本特征的提取、命名实体识别以及场景类型的预测,得到样本文本的预测实体、预测实体类型和预测场景类型,通过预测场景类型来判别提取到的文本特征是否能够表征主场景与副场景的样本文本之间的共性信息,基于对抗学习的思想对初始语言模型进行参数调整,得到目标语言模型,这一目标语言模型提取出的文本特征能够表征多场景文本的共性信息,且能够用于精准识别跨场景文本中的命名实体,而并不局限于某一特定场景的文本,从而提高了文本处理的准确度,提升了模型的泛化能力。
在一种可能实施方式中,该获取模块1103用于:
将该文本特征输入梯度反转层,通过该梯度反转层对该文本特征进行恒等变换,得到恒等变换后的特征;
将该恒等变换后的特征输入场景判别网络,通过该场景判别网络分别对该多个样本文本进行分类,输出该多个样本文本的该预测场景类型;
其中,该梯度反转层用于在前向传播中对该文本特征进行恒等变换、在反向传播中更改该场景判别网络回传的梯度符号。
在一种可能实施方式中,该对抗学习模块1104用于:
基于该预测实体、该预测实体类型和该多个样本文本的实体标注信息,确定第一损失函数值;
基于该预测场景类型和该多个样本文本的场景标注信息,确定第二损失函数值;
基于该第一损失函数值和该第二损失函数值,确定本次迭代过程的目标损失函数值;
响应于该目标损失函数值不符合停止条件,迭代训练该初始语言模型,直到该目标损失函数值符合该停止条件,得到该目标语言模型。
在一种可能实施方式中,该输入输出模块1101用于:
对任一样本文本进行字符划分,得到该任一样本文本的字符序列;
将该字符序列输入该初始语言模型中的至少一个编码层;
通过该至少一个编码层对该字符序列进行编码,将最后一个编码层输出的特征序列确定为该任一样本文本的文本特征。
在一种可能实施方式中,基于图11的装置组成,该实体识别模块1102包括:
第一输出单元,用于对任一样本文本,将该任一样本文本的文本特征输入第一全连接网络,输出该任一样本文本中的第一字符,该第一字符为该预测实体的首位字符;
第二输出单元,用于将该任一样本文本的文本特征输入第二全连接网络,输出该任一样本文本中的第二字符,该第二字符为该预测实体的末位字符;
确定单元,用于基于该第一字符和该第二字符,确定该预测实体和该预测实体类型。
在一种可能实施方式中,该第一输出单元用于:
调用该第一全连接网络对该任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第一概率,一个第一概率用于表示该字符序列中的一个字符为第一字符的可能性;
基于该至少一个第一概率,确定该任一样本文本中的第一字符。
在一种可能实施方式中,该第一输出单元用于:
调用该第一全连接网络对该任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第二概率,一个第二概率用于表示该字符序列中的一个字符为与一种实体类型对应的第一字符的可能性;
基于该至少一个第二概率,确定该任一样本文本中的第一字符和该第一字符所对应的预测实体类型。
在一种可能实施方式中,该第二输出单元用于:
将该任一样本文本的文本特征和该加权后的特征进行拼接,得到目标拼接特征;
调用该第二全连接网络对该目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第三概率,一个第三概率用于表示该字符序列中的一个字符为第二字符的可能性;
基于该至少一个第三概率,确定该任一样本文本中的第二字符。
在一种可能实施方式中,该第二输出单元用于:
将该任一样本文本的文本特征和该加权后的特征进行拼接,得到目标拼接特征;
调用该第二全连接网络对该目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第四概率,一个第四概率用于表示该字符序列中的一个字符为与一种实体类型对应的第二字符的可能性;
基于该至少一个第四概率,确定该任一样本文本中的第二字符和该第二字符所对应的预测实体类型。
在一种可能实施方式中,该主场景的样本文本为内容项文本,该副场景的样本文本包括资讯文本、应用程序描述文本或者物品描述文本中的至少一项。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的文本处理装置在处理文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本处理装置与文本处理方法实施例属于同一构思,其具体实现过程详见文本处理方法实施例,这里不再赘述。
图12是本申请实施例提供的一种计算机设备的结构示意图。以计算机设备为终端1200为例进行说明,可选地,该终端1200的设备类型包括:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1200包括有:处理器1201和存储器1202。
可选地,处理器1201包括一个或多个处理核心,比如4核心处理器、8核心处理器等。可选地,处理器1201采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中,处理器1201包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
在一些实施例中,存储器1202包括一个或多个计算机可读存储介质,可选地,该计算机可读存储介质是非暂态的。可选地,存储器1202还包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1201所执行以实现本申请中各个实施例提供的文本处理方法。
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。
外围设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。可选地,射频电路1204通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1205用于显示UI(User Interface,用户界面)。可选地,该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器1201进行处理。可选地,显示屏1205还用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1205为一个,设置终端1200的前面板;在另一些实施例中,显示屏1205为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在再一些实施例中,显示屏1205是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,可选地,显示屏1205设置成非矩形的不规则图形,也即异形屏。可选地,显示屏1205采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1206还包括闪光灯。可选地,闪光灯是单色温闪光灯,或者是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,用于不同色温下的光线补偿。
在一些实施例中,音频电路1207包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风为多个,分别设置在终端1200的不同部位。可选地,麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。可选地,扬声器是传统的薄膜扬声器,或者是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅能够将电信号转换为人类可听见的声波,也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还包括耳机插孔。
定位组件1208用于定位终端1200的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。可选地,定位组件1208是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1209用于为终端1200中的各个组件进行供电。可选地,电源1209是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。
在一些实施例中,终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。
在一些实施例中,加速度传感器1211检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211用于检测重力加速度在三个坐标轴上的分量。可选地,处理器1201根据加速度传感器1211采集的重力加速度信号,控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还用于游戏或者用户的运动数据的采集。
在一些实施例中,陀螺仪传感器1212检测终端1200的机体方向及转动角度,陀螺仪传感器1212与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
可选地,压力传感器1213设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时,能够检测用户对终端1200的握持信号,由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时,由处理器1201根据用户对显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1214用于采集用户的指纹,由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份,或者,由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1201授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。可选地,指纹传感器1214被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时,指纹传感器1214能够与物理按键或厂商Logo集成在一起。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201根据光学传感器1215采集的环境光强度,控制显示屏1205的显示亮度。具体地,当环境光强度较高时,调高显示屏1205的显示亮度;当环境光强度较低时,调低显示屏1205的显示亮度。在另一个实施例中,处理器1201还根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时,由处理器1201控制显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时,由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员能够理解,图12中示出的结构并不构成对终端1200的限定,能够包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图13是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备1300可因配置或性能不同而产生比较大的差异,该计算机设备1300包括一个或一个以上处理器(Central Processing Units,CPU)1301和一个或一个以上的存储器1302,其中,该存储器1302中存储有至少一条计算机程序,该至少一条计算机程序由该一个或一个以上处理器1301加载并执行以实现上述各个实施例提供的文本处理方法。可选地,该计算机设备1300还具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备1300还包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条计算机程序的存储器,上述至少一条计算机程序可由终端中的处理器执行以完成上述各个实施例中文本处理方法。例如,该计算机可读存储介质包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,包括一条或多条程序代码,该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码,该一个或多个处理器执行该一条或多条程序代码,使得计算机设备能够执行以完成上述实施例中文本处理方法。
本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,可选地,该程序存储于一种计算机可读存储介质中,可选地,上述提到的存储介质是只读存储器、磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征,所述多个样本文本包括主场景的样本文本和副场景的样本文本;
基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型;
基于所述文本特征,获取所述多个样本文本的预测场景类型,所述预测场景类型包括所述主场景和所述副场景;
基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型,所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征,所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征,获取所述多个样本文本的预测场景类型包括:
将所述文本特征输入梯度反转层,通过所述梯度反转层对所述文本特征进行恒等变换,得到恒等变换后的特征;
将所述恒等变换后的特征输入场景判别网络,通过所述场景判别网络分别对所述多个样本文本进行分类,输出所述多个样本文本的所述预测场景类型;
其中,所述梯度反转层用于在前向传播中对所述文本特征进行恒等变换、在反向传播中更改所述场景判别网络回传的梯度符号。
3.根据权利要求1所述的方法,其特征在于,所述基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型包括:
基于所述预测实体、所述预测实体类型和所述多个样本文本的实体标注信息,确定第一损失函数值;
基于所述预测场景类型和所述多个样本文本的场景标注信息,确定第二损失函数值;
基于所述第一损失函数值和所述第二损失函数值,确定本次迭代过程的目标损失函数值;
响应于所述目标损失函数值不符合停止条件,迭代训练所述初始语言模型,直到所述目标损失函数值符合所述停止条件,得到所述目标语言模型。
4.根据权利要求1所述的方法,其特征在于,所述将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征包括:
对任一样本文本进行字符划分,得到所述任一样本文本的字符序列;
将所述字符序列输入所述初始语言模型中的至少一个编码层;
通过所述至少一个编码层对所述字符序列进行编码,将最后一个编码层输出的特征序列确定为所述任一样本文本的文本特征。
5.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型包括:
对任一样本文本,将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符,所述第一字符为所述预测实体的首位字符;
将所述任一样本文本的文本特征输入第二全连接网络,输出所述任一样本文本中的第二字符,所述第二字符为所述预测实体的末位字符;
基于所述第一字符和所述第二字符,确定所述预测实体和所述预测实体类型。
6.根据权利要求5所述的方法,其特征在于,所述将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符包括:
调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第一概率,一个第一概率用于表示所述字符序列中的一个字符为第一字符的可能性;
基于所述至少一个第一概率,确定所述任一样本文本中的第一字符。
7.根据权利要求5所述的方法,其特征在于,所述通过将所述任一样本文本的文本特征输入第一全连接网络,输出所述任一样本文本中的第一字符包括:
调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第二概率,一个第二概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第一字符的可能性;
基于所述至少一个第二概率,确定所述任一样本文本中的第一字符和所述第一字符所对应的预测实体类型。
8.根据权利要求6或7所述的方法,其特征在于,所述将所述任一样本文本的文本特征输入第二全连接网络,输出所述任一样本文本中的第二字符包括:
将所述任一样本文本的文本特征和所述加权后的特征进行拼接,得到目标拼接特征;
调用所述第二全连接网络对所述目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第三概率,一个第三概率用于表示所述字符序列中的一个字符为第二字符的可能性;
基于所述至少一个第三概率,确定所述任一样本文本中的第二字符。
9.根据权利要求6或7所述的方法,其特征在于,所述将所述任一样本文本的文本特征输入第二全连接网络,输出所述任一样本文本中的第二字符包括:
将所述任一样本文本的文本特征和所述加权后的特征进行拼接,得到目标拼接特征;
调用所述第二全连接网络对所述目标拼接特征进行加权处理,对加权后的特征进行指数归一化处理,得到至少一个第四概率,一个第四概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第二字符的可能性;
基于所述至少一个第四概率,确定所述任一样本文本中的第二字符和所述第二字符所对应的预测实体类型。
10.根据权利要求1所述的方法,其特征在于,所述主场景的样本文本为内容项文本,所述副场景的样本文本包括资讯文本、应用程序描述文本或者物品描述文本中的至少一项。
11.一种文本处理装置,其特征在于,所述装置包括:
输入输出模块,用于将多个样本文本输入初始语言模型,输出所述多个样本文本的文本特征,所述多个样本文本包括主场景的样本文本和副场景的样本文本;
实体识别模块,用于基于所述文本特征,对所述多个样本文本进行命名实体识别,得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型;
获取模块,用于基于所述文本特征,获取所述多个样本文本的预测场景类型,所述预测场景类型包括所述主场景和所述副场景;
对抗学习模块,用于基于所述预测实体、所述预测实体类型和所述预测场景类型,对所述初始语言模型进行对抗学习,得到目标语言模型,所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征,所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。
12.根据权利要求11所述的装置,其特征在于,所述获取模块用于:
将所述文本特征输入梯度反转层,通过所述梯度反转层对所述文本特征进行恒等变换,得到恒等变换后的特征;
将所述恒等变换后的特征输入场景判别网络,通过所述场景判别网络分别对所述多个样本文本进行分类,输出所述多个样本文本的所述预测场景类型;
其中,所述梯度反转层用于在前向传播中对所述文本特征进行恒等变换、在反向传播中更改所述场景判别网络回传的梯度符号。
13.根据权利要求11所述的装置,其特征在于,所述对抗学习模块用于:
基于所述预测实体、所述预测实体类型和所述多个样本文本的实体标注信息,确定第一损失函数值;
基于所述预测场景类型和所述多个样本文本的场景标注信息,确定第二损失函数值;
基于所述第一损失函数值和所述第二损失函数值,确定本次迭代过程的目标损失函数值;
响应于所述目标损失函数值不符合停止条件,迭代训练所述初始语言模型,直到所述目标损失函数值符合所述停止条件,得到所述目标语言模型。
14.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的文本处理方法。
15.一种存储介质,其特征在于,所述存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的文本处理方法。
CN202011545249.2A 2020-12-24 2020-12-24 文本处理方法、装置、计算机设备及存储介质 Pending CN113515942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011545249.2A CN113515942A (zh) 2020-12-24 2020-12-24 文本处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011545249.2A CN113515942A (zh) 2020-12-24 2020-12-24 文本处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113515942A true CN113515942A (zh) 2021-10-19

Family

ID=78060607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011545249.2A Pending CN113515942A (zh) 2020-12-24 2020-12-24 文本处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113515942A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238439A (zh) * 2021-12-14 2022-03-25 四川大学 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN114861654A (zh) * 2022-03-31 2022-08-05 重庆邮电大学 一种中文文本中基于词性融合的对抗训练的防御方法
CN114970882A (zh) * 2022-05-19 2022-08-30 支付宝(杭州)信息技术有限公司 适于多场景多任务的模型预测方法及模型系统
CN115811630A (zh) * 2023-02-09 2023-03-17 成都航空职业技术学院 一种基于人工智能的教育信息化方法
CN116205221A (zh) * 2023-05-05 2023-06-02 北京睿企信息科技有限公司 实体识别和文本分类的方法、存储介质和计算机设备
CN116244517A (zh) * 2023-03-03 2023-06-09 北京航空航天大学 一种基于层次化信息抽取网络的多场景多任务推荐方法
CN116579339A (zh) * 2023-07-12 2023-08-11 阿里巴巴(中国)有限公司 任务执行方法和优化任务执行方法
CN117094325A (zh) * 2023-09-25 2023-11-21 安徽农业大学 水稻病虫害领域命名实体识别方法
CN117474464A (zh) * 2023-09-28 2024-01-30 光谷技术有限公司 多业务处理模型训练方法、多业务处理方法和电子设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238439A (zh) * 2021-12-14 2022-03-25 四川大学 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN114238439B (zh) * 2021-12-14 2023-03-28 四川大学 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN114861654A (zh) * 2022-03-31 2022-08-05 重庆邮电大学 一种中文文本中基于词性融合的对抗训练的防御方法
CN114970882A (zh) * 2022-05-19 2022-08-30 支付宝(杭州)信息技术有限公司 适于多场景多任务的模型预测方法及模型系统
CN115811630A (zh) * 2023-02-09 2023-03-17 成都航空职业技术学院 一种基于人工智能的教育信息化方法
CN116244517A (zh) * 2023-03-03 2023-06-09 北京航空航天大学 一种基于层次化信息抽取网络的多场景多任务推荐方法
CN116244517B (zh) * 2023-03-03 2023-11-28 北京航空航天大学 基于层次化信息抽取网络的多场景多任务的模型训练方法
CN116205221A (zh) * 2023-05-05 2023-06-02 北京睿企信息科技有限公司 实体识别和文本分类的方法、存储介质和计算机设备
CN116579339A (zh) * 2023-07-12 2023-08-11 阿里巴巴(中国)有限公司 任务执行方法和优化任务执行方法
CN116579339B (zh) * 2023-07-12 2023-11-14 阿里巴巴(中国)有限公司 任务执行方法和优化任务执行方法
CN117094325A (zh) * 2023-09-25 2023-11-21 安徽农业大学 水稻病虫害领域命名实体识别方法
CN117094325B (zh) * 2023-09-25 2024-03-29 安徽农业大学 水稻病虫害领域命名实体识别方法
CN117474464A (zh) * 2023-09-28 2024-01-30 光谷技术有限公司 多业务处理模型训练方法、多业务处理方法和电子设备
CN117474464B (zh) * 2023-09-28 2024-05-07 光谷技术有限公司 多业务处理模型训练方法、多业务处理方法和电子设备

Similar Documents

Publication Publication Date Title
CN111897964B (zh) 文本分类模型训练方法、装置、设备及存储介质
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN112069414A (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN111985240A (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN112163428A (zh) 语义标签的获取方法、装置、节点设备及存储介质
CN111737573A (zh) 资源推荐方法、装置、设备及存储介质
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN111368525A (zh) 信息搜索方法、装置、设备及存储介质
CN112733970B (zh) 图像分类模型处理方法、图像分类方法及装置
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
CN115858826A (zh) 数据处理方法、装置、计算机设备及存储介质
CN113392687A (zh) 视频标题生成方法、装置、计算机设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN111339737A (zh) 实体链接方法、装置、设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN114495916B (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质
CN112988984B (zh) 特征获取方法、装置、计算机设备及存储介质
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN113761195A (zh) 文本分类方法、装置、计算机设备及计算机可读存储介质
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置
CN115708085A (zh) 业务处理、神经网络模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053957

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination