CN115238708A - 文本语义识别方法、装置、设备、存储介质及程序产品 - Google Patents

文本语义识别方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115238708A
CN115238708A CN202210987599.7A CN202210987599A CN115238708A CN 115238708 A CN115238708 A CN 115238708A CN 202210987599 A CN202210987599 A CN 202210987599A CN 115238708 A CN115238708 A CN 115238708A
Authority
CN
China
Prior art keywords
text
synonymous
sentence
training
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210987599.7A
Other languages
English (en)
Other versions
CN115238708B (zh
Inventor
曾嘉莉
姜雨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210987599.7A priority Critical patent/CN115238708B/zh
Publication of CN115238708A publication Critical patent/CN115238708A/zh
Application granted granted Critical
Publication of CN115238708B publication Critical patent/CN115238708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种文本语义识别方法、装置、设备、存储介质及程序产品;本申请实施例可以应用于云技术、智慧交通、车载等的文本识别场景,涉及人工智能技术;该方法包括:从待识别文本中,提取至少一个文本片段;其中,待识别文本是任意一种语言下的文本;针对每个文本片段,确定多种语言下的同义片段;同义片段与文本片段具有相同的语义;基于每个文本片段,以及每个文本片段的同义片段,确定每个文本片段的语义特征;基于每个文本片段的语义特征,对待识别文本进行语义识别,得到识别结果。通过本申请,能够提高语义识别的准确度。

Description

文本语义识别方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及人工智能技术,尤其涉及一种文本语义识别方法、装置、设备存储介质、程序产品。
背景技术
在文本语义识别场景中,不仅要实现对常用语言的文本(例如汉语、英语)的正确识别,还要实现对一些不常用的语言(例如阿拉伯语、德语)的文本的正确识别,即需要实现多语言的语义识别。然而,由于相关技术中,大多数的语言都缺乏足够的语料数据,属于低资源语言,从而利用这些语言所训练出的模型针对低资源语言的语义信息的表征能力较差,最终影响语义识别的准确度。
发明内容
本申请实施例提供一种文本语义识别方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提高语义识别的准确度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本语义识别方法,包括:
从待识别文本中,提取至少一个文本片段;其中,所述待识别文本是任意一种语言下的文本;
针对每个所述文本片段,确定多种语言下的同义片段;所述同义片段与所述文本片段具有相同的语义;
基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征;
基于每个所述文本片段的语义特征,对所述待识别文本进行语义识别,得到识别结果。
本申请实施例提供一种文本语义识别装置,包括:
文本提取模块,用于从待识别文本中,提取至少一个文本片段;其中,所述待识别文本是任意一种语言下的文本;
片段确定模块,用于针对每个所述文本片段,确定多种语言下的同义片段;所述同义片段与所述文本片段具有相同的语义;
特征确定模块,用于基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征;
文本识别模块,用于基于每个所述文本片段的语义特征,对所述待识别文本进行语义识别,得到识别结果。
在本申请的一些实施例中,所述特征确定模块,用于针对每个所述文本片段进行特征编码,得到文本特征;针对每个所述文本片段的所述同义片段进行编码,得到同义特征;将所述文本特征和所述同义特征的融合结果,确定为每个所述文本片段的中间特征;将从每个所述文本片段的所述中间特征所提取到的特征,确定为每个所述文本片段的语义特征。
在本申请的一些实施例中,所述特征确定模块,还用于执行以下处理中的任意一种;针对所述文本特征和所述同义特征进行加权,并将加权结果确定为所述文本特征和所述同义特征的所述融合结果;通过神经网络模型,针对所述文本特征和所述同义特征进行交互融合,得到所述文本特征和所述同义特征的所述融合结果;通过自编码器对所述文本特征和所述同义特征进行特征编码,并将编码结果确定为所述文本特征和所述同义特征的所述融合结果。
在本申请的一些实施例中,至少一个所述文本片段包括:词语级别的文本片段和短语级别的文本片段;所述文本提取模块,还用于针对所述待识别文本进行词语的提取,得到所述待识别文本中词语级别的文本片段;针对所述待识别文本进行短语的提取,得到所述待识别文本中的短语级别的文本片段。
在本申请的一些实施例中,所述片段确定模块,还用于获取多种语言分别对应的词语信息表和短语信息表;从与多种语言分别对应的词语信息表中,确定所述词语级别的文本片段在多种语言下的所述同义片段;从与多种语言分别对应的短语信息表中,确定所述短语级别的文本片段在多种语言下的所述同义片段。
在本申请的一些实施例中,所述基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征,是通过特征提取模型实现的;所述文本语义识别装置还包括:模型训练模块;
所述模型训练模块,用于获取训练文本数据和初始提取模型;所述训练文本数据是未经过标注的文本数据;针对所述训练文本数据,构建包含多种语言的混合文本数据;利用所述混合文本数据,对所述初始提取模型进行预训练,得到预训练模型;针对所述预训练模型进行微调,得到所述特征提取模型。
在本申请的一些实施例中,所述训练文本数据中包括:单个语言的语句文本;所述模型训练模块,还用于依据所述语句文本中的标点信息,对所述语句文本进行分割,得到多个训练语句片段;从多个所述训练语句片段中,筛选得到第一语句片段和第二语句片段;针对所述第一语句片段,检索在多种语言下的替换片段,其中,所述替换片段与所述第一语句片段具有相同的语义;从所述第二语句片段中筛选得到待替换词语,并利用所述待替换词语在多种语言下的对齐词语,对所述待替换词语进行替换,得到所述第二语句片段的更新片段;将所述替换片段和所述更新片段所构建得到的多语言混合文本,作为包含多种语言的所述混合文本数据。
在本申请的一些实施例中,所述训练文本数据包括:多个语言的平行句对;所述模型训练模块,还用于针对所述平行句对中的第一语句和第二语句,分别按照标点信息进行切分,得到N个第一分割子句和M个第二分割子句;利用N个所述第一分割子句中的P个第一分割子句,生成所述第一语句的第一子块,其中,P≤N,N是正整数;利用M个所述第二分割子句中的Q个第二分割子句,生成所述第二语句的第二子块,其中,Q≤M,M是正整数;当所述第一子块和所述第二子块满足对齐条件时,将所述第一语句的第一子块和所述第二语句的第二子块进行交换,得到更新第一语句和更新第二语句;将所述更新第一语句和所述更新第二语句所构建得到的多语言更新句对,作为包含多种语言的所述混合文本数据。
在本申请的一些实施例中,所述对齐条件包括:所述第一子块存在至少一个词语与所述第二子块中的词语对齐,且所述第一子块中的任意一个词语不与所述第二子块所包含的词语之外的词语对齐。
在本申请的一些实施例中,所述混合文本数据包括:多语言混合文本;所述模型训练模块,还用于利用掩码信息,对所述多语言混合文本中的目标词语进行替换,得到所述所述初始提取模型的输入文本,所述目标词语是所述多语言混合文本中的任意一个词语;利用所述初始提取模型,对所述输入文本中被所述掩码信息所替换的所述目标词语进行预测,得到预测结果;利用所述预测结果和所述目标词语之间的差异,对所述初始提取模型的参数进行调整,直至达到训练结束条件时,得到所述预训练模型。
在本申请的一些实施例中,所述混合文本数据包括:多语言更新句对;所述模型训练模块,还用于从所述多语言更新句对中的更新第一语句中,筛选得到第一词语,并利用掩码信息对所述第一词语进行替换,得到所述初始提取模型的第一输入语句,其中,所述第一词语是所述更新第一语句中的任意一个词语;从所述多语言更新句对中的更新第二语句中,筛选得到第二词语,并利用所述掩码信息对所述第二词语进行替换,得到所述初始提取模型的第二输入语句,其中,所述第二词语是所述更新第二语句中的任意一个词语;利用所述初始提取模型,对所述第一输入语句中的所述掩码信息进行词语预测,得到第一预测结果,以及对所述第二输入语句中的所述掩码信息进行词语预测,得到第二预测结果;利用所述第一词语和所述第一预测结果之间的差异,以及所述第二词语和所述第二预测结果之间的差异,对所述初始提取模型的参数进行调整,直至达到训练结束条件时,得到所述预训练模型。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的文本语义识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本语义识别方法。
本申请实施例具有以下有益效果:电子设备会针对任意一种语言的待识别文本中,提取文本片段,并针对每个片段确定与其具有相同的语义,但是使用的语言更加多样的同义片段,通过结合同义片段为文本片段确定对应的语义特征,以实现利用多种语言的同义片段为文本片段在特征建模时进行信息补充,如此,能够提升对低资源语言的语义信息的表征能力,即使得确定出的语义特征更加准确,最终提升了语义识别的准确度。
附图说明
图1是本申请实施例提供的文本语义识别系统的架构示意图;
图2是本申请实施例提供的服务器的结构示意图;
图3是本申请实施例提供的文本语义识别方法的一个流程示意图;
图4是本申请实施例提供的文本语义识别方法的另一个流程示意图;
图5是本申请实施例提供的针对文本片段确定同义片段的示意图;
图6是本申请实施例提供的特征提取模型的结构示意图;
图7是本申请实施例提供的文本语义识别方法的再一个流程示意图;
图8是本申请实施例提供的包含多种语言的混合文本数据的一种示意图;
图9是本申请实施例提供的包含多种语言的混合文本数据的另一种示意图;
图10是本申请实施例提供的多语言预训练模型的训练框架示意图;
图11是本申请实施例提供的利用单语句的训练数据进行模型预训练的过程示意图;
图12是本申请实施例提供的利用双语对齐的训练数据进行模型预训练的过程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机可选的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片。云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本申请实施例中,涉及到了人工智能技术中的文本语义识别。
2)自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例中的文本语义识别,也包括在自然语言处理技术中。
3)文本语义识别,是指对输入的文本进行语义识别,以得到输入的文本所要表达的语义信息的过程。文本语义识别用途广泛,可以应用于对使用者的情感分类,或者智能客服等场景中。
4)文本片段,对输入的待识别文本进行切分所得到的片段。利用不同的切分方式,能够得到不同的文本片段。例如,以标点符号进行切分时,能够得到短句级别的文本片段,以词语进行切分时,能够得到词语级别的文本片段。
5)同义片段,是指与文本片段具有相同的语义的片段。同义片段与文本片段的语言可以不同,此时,同义片段可以理解为文本片段在另外一种语言下的对齐文本(也可以理解为翻译内容)。例如,文本片段为“你好”时,同义片段可以为“Hello”。同义片段与文本片段的语言也可以相同,例如,文本片段为“引荐”时,同义片段可以为“推荐”。
6)预训练模型,是指利用大规模的无标注数据,以预设的目标函数(例如掩码语言建模Masked Language Model,MLM)作为优化目标所训练得到的模型。当业务场景所对应的业务数据较少时,可以利用业务数据对预训练模型进行微调,得到可以在业务场景中使用的业务模型。
7)多语言预训练模型(Multilingual Pre-trained Language Model,MPLMs),指在基于大规模语料的预训练模型的基础上,预训练数据扩展为未标记的多语言语料库,并将所有的语言投射到同一个语义空间中。
8)混合编码(Code Switching),是将两种,或者更多的语言在同一个文本中混用的现象。
文本语义识别是人工智能一个重要应用方向,其用于对输入的文本进行识别,以明确输入的文本所蕴含的语义信息。在文本语义识别场景中,不仅要实现对常用语言的文本(例如汉语、英语)的正确识别,还要实现对一些不常用的语言(例如阿拉伯语、德语)的文本的正确识别,即需要实现多语言的语义识别。
相关技术中,在针对输入的文本进行语义识别时,需要先利用语料数据进行模型训练,利用训练好的模型针对输入的文本所包含的词汇、短语等进行特征建模,接着基于建模得到的特征识别文本所包含的语义信息。然而,目前的语料数据大多数基于常用语言的,以及常用词汇或短句的,大多数的语言都缺乏足够的语料数据,属于低资源语言,从而利用这些语言所训练出的模型的特征建模能力不足,即对低资源语言的语义信息的表征能力较差,最终影响语义识别的准确度。
另外,相关技术中,大多是从多语言预训练模型微调得到多语言的语义识别模型的。其中,多语言预训练模型可以通过将多语言的单语句训练样本作为输入,以掩码语言建模(Masked Language Modeling,MLM)和下句预测(Next Sentence Predicition,NSP)作为训练目标,对多语言的对齐关系进行建模所得的,或者是将多语言的单语句训练样本以及多语言的双语平行句对作为训练样本,以掩码语言建模、下句预测和翻译语言建模(Translation Language Modeling,TLM)作为训练目标,对多语言的对齐关系进行建模所得的。
然而,在预训练过程中,多语言的语义对齐关系建模主要依赖于两个方面,一种是针对单语句训练样本,基于相似语系之间的“共享词”(英语、法语和德语等语言之间有较多的通用单词)的掩码预测,以预测同一个词作为“锚点”,通过拉近不同语言的上下文与该“锚点”的距离,完成多语言的语义关系的建模。然而这种方式非常依赖语言之间的相似性和共享词,当两个语言不属于同一语系,或者没有共享词汇时,即预训练数据不足,这样,就很难将多语言的语义对齐关系进行建模,从而无法得到有效的多语言预训练模型。另一种是针对多语言的双语平行句对,针对其中的一个语句的部分词语进行掩盖(掩盖该语句中的某个词语),通过掩盖后的语句上下文信息和对齐语句的语义信息,对掩盖掉的词语进行预测,以实现对多语言的语义对齐关系的建模。然而,平行句对是难以收集的,需要通过人力进行对齐和标注,同时小语种之间的几乎不存在平行句对,这样,会使得预训练数据的质量低下,从而难以对多语言的语义对齐关系进行建模。也就是说,相关技术中,还存在难以生成有效的多语言预训练模型的缺点。
本申请实施例提供一种文本语义识别方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提高语义识别的准确度。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端,也可以实施为服务器。下面,将说明电子设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的文本语义识别系统的架构示意图,为实现支撑一个文本语义识别应用,在文本语义识别系统100中,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。在文本语义识别系统100中,还设置有数据库500,以向服务器200提供数据服务。数据库500可以配置服务器200之中,也可以独立于服务器200。图1示出的是数据库500独立于服务器200的情况。
终端400-1用于响应在图形界面410-1上的输入操作,生成待识别文本,并通过网络300,将待识别文本发送给服务器200。
服务器200用于从待识别文本中,提取至少一个文本片段,其中,待识别文本是任意一种语言下的文本;针对每个文本片段,确定多种语言下的同义片段;同义片段与文本片段具有相同的语义;基于每个文本片段,以及每个文本片段的同义片段,确定每个文本片段的语义特征;基于每个文本片段的语义特征,对待识别文本进行语义识别,得到识别结果,完成文本语义识别。
终端400-2用于接收服务器200所发送的待识别文本和识别结果,并将待识别文本和识别结果展示在图形界面410-2上,以便使用者了解待识别文本的识别结果。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图2,图2是本申请实施例提供的服务器(电子设备的一种实施)的结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的文本语义识别装置可以采用软件方式实现,图2示出了存储在存储器250中的文本语义识别装置255,其可以是程序和插件等形式的软件,包括以下软件模块:文本提取模块2551、片段确定模块2552、特征确定模块2553、文本识别模块2554和模型训练模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的文本语义识别装置可以采用硬件方式实现,作为示例,本申请实施例提供的文本语义识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本语义识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Comple x Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programma ble Gate Array)或其他电子元件。
在一些实施例中,服务器(电子设备的一种实施)可以通过运行计算机程序来实现本申请实施例提供的文本语义识别方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如智能客服APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
本申请实施例可以应用于云技术、智慧交通、车载等的文本识别场景,下面,将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的文本语义识别方法。
参见图3,图3是本申请实施例提供的文本语义识别方法的一个流程示意图,将结合图3示出的步骤进行说明。
S101、从待识别文本中,提取至少一个文本片段。
本申请实施例是在对任意一种语言的文本进行语义识别的场景下实现的,例如,对德语的文本进行语义识别,以明确文本所表达的情感,对阿拉伯语的文本进行文本识别,以明确文本中的事件信息等等。由此可见,本申请实施例中,待识别文本是任意一种语言下的文本。
本申请实施例中,电子设备会先对待识别文本进行文本片段的提取,从而得到至少一个文本片段。其中,电子设备可以针对待识别文本进行词语级别的片段提取,得到词语级别的文本片段,也可以针对待识别文本进行短语级别的片段提取,得到短语级别的文本片段,如此,就能够得到至少一个文本片段。当然,电子设备也可以依据待识别文本中的标点信息提取文本片段,例如将两个标点信息之间的文本作为一个文本片段,本申请实施例在此不做限定。
S102、针对每个文本片段,确定多种语言下的同义片段。
电子设备在得到至少一个文本片段之后,会针对每个文本片段,确定与其具有相同的语义的文本片段,将所确定出的文本片段作为每个文本片段所对应的同义片段。也就是说,同义片段与文本片段具有相同的语义。需要说明的是,同义片段与文本片段的语言可以是相同的,例如文本片段为汉语中的生僻词语,同义文本为与该生僻词语具有相同的语义的汉语词语;同义片段与文本片段的语言也可以不相同,例如,文本片段为英文单词,同义片段具有相同含义的法文单词等,本申请实施例在此不做限定。
在一些实施例中,电子设备可以从构建好的多语言的对齐片段表(例如对齐词语表、对齐短语表等)中,查询出每个文本片段的对齐片段,即每个文本片段在多种语言下的对齐片段,将该对齐片段确定为同义片段。
在另一些实施例中,电子设备还可以从网络中,检索文本片段在多种的语言下的对齐文本,对权威网站、或者是引用次数最多的对齐文本进行下载,将下载得到的对齐文本确定为文本片段的同义片段。
S103、基于每个文本片段,以及每个文本片段的同义片段,确定每个文本片段的语义特征。
电子设备同时结合文本片段和同义片段,对文本片段进行特征建模,以确定出每个文本片段的语义特征。需要说明的是,同义片段可以看做是文本片段的补充信息。当文本片段所使用的是不常见的语言时,电子设备是难以针对文本片段确定出较为准确的语义特征(一般是由于该语言都缺乏足够的语料数据,使得所训练出的模型的特征建模能力不足导致的)。此时,在特征建模时同时结合同义片段,就是利用相同语言,或者不同的其它语言的且语义相同的文本,为文本片段的特征建模进行额外的信息补充,从而得到更加准确的语义特征。
在一些实施例中,电子设备可以先分别对文本片段和同义片段进行特征提取,然后将文本片段的特征和同义片段的特征进行融合(或者融合之后再进行编码等处理),得到文本片段的语义特征。
在另一些实施例中,电子设备还可以将文本片段和同义片段进行拼接,得到拼接片段,然后对拼接片段进行特征提取,将所提取到的特征确定为文本片段的语义特征。
S104、基于每个文本片段的语义特征,对待识别文本进行语义识别,得到识别结果。
电子设备在得到每个文本片段的语义特征之后,可以通过全连接层每个文本片段语义特征进行融合,然后再对每个文本片段的语义特征的融合结果进行语义分类,将所得到的类别确定为识别结果。电子设备还可以将每个片段的语义特征与预设语义信息的特征进行匹配,当语义特征与预设语义信息的特征相匹配时,将预设语义信息确定为每个文本片段所对应的语义信息,最后依据每个文本片段所对应的语义信息确定出识别结果(例如,选择出现频次最高的语义信息作为识别结果,或者是选择具有语义联系的多个语义信息组成识别结果等等)。至此,电子设备就完成了对待识别文本的语义识别过程。
需要说明的是,识别结果可以是待识别文本所蕴含的情绪类别,例如,针对待识别文本“今天天气真好,心情起飞”的识别结果是快乐这一情绪类别;识别结果也可以是待识别文本中描述的事件,例如,针对推理小说中的对话描写段落这一待识别文本,识别结果为进入房间的角色为小A等等。
可以理解的是,相比于相关技术中,存在大多数的语言都缺乏足够的语料数据,从而针对多语言所训练出的模型的特征建模能力不足,最终影响多语言的语义识别的准确度的问题,本申请实施例中,电子设备会针对任意一种语言的待识别文本中,提取文本片段,并针对每个片段确定与其具有相同的语义,但是使用的语言更加多样的同义片段,通过结合同义片段为文本片段确定对应的语义特征,以实现利用多种语言的同义片段为文本片段在特征建模时进行信息补充,如此,能够提升对低资源语言的语义信息的表征能力,即使得确定出的语义特征更加准确,最终提升了语义识别的准确度。
基于图3,参见图4,图4是本申请实施例提供的文本语义识别方法的另一个流程示意图。在本申请的一些实施例中,基于每个文本片段,以及每个文本片段的同义片段,确定每个文本片段的语义特征,即S103的具体实现过程,可以包括:S1031-S1034,如下:
S1031、针对每个文本片段进行特征编码,得到文本特征。
S1032、针对每个文本片段的同义片段进行特征编码,得到同义特征。
电子设备针对每个文本片段,以及对应的同义片段分别进行特征编码,将对文本片段编码得到的特征确定为文本特征,将从同义片段编码得到的特征确定为同义特征。本申请实施例中,文本片段和同义片段均为文本信息,电子设备可以利用独热编码(one-hot)模型、跳字(skip-gram)模型等对文本片段和同义片段进行特征编码。
可以理解的是,文本片段和同义片段进行特征编码的顺序,并不影响最终的同义特征和文本特征,因此,一些实施例中,电子设备可以先执行S1032,再执行S1031,也可以同时执行S1031和S1032,在此不做具体限定。
S1033、将文本特征和同义特征的融合结果,确定为每个文本片段的融合特征。
电子设备将所得到的文本特征和同义特征进行融合,以通过特征融合将同义片段的特征,叠加至文本特征中,从而实现利用同义片段为文本片段进行语义信息的补充。最后,电子设备会将融合结果作为中间特征,以在后续进行特征提取处理。
S1034、将从每个文本片段的中间特征所提取到的特征,确定为每个文本片段的语义特征。
电子设备可以通过训练好的特征提取模块(例如BERT模型,LSTM模型),对中间特征进行特征提取,并将提取得到的特征确定为文本片段的语义特征,以进行后续的语义识别。
在本申请的一些实施例中,将文本特征和同义特征的融合结果,确定为每个文本片段的中间特征之前,即在S1033之前,电子设备还可以执行S1035-S1037(图中未示出)中任意一种:
S1035、针对文本特征和同义特征进行加权,并将加权结果确定为文本特征和同义特征的融合结果。
其中,文本特征和同义特征的加权权重,可以为预设值(例如均为0.5,或者文本特征为0.3,同义特征为0.7),也可以是随机生成的数值,本申请实施例在此不做限定。
S1036、通过神经网络模型,针对文本特征和同义特征进行交互融合,得到文本特征和同义特征的融合结果。
S1037、通过自编码器对文本特征和同义特征进行特征编码,并将编码结果确定为文本特征和同义特征的融合结果。
其中,自编码器是利用输入数据本身作为监督项训练得到的编码器,即利用编码器对输入数据进行特征编码,得到一个低维度的特征,然后再利用该低维度的特征生成输入数据的还原数据,利用输入数据和还原数据之间的误差调整编码器的模型参数,如此,在训练结束之后所得到的编码器就是自编码器。
可以理解的是,电子设备可以借助加权、神经网络或者自编码中的任意一种方式,将文本特征和同义特征进行融合,本申请实施例在此不做限定。
在本申请的一些实施例中,至少一个文本片段包括:词语级别的文本片段和短语级别的文本片段,也即,每个文本片段可以是词语级别的,也可以是短语级别的。此时,从待识别文本中,提取至少一个文本片段,即S101的具体实现过程,可以包括以下处理:针对待识别文本进行词语的提取,得到待识别文本中词语级别的文本片段;针对待识别文本进行短语的提取,得到待识别文本中的短语级别的文本片段。
需要说明的是,词语级别的文本片段是指由单独的词语所构成的文本片段,即文本片段为一个词语;短语级别的文本片段是由多个词语,以及助词、虚词等辅助信息所构成的文本片段,即文本片段为一个完整的短语。词语和短语的区别在于,词语在语义上已经无法进行分割,而短语能够继续在语义上分割为一个个的词语。
示例性的,“水果”在语义上已经无法继续分割,是词语级别的文本片段,而“联合创始人”在语义上可以继续分割为“联合”和“创始人”两个词语,是短语级别的文本片段。
可以理解的是,本申请实施例中,电子设备能够针对待识别文本,从词语和短语两个尺度级别分别提取文本片段,从而所得到的至少一个文本片段中包含着不同尺度的文本信息,如此,在后续能够对不同尺度上进行特征建模,使得文本特征更加多样化,最终帮助提高语义特征的语义表征能力。
在本申请的一些实施例中,当至少一个文本片段包括:词语级别的文本片段和短语级别的文本片段时,针对每个文本片段,确定多种语言下的同义片段,即S102的具体实现过程,可以通过如下处理实现:获取多种语言分别对应的词语信息表和短语信息表;获取多种语言分别对应的词语信息表和短语信息表;从与多种语言分别对应的词语信息表中,确定词语级别的文本片段在多种语言下的同义片段;从与多种语言分别对应的短语信息表中,确定短语级别的文本片段在多种语言下的同义片段,
其中,每种语言的词语信息表中记录了不同的词语在该语言下的对齐文本,每种语言的短语信息表中记录了不同的短语在该语言下的对齐文本。如此,本申请实施例中,电子设备可以通过从多种语言的词语信息表,查询词语级别的文本片段在多种语言下的对齐文本,将该对齐文本确定为词语级别的文本片段的同义片段,以及通过从多种语言的短语信息表,查询短语级别的文本片段在多种语言下的对齐文本,将该对齐文本确定为短语级别的文本片段的同义片段。
示例性的,图5是本申请实施例提供的针对文本片段确定同义片段的示意图。其中,词语级别的文本片段5-1为“水果”,短语级别的文本片段5-2为“联合创始人”。电子设备分别从韩语、英语、法语和日语对应的词语信息表中,查询得到“水果”的对齐文本
Figure BDA0003802779750000171
“Fruit”、“Fruits”和“フルーツ”,并将这些对齐文本作为词语级别的文本片段5-1的同义片段5-3;分别从韩语、英语和日语对应的词语信息表中,查询得到“联合创始人”的对齐文本
Figure BDA0003802779750000172
Figure BDA0003802779750000173
“Co-founder”和“共同-創設者”,将这些对齐文本确定为短语级别的文本片段5-2的同义片段5-4。
至此,电子设备就完成每个文本片段所对应的同义片段的确定了,以便于利用同义片段对文本片段进行信息补充,提升语义特征的表征能力。
在本申请的一些实施例中,基于每个文本片段,以及每个文本片段的同义片段,确定每个文本片段的语义特征,是通过特征提取模型实现的。其中,特征提取模型中可以包含多个网络层,分别用于针对输入进行特征编码、特征融合和特征提取的处理。
示例性的,图6是本申请实施例提供的特征提取模型的结构示意图。特征提取模型6-1中可以包括嵌入层6-11(用于对文本片段和同义片段进行特征编码)、信息融合层6-12(用于生成文本特征和同义特征的融合结果),以及编码层6-13(用于对中间特征进行特征提取,得到语义特征)。
在此情况下,基于图3,参见图7,图7是本申请实施例提供的文本语义识别方法的再一个流程示意图,在从待识别文本中,提取至少一个文本片段,即S101之前,该方法还可以包括:S105-S108,如下:
S105、获取训练文本数据和初始提取模型。
其中,训练文本数据是未经过标注的文本数据,初始提取模型是还未经过训练的模型,其网络参数通过参数随机初始化操作得到。
S106、针对训练文本数据,构建包含多种语言的混合文本数据。
S107、利用混合文本数据,对初始提取模型进行预训练,得到预训练模型。
需要说明的是,混合文本数据中包含多种语言,相当于给训练文本数据中扩展了其他语言的文本数据,从而在后续利用混合文本数据进行模型的预训练时,可以使得模型能够充分构建多语言的语义信息,提升模型的语义建模能力。
S108、针对预训练模型进行微调,得到特征提取模型。
可以理解的是,电子设备所得到的预训练模型,就是多语言预训练模型。电子设备可以利用小规模的标注数据,对预训练模型进行微调,就能够得到最终的特征提取模型。
在本申请的一些实施例中,训练文本数据中包括:单个语言的语句文本,此时,针对训练文本数据,构建包含多种语言的混合文本数据,即S106的具体实现过程,可以通过以下处理实现:依据语句文本中的标点信息,对语句文本进行分割,得到多个训练语句片段;从多个训练语句片段中,筛选得到第一语句片段和第二语句片段;针对第一语句片段,检索在多种语言下的替换片段,其中,替换片段与第一语句片段具有相同的语义;从第二语句片段中筛选得到待替换词语,并利用待替换词语在多种语言下的对齐词语,对待替换词语进行替换,得到第二语句片段的更新片段;将替换片段和更新片段所构建得到的多语言混合文本,作为包含多种语言的混合文本数据。
其中,标点信息可以是逗号,也可以是句号或者其他的标点符号。第一语句片段和第二语句片段可以是相同的语句片段,也可以是不同的语句片段。一些实施例中,电子设备在按照标点信息将只包含有一种语言的语句文本切分为多个训练语句片段之后,可以从中任选两个语句片段,分别作为第一语句片段和第二语句片段,也可以是将处于第一预设位次(例如第一个)的语句片段作为第一语句片段,将处于第二预设位次的(例如最后一个)语句片段作为第二语句片段。
电子设备可以调用翻译软件,将第一语句片段翻译为不同的语言,从而得到多种语言下的替换片段,也可以是在网络上搜索与第一语句片段具有相同语义的其他语言的语句,从而得到替换片段,本申请实施例在此不做限定。
电子设备可以将第二语句片段中的任意一个词语筛选出来,作为待替换词语,也可以将命中了实体词库的词语筛选出来,作为待替换词语。电子设备针对待替换词语,从多种语言的对齐词表(例如词典)中,查询得到对齐词语,利用对齐词语在第二语句片段中对待替换词语进行替代,就得到了第二语句片段的更新片段。
电子设备可以将替换片段和更新片段,插入到第一语句片段和第二语句片段所处的位置,所得到的新语句就是混合文本数据。
示例性的,图8是本申请实施例提供的包含多种语言的混合文本数据的一种示意图。语句文本8-1为“他出生于平原地区,是该品牌的联合创始人”,电子设备将语句文本8-1按照逗号,分割为两个训练语句片段,并将这两个训练语句片段分别作为第一语句片段8-2和第二语句片段8-3。电子设备针对第一语句片段8-2,即“他出生于平原地区”,从分别在英语、法语和日语下的片段中,即“He was born in a plain area”、“Il est né dans lesplaines”和“彼は平原地区に生まれた”中,选择英语下的片段作为替换片段8-4;针对第二语句片段8-3,筛选“品牌”作为待替换词语8-5,并从英语和日语分别的翻译文本中,筛选得到日语下的翻译文本作为对齐词语8-6,进而得到更新片段,最后将替换片段8-4和更新片段连接所得到的语句8-7作为最终的混合文本数据。至此,电子设备就完成了针对单个语言的语句文本的混合文本数据的生成过程。
在本申请的一些实施例中,训练文本数据包括:多个语言的平行句对,此时,针对训练文本数据,构建包含多种语言的混合文本数据,即S106的具体实现过程,可以通过以下处理实现:针对平行句对中的第一语句和第二语句,分别按照标点信息进行切分,得到N个第一分割子句和M个第二分割子句;利用N个第一分割子句中的P个第一分割子句,生成第一语句的第一子块,其中,P≤N,N是正整数;利用M个第二分割子句中的Q个第二分割子句,生成第二语句的第二子块,其中,Q≤M,M是正整数;当第一子块和第二子块满足对齐条件时,将第一语句的第一子块和第二语句的第二子块进行交换,得到更新第一语句和更新第二语句;将更新第一语句和更新第二语句所构建得到的多语言更新句对,作为包含多种语言的混合文本数据。
需要说明的是,第一子块是第一语句中具有完整的语义的部分(即具有独立表达语义信息的部分),与第一语句中的其他的子块相互独立,同理,第二子块是第二语句中具有完整的部分,与第二语句中的其他子块相互独立。
本申请实施例中,对齐条件包括:第一子块存在至少一个词语与第二子块中的词语对齐,且第一子块中的任意一个词语不与第二子块所包含的词语之外的词语对齐。也就是说,第一子块中的词语不能与第二语句中除去第二子块之外的子块产生信息交叉,这时,电子设备才会确定第一子块和第二子块是对齐的。
可以理解的是,电子设备可以从N个第一分割子句中,按照顺序提取得到P个连续的第一分割子句,组成第一子块,同理的,电子设备可以从M个第二分割子句中,按照顺序提取得到Q个第二分割子句,组成第二子块,本申请实施例在此不做限定。
示例性的,图9是本申请实施例提供的包含多种语言的混合文本数据的另一种示意图。多个语言的平行句对9-1中,包含第一语句9-11,即“一旦有抢险任务,能召之即来、来之即战”,以及第二语句9-12,即“Once an emergen cy occurs,people should be ableto come and fight floods at any time”。电子设备按照逗号对这两个语句进行分割,得到2个第一分割子句和2个第二分割子句。电子设备直接利用第一分割子句“一旦有抢险任务”作为第一子块9-2,直接利用第二分割子句“Once an emergency occurs”作为第二子块9-3,然后在判断第一子块9-2和第二子块9-3满足对齐条件,即“一旦有抢险任务”中的至少一个词语与第二子块中的词语对齐,且“一旦有抢险任务”中没有任何一个词语与第二子块之外的词语,即没有词语和“people should be able to come and fight floods at anytime”对齐时,就会利用第二子块9-3对第一语句9-11中的第一子块9-2进行替换,得到更新第一语句9-4,利用第一子块9-2对第二语句9-12中的第二子块9-3进行替换,得到更新第二语句9-5,并用这两个语句所组成的多语言更新句对,作为混合文本数据。至此,电子设备就完成了针对多个语言的平行句对的混合文本数据的生成过程。
在本申请的一些实施例中,混合文本数据为多语言混合文本,利用混合文本数据,对初始提取模型进行预训练,得到预训练模型,即S107的具体实现过程,可以通过以下处理实现:利用掩码信息,对多语言混合文本中的目标词语进行替换,得到初始提取模型的输入文本,目标词语是多语言混合文本中的任意一个词语;利用初始提取模型,对输入文本中被掩码信息所替换的目标词语进行预测,得到预测结果;利用预测结果和目标词语之间的差异,对初始提取模型的参数进行调整,直至达到训练结束条件时,得到预训练模型。
可以理解的是,训练结束条件可以是训练时的迭代次数达到预设次数,例如10000次,也可以是训练时的模型精度达到预设精度,例如99%等,本申请实施例在此不做限定。掩码信息可以是空字符,也可以具有预设字符,例如MASK。
在本申请的一些实施例中,混合文本数据包括:多语言更新句对,此时,利用混合文本数据,对初始提取模型进行预训练,得到预训练模型,即S107的具体实现过程,可以通过以下处理实现:从多语言更新句对中的更新第一语句中,筛选得到第一词语,并利用掩码信息对第一词语进行替换,得到初始提取模型的第一输入语句,其中,第一词语是更新第一语句中的任意一个词语;从多语言更新句对中的更新第二语句中,筛选得到第二词语,并利用掩码信息对第二词语进行替换,得到初始提取模型的第二输入语句,其中,第二词语是更新第二语句中的任意一个词语;利用初始提取模型,对第一输入语句中的掩码信息进行词语预测,得到第一预测结果,以及对第二输入语句中的掩码信息进行词语预测,得到第二预测结果;利用第一词语和第一预测结果之间的差异,以及第二词语和第二预测结果之间的差异,对初始提取模型的参数进行调整,直至达到训练结束条件时,得到预训练模型。
可以理解的是,相比于相关技术中,由于预训练数据的质量低下,从而难以对多语言的语义对齐关系进行建模,从而导致多语言预训练模型的性能低下,本申请实施例中,电子设备会将训练文本数据进行扩充,得到多语言混合文本或者多语言更新句对作为混合文本数据,以提高预训练数据中的不同语言的文本含量,提升预训练的数据,再基于混合文本数据进行预训练,能够提高针对多语言的语义对齐关系的建模能力,以能够得到更加有效的多语言预训练模型。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例是在对各种语言的文本进行识别,以完成情感分类的场景下实现的。为了准确地对各个语言的文本完成情感分类,服务器(电子设备)需要依托于多语言预训练模型的多语言对齐建模和跨语言迁移能力,仅使用汉语和英语的训练集微调多语言预训练模型,就能够得到能够用于其他小语种的文本的情感分类任务的模型。
图10是本申请实施例提供的多语言预训练模型的训练框架示意图。多语言预训练模型的训练框架10-1主要包括:数据构建模块10-11和多尺度信息融合模块10-12,其中,数据构建模块10-11仅在预训练、微调等训练过程中使用,多尺度信息融合模块10-12在训练过程和前向预测过程中均可使用。数据构建模块10-11用于单语句的训练数据构建10-111和双语对齐的训练数据构建10-112。数据构建模块10-11的训练数据经过嵌入层10-2提取得到特征向量,多尺度信息融合模块10-12会针对特征向量,分别融合词级信息10-3的特征向量和短语信息10-4的特征向量,将完成融合之后的特征向量经过编码层10-5进行编码,最后针对编码特征,将掩码语言建模(MLM)和翻译语言建模(TLM)作为预训练的目标函数,以完成预训练。
下面,针对预训练中的各个过程进行详细说明。
服务器在构建单语句的训练数据时,利用标点符号(标点信息)将输入文本切分成(单个语言的语句文本)切分成若干个片段(多个训练语句片段),利用多语言句对检索工具抽取出与一些片段最相近的句子,来替换这个片段(第一语句片段)。同时,对于一些片段(第二语句片段)中的部分词(待替换词语),利用双语对齐词表得到其在不同语言下的同义词(对齐词语),并利用同义词对这些词进行替换。最终,利用替换了同义词之后片段,以及检索工具所抽取出的句子,组成多语言混合文本。
服务器在构建双语对齐的训练数据时,是利用双语句对依据对齐信息进行切分,从而得到能够独立表达语义信息的“块”,并在双语句对之间交换“块”,构成双语混合文本。
更详细的,服务器基于双语句对(多语言的平行句对)的对齐信息,将长句子分割为互不相关的短子句。针对给定源端句子
Figure BDA0003802779750000231
(第一语句),目标端句子
Figure BDA0003802779750000232
(第二语句),其中,si和tj为长句中标点符号分割的子句(第一分割子句和第二分割子句)。针对按照源端顺序排列的子句子集
Figure BDA0003802779750000233
为(第一子块),当且仅当:存在目标端顺序排列的子句子集
Figure BDA0003802779750000234
(第二子块),
Figure BDA0003802779750000235
中至少有一个词对应目标端的子句子集
Figure BDA0003802779750000236
中的词且
Figure BDA0003802779750000237
中不存在某个词对齐于目标端子句子集
Figure BDA0003802779750000238
之外的词(称为对齐条件),反之亦然(其中,tm的子句已经与sk之前的子句对齐),则说明这两个子句子集是对齐的。这时,可以将长句对中的这两个子集进行交换,就完成了双语对齐的训练数据的构建。
在多尺度信息融合模块,服务器对于输入的文本序列X={x1,…,xi,…,xn}(称为待识别文本,其中,xi表示一个词或短语)中的每个词(基于级别的文本片段)或短语(短语级别的文本片段),从多语言的对齐词表(词语信息表)和短语对齐表(短语信息表),为每个词或短语,抽取K个其他语言的同义词或同义短语(均称为同义片段),构成集合Ci。对于每个词或短语xi,配备一个同义词或同义短语集合Ci={c1,…,ck}。通过预训练模型中的嵌入层,可以将输入文本的每个词xi映射得到词向量表示ei(文本特征),以及相应的同义词或短语的向量集合{ec1,…,eck}(同义特征)。在多尺度信息融合模块,引入融合函数,将不同语言的同义词或同义短语的特征融入到词向量表示ei中,从而得到
Figure BDA0003802779750000241
随后,将融入多语言信息的词向量融入编码层中,以得到全局的向量表示H={h1,…,hi,…,hn}(语义特征),以进行预测,或者是计算目标函数。
在训练时,针对单语句的训练数据(多语言混合文本),服务器采用掩码语言建模(MLM)作为目标函数,即采用[MASK]字符(掩码信息)随机替换输入文本中的词(目标词语),并监督模型根据上下文重新将[MASK]字符掩盖的词预测出来。示例性的,图11是本申请实施例提供的利用单语句的训练数据进行模型预训练的过程示意图,服务器利用模型对训练数据11-1中被[MASK]字符11-2掩盖的词进行预测,并通过预测出的词语原来的词的差异调整模型,使得预测出的的结果11-3与被[MASK]字符11-2掩盖掉的原有词逐渐接近。
针对双语对齐的训练数据,服务器将翻译语言建模(TLM)作为目标函数,即在源语言和目标语言中随机MASK掉词语,监督模型根据上下文和双语信息将MASK掉的词预测出来。示例性的,图12是本申请实施例提供的利用双语对齐的训练数据进行模型预训练的过程示意图。服务器利用[MASK]字符12-2对训练数据中的源语言的句子12-1中的词(第一词语)和目标语言的句子12-3中的词(第二词语)覆盖,然后利用模型对被[MASK]字符12-2掩盖的词进行预测,并通过预测出的词语原来的词的差异调整模型,使得预测出的的结果12-4与被[MASK]字符12-2掩盖掉的原有词逐渐接近,以完成预训练。
下面,对本申请实施例所提供的文本语义识别方法,与相关技术中的文本语义识别方法进行效果对比。
表1中分别提供了是本申请实施例的文本语义识别方法,与相关技术中的文本语义识别方法,针对40多种语言的文本进行识别时的平均准确率、句对分类准确率、结构预测准确率、问答准确率、语句检索准确率。
表1
Figure BDA0003802779750000251
可见,本申请实施例的文本语义识别方法,相比于其他的相关技术的文本语义识别方法,无论在平均准确率、句对分类准确率、结构预测准确率、问答准确率、语句检索准确率,均取得了最好的成绩,从而本申请实施例的文本语义识别方法的语义识别的准确率更高。
可以理解的是,在本申请实施例中,涉及到用户信息,例如待识别文本等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的文本语义识别装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的文本语义识别装置255中的软件模块可以包括:
文本提取模块2551,用于从待识别文本中,提取至少一个文本片段;其中,所述待识别文本是任意一种语言下的文本;
片段确定模块2552,用于针对每个所述文本片段,确定多种语言下的同义片段;所述同义片段与所述文本片段具有相同的语义;
特征确定模块2553,用于基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征;
文本识别模块2554,用于基于每个所述文本片段的语义特征,对所述待识别文本进行语义识别,得到识别结果。
在本申请的一些实施例中,所述特征确定模块2553,用于针对每个所述文本片段进行特征编码,得到文本特征;针对每个所述文本片段的所述同义片段进行编码,得到同义特征;将所述文本特征和所述同义特征的融合结果,确定为每个所述文本片段的中间特征;将从每个所述文本片段的所述中间特征所提取到的特征,确定为每个所述文本片段的语义特征。
在本申请的一些实施例中,所述特征确定模块2553,还用于执行以下处理中的任意一种;针对所述文本特征和所述同义特征进行加权,并将加权结果确定为所述文本特征和所述同义特征的所述融合结果;通过神经网络模型,针对所述文本特征和所述同义特征进行交互融合,得到所述文本特征和所述同义特征的所述融合结果;通过自编码器对所述文本特征和所述同义特征进行特征编码,并将编码结果确定为所述文本特征和所述同义特征的所述融合结果。
在本申请的一些实施例中,至少一个所述文本片段包括:词语级别的文本片段和短语级别的文本片段;所述文本提取模块2551,还用于针对所述待识别文本进行词语的提取,得到所述待识别文本中词语级别的文本片段;针对所述待识别文本进行短语的提取,得到所述待识别文本中的短语级别的文本片段。
在本申请的一些实施例中,所述片段确定模块2552,还用于获取多种语言分别对应的词语信息表和短语信息表;从与多种语言分别对应的词语信息表中,确定所述词语级别的文本片段在多种语言下的所述同义片段;从与多种语言分别对应的短语信息表中,确定所述短语级别的文本片段在多种语言下的所述同义片段。
在本申请的一些实施例中,所述基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征,是通过特征提取模型实现的;所述文本语义识别装置255还包括:模型训练模块2555;
所述模型训练模块2555,用于获取训练文本数据和初始提取模型;所述训练文本数据是未经过标注的文本数据;针对所述训练文本数据,构建包含多种语言的混合文本数据;利用所述混合文本数据,对所述初始提取模型进行预训练,得到预训练模型;针对所述预训练模型进行微调,得到所述特征提取模型。
在本申请的一些实施例中,所述训练文本数据中包括:单个语言的语句文本;所述模型训练模块2555,还用于依据所述语句文本中的标点信息,对所述语句文本进行分割,得到多个训练语句片段;从多个所述训练语句片段中,筛选得到第一语句片段和第二语句片段;针对所述第一语句片段,检索在多种语言下的替换片段,其中,所述替换片段与所述第一语句片段具有相同的语义;从所述第二语句片段中筛选得到待替换词语,并利用所述待替换词语在多种语言下的对齐词语,对所述待替换词语进行替换,得到所述第二语句片段的更新片段;将所述替换片段和所述更新片段所构建得到的多语言混合文本,作为包含多种语言的所述混合文本数据。
在本申请的一些实施例中,所述训练文本数据包括:多个语言的平行句对;所述模型训练模块2555,还用于针对所述平行句对中的第一语句和第二语句,分别按照标点信息进行切分,得到N个第一分割子句和M个第二分割子句;利用N个所述第一分割子句中的P个第一分割子句,生成所述第一语句的第一子块,其中,P≤N,N是正整数;利用M个所述第二分割子句中的Q个第二分割子句,生成所述第二语句的第二子块,其中,Q≤M,M是正整数;当所述第一子块和所述第二子块满足对齐条件时,将所述第一语句的第一子块和所述第二语句的第二子块进行交换,得到更新第一语句和更新第二语句;将所述更新第一语句和所述更新第二语句所构建得到的多语言更新句对,作为包含多种语言的所述混合文本数据。
在本申请的一些实施例中,所述对齐条件包括:所述第一子块存在至少一个词语与所述第二子块中的词语对齐,且所述第一子块中的任意一个词语不与所述第二子块所包含的词语之外的词语对齐。
在本申请的一些实施例中,所述混合文本数据包括:多语言混合文本;所述模型训练模块2555,还用于利用掩码信息,对所述多语言混合文本中的目标词语进行替换,得到所述所述初始提取模型的输入文本,所述目标词语是所述多语言混合文本中的任意一个词语;利用所述初始提取模型,对所述输入文本中被所述掩码信息所替换的所述目标词语进行预测,得到预测结果;利用所述预测结果和所述目标词语之间的差异,对所述初始提取模型的参数进行调整,直至达到训练结束条件时,得到所述预训练模型。
在本申请的一些实施例中,所述混合文本数据包括:多语言更新句对;所述模型训练模块2555,还用于从所述多语言更新句对中的更新第一语句中,筛选得到第一词语,并利用掩码信息对所述第一词语进行替换,得到所述初始提取模型的第一输入语句,其中,所述第一词语是所述更新第一语句中的任意一个词语;从所述多语言更新句对中的更新第二语句中,筛选得到第二词语,并利用所述掩码信息对所述第二词语进行替换,得到所述初始提取模型的第二输入语句,其中,所述第二词语是所述更新第二语句中的任意一个词语;利用所述初始提取模型,对所述第一输入语句中的所述掩码信息进行词语预测,得到第一预测结果,以及对所述第二输入语句中的所述掩码信息进行词语预测,得到第二预测结果;利用所述第一词语和所述第一预测结果之间的差异,以及所述第二词语和所述第二预测结果之间的差异,对所述初始提取模型的参数进行调整,直至达到训练结束条件时,得到所述预训练模型。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该计算机设备执行本申请实施例上述的文本语义识别方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的文本语义识别方法,例如,如图3示出的文本语义识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例,电子设备会针对任意一种语言的待识别文本中,提取文本片段,并针对每个片段确定与其具有相同的语义,但是使用的语言更加多样的同义片段,通过结合同义片段为文本片段确定对应的语义特征,以实现利用多种语言的同义片段为文本片段在特征建模时进行信息补充,如此,能够提升对低资源语言的语义信息的表征能力,即使得确定出的语义特征更加准确,最终提升了语义识别的准确度;会将训练文本数据进行扩充,得到多语言混合文本或者多语言更新句对作为混合文本数据,以提高预训练数据中的多种语言的文本含量,提升预训练的数据,再基于混合文本数据进行预训练,能够提高针对多语言的语义对齐关系的建模能力,以能够得到更加有效的多语言预训练模型。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种文本语义识别方法,其特征在于,所述方法包括:
从待识别文本中,提取至少一个文本片段;其中,所述待识别文本是任意一种语言下的文本;
针对每个所述文本片段,确定多种语言下的同义片段;所述同义片段与所述文本片段具有相同的语义;
基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征;
基于每个所述文本片段的语义特征,对所述待识别文本进行语义识别,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征,包括:
针对每个所述文本片段进行特征编码,得到文本特征;
针对每个所述文本片段的所述同义片段进行编码,得到同义特征;
将所述文本特征和所述同义特征的融合结果,确定为每个所述文本片段的中间特征;
将从每个所述文本片段的所述中间特征所提取到的特征,确定为每个所述文本片段的语义特征。
3.根据权利要求2所述的方法,其特征在于,所述将所述文本特征和所述同义特征的融合结果,确定为每个所述文本片段的中间特征之前,所述方法还包括:执行以下处理中的任意一种;
针对所述文本特征和所述同义特征进行加权,并将加权结果确定为所述文本特征和所述同义特征的所述融合结果;
通过神经网络模型,针对所述文本特征和所述同义特征进行交互融合,得到所述文本特征和所述同义特征的所述融合结果;
通过自编码器对所述文本特征和所述同义特征进行特征编码,并将编码结果确定为所述文本特征和所述同义特征的所述融合结果。
4.根据权利要求1至3任一项所述的方法,其特征在于,至少一个所述文本片段包括:词语级别的文本片段和短语级别的文本片段;所述从待识别文本中,提取至少一个文本片段,包括:
针对所述待识别文本进行词语的提取,得到所述待识别文本中词语级别的文本片段;
针对所述待识别文本进行短语的提取,得到所述待识别文本中的短语级别的文本片段。
5.根据权利要求4所述的方法,其特征在于,所述针对每个所述文本片段,确定多种语言下的同义片段,包括:
获取多种语言分别对应的词语信息表和短语信息表;
从与多种语言分别对应的词语信息表中,确定所述词语级别的文本片段在多种语言下的所述同义片段;
从与多种语言分别对应的短语信息表中,确定所述短语级别的文本片段在多种语言下的所述同义片段。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征,是通过特征提取模型实现的;
所述从待识别文本中,提取至少一个文本片段之前,所述方法还包括:
获取训练文本数据和初始提取模型;所述训练文本数据是未经过标注的文本数据;
针对所述训练文本数据,构建包含多种语言的混合文本数据;
利用所述混合文本数据,对所述初始提取模型进行预训练,得到预训练模型;
针对所述预训练模型进行微调,得到所述特征提取模型。
7.根据权利要求6所述的方法,其特征在于,所述训练文本数据中包括:单个语言的语句文本;所述针对所述训练文本数据,构建包含多种语言的混合文本数据,包括:
依据所述语句文本中的标点信息,对所述语句文本进行分割,得到多个训练语句片段;
从多个所述训练语句片段中,筛选得到第一语句片段和第二语句片段;
针对所述第一语句片段,检索在多种语言下的替换片段,其中,所述替换片段与所述第一语句片段具有相同的语义;
从所述第二语句片段中筛选得到待替换词语,并利用所述待替换词语在多种语言下的对齐词语,对所述待替换词语进行替换,得到所述第二语句片段的更新片段;
将所述替换片段和所述更新片段所构建得到的多语言混合文本,作为包含多种语言的所述混合文本数据。
8.根据权利要求6所述的方法,其特征在于,所述训练文本数据包括:多个语言的平行句对;所述针对所述训练文本数据,构建包含多种语言的混合文本数据,包括:
针对所述平行句对中的第一语句和第二语句,分别按照标点信息进行切分,得到N个第一分割子句和M个第二分割子句;
利用N个所述第一分割子句中的P个第一分割子句,生成所述第一语句的第一子块,其中,P≤N,N是正整数;
利用M个所述第二分割子句中的Q个第二分割子句,生成所述第二语句的第二子块,其中,Q≤M,M是正整数;
当所述第一子块和所述第二子块满足对齐条件时,将所述第一语句的第一子块和所述第二语句的第二子块进行交换,得到更新第一语句和更新第二语句;
将所述更新第一语句和所述更新第二语句所构建得到的多语言更新句对,作为包含多种语言的所述混合文本数据。
9.根据权利要求8所述的方法,其特征在于,所述对齐条件包括:所述第一子块存在至少一个词语与所述第二子块中的词语对齐,且所述第一子块中的任意一个词语不与所述第二子块所包含的词语之外的词语对齐。
10.根据权利要求6所述的方法,其特征在于,所述混合文本数据包括:多语言混合文本;所述利用所述混合文本数据,对所述初始提取模型进行预训练,得到预训练模型,包括:
利用掩码信息,对所述多语言混合文本中的目标词语进行替换,得到所述所述初始提取模型的输入文本,所述目标词语是所述多语言混合文本中的任意一个词语;
利用所述初始提取模型,对所述输入文本中被所述掩码信息所替换的所述目标词语进行预测,得到预测结果;
利用所述预测结果和所述目标词语之间的差异,对所述初始提取模型的参数进行调整,直至达到训练结束条件时,得到所述预训练模型。
11.根据权利要求6所述的方法,其特征在于,所述混合文本数据包括:多语言更新句对;所述利用所述混合文本数据,对所述初始提取模型进行预训练,得到预训练模型,包括:
从所述多语言更新句对中的更新第一语句中,筛选得到第一词语,并利用掩码信息对所述第一词语进行替换,得到所述初始提取模型的第一输入语句,其中,所述第一词语是所述更新第一语句中的任意一个词语;
从所述多语言更新句对中的更新第二语句中,筛选得到第二词语,并利用所述掩码信息对所述第二词语进行替换,得到所述初始提取模型的第二输入语句,其中,所述第二词语是所述更新第二语句中的任意一个词语;
利用所述初始提取模型,对所述第一输入语句中的所述掩码信息进行词语预测,得到第一预测结果,以及对所述第二输入语句中的所述掩码信息进行词语预测,得到第二预测结果;
利用所述第一词语和所述第一预测结果之间的差异,以及所述第二词语和所述第二预测结果之间的差异,对所述初始提取模型的参数进行调整,直至达到训练结束条件时,得到所述预训练模型。
12.一种文本语义识别装置,其特征在于,所述装置包括:
文本提取模块,用于从待识别文本中,提取至少一个文本片段;其中,所述待识别文本是任意一种语言下的文本;
片段确定模块,用于针对每个所述文本片段,确定多种语言下的同义片段;所述同义片段与所述文本片段具有相同的语义;
特征确定模块,用于基于每个所述文本片段,以及每个所述文本片段的所述同义片段,确定每个所述文本片段的语义特征;
文本识别模块,用于基于每个所述文本片段的语义特征,对所述待识别文本进行语义识别,得到识别结果。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的文本语义识别方法。
14.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的文本语义识别方法。
15.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的文本语义识别方法。
CN202210987599.7A 2022-08-17 2022-08-17 文本语义识别方法、装置、设备、存储介质及程序产品 Active CN115238708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210987599.7A CN115238708B (zh) 2022-08-17 2022-08-17 文本语义识别方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210987599.7A CN115238708B (zh) 2022-08-17 2022-08-17 文本语义识别方法、装置、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN115238708A true CN115238708A (zh) 2022-10-25
CN115238708B CN115238708B (zh) 2024-02-27

Family

ID=83679088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210987599.7A Active CN115238708B (zh) 2022-08-17 2022-08-17 文本语义识别方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115238708B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118052221A (zh) * 2024-04-16 2024-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112560510A (zh) * 2020-12-10 2021-03-26 科大讯飞股份有限公司 翻译模型训练方法、装置、设备及存储介质
CN112749556A (zh) * 2020-08-04 2021-05-04 腾讯科技(深圳)有限公司 多语言模型的训练方法和装置、存储介质和电子设备
CN113239710A (zh) * 2021-06-23 2021-08-10 合肥讯飞数码科技有限公司 多语言机器翻译方法、装置、电子设备和存储介质
CN113591493A (zh) * 2021-01-29 2021-11-02 腾讯科技(深圳)有限公司 翻译模型的训练方法及翻译模型的装置
US20220067309A1 (en) * 2020-08-26 2022-03-03 Google Llc Learned evaluation model for grading quality of natural language generation outputs
CN114417879A (zh) * 2021-12-29 2022-04-29 北京百度网讯科技有限公司 跨语言文本语义模型的生成方法、装置及电子设备
US20220164547A1 (en) * 2020-11-20 2022-05-26 Salesforce.Com, Inc. Systems and methods for code-mixing adversarial training
CN114565104A (zh) * 2022-03-01 2022-05-31 腾讯科技(深圳)有限公司 语言模型的预训练方法、结果推荐方法及相关装置
CN114707513A (zh) * 2022-03-22 2022-07-05 腾讯科技(深圳)有限公司 一种文本语义识别方法、装置、电子设备和存储介质
CN114758330A (zh) * 2022-04-22 2022-07-15 深圳市星桐科技有限公司 一种文本识别方法、装置、电子设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质
CN112749556A (zh) * 2020-08-04 2021-05-04 腾讯科技(深圳)有限公司 多语言模型的训练方法和装置、存储介质和电子设备
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
US20220067309A1 (en) * 2020-08-26 2022-03-03 Google Llc Learned evaluation model for grading quality of natural language generation outputs
US20220164547A1 (en) * 2020-11-20 2022-05-26 Salesforce.Com, Inc. Systems and methods for code-mixing adversarial training
CN112560510A (zh) * 2020-12-10 2021-03-26 科大讯飞股份有限公司 翻译模型训练方法、装置、设备及存储介质
CN113591493A (zh) * 2021-01-29 2021-11-02 腾讯科技(深圳)有限公司 翻译模型的训练方法及翻译模型的装置
CN113239710A (zh) * 2021-06-23 2021-08-10 合肥讯飞数码科技有限公司 多语言机器翻译方法、装置、电子设备和存储介质
CN114417879A (zh) * 2021-12-29 2022-04-29 北京百度网讯科技有限公司 跨语言文本语义模型的生成方法、装置及电子设备
CN114565104A (zh) * 2022-03-01 2022-05-31 腾讯科技(深圳)有限公司 语言模型的预训练方法、结果推荐方法及相关装置
CN114707513A (zh) * 2022-03-22 2022-07-05 腾讯科技(深圳)有限公司 一种文本语义识别方法、装置、电子设备和存储介质
CN114758330A (zh) * 2022-04-22 2022-07-15 深圳市星桐科技有限公司 一种文本识别方法、装置、电子设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAN YANG 等: "Alternating Language Modeling for Cross-Lingual Pre-Training", THE THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-20), pages 9386 - 9393 *
LIBO QIN 等: "CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP", HTTPS://ARXIV.ORG/ABS/2006.06402, pages 1 - 8 *
吴昊: "面向中亚的多语言神经机器翻译方法研究与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 138 - 725 *
胡德敏 等: "预训练模型下融合注意力机制的多语言文本情感分析方法", 小型微型计算机系统, vol. 41, no. 2, pages 278 - 284 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118052221A (zh) * 2024-04-16 2024-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品

Also Published As

Publication number Publication date
CN115238708B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN110569366B (zh) 文本的实体关系抽取方法、装置及存储介质
CN111324728B (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
KR101864361B1 (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
CN110852106B (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN107220243A (zh) 一种数据库交互式翻译系统
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
Kenny Human and machine translation
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN111382563A (zh) 文本相关性的确定方法及装置
CN115238708B (zh) 文本语义识别方法、装置、设备、存储介质及程序产品
Mundotiya et al. Linguistic resources for Bhojpuri, Magahi, and Maithili: statistics about them, their similarity estimates, and baselines for three applications
Baykara et al. Abstractive text summarization and new large-scale datasets for agglutinative languages Turkish and Hungarian
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
Liu Research on Computer intelligent proofreading System based on improved phrase translation model
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
KR20160052506A (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
Mundotiya et al. Basic linguistic resources and baselines for Bhojpuri, Magahi and Maithili for natural language processing
CN112749553B (zh) 视频文件的文本信息处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40075300

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant