CN114970551A - 文本处理方法、装置和电子设备 - Google Patents

文本处理方法、装置和电子设备 Download PDF

Info

Publication number
CN114970551A
CN114970551A CN202210888163.2A CN202210888163A CN114970551A CN 114970551 A CN114970551 A CN 114970551A CN 202210888163 A CN202210888163 A CN 202210888163A CN 114970551 A CN114970551 A CN 114970551A
Authority
CN
China
Prior art keywords
target
text
weight
character
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210888163.2A
Other languages
English (en)
Inventor
陈谦
张庆林
王雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202210888163.2A priority Critical patent/CN114970551A/zh
Publication of CN114970551A publication Critical patent/CN114970551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本处理方法、装置和电子设备,该文本处理方法包括:获取目标文本,目标文本包括多个目标文字;将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;以及,将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。在本申请实施例中,通过目标文字的权重和目标文字的隐层特征向量确定目标文本的目标表征向量,使得目标表征向量能够捕捉到文本的潜在语义,并且不需要对语义表征模型进行进一步的训练,简化目标表征向量的确定过程。

Description

文本处理方法、装置和电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置和电子设备。
背景技术
预训练语言模型(Bert)在对文本进行向量表征方面,取得了巨大成功,例如句子或者段落经过预训练语言模型处理得到的表征向量,可以用于下游任务。然而,实际上单纯使用预训练语言模型对文本进行向量表征,很难捕捉文本的潜在语义。
相关技术采用的方法是利用对比学习来提升预训练语言模型的文本语义表征能力,但这种方法需要对预训练语言模型进行进一步的训练,存在过程繁琐的问题。
发明内容
本申请的多个方面提供一种文本处理方法、装置和电子设备,以解决相关技术在实现预训练语言模型捕捉文本的潜在语义时,过程繁琐的问题。
本申请实施例第一方面提供一种文本处理方法,包括:获取目标文本,目标文本包括多个目标文字;将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;以及,将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。
本申请实施例第二方面提供一种文本处理装置,包括:
获取模块,用于获取目标文本,目标文本包括多个目标文字;
处理模块,用于将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;以及,用于将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;
确定模块,用于根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。
本申请实施例第三方面提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面的文本处理方法。
本申请实施例第四方面提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现第一方面的文本处理方法。
本申请实施例应用在文本检索或者问答等场景中,提供的文本处理方法包括:获取目标文本,目标文本包括多个目标文字;将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;以及,将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。在本申请实施例中,通过目标文字的权重和目标文字的隐层特征向量确定目标文本的目标表征向量,使得目标表征向量能够捕捉到文本的潜在语义,并且不需要对语义表征模型进行进一步的训练,简化目标表征向量的确定过程。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种文本处理方法的步骤流程图;
图2为本申请示例性实施例提供的一种确定目标表征向量的示意框图;
图3为本申请示例性实施例提供的另一种文本处理方法的步骤流程图;
图4为本申请示例性实施例提供的一种文本处理方法的示意框图;
图5为本申请示例性实施例提供的一种文本处理装置的结构框图;
图6为本申请示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,还采用后处理的方法来提升文本的语义表征,例如,采用BERT-flow(一种训练语言模型的后处理方式)和BERT-whitening(另一种训练语言模型的后处理方式)。其中,BERT-flow是对BERT处理文本得到的表征向量进行变换分布为平滑且各向同性的高斯分布,通过标准化流分布,这是一个由神经网络参数化的可逆函数,这个方法比较复杂,且需要在固定领域相关的数据上进行训练获得映射函数,导致无法在其他领域上应用,即迁移效果一般。BERT-whitening是BERT处理文本得到的表征向量进行白化后处理操作,该方法仍然需要在固定领域相关的数据上进行训练获得白化参数,导致迁移效果一般。
基于上述问题,本申请实施例中提供的文本处理方法,是采用BERT与权重的结合确定目标表征向量,得到目标表征向量能够表达文本的潜在含义的同时,也能够在不同领域上应用,进而具有很好的迁移效果。
在本实施例中,文本处理方法可以是借助云计算系统实现整体的文本处理方法。此外,执行文本处理方法的服务器可以为云服务器,以便借助于云上资源的优势运行各种神经网络模型;相对于云端,文本处理方法也可以应用于常规服务器或服务器阵列等服务端设备,在此不加以限定。
此外,本申请实施例的一种应用场景如文本检索场景,具体为,接收用户输入的检索文本,向用户返回该检索文本对应的检索内容,则需要对输入的检索文本进行特征提取得到表征向量,然后将表征向量输入识别模型,得到该检索文本的意图,根据该检索文本的意图向用户返回对应的检索内容。此外,另一种应用场景如问答场景,具体为,接收用户输入的问题文本,根据该问题文本向用户返回答案文本,则需要对输入的问题文本进行特征提取得到表征向量,根据表征向量确定对应的答案文本。再者,应用场景如电商领域的对话场景,用户与机器客服进行对话,需要对用户输入的文本进行处理,以回复用户输入的文本。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请示例性实施例提供的一种文本处理方法的步骤流程图。如图1所示该文本处理方法,具体包括以下步骤:
S101,获取目标文本。
其中,目标文本包括多个目标文字。目标文本为待编码处理的文本,可以是一句文本或者一段文本,如图2中的“卡车在高速公路行驶”
S102,将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;以及,将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重。
其中,语义表征模型可以是BERT,该语义表征模型根据下游任务预先训练的。采用该语义表征模型可以对目标文本中的每个目标文字进行编码,得到每个目标文字对应的隐层特征向量。
示例性地,参照图2,目标文本为“卡车在高速公路行驶”,将目标文本“卡车在高速公路行驶”输入语义表征模型后输出为,目标文字“卡”对应的隐层特征向量为“H1”,目标文字“车”对应的隐层特征向量为“H2”,目标文字“在”对应的隐层特征向量为“H3”,目标文字“高”对应的隐层特征向量为“H4”,目标文字“速”对应的隐层特征向量为“H5”,目标文字“公”对应的隐层特征向量为“H6”,目标文字“路”对应的隐层特征向量为“H7”,目标文字“行”对应的隐层特征向量为“H8”,目标文字“驶”对应的隐层特征向量为“H9”。
其中,目标文字的权重表示目标文字在目标文本中的重要性。
在本申请实施例中,权重确定模型是预先训练好的,权重确定模块可以是基于TF-IDF(词频-逆文本频率指数技术)训练的。
一种可选实施例中,将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,包括:将目标文本输入权重确定模型,在权重确定模型中,采用关键词提取算法,确定每个目标文字对应的权重。
其中,关键词提取算法可以是TextRank(一种关键词提取算法)、YAKE(一种关键词提取算法)、EmbedRank(一种关键词提取算法)或MDERank(一种关键词提取算法)等关键词提取算法。
示例性地,参照图2,将目标文本“卡车在高速公路行驶”输入权重确定模型后,输出目标文字“卡”对应的权重为“W1”,目标文字“车”对应的权重为“W2”,目标文字“在”对应的权重为“W3”,目标文字“高”对应的权重为“W4”,目标文字“速”对应的权重为“W5”,目标文字“公”对应的权重为“W6”,目标文字“路”对应的权重为“W7”,目标文字“行”对应的权重为“W8”,目标文字“驶”对应的权重为“W9”。
S103,根据隐层特征向量和权重,确定目标文本的目标表征向量。
具体地,将各个目标文字的隐层特征向量和权重进行加权和,得到目标文本的目标表征向量。在本申请实施例中,权重越大,表示对应的目标文字在目标文本中的重要性越高。则通过将各个目标文字的隐层特征向量和权重进行加权和,得到目标文本的目标表征向量,能够提高重要性高的目标文字的隐层特征向量在目标表征向量中的占比,进而使目标表征向量更准确的表征目标文本。
示例性地,参照图2,目标文本“卡车在高速公路行驶”的目标表征向量V=H1*W1+H2*W2+ H3*W3+ H4*W4+ H5*W5+ H6*W6+ H7*W7+ H8*W8+ H9*W9。其中,若W1=0.3,W2=0.1,W3=0,W4=0.2,W5=0.2,W6=0.1,W7=0.1,W8=0.4,W9=0.4。可以理解,目标文字“在”对目标文本的语义无贡献,则对应权重为0。目标文字“行”和目标文字“驶”对目标文本的语义贡献较大,对应权重较大。
进一步地,目标表征向量用于下游任务,下游任务包括:文本检索任务、问答任务、对话任务中的至少一种。其中,下游任务可以对应一个模型,则可以将目标表征向量输入下游任务对应的模型,输出下游任务对应的结果,实现下游任务的任务目标。
本申请实施例应用在文本检索或者问答等场景中,提供的文本处理方法包括:获取目标文本,目标文本包括多个目标文字;将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。在本申请实施例中,通过目标文字的权重和目标文字的隐层特征向量确定目标文本的目标表征向量,使得目标表征向量能够捕捉到文本的潜在语义,并且不需要对语义表征模型进行进一步的训练,简化目标表征向量的确定过程。
图3为本申请示例性实施例提供的一种图像识别模型的训练过程的步骤流程图。如图3所示,具体包括以下步骤:
S301,对百科类数据或者历史问答类数据进行数据挖掘,得到多个文本样本。
其中,百科类数据是指天文、地理、自然、人文、信仰、文学等全部学科的知识数据。对这些数据进行挖掘可以得到多个文本样本,每个文本样本可以是一句文本或者一段文本。对百科类数据挖掘得到的文本样本可以训练文本检索任务对应的语义表征模型。
此外,历史问答类数据可以是问答系统对应的历史阶段用户提出的问题文本和人工回复问题文本的回复文本,对历史问答类数据进行挖掘,得到多个文本样本,文本样本可以是问题文本或回复文本。对历史问答类数据挖掘得到的文本样本可以训练问答任务对应的语义表征模型。
参照图4,对百科类数据或历史对话数据进行挖掘,得到多个样本文本。
在本申请实施例中,将多个样本文本存储至预设语料库。
S302,采用多个文本样本训练语义表征模型,得到训练完成的语义表征模型。
其中,语义表征模型可以采用无监督方式进行训练,也可以采用有监督方式训练,在此不加以限定。此外,语义表征模型可以基于不同的下游任务进行对应的训练,采用的训练样本为多个文本样本。
S303,根据多个文本样本,确定每个文字基于多个文本样本的逆文本频率指数。
其中,一个文字x的逆文本频率指数IDF= log(N/dx),其中,N表示多个文本样本中文本样本的个数,dx表示包含文字x在文本样本的个数,例如,总共有1000万个文本样本,文字x为“的”,包含文字“的”的文本样本的个数为1000个文本样本,则文字“的”对应的逆文本频率指数IDF= log(1000万/1000)=4。
在本申请实施例中,确定多个文本样本中每个文字的逆文本频率指数。例如:“我”是2,“驶”是3.6。
S304,根据逆文本频率指数,确定权重确定模型。
其中,权重确定模型采用的技术可以是TF-IDF,则权重的计算方式是W=TF*IDF,其中,TF是文字在对应文本中的词频,权重确定模型中包括各个文字的IDF。
在本申请实施例中,参照图4,采用相同的文本样本,训练语义表征模型和权重确定模型,能够保证语义表征模型和权重确定模型的样本一致性。
此外,采用百科类数据和历史问答类数据挖掘得到的多个文本样本训练语义表征模型,权重确定模型,能够使语义表征模型和权重确定模型具有很好的迁移性,可以应用在多种领域中。例如,百科类数据由于包括各个领域的数据,则基于百科类数据训练得到语义表征模型和权重确定模型可以应用在各个领域,历史问答类数据也可以包括各个领域的问答数据,则基于历史问答类数据训练得到语义表征模型和权重确定模型可以应用在各个领域。
S305,获取目标文本。
S306,将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量。
S307,将目标文本输入权重确定模型,以使得权重确定模型,采用词频-逆文本频率指数技术,针对目标文本中的每个目标文字,确定每个目标文字在目标文本中对应的词频。
其中,词频为目标文字在目标文本中出现的次数,与目标文本中文字个数的比值。
示例性地,参照图2,目标文本为“卡车在高速公路行驶”,该目标文本包括9个文字,若目标文字是“驶”,则“驶”在目标文本 “卡车在高速公路行驶”中共出现一次,则词频TF=1/9。
S308,确定每个目标文字在预设语料库中对应的目标逆文本频率指数。
具体地,在训练阶段,确定权重确定模型包括的每个文字对应的逆文本频率指数,则在应用阶段,根据目标文字,确定与该目标文字相同的文字的逆文本频率指数为目标逆文本频率指数。
示例性地,若目标文字为“驶”,则“驶”对应的目标逆文本频率指数为3.6。
S309,根据词频和目标逆文本频率指数,确定每个目标文字的权重。
其中,权重W=TF*IDF,示例性地,对于目标文字“驶”的词频TF=1/9,目标逆文本频率指数为3.6,则对应的权重为4。进一步地,采用同样的方法可以确定目标文本中每个目标文字的权重。
S310,根据隐层特征向量和权重,确定目标文本的目标表征向量。
本申请实施例应用在文本检索或者问答等场景中,提供的文本处理方法包括:获取目标文本,目标文本包括多个目标文字;将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。在本申请实施例中,通过目标文字的权重和目标文字的隐层特征向量确定目标文本的目标表征向量,使得目标表征向量能够捕捉到文本的潜在语义,并且不需要对语义表征模型进行进一步的训练,简化目标表征向量的确定过程。
在本申请实施例中,参照图5,除了提供文本处理方法之外,还提供一种文本处理装置50,该文本处理装置50包括:
获取模块51,用于获取目标文本,目标文本包括多个目标文字;
处理模块52,用于将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量;以及处理模块52,用于将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重,目标文字的权重表示目标文字在目标文本中的重要性;
确定模块53,用于根据隐层特征向量和权重,确定目标文本的目标表征向量,目标表征向量用于下游任务。
一种可选实施例中,处理模块52具体用于:将目标文本输入权重确定模型,以使得权重确定模型,采用词频-逆文本频率指数技术,针对目标文本中的每个目标文字,确定每个目标文字在目标文本中对应的词频;确定每个目标文字在预设语料库中对应的目标逆文本频率指数;根据词频和目标逆文本频率指数,确定每个目标文字的权重。
一种可选实施例中,预设语料库包括:多个文本样本,文本处理装置50还包括:权重确定模型确定模块(未示出),用于将目标文本输入预先训练的权重确定模型进行分析处理,得到每个目标文字的权重之前,根据多个文本样本,确定每个文字基于多个文本样本的逆文本频率指数;根据逆文本频率指数,确定权重确定模型。
一种可选实施例中,文本处理装置50还包括:训练模块(未示出),用于在将目标文本输入预先训练的语义表征模型进行编码处理,得到每个目标文字对应的隐层特征向量之前,采用多个文本样本训练语义表征模型,得到训练完成的语义表征模型。
一种可选实施例中,文本处理装置50还包括:挖掘模块(未示出),用于确定每个目标文字在预设语料库中对应的目标逆文本频率指数之前,对百科类数据或者历史问答类数据进行数据挖掘,得到多个文本样本。
一种可选实施例中,处理模块52具体用于:将目标文本输入权重确定模型,在权重确定模型中,采用关键词提取算法,确定每个目标文字对应的权重。
一种可选实施例中,下游任务包括:文本检索任务、问答任务、对话任务中的至少一种。
本申请实施例提供的文本处理装置,通过目标文字的权重和目标文字的隐层特征向量确定目标文本的目标表征向量,使得目标表征向量能够捕捉到文本的潜在语义,并且不需要对语义表征模型进行进一步的训练,简化目标表征向量的确定过程。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图6为本申请一示例实施例提供的电子设备的结构示意图。如图6所示,该电子设备60包括:处理器61,以及与处理器61通信连接的存储器62,存储器62存储计算机执行指令。
其中,处理器执行存储器存储的计算机执行指令,以实现上述任一方法实施例所提供的文本处理方法,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例提供的文本处理方法。
本申请实施例还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例提供的文本处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取目标文本,所述目标文本包括多个目标文字;
将所述目标文本输入预先训练的语义表征模型进行编码处理,得到每个所述目标文字对应的隐层特征向量;以及,将所述目标文本输入预先训练的权重确定模型进行分析处理,得到每个所述目标文字的权重,所述目标文字的权重表示所述目标文字在所述目标文本中的重要性;
根据所述隐层特征向量和所述权重,确定所述目标文本的目标表征向量,所述目标表征向量用于下游任务。
2.根据权利要求1所述的文本处理方法,其特征在于,所述将所述目标文本输入预先训练的权重确定模型进行分析处理,得到每个所述目标文字的权重,包括:
将所述目标文本输入所述权重确定模型,以使得所述权重确定模型采用词频-逆文本频率指数技术,针对所述目标文本中的每个目标文字,确定每个目标文字在所述目标文本中对应的词频;以及,确定每个目标文字在预设语料库中对应的目标逆文本频率指数;并根据所述词频和所述目标逆文本频率指数,确定每个目标文字的权重。
3.根据权利要求2所述的文本处理方法,其特征在于,所述预设语料库包括:多个文本样本,所述将所述目标文本输入预先训练的权重确定模型进行分析处理,得到每个所述目标文字的权重之前,还包括:
根据所述多个文本样本,确定每个文字基于所述多个文本样本的逆文本频率指数;
根据所述逆文本频率指数,确定所述权重确定模型。
4.根据权利要求3所述的文本处理方法,其特征在于,所述将所述目标文本输入预先训练的语义表征模型进行编码处理,得到每个所述目标文字对应的隐层特征向量之前包括:
采用所述多个文本样本训练语义表征模型,得到训练完成的语义表征模型。
5.根据权利要求3或4所述的文本处理方法,其特征在于,所述确定每个目标文字在预设语料库中对应的目标逆文本频率指数之前,还包括:
对百科类数据或者历史问答类数据进行数据挖掘,得到所述多个文本样本。
6.根据权利要求1所述的文本处理方法,其特征在于,所述将所述目标文本输入预先训练的权重确定模型进行分析处理,得到每个所述目标文字的权重,包括:
将所述目标文本输入所述权重确定模型,在所述权重确定模型中,采用关键词提取算法,确定每个所述目标文字对应的权重。
7.根据权利要求1至4任一项所述的文本处理方法,其特征在于,所述下游任务包括:文本检索任务、问答任务、对话任务中的至少一种。
8.一种文本处理装置,其特征在于,包括:
获取模块,用于获取目标文本,所述目标文本包括多个目标文字;
处理模块,用于将所述目标文本输入预先训练的语义表征模型进行编码处理,得到每个所述目标文字对应的隐层特征向量;以及,用于将所述目标文本输入预先训练的权重确定模型进行分析处理,得到每个所述目标文字的权重,所述目标文字的权重表示所述目标文字在所述目标文本中的重要性;
确定模块,用于根据所述隐层特征向量和所述权重,确定所述目标文本的目标表征向量,所述目标表征向量用于下游任务。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现权利要求1至7中任一项所述的文本处理方法。
10.一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,其特征在于,计算机执行指令被处理器执行时用于实现权利要求1至7中任一项所述的文本处理方法。
CN202210888163.2A 2022-07-27 2022-07-27 文本处理方法、装置和电子设备 Pending CN114970551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210888163.2A CN114970551A (zh) 2022-07-27 2022-07-27 文本处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210888163.2A CN114970551A (zh) 2022-07-27 2022-07-27 文本处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN114970551A true CN114970551A (zh) 2022-08-30

Family

ID=82968779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210888163.2A Pending CN114970551A (zh) 2022-07-27 2022-07-27 文本处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114970551A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN111291549A (zh) * 2020-05-08 2020-06-16 腾讯科技(深圳)有限公司 文本处理方法、装置、存储介质和电子设备
CN111476026A (zh) * 2020-03-24 2020-07-31 珠海格力电器股份有限公司 语句向量的确定方法、装置、电子设备及存储介质
CN112100677A (zh) * 2020-11-13 2020-12-18 支付宝(杭州)信息技术有限公司 隐私数据的保护方法、装置及电子设备
CN112347267A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 一种文本处理方法、装置、计算机设备及存储介质
CN112667779A (zh) * 2020-12-30 2021-04-16 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质
CN113392209A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本聚类方法、相关设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质
CN111476026A (zh) * 2020-03-24 2020-07-31 珠海格力电器股份有限公司 语句向量的确定方法、装置、电子设备及存储介质
CN111291549A (zh) * 2020-05-08 2020-06-16 腾讯科技(深圳)有限公司 文本处理方法、装置、存储介质和电子设备
CN113392209A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112347267A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 一种文本处理方法、装置、计算机设备及存储介质
CN112100677A (zh) * 2020-11-13 2020-12-18 支付宝(杭州)信息技术有限公司 隐私数据的保护方法、装置及电子设备
CN112667779A (zh) * 2020-12-30 2021-04-16 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107220296B (zh) 问答知识库的生成方法、神经网络的训练方法以及设备
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
US20220415195A1 (en) Method for training course recommendation model, method for course recommendation, and apparatus
CN116824278B (zh) 图像内容分析方法、装置、设备和介质
CN108932220A (zh) 文章生成方法和装置
CN111339255A (zh) 目标情感分析的方法、模型训练方法、介质和设备
CN111666416A (zh) 用于生成语义匹配模型的方法和装置
CN117520523B (zh) 数据处理方法、装置、设备及存储介质
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN110781413A (zh) 兴趣点确定方法及装置、存储介质、电子设备
CN111428448A (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN111915086A (zh) 异常用户预测方法和设备
CN114662484A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN116680386A (zh) 基于多轮对话的答案预测方法和装置、设备、存储介质
CN114385817A (zh) 实体关系的识别方法、设备及可读存储介质
CN116824677B (zh) 表情识别方法、装置、电子设备及存储介质
CN113298495A (zh) 简历筛选方法、简历筛选装置、终端设备及存储介质
CN112926341A (zh) 文本数据处理方法、装置
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN116580704A (zh) 语音识别模型的训练方法、语音识别方法、设备及介质
CN114970551A (zh) 文本处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220830