CN114330238A - 文本处理方法、文本处理装置、电子设备及存储介质 - Google Patents

文本处理方法、文本处理装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114330238A
CN114330238A CN202110886896.8A CN202110886896A CN114330238A CN 114330238 A CN114330238 A CN 114330238A CN 202110886896 A CN202110886896 A CN 202110886896A CN 114330238 A CN114330238 A CN 114330238A
Authority
CN
China
Prior art keywords
text
character
probability
word
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110886896.8A
Other languages
English (en)
Inventor
刘树林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110886896.8A priority Critical patent/CN114330238A/zh
Publication of CN114330238A publication Critical patent/CN114330238A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请的实施例揭示了一种文本处理方法、文本处理装置、电子设备及存储介质。本申请提供的文本处理方法包括:获取待处理的文本;对文本中含有的目标字进行掩码处理,得到处理文本,其中,在对目标字进行掩码处理的过程中,按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,或者按照第二概率对目标字进行随机替换,或者按照第三概率保持目标字不变,第一概率、第二概率和第三概率之和为1,且第一概率大于第二概率和第三概率;根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。本申请的文本处理方法能够在文字预测的过程中学习到大量的易错字信息。

Description

文本处理方法、文本处理装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种文本处理方法、文本处理装置、电子设备及存储介质。
背景技术
在机器学习领域,掩码是指将文本中的部分单词进行“遮挡”,在实际操作中,一般将它们替换成[MASK]字符,对于机器学习模型来说就相当于“消失”了,通过对文本中的单词做随机掩码,训练模型预测出这些单词,使得模型学习到语言的规律。给文本加随机掩码的方式巧妙地结合了上下文的信息,因为除了被遮掩的单词之外所有单词都是可见的,例如:“已知三角形ABC为直角三角形”这个文本,在加入掩码之后则变为“已知[mask]角形ABC为[mask]角三角形”。但是,现有的掩码方式无法令模型学习到错别字信息。
发明内容
为解决上述技术问题,本申请的实施例提供了一种文本处理方法、文本处理装置、电子设备及存储介质,能够在文字预测的过程中学习到大量的易错字信息。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:获取待处理的文本;对文本中含有的目标字进行掩码处理,得到处理文本,其中,在对目标字进行掩码处理的过程中,按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,或者按照第二概率对目标字进行随机替换,或者按照第三概率保持目标字不变,第一概率、第二概率和第三概率之和为1,且第一概率大于第二概率和第三概率;根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。
根据本申请实施例的一个方面,提供了一种文本处理装置,包括:获取模块,用于获取待处理的文本;掩码处理模块,用于对文本中含有的目标字进行掩码处理,得到处理文本,其中,在对目标字进行掩码处理的过程中,按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,或者按照第二概率对目标字进行随机替换,或者按照第三概率保持目标字不变,第一概率、第二概率和第三概率之和为1,且第一概率大于第二概率和第三概率;预测模块,用于根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。
根据本申请实施例的一个方面,提供了一种电子设备,包括处理器及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上的文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如上的文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的文本处理方法。
在本申请的实施例所提供的技术方案中,本实施例提供的文本处理方法,在对目标字进行掩码的过程中,一方面按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,因此,能够引入足够多的错别字信息,提高预测过程的文字纠错能力;另一方面,由于混淆字集全是与目标字易发生混淆的错别字,为了防止文字预测过程惯性地将经过掩码处理后的字符位置预测为错别字,按照第三概率保持目标字不变;同时为了使文字预测过程的泛化能力,按照第二概率对目标字进行随机替换,第一概率大于第二概率和第三概率,通过这种方式,能够提高文字预测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的文本处理方法的流程图;
图2是图1所示实施例中步骤S300一示例性实施例的流程图;
图3是图2所示实施例中步骤S310一示例性实施例的流程图;
图4是图3所示实施例中步骤S311中获取字符的拼音信息和笔画信息一示例性实施例的示意图;
参阅图5,图5是图2所示实施例中步骤S310一示例性实施例的示意图;
图6是本申请的一示例性实施例示出的文本处理方法的流程图;
图7是本申请的一示例性实施例示出的文本处理方法的流程图;
图8是图7所示实施例中步骤S700一示例性实施例的流程图;
图9是本申请的一示例性实施例示出的文本处理方法的流程图;
图10是本申请一示例性实施例示出的文本处理装置的框图;
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提出的文本处理方法及文本处理装置、电子设备、计算机可读存储介质涉及人工智能技术以及机器学习技术,以下将对这些实施例进行详细说明。
请参阅图1,图1是本申请的一示例性实施例示出的文本处理方法的流程图,如图1所示,本申请涉及的一种文本处理方法包括:
步骤S100:获取待处理的文本。
在本实施例中,待处理的文本可通过多种方式获取,例如通过列举或爬取网页的方式获取待处理的文本。
可选地,由于后续步骤还会基于混淆字集对文本进行掩码处理,这一过程无疑会增加文本的错误率,因此为了保证经过掩码处理后的文本有一定的正确率,以使得本实施例提供的文本处理方法能够根据文本的上下文,对经过掩码处理之后的文本进行一个较为准确的文本预测,本实施例在步骤S100中控制获取的文本的错别字占比不要超过预设阈值,预设阈值越小越有利于方法的实现,例如预设阈值为5%、3%等等,预设阈值的具体大小可以根据实际应用场景进行设定,在此不做具体限定。
步骤S200:对文本中含有的目标字进行掩码处理,得到处理文本。
在本实施例中,目标字就是文本中预先指定的待掩码处理的字,文本中所指定的目标字可以为1个或多个,示例性地,对于文本“小明的妈妈是个大美人,小明和他的妈妈很像”,预先指定“美”和“他”为目标字。
掩码是指将文本中的部分单词进行“遮挡”,在现有技术中,一般将它们替换成[MASK]字符,对于模型来说就相当于“消失”了,通过对文本中的单词做随机掩码,训练模型预测出这些单词,使得模型学习到语言的规律。相较于RNN型网络的自左向右预测,给文本加随机掩码的方式巧妙地结合了上下文的信息,因为除了被遮掩的单词之外所有单词都是可见的。
本申请的发明人经过长期研究发现,利用上述掩码方式对文本进行掩码存在如下弊端:无法引入足够多的错别字信息,在对经过掩码后的处理文本进行文字预测时,无法学习到足够多的错别字信息,导致文本预测过程具备的纠错能力不佳。
基于此,本实施例提供的掩码处理方法基于目标字的混淆字集对文本中的目标字进行替换,在对目标字进行掩码的过程中,引入足够多的错别字信息,在对处理文本中经过掩码处理的字符位置进行文字预测的过程中,学习到更多的错别字信息,提高预测过程的文字纠错能力。
一个汉字对应的混淆字包括与该汉字读音相似或形相似的汉字,多个汉字对应的混淆字则构成本实施例涉及的混淆字集,该混淆字集通常是经过长期的总结和对大规模文本语料的分析,积累出的较大的错别字集合,例如可以用CSet(V)={V1,……,Vn}表示汉字V的混淆字集,该汉字V可能写错成V1,……,Vn。CSet(埃)={矮,唉,挨,俟,哎}表示汉字“埃”的混淆字集,表示该汉字“埃”可能写错成“矮,唉,挨,俟,哎”;汉字“唉”的混淆字集可以表示为CSet(唉)={哎,哀,袁,哞,爱},该汉字“唉”可能写错成“哎,哀,袁,哞,爱”。在本实施例中,可以采用文献《汉字种子混淆集的构建方法研究》(计算机科学,2014,第8期(08):229-232)中所介绍的构建方法生成汉字所对应的混淆字集。
由于目标字的混淆字集都是与目标字易混淆的错别字,若完全基于混淆字集对目标字进行掩码处理,则文字预测过程更倾向于将经过掩码处理的字符位置预测为错别字,为了提高文字预测过程的预测准确性,本实施例基于第一概率从预设的混淆集中选取混淆字对目标字进行替换,基于第三概率保持目标字不变。由于目标字的混淆字集不一定能包括与目标字易混淆的所有的错别字,为了提高文字预测过程的泛化能力,本实施例基于第二概率对目标字进行随机替换。其中,第一概率、第二概率和第三概率之和为1,且第一概率大于第二概率和第三概率。例如,第一概率为75%,第二概率为15%,第三概率为10%。
可选地,混淆字集包括字音混淆字集和字形混淆字集。可以预先构建字音混淆字集和字形混淆字集,如表1所示,对于汉字“刀”,构建的字音混淆字集和字形混淆字集如下:
Figure BDA0003194479930000071
表1
经统计发现,文本中大部分的错误是由于同/近音字引起的,小部分的错误是由于形近字引起的,因此在对文本的目标字进行掩码处理时,让字音混淆字集有更大概率被选中。
示例性的,按照第一选取概率从字音混淆字集中选取混淆字对目标字进行替换,或者按照第二选取概率从字形混淆字集中选取混淆字对目标字进行替换,第一选取概率大于第二选取概率,且第一选取概率与第二选取概率之和等于第一概率。例如,第一选取概率为70%*第一概率,第二选取概率为30%*第一概率。
步骤S300:根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。
本实施例可以利用多种方式对经过掩码处理的字符位置进行文字预测。例如神经网络算法、分类算法等,在此不做具体限定。
利用神经网络算法对处理文本进行预测之前,首先要构建并训练神经网络模型,可以将利用本实施例提供的掩码处理方式进行掩码处理后的处理文本作为训练样本,对神经网络模型进行训练,以充分学习错别字信息,提高神经网络模型的纠错能力。神经网络模型训练好之后,将待处理文本输入神经网络模型,并输出预测结果。
本实施例提供的文本处理方法,在对目标字进行掩码的过程中,一方面按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,因此,能够引入足够多的错别字信息,提高预测过程的文字纠错能力;另一方面,由于混淆字集全是与目标字易发生混淆的错别字,为了防止文字预测过程惯性地将经过掩码处理后的字符位置预测为错别字,按照第三概率保持目标字不变;同时为了使文字预测过程的泛化能力,按照第二概率对目标字进行随机替换,第一概率大于第二概率和第三概率,通过这种方式,能够提高文字预测的准确性。
示例性的,参阅图2,图2是图1所示实施例中步骤S300一示例性实施例的流程图,如图2所示,步骤S300包括以下步骤:
步骤S310:根据处理文本的上下文提取经过掩码处理的字符位置对应的语义特征。
现有的文本预测方法忽略了句子的上下文语义信息,也不会根据经过掩码处理的字符位置对应的语义信息,对经过掩码处理的字符位置进行文字预测,事实上,上下文语义信息对文字预测过程的准确性影响极大,例如文本“埃及有金子塔”和“他的求胜欲很强,为了越狱在挖洞”仅从字面上看,“金子塔”和“求胜欲”都是合法的表述,但结合上下文很容易看出它们在此处都属于拼写错误的情况。
因此,本实施例在文字预测的过程中,根据提取的经过掩码处理的字符位置对应的语义特征,对经过掩码处理的字符位置进行文字预测,能够提高预测的准确性。
经过掩码处理的字符位置对应的语义特征表示融入了上下文语义信息的特征,在本实施例中,根据经过掩码处理的字符位置的上下文信息,获取经过掩码处理的字符位置的语义特征。
例如,待处理的文本为“他的求生欲很强,为了越狱在挖洞”,目标字确定为“生”,基于混淆字集,将“生”替换成“胜”,得到处理文本“他的求胜欲很强,为了越狱在挖洞”。对“胜”所处位置进行语义特征提取时,利用“胜”之前的字符信息“他的求”,以及“胜”之后的字符信息“欲很强,为了越狱在挖洞”,获取字符“胜”的语义特征。
在本实施例中,可以训练语言模型来提取经过掩码处理的字符位置对应的语义特征,例如可采用BERT(Bidirectional Encoder Representation from Transformers)模型,BERT模型恰好是基于经过掩码处理的字符位置的上下文信息来提取经过掩码处理的字符位置的语义特征。传统的BERT模型输入的文本的掩码位置是随机选择的,并不擅长侦测句子中出现错误的位置,并且BERT纠错未考虑约束条件,导致准确率低。本实施例利用BERT模型对基于混淆字集对目标字进行替换之后的字符位置提取语义特征,将掩码的位置明确为处理文本中出错的位置,能够提高模型侦测文本错误的能力。
可选的,参阅图3,图3是图2所示实施例中步骤S310一示例性实施例的流程图,如图3所示,步骤S310包括以下步骤:
步骤S311:获取处理文本中每个字符对应的字信息、位置信息、拼音信息以及字形信息。
处理文本中每个字符对应的字信息用于表示对应字符的字特征信息,可以根据词嵌入方法获取每个字符的字特征信息,例如,利用Word2Vector等算法获取每个字符,输出文本中各个字符对应的字特征信息。
每个字符对应的位置信息表示对应字符在序列中的位置。由于出现在文本不同位置的字符所携带的语义信息存在差异,比如:“我爱你”和“你爱我”,因此,在文字预测的过程中对处理文本的不同字符的字分别附加一个不同的位置信息以作区分。
本实施例可以通过三种位置编码方式获取处理文本中每个字符的位置信息,即,基于绝对位置的方式,用三角函数构造相对位置关系编码的方式以及使用随机值初始化的位置向量的方式,上述方式可参考现有技术实现,在此不做过多叙述。
为了更好的建模字符在发音和字形上的相似度,本实施例还获取处理文本中每个字符对应的拼音序列和笔画序列,示例性地,本实施例可以利用机器学习算法来获取每个字符对应的拼音信息和笔画信息。例如,构建并训练门控循环单元网络(Gated RecurrentUnit,GRU)分别计算每个字符对应的拼音序列和笔画序列的表示向量,并将其作为每个字符对应的拼音信息和字形信息。GRU网络只有两个门,分别为更新门和重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
参阅图4,图4是图3所示实施例中步骤S311中获取字符的拼音信息和笔画信息一示例性实施例的示意图,如图3所示,获取字符“凡”的拼音信息和笔画信息的过程中构建了两个GRU网络,即拼音GRU网络和字形GRU网络,拼音GRU网络用于获取输入字符“凡”的拼音序列“fan”,字形GRU网络用于获取输入字符“凡”的字形序列“丿ーし丶”。
步骤S312:基于处理文本中所有字符位置对应的字信息、位置信息、拼音信息以及字形信息形成处理文本的上下文,以根据处理文本的上下文提取经过掩码处理的字符位置的语义特征。
本实施例利用BERT模型提取经过掩码处理的字符位置的语义特征,BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型,该模型强调不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。
可选地,步骤S311获取的字信息的表现形式是字向量,位置信息的表现形式为位置向量,拼音信息的表现形式为拼音向量,字形信息的表现形式为字形向量,将处理文本每个字符对应的字向量、位置向量、拼音向量和字形向量进行融合,得到每个字符的特征向量,将处理文本的每个字符的特征向量输入到训练好的BERT模型,输出经过掩码处理的字符位置的语义特征。
参阅图5,图5是图2所示实施例中步骤S310一示例性实施例的示意图,如图5所示,待处理的文本是“……最美风景……”,经过掩码处理之后的处理文本是“……最美凡景……”,显然目标字为“风”,本实施例将对字符“凡”所对应的位置进行文字预测,右边的embedding layer用于获取处理文本中每个字符的字向量、位置向量、拼音向量以及字形向量,如图所示,经过lookup table获取字符“凡”的字向量,通过lookup table获取字符“凡”的位置向量,分别通过两个CRU encoder获取字符“凡”的拼音向量和字形向量,将这四个向量相加得到字符“凡”的表示向量(特征向量)。将处理文本“……最美凡景……”的所有字符的表示向量输入文字预测网络Transformer Encoder层中,得到经过掩码处理的字符位置的预测字为“风”,预测拼音为“feng”。
步骤S320:基于语义特征预测经过掩码处理的字符位置分别为预测字候选集中含有的预测字的第一置信度,以及为预测拼音候选集中含有的预测拼音对应的第二置信度,其中,预测拼音候选集中含有预测字候选集中预测字对应的预测拼音。
可选地,预测字候选集可以是《通用规范汉字表》包含的汉字。预测拼音候选集可以是基于《汉字拼音对照表》获取的预测字候选集中预测字对应的预测拼音。
在本实施例中,可以针对预测字候选集中的每个预测字,结合经过掩码处理的字符位置的语义特征,做一个二分类,以确定对应预测字的第一置信度。同理,可以针对预测拼音候选集中的每个预测拼音,结合经过掩码处理的字符位置的语义特征,做一个二分类,以确定对应预测拼音的第二置信度。例如,通过sigmoid函数或者softmax函数对预测字或者预测拼音进行分类。在机器学习领域的多标签问题中,最后一层使用sigmoid函数作为类别概率的归一化函数,多标签问题各个标签之间相互独立,没有联系,Sigmoid函数会预测各个标签成立的概率p,相应的各个标签不成立的概率为1-p。对于二分类问题,既可以使用sigmoid函数作为类别概率的归一化函数,也可以使用softmax函数作为类别概率的归一化函数,使用sigmoid函数类似于逻辑回归,最终只需要一个神经元,给出为正样本的概率,负样本概率即为1-p,而使用softmax函数最终需要两个神经元,给出两个类别的概率。
步骤S330:计算对应于同一预测字的第一置信度和第二置信度之间的加权和,选取加权和最大的预测字和对应的预测拼音作为经过掩码处理的字符位置对应的预测结果。
在对经过掩码处理的字符位置进行文字预测时,同一预测字的第一置信度和第二置信度对应的权重分别为第一权重和第二权重,第一权重和第二权重的具体数值可以根据实际应用场景而定,例如,第一权重和第二权重分别为0.5,或者第一权重为0.7,第二权重为0.3。值得注意的是,每个预测字对应的第一置信度和第二置信度适用于相同的第一权重和第二权重。
根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果的步骤由预设的文字预测模型执行。
在本实施例中,文字预测模型是预先构建并训练好的,能够对经过掩码处理的字符位置进行文字预测的神经网络模型,示例性地,文字预测模型可以是BERT语言模型、MLM语言模型或循环神经网络等等,文字预测模型的训练过程会在下文中具体阐述。
可选的,参阅图6,图6是本申请的一示例性实施例示出的文本处理方法的流程图,如图1和图6所示,在步骤S100-S300之后,本申请涉及的一种文本处理方法还包括:
步骤S400:计算预测经过掩码处理的字符位置为预测结果中含有的预测字的第一交叉熵,以及计算预测经过掩码处理的字符位置为预测结果中含有的预测拼音的第二交叉熵。
交叉熵损失函数,也称为对数损失或者logistic损失。当模型产生了预测结果之后,将对类别的预测概率与真实值进行比较,计算所产生的损失,然后基于此损失设置对数形式的惩罚项。在训练模型的时候,使用交叉熵损失函数,目的是最小化损失,即损失越小的模型越好。
用于计算第一交叉熵的损失函数公式为:
Figure BDA0003194479930000121
其中,n为类别个数,t是符号函数,t=0或1,p表示该类别的概率。
在本实施例中不妨设:
Figure BDA0003194479930000131
Figure BDA0003194479930000132
其中,L1表示第一交叉熵,n为预测字候选集中含有的预测字的个数,表示预测结果总共有n个可能的预测字结果,ti1表示如果经过掩码处理的字符位置的真实字等于类别i对应的预测字,则ti1=1,否则ti1=0,pi1为经过掩码处理的字符位置为类别i的概率。
L2表示第二交叉熵,n为预测拼音候选集中含有的预测拼音的个数,表示预测结果总共有n个可能的预测拼音结果,ti2表示如果经过掩码处理的字符位置的真实拼音等于类别i对应的预测拼音,则ti2=1,否则ti2=0,pi2为经过掩码处理的字符位置为类别i的概率。
步骤S500:将第一交叉熵与第二交叉熵之和作为对经过掩码处理的字符位置进行文字预测的交叉熵,以根据交叉熵调整文字预测模型的模型参数。
在本实施例中,进行文字预测的交叉熵为:
L=L1+L2
具体地,最小化交叉熵L,以调整文字预测模型的模型参数。具体地,文字预测模型可以为BERT模型或MLM模型等语言模型。
可选的,参阅图7,图7是本申请的一示例性实施例示出的文本处理方法的流程图,如图7所示,本实施例涉及的一种文本处理方法包括以下步骤:
步骤S600:获取目标文本,目标文本包含待预测文字的字符位置。
在本实施例中,目标文本包含的待预测文字可以为一个或多个。
可选地,考虑到多个待预测文字相邻时,获取的待预测文字的上下文可能不够充分,因此,为了提高预测的准确性,在目标文本的待预测文字为多个时,间隔设置多个待预测文字。
可选地,对目标文本中的待预测文字的字符位置进行标记,以根据该标记对待预测文字进行预测。
步骤S700:将目标文本输入至调整后的文字预测模型中,获得文字预测模型针对目标文本中待预测文字的字符位置所输出的预测结果。
可选的,参阅图8,图8是图7所示实施例中步骤S700一示例性实施例的流程图,如图8所示,步骤S700包括以下步骤:
步骤S710:获取目标文本中每个字符对应的字向量、位置向量、拼音向量以及字形向量并相加,得到每个字符对应的特征向量。
步骤S720:将目标文本所有字符对应的特征向量输入调整后的文字预测模型中,获得针对目标文本中待预测文字的字符位置所输出的预测结果。
由于经过参数调整后的文字预测模型对字音和字形都有一个预测过程,因此,输出的预测结果包括待预测文字的字符位置的字音和字形。
在本实施例中,由于使用上述经过参数调整后的文字预测模型对待预测文字进行预测,上述文字预测模型不仅充分学习了错别字信息,还能结合文本的上下文语义提取文本的上下文语义特征。因此,利用上述语义特征模型对目标文本进行文字预测,能够提高文字预测的准确性。
本实施例提供的文本处理方法适用于各种浏览器,如搜狗、百度等等,或各种短视频平台,如抖音、快手等等,或购物平台如淘宝、京东等等。由于在这些平台的后台,包括一个由用户上传信息构成的信息库,而这个信息库无时无刻处于更新状态,通常,后台从信息库中筛选出一部分相关信息推荐给用户。由于信息库中的候选文本可能会存在一定数量的错别字,若给用户推荐的文本中包括了大量的错别字,以至于用户无法根据推荐文本得出有用的信息,这种情况极易造成用户的体验不佳。
基于此,本实施例的文本处理方法将错别字个数达到一定数量的候选文本筛选出来,并过滤,能够解决上述问题,提高用户体验。
可选的,参阅图9,图9是本申请的一示例性实施例示出的文本处理方法的流程图,如图9所示,本实施例涉及的文本处理方法包括以下步骤:
步骤S10:获取候选文本集合。
候选文本集合包括多个候选文本,候选文本集合可以是上述信息库或上述信息库中的一部分候选文本。
步骤S20:将候选文本集合中含有的候选文本依次输入至调整后的文字预测模型中,获取文字预测模型针对各个候选文本输出的预测结果,预测结果中含有候选文本中各个字符位置对应的预测字。
在本实施例中,首先获取每个候选文本中各个字符对应的字向量、位置向量、字音向量以及字形向量,将每个字符的字向量、位置向量、字音向量以及字形向量相加得到对应字符的特征向量。
将候选文本所有字符对应的特征向量输入到调整后的文字预测模型中,文字预测模型对每个字符位置进行文字预测,得到每个字符位置对应的预测字。
可选地,若字符位置对应的预测字与候选文本中该字符位置的字相同,则确定该字符位置的字不是错别字。例如,候选文本“埃及有金子塔”,利用文字预测模型对字符“子”进行预测之后,得到的预测字为“字”,显然,候选文本中字符“子”为错别字。
可选地,设置一个容错阈值k,如果候选文本中一字符位置原先的字c出现在预测结果的top(k)中,就认为字符位置c不是错别字,否则是错别字。例如k=5,如果候选文本中一字符位置原先的字c出现在预测结果的top5中,就认为字符位置c不是错别字,否则是错别字。
步骤S30:根据各个候选文本对应的预测结果,统计各个候选文本中含有的错别字总数,并将错别字总数大于预设阈值的候选文本从候选文本集合中过滤,得到待推荐文本集合。
步骤S40:向用户推荐待推荐文本集合中含有的待推荐文本。
至于如何从待推荐文本集合筛选出符合条件的候选文本,并推荐给用户,可以参考现有技术的推荐方式,在此不做具体限定。例如,可以基于用户的特征或用户的历史行为进行个性化推荐,或者基于与用户相似的其他用户进行推荐。
本实施例的文本处理方法,将候选文本集合中错别字总数大于预设阈值的候选文本从候选文本集合中过滤,并从错别字总数小于预设阈值的候选文本中筛选候选文本并向用户推荐,能够提高用户体验。
综上,本申请提供的文本处理方法在对目标字进行掩码的过程中,一方面按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,因此,能够引入足够多的错别字信息,提高预测过程的文字纠错能力;另一方面,由于混淆字集全是与目标字易发生混淆的错别字,为了防止文字预测过程惯性地将经过掩码处理后的字符位置预测为错别字,按照第三概率保持目标字不变;同时为了使文字预测过程的泛化能力,按照第二概率对目标字进行随机替换,第一概率大于第二概率和第三概率,通过这种方式,能够提高文字预测的准确性。
参阅图10,图10是本申请一示例性实施例示出的文本处理装置的框图,如图10所示,本实施例提供的文本处理装置800包括获取模块810、掩码处理模块820以及预测模块830。
其中,获取模块用于获取待处理的文本;掩码处理模块用于对文本中含有的目标字进行掩码处理,得到处理文本,其中,在对目标字进行掩码处理的过程中,按照第一概率从预设的混淆字集中选取混淆字对目标字进行替换,或者按照第二概率对目标字进行随机替换,或者按照第三概率保持目标字不变,第一概率、第二概率和第三概率之和为1,且第一概率大于第二概率和第三概率;预测模块用于根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。
在一示例性实施例中,预测模块830包括特征提取单元、预测单元以及结果获取单元。
其中,根据处理文本的上下文提取经过掩码处理的字符位置对应的语义特征;预测单元用于特征提取单元用于基于语义特征预测经过掩码处理的字符位置分别为预测字候选集中含有的预测字的第一置信度,以及为预测拼音候选集中含有的预测拼音对应的第二置信度,其中,预测拼音候选集中含有预测字候选集中预测字对应的预测拼音;结果获取单元用于计算对应于同一预测字的第一置信度和第二置信度之间的加权和,选取加权和最大的预测字和对应的预测拼音作为经过掩码处理的字符位置对应的预测结果。
在一示例性实施例中,特征提取单元包括信息获取子单元以及特征提取子单元。
其中,信息获取子单元用于获取处理文本中每个字符对应的字信息、位置信息、拼音信息以及字形信息;特征提取子单元用于基于处理文本中所有字符对应的字信息、位置信息、拼音信息以及字形信息形成处理文本的上下文,以根据处理文本的上下文提取经过掩码处理的字符位置的语义特征。
在一示例性实施例中,本实施例提供的文本处理装置800还包括计算模块和参数调整模块。
其中,根据处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果的步骤由预设的文字预测模型执行;计算模块用于计算预测经过掩码处理的字符位置为预测结果中含有的预测字的第一交叉熵,以及计算预测经过掩码处理的字符位置为预测结果中含有的预测拼音的第二交叉熵;参数调整模块用于将第一交叉熵与第二交叉熵之和作为对经过掩码处理的字符位置进行文字预测的交叉熵,以根据交叉熵调整文字预测模型的模型参数。
在一示例性实施例中,本实施例提供的文本处理装置800还包括目标文本模块和第一文字预测模块。
其中,目标文本模块用于获取目标文本,目标文本包含待预测文字的字符位置;第一文字预测模块用于将目标文本输入至调整后的文字预测模型中,获得文字预测模型针对目标文本中待预测文字的字符位置所输出的预测结果。
在一示例性实施例中,本实施例提供的文本处理装置800还包括文本集合获取模块、第二文字预测模块、过滤模块以及推荐模块。
其中,文本集合获取模块用于获取候选文本集合;第二文字预测模块用于将候选文本集合中含有的候选文本依次输入至调整后的文字预测模型中,获取文字预测模型针对各个候选文本输出的预测结果,预测结果中含有候选文本中各个字符位置对应的预测字;过滤模块用于根据各个候选文本对应的预测结果,统计各个候选文本中含有的错别字总数,并将错别字总数大于预设阈值的候选文本从候选文本集合中过滤,得到待推荐文本集合;推荐模块用于向用户推荐待推荐文本集合中含有的待推荐文本。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前的文本处理方法。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图11示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1000包括中央处理单元(Central Processing Unit,CPU)1001,其可以根据存储在只读存储器(Read-Only Memory,ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory,RAM)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中的信息推荐方法。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output,I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的文本处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的文本处理方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理的文本;
对所述文本中含有的目标字进行掩码处理,得到处理文本,其中,在对所述目标字进行掩码处理的过程中,按照第一概率从预设的混淆字集中选取混淆字对所述目标字进行替换,或者按照第二概率对所述目标字进行随机替换,或者按照第三概率保持所述目标字不变,所述第一概率、所述第二概率和所述第三概率之和为1,且所述第一概率大于所述第二概率和所述第三概率;
根据所述处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。
2.根据权利要求1所述的方法,其特征在于,所述混淆字集包括字音混淆字集和字形混淆字集;所述按照第一概率从预设的混淆字集中选取混淆字对所述目标字进行替换,包括:
按照第一选取概率从所述字音混淆字集中选取混淆字对所述目标字进行替换,或者按照第二选取概率从所述字形混淆字集中选取混淆字对所述目标字进行替换,所述第一选取概率大于所述第二选取概率,且所述第一选取概率与所述第二选取概率之和等于所述第一概率。
3.根据权利要求1所述的方法,其特征在于,所述根据所述处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果包括:
根据所述处理文本的上下文提取所述经过掩码处理的字符位置对应的语义特征;
基于所述语义特征预测所述经过掩码处理的字符位置分别为预测字候选集中含有的预测字的第一置信度,以及为预测拼音候选集中含有的预测拼音对应的第二置信度,其中,所述预测拼音候选集中含有所述预测字候选集中预测字对应的预测拼音;
计算对应于同一预测字的第一置信度和第二置信度之间的加权和,选取加权和最大的预测字和对应的预测拼音作为所述经过掩码处理的字符位置对应的预测结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果的步骤由预设的文字预测模型执行;所述方法还包括:
计算预测所述经过掩码处理的字符位置为所述预测结果中含有的预测字的第一交叉熵,以及计算预测所述经过掩码处理的字符位置为所述预测结果中含有的预测拼音的第二交叉熵;
将所述第一交叉熵与所述第二交叉熵之和作为对所述经过掩码处理的字符位置进行文字预测的交叉熵,以根据所述交叉熵调整所述文字预测模型的模型参数。
5.根据权利要求3所述的方法,其特征在于,所述根据所述处理文本的上下文提取所述经过掩码处理的字符位置对应的语义特征,包括:
获取所述处理文本中每个字符对应的字信息、位置信息、拼音信息以及字形信息;
基于所述处理文本中所有字符对应的字信息、位置信息、拼音信息以及字形信息形成所述处理文本的上下文,以根据所述处理文本的上下文提取所述经过掩码处理的字符位置的语义特征。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取目标文本,所述目标文本包含待预测文字的字符位置;
将所述目标文本输入至调整后的文字预测模型中,获得所述文字预测模型针对所述目标文本中待预测文字的字符位置所输出的预测结果。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取候选文本集合;
将所述候选文本集合中含有的候选文本依次输入至调整后的文字预测模型中,获取所述文字预测模型针对各个候选文本输出的预测结果,所述预测结果中含有候选文本中各个字符位置对应的预测字;
根据所述各个候选文本对应的预测结果,统计所述各个候选文本中含有的错别字总数,并将错别字总数大于预设阈值的候选文本从所述候选文本集合中过滤,得到待推荐文本集合;
向用户推荐所述待推荐文本集合中含有的待推荐文本。
8.一种文本处理装置,其特征在于,包括:
获取模块,用于获取待处理的文本;
掩码处理模块,用于对所述文本中含有的目标字进行掩码处理,得到处理文本,其中,在对所述目标字进行掩码处理的过程中,按照第一概率从预设的混淆字集中选取混淆字对所述目标字进行替换,或者按照第二概率对所述目标字进行随机替换,或者按照第三概率保持所述目标字不变,所述第一概率、所述第二概率和所述第三概率之和为1,且所述第一概率大于所述第二概率和所述第三概率;
预测模块,用于根据所述处理文本的上下文对经过掩码处理的字符位置进行文字预测,得到预测结果。
9.一种电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-7中的任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一项所述的方法。
CN202110886896.8A 2021-08-03 2021-08-03 文本处理方法、文本处理装置、电子设备及存储介质 Pending CN114330238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110886896.8A CN114330238A (zh) 2021-08-03 2021-08-03 文本处理方法、文本处理装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110886896.8A CN114330238A (zh) 2021-08-03 2021-08-03 文本处理方法、文本处理装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114330238A true CN114330238A (zh) 2022-04-12

Family

ID=81044345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110886896.8A Pending CN114330238A (zh) 2021-08-03 2021-08-03 文本处理方法、文本处理装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114330238A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997148A (zh) * 2022-08-08 2022-09-02 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997148A (zh) * 2022-08-08 2022-09-02 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法
CN114997148B (zh) * 2022-08-08 2022-11-04 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Yan Computational methods for deep learning
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN113344053B (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN107909115A (zh) 一种图像中文字幕生成方法
CN114419351B (zh) 图文预训练模型训练、图文预测模型训练方法和装置
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117540221B (zh) 图像处理方法和装置、存储介质及电子设备
CN114529903A (zh) 文本细化网络
Yan Computational methods for deep learning: theory, algorithms, and implementations
CN115359321A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN114330238A (zh) 文本处理方法、文本处理装置、电子设备及存储介质
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
CN116737876A (zh) 辅助科普志愿服务的教育装置
CN116737897A (zh) 一种基于多模态的智慧楼宇知识抽取模型和方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN114898426B (zh) 一种同义标签聚合方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination