CN117725915A - 一种文本纠正方法、装置、智能终端及存储介质 - Google Patents

一种文本纠正方法、装置、智能终端及存储介质 Download PDF

Info

Publication number
CN117725915A
CN117725915A CN202310988784.2A CN202310988784A CN117725915A CN 117725915 A CN117725915 A CN 117725915A CN 202310988784 A CN202310988784 A CN 202310988784A CN 117725915 A CN117725915 A CN 117725915A
Authority
CN
China
Prior art keywords
character
feature vector
target text
text
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310988784.2A
Other languages
English (en)
Inventor
王逸凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xingyin Information Technology Shanghai Co ltd
Original Assignee
Xingyin Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xingyin Information Technology Shanghai Co ltd filed Critical Xingyin Information Technology Shanghai Co ltd
Priority to CN202310988784.2A priority Critical patent/CN117725915A/zh
Publication of CN117725915A publication Critical patent/CN117725915A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本纠正方法、装置、智能终端及存储介质,其中,该方法包括:对待处理的目标文本基于字符的位置提取对应的第一字符特征向量,并获取字符对应的第一字符组,每个字符的第一字符特征向量基于字符及字符的上下文得到,每个字符的字符组中包括字符及字符的上下文,计算第一字符特征向量与数据字典中每个第二字符特征向量的相似度,数据字典中存储有多个字典元素,每个字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成,根据相似度确定与字符最相似的k个字典元素为候选元素,根据候选元素的第二字符组对目标文本中的字符进行纠正。通过上述方式,实现对文本的错别字进行纠正,以及实现提高纠正的准确性。

Description

一种文本纠正方法、装置、智能终端及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本纠正方法、装置、智能终端及存储介质。
背景技术
随着计算机技术的发展,搜索引擎在日常生活中扮演着搜索信息的重要手段。用户可在搜索引擎的搜索框中输入想要搜索的文本并点击确定按键,搜索引擎根据用户输入的文本进行搜索,并在用户终端上显示搜索到与文本相关的结果。
但是,在用户将自己的搜索意图形成文字的过程中,难免会引入错别字或者语法错误,这样会对搜索结果造成极大影响,因此,需要自动对搜索的文件进行识别以及纠错。
现有技术中,通常基于Bert模型对搜索的文本进行端到端的文本识别和纠错,然而,这种方式容易将错误的字修改为一个完全无关的字,从而出现误纠行为。
发明内容
本申请实施例提供一种文本纠正方法、装置、智能终端及存储介质,用于解决上述背景技术中的问题。
第一方面,本申请实施例提供一种文本纠正方法,所述方法包括:
对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到;
基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文;
计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;
根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素;
根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
第二方面,本申请实施例还提供了一种文本纠正装置,所述装置包括:
提取单元,用于对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到;
获取单元,用于基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文;
计算单元,用于计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;
确定单元,用于根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素;
纠正单元,用于根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
第三方面,本申请实施例还提供一种智能终端,包括存储器和处理器,所述存储器用于存储指令和数据,所述处理器用于执行上述所述的文本纠正方法。
第四方面,本申请实施例还提供一种存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述所述的文本纠正方法。
本申请实施例中的文本纠正方法,通过目标文本的字符及其上下文得到与字符对应的第一字符特征向量和第一字符组,通过第一字符向量和数据字典中每个第二字符向量的相似度计算,以召回最相似的k个字典元素作为候选元素,并通过候选元素的第二字符组对目标文本的字符进行纠正,从而实现提高纠正的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本纠正方法的流程图。
图2是本申请实施例提供的一种文本纠正装置的一结构示意图。
图3是本申请实施例提供的一种文本纠正装置的另一结构示意图。
图4是本申请实施例提供的一种智能终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本申请实施例的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请实施例所公开的原理和特征的最广范围相一致。
本申请实施例提供一种文本纠正方法、装置、智能终端及存储介质,以下将分别进行详细说明。
请参阅图1,图1为本申请实施例提供的一种文本纠正方法的流程图,该文本纠正方法包括以下内容:
101、对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到。
102、基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文。
用户在具有搜索功能的工具中输入搜索文本,搜索文本即为待处理的目标文本,对待处理的目标文本进行字粒度的第一字符特征向量的提取以及第一字符组的构建,第一字符特征向量和第一字符组均是通过字符及其上下文得到,通过第一字符特征向量和第一字符组构建得到对应字符的键值对。
在本申请的实施例中,通过Bert模型对目标文本进行字粒度的第一字符特征向量进行提取,也就是说,通过Bert模型提取目标文本中的字符的第一字符特征向量。将目标文本输入Bert模型中,通过Bert模型输出目标文本的每个字符的第一字符特征向量,或者,通过Bert模型输出目标文本的某个字符的第一字符特征向量。
在本申请的实施例中,通过N-gram的字符组构建方式得到目标文本中对应字符的第一字符组,N-gram可以为3-gram、4-gram或者5-gram等等。在此,对N-gram中的N的数值不作限制。但是,在本申请的实施例中,优选通过3-gram的字符组构建方式对第一字符组进行构建。
以3-gram的字符组构建方式对第一字符组进行构建时,将目标文本中的目标字符作为中心,通过目标字符以及前后相邻的两个字符进行构建。则相应的,Bert模型在设置时,输出的第一字符特征向量中的向量元素的数量也应当为3,第一字符特征向量中的向量元素与对应的第一字符组中的字符相互对应,以此与第一字符组中的字符数量匹配。
可选的,在一些实施例中,步骤101包括:将目标文本输入预先训练好的语言模型,通过语言模型基于字符的位置提取包括字符和字符的上下文的字符段,对字符段提取第一字符特征向量。
上述的语言模型即为Bert模型,在将目标文本输入Bert模型之后,Bert模型提取目标文本中每个字符的特征向量fi(u)=Bert(u,i),其中,u表示的是目标文本,i表示的是对应字符在目标文本中的位置。通过Bert模型可提取得到目标文本中每个字符的特征向量,从而根据字符及其上下文,得到目标文本中每个字符对应的第一字符特征向量。
由于本申请的实施例中优选通过3-gram的字符组构建方式对第一字符组进行构建,因此,字符的上下文即为字符的前后相邻的两个字符,当字符的前方相邻位置不存在字符时,或者,当字符的后方相邻位置不存在字符时,通过特殊字符表示。
示例性的,将目标文本“这以个重大决定”输入Bert模型,通过Bert模型对目标文本中的每个字符的特征向量进行提取,得到每个字符对应的特征向量为f1(u)、f2(u)、f3(u)、f4(u)、f5(u)、f6(u)和f7(u),得到目标文本中每个字符的第一字符特征向量依次包括<bos,f1(u),f2(u)>、<f1(u),f2(u),f3(u)>、<f2(u),f3(u),f4(u)>、<f3(u),f4(u),f5(u)>、<f4(u),f5(u),f6(u)>、<f5(u),f6(u),f7(u)>和<f6(u),f7(u),bos>,其中,与字符“这”以及“定”对应的第一字符表征向量,由于其前方或者后方没有字符,因此,对应位置通过特殊字符“bos”表示。
在得到目标文本中每个字符的第一字符表征向量之后,根据目标文本中字符的位置,获取字符对应的第一字符组,每个字符的字符组中包括字符以及字符的上下文。
示例性的,将目标文本“这以个重大决定”输入Bert模型,得到目标文本中每个字符的第一字符特征向量依次包括<bos,f1(u),f2(u)>、<f1(u),f2(u),f3(u)>、<f2(u),f3(u),f4(u)>、<f3(u),f4(u),f5(u)>、<f4(u),f5(u),f6(u)>、<f5(u),f6(u),f7(u)>和<f6(u),f7(u),bos>,则相应获取得到的目标文本中的每个字符的第一字符组依次包括<bos,这,以>、<这,以,个>、<以,个,重>、<个,重,大)>、<重,大,决>、<大,决,定>和<决,定,bos>。
根据上述示例,以目标文本中的“这”为例,则<bos,f1(u),f2(u)>和<bos,这,以>构成目标文本中的“这”这一字符的键值对。其中,第一字符特征向量<bos,f1(u),f2(u)>为键值对的键,第一字符组<bos,这,以>为键值对的值。
可选的,在另一些实施例中,步骤101包括:将目标文本输入预先训练好的语言模型,通过语言模型识别目标文本中为错别字的字符,通过语言模型根据字符的位置提取包括字符和字符的上下文的字符段,对字符段提取第一字符特征向量。
上述的语言模型即为Bert模型,将目标文本输入Bert模型之后,先通过Bert模型识别出目标文本中为错别字的字符,再根据该错别字,进行向量提取,得到该错别字的第一字符特征向量,进而得到该错别字的第一字符组。
示例性的,将目标文本“这以个重大决定”输入Bert模型,通过Bert模型识别出其中的“以”为错别字,Bert模型对“以”提取第一字符特征向量。则Bert模型可以先对目标文本中的每个字符进行特征提取,得到每个字符的特征向量,则得到的目标文本中每个字符对应的特征向量为f1(u)、f2(u)、f3(u)、f4(u)、f5(u)、f6(u)和f7(u),其中的f2(u)对应字符“以”。字符“以”及其上下文也就是“这”和“个”得到第一字符特征向量,则得到的与“以”对应的第一字符特征向量为<f1(u),f2(u),f3(u)>。
在得到目标文本中每个字符的第一字符表征向量之后,根据目标文本中字符的位置,获取字符对应的第一字符组,每个字符的字符组中包括字符以及字符的上下文,则上述示例得到的与“以”对应的第一字符组为<这,以,个>,则<f1(u),f2(u),f3(u)>和<这,以,个>构成目标文本中的错别字“以”这一字符的键值对。其中,第一字符特征向量<f1(u),f2(u),f3(u)>为键值对的键,第一字符组<这,以,个>为键值对的值。
上述步骤101中的两种实施例均是先通过语言模型提取得到字符的第一字符特征向量,再得到对应的第一字符组。而在其它实施例中,也可以先得到第一字符组,再提取字符的第一字符特征向量,在此不再赘述。
可选的,在对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量之前,接收用户输入的目标文本,若目标文本包含多句文本句段,对目标文本进行分句处理,并去除分句处理之后的目标文本中的干扰因素,干扰因素包括表情符号和数字。
示例性的,接收到的用户输入的目标文本为“对于我们来说,这是各重大决定”,那么,对该目标文本进行分句处理之后,得到的为“对于我们来说”以及“这是各重大决定”这两个句子,其中,句子“这是各重大决定”中错别字为“各”。
在接收到用户输入的目标文本之后,可先通过Bert模型识别出其中的错别字,再对目标文本进行分句处理。
可选的,在对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量之前,接收用户输入的目标文本,识别目标文本中的标点符号的位置,在标点符号的位置通过特殊字符bos表示,并去除分句处理之后的目标文本中的干扰因素,干扰因素包括表情符号和数字。
103、计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成。
104、根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素。
105、根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
在本申请的实施例中,数据字典为Redis数据库,数据字典中的每个字典元素是由一个第二字符特征向量和一个第二字符组构成的键值对。数据字典的构建方式为,从海量数据或者源数据中抽取句子,将抽取的句子输入Bert模型,通过Bert模型得到该句子中每个字符的第二字符特征向量,并对应通过3-gram的字符组构建方式得到每个字符对应的第二字符组。每个字典元素的第二字符特征向量和第二字符组对应同一预设字符,同一预设字符的第二字符特征向量作为键,对应的第二字符组作为该键的值,以此构成键值对的形式,并存储于数据字典中。
计算第一字符特征向量和数据字典中每个第二字符特征向量的相似度,可通过欧式距离的计算方式得到。将第一字符特征向量和数据字典中每个第二字符特征向量进行欧式距离的计算,根据计算结果,从数据字典的字典元素中确定出k个距离最近的字典元素作为最相似的候选元素。
其中,对于k的取值方式为,确定距离最小的字典元素,将小于该距离最小的字典元素的距离的三倍之内的字典元素作为候选元素。例如,根据计算得到距离从小到大依次包括第一字典元素、第二字典元素、第三字典元素、第四字典元素以及第五字典元素等,第一字典元素的距离值为0.2,第二字典元素的距离值为0.3,第三字典元素的距离值为0.4,第四字典元素的距离值为0.5,第五字典元素的距离值为0.7。那么,最小距离0.2的三倍为0.6,则可以确定出k个候选元素包括有第一字典元素、第二字典元素、第三字典元素和第四字典元素。
可选的,除了欧式距离计算相似度之外,还可以通过其它公式计算相似度。例如,可通过余弦相似度计算相似度,或者,可通过曼哈顿距离计算相似度,还可以通过其它方式计算相似度,在此不作限制。
在确定候选元素之后,通过进一步的计算从候选元素中确定目标元素,通过目标元素的第二字符组对目标文本中为错别字的字符进行纠正。
可选的,在一些实施例中,步骤105包括:计算第一字符组与候选元素的第二字符组之间的字符重合度,根据字符重合度和相似度,从候选元素中确定目标元素,并基于目标元素的第二字符组对目标文本中的字符进行纠正。
进一步的,基于各候选元素对应的字符重合度,确定对各候选元素对应的相似度的优化权重,基于优化权重对各候选元素对应的相似度进行优化,得到各候选元素对应的优化后相似度,基于优化后相似度以及字符重合度,对各候选元素进行评分,根据评分结果从各候选元素中确定目标元素,并基于目标元素的第二字符组对目标文本中的字符进行纠正。
可选的,在计算得到字符重合度之后,根据以下公式计算归一化的重叠程度值:at=overlap(G1,G2)/3,其中,G1为第一字符组,G2为第二字符组,overlap(G1,G2)为第一字符组和第二字符组之间的相似度,at为归一化的重叠程度值。
针对上述公式,由于本申请的实施例中是通过3-gram的方式得到第一字符组和第二字符组,因此,公式中的分母为3。在其它实施例中,若通过5-gram的方式得到第一字符组和第二字符组,则公式中的分母为5。
若第一字符组和第二字符组中存在3个重合的字符,则overlap(G1,G2)为3,若第一字符组和第二字符组中存在2个重合的字符,则overlap(G1,G2)为2,以此类推。
上述归一化的重叠程度值即为优化权重,根据优化权重对相似度进行优化,得到每个候选元素的优化后相似度。优化后相似度的计算公式为:Di =(1-at)Di,其中,Di为欧式距离的值,也就是相似度,(1-at)为优化权重,Di 为优化后相似度。
在得到优化后相似度之后,结合字符重合度对每个候选元素进行评分,根据评分值,从中确定评分值最大的候选元素作为目标元素,通过目标元素的第二字符组对目标文本中为错别字的字符进行纠正。纠正的方式可以为对应单个字符的替换,也可以为字符组替换。
示例性的,输入的目标文本为“这以个重大决定”,其中,错别字“以”对应的第一字符组为<这,以,个>,若候选元素的第二字符组包括<这,几,个>、<这,一,个>和<这,些,个>,并且,这几组第二字符组的评分值分别为0.88、0.9和0.86,那么,将与第二字符组<这,一,个>对应的候选元素作为目标元素,通过第二字符组<这,一,个>去对目标文本中的错别字“以”进行纠正。
本申请实施例的文本纠正方法,该方法包括:对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于字符以及字符的上下文得到;基于目标文本中字符的位置,获取字符对应的第一字符组,每个字符的字符组中包括字符以及字符的上下文;计算第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,数据字典中存储有多个字典元素,每个字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;根据相似度,从数据字典中确定与字符最相似的k个字典元素作为候选元素;根据候选元素的第二字符组对目标文本中的字符进行纠正。本申请中,通过文本中的字粒度的向量召回候选结果,并根据与向量对应的字符组和召回的候选结果之间的相似度的计算以及优化,得到最终的结果,并通过得到的最终结构对错别字进行纠正,提高纠正的准确性。
请参阅图2,图2为本申请实施例提供的一种文本纠正装置的一结构示意图,该文本纠正装置200包括以下单元:
提取单元201,用于对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于字符以及字符的上下文得到。
获取单元202,用于基于目标文本中字符的位置,获取字符对应的第一字符组,每个字符的字符组中包括字符以及字符的上下文。
计算单元203,用于计算第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,数据字典中存储有多个字典元素,每个字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成。
确定单元204,用于根据相似度,从数据字典中确定与字符最相似的k个字典元素作为候选元素。
纠正单元205,用于根据候选元素的第二字符组对目标文本中的字符进行纠正。
可选的,上述纠正单元205可包括以下子单元:
重合度计算子单元,用于计算第一字符组与候选元素的第二字符组之间的字符重合度。
元素确定子单元,用于根据字符重合度和相似度,从候选元素中确定目标元素,并基于目标元素的第二字符组对目标文本中的字符进行纠正。
其中,上述元素确定子单元可包括以下子单元:
权重确定子单元,用于基于各候选元素对应的字符重合度,确定对各候选元素对应的相似度的优化权重。
优化子单元,用于基于优化权重对各候选元素对应的相似度进行优化,得到各候选元素对应的优化后相似度。
评分子单元,用于基于优化后相似度以及字符重合度,对各候选元素进行评分,根据评分结果从各候选元素中确定目标元素,并基于目标元素的第二字符组对目标文本中的字符进行纠正。
可选的,上述提取单元201可包括以下子单元:
第一输入子单元,用于将目标文本输入预先训练好的语言模型。
第一提取子单元,用于通过语言模型基于字符的位置提取包括字符和字符的上下文的字符段,对字符段提取第一字符特征向量。
可选的,上述提取单元201还可包括以下子单元:
第二输入子单元,用于将目标文本输入预先训练好的语言模型。
识别子单元,用于通过语言模型识别目标文本中为错别字的字符。
第二提取子单元,用于通过语言模型根据字符的位置提取包括字符和字符的上下文的字符段,对字符段提取第一字符特征向量。
可选的,上述文本纠正装置200还可包括以下单元:
接收单元,用于接收用户输入的目标文本。
处理单元,用于若目标文本包含多句文本句段,对目标文本进行分句处理,并去除分句处理之后的目标文本中的干扰因素,干扰因素包括表情符号和数字。
其中,上述接收单元的处理流程位于上述提取单元201之前。
其中,上述计算单元203中的数据字典为Redis数据库,数据字典中的每个字典元素是由一个第二字符特征向量和一个第二字符组构成的键值对。相应的,上述第一字符特征向量和第一字符组也构成键值对的形式。
可选的,本申请实施例的文本纠正装置200还可用包括其它单元以及子单元,在此不再赘述。
本申请实施例的文本纠正装置200,该装置包括:提取单元201,用于对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于字符以及字符的上下文得到;获取单元202,用于基于目标文本中字符的位置,获取字符对应的第一字符组,每个字符的字符组中包括字符以及字符的上下文;计算单元203,用于计算第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,数据字典中存储有多个字典元素,每个字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;确定单元204,用于根据相似度,从数据字典中确定与字符最相似的k个字典元素作为候选元素;纠正单元205,用于根据候选元素的第二字符组对目标文本中的字符进行纠正。本申请中,通过文本中的字粒度的向量召回候选结果,并根据与向量对应的字符组和召回的候选结果之间的相似度的计算以及优化,得到最终的结果,并通过得到的最终结构对错别字进行纠正,提高纠正的准确性。
请参阅图3,图3为本申请实施例提供的文本纠正装置的另一结构示意图,文本纠正装置200包括存储器120、一个或多个处理器180、以及一个或多个应用程序,其中该一个或多个应用程序被存储于该存储器120中,并配置为由该处理器180执行;该处理器180可以包括提取单元201、获取单元202、计算单元203、确定单元204和纠正单元205。例如,以上各个部件的结构和连接关系可以如下:
存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序,从而执行各种功能应用以及文本纠正方法的各个步骤。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180对存储器120的访问。
处理器180是装置的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的应用程序,以及调用存储在存储器120内的数据,执行装置的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。
具体在本实施例中,处理器180会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中,并由处理器180来运行存储在存储器120中的应用程序,从而实现各种功能:
对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到;
基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文;
计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;
根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素;
根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
在一些实施例中,根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正,包括:
计算所述第一字符组与所述候选元素的第二字符组之间的字符重合度;
根据所述字符重合度和所述相似度,从所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正。
在一些实施例中,根据所述重合度和所述相似度,从所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正,包括:
基于各所述候选元素对应的字符重合度,确定对各所述候选元素对应的相似度的优化权重;
基于所述优化权重对各所述候选元素对应的相似度进行优化,得到各所述候选元素对应的优化后相似度;
基于所述优化后相似度以及所述字符重合度,对各所述候选元素进行评分,根据评分结果从各所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正。
在一些实施例中,所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,包括:
将目标文本输入预先训练好的语言模型;
通过语言模型基于字符的位置提取包括所述字符和所述字符的上下文的字符段,对所述字符段提取第一字符特征向量。
在一些实施例中,所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,包括:
将目标文本输入预先训练好的语言模型;
通过所述语言模型识别所述目标文本中为错别字的字符;
通过所述语言模型根据所述字符的位置提取包括所述字符和所述字符的上下文的字符段,对所述字符段提取第一字符特征向量。
在一些实施例中,在所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量之前,所述方法还包括:
接收用户输入的目标文本;
若所述目标文本包含多句文本句段,对所述目标文本进行分句处理,并去除分句处理之后的所述目标文本中的干扰因素,所述干扰因素包括表情符号和数字。
在一些实施例中,所述数据字典为Redis数据库,所述数据字典中的每个字典元素是由一个第二字符特征向量和一个第二字符组构成的键值对。
本申请实施例还提供一种智能终端。所述智能终端可以是服务器、智能手机、电脑、平板电脑等设备。
请参阅图4,图4示出了本申请实施例提供的智能终端的结构示意图,该智能终端1200可以用于实施上述实施例中提供的文本纠正方法。该智能终端1200可以为智能手机或平板电脑。
如图4所示,智能终端1200可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解,图4中示出的智能终端1200结构并不构成对智能终端1200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。
存储器120可用于存储软件程序以及模块,如上述实施例中文本纠正方法对应的程序指令/模块,处理器180通过运行存储在存储器120内的软件程序以及模块,从而执行各种功能应用以及文本纠正方法的各个步骤。存储器120可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器120可进一步包括相对于处理器180远程设置的存储器,这些远程存储器可以通过网络连接至智能终端1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触控显示屏或者触控板,可收集用户在其上或附近的触控操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触控检测装置和触控控制器两个部分。其中,触控检测装置检测用户的触控方位,并检测触控操作带来的信号,将信号传送给触控控制器;触控控制器从触控检测装置上接收触控信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及智能终端1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触控操作后,传送给处理器180以确定触控事件的类型,随后处理器180根据触控事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
智能终端1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在智能终端1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能终端1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与智能终端1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转化为声音信号输出;另一方面,传声器162将收集的声音信号转化为电信号,由音频电路160接收后转化为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与智能终端1200的通信。
智能终端1200通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了传输模块170,但是可以理解的是,其并不属于智能终端1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是智能终端1200的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行智能终端1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;在一些实施例中,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
智能终端1200还包括给各个部件供电的电源190,在一些实施例中,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,智能终端1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,智能终端1200的显示单元140是触控屏显示器,智能终端1200还包括有存储器120,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器120中,且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的步骤:
对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到;
基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文;
计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;
根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素;
根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
在一些实施例中,根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正,包括:
计算所述第一字符组与所述候选元素的第二字符组之间的字符重合度;
根据所述字符重合度和所述相似度,从所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正。
在一些实施例中,根据所述重合度和所述相似度,从所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正,包括:
基于各所述候选元素对应的字符重合度,确定对各所述候选元素对应的相似度的优化权重;
基于所述优化权重对各所述候选元素对应的相似度进行优化,得到各所述候选元素对应的优化后相似度;
基于所述优化后相似度以及所述字符重合度,对各所述候选元素进行评分,根据评分结果从各所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正。
在一些实施例中,所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,包括:
将目标文本输入预先训练好的语言模型;
通过语言模型基于字符的位置提取包括所述字符和所述字符的上下文的字符段,对所述字符段提取第一字符特征向量。
在一些实施例中,所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,包括:
将目标文本输入预先训练好的语言模型;
通过所述语言模型识别所述目标文本中为错别字的字符;
通过所述语言模型根据所述字符的位置提取包括所述字符和所述字符的上下文的字符段,对所述字符段提取第一字符特征向量。
在一些实施例中,在所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量之前,所述方法还包括:
接收用户输入的目标文本;
若所述目标文本包含多句文本句段,对所述目标文本进行分句处理,并去除分句处理之后的所述目标文本中的干扰因素,所述干扰因素包括表情符号和数字。
在一些实施例中,所述数据字典为Redis数据库,所述数据字典中的每个字典元素是由一个第二字符特征向量和一个第二字符组构成的键值对。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的文本纠正方法。
需要说明的是,对本申请所述文本纠正方法而言,本领域普通测试人员可以理解实现本申请实施例所述文本纠正方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读存储介质中,如存储在智能终端的存储器中,并被该智能终端内的至少一个处理器执行,在执行过程中可包括如所述文本纠正方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储器(ROM,ReadOnly Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的所述文本纠正装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的文本纠正方法、装置、智能终端及存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本纠正方法,其特征在于,所述方法包括:
对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到;
基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文;
计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;
根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素;
根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
2.根据权利要求1所述的文本纠正方法,其特征在于,根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正,包括:
计算所述第一字符组与所述候选元素的第二字符组之间的字符重合度;
根据所述字符重合度和所述相似度,从所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正。
3.根据权利要求2所述的文本纠正方法,其特征在于,根据所述重合度和所述相似度,从所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正,包括:
基于各所述候选元素对应的字符重合度,确定对各所述候选元素对应的相似度的优化权重;
基于所述优化权重对各所述候选元素对应的相似度进行优化,得到各所述候选元素对应的优化后相似度;
基于所述优化后相似度以及所述字符重合度,对各所述候选元素进行评分,根据评分结果从各所述候选元素中确定目标元素,并基于所述目标元素的第二字符组对所述目标文本中的所述字符进行纠正。
4.根据权利要求1所述的文本纠正方法,其特征在于,所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,包括:
将目标文本输入预先训练好的语言模型;
通过语言模型基于字符的位置提取包括所述字符和所述字符的上下文的字符段,对所述字符段提取第一字符特征向量。
5.根据权利要求1所述的文本纠正方法,其特征在于,所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,包括:
将目标文本输入预先训练好的语言模型;
通过所述语言模型识别所述目标文本中为错别字的字符;
通过所述语言模型根据所述字符的位置提取包括所述字符和所述字符的上下文的字符段,对所述字符段提取第一字符特征向量。
6.根据权利要求1所述的文本纠正方法,其特征在于,在所述对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量之前,所述方法还包括:
接收用户输入的目标文本;
若所述目标文本包含多句文本句段,对所述目标文本进行分句处理,并去除分句处理之后的所述目标文本中的干扰因素,所述干扰因素包括表情符号和数字。
7.根据权利要求1所述的文本纠正方法,其特征在于,所述数据字典为Redis数据库,所述数据字典中的每个字典元素是由一个第二字符特征向量和一个第二字符组构成的键值对。
8.一种文本纠正装置,其特征在于,所述装置包括:
提取单元,用于对待处理的目标文本基于字符的位置提取字符对应的第一字符特征向量,每个字符的第一字符特征向量基于所述字符以及所述字符的上下文得到;
获取单元,用于基于所述目标文本中所述字符的位置,获取所述字符对应的第一字符组,每个字符的字符组中包括所述字符以及所述字符的上下文;
计算单元,用于计算所述第一字符特征向量与数据字典中每个第二字符特征向量之间的相似度,其中,所述数据字典中存储有多个字典元素,每个所述字典元素由对应同一预设字符的第二字符特征向量和第二字符组组成;
确定单元,用于根据所述相似度,从所述数据字典中确定与所述字符最相似的k个字典元素作为候选元素;
纠正单元,用于根据所述候选元素的第二字符组对所述目标文本中的所述字符进行纠正。
9.一种智能终端,其特征在于,包括存储器和处理器,所述存储器用于存储指令和数据,所述处理器用于执行权利要求1-7任一项所述的文本纠正方法。
10.一种存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1-7任一项所述的文本纠正方法。
CN202310988784.2A 2023-08-07 2023-08-07 一种文本纠正方法、装置、智能终端及存储介质 Pending CN117725915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310988784.2A CN117725915A (zh) 2023-08-07 2023-08-07 一种文本纠正方法、装置、智能终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310988784.2A CN117725915A (zh) 2023-08-07 2023-08-07 一种文本纠正方法、装置、智能终端及存储介质

Publications (1)

Publication Number Publication Date
CN117725915A true CN117725915A (zh) 2024-03-19

Family

ID=90200415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310988784.2A Pending CN117725915A (zh) 2023-08-07 2023-08-07 一种文本纠正方法、装置、智能终端及存储介质

Country Status (1)

Country Link
CN (1) CN117725915A (zh)

Similar Documents

Publication Publication Date Title
US11275907B2 (en) Machine translation method, apparatus, computer device, and storage medium
US20180018314A1 (en) Incremental multi-word recognition
US8782549B2 (en) Incremental feature-based gesture-keyboard decoding
CN110162770A (zh) 一种词扩展方法、装置、设备及介质
CN107145571B (zh) 一种搜索方法及装置
CN106325488B (zh) 一种输入方法、输入装置、服务器和输入系统
US10846602B2 (en) Temporal based word segmentation
CN111061383B (zh) 文字检测方法及电子设备
KR20150143774A (ko) 일관된 텍스트 제안 출력
CN104123012A (zh) 使用替代评分的非字典字符串的姿态键盘输入
CN113190646B (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN112749252B (zh) 一种基于人工智能的文本匹配方法和相关装置
CN109992753B (zh) 一种翻译处理方法及终端设备
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
EP3686758A1 (en) Voice information processing method and device, and terminal
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质
CN116955610A (zh) 一种文本数据的处理方法、装置以及存储介质
CN117725915A (zh) 一种文本纠正方法、装置、智能终端及存储介质
CN110263347B (zh) 一种同义词的构建方法及相关装置
CN114970562A (zh) 语义理解方法、装置、介质及设备
CN111753047A (zh) 一种文本处理方法及装置
CN113806532B (zh) 比喻句式判断模型的训练方法、装置、介质及设备
CN113806533B (zh) 比喻句式特征词语提取方法、装置、介质及设备
CN117057345B (zh) 一种角色关系的获取方法及相关产品
EP4283489A1 (en) Electronic device for providing search service, and operating method therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination