CN111274785A - 一种文本纠错方法、装置、设备及介质 - Google Patents

一种文本纠错方法、装置、设备及介质 Download PDF

Info

Publication number
CN111274785A
CN111274785A CN202010068810.6A CN202010068810A CN111274785A CN 111274785 A CN111274785 A CN 111274785A CN 202010068810 A CN202010068810 A CN 202010068810A CN 111274785 A CN111274785 A CN 111274785A
Authority
CN
China
Prior art keywords
text
candidate
texts
character string
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010068810.6A
Other languages
English (en)
Other versions
CN111274785B (zh
Inventor
孙程琳
陈柄辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010068810.6A priority Critical patent/CN111274785B/zh
Publication of CN111274785A publication Critical patent/CN111274785A/zh
Application granted granted Critical
Publication of CN111274785B publication Critical patent/CN111274785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例公开了一种文本纠错方法、装置、设备和介质。其中,先从获取的初始文本中确定至少一个待纠错字符串;确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;之后基于候选文本的第一语义特征,从候选文本中筛选目标候选文本;最后基于每个目标候选文本与初始文本之间的文本关联特征,从目标候选文本中筛选替代初始文本的目标文本。该实施例在初步粗筛选的基础上,基于文本之间的文本关联特征进行了精筛选,因此得到的目标文本能够较为准确的表达初始文本的真实含义,起到纠正错误文本的作用,并且有利于提高信息查询效率和查询准确率。

Description

一种文本纠错方法、装置、设备及介质
技术领域
本公开的实施例涉及文本处理技术领域,具体而言,涉及一种文本纠错方法、装置、电子设备以及计算机可读存储介质。
背景技术
目前,随着社会的发展,文本形式的信息数量剧增,海量的文本中不可避免的会存在错误,例如,文本中不可避免的会存在错误的字符串。错误的文本无法传播正确的信息或进行思想、舆论导向等,因此需要对文本进行纠错处理。
另外,用户在进行信息查询的时候,输入的查询文本中也可能包括错误的字符串,基于包含错误字符串的查询文本,可能无法为用户查询到用户想要的信息,导致查询效率和查询准确率降低。
发明内容
有鉴于此,本公开的实施例至少提供一种文本纠错方法、装置、电子设备及介质,有利于提高信息查询场景中的查询效率和查询准确率。
第一方面,本公开的实施例提供了一种文本纠错方法,包括:
从获取的初始文本中,确定至少一个待纠错字符串;
确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一种可能的实施方式中,所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一种可能的实施方式中,在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,所述文本纠错方法还包括:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一种可能的实施方式中,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
在一种可能的实施方式中,所述基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本,包括:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本,N为正整数。
在一种可能的实施方式中,所述确定每个待纠错字符串分别对应的至少一个候选替换字符串,包括:
针对每个待纠错字符串,基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串。
在一种可能的实施方式中,所述编辑关联特征包括对应的两个字符串之间的编辑距离;
所述基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串,包括:
从所述候选词库中,筛选与该待纠错字符串的编辑距离小于预设阈值的字符串,作为该待纠错字符串对应的候选替换字符串。
第二方面,本公开的实施例提供了一种文本纠错装置,包括:
字符串定位模块,用于从获取的初始文本中,确定至少一个待纠错字符串;
候选文本生成模块,用于确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
初始筛选模块,用于基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
目标筛选模块,用于基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一种可能的实施方式中,所述目标筛选模块具体用于:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一种可能的实施方式中,所述目标筛选模块在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还用于:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述目标筛选模块在基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本时,具体用于:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一种可能的实施方式中,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
在一种可能的实施方式中,所述初始筛选模块具体用于:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本。
第三方面,本公开的实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文本纠错方法的步骤。
第四方面,本公开的实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的文本纠错方法的步骤。
本公开的实施例提供了一种文本纠错方法及装置、电子设备、及计算机可读存储介质,该方法的一具体实施例包括:首先从获取的初始文本中,确定至少一个待纠错字符串;之后,确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;之后,基于候选文本的第一语义特征,从候选文本中筛选目标候选文本;最后,基于每个目标候选文本与初始文本之间的文本关联特征,从目标候选文本中筛选替代初始文本的目标文本。该实施例在初步粗筛选的基础上,基于文本之间的文本关联特征进行了精筛选,因此得到的目标文本能够较为准确的表达初始文本的真实含义,起到纠正错误文本的作用,并且有利于提高信息查询的场景中的查询效率和查询准确率。
附图说明
为了更清楚地说明本公开的实施例实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的实施例的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开的实施例实施例提供的一种文本纠错方法的流程图;
图2示出了本公开的实施例实施例提供的一种文本纠错方法中筛选目标候选文本的流程图;
图3示出了本公开的实施例实施例提供的一种文本纠错装置的结构示意图;
图4示出了本公开的实施例实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本公开的实施例实施例的目的、技术方案和优点更加清楚,下面将结合本公开的实施例实施例中的附图,对本公开的实施例实施例中的技术方案进行清楚、完整地描述,应当理解,本公开的实施例中附图仅起到说明和描述的目的,并不用于限定本公开的实施例的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本公开的实施例中使用的流程图示出了根据本公开的实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本公开的实施例内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本公开的实施例一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的实施例实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的实施例的详细描述并非旨在限制要求保护的本公开的实施例的范围,而是仅仅表示本公开的实施例的选定实施例。基于本公开的实施例的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
为了使得本领域技术人员能够使用本公开的实施例内容,结合特定应用场景“信息查询”,给出以下实施方式。对于本领域技术人员来说,在不脱离本公开的实施例的精神和范围的情况下,可以将这里定义的一般原理应用于其他需要进行文本纠错的实施例和应用场景。虽然本公开的实施例主要围绕信息查询中的文本纠错进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本公开的实施例实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
如图1所示,本公开的实施例实施例提供的一种文本纠错方法包括如下步骤:
S110、从获取的初始文本中,确定至少一个待纠错字符串。
在执行本步骤之前,首选需要获取初始文本,该初始文本可以为预先设定的待纠错文本,也可以是用户在进行信息查询时,输入个人电脑(Personal Computer,PC)等信息查询设备的查询文本。在信息查询的场景中,用户输入查询文本之后,利用本公开的实施例的方法可以在查询文本包括错误字符串时,确定替换查询文本的目标文本,确定的目标文本能够较为准确的表达查询文本的真实含义,基于该目标文本能够为用户查询要用户想要的信息,提高了信息查询的效率和信息查询的准确度。
这里的初始文本为待纠错文本,初始文本中可能包括待纠错字符串,也可能不包括待纠错字符串,因此,在确定初始文本中的待纠错字符串之前,首选需要确定该初始文本中是否存在待纠错字符串,在初始文本中存在待纠错字符串时,才去定位待纠错字符串。应该说明的是,这里的待纠错字符串是大概率为错误的字符串。
当然,也可以直接定位初始文本中的待纠错字符串,例如可以利用如下步骤直接定位初始文本中的待纠错字符串:将所述初始文本进行切分词处理,得到至少一个字符串,之后将切分词得到的每个字符串与预设的词库中的每个字符串进行比对。预设的词库中存储有多个正确的字符串,因此,如果切分词得到字符串没有存储在预设的词库中,则该字符串大概率为错误的字符串,此时,将该字符串作为待纠错字符串。
S120、确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本。
这里的候选替换字符串为能够较为准确的表达待纠错字符串所要表达的含义的正确的字符串,在具体实施时,可以从上述预设的词库中筛选每个待纠错字符串对应的候选替换字符串。由于待纠错字符串中错误字符的存在导致确定的待纠错字符串所要表达的含义可能不是唯一的,因此这里可能为待纠错字符串确定多个候选替换字符串。
在确定了每个待纠错字符串对应的候选替换字符串之后,将初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,由于,待纠错字符串对应的候选替换字符串可能多于一个,因此,得到的候选文本可能是多个。
S130、基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本。
这里,在得到候选文本之后,分析每个候选文本的语义特征,基于语义特征,将语法较为准确、语义表达较为清楚的候选文本作为目标候选文本。
本步骤对候选文本进行了初步的粗筛选,筛选了符合人类语言规则的文本作为可能用于替换初始文本的目标候选文本。
在具体实施时,可以利用语言模型分析每个候选文本的语义特征,例如可以利用N-gram模型来进行语义特征的分析。
S140、基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
这里,目标文本是语法正确、表达的含义与初始文本所要表达的真实含义最接近的文本,用于替换初始文本。
在执行本步骤之前,首先需要确定每个目标候选文本与初始文本之间的文本关联特征,这里的文本关联特征用于表征目标候选文本与所述初始文本之间文本相似程度,如果文本相似程度越高,表明越有可能与初始文本所要表达的真实含义相同。这里,基于文本关联特征从目标候选文本中筛选用于替换初始文本的目标文本,能够有效提高筛选得到的目标文本准确度。
此步骤中,筛选得到的目标文本是与初始文本的文本关联性最强的文本,在得到该目标文本之后,本实施例的文本纠错方法还可以包括如下步骤:
基于目标文本与初始文本的文本关联特征,确定所述目标文本与所述初始文本的文本关联性得分;如果确定的得分大于预设的第一阈值,则将目标文本替换所述初始文本;如果该确定的得分小于所述预设的第一阈值,但是大于预设的第二阈值,则在输入界面上显示是否利用目标文本替换初始文本的询问信息,并基于用户的选择,确定是否利用目标文本替换初始文本。
在用户查询的场景中,上述询问信息可以是“您是否想输入XXX”,这里的XXX为目标文本。
这里,可以利用预先训练好的神经网络来确定目标候选文本与所述初始文本之间的文本关联性得分。该神经网络的时候可以利用从网络上抓取的文本,以及人工标注或抓取的文本之间的文本关联特性得分来训练得到。
这里的神经网络的具体结构并不限定,可以采用通用的神经网络结构,也可以根据神经网络层按照一定规则堆叠或级联而得,神经网络层包括但不限于卷积层、池化层、非线性层等。神经网络待调整的网络参数可包括神经网络层的参数以及不同神经网络层之间的参数,例如可包括但不限于卷积核参数、权重参数等等,本公开的实施例对此并不限制。
上述实施例能够定位文本中的待纠错字符串,召回待纠错字符串对应的候选替换字符串,基于候选替换字符串生成多个候选文本,以及对候选文本进行初步粗筛选和进一步地精筛选,确定用于替换初始文本的、正确的目标文本,由于本公开的实施例在初步粗筛选的基础上,基于文本之间的文本关联特征进行了精筛选,因此得到的目标文本能够较为准确的表达存在错误字符串的初始文本的真实含义,从而有利于提高查询效率和查询准确度。
在一些实施例中,上述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,具体可以利用如下步骤实现:针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
上述在基于文本关联子特征确定目标候选文本与初始文本之间的文本关联特征时,可以采用加权求和的方式来确定。具体地,首先获取每个文本关联子特征对应的预设权重,之后,将每个文本关联子特征与对应的预设权重相乘,得到每个文本关联子特征对应的乘积;最后计算每个文本关联子特征对应的乘积的和,得到上述文本关联特征。
上述本关联子特征包括以下至少一项:候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
在一些实施例中,在执行上述目标候选文本中筛选替代所述初始文本的目标文本之前,可以先执行如下步骤:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征。
上述初始语义特征与上述第一语义特征表征的含义相同,均是表征对应的文本语法是否准确、语义表达是否清楚。这里用不同的语义提取模型提取语义特征,可以为每个目标候选文本确定多个语义特征,即确定多个上述初始语义特征。
针对每个目标候选文本,在确定了该文本对应的多个初始语义特征之后,可以利用加权求和的方式确定该文本对应的第二语义特征:
首先获取每个初始语义特征对应的预设权重,之后,将每个初始语义特征与对应的预设权重相乘,得到每个初始语义特征对应的乘积;最后计算每个初始语义特征对应的乘积的和,得到上述第二语义特征。
在确定每个目标候选文本对应的初始语义特征时,针对不同长度的目标候选文本可以选用不同的模型,例如对于字符长度为2的目标候选文本,就用2gram来提取初始语义特征,对于字符长度为3的目标候选文本,就用2gram和3gram来提取初始语义特征,对于字符长度为4的目标候选文本,就用2gram、3gram和4gram来提取初始语义特征,对于字符长度为5的目标候选文本,就用2gram、3gram、4gram和5gram来提取初始语义特征。
应当说明的是在确定上述第一语义特征的时候,可以利用与确定第二语义特征的方式相同的方式来确定,当然也可以只选用一个模型来提取语义特征。
在确定了每个目标候选文本的第二语义特征之后,上述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,具体可以利用如下步骤实现:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在具体实施时,可以基于每个目标候选文本对应的第二语义特征,和目标文本与初始文本的文本关联特征,确定所述目标文本与所述初始文本的文本关联性得分;如果确定的得分大于预设的第一阈值,则将目标文本替换所述初始文本;如果该确定的得分小于所述预设的第一阈值,但是大于预设的第二阈值,则在输入界面上显示是否利用目标文本替换初始文本的询问信息,并基于用户的选择,确定是否利用目标文本替换初始文本。
这里,可以利用预先训练好的神经网络来确定目标候选文本与所述初始文本之间的文本关联性得分。
在一些实施例中,如图2所示,上述基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本,具体可以利用如下步骤实现:
S210、基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值。
这里的概率值与第一语义特征表征的意义相同。
S220、按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本,N为正整数。
本步骤实现了文本的初步筛选,选取语法较为正确、语义表达较为清楚的文本作为目标候选文本。
在一些实施例中,上述确定每个待纠错字符串分别对应的至少一个候选替换字符串,具体可以利用如下步骤实现:
针对每个待纠错字符串,基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串。
这里的编辑关联特征包括对应的两个字符串之间的编辑距离;
在具体实施时,上述基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串,可以利用如下具体步骤实现:
从所述候选词库中,筛选与该待纠错字符串的编辑距离小于预设阈值的字符串,作为该待纠错字符串对应的候选替换字符串。
上述实施例筛选的候选替换字符串与待纠错字符串的编辑距离较小,很有可能是用户想要编辑的字符串,到那时由于操作错误编辑成了待纠错字符串。例如,用户本来想输入“liming wife”,但是错误的输入了“liming wofe”,此时,利用编辑距离可以将“limingwife”和“liming wolf”作为候选替换字符串。
对应于上述文本纠错方法,本公开的实施例实施例还提供了一种文本纠错装置,该文本纠错装置应用于具有文本纠错功能的智能终端设备,并且该文本纠错装置及其各个模块能够执行与上述文本纠错方法相同的方法步骤,并且能够达到相同的有益效果,因此对于重复的部分不再赘述。
具体地,如图3所示,本公开的实施例实施例提供的文本纠错装置包括:字符串定位模块310、候选文本生成模块320、初始筛选模块330和目标筛选模块340。
字符串定位模块310,用于从获取的初始文本中,确定至少一个待纠错字符串。
候选文本生成模块320,用于确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
初始筛选模块330,用于基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
目标筛选模块340,用于基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一些实施例中,上述目标筛选模块340具体用于:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一些实施例中,所述目标筛选模块340在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还用于:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述目标筛选模块340在基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本时,具体用于:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
在一些实施例中,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
在一些实施例中,所述初始筛选模块330具体用于:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本。
本公开的实施例实施例公开了一种电子设备,如图4所示,包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行时,所述处理器401与所述存储器402之间通过总线403通信。
所述机器可读指令被所述处理器401执行时执行以下文本纠错方法的步骤:
从获取的初始文本中,确定至少一个待纠错字符串;
确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
本公开的实施例实施例还提供的一种对应于文本纠错方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,本文不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本公开的实施例中不再赘述。在本公开的实施例所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开的实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开的实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种文本纠错方法,其特征在于,包括:
从获取的初始文本中,确定至少一个待纠错字符串;
确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
3.根据权利要求2所述的文本纠错方法,其特征在于,在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还包括:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本,包括:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
4.根据权利要求2或3所述的文本纠错方法,其特征在于,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
5.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本,包括:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本,N为正整数。
6.根据权利要求1所述的文本纠错方法,其特征在于,所述确定每个待纠错字符串分别对应的至少一个候选替换字符串,包括:
针对每个待纠错字符串,基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串。
7.根据权利要求6所述的文本纠错方法,其特征在于,所述编辑关联特征包括对应的两个字符串之间的编辑距离;
所述基于该待纠错字符串与候选词库中的每个字符串之间的编辑关联特征,从所述候选词库中筛选该待纠错字符串对应的至少一个候选替换字符串,包括:
从所述候选词库中,筛选与该待纠错字符串的编辑距离小于预设阈值的字符串,作为该待纠错字符串对应的候选替换字符串。
8.一种文本纠错装置,其特征在于,包括:
字符串定位模块,用于从获取的初始文本中,确定至少一个待纠错字符串;
候选文本生成模块,用于确定每个待纠错字符串分别对应的至少一个候选替换字符串,并将所述初始文本中的每个待纠错字符串分别替换为对应的候选替换字符串,得到多个不同的候选文本;
初始筛选模块,用于基于所述候选文本的第一语义特征,从所述候选文本中筛选目标候选文本;
目标筛选模块,用于基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
9.根据权利要求8所述的文本纠错装置,其特征在于,所述目标筛选模块具体用于:
针对每个目标候选文本,确定该目标候选文本中的每个候选替换字符串分别与对应的待纠错字符串之间的文本关联子特征,并基于确定的至少一个文本关联子特征,确定该目标候选文本与所述初始文本之间的文本关联特征;
基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
10.根据权利要求9所述的文本纠错装置,其特征在于,所述目标筛选模块在所述基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本之前,还用于:
针对每个目标候选文本,利用不同的语义提取模型,分别确定该目标候选文本的初始语义特征,并基于该目标候选文本对应的多个初始语义特征,确定该目标候选文本的第二语义特征;
所述目标筛选模块在基于每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本时,具体用于:
基于每个目标候选文本的第二语义特征、每个目标候选文本与所述初始文本之间的文本关联特征,从所述目标候选文本中筛选替代所述初始文本的目标文本。
11.根据权利要求9或10所述的文本纠错装置,其特征在于,所述文本关联子特征包括以下至少一项:
候选替换字符串与待纠错字符串之间的读音相似性特征、候选替换字符串与待纠错字符串之间的音标相似性特征、候选替换字符串与待纠错字符串之间的语音编辑距离、候选替换字符串与待纠错字符串之间的键盘编辑距离。
12.根据权利要求9所述的文本纠错装置,其特征在于,所述初始筛选模块具体用于:
基于所述候选文本的第一语义特征,确定所述候选文本为语法正确、语义表达清楚的文本的概率值;
按照所述概率值由大到小的顺序,将对应的候选文本进行排序,并将前N个候选文本作为所述目标候选文本。
13.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述的文本纠错方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的文本纠错方法的步骤。
CN202010068810.6A 2020-01-21 2020-01-21 一种文本纠错方法、装置、设备及介质 Active CN111274785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010068810.6A CN111274785B (zh) 2020-01-21 2020-01-21 一种文本纠错方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010068810.6A CN111274785B (zh) 2020-01-21 2020-01-21 一种文本纠错方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111274785A true CN111274785A (zh) 2020-06-12
CN111274785B CN111274785B (zh) 2023-06-20

Family

ID=71001855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010068810.6A Active CN111274785B (zh) 2020-01-21 2020-01-21 一种文本纠错方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111274785B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950262A (zh) * 2020-07-17 2020-11-17 武汉联影医疗科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN112115706A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112766236A (zh) * 2021-03-10 2021-05-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN112836497A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地址纠正方法、装置、电子设备及存储介质
CN113012705A (zh) * 2021-02-24 2021-06-22 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
WO2022012687A1 (zh) * 2020-07-17 2022-01-20 武汉联影医疗科技有限公司 医疗数据处理方法与系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
US20150205779A1 (en) * 2014-01-17 2015-07-23 Samsung Electronics Co., Ltd. Server for correcting error in voice recognition result and error correcting method thereof
CN107679032A (zh) * 2017-09-04 2018-02-09 百度在线网络技术(北京)有限公司 语音转换纠错方法和装置
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法
US20180260472A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109408813A (zh) * 2018-09-30 2019-03-01 北京金山安全软件有限公司 一种文本纠正方法及装置
CN110096573A (zh) * 2019-04-22 2019-08-06 腾讯科技(深圳)有限公司 一种文本解析方法及相关设备
WO2019153996A1 (zh) * 2018-02-09 2019-08-15 叶伟 一种语音识别文本纠错方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
US20150205779A1 (en) * 2014-01-17 2015-07-23 Samsung Electronics Co., Ltd. Server for correcting error in voice recognition result and error correcting method thereof
US20180260472A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
CN107679032A (zh) * 2017-09-04 2018-02-09 百度在线网络技术(北京)有限公司 语音转换纠错方法和装置
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法
WO2019153996A1 (zh) * 2018-02-09 2019-08-15 叶伟 一种语音识别文本纠错方法及装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109408813A (zh) * 2018-09-30 2019-03-01 北京金山安全软件有限公司 一种文本纠正方法及装置
CN110096573A (zh) * 2019-04-22 2019-08-06 腾讯科技(深圳)有限公司 一种文本解析方法及相关设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950262A (zh) * 2020-07-17 2020-11-17 武汉联影医疗科技有限公司 数据处理方法、装置、计算机设备和存储介质
WO2022012687A1 (zh) * 2020-07-17 2022-01-20 武汉联影医疗科技有限公司 医疗数据处理方法与系统
CN112115706A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
WO2022042512A1 (zh) * 2020-08-31 2022-03-03 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112115706B (zh) * 2020-08-31 2022-05-03 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112836497A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地址纠正方法、装置、电子设备及存储介质
CN113012705A (zh) * 2021-02-24 2021-06-22 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113012705B (zh) * 2021-02-24 2022-12-09 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN112766236A (zh) * 2021-03-10 2021-05-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN112766236B (zh) * 2021-03-10 2023-04-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111274785B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111274785B (zh) 一种文本纠错方法、装置、设备及介质
CN108287858B (zh) 自然语言的语义提取方法及装置
US6513005B1 (en) Method for correcting error characters in results of speech recognition and speech recognition system using the same
CN111079412B (zh) 文本纠错方法及装置
CN106649783B (zh) 一种同义词挖掘方法和装置
CN110163181B (zh) 手语识别方法及装置
CN111310440B (zh) 文本的纠错方法、装置和系统
CN107229627B (zh) 一种文本处理方法、装置及计算设备
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN111858843B (zh) 一种文本分类方法及装置
US9286526B1 (en) Cohort-based learning from user edits
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN109299471B (zh) 一种文本匹配的方法、装置及终端
CN112560450B (zh) 一种文本纠错方法及装置
CN109002186B (zh) 一种输入预测方法及装置
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN115048505A (zh) 语料筛选方法和装置、电子设备、计算机可读介质
CN115223188A (zh) 票据信息处理方法、装置、电子设备及计算机存储介质
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
CN109693244B (zh) 优化对话机器人的方法及装置
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN113436614A (zh) 语音识别方法、装置、设备、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.