CN113268977B - 基于语言模型的文本纠错方法、装置、终端设备及介质 - Google Patents
基于语言模型的文本纠错方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN113268977B CN113268977B CN202110810881.3A CN202110810881A CN113268977B CN 113268977 B CN113268977 B CN 113268977B CN 202110810881 A CN202110810881 A CN 202110810881A CN 113268977 B CN113268977 B CN 113268977B
- Authority
- CN
- China
- Prior art keywords
- text
- corrected
- name
- vocabulary
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种基于语言模型的文本纠错方法、装置、终端设备及介质,该方法包括:确定待纠错文本中的人名,对待纠错文本中的人名进行词汇替换,得到替换文本,词汇替换用于将待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇;将替换文本输入语言模型进行文本分析,得到文本得分;将最大文本得分对应的替换文本设置为标准文本,以及根据标准文本对待纠错文本进行文本纠错。本申请基于标准文本中携带的预设人名词汇或预设产品词汇对待纠错文本进行纠错,无需计算待纠错文本中单个词汇的使用频率,且无需基于单个词汇的使用频率进行文本纠错,防止了对待纠错文本中人名的错误纠错,提高了文本纠错的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于语言模型的文本纠错方法、装置、终端设备及介质。
背景技术
在文本纠错过程中,由于人名是一个低频词,人名和其他词语组合形成的词组也是低频的。在文本纠错过程中往往会认为出现人名的地方是有错误的,比如“查王聪敏性别”,因为“聪敏”发生的频次要比“聪明”低,如果不对人名“聪敏”进行检测与纠错的话,会被错误地识别为“聪明”,因此,文本纠错过程中,人名检测与纠错的问题越来越受人们所重视。
现有的文本纠错过程中,均基于光学字符识别模型(Optical CharacterRecognition,OCR识别模型)进行待纠错文本的纠错,但OCR识别模型在进行文本纠错的过程中,是基于单个词汇的使用频率进行文本纠错,使得会对使用频率较低的人名进行错误纠错,导致文本纠错准确性低下。
发明内容
有鉴于此,本申请实施例提供了一种基于语言模型的文本纠错方法、装置、终端设备及介质,以解决现有技术中,基于单个词汇的使用频率进行文本纠错,所导致的文本纠错准确性低下的问题。
本申请实施例的第一方面提供了一种基于语言模型的文本纠错方法,包括:
确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本,所述词汇替换用于将所述待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇;
将所述替换文本输入语言模型进行文本分析,得到文本得分,所述文本得分用于表征所述替换文本内词汇之间的关联程度;
将最大所述文本得分对应所述替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错。
进一步地,所述对所述待纠错文本中的人名进行词汇替换,得到替换文本,包括:
确定所述待纠错文本中的人名,根据所述预设人名词汇对确定到的所述待纠错文本中的人名进行人名替换,得到第一替换文本,所述预设人名词汇用于表征所述第一替换文本中的人名的字符位置;
再次确定所述待纠错文本中的人名,根据所述预设产品词汇对确定到的所述待纠错文本中的人名替换,得到第二替换文本,所述预设产品词汇用于表征所述第二替换文本中的人名的字符位置;
所述替换文本包括所述第一替换文本和所述第二替换文本。
进一步地,所述根据所述标准文本对所述待纠错文本进行文本纠错,包括:
确定所述标准文本中所述预设人名词汇的位置信息,得到人名位置;
查询所述待纠错文本上所述人名位置对应的词汇,得到第一待纠错词汇;
若所述第一待纠错词汇不是人名,则查询所述第一待纠错词汇对应的标准人名词汇,并将查询到的所述标准人名词汇对所述第一待纠错词汇进行替换;
若所述第一待纠错词汇是人名,则判定所述第一待纠错词汇无需纠错。
进一步地,所述根据所述标准文本对所述待纠错文本进行文本纠错,还包括:
确定所述标准文本中所述预设产品词汇的位置信息,得到产品位置;
查询所述待纠错文本上所述产品位置对应的文本词汇,得到第二待纠错词汇;
若所述第二待纠错词汇不是人名,则判定所述第二待纠错词汇无需纠错;
若所述第二待纠错词汇是人名,则查询所述第二待纠错词汇对应的标准产品名称,并将查询到的所述标准产品名称对所述第二待纠错词汇进行替换。
进一步地,所述将所述替换文本输入语言模型进行文本分析,得到文本得分,包括:
将所述第一替换文本和所述第二替换文本输入所述语言模型进行分词,得到分词词汇;
根据所述语言模型,分别确定所述第一替换文本和所述第二替换文本中,不同分词词汇之间的关联值,所述关联值用于表征不同分词词汇之间的关联程度;
分别计算所述第一替换文本和所述第二替换文本中,不同所述分词词汇之间的关联值的和,得到所述文本得分。
进一步地,所述将所述替换文本输入语言模型进行文本分析之前,还包括:
确定预设的文本语料中的人名,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,得到第一样本文本;
再次确定所述文本语料中的产品名称,根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行产品替换,得到第二样本文本;
再次确定所述文本语料中的人名和产品名称,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,并同时根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行名称替换,得到第三样本文本;
根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,以及根据所述训练样本对所述语言模型进行训练,直至所述语言模型收敛。
进一步地,所述根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,包括:
将所述第一样本文本、所述第二样本文本和所述第三样本文本依序进行存储,以及根据预设分隔符对所述第一样本文本、所述第二样本文本和所述第三样本文本进行文本分隔,以得到所述训练样本。
本申请实施例的第二方面提供了一种文本纠错装置,包括:
词汇替换单元,用于确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本,所述词汇替换用于将所述待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇;
文本分析单元,用于将所述替换文本输入语言模型进行文本分析,得到文本得分,所述文本得分用于表征所述替换文本内词汇之间的关联程度;
文本纠错单元,用于将最大文本得分对应的替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的基于语言模型的文本纠错方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的基于语言模型的文本纠错方法的各步骤。
本申请实施例提供的一种基于语言模型的文本纠错方法、装置、终端设备及介质,通过确定待纠错文本中的人名,对待纠错文本中的人名进行词汇替换,能有效地将待纠错文本中的人名分别替换为预设人名词汇和预设产品词汇,通过将携带预设人名词汇和预设产品词汇的替换文本输入语言模型进行文本分析,得到文本得分,能有效地确定到预设人名词汇和预设产品词汇,分别与替换文本中其他词汇之间的关联程度,当文本得分越大时,即,文本得分对应的预设人名词汇或预设产品词汇与替换文本中的语义环境越相关,因此,基于最大文本得分对应的替换文本能有效地进行标准文本的设置,基于标准文本中携带的预设人名词汇或预设产品词汇对待纠错文本进行纠错,无需计算待纠错文本中单个词汇的使用频率,且无需基于单个词汇的使用频率进行文本纠错,防止了对待纠错文本中人名的错误纠错,提高了文本纠错的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于语言模型的文本纠错方法的实现流程图;
图2是本申请另一实施例提供的一种基于语言模型的文本纠错方法的实现流程图;
图3是本申请实施例提供的一种文本纠错装置的结构框图;
图4是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的基于语言模型的文本纠错方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种基于语言模型的文本纠错方法的实现流程图,该基于语言模型的文本纠错方法应用于任一终端设备,该终端设备可以为服务器、手机、平板或可穿戴智能设备,该基于语言模型的文本纠错方法包括:
步骤S10,确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本。
其中,该词汇替换用于将待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇,使得替换文本中能携带有预设人名词汇和预设产品词汇,基于预设人名词汇和预设产品词汇,能有效地确定到替换文本中对应人名的字符位置。
具体的,该步骤中,通过获取该待纠错文本的文本标识,并根据该文本标识确定该待纠错文本中的人名,该文本标识用于表征待纠错文本人名对应的字符位置。
可选的,该步骤中,所述对所述待纠错文本中的人名进行词汇替换,得到替换文本,包括:
确定所述待纠错文本中的人名,根据所述预设人名词汇对确定到的所述待纠错文本中的人名进行人名替换,得到第一替换文本;
再次确定所述待纠错文本中的人名,根据所述预设产品词汇对确定到的所述待纠错文本中的人名替换,得到第二替换文本;
其中,替换文本包括第一替换文本和第二替换文本,该预设人名词汇用于表征第一替换文本中的人名的字符位置,该预设产品词汇用于表征第二替换文本中的人名的字符位置;
例如,当待纠错文本为:“胡歌一人力得分怎么查”,根据文本标识确定到待纠错文本中的人名为胡歌一,预设人名词汇为“person”,预设产品词汇为“product”时,则根据预设人名词汇和预设产品词汇分别对待纠错文本中的“胡歌一”进行词汇替换,得到第一替换文本“person人力得分怎么查”,第二替换文本“product人力得分怎么查”。
步骤S20,将所述替换文本输入语言模型进行文本分析,得到文本得分。
其中,该文本得分用于表征替换文本内词汇之间的关联程度,将第一替换文本“person人力得分怎么查”和第二替换文本“product人力得分怎么查”分别输入语言模型进行文本分析,得到第一替换文本和第二替换文本对应的文本得分。
该步骤中,若“product人力得分怎么查”的文本得分为-10.2;“person人力得分怎么查”的文本得分为-13.5,其中,分数越大说明句子越通顺,或“product”、“人力得分”与“怎么查”组合在一起关联程度,比“person”、“人力得分”与“怎么查”组合在一起的关联程度大。
可选的,该步骤中,所述将所述替换文本输入语言模型进行文本分析,得到文本得分之前,还包括:
对文本语料中的人名和产品名称进行词汇替换,以及根据词汇替换后的所述文本语料对语言模型进行训练,直至所述语言模型收敛。
其中,通过对文本语料中的人名和产品名称进行词汇替换,以达到对文本语料中的人名和产品名称的位置标记效果,该文本语料包括预先设置的文本语句,该文本语句用于保障语言模型的模型训练,针对该文本语料预设置有标识信息,该标识信息用于表征该文本语料中人名或产品名称对应的语料位置,通过获取文本语料对应的标识信息,并根据获取到的标识信息确定该文本语料中的人名和产品名称,对确定到的人名和产品名称进行词汇替换。
该步骤中,该语言模型是基于词级别的语言模型,词级别的意思是语言模型会对输入的文本进行分词,比如“product和付婉芬的区别是什么”,分词后可以得到“product/和/付婉芬/的/区别/是/什么”,该语言模型可以根据需求进行设置,例如,该语言模型可以采用kenlm模型或berkelylm模型等。
可选的,该步骤中,所述对文本语料中的人名和产品名称进行词汇替换,以及根据词汇替换后的所述文本语料对语言模型进行训练,直至所述语言模型收敛,包括:
确定预设的文本语料中的人名,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,得到第一样本文本;
其中,通过获取文本语料对应的标识信息中第一预设标识所指向的词汇,以确定该文本语料中的人名,该第一预设标识可以采用文字、数字或字符的方式进行存储,例如,该第一预设标识可以为文字“第五至第六字符”,则该文本语料中“第五至第六字符”对应的词汇为人名,并根据所述预设人名词汇对确定到的人名进行词汇替换,得到第一样本文本。
例如,当该文本语料为“爱满分和付婉芬的区别是什么”,且确定到的人名为“付婉芬”,预设人名词汇为“person”时,则根据所述预设人名词汇对确定到的人名进行替换得到的第一样本文本为:“爱满分和person的区别是什么”。
再次确定所述文本语料中的产品名称,根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行产品替换,得到第二样本文本;
其中,该文本语料中的产品名称上携带有第二预设标识,该第二预设标识用于指向文本语料中的产品名称,通过基于第二预设标识所指向的字符位置,以确定该文本语料中的产品名称,并根据所述预设产品词汇对确定到的产品名称进行词汇替换,得到第二样本文本。
例如,当该文本语料为“爱满分和付婉芬的区别是什么”,且确定到的产品名称为“爱满分”,预设产品词汇为“product”时,则根据所述预设产品词汇对确定到的产品名称进行替换得到的第二样本文本为:“product和付婉芬的区别是什么”。
可选的,该步骤中,还可以采用标识查询的方式进行该文本语料中人名和产品名称的确定,该文本语料中的字符均设置有预先标记的特征标识,该特征标识用于表征该文本语料中对应字符的字符类型,通过识别该文本语料中人名类型对应的特征标识,以确定该文本语料中的人名,通过识别该文本语料中产品类型对应的特征标识,以确定该文本语料中的产品名称。
再次确定所述文本语料中的人名和产品名称,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,并同时根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行名称替换,得到第三样本文本;
例如,当该文本语料为“爱满分和付婉芬的区别是什么”,确定到的人名为“付婉芬”,预设人名词汇为“person”,确定到的产品名称为“爱满分”,预设产品词汇为“product”时,则根据预设人名词汇和预设产品词汇进行词汇替换后的第三样本文本为:“product和person的区别是什么”。
根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,以及根据所述训练样本对所述语言模型进行训练,直至所述语言模型收敛。
进一步地,该步骤中,所述根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,包括:
将所述第一样本文本、所述第二样本文本和所述第三样本文本依序进行存储,以及根据预设分隔符对所述第一样本文本、所述第二样本文本和所述第三样本文本进行文本分隔,以得到所述训练样本;
其中,该预设分隔符可以根据需求进行设置,例如,该预设分隔符可以设置为“、”“//”或“;”等,当第一样本文本为“爱满分和person的区别是什么”,第二样本文本为“product和付婉芬的区别是什么”,第三样本文本为“product和person的区别是什么”,则构建得到的训练样本为“爱满分和person的区别是什么//product和付婉芬的区别是什么//product和person的区别是什么”。
步骤S30,将最大文本得分对应的替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错。
其中,通过将最大文本得分对应的替换文本设置为标准文本,基于标准文本能有效地对待纠错文本进行纠错检测,该纠错检测用于检测待纠错文本中的人名或产品名称是否存在错误。
本实施例中,语料中正确词组合在一起的次数(组合频次)远大于错误词组合在一起的次数,例如,“福满分”在语料中的组合频次比它的其他错别字“付婉芬”、“胡满分”的组合频次高;同时人名或者产品名称都会出现在上下文语境中,比如一般都会表达“查person性别”不会说成“查product的性别”,因为产品是没有性别的;再比如“product和product的区别是什么”不是说成“product和person的区别是什么”,因为不会拿产品与人进行比较,所以本实施例能够统计到person或者product经常结合在一起的上下文,比如“product”与“人力得分”的组合频次会远远大于“person”与“人力得分”的组合频次,因此,最大文本得分对应的替换文本内词汇组合的准确性越高。
本实施例中,通过确定待纠错文本中的人名,对待纠错文本中的人名进行词汇替换,能有效地将待纠错文本中的人名分别替换为预设人名词汇和预设产品词汇,通过将携带预设人名词汇和预设产品词汇的替换文本输入语言模型进行文本分析,得到文本得分,能有效地确定到预设人名词汇和预设产品词汇,分别与替换文本中其他词汇之间的关联程度,当文本得分越大时,即,文本得分对应的预设人名词汇或预设产品词汇与替换文本中的语义环境越相关,因此,基于最大文本得分对应的替换文本能有效地进行标准文本的设置,基于标准文本中携带的预设人名词汇或预设产品词汇对待纠错文本进行纠错,无需计算待纠错文本中单个词汇的使用频率,且无需基于单个词汇的使用频率进行文本纠错,防止了对待纠错文本中人名的错误纠错,提高了文本纠错的准确性。
请参阅图2,图2是本申请另一实施例提供的一种基于语言模型的文本纠错方法的实现流程图。相对于图1实施例,本实施例提供的基于语言模型的文本纠错方法用于对图1实施例中的步骤S30作进一步细化,包括:
步骤S31,确定所述标准文本中所述预设人名词汇的位置信息,得到人名位置,以及确定所述标准文本中所述预设产品词汇的位置信息,得到产品位置;
其中,通过获取该标准文本中预设人名词汇的位置信息,以得到该人名位置,通过获取该标准文本中预设产品词汇的位置信息,以得到该产品位置,该人名位置用于表征该标准文本中的人名,该产品位置用于表征该标准文本中的产品名称。
步骤S32,查询所述待纠错文本上所述人名位置对应的词汇,得到第一待纠错词汇,以及查询所述待纠错文本上所述产品位置对应的文本词汇,得到第二待纠错词汇。
其中,得到第一待纠错词汇和第二待纠错词汇后,分别判断该第一待纠错词和第二待纠错词是否是人名,通过查询待纠错文本上人名位置和产品位置对应的词汇,有效地方便了该文本词汇对应类型的判断,即,能方便了该第一待纠错词和第二待纠错词是否是人名的判断。
可选的,该步骤中,通过将第一待纠错词汇和第二待纠错词汇分别与预设的人名表进行匹配,以判断该第一待纠错词汇和第二待纠错词汇是否是人名,该预设的人名表中存储有至少一个预先设置的人名。
步骤S33,若所述第一待纠错词汇不是人名,则查询所述第一待纠错词汇对应的标准人名词汇,并将查询到的所述标准人名词汇对所述第一待纠错词汇进行替换;
其中,若第一待纠错词汇不是人名,则将该第一待纠错词汇与预存储的纠错列表进行匹配,该纠错列表中存储有不同待纠错词汇与对应标准人名词汇之间的对应关系,该步骤中,通过将查询到的标准人名词汇对第一待纠错词汇进行替换纠错,能有效地对待纠错文本上的词汇进行人名纠错,进而对待纠错文本上的人名起到了保护效果。该步骤中,若第一待纠错词汇是人名,则判定第一待纠错词汇无需纠错。
步骤S34,若所述第二待纠错词汇是人名,则查询所述第二待纠错词汇对应的标准产品名称,并将查询到的所述标准产品名称对所述第二待纠错词汇进行替换。
其中,若第二待纠错词汇是人名,则判定针对该第二待纠错词汇需要进行纠错,通过将该第二待纠错词汇与预存储的产品名称列表进行匹配,得到该第二待纠错词汇对应的标准产品名称,该预存储的产品名称列表存储有不同待纠错词汇与对应标准产品名称之间的对应关系,该步骤中,通过将查询到的标准产品名称对第二待纠错词汇进行替换,能有效地对待纠错文本上被误识别为人名的词汇进行纠错。该步骤中,若第二待纠错词汇不是人名,则判定第二待纠错词汇无需纠错。
进一步地,本实施例,针对步骤S20,所述将所述替换文本输入语言模型进行文本分析,得到文本得分,包括:
将所述第一替换文本和所述第二替换文本输入所述语言模型进行分词,得到分词词汇;
其中,将第一替换文本和第二替换文本分别与预设字典中的指定词汇进行匹配,并根据与预设字典中的指定词汇之间的匹配结果,对该第一替换文本和第二替换文本进行分词,得到该到第一分词词汇和第二分词词汇。
根据所述语言模型,分别确定所述第一替换文本和所述第二替换文本中,不同分词词汇之间的关联值;
其中,该关联值用于表征不同分词词汇之间的关联程度,该步骤中,通过分别将第一分词词汇和第二分词词汇中的词汇进行两两组合,得到第一组合词汇集和第二组合词汇集,并分别将第一组合词汇集和第二组合词汇集中的组合词汇与预存储的关联值查询表进行匹配,得到该关联值,该预存储的关联值查询表中存储不同组合词汇与对应关联值之间的对应关系。
分别计算所述第一替换文本和所述第二替换文本中,不同所述分词词汇之间的关联值的和,得到所述文本得分;
其中,针对第一替换文本,通过计算第一组合词汇集中各组合词汇对应关联值之间的和,得到该第一替换文本对应的文本得分,针对第二替换文本,通过计算第二组合词汇集中各组合词汇对应关联值之间的和,得到该第二替换文本对应的文本得分。
本实施例中,通过确定标准文本中预设人名词汇和预设产品词汇的位置信息,能有效地确定到待纠错文本上的待纠错词汇,通过将查询到的标准人名词汇对第一待纠错词汇进行替换纠错,能有效地对待纠错文本上的词汇进行人名纠错,进而对待纠错文本上的人名起到了保护效果,通过将查询到的标准产品名称对第二待纠错词汇进行替换,能有效地对待纠错文本上被误识别为人名的词汇进行纠错。
请参阅图3,图3是本申请实施例提供的一种文本纠错装置100的结构框图。本实施例中该文本纠错装置100包括的各单元用于执行图1、图2对应的实施例中的各步骤。具体请参阅图1、图2以及图1、图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,文本纠错装置100包括:词汇替换单元10、文本分析单元11、文本纠错单元12和模型训练单元13,其中:
词汇替换单元10,用于确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本,所述词汇替换用于将所述待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇。
其中,该词汇替换单元10还用于:确定所述待纠错文本中的人名,根据所述预设人名词汇对确定到的所述待纠错文本中的人名进行人名替换,得到第一替换文本,所述预设人名词汇用于表征所述第一替换文本中的人名的字符位置;
再次确定所述待纠错文本中的人名,根据所述预设产品词汇对确定到的所述待纠错文本中的人名替换,得到第二替换文本,所述预设产品词汇用于表征所述第二替换文本中的人名的字符位置;
所述替换文本包括所述第一替换文本和所述第二替换文本。
文本分析单元11,用于将所述替换文本输入语言模型进行文本分析,得到文本得分,所述文本得分用于表征所述替换文本内词汇之间的关联程度。
其中,该文本分析单元11还用于:将所述第一替换文本和所述第二替换文本输入所述语言模型进行分词,得到分词词汇;
根据所述语言模型,分别确定所述第一替换文本和所述第二替换文本中,不同分词词汇之间的关联值,所述关联值用于表征不同分词词汇之间的关联程度;
分别计算所述第一替换文本和所述第二替换文本中,不同所述分词词汇之间的关联值的和,得到所述文本得分。
文本纠错单元12,用于将最大文本得分对应的替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错。
其中,该文本纠错单元12还用于:确定所述标准文本中所述预设人名词汇的位置信息,得到人名位置;
查询所述待纠错文本上所述人名位置对应的词汇,得到第一待纠错词汇;
若所述第一待纠错词汇不是人名,则查询所述第一待纠错词汇对应的标准人名词汇,并将查询到的所述标准人名词汇对所述第一待纠错词汇进行替换;
若所述第一待纠错词汇是人名,则判定所述第一待纠错词汇无需纠错。
进一步地,该文本纠错单元12还用于:确定所述标准文本中所述预设产品词汇的位置信息,得到产品位置;
查询所述待纠错文本上所述产品位置对应的文本词汇,得到第二待纠错词汇;
若所述第二待纠错词汇不是人名,则判定所述第二待纠错词汇无需纠错;
若所述第二待纠错词汇是人名,则查询所述第二待纠错词汇对应的标准产品名称,并将查询到的所述标准产品名称对所述第二待纠错词汇进行替换。
可选的,本实施例中,该文本纠错装置100还包括:
模型训练单元13,用于确定预设的文本语料中的人名,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,得到第一样本文本;
再次确定所述文本语料中的产品名称,根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行产品替换,得到第二样本文本;
再次确定所述文本语料中的人名和产品名称,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,并同时根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行名称替换,得到第三样本文本;
根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,以及根据所述训练样本对所述语言模型进行训练,直至所述语言模型收敛。
其中,该模型训练单元13还用于:将所述第一样本文本、所述第二样本文本和所述第三样本文本依序进行存储,以及根据预设分隔符对所述第一样本文本、所述第二样本文本和所述第三样本文本进行文本分隔,以得到所述训练样本。
本实施例中,通过确定待纠错文本中的人名,对待纠错文本中的人名进行词汇替换,能有效地将待纠错文本中的人名分别替换为预设人名词汇和预设产品词汇,通过将携带预设人名词汇和预设产品词汇的替换文本输入语言模型进行文本分析,得到文本得分,能有效地确定到预设人名词汇和预设产品词汇,分别与替换文本中其他词汇之间的关联程度,当文本得分越大时,即,文本得分对应的预设人名词汇或预设产品词汇与替换文本中的语义环境越相关,因此,基于最大文本得分对应的替换文本能有效地进行标准文本的设置,基于标准文本中携带的预设人名词汇或预设产品词汇对待纠错文本进行纠错,无需计算待纠错文本中单个词汇的使用频率,且无需基于单个词汇的使用频率进行文本纠错,防止了对待纠错文本中人名的错误纠错,提高了文本纠错的准确性。
图4是本申请另一实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如基于语言模型的文本纠错方法的程序。处理器20执行所述计算机程序22时实现上述各个基于语言模型的文本纠错方法各实施例中的步骤,例如图1所示的S10至S30,或者图2所示的S31至S34。或者,所述处理器20执行所述计算机程序22时实现上述图3对应的实施例中各单元的功能,例如,图3所示的单元10至13的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成词汇替换单元10、文本分析单元11、文本纠错单元12和模型训练单元13,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图4仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Centralprocessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signalprocessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于语言模型的文本纠错方法,其特征在于,包括:
确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本,所述词汇替换用于将所述待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇;
将所述替换文本输入语言模型进行文本分析,得到文本得分,所述文本得分用于表征所述替换文本内词汇之间的关联程度;
将最大文本得分对应的替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错;
所述根据所述标准文本对所述待纠错文本进行文本纠错,包括:
确定所述标准文本中所述预设人名词汇的位置信息,得到人名位置;
查询所述待纠错文本上所述人名位置对应的词汇,得到第一待纠错词汇;
若所述第一待纠错词汇不是人名,则查询所述第一待纠错词汇对应的标准人名词汇,并将查询到的所述标准人名词汇对所述第一待纠错词汇进行替换;
若所述第一待纠错词汇是人名,则判定所述第一待纠错词汇无需纠错。
2.根据权利要求1所述的基于语言模型的文本纠错方法,其特征在于,所述对所述待纠错文本中的人名进行词汇替换,得到替换文本,包括:
确定所述待纠错文本中的人名,根据所述预设人名词汇对确定到的所述待纠错文本中的人名进行人名替换,得到第一替换文本,所述预设人名词汇用于表征所述第一替换文本中的人名的字符位置;
再次确定所述待纠错文本中的人名,根据所述预设产品词汇对确定到的所述待纠错文本中的人名替换,得到第二替换文本,所述预设产品词汇用于表征所述第二替换文本中的人名的字符位置;
所述替换文本包括所述第一替换文本和所述第二替换文本。
3.根据权利要求1所述的基于语言模型的文本纠错方法,其特征在于,所述根据所述标准文本对所述待纠错文本进行文本纠错,还包括:
确定所述标准文本中所述预设产品词汇的位置信息,得到产品位置;
查询所述待纠错文本上所述产品位置对应的文本词汇,得到第二待纠错词汇;
若所述第二待纠错词汇不是人名,则判定所述第二待纠错词汇无需纠错;
若所述第二待纠错词汇是人名,则查询所述第二待纠错词汇对应的标准产品名称,并将查询到的所述标准产品名称对所述第二待纠错词汇进行替换。
4.根据权利要求2所述的基于语言模型的文本纠错方法,其特征在于,所述将所述替换文本输入语言模型进行文本分析,得到文本得分,包括:
将所述第一替换文本和所述第二替换文本输入所述语言模型进行分词,得到分词词汇;
根据所述语言模型,分别确定所述第一替换文本和所述第二替换文本中,不同分词词汇之间的关联值,所述关联值用于表征不同分词词汇之间的关联程度;
分别计算所述第一替换文本和所述第二替换文本中,不同所述分词词汇之间的关联值的和,得到所述文本得分。
5.根据权利要求1所述的基于语言模型的文本纠错方法,其特征在于,所述将所述替换文本输入语言模型进行文本分析之前,还包括:
确定预设的文本语料中的人名,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,得到第一样本文本;
再次确定所述文本语料中的产品名称,根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行产品替换,得到第二样本文本;
再次确定所述文本语料中的人名和产品名称,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,并同时根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行名称替换,得到第三样本文本;
根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,以及根据所述训练样本对所述语言模型进行训练,直至所述语言模型收敛。
6.根据权利要求5所述的基于语言模型的文本纠错方法,其特征在于,所述根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,包括:
将所述第一样本文本、所述第二样本文本和所述第三样本文本依序进行存储,以及根据预设分隔符对所述第一样本文本、所述第二样本文本和所述第三样本文本进行文本分隔,以得到所述训练样本。
7.一种文本纠错装置,其特征在于,包括:
词汇替换单元,用于确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本,所述词汇替换用于将所述待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇;
文本分析单元,用于将所述替换文本输入语言模型进行文本分析,得到文本得分,所述文本得分用于表征所述替换文本内词汇之间的关联程度;
文本纠错单元,用于将最大文本得分对应的替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错;
所述文本纠错单元还用于:确定所述标准文本中所述预设人名词汇的位置信息,得到人名位置;
查询所述待纠错文本上所述人名位置对应的词汇,得到第一待纠错词汇;
若所述第一待纠错词汇不是人名,则查询所述第一待纠错词汇对应的标准人名词汇,并将查询到的所述标准人名词汇对所述第一待纠错词汇进行替换;
若所述第一待纠错词汇是人名,则判定所述第一待纠错词汇无需纠错。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810881.3A CN113268977B (zh) | 2021-07-19 | 2021-07-19 | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810881.3A CN113268977B (zh) | 2021-07-19 | 2021-07-19 | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268977A CN113268977A (zh) | 2021-08-17 |
CN113268977B true CN113268977B (zh) | 2021-10-15 |
Family
ID=77236697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110810881.3A Active CN113268977B (zh) | 2021-07-19 | 2021-07-19 | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268977B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN111428494A (zh) * | 2020-03-11 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 专有名词的智能纠错方法、装置、设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112232059B (zh) * | 2020-12-14 | 2021-03-26 | 北京声智科技有限公司 | 文本纠错方法、装置、计算机设备及存储介质 |
-
2021
- 2021-07-19 CN CN202110810881.3A patent/CN113268977B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113268977A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10268676B1 (en) | Automated detection of linguistic uniqueness | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN110555096A (zh) | 用户意图识别方法、系统、终端及介质 | |
CN108573707B (zh) | 一种语音识别结果的处理方法、装置、设备及介质 | |
CN111737979B (zh) | 语音文本的关键词修正方法、装置、修正设备及存储介质 | |
CN109522397B (zh) | 信息处理方法及装置 | |
CN111144391B (zh) | 一种ocr识别结果纠错方法及装置 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113420122B (zh) | 分析文本的方法、装置、设备及存储介质 | |
CN114970560A (zh) | 对话意图识别方法、装置、存储介质和智能设备 | |
CN109614623B (zh) | 一种基于句法分析的作文处理方法及系统 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN111027316A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN113268977B (zh) | 基于语言模型的文本纠错方法、装置、终端设备及介质 | |
CN111639160A (zh) | 领域识别的方法、交互的方法、电子设备及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN110956043A (zh) | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 | |
CN115881108A (zh) | 语音识别方法、装置、设备及存储介质 | |
JP2000089786A (ja) | 音声認識結果の修正方法および装置 | |
CN115019788A (zh) | 语音交互方法、系统、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |