CN111178049A - 一种文本修正方法、装置、可读介质及电子设备 - Google Patents
一种文本修正方法、装置、可读介质及电子设备 Download PDFInfo
- Publication number
- CN111178049A CN111178049A CN201911252305.0A CN201911252305A CN111178049A CN 111178049 A CN111178049 A CN 111178049A CN 201911252305 A CN201911252305 A CN 201911252305A CN 111178049 A CN111178049 A CN 111178049A
- Authority
- CN
- China
- Prior art keywords
- information
- error
- text
- text information
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004422 calculation algorithm Methods 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 24
- 230000004048 modification Effects 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007405 data analysis Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 239000003814 drug Substances 0.000 description 5
- 239000002023 wood Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种文本修正方法、装置、可读介质及电子设备,包括:获取第一文本信息,并利用预设的识别模型对所述第一文本信息进行识别;当所述识别模型识别到所述第一文本信息中的第一错误信息,生成所述第一错误信息对应的第一位置信息;利用预设的修正模型,根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息;通过识别模型确定第一文本信息的错误位置,并利用修正模型对第一文本信息中的错误进行修正,从而实现了自动修正医学文本中可能出现的第一错误信息,提高数字化的医学文本的质量,确保后续数据分析的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本修正方法、装置、可读介质及电子设备。
背景技术
结合人工智能的数据分析技术,已经开始应用在各个传统领域,其中包括医疗领域。从目前的实际情况来看,可以认为数据分析在医疗领域,乃至与医疗相关的保险服务、健康服务领域,均有着非常重大的应用价值。
在医学领域进行数据分析,其数据的来源通常是过去产生的各种诊疗信息、病历信息等医学文本。在固有的工作方式当中,这些医学文本通常为纸质文件的形式,而且相当一部分内容是手写文本。如需利用纸质文件进行数据分析,就必须将其拍摄为图像,再通过图像识别提取到数字化和结构化的医学文本,才能够应用到当前的数据分析技术当中。
那么很显然,在这一将医学文本从纸质文件进行数字化和结构化的过程中,很容易造成其中出现各种错误。从而影响到后续数据分析的准确性和有效性。
发明内容
本发明提供一种文本修正方法、装置、可读介质及电子设备,能够自动修正医学文本中可能出现的第一错误信息,从而提高数字化的医学文本的质量,确保后续数据分析的准确性。
第一方面,本发明提供了一种文本修正方法,包括:
获取第一文本信息,并利用预设的识别模型对所述第一文本信息进行识别;
当所述识别模型识别到所述第一文本信息中的第一错误信息,生成所述第一错误信息对应的第一位置信息;
利用预设的修正模型,根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息。
优选地,所述识别模型识别到所述第一文本信息中的第一错误信息,生成所述第一错误信息对应的第一位置信息包括:
当所述识别模型识别到所述第一文本信息中的第一错误字符,将所述第一错误字符确定为所述第一错误信息;
生成对应所述第一文本信息中各个字符的第一字符序列;并将所述第一字符序列中,与所述第一错误字符对应的序列码标记为第一错误序列码;
将标记所述第一错误序列码后的所述第一字符序列,确定为所述第一错误信息对应的第一位置信息。
优选地,所述利用预设的修正模型,根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正包括:
确定所述第一错误信息中的第一错误序列码;
根据所述第一错误序列码,确定所述第一文本信息中的第一错误字符;
对所述第一文本信息中的第一错误字符进行修正。
优选地,所述利用预设的识别模型对所述第一文本信息进行识别包括:
利用所述识别模型中经过预先训练确定的第一识别算法,对所述第一文本信息进行识别;
则所述利用预设的修正模型对所述第一错误信息进行修正包括;
利用所述修正模型中经过预先训练确定的第一修正算法,对所述第一错误信息进行修正。
优选地,所述方法还包括:
利用预设的样本集对所述识别模型和所述修正模型进行数据训练,以确定所述识别模型中的第一识别算法,和所述修正模型中的第一修正算法。
优选地,所述样本集中包括:多个样本文本组;
每个样本文本组中包括标准文本信息、替换文本信息和第二位置信息;所述第二位置信息中包括,所述替换文本信息相对于所述标准文本信息的第二错误信息的位置。
优选地,所述利用预设的样本集对所述识别模型和所述修正模型进行数据训练包括:
利用预设的修正模型中的第二修正算法,根据所述替换文本信息对应第二位置信息,对所述替换文本信息中的第二错误信息进行修正,以获得第三文本信息;
利用识别模型中的第二识别算法,确定所述第三文本信息中的第三错误信息对应的第三位置信息;
根据所述第三文本信息、第三位置信息和相应的标准文本信息,确定所述第二识别算法和所述第二修正算法的损失指数;
当所述损失指数满足预设条件,调整所述第二识别算法和所述第二修正算法中的计算参数。
第二方面,本发明提供了一种文本修正装置,包括:
识别模块,用于获取第一文本信息,对所述第一文本信息进行识别;在识别到所述第一文本信息中的第一错误信息时,生成所述第一错误信息对应的第一位置信息;
修正模块,用于根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的文本修正方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的文本修正方法。
本发明提供了一种文本修正方法、装置、可读介质及电子设备,通过识别模型确定第一文本信息的错误位置,并利用修正模型对第一文本信息中的错误进行修正,从而实现了自动修正医学文本中可能出现的第一错误信息,提高数字化的医学文本的质量,确保后续数据分析的准确性。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种文本修正方法的流程示意图;
图2为本发明一实施例提供的另一种文本修正方法涉及的训练方法的流程示意图;
图3为本发明一实施例提供的一种文本修正装置的结构示意图;
图4为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在医学领域固有的工作方式当中,医学文本通常为纸质文件的形式,而且相当一部分内容是手写文本。如需利用纸质文件进行数据分析,就必须将其拍摄为图像,再通过图像识别提取到数字化的医学文本,才能够应用到当前的数据分析技术当中。
那么很显然,在这一将医学文本从纸质文件进行数字化的转换过程中,很容易造成其中出现各种错误。实际上,在上述过程中医学文本出现各种错误,通常来自于两方面原因。一是纸质的医学文本本身即存在错误,例如手写文本中出现的错字、语法错误、书写不清楚等问题。另一是图像分析以及转换过程中,也有一定概率出现的错误。
而最终得到的医学文本的质量,会直接影响到后续数据分析的准确性和有效性。所以本发明中,将提供一种文本修正方法及装置,从而实现对于文本中错误的自动修正。
参见图1所示,为本发明提供的文本修正方法的具体实施例。本实施例中,所述方法具体包括以下步骤:
步骤101、获取第一文本信息,利用预设的识别模型对所述第一文本信息进行识别。
第一文本信息,即待进行错误修正的文本信息。本实施例中,可假设第一文本信息的内容为“未近行手木”。实际上,通过人工可以轻易的从上述第一文本信息中发现错误所在。正确的文本应该是“未进行手术”,即其中“近”应当写作“进”,“木”应当写作“术”。也就是说,在第一文本信息中,存在着一处同音字书写错误(近与进),和一处形近字书写错误(木与术)。而本实施例的目的即在于,利用所提供的文本修正方法自动发现上述错误所在,并自动完成修正。
本实施例中,将利用预设的识别模型对所述第一文本信息进行识别,以判断其中是否有错误出现。具体的,识别模型可以通过ELECTRA(Efficiently Learning an Encoderthat Classifies Token Replacements Accurately)及对抗生成网络的原理构建。识别模型中包括经过预先训练确定的第一识别算法。利用该第一识别算法,即可实现对于第一文本信息的识别,发现其中出现的错误。本实施例中,对于识别模型的结构以及第一识别算法的训练和运算过程不作限定,任何能够实现相同或类似功能的技术方案均可结合在本实施例整体方案中。
在本实施例的场景下,识别模型即可以通过第一识别算法,确定第一文本信息中的“近”和“木”两个字符为错误字符。本实施例中,可以将第一文本信息中的错误字符称为第一错误字符。
步骤102、当所述识别模型识别到所述第一文本信息中的第一错误信息,生成所述第一错误信息对应的第一位置信息。
当识别模型识别到所述第一文本信息中的第一错误字符,即认为第一文本信息中存在错误,进而将所述第一错误字符(也就是“近”和“木”两个字符)确定为所述第一错误信息。
然后,识别模型还需要标记出第一错误信息在第一文本信息中的具体位置。具体的,可以首先生成对应所述第一文本信息中各个字符的第一字符序列。即利用第一字符序列中的一个序列码代表第一文本信息中的第一个字符,然后将序列码按照第一文本信息中字符的顺序排列,即得到第一字符序列。以“未近行手木”五个字符为例,每个字符对应的序列码均可以是0,则对应的第一字符序列为“00000”。
接下来,可以将所述第一字符序列中,与所述第一错误字符对应的序列码标记为第一错误序列码。第一错误字符为“近”和“木”,分别对应第一字符序列中的第2位和第5位。则将此两位序列码标记为第一错误序列码。具体的,第一错误序列码可以是1。将标记所述第一错误序列码后的所述第一字符序列即“01001”。标记所述第一错误序列码后的所述第一字符序列,可以作为所述第一错误信息对应的第一位置信息。显然通过第一位置信息,能够确定出第一文本信息中的第一错误字符的位置所在。
步骤103、利用预设的修正模型,根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息。
修正模型能够对第一文本信息中的第一错误信息,也就是第一错误字符进行修正,将其替换为正确的字符。修正模型同样可以通过ELECTRA(Efficiently Learning anEncoder that Classifies Token Replacements Accurately)及对抗生成网络的原理构建。修正模型中包括经过预先训练确定的第一修正算法。利用该第一修正算法,可以对所述第一错误信息进行修正。本实施例中,对于修正模型的结构以及第一修正算法的训练和运算过程不作限定,任何能够实现相同或类似功能的技术方案均可结合在本实施例整体方案中。
在确定了第一错误信息对应的第一位置信息(即标记所述第一错误序列码后的所述第一字符序列01001)之后,修正模型首先可以从中确定所述第一错误信息中的第一错误序列码,即确定两个第一错误序列码“1”分别位于序列的第2位和第5位。因此可以根据所述第一错误序列码,确定所述第一文本信息中的第一错误字符。也就是,根据第一错误序列码的位置,确定出第一文本信息中的第2和第5个字符(即“近”和“木”),为第一文本信息中的第一错误字符。
然后,修正模型可利用所述第一修正算法,对上述的第一错误字符进行修正,自动将其替换为正确的字符(即“进”和“术”)。从而修正后的第一文本信息为正确的文本信息“未进行手术”,即得到第二文本信息。
至此,本实施例实现了对于文本信息的自动修正。通过以上技术方案可知,本实施例存在的有益效果是:通过识别模型确定第一文本信息的错误位置,并利用修正模型对第一文本信息中的错误进行修正,从而实现了自动修正医学文本中可能出现的第一错误信息,提高数字化的医学文本的质量,确保后续数据分析的准确性。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述文本修正方法中涉及到的,针对第一识别算法和第一修正算法的数据训练过程。
本实施例中,将利用预设的样本集对所述识别模型和所述修正模型进行数据训练,以确定所述识别模型中的第一识别算法,和所述修正模型中的第一修正算法。需要说明的是,所述样本集中包括:多个样本文本组。每个样本组对应于一个特定的语句。样本集中样本文本组的来源,可以是患者检验检查表、住院/出院记录、各类医嘱、病程记录等医疗信息段落。
每个样本文本组中包括该特定语句对应的标准文本信息、替换文本信息和第二位置信息。其中,标准文本信息即该语句正确的文本。替换文本信息即该语句错误的写法。一个样本文本组中的替换文本信息可以包括多个。每个替换文本信息可根据预设的字典,以形近字或同音字替换掉标准文本信息中任意的字符,或者也可通过遮挡标准文本信息中任意的字符得到替换文本信息。替换文本信息相对于所述标准文本信息出现的错误,可称为第二错误信息。而所述第二位置信息中包括,所述第二错误信息在所述标准文本信息中的位置。
例如,一个样本文本组,针对的特定语句为“服用药物治疗”。则标准文本信息可以表示为X0,内容即“服用药物治疗”。以形近字替换掉标准文本信息中任意的字符可得到一个替换文本信息X1,内容为“服用药物冶疗”。以同音字替换掉标准文本信息中任意的字符可得到一个替换文本信息X2,内容为“服用要物治疗”。遮挡标准文本信息中任意的字符可得到替换文本信息X3,内容为“服用药物治(字符缺失)”。同理于图1实施例中对于第一错误信息的确定方式,本实施例中可分别对于替换文本信息X1、X2、X3得到相应的第二错误信息,即分别为(000010)、(001000)、(000001)。在此不重复叙述。
则所述针对第一识别算法和第一修正算法的数据训练过程包括以下步骤:
步骤201、利用预设的修正模型中的第二修正算法,根据所述替换文本信息对应第二位置信息,对所述替换文本信息中的第二错误信息进行修正,以获得第三文本信息。
修正模型中的第二修正算法是指未经过训练的初始的修正算法,或者尚未完成训练的修正算法。利用第二修正算法可以根据所述替换文本信息对应第二位置信息确定其中第二错误信息的位置,并针对第二错误信息对所述替换文本信息进行修正。修正后即得到第三文本信息。
实际上,因为此时对于修正模型的训练尚未完成,所以此时修正模型得到的第三文本信息不一定准确。若第三文本信息准确,则意味着其与标准文本信息内容一致。反之若二者内容不一致,则认为此次修正没有成功将所述替换文本信息还原成所述标准文本信息。进而,针对样本集中大量样本文本组进行修正后的正确率,也就体现了此时修正模型的收敛程度。
步骤202、利用识别模型中的第二识别算法,确定所述第三文本信息中的第三错误信息对应的第三位置信息。
在确定了第三文本信息之后,由识别模型判断此次修正是否成功将所述替换文本信息还原成所述标准文本信息。所述第二识别算法,同样是指未经过训练的初始的识别算法,或者尚未完成训练的识别算法。
如果识别模型通过第二识别算法的计算,认为所述第三文本信息中仍然存在错误,则可将其确定为第三错误信息,并同理的确定所述第三错误信息在所述第三文本信息中的第三位置信息。第三位置信息同样可以采用字符序列的形式体现。
同样,由于此时对于识别模型的训练也尚未完成,所以识别模型得到的第三位置信息也不一定准确。针对大量的第三文本信息得到第三位置信息的正确率,也就体现了此时识别模型的收敛程度。
步骤203、根据所述第三文本信息、第三位置信息和相应的标准文本信息,确定所述第二识别算法和所述第二修正算法的损失指数。
本步骤中,可根据标准文本信息分别于第三文本信息以及第三位置信息进行对照,从而确定识别模型和修正模型的输出结果是否正确。以及进一步的能够计算其在针对大量样本训练过程中的正确率以及损失程度。
本实施例中,可通过特定的损失函数计算识别模型和修正模型的损失指数,从而通过损失指数衡量识别模型和修正模型的收敛程度,以及确定二者的性能是否达标。损失函数具体可参考如下公式:
其中,x代表具体的某个样本文本组,X代表样本集。LG(x,θG)代表修正模型对应的部分损失函数,θG为第二修正算法的计算参数。LD(x,θD)代表识别模型对应的部分损失函数,θD为第二识别算法的计算参数,λ预设的权重系数。
则损失指数l此时可表示为:l=LG(x,θG)+λLD(x,θD)
步骤204、当所述损失指数满足预设条件,调整所述第二识别算法和所述第二修正算法中的计算参数。
结合上述可以认为,对于识别模型和修正模型的训练过程,即通过反复调整第二修正算法的计算参数θG,和第二识别算法的计算参数θD,使得损失指数l尽可能降低,由此使得识别模型和修正模型逐渐收敛,准确程度逐渐升高。
具体的,可以针对损失指数l设定相应的门限值L,当l>L,可认为损失指数满足预设条件,即损失指数过高,识别模型和修正模型尚未收敛。则此时调整第二修正算法的计算参数θG,和第二识别算法的计算参数θD。并不断重复上述过程,直到当l<L则认为训练过程完成。此时可将调整计算参数后的第二修正算法和第二识别算法,确定为第一修正算法和第一识别算法。
如图3所示,为本发明所述文本修正装置的一个具体实施例。本实施例所述装置,即用于执行图1~2所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
识别模块301,用于获取第一文本信息,对所述第一文本信息进行识别;在识别到所述第一文本信息中的第一错误信息时,生成所述第一错误信息对应的第一位置信息。
修正模块302,用于根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息。
另外在图3所示实施例的基础上,优选的所述识别模块301包括:
第一错误信息确定单元,用于在所述识别模型识别到所述第一文本信息中的第一错误字符时,将所述第一错误字符确定为所述第一错误信息。
标记单元,用于生成对应所述第一文本信息中各个字符的第一字符序列;并将所述第一字符序列中,与所述第一错误字符对应的序列码标记为第一错误序列码。
第一位置信息生成单元,用于将标记所述第一错误序列码后的所述第一字符序列,确定为所述第一错误信息对应的第一位置信息。
所述修正模块302包括:
第一错误序列码确定单元,用于确定所述第一错误信息中的第一错误序列码。
第一错误字符确定单元,用于根据所述第一错误序列码,确定所述第一文本信息中的第一错误字符。
修正单元,用于对所述第一文本信息中的第一错误字符进行修正。
优选的,所述装置还包括:
训练模块303(图3中未示出),用于利用预设的样本集对所述识别模块301和所述修正模块302进行数据训练,以确定所述识别模块301中的第一识别算法,和所述修正模块302中的第一修正算法。
所述样本集中包括:多个样本文本组;每个样本文本组中包括标准文本信息、替换文本信息和第二位置信息;所述第二位置信息中包括,所述替换文本信息相对于所述标准文本信息的第二错误信息的位置。
则所述训练模块303包括:
第三文本信息确定单元,用于利用预设的修正模块302中的第二修正算法,根据所述替换文本信息对应第二位置信息,对所述替换文本信息中的第二错误信息进行修正,以获得第三文本信息。
第三位置信息确定单元,用于利用识别模块301中的第二识别算法,确定所述第三文本信息中的第三错误信息对应的第三位置信息。
损失指数确定单元,用于根据所述第三文本信息、第三位置信息和相应的标准文本信息,确定所述第二识别算法和所述第二修正算法的损失指数。
参数调整单元,用于在所述损失指数满足预设条件时,调整所述第二识别算法和所述第二修正算法中的计算参数。
图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成文本修正装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的文本修正方法。
上述如本发明图3所示实施例提供的文本修正装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的文本修正方法,并具体用于执行如图1或图2所示的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种文本修正方法,其特征在于,包括:
获取第一文本信息,并利用预设的识别模型对所述第一文本信息进行识别;
当所述识别模型识别到所述第一文本信息中的第一错误信息,生成所述第一错误信息对应的第一位置信息;
利用预设的修正模型,根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息。
2.根据权利要求1所述方法,其特征在于,所述识别模型识别到所述第一文本信息中的第一错误信息,生成所述第一错误信息对应的第一位置信息包括:
当所述识别模型识别到所述第一文本信息中的第一错误字符,将所述第一错误字符确定为所述第一错误信息;
生成对应所述第一文本信息中各个字符的第一字符序列;并将所述第一字符序列中,与所述第一错误字符对应的序列码标记为第一错误序列码;
将标记所述第一错误序列码后的所述第一字符序列,确定为所述第一错误信息对应的第一位置信息。
3.根据权利要求2所述方法,其特征在于,所述利用预设的修正模型,根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正包括:
确定所述第一错误信息中的第一错误序列码;
根据所述第一错误序列码,确定所述第一文本信息中的第一错误字符;
对所述第一文本信息中的第一错误字符进行修正。
4.根据权利要求1所述方法,其特征在于,所述利用预设的识别模型对所述第一文本信息进行识别包括:
利用所述识别模型中经过预先训练确定的第一识别算法,对所述第一文本信息进行识别;
则所述利用预设的修正模型对所述第一错误信息进行修正包括;
利用所述修正模型中经过预先训练确定的第一修正算法,对所述第一错误信息进行修正。
5.根据权利要求4所述方法,其特征在于,所述方法还包括:
利用预设的样本集对所述识别模型和所述修正模型进行数据训练,以确定所述识别模型中的第一识别算法,和所述修正模型中的第一修正算法。
6.根据权利要求5所述方法,其特征在于,所述样本集中包括:多个样本文本组;
每个样本文本组中包括标准文本信息、替换文本信息和第二位置信息;所述第二位置信息中包括,所述替换文本信息相对于所述标准文本信息的第二错误信息的位置。
7.根据权利要求6所述方法,其特征在于,所述利用预设的样本集对所述识别模型和所述修正模型进行数据训练包括:
利用预设的修正模型中的第二修正算法,根据所述替换文本信息对应第二位置信息,对所述替换文本信息中的第二错误信息进行修正,以获得第三文本信息;
利用识别模型中的第二识别算法,确定所述第三文本信息中的第三错误信息对应的第三位置信息;
根据所述第三文本信息、第三位置信息和相应的标准文本信息,确定所述第二识别算法和所述第二修正算法的损失指数;
当所述损失指数满足预设条件,调整所述第二识别算法和所述第二修正算法中的计算参数。
8.一种文本修正装置,其特征在于,包括:
识别模块,用于获取第一文本信息,对所述第一文本信息进行识别;在识别到所述第一文本信息中的第一错误信息时,生成所述第一错误信息对应的第一位置信息;
修正模块,用于根据所述第一错误信息对应的第一位置信息,对所述第一错误信息进行修正,以获得第二文本信息。
9.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至7中任一权项所述的文本修正方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一权项所述的文本修正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252305.0A CN111178049B (zh) | 2019-12-09 | 2019-12-09 | 一种文本修正方法、装置、可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252305.0A CN111178049B (zh) | 2019-12-09 | 2019-12-09 | 一种文本修正方法、装置、可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178049A true CN111178049A (zh) | 2020-05-19 |
CN111178049B CN111178049B (zh) | 2023-12-12 |
Family
ID=70651983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911252305.0A Active CN111178049B (zh) | 2019-12-09 | 2019-12-09 | 一种文本修正方法、装置、可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178049B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832288A (zh) * | 2020-07-27 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
CN114387602A (zh) * | 2022-03-24 | 2022-04-22 | 北京智源人工智能研究院 | 医疗ocr数据优化模型训练方法、优化方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345581A (zh) * | 2017-01-24 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种信息识别方法、装置和终端设备 |
CN108491392A (zh) * | 2018-03-29 | 2018-09-04 | 广州视源电子科技股份有限公司 | 文字拼写错误的修正方法、系统、计算机设备及存储介质 |
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110162767A (zh) * | 2018-02-12 | 2019-08-23 | 北京京东尚科信息技术有限公司 | 文本纠错的方法和装置 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
-
2019
- 2019-12-09 CN CN201911252305.0A patent/CN111178049B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345581A (zh) * | 2017-01-24 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种信息识别方法、装置和终端设备 |
CN110162767A (zh) * | 2018-02-12 | 2019-08-23 | 北京京东尚科信息技术有限公司 | 文本纠错的方法和装置 |
CN108491392A (zh) * | 2018-03-29 | 2018-09-04 | 广州视源电子科技股份有限公司 | 文字拼写错误的修正方法、系统、计算机设备及存储介质 |
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832288A (zh) * | 2020-07-27 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
CN111832288B (zh) * | 2020-07-27 | 2023-09-29 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
CN114387602A (zh) * | 2022-03-24 | 2022-04-22 | 北京智源人工智能研究院 | 医疗ocr数据优化模型训练方法、优化方法及设备 |
CN114387602B (zh) * | 2022-03-24 | 2022-07-08 | 北京智源人工智能研究院 | 医疗ocr数据优化模型训练方法、优化方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111178049B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN109256216B (zh) | 医学数据处理方法、装置、计算机设备和存储介质 | |
WO2018040899A1 (zh) | 搜索词纠错方法及装置 | |
CN111753531A (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN110705302B (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN110807319A (zh) | 一种文本内容检测方法、检测装置、电子设备及存储介质 | |
CN110825857A (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN105046289B (zh) | 一种文字域类型识别方法和文字域类型识别系统 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111178049B (zh) | 一种文本修正方法、装置、可读介质及电子设备 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
WO2022242535A1 (zh) | 一种翻译方法、翻译装置、翻译设备以及存储介质 | |
CN110852098A (zh) | 一种数据修正方法及电子设备和存储介质 | |
CN114677689B (zh) | 一种文字图像识别纠错方法和电子设备 | |
CN109993190B (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
CN114065762A (zh) | 一种文本信息的处理方法、装置、介质及设备 | |
CN113988067A (zh) | 语句分词方法、装置及电子设备 | |
CN110929504B (zh) | 语句诊断方法、装置和系统 | |
CN112232347B (zh) | 基于概率矩阵的字符识别方法、装置、设备及存储介质 | |
CN112133284A (zh) | 一种医疗语音对话方法及装置 | |
KR20210097366A (ko) | Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법 | |
CN113468305B (zh) | 一种识别口语冗余成分的方法及装置 | |
CN113836921B (zh) | 纸质病例数据电子化方法、装置及电子设备 | |
CN113268977B (zh) | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230222 Address after: Room 304, Unit 1, Floor 4, Building 9, West District, No. 9 Courtyard, Linglong Road, Haidian District, Beijing, 100089 Applicant after: BEIJING YIYIYUN TECHNOLOGY Co.,Ltd. Address before: 301800 220-41, customs building, energy saving and environmental protection industrial zone, Baodi District, Tianjin Applicant before: TIANJIN HAPPINESS LIFE TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |