CN111931489B - 文本纠错方法、装置和设备 - Google Patents
文本纠错方法、装置和设备 Download PDFInfo
- Publication number
- CN111931489B CN111931489B CN202010742674.4A CN202010742674A CN111931489B CN 111931489 B CN111931489 B CN 111931489B CN 202010742674 A CN202010742674 A CN 202010742674A CN 111931489 B CN111931489 B CN 111931489B
- Authority
- CN
- China
- Prior art keywords
- corrected
- character string
- target
- text
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供了一种文本纠错方法、装置和设备,可用于金融领域或其他领域,其中,该方法包括:获取目标待纠错文本的字形编码;将所述目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到所述目标待纠错文本的待纠错字符串和所述候选字符串集中的目标候选字符串;在所述目标候选字符串在目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,根据所述目标候选字符串对所述目标待纠错文本进行修正;其中,所述成词分数用于表征字符串在文本中的合理性。在本申请实施例中,可以从字形角度高效地对利用人工智能技术得到的文本识别结果中错误识别为相似的文字的情况进行纠错。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本纠错方法、装置和设备。需要说明的是,本申请公开的文本纠错方法、装置和设备可用于金融领域,也可用于除金融领域之外的任意领域,本申请公开的文本纠错方法、装置和设备的应用领域不做限定。
背景技术
目前,随着人工智能技术的快速发展,人工智能技术在各行业中已经得到了深入应用。可以利用人工智能技术基于图像识别对报表、票据等进行文字抽取,也可以基于文本要素抽取法律文书中的实体。人工智能技术的使用能够大大节省公司人力,并提高了业务办理的效率,同时为客户带来更好的业务办理体验。
在利用人工智能技术对报表、票据进行文字抽取或者对法律文书等进行要素实体抽取时,对于一些高度相似性(如閏和閠、冺和泯等)文字,可能会存在误识的情况,从而无法保证识别的准确性。因此,现有技术中在利用人工智能技术得到文本识别结果后还需要相关人员进行复核,以避免将报表、票据等中的文字错误识别为相似的文字。采用人工的复核方式需要相关人员耗费较多的时间,效率较慢,无法实时反馈文本识别结果。由此可见,采用现有技术中的技术方案无法高效地对利用人工智能技术得到的文本识别结果进行纠错。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本纠错方法、装置和设备,以解决现有技术中无法高效地对利用人工智能技术得到文本识别结果进行纠错的问题。
本申请实施例提供了一种文本纠错方法,包括:获取目标待纠错文本的字形编码;将所述目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到所述目标待纠错文本的待纠错字符串和所述候选字符串集中的目标候选字符串;在所述目标候选字符串在所述目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,根据所述目标候选字符串对所述目标待纠错文本进行修正;其中,所述成词分数用于表征字符串在文本中的合理性。
本申请实施例还提供了一种文本纠错装置,包括:获取模块,用于获取目标待纠错文本的字形编码和候选字符串集;字形匹配模块,用于将所述目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到所述目标待纠错文本的待纠错字符串和所述候选字符串集中的目标候选字符串;修正模块,用于在所述目标候选字符串在所述目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,根据所述目标候选字符串对所述目标待纠错文本进行修正;其中,所述成词分数用于表征字符串在文本中的合理性。
本申请实施例还提供了一种文本纠错设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述文本纠错方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述文本纠错方法的步骤。
本申请实施例提供了一种文本纠错方法,可以通过获取目标待纠错文本的字形编码,可以将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,从而可以得到目标待纠错文本中可能需要进行修正的待纠错字符串和待纠错字符串对应的目标候选字符串。进一步的,可以在目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,根据目标候选字符串对目标待纠错文本进行修正,从而可以从字形角度高效地对利用人工智能技术得到的文本识别结果中错误识别为相似的文字的情况进行纠错。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。在附图中:
图1是根据本申请实施例提供的文本纠错系统的结构示意图;
图2是根据本申请实施例提供的文本纠错方法的步骤示意图;
图3是根据本申请具体实施例提供的汉字银、很、佷、国的字形编码的示意图;
图4是根据本申请实施例提供的文本纠错装置的结构示意图;
图5是根据本申请实施例提供的文本纠错设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本申请公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
在本申请的一个场景示例中提供了一种文本纠错系统,如图1所示,可以包括:终端设备101、银行服务器102,用户可以通过终端设备101在银行系统中发起业务操作请求,银行服务器102可以基于用户发送的业务操作请求中包含的待识别的报表、票据或者法律文书等图像文件开始进行图像识别的任务,得到识别出的文本。可以将识别出的文本作为目标待纠错文本,并根据目标待纠错文本的字形编码和候选字符串集对目标待纠错文本进行修正。进一步的,还可以将修正后的目标待纠错文本反馈至上述终端设备101。
上述终端设备101可以是用户操作使用的终端设备或者软件。具体的,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备,也可以是机器人设备等等。当然,终端设备101也可以是能运行于上述终端设备中的软件。例如:银行系统应用、支付应用、浏览器、微信小程序等应用软件。
上述银行服务器102可以是单一的服务器,也可以是服务器集群,当然,服务器的功能也可以是通过云计算技术实现的。该银行服务器102可以与多个终端设备相连,也可以是具备一个强大的银行信息集库的服务器,可以执行图像识别的任务,并基于目标待纠错文本的字形编码和候选字符串集对目标待纠错文本进行修正。
请参阅图2,本实施方式可以提供一种文本纠错方法。该文本纠错方法可以基于目标待纠错文本的字形编码和候选字符串集对目标待纠错文本进行修正。上述文本纠错方法可以包括以下步骤。
S201:获取目标待纠错文本的字形编码。
由于汉字属于象形文字,和拉丁语系有着截然不同的表现形式,拉丁文字表意发音,而象形文字则是表意文字。并且使用图像识别技术抽取文字是根据字形来进行识别的,对于字形比较相近的文字的识别存在较大难度。因此,在本实施方式中,可以获取目标待纠错文本的字形编码,上述字形编码就是将字形变为编码符号,从而可以利用字形编码表征文字的字形特征。
在本实施方式中,上述目标待纠错文本可以为利用图像识别技术识别得到的文本,由于利用图像识别技术识别得到的文本中可能存在将文字错误识别为相似的文字的情况,因此,可以将识别得到的文本作为目标待纠错文本。
在一个实施方式中,还可以获取候选字符串集,上述候选字符串集中可以包含至少一个与上述目标待纠错文本相关的候选字符串和候选字符串对应的字形编码。与上述目标待纠错文本相关的候选字符串可以为包含与目标待纠错文本中的至少一个文字相似的文字的字符串或者包含目标待纠错文本中文字字符串。例如:目标待纠错文本为“年华收益率”,与“年华收益率”相关的候选字符串可以包括:与“年”相关的候选字符串“年化收益率、上年同期、上年年末余额等”、与“华”相关的候选字符串“年化收益率、经济一体化、个股分化等”、与“收益”相关的候选字符串、与“率”相关的候选字符串、与“收益率”相关的候选字符串等。
在本实施方式中,还可以根据目标待纠错文本的字形编码确定与上述目标待纠错文本相关的候选字符串,例如:目标待纠错文本中年的字形编码是7F42280500,则可以根据字形编码“7F42280500”搜索包含与该字形编码相似的字形编码对应的字符串。可以理解的是,在一些实施例中还可以采用其它方式确定与目标待纠错文本相关的候选字符串,具体的可以根据实际情况确定,本申请对此不作限定
在本实施方式中,获取候选字符串集的方式可以包括:从预设数据库中根据目标待纠错文本搜索得到的,或者,可以按照预设路径查询得到。其中,上述预设数据库可以为银行中用于存储数据的语料库,上述预设数据库中可以存储有:实体名称(例如:金融专业词汇、公司名称、企业简称等)、历史识别得到的文本和字符串等。可以为当然可以理解的是,还可以采用其它可能的方式获取上述样本数据集,例如,在网页中按照一定的查找条件搜索候选字符串,具体的可以根据实际情况确定,本申请对此不作限定。
在一个实施方式中,为了保证纠错的效率、减少不必要的匹配,可以限制搜索得到的候选字符串的数量。因此,可以预先确定上述候选字符串集中的每组候选字符串的词频-逆文档频率(TF-IDF,Term Frequency–Inverse Document Frequency)。在一个实施方式中,可以仅保留TF-IDF分值大于预先设定的阈值的候选字符串。在一个实施方式中,在大于预先设定的阈值的候选字符串较多的情况下,也可以根据TF-IDF分值进行降序排列,保留排序前预设数量的候选字符串。具体采用何种方式选取候选字符串可以根据实际情况确定,本申请对此不作限定。
在本实施方式中,TF-IDF是一种统计方法,可以用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
S202:将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到目标待纠错文本的待纠错字符串和候选字符串集中的目标候选字符串。
在本实施方式中,由于可能会存在将文字错误识别为相似的文字的情况,因此,可以将目标待纠错文本可以将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,从而得到目标待纠错文本的待纠错字符串和候选字符串集中的目标候选字符串。
在本实施方式中,由于目标待纠错文本中并非每一个字均需要纠错,因此,可以将目标待纠错文本可以将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,从而匹配得到与目标待纠错文本中可能需要纠错的待纠错字符串,以及与待纠错字符串相似度较高的目标候选字符串。
在本实施方式中,可以理解的是,由于目标待纠错文本中包含至少一个字符串,因此匹配得到的待纠错字符串也可以为至少一个。例如:目标待纠错文本为“本年度年华收益率”时,上述待纠错字符串可以包括:本年度、年化、年化收益率等,具体的可以根据实际情况确定,本申请对此不作限定。
在一个实施例中,可以基于目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码之间的字形相似度来进行字形匹配,当两个字的字形相似度大于第一预设阈值的时候可以认为是有效匹配,从而能够匹配出可能需要纠错的相似字符串。例如:可以使用候选字符串“准备金”从目标待纠错文本“提取保险合同准各金净额”中匹配得到可以需纠错的字符串“准各金”。
S203:在目标候选字符串在目标待纠错文本中的成词分数大于待纠错字符串在目标待纠错文本中的成词分数的情况下,根据目标候选字符串对目标待纠错文本进行修正;其中,成词分数用于表征字符串在文本中的合理性。
在本实施方式中,在目标候选字符串在目标待纠错文本中的成词分数大于待纠错字符串在目标待纠错文本中的成词分数的情况下,则说明相较于待纠错字符串,目标候选字符串在目标待纠错文本中更为合理,即说明待纠错字符串存在错误识别的情况,需要根据目标候选字符串对目标待纠错文本进行修正。
在本实施方式中,目标候选字符串对目标待纠错文本进行修正可以为将目标待纠错文本中的目标待纠错字符串替换为目标候选字符串,例如,将“本年度年华收益率计算方式”中的“年华收益率”替换为“年化收益率”。当然可以理解的是,还可以采用其它方式对目标待纠错文本进行修正,例如,将目标待纠错字符串中的部分文字替换为目标候选字符串中的部分文字,具体的可以根据实际情况确定本申请对此不作限定。
在一个实施方式中,为了确定是否需要针对待纠错字符串进行纠错,可以确定待纠错字符串在目标待纠错文本中的成词分数是否大于目标候选字符串在目标待纠错文本中的成词分数。其中,上述成词分数可以用于表征字符串在文本中的合理性。
在本实施方式中,上述待纠错字符串在目标待纠错文本中的成词分数可以为目标待纠错文本本身的成词分数,上述目标候选字符串在目标待纠错文本中的成词分数可以为将目标待纠错文本中的待纠错字符串替换为目标候选字符串后的文本的成词分数。
在本实施方式中,可以根据待纠错字符串在目标待纠错文本中的起始位置和结束位置,将目标待纠错文本中的待纠错字符串替换为目标候选字符串。例如:目标待纠错文本为“本年度年华收益率计算方式”,目标候选字符串为“年化收益率”,待纠错字符串为“年华收益率”,从而可以分别确定“本年度年华收益率计算方式”和“本年度年化收益率计算方式”的成词分数。
在一个实施方式中,可以按照下述程序计算目标候选字符串在目标待纠错文本中的成词分数,其中,entity为目标候选字符串,sentence为目标待纠错文本,startIndex为目标候选字符串在目标待纠错文本中的起始位置,endIndex为目标候选字符串在目标待纠错文本中的结束位置。下述程序中可以从四个维度计算成词分数,分别是:起始位置至结束位置、起始位置之前、结束位置之后以及起始位置之后,上述任意一个维度对应的字符串中可以组成一个词均可以加1分,最终输出目标候选字符串在目标待纠错文本中的成词分数。计算目标候选字符串在目标待纠错文本中的成词分数的程序如下所示:
设定
Entity:目标候选字符串
Sentence:目标待纠错文本
相似实体匹配结果为:
以“本年度年化收益率计算方式”为例,上述四个维度中包含三个词“本年度、年化收益率、计算方式”,所以分数为3,输出结果为:wordCal(本年度年化收益率计算方式,entity)=3。
从以上的描述中,可以看出,本申请实施例实现了如下技术效果:可以通过获取目标待纠错文本的字形编码和候选字符串集,以获取至少一个与目标待纠错文本相关的候选字符串和候选字符串对应的字形编码。可以将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,从而可以得到目标待纠错文本中可能需要进行修正的待纠错字符串和待纠错字符串对应的目标候选字符串。进一步的,可以确定目标候选字符串在目标待纠错文本中的成词分数是否大于待纠错字符串在目标待纠错文本中的成词分数,其中,成词分数用于表征字符串在文本中的合理性。在目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,可以根据目标候选字符串对目标待纠错文本进行修正,从而可以从字形角度高效地对利用人工智能技术得到的文本识别结果中错误识别为相似的文字的情况进行纠错。
在一个实施方式中,在获取目标待纠错文本的字形编码之前,可以接收纠错请求数据,其中,纠错请求数据中包含识别得到的第一文本。可以对第一文本进行预处理,得到第二文本,并对第二文本进行分组,得到多个第三文本。进一步的,可以将多个第三文本中的目标第三文本作为目标待纠错文本,并对目标待纠错文本中的各个字进行编码,得到目标待纠错文本的字形编码。
在本实施方式中,上述第一文本可以为利用图像识别技术识别得到的文本。上述预处理可以包括:分词、去停用词等,进行去停用词可以将第一文本中的无效字符和无意义字符进行过滤,从而可以得到预处理后的第二文本。
在本实施方式中,由于上述第二文本可能是为一段文字包含较多的字符,如果直接对第二文本进行处理可能降低处理效率,因此,可以对第二文本进行分组并编号,从而可以将第二文本拆分为多个第三文本。在一个实施例中,为了提高数据处理效率,可以将上述多个第三文本分别分发到不同的服务器中并行处理,最后可以根据编号再将处理后的多个第三文本组合起来,从而可以得到预处理后的第二文本的文本纠错结果。
在一个实施方式中,在目标待纠错文本的字形编码之前,可以确定目标待纠错文本中包含的各个字、实体名称和各个字对应的字形编码,从而可以从字、字形两个维度搜索候选字符串。可以根据目标待纠错文本中包含的各个字,从预设数据库中获取第一字符串集,其中,第一字符串集中包含与各个字相关的至少一个第一候选字符串和第一候选字符串对应的第一字形编码。
进一步的,可以根据各个字对应的字形编码,从预设数据库中获取第二字符串集,其中,第二字符串集中包含与各个字对应的字形编码相关的至少一个第二字符编码和第二字符编码对应的第二候选字符串。可以根据目标待纠错文本中包含的实体名称,从预设数据库中获取第三字符串集,其中,第三字符串集中包含与实体名称相关的至少一个第三候选字符串和第三候选字符串对应的第三字形编码,从而可以根据上述第一字符串集、第二字符串集和第三字符串集生成候选字符串集。
在本实施方式中,上述实体可以为文本中承载信息的重要语言单位,例如:人名、地名、企业名等。在一个实施例中,上述实体名称可以为:金融专业词汇、公司名称、企业简称等,具体的可以根据实际情况确定,本申请对此不作限定。
在一个实施方式中,为了能够在字形上区分不同的汉字,并能够正确、有效地在编码上表示不同汉字之间的字形相似性,解决图像识别服务中存在的误识问题,可以从字体结构、四角编码、笔画数和部首四个维度来进行编码。在一个实施例中,对汉字银、很、佷、国的字形编码可以如图3中所示。
在本实施方式中,上述四角编码是根据汉字所含的单笔或复笔对汉字进行编号,取汉字的左上角、右上角、左下角以及右下角四个角的笔形,将汉字转化成最多五位的阿拉伯数字,四角编码格式可以如表1中所示。
表1
编码 | 例字 |
10000 | 一 |
10200 | 丁 |
10027 | 丂 |
60105 | 量 |
60105 | 日 |
77440 | 双 |
72277 | 凶 |
87732 | 银 |
27232 | 很 |
27232 | 佷 |
60103 | 国 |
88104 | 坐 |
... | ... |
在本实施方式中,上述四角编码由于只取汉字的四角笔形,有些外形截然不同的汉字,因为四角结构相同,也会具有相同的四角编码。例如,量:60105、日:60105、很:27232、佷:27232等,因此,仅仅使用四角编码是无法正确区分两个不同的汉字的。
在本实施方式中,字体结构可以表示汉字的结构形式,分为独体字、左右结构和上下结构等,上述字体结构编码可以如表2中所示。
表2
在本实施方式中,上述笔画数可以用于表征汉字的复杂程度,一共笔画数越多,汉字结构也就越复杂。上述部首可以是指汉字的偏旁结构,汉字目前共有100多个部首,部首编码可以如表3中所示。
表3
在一个实施例中,将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到目标待纠错文本的待纠错字符串和候选字符串集中的目标候选字符串,可以包括:分别获取目标待纠错文本的结构编码、四角编码、笔画编码和部首编码的权重因子,并根据目标待纠错文本的结构编码、四角编码、笔画编码和部首编码的权重因子,确定目标待纠错文本中各个字的字形编码与各个候选字符串中各个字的字符编码之间的字形相似度。
进一步的,可以基于KMP算法,根据目标待纠错文本中各个字的字形编码与各个候选字符串中各个字的字符编码之间的字形相似度进行字形匹配,得到匹配结果。其中,上述匹配结果可以包括:目标待纠错文本中与各个候选字符串中各个字的字符编码之间的字形相似度大于等于第一预设阈值的至少一个待纠错字符串、待纠错字符串对应的目标候选字符串和目标候选字符串在目标待纠错文本中的起始位置。
在本实施方式中,上述结构编码、四角编码、笔画编码和部首编码的权重因子可以如表4中所示,根据表4中的权重因子,单字字形的相似度可以按照以下公式计算:
simAB=diff(wordA,wordB)×ω
=0.2×diff(pA1,pB1)+0.6×diff(pA2,pB2)+0.15×diff(pA3,pB3)+0.05×diff(pA4,pB4)
其中,ω为权重因子;diff(wordA,wordB)为两个汉字之间的编码位计算,乘以ω即为字形相似度;simAB为汉字A和汉字B之间的字形相似度;pA1为汉字A的结构编码;pB1为汉字B的结构编码;pA2为汉字A的四角编码;pB2为汉字B的四角编码;pA3为汉字A的笔画编码;pB3为汉字B的笔画编码;pA4为汉字A的部首编码;pB4为汉字B的部首编码;0.2×diff(pA1,pB1)为汉字A与汉字B的结构编码之间的相似度;0.6×diff(pA2,pB2)为汉字A与汉字B的四角编码之间的相似度;0.15×diff(pA3,pB3)为汉字A与汉字B的笔画编码之间的相似度;0.05×diff(pA4,pB4)为汉字A与汉字B的部首编码之间的相似度。
表4
在本实施方式中,上述diff函数是编码位的计算,其中,如果是笔画数编码位则使用diffStroke函数计算以将笔画数归一化处理,如果为其他编码位则使用diffEncode函数计算,具体的可以根据实际情况确定,本申请对此不作限定。
在一个实施例中,根据上述字形码编码方式,银字的字形编码为187732BK,很字的字形编码为1272329C,国字的字形编码为5601038I。银与很、银与国之间的字形相似度可以按照以下公式计算:
sim(银,很)=diff(187732BK,1272329C)×ω
=0.2×1+0.6×(0+1+1+1+1)/5+0.15×(1-(11-9)/11)+0.05×0
=0.7536
sim(银,国)=diff(187732BK,5601038I)×ω
=0.2×0+0.6×(0+0+0+0+0)/5+0.15×(1-(11-8)/11)+0.05×0
=0.1091
在本实施例中,根据上述计算结果可知从字形上银和很的相似度为0.7536,比较相近,而银和国的相似度为0.1091,相差较大。
在本实施方式中,在进行匹配之前可以记录待纠错文本、候选字符串的字符串长度。上述KMP算法是一种字符串匹配算法,是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现是通过一个next()函数实现,next()函数本身包含了模式串的局部匹配信息。
在本实施方式中,可以对KMP算法进行改进,以使在两个字的字形相似度大于第一预设阈值的时候则认为是有效匹配,从而能够匹配出需要纠错的字符串。例如,可以利用候选字符串“准备金”从“待纠错文本提取保险合同准各金净额”匹配得到待纠错字符串“准各金”,利用改进后的KMP算法进行匹配的程序代码可以如下所示:
设定
matchChars:实体名称字符列表
ssc:字形相似度计算工具
res:用于匹配计算的next矩阵
threshold:字形相似度阈值
记录跳转状态的next数组为:
在本实施方式中,上述第一预设阈值可以为大于0的数值,例如:0.7、0.82等,具体的可以根据实际情况确定,本申请对此不作限定。上述待纠错字符串在目标待纠错文本中的起始位置,可以为待纠错字符串中第一个文字在目标待纠错文本中的位置,例如:“准备金”在“提取保险合同准各金净额”中的起始位置为6。
在本实施方式中,上述匹配结果中还可以包括:目标候选字符串的长度、目标候选字符串在目标待纠错文本中的结束位置和待纠错文本,具体的可以根据实际情况确定,本申请对此不作限定。
在一个实施方式中,在确定待纠错字符串在目标待纠错文本中的成词分数是否大于目标候选字符串在目标待纠错文本中的成词分数之前,可以根据匹配结果生成候选纠错数据集,其中,候选纠错数据集中包括至少一组候选纠错数据,每组候选纠错数据包括:待纠错字符串、待纠错字符串对应的目标候选字符串、目标候选字符串的长度、目标候选字符串在目标待纠错文本中的起始位置和结束位置。
进一步的,可以确定候选纠错数据集中待纠错字符串与待纠错字符串对应的目标候选字符串之间的相似度大于等于第二预设阈值的至少一组目标候选纠错数据,并确定目标候选纠错数据中待纠错字符串在目标待纠错文本中的成词分数和目标候选字符串在目标待纠错文本中的成词分数。
在本实施方式中,上述相似度为字符串之间的相似度,字符串之间的相似度是所有字的字形相似度的和求平均的值。上述第一预设阈值可以为大于0的数值,例如:0.72、0.8等,具体的可以根据实际情况确定,本申请对此不作限定。
假设entityA为候选实体,entityB为用户输入中的待纠错字符串,则相似度计算公式为:
其中,ω为权重因子;diff(entityA,entityB)为两个字符串之间的编码位计算,乘以权重W即为字符串之间的相似度simAB;sum()为求和;diff(wordA,wordB)为两个汉字之间的编码位计算,乘以ω即为字形相似度;dis(entityA)为字符串A的长度;wordA为组成entityA中的字;wordB为组成entityB中的字。
在本实施方式中,可以对候选纠错数据集中各组候选纠错数据进行排序,以便后续的处理,具体的,可以根据目标候选字符串在目标待纠错文本中的起始位置和目标候选字符串的长度进行排序。
在一个实施方式中,根据目标候选字符串对目标待纠错文本进行修正可以包括:确定待纠错字符串中的目标待纠错字符串对应的目标候选字符串是否唯一,在目标待纠错字符串对应的目标候选字符串唯一的情况下,可以将目标待纠错文本中的目标待纠错字符串直接替换为目标候选字符串。
在目标待纠错字符串对应的目标候选字符串不唯一的情况下,确定多个目标候选字符串在待纠错文本中是否存在交叉重叠的字符,如果存在交叉重叠的字符则将目标待纠错文本中的目标待纠错字符串替换为多个目标候选字符串中成词分数最高的目标候选字符串。
在一个实施方式中,由于待纠错文本可能对应有多个待纠错字符串,各个待纠错字符串之间可能会存在交叉重叠的字符,因此,在对目标待纠错文本进行修正前,可以先确定各个待纠错字符串对应的目标候选字符串之间是否存在交叉重叠的字符,对于存在交叉重叠的目标候选字符串,选择成词分数较高的目标候选字符串对目标待纠错文本进行修改。例如,目标待纠错文本为“提取保险合同准各金净额”,目标候选字符串包括:“准备金”、“基金”,替换的开始位置分别为6和7,这两个要替换的位置是有重叠的部分的,“准备金”的成词分数是4,“基金”的成词分数是2,选择使用“准备金”进行修正更合理。
基于同一发明构思,本申请实施例中还提供了一种文本纠错装置,如下面的实施例。由于文本纠错装置解决问题的原理与文本纠错方法相似,因此文本纠错装置的实施可以参见文本纠错方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图4是本申请实施例的文本纠错装置的一种结构框图,如图4所示,可以包括:获取模块401、字形匹配模块402、修正模块403,下面对该结构进行说明。
获取模块401,可以用于获取目标待纠错文本的字形编码;
字形匹配模块402,可以用于将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到目标待纠错文本的待纠错字符串和候选字符串集中的目标候选字符串;
修正模块403,可以用于在目标候选字符串在目标待纠错文本中的成词分数大于待纠错字符串在目标待纠错文本中的成词分数的情况下,根据目标候选字符串对目标待纠错文本进行修正;其中,成词分数用于表征字符串在文本中的合理性。
本申请实施方式还提供了一种电子设备,具体可以参阅图5所示的基于本申请实施例提供的文本纠错方法的电子设备组成结构示意图,电子设备具体可以包括输入设备51、处理器52、存储器53。其中,输入设备51具体可以用于输入目标待纠错文本的字形编码。处理器52具体可以用于获取目标待纠错文本的字形编码;将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到目标待纠错文本的待纠错字符串和候选字符串集中的目标候选字符串;在目标候选字符串在目标待纠错文本中的成词分数大于待纠错字符串在目标待纠错文本中的成词分数的情况下,根据目标候选字符串对目标待纠错文本进行修正;其中,成词分数用于表征字符串在文本中的合理性。存储器53具体可以用于存储成词分数等参数。
在本实施方式中,输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。输入设备还可以获取接收其他模块、单元、设备传输过来的数据。处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。存储器具体可以是现代信息技术中用于保存信息的记忆设备。存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该电子设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本申请实施方式中还提供了一种基于文本纠错方法的计算机存储介质,计算机存储介质存储有计算机程序指令,在计算机程序指令被执行时可以实现:获取目标待纠错文本的字形编码;将目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到目标待纠错文本的待纠错字符串和候选字符串集中的目标候选字符串;在目标候选字符串在目标待纠错文本中的成词分数大于待纠错字符串在目标待纠错文本中的成词分数的情况下,根据目标候选字符串对目标待纠错文本进行修正;其中,成词分数用于表征字符串在文本中的合理性。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
虽然本申请提供了如上述实施例或流程图的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。的方法的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本申请的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种文本纠错方法,其特征在于,包括:
获取目标待纠错文本的字形编码;
将所述目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到所述目标待纠错文本的待纠错字符串和所述候选字符串集中的目标候选字符串;
在所述目标候选字符串在所述目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,根据所述目标候选字符串对所述目标待纠错文本进行修正;其中,所述成词分数用于表征字符串在文本中的合理性;
在获取目标待纠错文本的字形编码之前,还包括:
确定所述目标待纠错文本中包含的各个字、实体名称和所述各个字对应的字形编码;
根据所述目标待纠错文本中包含的各个字,从预设数据库中获取第一字符串集;其中,所述第一字符串集中包含与所述各个字相关的至少一个第一候选字符串和所述第一候选字符串对应的第一字形编码;
根据所述各个字对应的字形编码,从所述预设数据库中获取第二字符串集;其中,所述第二字符串集中包含与所述各个字对应的字形编码相关的至少一个第二字符编码和所述第二字符编码对应的第二候选字符串;
根据所述目标待纠错文本中包含的实体名称,从所述预设数据库中获取第三字符串集;其中,所述第三字符串集中包含与所述实体名称相关的至少一个第三候选字符串和所述第三候选字符串对应的第三字形编码;
根据所述第一字符串集、第二字符串集和第三字符串集生成所述候选字符串集。
2.根据权利要求1所述的方法,其特征在于,在获取目标待纠错文本的字形编码之前,还包括:
接收纠错请求数据,其中,所述纠错请求数据中包含识别得到的第一文本;
对所述第一文本进行预处理,得到第二文本;
对所述第二文本进行分组,得到多个第三文本;
将所述多个第三文本中的目标第三文本作为目标待纠错文本;
对所述目标待纠错文本中的各个字进行编码,得到所述目标待纠错文本的字形编码。
3.根据权利要求1所述的方法,其特征在于,所述目标待纠错文本的字形编码包括:所述目标待纠错文本的结构编码、四角编码、笔画编码和部首编码。
4.根据权利要求3所述的方法,其特征在于,将所述目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到所述目标待纠错文本的待纠错字符串和所述候选字符串集中的目标候选字符串,包括:
分别获取所述目标待纠错文本的结构编码、四角编码、笔画编码和部首编码的权重因子;
根据所述目标待纠错文本的结构编码、四角编码、笔画编码和部首编码的权重因子,确定所述目标待纠错文本中各个字的字形编码与各个候选字符串中各个字的字符编码之间的字形相似度;
基于KMP算法,根据所述目标待纠错文本中各个字的字形编码与各个候选字符串中各个字的字符编码之间的字形相似度进行字形匹配,得到匹配结果;其中,所述匹配结果包括:所述目标待纠错文本中与所述各个候选字符串中各个字的字符编码之间的字形相似度大于等于第一预设阈值的至少一个待纠错字符串、待纠错字符串对应的目标候选字符串和目标候选字符串在目标待纠错文本中的起始位置。
5.根据权利要求4所述的方法,其特征在于,在根据所述目标候选字符串对所述目标待纠错文本进行修正之前,还包括:
根据所述匹配结果生成候选纠错数据集;其中,所述候选纠错数据集中包括至少一组候选纠错数据,每组候选纠错数据包括:待纠错字符串、待纠错字符串对应的目标候选字符串、目标候选字符串的长度、目标候选字符串在目标待纠错文本中的起始位置和结束位置;
确定所述候选纠错数据集中待纠错字符串与待纠错字符串对应的目标候选字符串之间的相似度大于等于第二预设阈值的至少一组目标候选纠错数据;
确定所述目标候选纠错数据中待纠错字符串在所述目标待纠错文本中的成词分数和目标候选字符串在所述目标待纠错文本中的成词分数。
6.根据权利要求5所述的方法,其特征在于,根据所述目标候选字符串对所述目标待纠错文本进行修正,包括:
在目标待纠错字符串对应的目标候选字符串唯一的情况下,将所述目标待纠错文本中的所述目标待纠错字符串替换为所述目标候选字符串;
在所述目标待纠错字符串对应的目标候选字符串不唯一的情况下,确定多个目标候选字符串在所述待纠错文本中是否存在交叉重叠的字符;
在存在交叉重叠的字符的情况下,将所述目标待纠错文本中的所述目标待纠错字符串替换为所述多个目标候选字符串中成词分数最高的目标候选字符串。
7.一种文本纠错装置,其特征在于,包括:
获取模块,用于获取目标待纠错文本的字形编码和候选字符串集;
字形匹配模块,用于将所述目标待纠错文本的字形编码与候选字符串集中各个候选字符串的字符编码进行字形匹配,得到所述目标待纠错文本的待纠错字符串和所述候选字符串集中的目标候选字符串;
修正模块,用于在所述目标候选字符串在所述目标待纠错文本中的成词分数大于所述待纠错字符串在所述目标待纠错文本中的成词分数的情况下,根据所述目标候选字符串对所述目标待纠错文本进行修正;其中,所述成词分数用于表征字符串在文本中的合理性;
所述装置还用于:
在获取目标待纠错文本的字形编码之前,确定所述目标待纠错文本中包含的各个字、实体名称和所述各个字对应的字形编码;
根据所述目标待纠错文本中包含的各个字,从预设数据库中获取第一字符串集;其中,所述第一字符串集中包含与所述各个字相关的至少一个第一候选字符串和所述第一候选字符串对应的第一字形编码;
根据所述各个字对应的字形编码,从所述预设数据库中获取第二字符串集;其中,所述第二字符串集中包含与所述各个字对应的字形编码相关的至少一个第二字符编码和所述第二字符编码对应的第二候选字符串;
根据所述目标待纠错文本中包含的实体名称,从所述预设数据库中获取第三字符串集;其中,所述第三字符串集中包含与所述实体名称相关的至少一个第三候选字符串和所述第三候选字符串对应的第三字形编码;
根据所述第一字符串集、第二字符串集和第三字符串集生成所述候选字符串集。
8.一种文本纠错设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742674.4A CN111931489B (zh) | 2020-07-29 | 2020-07-29 | 文本纠错方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742674.4A CN111931489B (zh) | 2020-07-29 | 2020-07-29 | 文本纠错方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931489A CN111931489A (zh) | 2020-11-13 |
CN111931489B true CN111931489B (zh) | 2023-08-08 |
Family
ID=73315531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010742674.4A Active CN111931489B (zh) | 2020-07-29 | 2020-07-29 | 文本纠错方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931489B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784581B (zh) * | 2020-11-20 | 2024-02-13 | 网易(杭州)网络有限公司 | 文本纠错方法、装置、介质及电子设备 |
CN112380842A (zh) * | 2020-11-25 | 2021-02-19 | 北京明略软件系统有限公司 | 人名纠错方法、装置、计算机设备和可读存储介质 |
CN112528633A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN112766236B (zh) * | 2021-03-10 | 2023-04-07 | 拉扎斯网络科技(上海)有限公司 | 文本生成方法、装置、计算机设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528532A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
CN107436691A (zh) * | 2016-05-26 | 2017-12-05 | 北京搜狗科技发展有限公司 | 一种输入法进行纠错的方法、客户端、服务器及装置 |
CN110134936A (zh) * | 2018-02-08 | 2019-08-16 | 北京搜狗科技发展有限公司 | 一种分词方法、装置及电子设备 |
CN111310443A (zh) * | 2020-02-12 | 2020-06-19 | 新华智云科技有限公司 | 一种文本纠错方法和系统 |
-
2020
- 2020-07-29 CN CN202010742674.4A patent/CN111931489B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436691A (zh) * | 2016-05-26 | 2017-12-05 | 北京搜狗科技发展有限公司 | 一种输入法进行纠错的方法、客户端、服务器及装置 |
CN106528532A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
CN110134936A (zh) * | 2018-02-08 | 2019-08-16 | 北京搜狗科技发展有限公司 | 一种分词方法、装置及电子设备 |
CN111310443A (zh) * | 2020-02-12 | 2020-06-19 | 新华智云科技有限公司 | 一种文本纠错方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111931489A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931489B (zh) | 文本纠错方法、装置和设备 | |
Van Strien et al. | Assessing the impact of OCR quality on downstream NLP tasks | |
Drobac et al. | Optical character recognition with neural networks and post-correction with finite state methods | |
US9785830B2 (en) | Methods for automatic structured extraction of data in OCR documents having tabular data | |
JP5710624B2 (ja) | 抽出のための方法及びシステム | |
CN108280051B (zh) | 一种文本数据中错误字符的检测方法、装置和设备 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN105373365A (zh) | 用于管理关于近似串匹配的档案的方法和系统 | |
Bai et al. | Keyword spotting in document images through word shape coding | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查系统 | |
CN109582787B (zh) | 一种火力发电领域语料数据的实体分类方法及装置 | |
US11663408B1 (en) | OCR error correction | |
AU2021409859A1 (en) | Transaction data processing systems and methods | |
JP2003524258A (ja) | 電子ドキュメントを処理する方法および装置 | |
CN111914825A (zh) | 文字识别方法、装置及电子设备 | |
CN112650910A (zh) | 确定网站更新信息的方法、装置、设备和存储介质 | |
Dölek et al. | A deep learning model for Ottoman OCR | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
EP4264455A1 (en) | System and method for parsing regulatory and other documents for machine scoring | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
WO2022026908A1 (en) | Systems and methods for machine learning key-value extraction on documents | |
CA3156204A1 (en) | Domain based text extraction | |
Michael et al. | Htr engine based on nns p3 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
Kolle et al. | Extractive Summarization of Text from Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |