CN103257954A - 古籍中文字的校对方法、系统及校对服务器 - Google Patents

古籍中文字的校对方法、系统及校对服务器 Download PDF

Info

Publication number
CN103257954A
CN103257954A CN2013102228041A CN201310222804A CN103257954A CN 103257954 A CN103257954 A CN 103257954A CN 2013102228041 A CN2013102228041 A CN 2013102228041A CN 201310222804 A CN201310222804 A CN 201310222804A CN 103257954 A CN103257954 A CN 103257954A
Authority
CN
China
Prior art keywords
image block
word
word image
check
correction server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102228041A
Other languages
English (en)
Other versions
CN103257954B (zh
Inventor
詹君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310222804.1A priority Critical patent/CN103257954B/zh
Publication of CN103257954A publication Critical patent/CN103257954A/zh
Application granted granted Critical
Publication of CN103257954B publication Critical patent/CN103257954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种古籍中文字的校对方法,包括:校对服务器获得古籍图像并将古籍图像切分为多个字图像块;对每个字图像块进行识别,计算每个字图像块与标准字之间的相似度;当字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,对对应的字图像块进行聚类,并将对应的字图像块存储至标准字为索引的至少一个待选集合中;将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断;根据用户的判断结果对待选集合中的字图像块进行校对。本发明的实施例可有效地提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。本发明还提出了一种古籍中文字的校对系统及校对服务器。

Description

古籍中文字的校对方法、系统及校对服务器
技术领域
本发明涉及信息共享技术领域,特别涉及一种古籍中文字的校对方法、古籍中文字的校对系统及校对服务器。
背景技术
中国古代的古籍浩如烟海,但是绝大部分古籍都是以扫描图片的形式存在,由于古籍板式复杂,而且有大量的手写体存在,因此,导致目前对古籍的文字识别效果不好,且投入大产出小。
目前,互联网上有大量已经版权过期的中文图书、民国时期期刊的扫描件、以及已经有一些人工处理的电子本,但是大多质量不高,文字错误率较高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的第一个目的在于提出一种古籍中文字的校对方法,该方法可有效地提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
本发明的第二个目的在于提出一种古籍中文字的校对系统。
本发明的第三个目的在于提出一种校对服务器。
为了实现上述目的,本发明第一方面实施例提供了一种古籍中文字的校对方法,包括以下步骤:校对服务器获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字;所述校对服务器对所述每个字图像块进行识别,并计算每个字图像块与标准字之间的相似度;当所述字图像块与标准字之间的相似度大于第一预设值时,所述校对服务器将对应的字图像块存储至所述标准字为索引的优选集合中;当所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,所述校对服务器对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值;所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,以供所述客户端的用户进行判断;以及所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对。
根据本发明实施例的古籍中文字的校对方法,校对服务器通过将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断,并根据用户的判断结果对待选集合中的字图像块进行校对,可有效地对待选集合中的字图像块对应的文字进行校对,从而提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
另外,根据本发明上述实施例的古籍中文字的校对方法还可以具有如下附加的技术特征:
在一些示例中,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端进一步包括:所述校对服务器接收所述客户端发送的云输入请求;所述校对服务器根据所述云输入请求确定对应的索引词;所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端进一步包括:所述校对服务器接收所述客户端发送的搜索请求;所述校对服务器根据所述搜索请求确定对应的索引词;所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端进一步包括:所述校对服务器接收所述客户端发送的验证请求;所述校对服务器根据所述验证请求确定对应的索引词;所述校对服务器根据所述索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对进一步包括:所述校对服务器记录用户对所述字图像块的判断结果;当判断所述字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,所述校对服务器将所述字图像块存储至所述索引对应的优选集合中。
本发明第二方面的实施例提供了一种古籍中文字的校对系统,包括:校对服务器和客户端,其中,所述校对服务器用于获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字,并对所述每个字图像块进行识别,以计算每个字图像块与标准字之间的相似度,且当所述字图像块与标准字之间的相似度大于第一预设值时将对应的字图像块存储至所述标准字为索引的优选集合中,当所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值,并将所述待选集合中的字图像块及所述待选集合对应的索引提供至所述客户端,以及根据所述用户的判断结果对所述待选集合中的字图像块进行校对;所述客户端用于将所述待选集合中的字图像块及所述待选集合对应的索引提供给用户,以供所述用户进行判断,并将所述用户的判断结果提供给所述校对服务器。
根据本发明实施例的古籍中文字的校对系统,校对服务器通过将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断,并根据用户的判断结果对待选集合中的字图像块进行校对,可有效地对待选集合中的字图像块对应的文字进行校对,从而提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
另外,根据本发明上述实施例的古籍中文字的校对系统还可以具有如下附加的技术特征:
在一些示例中,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,包括:所述校对服务器接收所述客户端发送的云输入请求;所述校对服务器根据所述云输入请求确定对应的索引词;所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,包括:所述校对服务器接收所述客户端发送的搜索请求;所述校对服务器根据所述搜索请求确定对应的索引词;所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,包括:所述校对服务器接收所述客户端发送的验证请求;所述校对服务器根据所述验证请求确定对应的索引词;所述校对服务器根据所述索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对,包括:所述校对服务器记录用户对所述字图像块的判断结果;当所述判断所述字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,所述校对服务器将所述字图像块存储至所述索引对应的优选集合中。
本发明第三方面的实施例提供了一种校对服务器,包括:切分模块,用于用于获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字;识别模块,用于对所述每个字图像块进行识别,并计算每个字图像块与标准字之间的相似度;判断模块,用于在所述字图像块与标准字之间的相似度大于第一预设值时,将对应的字图像块存储至所述标准字为索引的优选集合中,并在所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值;提供模块,用于将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,以供所述客户端的用户进行判断;以及校对模块,用于接收所述用户的判断结果,并根据所述用户的判断结果对所述待选集合中的字图像块进行校对。
根据本发明实施例的校对服务器,校对服务器通过将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断,并根据用户的判断结果对待选集合中的字图像块进行校对,可有效地对待选集合中的字图像块对应的文字进行校对,从而提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
另外,根据本发明上述实施例的校对服务器还可以具有如下附加的技术特征:
在一些示例中,所述提供模块用于:接收所述客户端发送的云输入请求,并根据所述云输入请求确定对应的索引词,以及根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
在一些示例中,所述提供模块用于:接收所述客户端发送的搜索请求,并根据所述搜索请求确定对应的索引词,以及根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
在一些示例中,所述提供模块用于:接收所述客户端发送的验证请求,并根据所述验证请求确定对应的索引词,以及根据所述索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至所述客户端。
在一些示例中,所述校对模块用于:记录用户对所述字图像块的判断结果,并当判断所述字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,将所述字图像块存储至所述索引对应的优选集合中。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的古籍中文字的校对方法的流程图;
图2是根据本发明一个实施例的古籍中文字的校对方法的校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端的流程图;
图3是根据本发明另一个实施例的古籍中文字的校对方法的校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端的流程图;
图4是根据本发明再一个实施例的古籍中文字的校对方法的校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端的流程图;
图5是根据本发明再一个实施例的古籍中文字的校对方法的校对服务器根据用户的判断结果对待选集合中的字图像块进行校对的流程图;
图6是根据本发明一个实施例的古籍中文字的校对系统的结构图;以及
图7是根据本发明一个实施例的校对服务器的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本发明实施例的古籍中文字的校对方法、古籍中文字的校对系统及校对服务器。
图1是根据本发明一个实施例的古籍中文字的校对方法的流程图。如图1所示,根据本发明一个实施例的古籍中文字的校对方法,包括如下步骤:
步骤S101:校对服务器获得古籍图像,并将古籍图像切分为多个字图像块,其中,每个字图像块包括至少一个文字。
具体地说,校对服务器例如为云服务器。古籍图像如扫描图片等。校对服务器具有文字识别与图像切分功能,也可借助于现有的文字识别软件实现,例如ocr文字识别软件等。校对服务器在获得古籍图像之后,将古籍图像的字切分成独立的图像块(即字图像块),一般而言,切分后的每个独立的图像块(即字图像块)包括一个文字。校对服务器可记录下所有的字图像块在原始文件(古籍图像)中的位置。
步骤S102:校对服务器对每个字图像块进行识别,并计算每个字图像块与标准字之间的相似度。在本发明的一个实施例中,标准字可预先存储在校对服务器中,例如,校对服务器中预存有标准字库。这样,校对服务器对每个字图像块进行识别,识别出来的文字和标准字库中的文字进行比对,
具体地,校对服务器对每个字图像块中的文字进行识别,将识别出的文字与标注字库中的文字进行一一比对,例如:字图像块中的子图像类似于“中”,则将识别出的文字与标注字库中的中字的相似度较高,一般而言,该相似度高于与标准字库中其它文字的相似度。
步骤S103:当字图像块与标准字之间的相似度大于第一预设值时,校对服务器将对应的字图像块存储至标准字为索引的优选集合中。
具体地,该第一预设值由经验值确定,例如当字图像块识别后的文字与标注字库中某一个标准字的相似度大于90%,而与标注字库中其它标准字的相似度均小于90%,则校对服务器将该字图像块存储至与标准字库中相似度大于90%的标准字为索引的优选集合中。通过比对相似度确定将字图像块存储至哪一个标准字为索引的优选集合中,可以认为为将字图像块存储至与标准字库中相似度最高的标准字为索引的优选集合中,而该字图像块与标准字库中其它标准字的相似度较低。
步骤S104:当字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,校对服务器对对应的字图像块进行聚类,并根据聚类结果将对应的字图像块存储至标准字为索引的至少一个待选集合中,其中,第一预设值大于第二预设值。
具体而言,第二预设值可由经验值确定。例如:假设字图像块与标准字库中的所有标准字的相似度均不太高,或者与其中几个标准字的相似度比较接近,很难将该字图像块归为某一个标准字为索引的优选集合中,例如,字图像块与标准字库中的5个标准字之间的相似度均小于等于第一预设值且大于第二预设值时,例如与5个标准字之间的相似度均小于等于90%且大于80%,此时,校对服务器可通过聚类算法对该字图像块进行聚类,并根据聚类结果将对应的字图像块存储至标准字为索引的至少一个待选集合中。具体而言,假设字图像块与标准字库中的5个标准字之间的相似度均位于80%至90%之间,则可将字图像块分别存储在上述5个标准字为索引的待选集合中,或者根据聚类结果将该字图像块分别存储在上述5个标准字中至少一个标准字为索引的待选集合中,从而,该字图像块可存储在不同的标准字为索引的多个待选集合中,例如5个标准字中其中几个分别为:申、由、甲,则该字图像块中的文字图像表示的文字可能为申、由、甲,因此,可将该字图像块分别存储在标准字为申、由和甲的三个标准字为索引的三个待选集合中。
步骤S105:校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断。
具体而言,如图2所示,校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端,包括以下步骤:
步骤S201:校对服务器接收客户端发送的云输入请求。例如:用户通过客户端使用输入法时,输入“中国”的云输入请求等。
步骤S202:校对服务器根据云输入请求确定对应的索引词。具体地,当校对服务器接收到该“中国”的云输入请求之后,校对服务器可确定标准字为“中”对应的索引词。
步骤S203:校对服务器根据索引词从对应的待选集合中选择至少一个字图像块提供至客户端。具体而言,校对服务器在接收到该输入请求以后,在确定标准字为“中”对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端,当然,也可随机在该待选集合中选择多个字图像块提供给客户端,以供用户选择。
如图3所示,在本发明的另一示例中,校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端,包括以下步骤:
步骤S301:校对服务器接收客户端发送的搜索请求。例如:用户使用客户端进行搜索时,校对服务器接收该搜索词。
步骤S302:校对服务器根据搜索请求确定对应的索引词。具体地,当校对服务器接收到该搜索词之后,校对服务器可确定与该搜索词对应的标准字的索引词。例如搜索词中包括“相机”,则可以确定标准字为“相”对应的索引词。
步骤S303:校对服务器根据索引词从对应的待选集合中选择至少一个字图像块提供至客户端。具体而言,校对服务器在接收到该搜索请求以后,在确定标准字为“相”对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端,当然,也可随机在该待选集合中选择多个字图像块提供给客户端,以供用户选择。
如图4所示,在本发明的另一示例中,校对服务器将待选集合中的字图像块及待选集合对应的索引提供至客户端,包括以下步骤:
步骤S401:校对服务器接收客户端发送的验证请求。例如,当用户通过客户端进行应用程序的登录时,又是需要输入验证信息,此时,校对服务器接收客户端发送的验证请求。
步骤S402:校对服务器根据验证请求确定对应的索引词。具体地,当校对服务器接收到该验证请求之后,校对服务器可确定与该验证请求对应的标准字的索引词。
步骤S403:校对服务器根据索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至客户端。具体而言,校对服务器在接收到该验证请求以后,在确定标准字对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端,当然,也可随机在该待选集合中选择多个字图像块提供给客户端,以供用户选择,同时从该索引词对应的优选集合中随机选择一个字图像块提供给客户端。
步骤S106:校对服务器根据用户的判断结果对待选集合中的字图像块进行校对。具体而言,如图5所示,校对服务器根据用户的判断结果对待选集合中的字图像块进行校对,包括以下步骤:
步骤S501:校对服务器记录用户对字图像块的判断结果。
步骤S502:当判断字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,校对服务器将字图像块存储至索引对应的优选集合中。例如:假设标准字为“中”对应的索引词对应的待选集合中,有10个字图像块,分别记为1至10号字图像块,这样,校对服务器可将该10个字图像块中的一个或者多个提供给客户端,供用户选择判断,当用户选择后,例如选择1号字图像块,校对服务器可记录该待选集合中1号字图像块对应的文字与对应索引一致的次数。以此类推,当多个用户均选择判断后,如果大部分用户均选择的为1号字图像块对应的文字,则校对服务器判断字图像块中的文字与对应索引一致的用户的数量(即该字图像块对应的文字被选择的次数)大于第三预设值之后,可认为该字图像块对应的文字与该索引对应的标准字为同一文字,此时,可将该字图像块存储至该索引对应的优选集合中。从而完成对待选集合中字图像块对应的文字的校对。
根据本发明实施例的古籍中文字的校对方法,校对服务器通过将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断,并根据用户的判断结果对待选集合中的字图像块进行校对,可有效地对待选集合中的字图像块对应的文字进行校对,从而提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
图6是根据本发明一个实施例的古籍中文字的校对系统的结构图。如图6所示,根据本发明一个实施例的古籍中文字的校对系统600,包括校对服务器610和客户端620。
其中,校对服务器610用于获得古籍图像,并将古籍图像切分为多个字图像块,其中,每个字图像块包括至少一个文字,并对每个字图像块进行识别,以计算每个字图像块与标准字之间的相似度,且当字图像块与标准字之间的相似度大于第一预设值时将对应的字图像块存储至标准字为索引的优选集合中,当字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时对对应的字图像块进行聚类,并根据聚类结果将对应的字图像块存储至标准字为索引的至少一个待选集合中,其中,第一预设值大于第二预设值,并将待选集合中的字图像块及待选集合对应的索引提供至客户端620,以及根据用户的判断结果对待选集合中的字图像块进行校对。客户端620用于将待选集合中的字图像块及待选集合对应的索引提供给用户,以供用户进行判断,并将用户的判断结果提供给校对服务器610。
具体而言,校对服务器610例如为云服务器。古籍图像如扫描图片等。校对服务器610具有文字识别与图像切分功能,也可借助于现有的文字识别软件实现,例如ocr文字识别软件等。校对服务器610在获得古籍图像之后,将古籍图像的字切分成独立的图像块(即字图像块),一般而言,切分后的每个独立的图像块(即字图像块)包括一个文字。校对服务器610可记录下所有的字图像块在原始文件(古籍图像)中的位置。
标准字可预先存储在校对服务器610中,例如,校对服务器610中预存有标准字库。这样,校对服务器610对每个字图像块进行识别,识别出来的文字和标准字库中的文字进行比对,
校对服务器610对每个字图像块中的文字进行识别,将识别出的文字与标注字库中的文字进行一一比对,例如:字图像块中的子图像类似于“中”,则将识别出的文字与标注字库中的中字的相似度较高,一般而言,该相似度高于与标准字库中其它文字的相似度。
在本发明的一个实施例中,第一预设值由经验值确定,例如当字图像块识别后的文字与标注字库中某一个标准字的相似度大于90%,而与标注字库中其它标准字的相似度均小于90%,则校对服务器610将该字图像块存储至与标准字库中相似度大于90%的标准字为索引的优选集合中。通过比对相似度确定将字图像块存储至哪一个标准字为索引的优选集合中,可以认为为将字图像块存储至与标准字库中相似度最高的标准字为索引的优选集合中,而该字图像块与标准字库中其它标准字的相似度较低。
进一步地,第二预设值可由经验值确定。例如:假设字图像块与标准字库中的所有标准字的相似度均不太高,或者与其中几个标准字的相似度比较接近,很难将该字图像块归为某一个标准字为索引的优选集合中,例如,字图像块与标准字库中的5个标准字之间的相似度均小于等于第一预设值且大于第二预设值时,例如与5个标准字之间的相似度均小于等于90%且大于80%,此时,校对服务器610可通过聚类算法对该字图像块进行聚类,并根据聚类结果将对应的字图像块存储至标准字为索引的至少一个待选集合中。具体而言,假设字图像块与标准字库中的5个标准字之间的相似度均位于80%至90%之间,则可将字图像块分别存储在上述5个标准字为索引的待选集合中,或者根据聚类结果将该字图像块分别存储在上述5个标准字中至少一个标准字为索引的待选集合中,从而,该字图像块可存储在不同的标准字为索引的多个待选集合中,例如5个标准字中其中几个分别为:申、由、甲,则该字图像块中的文字图像表示的文字可能为申、由、甲,因此,可将该字图像块分别存储在标准字为申、由和甲的三个标准字为索引的三个待选集合中。
在本发明的一个实施例中,校对服务器610可通过以下三种方式将待选集合中的字图像块及待选集合对应的索引提供至客户端620。
(1)校对服务器610接收客户端620发送的云输入请求。例如:用户通过客户端620使用输入法时,输入“中国”的云输入请求等。并根据云输入请求确定对应的索引词。具体地,当校对服务器610接收到该“中国”的云输入请求之后,校对服务器610可确定标准字为“中”对应的索引词。以及根据索引词从对应的待选集合中选择至少一个字图像块提供至客户端620。具体而言,校对服务器610在接收到该输入请求以后,在确定标准字为“中”对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端620,当然,也可随机在该待选集合中选择多个字图像块提供给客户端620,以供用户选择。
(2)校对服务器610接收客户端620发送的搜索请求。例如:用户使用客户端620进行搜索时,校对服务器610接收该搜索词。并根据搜索请求确定对应的索引词。具体地,当校对服务器610接收到该搜索词之后,校对服务器610可确定与该搜索词对应的标准字的索引词。例如搜索词中包括“相机”,则可以确定标准字为“相”对应的索引词。以及根据索引词从对应的待选集合中选择至少一个字图像块提供至客户端620。具体而言,校对服务器610在接收到该搜索请求以后,在确定标准字为“相”对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端620,当然,也可随机在该待选集合中选择多个字图像块提供给客户端620,以供用户选择。
(3)校对服务器610接收客户端620发送的验证请求。例如,当用户通过客户端620进行应用程序的登录时,又是需要输入验证信息,此时,校对服务器610接收客户端620发送的验证请求。并根据验证请求确定对应的索引词。具体地,当校对服务器610接收到该验证请求之后,校对服务器610可确定与该验证请求对应的标准字的索引词。以及根据索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至客户端620。具体而言,校对服务器610在接收到该验证请求以后,在确定标准字对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端620,当然,也可随机在该待选集合中选择多个字图像块提供给客户端620,以供用户选择,同时从该索引词对应的优选集合中随机选择一个字图像块提供给客户端620。
在本发明的一个实施例中,校对服务器610根据用户的判断结果对待选集合中的字图像块进行校对的方式如下:校对服务器610记录用户对字图像块的判断结果。并当判断字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,校对服务器610将字图像块存储至索引对应的优选集合中。例如:假设标准字为“中”对应的索引词对应的待选集合中,有10个字图像块,分别记为1至10号字图像块,这样,校对服务器610可将该10个字图像块中的一个或者多个提供给客户端620,供用户选择判断,当用户选择后,例如选择1号字图像块,校对服务器610可记录该待选集合中1号字图像块对应的文字与对应索引一致的次数。以此类推,当多个用户均选择判断后,如果大部分用户均选择的为1号字图像块对应的文字,则校对服务器610判断字图像块中的文字与对应索引一致的用户的数量(即该字图像块对应的文字被选择的次数)大于第三预设值之后,可认为该字图像块对应的文字与该索引对应的标准字为同一文字,此时,可将该字图像块存储至该索引对应的优选集合中。从而完成对待选集合中字图像块对应的文字的校对。
根据本发明实施例的古籍中文字的校对系统,校对服务器通过将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断,并根据用户的判断结果对待选集合中的字图像块进行校对,可有效地对待选集合中的字图像块对应的文字进行校对,从而提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
图7是根据本发明一个实施例的校对服务器的结构图。如图7所示,根据本发明一个实施例的校对服务器610,包括:切分模块611、识别模块612、判断模块613、提供模块614和校对模块615。
其中,切分模块611用于用于获得古籍图像,并将古籍图像切分为多个字图像块,其中,每个字图像块包括至少一个文字。识别模块612用于对每个字图像块进行识别,并计算每个字图像块与标准字之间的相似度。判断模块613用于在字图像块与标准字之间的相似度大于第一预设值时,将对应的字图像块存储至标准字为索引的优选集合中,并在字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,对对应的字图像块进行聚类,并根据聚类结果将对应的字图像块存储至标准字为索引的至少一个待选集合中,其中,第一预设值大于第二预设值。提供模块614用于将待选集合中的字图像块及待选集合对应的索引提供至客户端620,以供客户端620的用户进行判断。校对模块615用于接收用户的判断结果,并根据用户的判断结果对待选集合中的字图像块进行校对。
具体而言,校对服务器610例如为云服务器。古籍图像如扫描图片等。切分模块611具有文字识别与图像切分功能,也可借助于现有的文字识别软件实现,例如ocr文字识别软件等。切分模块611在获得古籍图像之后,将古籍图像的字切分成独立的图像块(即字图像块),一般而言,切分后的每个独立的图像块(即字图像块)包括一个文字。校对服务器610可记录下所有的字图像块在原始文件(古籍图像)中的位置。
标准字可预先存储在校对服务器610中,例如,校对服务器610中预存有标准字库。这样,识别模块612对每个字图像块进行识别,识别出来的文字和标准字库中的文字进行比对,
识别模块612对每个字图像块中的文字进行识别,将识别出的文字与标注字库中的文字进行一一比对,例如:字图像块中的子图像类似于“中”,则将识别出的文字与标注字库中的中字的相似度较高,一般而言,该相似度高于与标准字库中其它文字的相似度。
在本发明的一个实施例中,第一预设值由经验值确定,例如当字图像块识别后的文字与标注字库中某一个标准字的相似度大于90%,而与标注字库中其它标准字的相似度均小于90%,则校对服务器610将该字图像块存储至与标准字库中相似度大于90%的标准字为索引的优选集合中。通过比对相似度确定将字图像块存储至哪一个标准字为索引的优选集合中,可以认为为将字图像块存储至与标准字库中相似度最高的标准字为索引的优选集合中,而该字图像块与标准字库中其它标准字的相似度较低。
进一步地,第二预设值可由经验值确定。例如:假设字图像块与标准字库中的所有标准字的相似度均不太高,或者与其中几个标准字的相似度比较接近,很难将该字图像块归为某一个标准字为索引的优选集合中,例如,字图像块与标准字库中的5个标准字之间的相似度均小于等于第一预设值且大于第二预设值时,例如与5个标准字之间的相似度均小于等于90%且大于80%,此时,判断模块613可通过聚类算法对该字图像块进行聚类,并根据聚类结果将对应的字图像块存储至标准字为索引的至少一个待选集合中。具体而言,假设字图像块与标准字库中的5个标准字之间的相似度均位于80%至90%之间,则可将字图像块分别存储在上述5个标准字为索引的待选集合中,或者根据聚类结果将该字图像块分别存储在上述5个标准字中至少一个标准字为索引的待选集合中,从而,该字图像块可存储在不同的标准字为索引的多个待选集合中,例如5个标准字中其中几个分别为:申、由、甲,则该字图像块中的文字图像表示的文字可能为申、由、甲,因此,可将该字图像块分别存储在标准字为申、由和甲的三个标准字为索引的三个待选集合中。
在本发明的一个实施例中,提供模块614可通过以下三种方式将待选集合中的字图像块及待选集合对应的索引提供至客户端620。
(1)提供模块614接收客户端620发送的云输入请求。例如:用户通过客户端620使用输入法时,输入“中国”的云输入请求等。并根据云输入请求确定对应的索引词。具体地,当接收到该“中国”的云输入请求之后,提供模块614可确定标准字为“中”对应的索引词。以及根据索引词从对应的待选集合中选择至少一个字图像块提供至客户端620。具体而言,在接收到该输入请求以后,在确定标准字为“中”对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端620,当然,也可随机在该待选集合中选择多个字图像块提供给客户端620,以供用户选择。
(2)提供模块614接收客户端620发送的搜索请求。例如:用户使用客户端620进行搜索时,接收该搜索词。并根据搜索请求确定对应的索引词。具体地,当校对服务器610接收到该搜索词之后,提供模块614可确定与该搜索词对应的标准字的索引词。例如搜索词中包括“相机”,则可以确定标准字为“相”对应的索引词。以及根据索引词从对应的待选集合中选择至少一个字图像块提供至客户端620。具体而言,在接收到该搜索请求以后,在确定标准字为“相”对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端620,当然,也可随机在该待选集合中选择多个字图像块提供给客户端620,以供用户选择。
(3)提供模块614接收客户端620发送的验证请求。例如,当用户通过客户端620进行应用程序的登录时,又是需要输入验证信息,此时,接收客户端620发送的验证请求。并根据验证请求确定对应的索引词。具体地,当提供模块614接收到该验证请求之后,提供模块614可确定与该验证请求对应的标准字的索引词。以及根据索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至客户端620。具体而言在接收到该验证请求以后,在确定标准字对应的索引词以后,可从该索引词对应的待选集合中随机选择一个字图像块提供给客户端620,当然,也可随机在该待选集合中选择多个字图像块提供给客户端620,以供用户选择,同时从该索引词对应的优选集合中随机选择一个字图像块提供给客户端620。
在本发明的一个实施例中,校对模块615根据用户的判断结果对待选集合中的字图像块进行校对的方式如下:校对模块615记录用户对字图像块的判断结果。并当判断字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,将字图像块存储至索引对应的优选集合中。例如:假设标准字为“中”对应的索引词对应的待选集合中,有10个字图像块,分别记为1至10号字图像块,这样,校对模块615可将该10个字图像块中的一个或者多个提供给客户端620,供用户选择判断,当用户选择后,例如选择1号字图像块,可记录该待选集合中1号字图像块对应的文字与对应索引一致的次数。以此类推,当多个用户均选择判断后,如果大部分用户均选择的为1号字图像块对应的文字,则判断字图像块中的文字与对应索引一致的用户的数量(即该字图像块对应的文字被选择的次数)大于第三预设值之后,可认为该字图像块对应的文字与该索引对应的标准字为同一文字,此时,可将该字图像块存储至该索引对应的优选集合中。从而完成对待选集合中字图像块对应的文字的校对。
根据本发明实施例的校对服务器,通过将待选集合中的字图像块及待选集合对应的索引提供至客户端,以供客户端的用户进行判断,并根据用户的判断结果对待选集合中的字图像块进行校对,可有效地对待选集合中的字图像块对应的文字进行校对,从而提高古籍图像中每个字图像块对应的文字识别的正确率,保证古籍图像的翻译质量。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (15)

1.一种古籍中文字的校对方法,其特征在于,包括以下步骤:
校对服务器获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字;
所述校对服务器对所述每个字图像块进行识别,并计算每个字图像块与标准字之间的相似度;
当所述字图像块与标准字之间的相似度大于第一预设值时,所述校对服务器将对应的字图像块存储至所述标准字为索引的优选集合中;
当所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,所述校对服务器对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值;
所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,以供所述客户端的用户进行判断;以及
所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对。
2.如权利要求1所述的古籍中文字的校对方法,其特征在于,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端进一步包括:
所述校对服务器接收所述客户端发送的云输入请求;
所述校对服务器根据所述云输入请求确定对应的索引词;
所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
3.如权利要求1所述的古籍中文字的校对方法,其特征在于,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端进一步包括:
所述校对服务器接收所述客户端发送的搜索请求;
所述校对服务器根据所述搜索请求确定对应的索引词;
所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
4.如权利要求1所述的古籍中文字的校对方法,其特征在于,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端进一步包括:
所述校对服务器接收所述客户端发送的验证请求;
所述校对服务器根据所述验证请求确定对应的索引词;
所述校对服务器根据所述索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至所述客户端。
5.如权利要求1-4任一项所述的古籍中文字的校对方法,其特征在于,所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对进一步包括:
所述校对服务器记录用户对所述字图像块的判断结果;
当判断所述字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,所述校对服务器将所述字图像块存储至所述索引对应的优选集合中。
6.一种古籍中文字的校对系统,其特征在于,包括:校对服务器和客户端,其中,
所述校对服务器用于获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字,并对所述每个字图像块进行识别,以计算每个字图像块与标准字之间的相似度,且当所述字图像块与标准字之间的相似度大于第一预设值时将对应的字图像块存储至所述标准字为索引的优选集合中,当所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值,并将所述待选集合中的字图像块及所述待选集合对应的索引提供至所述客户端,以及根据所述用户的判断结果对所述待选集合中的字图像块进行校对;
所述客户端用于将所述待选集合中的字图像块及所述待选集合对应的索引提供给用户,以供所述用户进行判断,并将所述用户的判断结果提供给所述校对服务器。
7.如权利要求6所述的古籍中文字的校对系统,其特征在于,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,包括:
所述校对服务器接收所述客户端发送的云输入请求;
所述校对服务器根据所述云输入请求确定对应的索引词;
所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
8.如权利要求6所述的古籍中文字的校对系统,其特征在于,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,包括:
所述校对服务器接收所述客户端发送的搜索请求;
所述校对服务器根据所述搜索请求确定对应的索引词;
所述校对服务器根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
9.如权利要求6所述的古籍中文字的校对系统,其特征在于,所述校对服务器将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,包括:
所述校对服务器接收所述客户端发送的验证请求;
所述校对服务器根据所述验证请求确定对应的索引词;
所述校对服务器根据所述索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至所述客户端。
10.如权利要求6-9任一项所述的古籍中文字的校对系统,其特征在于,所述校对服务器根据所述用户的判断结果对所述待选集合中的字图像块进行校对,包括:
所述校对服务器记录用户对所述字图像块的判断结果;
当所述判断所述字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,所述校对服务器将所述字图像块存储至所述索引对应的优选集合中。
11.一种校对服务器,其特征在于,包括:
切分模块,用于用于获得古籍图像,并将所述古籍图像切分为多个字图像块,其中,每个所述字图像块包括至少一个文字;
识别模块,用于对所述每个字图像块进行识别,并计算每个字图像块与标准字之间的相似度;
判断模块,用于在所述字图像块与标准字之间的相似度大于第一预设值时,将对应的字图像块存储至所述标准字为索引的优选集合中,并在所述字图像块与标准字之间的相似度小于等于第一预设值且大于第二预设值时,对对应的字图像块进行聚类,并根据聚类结果将所述对应的字图像块存储至所述标准字为索引的至少一个待选集合中,其中,所述第一预设值大于所述第二预设值;
提供模块,用于将所述待选集合中的字图像块及所述待选集合对应的索引提供至客户端,以供所述客户端的用户进行判断;以及
校对模块,用于接收所述用户的判断结果,并根据所述用户的判断结果对所述待选集合中的字图像块进行校对。
12.如权利要求11所述的校对服务器,其特征在于,所述提供模块用于:接收所述客户端发送的云输入请求,并根据所述云输入请求确定对应的索引词,以及根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
13.如权利要求11所述的校对服务器,其特征在于,所述提供模块用于:接收所述客户端发送的搜索请求,并根据所述搜索请求确定对应的索引词,以及根据所述索引词从对应的待选集合中选择至少一个字图像块提供至所述客户端。
14.如权利要求11所述的校对服务器,其特征在于,所述提供模块用于:接收所述客户端发送的验证请求,并根据所述验证请求确定对应的索引词,以及根据所述索引词从对应的待选集合和优选集合中分别选择至少一个字图像块提供至所述客户端。
15.如权利要求11-14任一项所述的校对服务器,其特征在于,所述校对模块用于:记录用户对所述字图像块的判断结果,并当判断所述字图像块中的文字与对应索引一致的用户的数量大于第三预设值之后,将所述字图像块存储至所述索引对应的优选集合中。
CN201310222804.1A 2013-06-05 2013-06-05 古籍中文字的校对方法、系统及校对服务器 Active CN103257954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310222804.1A CN103257954B (zh) 2013-06-05 2013-06-05 古籍中文字的校对方法、系统及校对服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310222804.1A CN103257954B (zh) 2013-06-05 2013-06-05 古籍中文字的校对方法、系统及校对服务器

Publications (2)

Publication Number Publication Date
CN103257954A true CN103257954A (zh) 2013-08-21
CN103257954B CN103257954B (zh) 2016-08-10

Family

ID=48961883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310222804.1A Active CN103257954B (zh) 2013-06-05 2013-06-05 古籍中文字的校对方法、系统及校对服务器

Country Status (1)

Country Link
CN (1) CN103257954B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529521A (zh) * 2016-10-31 2017-03-22 江苏文心古籍数字产业有限公司 一种古籍文字数字化录入方法
CN108230308A (zh) * 2017-12-29 2018-06-29 武汉璞华大数据技术有限公司 一种广告单校对方法、装置和设备
CN111340029A (zh) * 2018-12-19 2020-06-26 富士通株式会社 用于识别收件人地址中的至少部分地址的装置和方法
CN113127668A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 数据标注方法及相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137765A (ja) * 1998-10-30 2000-05-16 Canon Inc 画像処理装置及び方法及び記憶媒体
CN1916941A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种字符识别的后处理方法
CN101620680A (zh) * 2008-07-03 2010-01-06 三星电子株式会社 字符图像的识别和翻译方法以及装置
CN102298696A (zh) * 2010-06-28 2011-12-28 方正国际软件(北京)有限公司 一种字符识别方法及系统
CN102968458A (zh) * 2012-10-31 2013-03-13 北京百度网讯科技有限公司 一种基于永久知识编号的搜索结果优化方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137765A (ja) * 1998-10-30 2000-05-16 Canon Inc 画像処理装置及び方法及び記憶媒体
CN1916941A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种字符识别的后处理方法
CN101620680A (zh) * 2008-07-03 2010-01-06 三星电子株式会社 字符图像的识别和翻译方法以及装置
CN102298696A (zh) * 2010-06-28 2011-12-28 方正国际软件(北京)有限公司 一种字符识别方法及系统
CN102968458A (zh) * 2012-10-31 2013-03-13 北京百度网讯科技有限公司 一种基于永久知识编号的搜索结果优化方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529521A (zh) * 2016-10-31 2017-03-22 江苏文心古籍数字产业有限公司 一种古籍文字数字化录入方法
CN108230308A (zh) * 2017-12-29 2018-06-29 武汉璞华大数据技术有限公司 一种广告单校对方法、装置和设备
CN108230308B (zh) * 2017-12-29 2021-02-09 武汉璞华大数据技术有限公司 一种广告单校对方法、装置和设备
CN111340029A (zh) * 2018-12-19 2020-06-26 富士通株式会社 用于识别收件人地址中的至少部分地址的装置和方法
CN113127668A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 数据标注方法及相关产品

Also Published As

Publication number Publication date
CN103257954B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN108595410B (zh) 手写作文的自动批改方法及装置
CN109710841B (zh) 评论推荐方法和装置
WO2017080311A1 (zh) 指纹模板完善方法、装置和终端设备
DE102018115440A1 (de) Techniken zum Trainieren tiefer neuronaler Netzwerke
Zhang et al. Feature reintegration over differential treatment: A top-down and adaptive fusion network for RGB-D salient object detection
EP2553626B1 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
EP3616048A1 (en) Machine-learning command interaction
CN105095182A (zh) 一种回复信息推荐方法及装置
CN108334489B (zh) 文本核心词识别方法和装置
KR20210130790A (ko) 문서들에서 키-값 쌍들의 식별
CN103257954A (zh) 古籍中文字的校对方法、系统及校对服务器
CN1472695A (zh) 字符识别装置及方法
US9405985B1 (en) Leveraging character-by-character image classifiers to improve license plate state identification
CN103500158A (zh) 批注电子文档的方法和装置
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
US20060193525A1 (en) Extracting embedded information from a document
CN110738061A (zh) 古诗词生成方法、装置、设备及存储介质
CN116982089A (zh) 用于图像语义增强的方法和系统
CN110909196B (zh) 识别绘本阅读过程中内页封面切换的处理方法和装置
JP2017199086A (ja) 帳票認識方法、帳票認識装置、帳票認識プログラム、及び帳票認識用辞書データ
CN104516870A (zh) 一种译文检查方法及其系统
US9152876B1 (en) Methods and systems for efficient handwritten character segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant