CN109858014A - 语言信息主动校对系统及其主动校对方法 - Google Patents

语言信息主动校对系统及其主动校对方法 Download PDF

Info

Publication number
CN109858014A
CN109858014A CN201811506143.4A CN201811506143A CN109858014A CN 109858014 A CN109858014 A CN 109858014A CN 201811506143 A CN201811506143 A CN 201811506143A CN 109858014 A CN109858014 A CN 109858014A
Authority
CN
China
Prior art keywords
word
language
server
picture
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811506143.4A
Other languages
English (en)
Inventor
朱西平
邓魁
李伟勤
苟智坚
韩斌
李季
郑达
帅靖
杨朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Technology Co Ltd Billion Goods
Southwest Petroleum University
Chengdu University of Information Technology
Original Assignee
Sichuan Technology Co Ltd Billion Goods
Southwest Petroleum University
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Technology Co Ltd Billion Goods, Southwest Petroleum University, Chengdu University of Information Technology filed Critical Sichuan Technology Co Ltd Billion Goods
Priority to CN201811506143.4A priority Critical patent/CN109858014A/zh
Publication of CN109858014A publication Critical patent/CN109858014A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语言信息主动校对系统,包括用于提供标准语言的字符和单词的语言基本词字数据库,用于提供所采集的区域合作沿线多语言文字信息资料的语言图文识别数据库,进行初步自动识别的对比服务器,将对比服务器无法自动识别的结果进行记录的错词字记录服务器,用于发布来自于错词字记录服务器所记录数据的校对信息发布平台,用于接收校对信息发布平台所发布信息并反馈校对结果的主动校对终端,用于接收反馈的校对结果的审核服务器,以及与审核服务器连接的人工审核终端。本发明有效地扩展了校对的范围和准确度,有效克服了现有技术中机器识别不准确的情况,特别适合于区域合作沿线多语言文化信息交汇复杂的情况。

Description

语言信息主动校对系统及其主动校对方法
技术领域
本发明涉及语言文化信息领域,具体地讲,是涉及一种语言信息主动校对系统。
背景技术
随着政治、经济、文化形势的国际化发展,国际社会需要并朝着国家和地区的区域合作方向迈进,例如以亚欧非大陆及附近海洋的互联互通为基础的区域合作,建立和加强沿线各国互联互通伙伴关系,构建全方位、多层次、复合型的互联互通网络,实现沿线各国多元、自主、平衡、可持续的发展。
区域合作沿线的国家和地区众多,多数国家和地区都拥有自己的语种和语言体系,随着区域合作的逐步推进,这些国家和地区需要进一步的促进经济、政治、文化的多方面深化发展,语言问题成为了影响各方面深入交流的最大阻碍,而且这些语言多为小语种,除当国当地的民众外,很少有其他人员会学习掌握这些语言。为了尽量减小语言问题对各方面合作推进的影响,申请人针对性地提出了一套多语言信息文化共享方案,通过搜集沿线各国语言文化信息,构建多语言文化数据库及数据共享系统,为广大民众提供相应的多语言文化信息内容的普及教育学习平台,促进区域合作的经济政治文化尤其是语言文化信息的发展。本申请作为系统中端,用于实现区域合作多语言信息识别后的信息主动校对。
发明内容
针对上述现有技术的不足,本发明提供一种语言信息主动校对系统。
为了实现上述目的,本发明采用的技术方案如下:
一种语言信息主动校对系统,包括用于提供标准语言的字符和单词的语言基本词字数据库,用于提供所采集的区域合作沿线多语言文字信息资料的语言图文识别数据库,参照语言基本词字数据库对所述语言图文识别数据库的资料进行初步自动识别的对比服务器,将对比服务器无法自动识别的结果进行记录的错词字记录服务器,用于发布来自于错词字记录服务器所记录数据的校对信息发布平台,用于接收校对信息发布平台所发布信息并反馈校对结果的主动校对终端,与校对信息发布平台连接的用于接收主动校对终端所反馈的校对结果的审核服务器,以及与审核服务器连接的人工审核终端,其中,所述主动校对终端由区域合作沿线语言文化爱好者使用,通过一定数量的区域合作沿线语言文化爱好者共同进行对错词字的主动校对。
具体地,所述校对信息发布平台以广播方式向多个主动校对终端发布错词字记录。
进一步地,该语言信息主动校对系统,还包括将对比服务器自动识别出的结果进行记录的识别词字记录服务器,所述校对信息发布平台分别提取来自错词字记录服务器的错词字记录和来自识别词字记录服务器的识别词字记录,混搭后向主动校对终端发布,用以测验所述主动校对终端的使用者。
进一步地,当某一所述主动校对终端所反馈的校对结果大于一设定阈值时,由校对信息发布平台向该主动校对终端发送奖励信息。
并且,对于某一错词字记录,所述审核服务器根据接收到的反馈的校对结果的数量来自动判断所述校对结果是否准确,当同一校对结果的数量与其他校对结果的数量的差值不低于一设定阈值时,判定该同一校对结果为准确,该其他校对结果为不准确,当同一校对结果的数量与其他校对结果数量的差值低于该设定阈值时,则交由所述人工审核终端进行审核。
更进一步地,所述语言图文识别数据库所存储的语言图文识别信息由语言图文识别系统提供。
并且,所述语言图文识别系统包括用于从后台数据服务器中获取原始图文图像数据的图像提取模块,用于原始图文图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,以及用于将相同标记的图片图像和文字组合的图文重组模块,其中所述图文重组模块重组的图文信息存储于所述语言图文识别数据库中。
基于上述系统构造,本发明还提供了上述语言信息主动校对系统的主动校对方法,包括如下步骤:
(1)由语言图文识别系统获取后台服务器中关于区域合作沿线语言文化信息的原始图文图像数据,并进行图文识别,将原始图文图像中的文字图像转换为文字文本存储于语言图文识别数据库中;
(2)由对比服务器提取所述语言图文识别数据库中存储的文字文本数据,并与语言基本词字数据库中所记录的标准语言的字符和单词相对比,若该文字文本数据中的字符或单词与语言基本词字数据库的数据相匹配,则将该字符或单词记录于识别词字记录服务器中,否则将该字符或单词记录于错词字记录服务器中;
(3)由校对信息发布平台从错词字记录服务器中随机提取错词字记录,并以广播方式向各主动校对终端发布;
(4)审核服务器接收由各主动校对终端反馈的该错词字记录的主动校对结果,并根据这些主动校对结果的数量进行自动判定,若判定结果为准确,则对反馈了准确的主动校对结果的主动校对终端发送奖励信息,若审核服务器无法自动判定结果,则将反馈结果传输至人工审核终端;
(5)人工审核终端根据人工审核的结果向反馈了准确的主动校对结果的主动校对终端发送奖励信息。
与现有技术相比,本发明具有以下有益效果:
(1)本发明利用语言图文识别系统的自动识别结果与语言基本词字数据库对比进行自动校对,对于不能自动校对的信息形成错词字记录,结合平台进行错词字主动校对信息发布,提供给区域合作多语言文化信息爱好者进行主动校对,扩展了校对的范围和准确度,有效克服了现有技术中机器识别不准确的情况,特别适合于区域合作沿线多语言文化信息交汇复杂的情况。
(2)本发明所利用的语言图文识别系统先对所获取的原始图文图像进行边缘预处理识别,划分出图片图像信息和文字图像信息并分别保存和处理,将文字图像识别替换为文字本文后再与图片图像信息重组结合,极大地方便了图文分类记录和保存以及校对,特别适合区域合作沿线多种语言文化信息资料的分类整理,为后续的图像辨别和文字翻译提供了良好的数据基础。
附图说明
图1为本发明的结构原理框图。
图2为本发明中语言图文识别系统的原理框图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。
实施例
如图1-2所示,该语言信息主动校对系统,包括用于提供标准语言的字符和单词的语言基本词字数据库,用于提供所采集的区域合作沿线多语言文字信息资料的语言图文识别数据库,参照语言基本词字数据库对所述语言图文识别数据库的资料进行初步自动识别的对比服务器,将对比服务器无法自动识别的结果进行记录的错词字记录服务器,用于发布来自于错词字记录服务器所记录数据的校对信息发布平台,用于接收校对信息发布平台所发布信息并反馈校对结果的主动校对终端,与校对信息发布平台连接的用于接收主动校对终端所反馈的校对结果的审核服务器,以及与审核服务器连接的人工审核终端,其中,所述主动校对终端由区域合作沿线语言文化爱好者使用,通过一定数量的区域合作沿线语言文化爱好者共同进行对错词字的主动校对。
具体地,所述校对信息发布平台以广播方式向多个主动校对终端发布错词字记录。
进一步地,该语言信息主动校对系统,还包括将对比服务器自动识别出的结果进行记录的识别词字记录服务器,所述校对信息发布平台分别提取来自错词字记录服务器的错词字记录和来自识别词字记录服务器的识别词字记录,混搭后向主动校对终端发布,用以测验所述主动校对终端的使用者。
进一步地,当某一所述主动校对终端所反馈的校对结果大于一设定阈值时,由校对信息发布平台向该主动校对终端发送奖励信息。
并且,对于某一错词字记录,所述审核服务器根据接收到的反馈的校对结果的数量来自动判断所述校对结果是否准确,当同一校对结果的数量与其他校对结果的数量的差值不低于一设定阈值时,判定该同一校对结果为准确,该其他校对结果为不准确,当同一校对结果的数量与其他校对结果数量的差值低于该设定阈值时,则交由所述人工审核终端进行审核。
更进一步地,所述语言图文识别数据库所存储的语言图文识别信息由语言图文识别系统提供。
并且,所述语言图文识别系统包括用于从后台数据服务器中获取原始图文图像数据的图像提取模块,用于原始图文图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,以及用于将相同标记的图片图像和文字组合的图文重组模块,其中所述图文重组模块重组的图文信息存储于所述语言图文识别数据库中。
基于上述系统构造,本发明还提供了上述语言信息主动校对系统的主动校对方法,包括如下步骤:
(1)由语言图文识别系统获取后台服务器中关于区域合作沿线语言文化信息的原始图文图像数据,并进行图文识别,将原始图文图像中的文字图像转换为文字文本存储于语言图文识别数据库中;
(2)由对比服务器提取所述语言图文识别数据库中存储的文字文本数据,并与语言基本词字数据库中所记录的标准语言的字符和单词相对比,若该文字文本数据中的字符或单词与语言基本词字数据库的数据相匹配,则将该字符或单词记录于识别词字记录服务器中,否则将该字符或单词记录于错词字记录服务器中;
(3)由校对信息发布平台从错词字记录服务器中随机提取错词字记录,并以广播方式向各主动校对终端发布;
(4)审核服务器接收由各主动校对终端反馈的该错词字记录的主动校对结果,并根据这些主动校对结果的数量进行自动判定,若判定结果为准确,则对反馈了准确的主动校对结果的主动校对终端发送奖励信息,若审核服务器无法自动判定结果,则将反馈结果传输至人工审核终端;
(5)人工审核终端根据人工审核的结果向反馈了准确的主动校对结果的主动校对终端发送奖励信息。
通过上述设置,有效地扩展了校对的范围和准确度,有效克服了现有技术中机器识别不准确的情况,特别适合于区域合作沿线多语言文化信息交汇复杂的情况。
上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而作出的变化,均应属于本发明的保护范围之内。

Claims (8)

1.一种语言信息主动校对系统,其特征在于,包括用于提供标准语言的字符和单词的语言基本词字数据库,用于提供所采集的区域合作沿线多语言文字信息资料的语言图文识别数据库,参照语言基本词字数据库对所述语言图文识别数据库的资料进行初步自动识别的对比服务器,将对比服务器无法自动识别的结果进行记录的错词字记录服务器,用于发布来自于错词字记录服务器所记录数据的校对信息发布平台,用于接收校对信息发布平台所发布信息并反馈校对结果的主动校对终端,与校对信息发布平台连接的用于接收主动校对终端所反馈的校对结果的审核服务器,以及与审核服务器连接的人工审核终端,其中,所述主动校对终端由区域合作沿线语言文化爱好者使用,通过一定数量的区域合作沿线语言文化爱好者共同进行对错词字的主动校对。
2.根据权利要求1所述的语言信息主动校对系统,其特征在于,所述校对信息发布平台以广播方式向多个主动校对终端发布错词字记录。
3.根据权利要求1所述的语言信息主动校对系统,其特征在于,还包括将对比服务器自动识别出的结果进行记录的识别词字记录服务器,所述校对信息发布平台分别提取来自错词字记录服务器的错词字记录和来自识别词字记录服务器的识别词字记录,混搭后向主动校对终端发布,用以测验所述主动校对终端的使用者。
4.根据权利要求2所述的语言信息主动校对系统,其特征在于,当某一所述主动校对终端所反馈的校对结果大于一设定阈值时,由校对信息发布平台向该主动校对终端发送奖励信息。
5.根据权利要求1所述的语言信息主动校对系统,其特征在于,对于某一错词字记录,所述审核服务器根据接收到的反馈的校对结果的数量来自动判断所述校对结果是否准确,当同一校对结果的数量与其他校对结果的数量的差值不低于一设定阈值时,判定该同一校对结果为准确,该其他校对结果为不准确,当同一校对结果的数量与其他校对结果数量的差值低于该设定阈值时,则交由所述人工审核终端进行审核。
6.根据权利要求1~5任一项所述的语言信息主动校对系统,其特征在于,所述语言图文识别数据库所存储的语言图文识别信息由语言图文识别系统提供。
7.根据权利要求6所述的语言信息主动校对系统,其特征在于,所述语言图文识别系统包括用于从后台数据服务器中获取原始图文图像数据的图像提取模块,用于原始图文图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,以及用于将相同标记的图片图像和文字组合的图文重组模块,其中所述图文重组模块重组的图文信息存储于所述语言图文识别数据库中。
8.如权利要求1~7任一项所述的语言信息主动校对系统的主动校对方法,其特征在于,包括如下步骤:
(1)由语言图文识别系统获取后台服务器中关于区域合作沿线语言文化信息的原始图文图像数据,并进行图文识别,将原始图文图像中的文字图像转换为文字文本存储于语言图文识别数据库中;
(2)由对比服务器提取所述语言图文识别数据库中存储的文字文本数据,并与语言基本词字数据库中所记录的标准语言的字符和单词相对比,若该文字文本数据中的字符或单词与语言基本词字数据库的数据相匹配,则将该字符或单词记录于识别词字记录服务器中,否则将该字符或单词记录于错词字记录服务器中;
(3)由校对信息发布平台从错词字记录服务器中随机提取错词字记录,并以广播方式向各主动校对终端发布;
(4)审核服务器接收由各主动校对终端反馈的该错词字记录的主动校对结果,并根据这些主动校对结果的数量进行自动判定,若判定结果为准确,则对反馈了准确的主动校对结果的主动校对终端发送奖励信息,若审核服务器无法自动判定结果,则将反馈结果传输至人工审核终端;
(5)人工审核终端根据人工审核的结果向反馈了准确的主动校对结果的主动校对终端发送奖励信息。
CN201811506143.4A 2018-12-10 2018-12-10 语言信息主动校对系统及其主动校对方法 Pending CN109858014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811506143.4A CN109858014A (zh) 2018-12-10 2018-12-10 语言信息主动校对系统及其主动校对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811506143.4A CN109858014A (zh) 2018-12-10 2018-12-10 语言信息主动校对系统及其主动校对方法

Publications (1)

Publication Number Publication Date
CN109858014A true CN109858014A (zh) 2019-06-07

Family

ID=66890890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811506143.4A Pending CN109858014A (zh) 2018-12-10 2018-12-10 语言信息主动校对系统及其主动校对方法

Country Status (1)

Country Link
CN (1) CN109858014A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150866A (zh) * 2020-09-04 2020-12-29 温州职业技术学院 一种多语言文化互动交流系统
CN113361265A (zh) * 2021-07-08 2021-09-07 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质
CN113361265B (zh) * 2021-07-08 2024-05-28 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102622592A (zh) * 2012-01-19 2012-08-01 北京友录在线科技发展有限公司 一种基于云技术的名片识别方法
CN106601253A (zh) * 2016-11-29 2017-04-26 肖娟 重要领域智能机器人文字播音朗读审核校对方法和系统
CN107220245A (zh) * 2016-03-21 2017-09-29 上海创歆信息技术有限公司 一种基于图像识别技术的古文字智能识别平台的实现方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102622592A (zh) * 2012-01-19 2012-08-01 北京友录在线科技发展有限公司 一种基于云技术的名片识别方法
CN107220245A (zh) * 2016-03-21 2017-09-29 上海创歆信息技术有限公司 一种基于图像识别技术的古文字智能识别平台的实现方法及系统
CN106601253A (zh) * 2016-11-29 2017-04-26 肖娟 重要领域智能机器人文字播音朗读审核校对方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150866A (zh) * 2020-09-04 2020-12-29 温州职业技术学院 一种多语言文化互动交流系统
CN113361265A (zh) * 2021-07-08 2021-09-07 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质
CN113361265B (zh) * 2021-07-08 2024-05-28 北京乐学帮网络技术有限公司 数据质量检验方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101419661B (zh) 基于图像中的文本进行图像显示的方法和系统
CN106354872B (zh) 文本聚类的方法及系统
CN107045632A (zh) 用于从成像文件提取文本的方法和设备
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN102779140A (zh) 一种关键词获取方法及装置
CN105069412A (zh) 一种数字化阅卷方法
JP2013238991A (ja) 情報処理装置、情報処理方法及びプログラム
CN112231522B (zh) 一种在线课程知识树的生成关联方法
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN110210470A (zh) 商品信息图像识别系统
CN106373447A (zh) 一种智能阅卷系统及方法
US9268769B1 (en) System, method, and computer program for identifying message content to send to users based on user language characteristics
CN109657096B (zh) 一种基于低学龄教学音视频的辅助统计报告生成方法
US20190057470A1 (en) Intellectual property supporting apparatus, intellectual property supporting method, and intellectual property supporting program
CN111209728A (zh) 一种试题自动标注录入方法
CN109858014A (zh) 语言信息主动校对系统及其主动校对方法
KR20130021684A (ko) 답안지 관리 시스템 및 그 방법
CN110113635B (zh) 一种自动播放推送消息的方法及系统
KR20180135171A (ko) 소셜 미디어용 컨텐츠 자동 포스팅 시스템 및 그 운용 방법
CN112822539B (zh) 信息显示方法、装置、服务器及存储介质
CN113641837A (zh) 一种展示方法及其相关设备
KR101794547B1 (ko) 단어장 자동 생성 및 학습훈련 시스템 및 방법
CN109858324A (zh) 语言图文识别系统及其实现方法
CN112954451A (zh) 视频人物添加信息的方法、装置、设备及存储介质
CN112699671A (zh) 一种语言标注方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607