CN102609408B - 基于多文种文档图像识别的跨文种理解方法 - Google Patents

基于多文种文档图像识别的跨文种理解方法 Download PDF

Info

Publication number
CN102609408B
CN102609408B CN201210007729.2A CN201210007729A CN102609408B CN 102609408 B CN102609408 B CN 102609408B CN 201210007729 A CN201210007729 A CN 201210007729A CN 102609408 B CN102609408 B CN 102609408B
Authority
CN
China
Prior art keywords
text
lingual
sentence
source document
document kind
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210007729.2A
Other languages
English (en)
Other versions
CN102609408A (zh
Inventor
彭良瑞
丁晓青
苏冰
刘长松
方驰
文迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210007729.2A priority Critical patent/CN102609408B/zh
Publication of CN102609408A publication Critical patent/CN102609408A/zh
Application granted granted Critical
Publication of CN102609408B publication Critical patent/CN102609408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于多文种文档图像识别的跨文种理解方法,包括以下步骤:获取源文种的文档扫描图像,通过多文种文档图像识别途径对所述文档扫描图像进行处理,以得到源文种识别文本;对所述源文种识别文本进行分句处理;利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换,获得目标文种文本;对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。本发明能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示,为用户提供了各文种、各民族文字信息的获取、保存、交流与转换功能,便于用户实现跨文种的文档理解。

Description

基于多文种文档图像识别的跨文种理解方法
技术领域
本发明涉及文本图像识别与分析领域,特别是涉及一种基于多文种文档图像识别的跨文种理解方法。
背景技术
我国作为一个具有悠久历史的多民族大国,55个少数民族约占全国人口总数的8%,分布在占全国总面积50%-60%的土地上。少数民族语言分属汉藏、阿尔泰、南亚、南岛和印欧等几大语系,使用人数较多且影响较广的少数民族文字以蒙古文、藏文、维吾尔文为代表。蒙古文、藏文、维吾尔文是非拉丁字母、非汉字体系的文字,民族文字识别与翻译理解技术是构建各民族文化信息化交流渠道的重要基础。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是提供一种多文种文档识别与翻译理解的跨文种一体化技术,实现各民族文字信息的获取、保存、交流与转换。
(二)技术方案
为了解决上述技术问题,本发明提供一种基于多文种文档图像识别的跨文种理解方法,其包括以下步骤:
获取源文种的文档扫描图像,通过多文种文档图像识别途径对所述文档扫描图像进行处理,以得到源文种识别文本;
对所述源文种识别文本进行分句处理;
利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换,获得目标文种文本;
对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。
其中,所述多文种文档图像识别途径具体包括:将获取的所述文档扫描图像输入多文种文档图像识别模块中,对所述文档扫描图像依次进行版面分析、文本行切分、字符切分和识别,得到所述文档扫描图像的文本代码。
其中,所述分句处理具体包括:对所述源文种识别文本进行断句和整理,使得原版式上换行断开的句子合并,重新从标点符号处断开文本。
其中,基于词的源文种识别文本转换具体包括:记源文种为A,目标文种为B,根据B的检索词或指定检索词组,从所述文本翻译理解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条组,在所述源文种识别文本中匹配查询,并记录匹配结果。
其中,所述显示输出具体包括:将所述匹配结果在所述源文种识别文本中高亮显示,同时将A和B双语对照的词条内容列表显示出来;或者,将所述匹配结果在所述文档扫描图像上标记显示,同时将A和B双语对照的词条内容列表显示出来。
其中,基于句子的源文种识别文本转换具体包括:采用基于句子的翻译模块,实现句子的翻译转换。
其中,所述显示输出具体包括:将翻译转换后的目标文种文本与源文种识别文本按句交替显示。
其中,所述显示输出具体还包括:目标文种文本与源文种识别文本按句交替显示时,在目标文种文本中选中某句时,将该句在所述文档扫描图像上标记显示。
(三)有益效果
上述技术方案所提供的基于多文种文档图像识别的跨文种理解方法,能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示,为用户提供了跨文种的文档翻译理解功能,实现各文种、各民族文字信息的获取、保存、交流与转换功能,便于用户实现跨文种的文档理解。
附图说明
图1是本发明实施例的基于多文种文档图像识别的跨文种理解方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本实施例的基于多文种文档图像识别的跨文种理解方法的流程图,参照图示,该方法包括如下步骤:
第一步:获取源文种的文档扫描图像,通过多文种文档图像识别途径对所述文档扫描图像进行处理,以得到源文种识别文本;
第二步:对所述源文种识别文本进行分句处理;
第三步:利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换,获得目标文种文本;
第四步:对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。
在第一步中,采用多文种文档图像识别(又称文字识别或光学字符识别,Optical Character Recognition,OCR)技术,对扫描得到的报纸、书籍等文档扫描图像进行识别,具体过程包括:将获取的所述文档扫描图像输入多文种文档图像识别模块中,进一步对其依次进行版面分析、文本行切分、文字切分和识别,得到文档扫描图像文本代码,将结果保存在文本文件中,同时记录文字在原始图像上的对应位置信息,如字符图像外接矩形框的顶点坐标。本实施例中的识别支持的文种如汉、英、蒙古、藏、维吾尔、哈萨克、柯尔克孜、阿拉伯、朝鲜文等。
其中,版面分析通过连通域分析、投影分析或纹理分析等方法,将文档扫描图像分割成同质的区域,包括文本、表格、图片等区域,文本区域包括横排文本和竖排文本。
文本行切分通过连通域分析、投影分析等方法将文本区域分割为单个文本行。
在单个文本行的文字识别过程中,通过连通域分析、轮廓分析等方法分离出文字识别的基本单元,对其进行识别。根据识别方法的不同,文字识别的基本单元可以是字符、字符部件或单词等。
识别结果为字符代码,存入文本文件,形成源文种识别文本,其他信息也存入文件进行保存,包括文字在原始图像上的对应位置信息,如字符图像外接矩形框的顶点坐标。
在第二步中,进行分句处理对源文种识别文本进行断句。由于源文种识别文本每行对应原始文档扫描图像中的一行,每一行的长短不一,很多句子在行间断开,一行中也可能包含多个句子,需要对识别出的源文种识别文本进行断句和整理,使得原版式上换行断开的句子合并,重新从标点符号处断开文本。
分句具体过程包括,循环读入源文种识别文本中每一行,在每一行读入的字符串中从前向后依次搜索句末标点,找到句末标点,则在输出文件中输出前面的字符串,换行并在原字符串中删除句末标点之前的字符串,然后继续搜索,直到读入的这一行字符串的结尾;如果处理到该行结束时没有遇到句末标点,则将剩余字符串内容直接输出到输出文件,但不换行;对每一行都做这样的处理,直到文本文件处理结束。断句后的文本另存入一个文件。
句子分离的标志是标点,本系统中认为是标志句子分段结束的句末标点包括:逗号、句号、冒号、分号、问号、感叹号、双引号和括号的右半边等。有些句子结束之后会跟后一个句子开头的标点相连,比如双引号或括号左半边,因此这些标点符号不能作为句末标点。为对各文种中的特定标点具有较好的扩展性,可在处理过程中自定义添加标点符号。
有些句子可能出现多个句末有多个标点的情况,比如表示惊叹时将感叹号和问号连用,句号后边接着双引号的后半边,或者识别时将句末标点前面一个字符误识为标点符号。因此系统在搜索找到第一个句末标点时不立即停止搜索,而是继续往后搜索,直到不是句末标点为止。
在第三步中,对分句处理后的源文种识别文本进行转换有两种途径:
途径一:记源文种为A,目标文种为B,根据B的检索词或指定检索词组,从所述文本翻译理解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条组,在所述源文种识别文本中匹配查询,并将匹配结果记录下来,其中词典可以为通用词典或自定义词典。
以藏汉跨文种理解为例,对输入的汉语检索词,在词典数据库每个藏文词条的各汉语解释中逐项查找,如果某个汉语解释中包含要查找的检索词,认为找到了一个对应的藏文词条,直到词典中所有藏文词条查询完毕。系统对每一个找到的藏文词条建立一个藏汉信息节点,节点成员包括:关键词编号、对应藏文单词、对应藏文单词长度、相应汉语翻译、汉语翻译长度、单词分类和单词分类长度。本系统还设计了专门的查询结果节点结构来保存相应的查询结果,节点成员包括:关键词的编号、关键词在文本中行数、关键词在文本中的列数、关键词在全文中的位置、关键词的长度。
对于找到的每一个藏文词条,在藏文文本中进行查找,该词条每出现一次则新建一个查询结果节点,直到所有的词条查找完毕。返回所有与中文检索词对应的藏文词条在文档中出现的次数和所有查询结果节点。
本系统使用的藏汉词典格式包括藏文单词,词性,一个或多个汉语翻译。目前由于藏汉词典大多是解释描述性的,缺乏一一对应的准确汉语词语翻译,这给直接从藏汉词典词义中完全匹配检索词造成很大的困难。本系统中,词典作为数据库,系统通过ODBC接口与词典数据库相连,使用结构化查询语言(SQL)进行模糊查询。在解释性藏汉词典中进行初步模糊查询的策略是只要一个藏文词条的任何一条解释性的语言中出现了要查询的词,就认为该藏文词条包含要查询的汉语检索词。
此外,用户可以建立自定义词典文件,格式为:″藏文词条″,″汉语意思1″,″汉语意思2″,...可以给每个藏文词条添加多个汉语意思,只需要用英文双引号括起来,每个汉语意思之间用英文逗号隔开。当用户指定用自定义词典进行理解查询时,则对词表中每一个藏文词条建立一个藏汉信息节点,随后在藏文文本中一次检索所有的藏文词条。
途径二:采用基于句子的翻译模块,对分句处理后的源文种文本按句实现翻译转换,本实施例可采用常规统计机器翻译模块进行翻译转换。
在第四步中,支持双语文本或图文对照显示方法,包括两种显示模式,一种为文本显示模式,若采用上述途径一,则将匹配的结果词条在源文种识别文本中高亮显示,同时将A和B双语对照的词条内容列表显示出来;若采用途径二,则将翻译转换后的目标文种文本与源文种识别文本按句交替显示;另一种为图像显示模式,根据文档扫描图像识别过程中所获得的文本在图像上的对应位置,若采用途径一,则将匹配的结果词条在原文档扫描图像上标记显示,同时将A和B双语对照的词条内容列表显示出来;若采用途径二,不仅将翻译转换后的目标文种文本与源文种识别文本按句交替显示,还可以在目标文种文本中选中某句时,将该句在所述文档扫描图像上标记显示。
由以上实施例可以看出,本发明实施例能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示,为用户提供了跨文种的文档翻译理解方法,实现了各文种、各民族文字信息的获取、保存、交流与转换功能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (1)

1.一种基于多文种文档图像识别的跨文种理解方法,其特征在于,包括以下步骤:
获取源文种的文档扫描图像,通过多文种文档图像识别途径对所述文档扫描图像进行处理,以得到源文种识别文本;
所述多文种文档图像识别途径具体包括:将获取的所述文档扫描图像输入多文种文档图像识别模块中,对所述文档扫描图像依次进行版面分析、文本行切分、字符切分和识别,得到所述文档扫描图像的文本代码;
对所述源文种识别文本进行分句处理;
利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换,获得目标文种文本;
基于词的源文种识别文本转换具体包括:记源文种为A,目标文种为B,根据B的检索词或指定检索词组,从所述文本翻译理解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条组,在所述源文种识别文本中匹配查询,并记录匹配结果;
基于句子的源文种识别文本转换具体包括:采用基于句子的翻译模块,实现句子的翻译转换;
对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出;
所述显示输出具体包括:将所述匹配结果在所述源文种识别文本中高亮显示,同时将A和B双语对照的词条内容列表显示出来;或者,将所述匹配结果在所述文档扫描图像上标记显示,同时将A和B双语对照的词条内容列表显示出来;
所述分句处理具体包括:对所述源文种识别文本进行断句和整理,使得原版式上换行断开的句子合并,重新从标点符号处断开文本;
所述显示输出具体还包括:将翻译转换后的目标文种文本与源文种识别文本按句交替显示,目标文种文本与源文种识别文本按句交替显示时,在目标文种文本中选中某句时,将该句在所述文档扫描图像上标记显示。
CN201210007729.2A 2012-01-11 2012-01-11 基于多文种文档图像识别的跨文种理解方法 Active CN102609408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210007729.2A CN102609408B (zh) 2012-01-11 2012-01-11 基于多文种文档图像识别的跨文种理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210007729.2A CN102609408B (zh) 2012-01-11 2012-01-11 基于多文种文档图像识别的跨文种理解方法

Publications (2)

Publication Number Publication Date
CN102609408A CN102609408A (zh) 2012-07-25
CN102609408B true CN102609408B (zh) 2014-11-26

Family

ID=46526791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210007729.2A Active CN102609408B (zh) 2012-01-11 2012-01-11 基于多文种文档图像识别的跨文种理解方法

Country Status (1)

Country Link
CN (1) CN102609408B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853741A (zh) * 2012-11-29 2014-06-11 英业达科技有限公司 中文词句的词汇查询系统及其方法
CN104951450A (zh) * 2014-03-26 2015-09-30 国际商业机器公司 用于信息处理的方法和系统
CN104715233A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 字符转换的方法及系统
CN106372639B (zh) * 2016-08-19 2019-03-08 西安电子科技大学 基于形态学与积分投影的印刷体维吾尔文文档切分方法
CN106599083A (zh) * 2016-11-24 2017-04-26 海南州云藏藏文信息技术有限公司 云藏藏文搜索引擎服务系统
CN106855854A (zh) * 2016-12-29 2017-06-16 北京奇虎科技有限公司 一种英文信息的识别方法和装置
CN110059563B (zh) * 2019-03-19 2023-09-12 创新先进技术有限公司 一种文本处理方法和装置
CN110334712A (zh) * 2019-06-11 2019-10-15 广州市小篆科技有限公司 智能穿戴终端、云端服务器和数据处理方法
CN110287830A (zh) * 2019-06-11 2019-09-27 广州市小篆科技有限公司 智能穿戴终端、云端服务器和数据处理方法
CN110598186A (zh) * 2019-07-31 2019-12-20 浙江口碑网络技术有限公司 图像识别的辅助处理方法、装置及系统
CN110569830B (zh) * 2019-08-01 2023-08-22 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN113392847B (zh) * 2021-06-17 2023-12-05 拉萨搻若文化艺术产业开发有限公司 一种藏汉英三语ocr手持扫描翻译装置及翻译方法
CN114202647B (zh) * 2022-02-16 2022-07-05 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
JP4428266B2 (ja) * 2005-03-22 2010-03-10 富士ゼロックス株式会社 翻訳装置およびプログラム
JP4626777B2 (ja) * 2008-03-14 2011-02-09 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
CN102609408A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102609408B (zh) 基于多文种文档图像识别的跨文种理解方法
Piotrowski Natural language processing for historical texts
US7783472B2 (en) Document translation method and document translation device
US7668814B2 (en) Document management system
US20060217959A1 (en) Translation processing method, document processing device and storage medium storing program
Saady et al. Amhcd: A database for amazigh handwritten character recognition research
Ahmad et al. Kpti: Katib's pashto text imagebase and deep learning benchmark
CN110688863B (zh) 一种文档翻译系统及文档翻译方法
CN101436308A (zh) 一种用于交互式公式排版软件的公式输入方法及系统
CN112765999A (zh) 机器翻译双语对照方法及系统
Toselli et al. Transcribing a 17th-century botanical manuscript: Longitudinal evaluation of document layout detection and interactive transcription
Camps et al. Handling heavily abbreviated manuscripts: Htr engines vs text normalisation approaches
Cascianelli et al. Learning to read L’Infinito: handwritten text recognition with synthetic training data
Zahir IADD: An integrated Arabic dialect identification dataset
Sturgeon Large-scale Optical Character Recognition of pre-modern Chinese texts
CN101034394B (zh) 一种提高翻译效率的系统及方法
CN109445900B (zh) 用于图片显示的翻译方法和装置
Abdalla et al. A vast dataset for Kurdish handwritten digits and isolated characters recognition
Choudhary et al. An annotated Urdu corpus of handwritten text image and benchmarking of corpus
Long et al. Longest matching and rule-based techniques for Khmer word segmentation
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Arnold Multilingual research projects: Challenges for making use of standards, authority files, and character recognition
Soheili et al. Sub-word image clustering in Farsi printed books
Mohammad et al. Printed Arabic optical character segmentation
Lin et al. Fast document image comparison in multilingual corpus without OCR

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant