CN105335356A - 一种面向语义识别的纸质翻译方法及翻译笔装置 - Google Patents

一种面向语义识别的纸质翻译方法及翻译笔装置 Download PDF

Info

Publication number
CN105335356A
CN105335356A CN201510714094.3A CN201510714094A CN105335356A CN 105335356 A CN105335356 A CN 105335356A CN 201510714094 A CN201510714094 A CN 201510714094A CN 105335356 A CN105335356 A CN 105335356A
Authority
CN
China
Prior art keywords
semantic
translation
coding
ocr
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510714094.3A
Other languages
English (en)
Other versions
CN105335356B (zh
Inventor
周相兵
段成
马洪江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABA Teachers University
Chengdu Univeristy of Technology
Original Assignee
ABA Teachers University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABA Teachers University filed Critical ABA Teachers University
Priority to CN201510714094.3A priority Critical patent/CN105335356B/zh
Publication of CN105335356A publication Critical patent/CN105335356A/zh
Application granted granted Critical
Publication of CN105335356B publication Critical patent/CN105335356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种面向语义识别的纸质翻译方法及翻译笔装置,该面向语义识别的纸质翻译方法包括如下步骤:(1)对英文字符进行基础性编码,建立字符编码库、规则库和字体库,将字符编码库、规则库和字体库进行组合及排列形成编码准备库;(2)利用OCR对待翻译的纸质英文进行扫描识别;(3)对完成识别的字符串利用编码准备库进行编码;(4)对编码后的字符串进行语义化处理,完成编码语义化描述;(5)利用OCR识别单词认知推理获得精确识别的英语单词;(6)将OCR精确识别的英语单词与电子词典连接,实现自动翻译。本发明相对于现有技术,将编码、语义处理、推理与传统的OCR结合,降低了传统的OCR文本识别所造成的误识率。

Description

一种面向语义识别的纸质翻译方法及翻译笔装置
技术领域
本发明属于语义识别及光学相结合的交叉领域,尤其涉及一种面向语义识别的纸质翻译方法及翻译笔装置。
背景技术
随着“互联网+”时代的到来,信息产业逐步成为支撑产业,人们的生活和思维模式已随之发生了重要变化,获取服务的方式从传统的面对面、电话联络等转向了互联网,实现了网上在线交易和支付;获取知识的方式也从传统的书本、字典、单一数据库等转向了互联网上。这样不仅可以快速在互联网上获取到满足自己需求的服务,而且还尽可能获取到更精确、有效的服务结果。而作为翻译领域,已成为人们同世界进一步融合的重要语言关,但由于不同的国家、地区所使用的语言是不同的,而英语作为国际标准,从而使得英语成为国际语言及文献、文档等交流的主流;作为非英语语言国家、地区的人们来说,仍不能熟悉、熟练使用英语来完成自己工作。因此,近年来基于互联网技术的电子翻译(鼠标取词)软件用来解决人们所遇到词汇量不大的问题,这些软件针对电子文档、文献和文件有很好的翻译结果,也能有效满足人们的工作和生活需求;但因纸质英语文献、文档和文件长期存在于人们的工作和生活中,使得这些电子翻译软件中的鼠标取词功能无法发挥其优势,要快速获取翻译结果就显得力不从心;这时要获取好的取词翻译结果,需要手动将单词输入到相关的翻译软件中,这样既延长了翻译时间,也无法获取好的连贯翻译结果;虽然这些翻译软件在互联网及相关网络支持下,通过移动智能终端也可以手动输入单词进行翻译,但仍存在输入麻烦,操作不方便等问题,就对纸质的英语文献的翻译带来了挑战,即怎样通过一种简捷的方式就可以轻松实现纸质英语文献互译。
现有技术中涉及的一些针对纸本文献的翻译设备,如实用新型专利CN203133843U,涉及一种翻译扫描笔,采用扫描笔端部的摄像头采集字符图像,然后调用识别库对图像识别为字符,虽实现了纸本文献的字符识别和翻译,但无法解决文本识别误识别率高的问题;另外,传统的OCR扫描纸质文献转换为文本,在实现特征提取、识别、向文本转换、对比等操作时,还有相当的误识率,而且在单词间的分辨也不够精确。
发明内容
针对现有技术存在的问题,本发明的主要目的在于提供一种降低纸质文本误识别率、自动进行纸质文本翻译的面向语义识别的纸质翻译方法及翻译笔装置。
本发明涉及一种面向语义识别的纸质翻译方法,该方法包括如下步骤(1)至步骤(6):
步骤(1)对英文字符进行基础性编码,建立字符编码库(CodeL)、规则库(RuleL)和字体库(FontL),将字符编码库、规则库和字体库进行组合及排列形成编码准备库(CodeL,RuleL,FontL);
步骤(2)利用OCR(OpticalCharacterRecognition)对待翻译的纸质英文进行扫描识别;
步骤(3)对完成识别的字符串利用编码准备库进行编码;
步骤(4)对编码后的字符串进行语义化处理,完成编码语义化描述;
步骤(5)利用OCR识别单词认知推理获得精确识别的英语单词;
步骤(6)将OCR精确识别的英语单词与电子词典连接,实现自动翻译。
进一步地,该步骤(4)对编码后的字符串进行语义化处理,完成编码语义化描述,包括如下步骤(4.1)至步骤(4.3):
步骤(4.1)利用字符编码库(CodeL)、规则库(RuleL)和字体库(FontL)完成语义操作OP(So,To,P),生成语义操作矩阵R,其中So表示语义源字符编码库CodeL,To表示语义目标源字体库FontL,P表示源与目标间的语义操作规则库RuleL;
步骤(4.2)利用描述逻辑DL(SOM,I,DLKB(Oi,Oj),Tableau)进行语义推理,其中SOM是语义运算符,I是语义运算的解释,DLKB(Oi,Oj)是语义运算的知识库,Tableau是语义计算的决策算法;
步骤(4.3)在语义推理的基础上完成语义决策。
更进一步地,该步骤(5)利用OCR识别单词认知推理获得精确识别的英语单词,包括如下步骤(5.1)至步骤(5.5):
步骤(5.1)将识别的字符串与语料库中的字符串进行相似度计算,构成相似记录矩阵,并获得最大的相似度值;
步骤(5.2)将步骤(5.1)的结果与编码语义化描述相结合进行认知Cog(DL,DL(U1,Event,U2))递归,其中Cog为认知,DL为描述逻辑,DL(U1,Event,U2)描述编码语义的认知递归流程至DL,以完成识别,消除误识率,U1为认知前状态,U2为认知后状态,Event为认知驱动事件,即由Event完成U1到U2认知状态改变;
步骤(5.3)对认知递归定义Rg(Cog,FOL)推理,FOL是推理一阶逻辑,推理Rg(Cog,FOL)是对认知运算的结果;
步骤(5.4)利用推理一阶逻辑FOL,实现DL运算SHOIQ(D)映射至FOL进行推理决策;
步骤(5.5)在推理过程中通过解释函数I将OCR误识别的字母替换掉,获得精确OCR识别英语单词。
更进一步地,该步骤(1)中规则库(RuleL)的主要内容包括RuleL=(SDN,CMP,SP,BP,NCP,FHP,FTP,EH),其中SDN为字符大小,CMP为编码方式处理,SP为字符串处理,BP为空格符/连接符处理,NCP为非字母符处理,FHP为全角半角处理,FTP为字体类型处理,EH为异常处理。
更进一步地,该步骤(5.1)将识别的字符串与语料库中的字符串进行相似度计算,具体方法为: S i m ( O c r c , c o r p u s ) = { ln ( e α l × e β h - e - β h e β h + e - β h ) O c r c ≠ c o r p u s 1 o t h e r , 其中Ocrc为识别的字符串,corpus为语料库中字符串,α≥0,β>0为系数,l=dist(C1,C2)为两概念间的最小距离,(C1,C2)指本体O(C,AC,R,AR,HC,X)中的C,h=length(C1,C2)为C1,C2的最小公共概念的深度。
本发明还涉及一种面向语义识别的翻译笔装置,包括笔形装置、翻译处理装置和显示处理装置,该笔形装置包含对待翻译的纸质英文进行扫描识别的OCR部件,该翻译处理装置包含翻译模块,该翻译模块包含:一编码准备库,编码准备库由对英文字符进行基础性编码的字符编码库、规则库和字体库进行组合及排列形成;对完成识别的字符串利用编码准备库进行编码的编码模块;对编码后的字符串进行语义化处理,完成编码语义化描述的语义化处理模块;利用OCR识别单词认知推理获得精确识别的英语单词的认知推理模块;将OCR精确识别的英语单词与电子词典连接,实现自动翻译的自动翻译模块。
进一步地,笔形装置与翻译处理装置通过USB接口进行对接。
更进一步地,显示处理装置包含支架,笔形装置包含支架扣,翻译处理装置与显示处理装置整合后通过支架固定于笔形装置的支架扣上。
更进一步地,显示处理装置包含一触摸显示屏设备。
相对于现有技术,本发明(1)提出了一种新的纸质翻译方法,将编码、语义处理、推理与传统的OCR结合,同时提出一种基于描述逻辑的语义编码推理机制,降低了传统的OCR文本识别所造成的误识率;(2)建立了编码规则库,整合了字符编码库、规则库与字体库,实现了字符识别编码过程;(3)提出了一种新的翻译笔装置,翻译笔的笔形装置与处理、显示装置可分离,大大提高了翻译笔的应用范围,分离后各自发挥新的用途,即笔形装置可以用于书写工作,翻译处理与显示装置可以电话及上网应用。
附图说明
图1是本发明面向语义识别的纸质翻译方法的流程图
图2是本发明面向语义识别的纸质翻译方法的示意图
图3是本发明对完成识别的字符串进行编码的流程图
图4是本发明编码语义化描述的流程图
图5是本发明OCR识别单词认知推理的流程图
图6是本发明自动翻译处理的流程图
图7是本发明翻译笔装置的笔形装置结构图
图8是本发明翻译笔装置的翻译处理装置结构图
图9是本发明翻译笔装置的显示处理装置结构图
具体实施方式
下面结合附图,详细说明本发明的具体实施方式。
如图1,图2所示,为本发明面向语义识别的纸质翻译方法的流程图和示意图,分别对英语大小字符编码,并基于本体进行编码语义化描述(制作成一种传感芯片,便于激光扫描端对接);用激光对纸质英文扫描识别及语义化认知后将翻译结果显示在显示屏上,具体来说,该面向语义识别的纸质翻译方法包括如下步骤(1)至步骤(6):
步骤(1):对英文字符进行基础性编码,建立字符编码库(CodeL)、规则库(RuleL)和字体库(FontL),将字符编码库、规则库和字体库进行组合及排列形成编码准备库(CodeL,RuleL,FontL),为OCR(光学识别字符)提供精确的识别处理做准备。其中①字符编码库(CodeL)主要由英语字符(26个英文大小字母)、空格、标点符号等组成,当前通用的字符编辑方式有ASCII、MBCS、GB2312、GBK、Big5、Unicode、UTF-8、Base64等,本发明中对字母编码就采用这些编码方式,默认编码为ASCII、GB2312,这些编码都是现成的,可以直接形成字符编码库直接使用;②规则库(RuleL)的主要内容包括RuleL=(SDN,CMP,SP,BP,NCP,FHP,FTP,EH),其中SDN为字符大小,用于处理字符串显示大小的编号,如几号字,定义为SDN=(9,10,11,12,13,14,15,16,17,18,19,20),由于激光扫描纸质文献的范围有限,不能处理所有大小字体的编号,本发明限定在9-20号之间;CMP为编码方式处理,用于选择及处理(连接相应的字符编码库)不同字符编码方式,即字符编码库中不同的字符编码方法,如ASCII、MBCS、GB2312、GBK、Big5、Unicode、UTF-8、Base64,定义为CMP=(1,2,3,4,5,6,7,8);SP为字符串处理,指对扫描纸质文献所得字母字符串及非字母字符串进行处理,以辨别出英语单词与非字母字符的区别,定义为SP=(21,22,23),21表示字母字符,22表示非字母字符,23表示字符串匹配;BP为空格符/连接符处理,BP是英语单词之间的分隔符/连接符,是扫描识别的分离符/连接符,定义为BP=(24,25),24表示空格符,指英语单词间的分隔;25表示连接符“-”,指单词之间的连接;NCP为非字母符处理,主要针对英语词组处理、单词遇到“”时的处理、加粗处理、斜体处理等;FHP为全角半角处理,主要用于辨别纸质文献上的英语单词被输入的方式,定义为FHP=(26,27),26表示全角,27表示半角;FTP为字体类型处理,由于纸质英文文献可能选择不同的字体(如TimesNewRoman字体),使得在纸质上的显示不同,FTP与字体库直接关联,定义为FTP=(28,…),28以后的数字表示不同的字体;EH为异常处理,当扫描纸质单词时,对无法识别的字符进行导常处理,直接交由语义推理处理;③字体库(FontL),指直接应用现有字体库中的编码,不同纸质文献所采用的字体类型不同,导致扫描识别的差异,这时需要规则库来判别。
步骤(2):利用OCR对待翻译的纸质英文进行扫描识别。OCR是针对印刷体字符,采用光学的方式将文档资料转换成为原始资料黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件进一步编辑加工的系统技术。
步骤(3):对完成识别的字符串利用编码准备库(CodeL,RuleL,FontL)进行编码,以便将光学字符识别(OCR)结果与编码准备库对应。如图3所示,在编码过程中制定如下编码规则:①编码由OCR激活;②编码过程仅由字符编码库、规则库和字体库组成;③相邻非字母字符和空格符/连接符间无法编码;④当在扫描时,字符编码库与字体库作为基础库(指通常不变库),即编码就是由规则库进行处理。具体的流程为:由OCR激活对字符串进行编码,判断是否已完成字符串的识别,若未完成识别,则返回开始编码步骤,若完成识别,则利用编码准备库进行字符编码,判断是否进行了规则库的异常处理,若否,则返回步骤利用编码准备库进行字符编码,若是,则OCR完成字符串的识别编码。
步骤(4):对编码后的字符串进行语义化处理,完成编码语义化描述,以提高识别的精度以及对误识别进行语义推理决策。如图4所示,基于本体语义化描述,本体O(C,AC,R,AR,HC,X),其中C表示概念,AC表示每个概念的属性,R表示概念间关系,AR表示每个关系的属性,HC表示概念层次,X表示O的公理。现将CodeL和FontL作为O的概念集C,CodeL和FontL属性作为C的属性AC,将R作为CodeL和FontL之间的对应编码关系,AR为CodeL和FontL间对应关系的属性,HC作为CodeL和FontL概念间的层次关系,X作为CodeL和FontL操作的公理RuleL,这样就实现了编码语义描述。步骤(4)包括如下步骤(4.1)至步骤(4.3):步骤(4.1)利用字符编码库(CodeL)、规则库(RuleL)和字体库(FontL)完成语义操作OP(So,To,P),生成语义操作矩阵R,其中So表示语义源字符编码库CodeL,To表示语义目标源字体库FontL,P表示源与目标间的语义操作规则库RuleL;判断是否进入语义操作模式OPM,若是,则进入步骤(4.2),若否,则返回步骤(4.1),语义操作模式OPM(op1,op2,…,opn)是指对编码语义化的操作方式,即使所得到的字符串进行语义操作方法,包括语义操作、语义推理两个步骤,遇每次OCR扫描激活就形成一个语义操作矩阵R,便于语义推理决策;步骤(4.2)利用描述逻辑DL(SOM,I,DLKB(Oi,Oj),Tableau)进行语义推理,其中SOM是语义运算符,通常由运算操作符组成,以在RuleL下实现CodeL和FontL关联操作。I是语义运算的解释,I={△I,△DI},△I表示非空的编码集或字体集,△D表示非空的操作集,·I表示对SOM的解释函数I(SOM)。DLKB(Oi,Oj)是语义运算的知识库,由知识操作概念、角色、概念公理(TBox)、角色公理(ABox)和断言公理组成,以实现语义计算过程的否定范式及转换规则实现;(Oi,Oj)表示本体化的CodeL和FontL。Tableau是语义计算的决策算法,该决策算法属于现有技术,整个决策过程是一个有向图形成过程;步骤(4.3)判断是否在语义推理的基础上完成了语义决策,若否,则返回步骤(4.2),若是,则完成了编码语义化描述,其中语义决策的过程为现有技术,具体语义决策方法参见《周相兵.用描述逻辑实现语义主题Web服务组合的方法[J].计算机应用,2010,30(10):2763-2767》。
步骤(5):利用OCR识别单词认知推理获得精确识别的英语单词。如图5所示,在完成字符串识别编码和语义化描述的基础上进行认知推理,以获得精确识别的英语单词。步骤(5)包括如下步骤(5.1)至步骤(5.5):步骤(5.1)识别PC(MP,Sim(Ocrc,corpus),M)操作,每一次OCR扫描时,都会执行一次识别操作:①将识别的字符串与现有英汉语料库中的字符串进行相似度计算,具体方法为: S i m ( O c r c , c o r p u s ) = { ln ( e α l × e β h - e - β h e β h + e - β h ) O c r c ≠ c o r p u s 1 o t h e r , 其中Ocrc为识别的字符串,corpus为现有英汉语料库中字符串,α≥0,β>0为系数,l=dist(C1,C2)为两概念间的最小距离,(C1,C2)指本体O(C,AC,R,AR,HC,X)中的C,h=length(C1,C2)为C1,C2的最小公共概念的深度,为了提高相似度计算速度,需要对现有英汉语料库中单词以英语字母的顺序依次排序,形成排序目录Catalog,然后将所识别到单词字符串在Catalog中进行比对,最后找到一组极为相似的单词;②相似度计算后构成相似记录矩阵MP,用来记录每次对比的相似度值;③获得最大的相似度值M=max(Sim(Ocrc,corpus)),以获得相对最为精确的字符串(英语单词),提高识别的精确度;步骤(5.2)将步骤(5.1)识别PC(MP,Sim(Ocrc,corpus),M)操作的结果与编码语义化描述相结合进行认知Cog(DL,DL(U1,Event,U2))递归,其中Cog为认知,DL为描述逻辑,DL(U1,Event,U2)描述编码语义的认知递归流程至DL,以完成识别,消除误识率,U1为认知前状态,U2为认知后状态,Event为认知驱动事件,即由Event完成U1到U2认知状态改变;步骤(5.3)对认知递归定义Rg(Cog,FOL)推理,FOL(First-OrderLogic)是推理一阶逻辑,实现DL运算SHOIQ(D)映射至FOL进行推理决策,推理Rg(Cog,FOL)是对认知运算的结果,以获得更加精确的英语单词,SHOIQ(D)为一种描述运算的推理语言;步骤(5.4)利用推理一阶逻辑FOL,实现DL运算SHOIQ(D)映射至FOL进行推理决策,判断是否完成推理决策,若否,返回步骤(5.2),若是,进入步骤(5.5);步骤(5.5)在推理过程中通过解释函数I将OCR误识别的字母替换掉,获得OCR精确识别的英语单词。
步骤(6):将OCR精确识别的英语单词与电子词典连接,实现自动翻译。即将精确化处理的单词与互联网上主流词典连接,实现自动翻译,并将翻译结果显示出来。如图6所示,包括如下步骤:①OCR识别的推理结果与翻译联网模块相连接,联网模块由GSM制式与WIFI两种联网模块(GSM与WIFI芯片)组成,以便在网上实现单词查询,当未启动联网设置时,提示启动联网才能翻译单词结果;②翻译联网匹配,将所得的精确单词与联网的电子词典连接,即通过电子词典的接口直接将所得精确单词进行在线翻译;③当匹配成功,将在线翻译结果分屏显示在显示屏上供用户查看更精确的翻译结果,当匹配不成功,重新连接翻译联网模块。
本发明的面向语义识别的翻译笔装置,包括笔形装置、翻译处理装置和显示处理装置,其中翻译处理装置与显示处理装置整合在一起,笔形装置与翻译处理装置通过USB接口进行对接。
如图7所示,笔形装置主要由扫描装置、光学传感器、数据传输装置、OCR部件、圆珠笔弹簧装置和圆珠笔笔芯、控制切换开关、USB接口、锂电池组、支架扣、充电连接线组成。其中(1)扫描装置用于对纸质文献的扫描;(2)光学传感器用于将扫描结果返回至OCR部件;(3)数据传输装置对整个扫描过程所得的数据进行传输到不同的部件中,以便于处理;(4)OCR部件用于对待翻译的纸质英文进行扫描识别,即对扫描的图像结果进行转换、处理成文本字体,属于硬件与软件结合,通常需要与翻译处理装置联合使用;(5)圆珠笔芯指普通的圆珠笔芯;(6)控制切换开关用于打开扫描装置,同时用于切换扫描装置与圆珠笔应用;(7)USB接口用于充电及数据传输的接口,即给锂电池组充电,另外用于将扫描转换后的数据传输至翻译处理装置中;(8)锂电池组用于扫描转换供电;(9)支架扣用于支撑翻译处理装置与显示处理装置,翻译处理装置与显示处理装置整合后通过支架固定于笔形装置的支架扣上,支架与支架口直接扣上即可,同时二者可拆卸。
如图8、图9所示,翻译处理装置与显示处理装置整合在一起。主要由主板、中央处理器模块、翻译模块、语料库单元、联网装置、USB接口、数据传输装置、在线翻译接口、存储单元、通信装置及电话卡槽、数据总线装置、触摸显示屏设备、声控调控、锂电池组、安卓操作系统等组成。(1)主板用于集成所有的翻译处理装置与显示处理装置所属部件、单元等;(2)中央处理器模块即移动设备的中央处理器CPU;(3)翻译模块,翻译模块包含一编码准备库,编码准备库由对英文字符进行基础性编码的字符编码库、规则库和字体库进行组合及排列形成;对完成识别的字符串利用编码准备库进行编码的编码模块;对编码后的字符串进行语义化处理,完成编码语义化描述的语义化处理模块;利用OCR识别单词认知推理获得精确识别的英语单词的认知推理模块;将OCR精确识别的英语单词与电子词典连接,实现自动翻译的自动翻译模块;(4)语料库单元即已有的英语互译基本语言库;(5)联网装置指连接WIFI、移动网络的硬件芯片及应用驱动;(6)USB接口用于充电、连接笔形装置及数据传输等;(7)数据传输装置用于将OCR转换后的文档传输至翻译处理装置中;(8)在线翻译接口指电子词典翻译接口;(9)存储单元,指内存、存储卡,用于存储英汉语料库、安装安卓操作系统及其他软件等;(10)通信装置及电话卡槽,用于移动通信以及电话卡插槽,也可双卡;(11)触摸显示屏设备,用于显示文本识别和翻译的结果,特别地,当不用翻译时,可以用于智能电话机,需要翻译时,直接插入到笔形装置中即可,即本发明翻译装置可以适合于任何智能手机,只需要安装本发明的翻译模块即可,这样大大减少了本发明的成本,这时需要一种连接USB接口的兼容处理装置;(12)声控调控,安装声音及相关装置,用于翻译时、通话时的语音等;(13)锂电池组用于支撑翻译处理装置与显示处理装置应用的充电电池组;(14)操作系统,如安卓操作系统,指安装在翻译处理装置与显示处理装置上的移动操作系统;(15)数据总线装置,指位于主板上的一种数据传输装置;(16)支架,用于将翻译处理装置与显示处理装置固定于笔形装置上。
可以将本发明的翻译方法及翻译笔应用于各种场合,下面以一个旅游应用为例进行说明:(1)将现有的字符编码及字体编码库写入到存储单元中;(2)将本发明的纸质翻译方法由Java或其他程序完成,检查网络是否连接,并与目前主流电子词典接口写入程序中;(3)集成笔形装置,再集成翻译处理及显示装置,并将安卓操作系统安装翻译处理装置上;(4)将笔形装置与集成翻译处理、显示装置对接,形成翻译笔,当不用作翻译时,可取下翻译与显示处理,用于电话、上网使用;(5)形成的翻译笔便于国际旅游,既可用作笔做记录,也可以用作翻译,还可用作电话、上网使用。
以上介绍了一种面向语义识别的纸质翻译方法及翻译笔装置,本发明的翻译方法分别对字符进行编码及基于本体的语义实行编码描述,采用红外对英文单词及英语句进行扫描,用光学传感器将扫描结果直接至OCR部件,接着通过OCR与语料库/连网语料接口进行对比及语义化识别(自动识别是单词还是句子),然后与ARM相连的显示屏显示翻译结果,并进行保存,若需要还可通过语音的方法将结果返回给操作者。同时,还可通过联网/蓝牙等方式将被翻译词及翻译结果返回至移动设备或电脑中,以便后续再应用。本发明的翻译方法将OCR转换结果与DL(DescriptionLogic)结合进行认知识别、推理,以获得更为精确的英语单词,降低了OCR转换后的误识率。本发明并不限定于以上实施例。任何未脱离本发明技术方案,即仅仅对其进行本领域普通技术人员所知悉的改进或变更,均属于本发明的保护范围之内。

Claims (9)

1.一种面向语义识别的纸质翻译方法,其特征在于,所述方法包括如下步骤:
步骤(1)对英文字符进行基础性编码,建立字符编码库(CodeL)、规则库(RuleL)和字体库(FontL),将字符编码库、规则库和字体库进行组合及排列形成编码准备库(CodeL,RuleL,FontL);
步骤(2)利用OCR对待翻译的纸质英文进行扫描识别;
步骤(3)对完成识别的字符串利用编码准备库进行编码;
步骤(4)对编码后的字符串进行语义化处理,完成编码语义化描述;
步骤(5)利用OCR识别单词认知推理获得精确识别的英语单词;
步骤(6)将OCR精确识别的英语单词与电子词典连接,实现自动翻译。
2.如权利要求1所述的面向语义识别的纸质翻译方法,其特征在于,所述步骤(4)对编码后的字符串进行语义化处理,完成编码语义化描述,包括如下步骤(4.1)至步骤(4.3):
步骤(4.1)利用字符编码库(CodeL)、规则库(RuleL)和字体库(FontL)完成语义操作OP(So,To,P),生成语义操作矩阵R,其中So表示语义源字符编码库CodeL,To表示语义目标源字体库FontL,P表示源与目标间的语义操作规则库RuleL;
步骤(4.2)利用描述逻辑DL(SOM,I,DLKB(Oi,Oj),Tableau)进行语义推理,其中SOM是语义运算符,I是语义运算的解释,DLKB(Oi,Oj)是语义运算的知识库,Tableau是语义计算的决策算法;
步骤(4.3)在语义推理的基础上完成语义决策。
3.如权利要求2所述的面向语义识别的纸质翻译方法,其特征在于,所述步骤(5)利用OCR识别单词认知推理获得精确识别的英语单词,包括如下步骤(5.1)至步骤(5.5):
步骤(5.1)将识别的字符串与语料库中的字符串进行相似度计算,构成相似记录矩阵,并获得最大的相似度值;
步骤(5.2)将步骤(5.1)的结果与编码语义化描述相结合进行认知Cog(DL,DL(U1,Event,U2))递归,其中Cog为认知,DL为描述逻辑,DL(U1,Event,U2)描述编码语义的认知递归流程至DL,以完成识别,消除误识率,U1为认知前状态,U2为认知后状态,Event为认知驱动事件,即由Event完成U1到U2认知状态改变;
步骤(5.3)对认知递归定义Rg(Cog,FOL)推理,FOL是推理一阶逻辑,推理Rg(Cog,FOL)是对认知运算的结果;
步骤(5.4)利用推理一阶逻辑FOL,实现DL运算SHOIQ(D)映射至FOL进行推理决策;
步骤(5.5)在推理过程中通过解释函数I将OCR误识别的字母替换掉,获得OCR精确识别的英语单词。
4.如权利要求3所述的面向语义识别的纸质翻译方法,其特征在于,所述步骤(1)中规则库(RuleL)的主要内容包括RuleL=(SDN,CMP,SP,BP,NCP,FHP,FTP,EH),其中SDN为字符大小,CMP为编码方式处理,SP为字符串处理,BP为空格符/连接符处理,NCP为非字母符处理,FHP为全角半角处理,FTP为字体类型处理,EH为异常处理。
5.如权利要求4所述的面向语义识别的纸质翻译方法,其特征在于,所述步骤(5.1)将识别的字符串与语料库中的字符串进行相似度计算,具体方法为: S i m ( O c r c , c o r p u s ) = l n ( e α l × e β h - e - β h e β h + e - β h ) O c r c ≠ c o r p u s 1 o t h e r , 其中Ocrc为识别的字符串,corpus为语料库中字符串,α≥0,β>0为系数,l=dist(C1,C2)为两概念间的最小距离,(C1,C2)指本体O(C,AC,R,AR,HC,X)中的C,h=length(C1,C2)为C1,C2的最小公共概念的深度。
6.一种面向语义识别的翻译笔装置,包括笔形装置、翻译处理装置和显示处理装置,所述笔形装置包含对待翻译的纸质英文进行扫描识别的OCR部件,其特征在于,所述翻译处理装置包含翻译模块,所述翻译模块包含:
编码准备库,所述编码准备库由对英文字符进行基础性编码的字符编码库、规则库和字体库进行组合及排列形成;
对完成识别的字符串利用编码准备库进行编码的编码模块;
对编码后的字符串进行语义化处理,完成编码语义化描述的语义化处理模块;
利用OCR识别单词认知推理获得精确识别的英语单词的认知推理模块;
将OCR精确识别的英语单词与电子词典连接,实现自动翻译的自动翻译模块。
7.如权利要求6所述的面向语义识别的翻译笔装置,所述笔形装置与翻译处理装置通过USB接口进行对接。
8.如权利要求7所述的面向语义识别的翻译笔装置,所述显示处理装置包含支架,所述笔形装置包含支架扣,所述翻译处理装置与显示处理装置整合后通过支架固定于笔形装置的支架扣上。
9.如权利要求8所述的面向语义识别的翻译笔装置,所述显示处理装置包含一触摸显示屏设备。
CN201510714094.3A 2015-10-28 2015-10-28 一种面向语义识别的纸质翻译方法及翻译笔装置 Active CN105335356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510714094.3A CN105335356B (zh) 2015-10-28 2015-10-28 一种面向语义识别的纸质翻译方法及翻译笔装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510714094.3A CN105335356B (zh) 2015-10-28 2015-10-28 一种面向语义识别的纸质翻译方法及翻译笔装置

Publications (2)

Publication Number Publication Date
CN105335356A true CN105335356A (zh) 2016-02-17
CN105335356B CN105335356B (zh) 2018-04-17

Family

ID=55285901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510714094.3A Active CN105335356B (zh) 2015-10-28 2015-10-28 一种面向语义识别的纸质翻译方法及翻译笔装置

Country Status (1)

Country Link
CN (1) CN105335356B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239449A (zh) * 2017-06-08 2017-10-10 锦州医科大学 一种英语识别方法和翻译方法
CN110046361A (zh) * 2019-06-03 2019-07-23 杭州轻寻科技有限公司 一种具有全版面快速翻译功能的翻译笔
CN110059705A (zh) * 2019-04-22 2019-07-26 厦门商集网络科技有限责任公司 一种基于建模的ocr识别结果判决方法和设备
CN113076939A (zh) * 2020-01-06 2021-07-06 Sap欧洲公司 语境化字符识别系统
CN113743102A (zh) * 2021-08-18 2021-12-03 百度在线网络技术(北京)有限公司 识别字符的方法、装置以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080159657A1 (en) * 2007-01-03 2008-07-03 International Business Machines Corporation Method and system for nano-encoding and decoding information related to printed texts and images on paper and other surfaces
CN101241547A (zh) * 2007-08-22 2008-08-13 中国人民解放军国防科学技术大学 一种便携式扫描学习装置
CN103198060A (zh) * 2013-02-26 2013-07-10 歌尔声学股份有限公司 智能翻译扫描笔
CN203133843U (zh) * 2013-02-26 2013-08-14 歌尔声学股份有限公司 智能翻译扫描笔
CN104157171A (zh) * 2014-08-13 2014-11-19 三星电子(中国)研发中心 一种点读系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080159657A1 (en) * 2007-01-03 2008-07-03 International Business Machines Corporation Method and system for nano-encoding and decoding information related to printed texts and images on paper and other surfaces
CN101241547A (zh) * 2007-08-22 2008-08-13 中国人民解放军国防科学技术大学 一种便携式扫描学习装置
CN103198060A (zh) * 2013-02-26 2013-07-10 歌尔声学股份有限公司 智能翻译扫描笔
CN203133843U (zh) * 2013-02-26 2013-08-14 歌尔声学股份有限公司 智能翻译扫描笔
CN104157171A (zh) * 2014-08-13 2014-11-19 三星电子(中国)研发中心 一种点读系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏勇 等: "基于OCR与词形状编码的英文扫描文档检索", 《模式识别与人工智能》 *
彭志明 等: "基于OCR的人机交互界面翻译系统", 《计算机应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239449A (zh) * 2017-06-08 2017-10-10 锦州医科大学 一种英语识别方法和翻译方法
CN110059705A (zh) * 2019-04-22 2019-07-26 厦门商集网络科技有限责任公司 一种基于建模的ocr识别结果判决方法和设备
CN110046361A (zh) * 2019-06-03 2019-07-23 杭州轻寻科技有限公司 一种具有全版面快速翻译功能的翻译笔
CN113076939A (zh) * 2020-01-06 2021-07-06 Sap欧洲公司 语境化字符识别系统
CN113076939B (zh) * 2020-01-06 2024-05-03 Sap欧洲公司 语境化字符识别系统
CN113743102A (zh) * 2021-08-18 2021-12-03 百度在线网络技术(北京)有限公司 识别字符的方法、装置以及电子设备
CN113743102B (zh) * 2021-08-18 2023-09-01 百度在线网络技术(北京)有限公司 识别字符的方法、装置以及电子设备

Also Published As

Publication number Publication date
CN105335356B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN105335356B (zh) 一种面向语义识别的纸质翻译方法及翻译笔装置
JP2007122383A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CN102023972A (zh) 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法
CN104239289B (zh) 音节划分方法和音节划分设备
US20200192982A1 (en) Methods, computer readable media, and systems for machine translation between arabic and arabic sign language
CN109830231B (zh) 会话处理方法、装置和存储介质
CN101561725A (zh) 一种手写快速输入的方法和系统
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
RU2688758C1 (ru) Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале
CN102609410B (zh) 规范文档辅助写作系统及规范文档生成方法
CN114528840A (zh) 融合上下文信息的中文实体识别方法、终端及存储介质
CN111709431B (zh) 即时翻译方法、装置、计算机设备和存储介质
KR102142238B1 (ko) 소정 이미지에 포함된 축약어, 손글씨, 비정형 단어 및 문장과 같은 텍스트 정보를 추출한 후 그 추출 결과를 소정 언어로 자동 번역하는 방법
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
Che et al. A word segmentation method of ancient Chinese based on word alignment
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN102591477A (zh) 一种短句录入的选字方法及装置
CN111597827B (zh) 一种提高机器翻译准确度的方法及其装置
CN114067362A (zh) 基于神经网络模型的手语识别方法、装置、设备及介质
JP7418761B2 (ja) 画像と文字との混在文章を生成する装置
TWI637278B (zh) 申請專利範圍的電腦自動翻譯裝置
CN113487698B (zh) 基于双通道神经网络模型的表单生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180116

Address after: Three road 610059 Sichuan city of Chengdu province Chenghua District Erxian Qiaodong No. 1

Applicant after: Chengdu University of Technology

Applicant after: ABA TEACHERS UNIVERSITY

Address before: 623002 Sichuan Aba Tibetan and Qiang Autonomous Prefecture Wenchuan County Shuimo town

Applicant before: ABA TEACHERS UNIVERSITY

GR01 Patent grant
GR01 Patent grant