CN108491441A - 一种盲文信息统计系统 - Google Patents

一种盲文信息统计系统 Download PDF

Info

Publication number
CN108491441A
CN108491441A CN201810146441.0A CN201810146441A CN108491441A CN 108491441 A CN108491441 A CN 108491441A CN 201810146441 A CN201810146441 A CN 201810146441A CN 108491441 A CN108491441 A CN 108491441A
Authority
CN
China
Prior art keywords
braille
ascii character
module
coding
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810146441.0A
Other languages
English (en)
Other versions
CN108491441B (zh
Inventor
钟经华
孙岩
关忠
李妍
刘志丽
阎嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201810146441.0A priority Critical patent/CN108491441B/zh
Publication of CN108491441A publication Critical patent/CN108491441A/zh
Application granted granted Critical
Publication of CN108491441B publication Critical patent/CN108491441B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Printers Characterized By Their Purpose (AREA)

Abstract

本发明提供了一种盲文信息统计系统,其中三大功能包括盲文翻译成拼音,识别盲文汉语拼音音节、标点符号、阿拉伯数字、以及外文字符等等,统计字数、空方数、词数、平均词长、平均点数,标调率等。能够解决广大盲校教师、学生、非学生盲人对标调规则的修订、国家通用盲文标准修订以及传统的人工方式对现行盲文出版物的标调情况进行大规模的实证统计。

Description

一种盲文信息统计系统
技术领域
本发明涉及盲文分析数据技术领域,特别涉及一种盲文信息统计系统。
背景技术
现行盲文制定了“一般不标调,需要时标调”的总原则。这个标调原则本身带有很大的人为随意性,除了有区分音节界限功能的声调必标外,其他声调标与不标没有可操作性的准则,存在很大的不确定性。所有声调的音节不标调都与轻声同形,这种不标调音节的声调可能有5个不同的读音,造成了现行盲文需要根据上下文猜测读音的先天缺陷。现行盲文作为表音文字,标调是一个核心问题。关于现行盲文的标调率唯一能够找到的数据是“所有出版物中平均大约只有5%的音节标了调,这样,就产生了现行盲文必须依赖上下文猜测词的读音与含义的弊病”。然而,这个数据同样是非实证数据,找不到得出这个数据的统计样本、方法和过程。这个数据的科学性不得而知,基于这个数据的后续结论也难免令人生疑。几十年来,我国盲文研究领域一直渴望得到现行盲文出版物标调率的实证数据,这是现行盲文标调研究的基础。没有科学的基础数据,标调问题的其他研究就成了空中楼阁,科学研究就有演变成主观想象的危险。没有这个基础,现行盲文标调研究的出发点都不清楚,更谈不上目标的科学与可达,广大盲校教师、学生、非学生盲人对标调规则的修订、国家通用盲文标准的接受度就难以达到预期。由于盲文出版物的特殊性,传统的人工方式难以对现行盲文出版物的标调情况进行大规模的实证统计。正在建设的汉语盲文语料库可以发挥重要作用,能够提供大量的第一手计算机统计数据,为现行盲文标调实证研究提供了可能。
参考文献:《中国特殊教育》2015年第6期(总第180期)公开《基于盲文语料库的现行盲文标调研究》文献,标调是现行盲文的核心问题,实际标调率是核心数据,广为流传的5%标调率不是实证性数据。本研究从正在建设的汉语盲文语料库中随机抽取新世纪以来的383个语篇,约88万字,经过计算机自动处理和人工勘验,发现现行盲文出版物的平均标调率约为11.35%,分半信度系数为0.99。不同类别语篇的标调率差异没有达到显著水平(P=0.912>0.05)。单方音节是影响标调率高低的决定因素。现行盲文标调的重心应当回归到区分同音异调词上,以提高表音的准确性,减少盲生猜谜的现象。但是该文献是半个自动化处理大规模盲文进行诸多的统计,和本申请同样是大规模对盲文进行统计和分析,区别不同的是本申请更全面的统计平均点数,空方数,标调率等,更精确统计出概率。
发明内容
为解决上述问题,本发明提出一种盲文信息统计系统,能够对现行盲文的基础数据进行自动化统计分析,精确统计出盲文文档字数、空方数、词数、平均词长、平均点数、标调率等,这些基础数据对盲文标调规则的修订、盲文研究、盲文教学等,非常重要。
本发明提出了一种盲文信息统计系统,包括盲文字体编码模块,还包括以下模块:
盲文ASCII码识别模块:用于分割盲文ASCII码和/或标记符号;
盲文ASCII码拼音模块:用于把所述盲文ASCII码转换成标准字符;
统计模块:用于根据所述盲文ASCII码对应的盲文每方点数进行统计;
所述盲文字体编码模块是根据计算机语言把盲文字体编码转换为盲文ASCII码;
所述盲文ASCII码识别模块是将所述盲文字体编码模块进行识别标记、特殊符号、盲文分词;
所述盲文ASCII码拼音模块是将盲文ASCII码识别模块转换为标准的字符串;
所述统计模块是根据盲文ASCII码拼音模块进行统计。
本发明的盲文信息统计系统实现了盲文自动化统计,解决了人工统计诸多弊端。
优选的是,所述盲文字体编码模块用于把盲文字体编码转换为所述盲文ASCII码,以便能够把盲文字体编码转换为计算机认识的语言。
在上述任一方案中优选的是,所述盲文ASCII码包括实心盲文ASCII码值和/或空心盲文ASCII码值,使计算机能够识别盲文ASCII码对应的盲文每方点数。
在上述任一方案中优选的是,所述实心盲文ASCII码的值=0x41+(盲文字体编码-0xE000),使其计算机能够编译有效范围编码。
在上述任一方案中优选的是,所述空心盲文ASCII码的值=0x41+(盲文字体编码-0xE234),使其计算机能够编译有效范围编码。
在上述任一方案中优选的是,所述盲文字体编码包括实心字体盲文编码和/或空心字体盲文编码,使其计算机能够识别盲文字体编码对应的盲文ASCII码。
在上述任一方案中优选的是,所述实心字体盲文编码的值为0xE000+63,使其计算机能够编译有效范围编码。
在上述任一方案中优选的是,所述空心字体盲文编码的值为0xE234+63,使其计算机能够编译有效范围编码。
在上述任一方案中优选的是,所述盲文ASCII码识别模块包括一次识别模块和/或二次识别模块,这样能够替代人工翻译和统计操作,减少人工工作量。
在上述任一方案中优选的是,所述一次识别模块用于按照盲文分词分割所述盲文ASCII码,以便能够替代人工进行盲文分词。
在上述任一方案中优选的是,所述二次识别模块用于识别所述盲文ASCII码的标记符号,以便能够替代人工进行盲文属性做标记符号。
在上述任一方案中优选的是,所述标记符号包括数字标记符、大写字母标记符、多个连续大写字母标记符、小写字母标记符和其它字标记符至少一种,这样能够替代人工识别标记符,提高人工统计效率。
在上述任一方案中优选的是,所述标准字符包括符号、拼音、盲文和盲文中汉字音节的参数方值至少一种,以便能够将盲文ASCII码转换为对应的盲文方数。
在上述任一方案中优选的是,所述参数方值包括参数值1方和/或参数值2方和/或参数值3方,这样能够简化大同小异的盲文音节,提高了识别盲文音节的准确率。
在上述任一方案中优选的是,所述盲文ASCII码拼音模块还用于将盲文ASCII码转换成特殊符号处理,以便能够将计算机语言转换为汉语拼音。
在上述任一方案中优选的是,所述特殊符号包括中括号、连号和冒号中至少一种,使其符号替代计算机不能识别的符号。
在上述任一方案中优选的是,所述统计模块统计的内容包括盲文连写块数和/或盲文空方数和/或平均词长和/或平均标调率和/或字均空方率和/或字均方数和/或字均点数和/或方均点数和/或上行点数和/或中行点数和/或下行点数和/或左列点数和/或右列点数和/或上下结构和/或左右结构,这样能够简化人工统计操作,提高人工统计效率。
本发明提供了一种盲文信息系统,其优点能够解决传统的人工方式对现行盲文出版物的标调情况进行大规模的实证统计。
附图说明
图1为本发明盲文信息统计系统的盲文翻译到拼音工作方法的一优选实施例的流程图。
图2为本发明盲文信息统计系统的盲文翻译到拼音系统的一优选实施例的模块图。
图2A为本发明盲文信息统计系统的如图2所示实施例的二次识别模块的工作方法的流程图。
图2B为本发明盲文信息统计系统的如图2所示实施例的盲文ASCII码拼音模块的工作方法的流程图。
具体实施方式
本发明是为建设盲文语料库提供了大量的第一手计算机统计的数据,是一个大胆的突破,也是对盲文研究提供了研究证实。
下面结合具体实施例及附图对盲文信息统计系统的技术方案进行详细描述,以使其更加清楚。
实施例1
如图1、如图2所述,一种盲文信息统计系统,包括以下的模块:
模块1040:盲文字体编码模块;
模块1050:盲文ASCII码识别模块,包括一次识别模块1051和二次识别模块1052;
模块1060:盲文ASCII码拼音模块;
模块1070:统计模块。执行步骤1001,使用盲文字体编码模块1040获取盲文字符串。执行步骤1002,使用盲文字体编码模块1040解析盲文字体标记。执行步骤1003,使用盲文字体编码模块1040判断是否盲文,如果不是盲文,则执行步骤1010,提示错误。如果是盲文,则执行步骤1004,盲文字体编码模块1040针对盲文字体内码转换为盲文ASCII码(盲文字体固有的编码空间,此系统用的盲文字体编码空间为:实心字体盲文编码:0xE000+63,空间字体盲文编码:0xE234+63。盲文ASCII码(盲文ASCII有64个),盲文ASCII码编码区间(0x41-0x20)实心盲文ASCII码值=0x4+(盲文字体编码-0xE000),空心盲文ASCII码值=0x41+(盲文字体编码-0xE234)。),盲文ASCII码可打印字符为:“A1B'K2L@CIF/MSP\"E3H9O6R^DJG>NTQ,*5<-U8V.%[$+X!&;:4\\0Z7(_?W]#Y)=”。执行步骤1005,使用一次识别模块1051,按盲文分词进行分割盲文ASCII码。执行步骤1006,使用二次识别模块1052,识别盲文属性的标记符号((#):数字标记符,数字前都会有#。(,):大写字母标记符,单个大写字母前都有一个逗号。(,,):多个连续大写字母前会有两个豆号。(;):小写字母前都会有一个分号作为标记符。(@):其它字前面会有此标记。)。执行步骤1007,使用盲文ASCII码拼音模块1060将盲文ASCII码转换为拼音、盲文、符号,盲文有效数据识别,本系统用到的关键数据为盲文汉语音节(表示汉字的盲文),在实际应用中,一篇盲文文档会包含汉语音节(声、韵、调三个部分,有省略可能)、标点符号、大写字母、小写字母、标点符号、其它外文字母、阿拉伯数字等,这些都需要相应的方案一一识别。执行步骤1008,使用盲文ASCII码拼音模块1060对特殊符号进行特殊处理并对一些特殊符号,进行后期处理,例:中括号([)连号(-)冒号(:),冒号(:)与连号(-)盲文ASCII码一样,系统返回无法对冒号和连号,冒号后边紧跟空格,没有空格就识别为连号中括号:盲文处理后统一为[,后期处理使中括号成对[]。执行步骤1009,使用统计模块1070将分析结果对照显示盲文,盲文ASCII码对应的盲文可得到盲文每方点数,如表1所示。
表1
识别并刨除样本中非汉语音节符号及其连带的空方,标点符号刨除后,保留1个空方。
盲文连写块数:根据盲文分词连写规则实际形成的连写块总数。连写在一起的若干方为一个连写块,每个连写块内包含的所有音节称为1个连写词。
盲文空方数:样本中实际空方数的折合数,段首的2个空方计为0个空方,行尾的若干个空方计为1个空方,行尾无空方且下行无连写号计为1个空方,行尾无空方且下行有连写号计为0个空方。其他空方按实际计算。
平均词长:盲文总字数/连写块数。(每个连写块平均包含字数)
平均标调率:标调字总数/总字数。
字均空方率:总空方数/总字数。
字均方数:总方数/总字数。
字均点数:总点数/总字数。
方均点数:总点数/总方数。
上行点数:第14点位实际出现的点的总数。
中行点数:第25点位实际出现的点的总数。
下行点数:第36点位实际出现的点的总数。
左列点数:第123点位实际出现的点的总数。
右列点数:第456点位实际出现的点的总数。
上下结构:上行点数/中行点数/下行点数。
左右结构:左列点数/右列点数。
实施例2
如图2A为按照本发明盲文信息统计系统的二次识别模块数字标记工作方法流程进行详细描述。
步骤2001,获取盲文分词ASCII码。执行步骤2002,解析数字标记。执行步骤2003,判断是否有数字标记,如果有数字标记则执行步骤2004,如果没有数字标记则执行步骤2001,重新获取盲文分词ASCII码。执行步骤2004,解析盲文ASCII码数字格式。执行步骤2005,判断数字格式1是否在#20.00到#30.00范围内,如果是则执行步骤2009,分割有效数据。如果不是则执行步骤2006,判断数字格式2是否在#2000到#3000范围内。如果是则执行步骤2009,分割有效数据。如果不是则执行步骤2007,判断数字格式3是否等于#50%。如果是则执行步骤2009,分割有效数据。如果不是则执行步骤2008,判断数字格式4是否等于#19.00,如果不是则执行步骤2010结束,如果是则执行步骤2009,分割有效数据。
此识别数字标记符的工作方法流程也包括识别以下的标记符:
(#):数字标记符,数字前都会有#。
(,):大写字母标记符,单个大写字母前都有一个逗号。
(,,):多个连续大写字母前会有两个豆号。
(;):小写字母前都会有一个分号作为标记符。
(@):其它字前面会有此标记。
实施例3
参数选择(即一次处理的方数):线行盲文文档中汉字音节有(声母+韵母+声调)3方组成,在线行盲文中标调率只有15%,即85%的盲文音节都是2方,所以参数应选择2,这样准确率较高。
识别顺序选择:在盲文中,有盲文汉字音节与盲文标点符号重合,识别顺序汉字音节优先(遇到重合的盲文,优先识别为汉字音节)。
如图2B为按照本发明盲文信息统计系统的盲文ASCII码拼音模块的工作方法流程进行详细描述。执行步骤3001,获取盲文ASCII码。执行步骤3002,判断是否有标记,如果有标记则执行步骤3013,按属性翻译盲文ASCII码,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。如果没有标记则执行步骤3003,参数值大于3方的盲文,判断是否符号。如果是则执行步骤3010,盲文ASCII码翻译到符号,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。如果不是则执行步骤3004,参数值最小取两方值。执行步骤3005,判断是否拼音,如果是则执行步骤3012,盲文ASCII码翻译到拼音,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。如果不是则执行步骤3006,判断是否符号。如果是符号则执行步骤3010,盲文ASCII码翻译到符号,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。如果不是则执行步骤3007,参数值取1方值。执行步骤3008,判断是否拼音。如果是拼音则执行步骤3012,盲文ASCII码翻译到拼音,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。如果不是则执行步骤3009,判断是否符号。如果是符号则执行步骤3010,盲文ASCII码翻译到符号,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。如果不是则执行步骤3011,保留原始盲文ASCII码,继续执行步骤3014,标记处理的盲文方数,执行步骤3015,结束。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种盲文信息统计系统,包括盲文字体编码模块,其特征在于,还包括以下模块:
盲文ASCII码识别模块:用于分割盲文ASCII码和/或标记符号;
盲文ASCII码拼音模块:用于把所述盲文ASCII码转换成标准字符;
统计模块:用于根据所述盲文ASCII码对应的盲文每方点数进行统计;
所述盲文字体编码模块是根据计算机语言把盲文字体编码转换为盲文ASCII码;
所述盲文ASCII码识别模块是将所述盲文字体编码模块进行识别标记、特殊符号、盲文分词;
所述盲文ASCII码拼音模块是将盲文ASCII码识别模块转换为标准的字符串;
所述统计模块是根据盲文ASCII码拼音模块进行统计。
2.如权利要求1所述的盲文信息统计系统,其特征在于:所述盲文字体编码模块用于把盲文字体编码转换为所述盲文ASCII码。
3.如权利要求2所述的盲文信息统计系统,其特征在于:所述盲文ASCII码包括实心盲文ASCII码值和/或空心盲文ASCII码值。
4.如权利要求3所述的盲文信息统计系统,其特征在于:所述实心盲文ASCII码的值=0x41+(盲文字体编码-0xE000)。
5.如权利要求3所述的盲文信息统计系统,其特征在于:所述空心盲文ASCII码的值=0x41+(盲文字体编码-0xE234)。
6.如权利要求2所述的盲文信息统计系统,其特征在于:所述盲文字体编码包括实心字体盲文编码和/或空心字体盲文编码。
7.如权利要求6所述的盲文信息统计系统,其特征在于:所述实心字体盲文编码的值为0xE000+63。
8.如权利要求6所述的盲文信息统计系统,其特征在于:所述空心字体盲文编码的值为0xE234+63。
9.如权利要求1所述的盲文信息统计系统,其特征在于:所述盲文ASCII码识别模块包括一次识别模块和/或二次识别模块。
10.如权利要求9所述的盲文信息统计系统,其特征在于:所述一次识别模块用于按照盲文分词分割所述盲文ASCII码。
CN201810146441.0A 2018-02-12 2018-02-12 一种盲文信息统计系统 Expired - Fee Related CN108491441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810146441.0A CN108491441B (zh) 2018-02-12 2018-02-12 一种盲文信息统计系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810146441.0A CN108491441B (zh) 2018-02-12 2018-02-12 一种盲文信息统计系统

Publications (2)

Publication Number Publication Date
CN108491441A true CN108491441A (zh) 2018-09-04
CN108491441B CN108491441B (zh) 2022-02-01

Family

ID=63340454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810146441.0A Expired - Fee Related CN108491441B (zh) 2018-02-12 2018-02-12 一种盲文信息统计系统

Country Status (1)

Country Link
CN (1) CN108491441B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404621A (zh) * 2015-09-25 2016-03-16 中国科学院计算技术研究所 一种用于盲人读取汉字的方法及系统
CN107203508A (zh) * 2016-03-17 2017-09-26 富士施乐实业发展(中国)有限公司 盲文文件生成方法及系统
CN107368474A (zh) * 2017-07-07 2017-11-21 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404621A (zh) * 2015-09-25 2016-03-16 中国科学院计算技术研究所 一种用于盲人读取汉字的方法及系统
CN107203508A (zh) * 2016-03-17 2017-09-26 富士施乐实业发展(中国)有限公司 盲文文件生成方法及系统
CN107368474A (zh) * 2017-07-07 2017-11-21 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
包塔 等: ""盲汉转换系统的研究与实现"", 《计算机工程》 *
吕先超: ""视障汉语转换软件SunBraille的设计实现"", 《万方》 *
李念峰 等: ""基于图像处理的盲文自动识别系统研究"", 《制造业自动化》 *

Also Published As

Publication number Publication date
CN108491441B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
US5410306A (en) Chinese phrasal stepcode
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN1043210A (zh) 字根编码输入法及其设备
JP2022552029A (ja) Transformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法
CN108664474A (zh) 一种基于深度学习的简历解析方法
CN107368474A (zh) 一种汉文到盲文的自动高效翻译转换方法
CN113361266A (zh) 文本纠错方法、电子设备及存储介质
CN111444706A (zh) 一种基于深度学习的裁判文书文本纠错方法及系统
CN106297764A (zh) 一种多语种混语文本处理方法及系统
CN108257650A (zh) 一种应用于医技检查报告的智能纠错方法
CN105512110A (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN110516229A (zh) 一种基于深度学习的领域自适应中文分词方法
CN112883709A (zh) 一种利用自然语言处理技术自动生成对联的方法
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN105045410B (zh) 一种形式化拼音和汉字对应识别的方法
CN103268326A (zh) 一种个性化的跨语言检索方法及装置
CN117010368B (zh) 一种基于字形相似的中文纠错数据增强方法
CN117973372A (zh) 一种基于拼音约束的中文语法纠错方法
Mansurov et al. Uzbek cyrillic-latin-cyrillic machine transliteration
CN108491441A (zh) 一种盲文信息统计系统
CN100533359C (zh) 甲骨文拼音与部件拆分输入法
CN110955768B (zh) 一种基于句法分析的问答系统答案生成方法
CN1045878A (zh) 计算机中文声数编码输入技术
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220201