CN109241540B - 一种基于深度神经网络的汉盲自动转换方法和系统 - Google Patents

一种基于深度神经网络的汉盲自动转换方法和系统 Download PDF

Info

Publication number
CN109241540B
CN109241540B CN201810889881.5A CN201810889881A CN109241540B CN 109241540 B CN109241540 B CN 109241540B CN 201810889881 A CN201810889881 A CN 201810889881A CN 109241540 B CN109241540 B CN 109241540B
Authority
CN
China
Prior art keywords
chinese
word
braille
blind
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810889881.5A
Other languages
English (en)
Other versions
CN109241540A (zh
Inventor
王向东
蔡佳
钱跃良
刘宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201810889881.5A priority Critical patent/CN109241540B/zh
Publication of CN109241540A publication Critical patent/CN109241540A/zh
Application granted granted Critical
Publication of CN109241540B publication Critical patent/CN109241540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于深度神经网络的汉盲自动转换方法和系统,包括:获取句子和词语级对照的汉盲双语语料库,利用汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用汉盲双语语料库,得到用于对汉字进行标调的标调模型;获取待转换的汉字文本,使用分词模型将汉字文本按照盲文规则进行分词,得到多个字词,使用标调模型对字词进行标调,将标调后的字词转换为盲文。本发明采用训练好的模型直接将汉字串按照盲文规则进行分词。由此可充分利用汉字信息,避免对盲文串分词时因丢失汉字信息、同音字词互相混淆而影响分词效果的问题。采用深度神经网络模型和标调模型,可得到更高的转换准确率。

Description

一种基于深度神经网络的汉盲自动转换方法和系统
技术领域
本发明涉及汉语到盲文的自动转换技术领域,特别是使用了深度神经网络进行汉盲转换的领域。
背景技术
盲文是盲人阅读和获取信息的重要方式。它是一种触觉符号系统,印刷在纸张或显示在点显器上,通过触摸进行阅读。盲文的基本单位称作“方”,一方包含6个点位,通过设置每个点位是否有点共可形成64种组合,这些组合构成了最基本的盲文符号。
为了生成盲文内容,需将普通人使用的文字内容转换为盲文。对于字母文字,存在从字母到盲文符号的直接映射,转换相对简单。当前,英语、葡萄牙语、丹麦语、西班牙语、印地语等很多语言到盲文的自动转换,都已有可用的计算机系统。而由于汉语盲文自身的特点,现有的汉语-盲文自动转换系统准确率较低,难以实用。因此,在盲文出版、盲人教育等行业中,目前主要采用人工进行汉盲转换,效率低、成本高,导致盲文读物匮乏、盲人获取信息困难,严重限制了盲人在信息社会的生存和发展。
由于不可能将汉字唯一映射到盲文符号,汉语盲文被定义为一种拼音文字。在当前最常用的现行盲文中,一般用2-3方表示一个汉字,其中一方表示声母,一方表示韵母,有些情况还需要再增加一方表示声调。汉语盲文与汉语最大的区别在于及其“分词连写”规则,即要求词与词之间用空方分隔。盲文分词与汉语分词不同,许多汉语中的短语在盲文中被连写为词。针对分词连写,中国盲文标准中给出了100多条基于词法、语法和语义的细则,如“‘不’与动词、能愿动词、形容词、介词、单音节程度副词均应连写”等。为了进一步减少歧义,盲文还制定了标调规则。在现行盲文中,为节省阅读时间和印刷成本,规定只对易混淆的词语、生疏词语、古汉语实词、非常用的单音节词等标调。一般认为现行盲文的标调率大约在5%左右。
汉盲转换的关键在于分词和标调。当前研究大多集中在分词方面,主要遵循两种思路:一是按照盲文分词连写本身的逻辑,首先对文本进行汉语分词,然后使用预定义的规则对汉语分词结果进行调整,将汉语词串转换为盲文词串。当前大多数研究都基于这一思路,但是盲文分词连写涉及主观性很强的语法和语义规则,计算机定义和处理都很困难,导致这种方法的性能存在瓶颈,难以进一步提升。第二种思路是从盲文语料中提取出现过的连写组合,建立盲文词库,然后基于盲文词库进行文本分词或对汉语分词结果进行后处理。但是,盲文将汉语中的许多短语连写为词,其词汇量无限,无法通过词库穷举。因此这一方法性能有限,目前主要和第一种方法结合,作为一种补充式地后处理操作使用。
最近几年,有研究者提出了基于机器学习的盲文直接分词框架,不再基于汉语分词结果进行后处理,而是利用训练好的盲文分词模型直接对盲文串进行分词。例如,发明专利201510623525.5公开了一种用于盲人读取汉字的方法及系统,实现了基于机器学习的汉盲转换过程。这种方法采用机器学习模型隐含地刻画盲文分词连写规范,避免了计算机直接处理复杂的语法和语义规则,可大大提升汉盲转换的准确率。但是,这一方法也存在不足:一方面,该方法基于感知机模型和统计机器学习等传统机器学习方法,而近年来,深度学习技术在很多领域已逐步替代了这些传统方法;更为重要的是,该方法的模型训练基于盲文语料,而盲文只表示汉字的读音(且大多数不加声调),导致可能因同音产生歧义,例如,“形式”与“形势”在盲文中完全相同,“时间”、“事件”、“实践”在大多数情况下也对应相同的盲文,单字词更是大量存在同音混淆的情况,这将直接影响最终的分词结果。如果采用按照盲文规则分词的汉字语料,则可以避免上述问题。而汉语文本都是不分词的,这就需要将汉语文本与盲文文本在分词级别建立对照关系,使得对盲文文本中的每一个盲文词都可唯一地确定其对应的汉语词(或短语)。这可以通过一个词语级对照的汉盲语料库来得到。
盲文本质上是一种拼音文字,盲文符号只代表汉字的读音(音节),同音字之间容易混淆。如果不考虑音节的声调,则混淆的情况会更多。但是,如果规定所有音节必须标调,则可能增加印刷成本,也会降低阅读效率。因此,虽然有一些要求音节全部标调的盲文规则方面的尝试,如“双拼盲文”和“通用盲文”,但当前在应用中占据主导定位的“现行盲文”标准中规定只对一些容易混淆的词,如生僻字、古汉语实词、同音词、部分单音节词等进行标调。而在实际操作时,生僻字、实词、需标声调的单音节词的认定都相对主观或涉及语法和语义上的理解,计算机处理较为困难。因此,当前的自动汉盲转换方法一般基于规则,只对确定的同音词、有明确规定的单音节词等简单情形进行标调,标调率远低于人工标调,容易给盲人阅读造成困难。
发明内容
本发明目的在于通过提高盲文分词和标调的转换准确率,实现高准确率的汉盲转换。在分词方面,与当前常用的“先分词,再合并”的策略不同,本发明提出的方法直接采用机器学习模型将汉语文本按照盲文规则进行分词,避免了计算机处理复杂的语法和语义规则。
具体地说,本发明公开了一种基于深度神经网络的汉盲自动转换方法,其中包括:
步骤1、获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
步骤2、获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文。
2、如权利要求1该基于深度神经网络的汉盲自动转换方法,其中该步骤1包括:
语料标注步骤,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
该基于深度神经网络的汉盲自动转换方法,其中该步骤2包括:
分词步骤,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调步骤,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换步骤,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
该基于深度神经网络的汉盲自动转换方法,其中该步骤1中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
该基于深度神经网络的汉盲自动转换方法,其中该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。
本发明还公开了一种基于深度神经网络的汉盲自动转换系统,其中包括:
模型训练模块,用于获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
转换模块,用于获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文。
该基于深度神经网络的汉盲自动转换系统,其中该模型训练模块包括:
语料标注模块,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
该基于深度神经网络的汉盲自动转换系统,其中该转换模块包括:
分词模块,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调模块,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换模块,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
该基于深度神经网络的汉盲自动转换系统,其中该模型训练模块中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
该基于深度神经网络的汉盲自动转换系统,其中该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。
通过采用本发明提出的基于深度学习和双语语料库的汉盲转换方法和系统,可以实现比当前已有方法和系统更为准确的盲文自动分词和自动标调,从而整体提高汉盲转换的准确率。将该技术应用于盲文编辑出版,可提高盲文书籍生产效率,满足广大盲人对盲文出版物的需求。将该技术应用于盲用终端并配合点显器使用,可实时将网页、文档中的汉语文本转换为盲文文本并输出到点显器供盲人摸读,可大大提升盲人通过数字终端和网络获取信息的能力。
与发明专利201510623525.5提出的方法相比,本发明不直接运用盲文规则对盲文串进行分词,而是采用汉盲词语级对照的语料训练分词模型,并采用训练好的模型直接将汉字串按照盲文规则进行分词。由此可充分利用汉字信息,避免对盲文串分词时因丢失汉字信息、同音字词互相混淆而影响分词效果的问题。另外,在机器学习模型的选取上,本发明采用深度神经网络模型,可得到比传统人工神经网络和统计机器学习模型更高的准确率。在标调方面,本发明提出利用汉盲分词对照的语料训练标调模型,与只采用盲文语料的方法相比,利用的信息更为丰富,可得到更高的准确率。
附图说明
图1为本发明基于深度神经网络的汉盲转换方法流程图;
图2为本发明采用的深度神经网络结构示意图。
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
盲文是一种拼音文字,在中国盲文标准中制定了许多盲文规则,用于规定盲文如何书写,其中最为重要的是盲文的分词连写规则。分词连写规则规定了如何把连续的汉字组成的句子分隔成盲文中的词,事实上相当于盲文的分词规则,例如,有一条分词连写规则规定:“‘不’与动词、能愿动词、形容词、介词、单音节程度副词均应连写”。这就要求像“不能”、“不好”、“不至于”这样的汉语中的短语在盲文中都要连写。本文中“将汉字串按照盲文规则分词”中的“盲文规则”,即指这些中国盲文标准中制定的规则。但需要注意的是,本发明的方法却不是直接制定相应的规则由计算机执行(这其实反而是当前其他研究者采用的方法,但实践证明效果不好,原因在于计算机很难准确分辨诸如形容词、动词、能愿动词、动宾短语、状语等语法成分),而是采用机器学习的方法,用类似于人脑的神经网络模型自动去学习盲文分词规则并自动进行切分,从而客观上实现遵循盲文规则的分词。
本发明包括模型训练阶段和汉盲转换阶段。模型训练阶段,训练用于分词的深度神经网络模型和用于标调的n-gram模型。汉盲转换阶段,利用预先训练的深度神经网络模型和标调模型实现将汉语文本转换为盲文。
模型训练阶段包括:基于句子和词语级对照的汉盲双语语料库准备训练语料、训练深度神经网络模型和标调模型。
准备训练语料。本发明通过训练基于深度学习的模型,以深度神经网络实现将汉语文本按盲文规则分词。在这种方法中,分词是通过对每个汉字进行分类来实现的:汉语中的每个字的位置可以分为四种,即B、E、M、S,其中B代表词的开头,M代表词的中间,E代表词的末尾,S代表该字单独成词,分词的过程就是利用训练的模型判断每一个字属于B、E、M、S中的哪一类,然后依据每个字的类别对文本进行分割。要训练这样的模型,就需要在训练前准备好训练语料。所需的训练语料为按照盲文分词及盲文与汉语字词的对应关系,标注好每一个汉字的类别(B、E、M、S)的汉语文本。这种训练语料可由句子和词语级对照的汉盲双语语料库得到。
所谓汉盲双语语料库,是指同时存储有内容相同的汉语和盲文文本的语料库。所谓句子和词语级对照,是指语料库中的每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。句子和词语级对照的汉盲双语语料库可以人工或自动方式构建,采用txt文本、数据库等形式存储。
在基于句子和词语级对照的汉盲双语语料库准备训练语料时,对语料库中每一个盲文句子,获取其对应的汉语句子;对于盲文句子中的每一个盲文词,获取其在汉语句子中对应的汉语词或短语,然后对该汉语词或短语中的汉字进行标记:如果只有一个汉字,则标记为S;如果包含多个汉字,则将第一个汉字标记为B,最后一个汉字标记为E,其余标记为M。
训练深度神经网络模型。在准备好训练语料之后,需要构建并训练深度神经网络模型。深度神经网络是一种比传统人工神经网络层数更深的人工神经网络模型,采用深度神经网络进行机器学习的技术称为深度学习技术,该技术近年来在机器学习领域受到了广泛关注,在图像处理、语音识别、自然语言处理等领域取得了巨大成功。本发明首次将深度学习技术应用于汉盲转换领域。在模型选取方面,可根据情况选取各种深度神经网络模型,如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等。
在模型训练阶段,训练用于标调的语言模型(n-gram模型)。基于句子和词语级对照的汉盲双语语料库,构建训练n-gram模型所需的词表。将汉盲双语语料库中所有的盲文词对应的中文词或短语的集合作为使用的词表。进一步地将语料中出现的同一词或短语的不同标调形式(如不标调,首字标调,第二字标调……等)作为不同词添加至词表中。
基于句子和词语级对照的汉盲双语语料库,构建n-gram模型所需的文本语料。对于句子和词语级对照的汉盲双语语料库中的每个盲文句子,获取其对应的汉语文本,并将汉语文本按照盲文进行分词,即对于每一个盲文词,将其对应的汉语词或短语与相邻字词之间用空格字符隔开。同时,如果某个盲文词是标调的,则将其对应的汉语词或短语也进行标调处理,替换成标调后的形式。
训练用于标调的n-gram模型。采用所述词表和语料库训练一个n-gram语言模型,用以描述在之前的n-1个词w1,…,wn-1出现时,每个词w出现的概率P(w|w1,…,wn-1)。标调用的n-gram模型是一种统计机器学习模型。本发明中事实上只有分词部分使用了深度神经网络模型,但分词是汉盲转换中最为核心的部分,也是当前面临最大挑战的部分。
在汉盲转换阶段,利用预先训练的深度神经网络模型将汉语文本按盲文规则分词,利用预先训练的n-gram模型确定每个词的标调情况,然后将进行了分词和标调处理的汉语文本转换为盲文。汉盲转换阶段包括:
利用预先训练的深度神经网络模型将汉语文本按盲文规则分词。对一句话进行分词时,将文本中的每个字转换为词向量,输入训练好的深度神经网络模型,通过模型计算得到每个字属于四种类别的概率,选择概率最大的类别作为该字的状态。根据每个字的状态,将输入的汉语字串用空格分隔,得到分词后的汉语文本。
利用预先训练的n-gram模型确定每个汉语词或短语的标调情况。在进行标调时,对于每一个待标调的词或短语(以下通称为词),利用训练好的n-gram语言模型获取在其前n-1个词出现时该词的各种标调形式(不标调、第一个字标调,第二个标调……)出现的条件概率,并选择概率最大的形式。
将进行了分词和标调处理的汉语文本转换为盲文。在进行分词和标调之后,利用发音词典和发音-盲文映射表将已经分词和标调的汉语文本转换为盲文,转换过程中保留并复制其中的标调信息。
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明的一种基于深度神经网络的汉盲自动转换方法及系统进行进一步详细说明。
本发明提出了基于深度神经网络的汉盲自动转换方法及系统,使用句子和词语级对照的汉盲双语语料库进行模型训练,得到用于分词的深度神经网络模型和用于标调的n-gram模型,然后基于训练好的模型将输入的汉语文本按照盲文规则进行分词和标调处理,然后将结果转换为盲文。系统及方法的总体流程和步骤如附图1所示。
本发明通过训练基于深度学习的模型,即深度神经网络实现将汉语文本按盲文规则分词。在这种方法中,分词是通过对每个汉字进行分类来实现的:汉语中的每个字的位置可以分为四种,即B、E、M、S,其中B代表词的开头,M代表词的中间,E代表词的末尾,S代表该字单独成词,分词的过程就是利用训练的模型判断每一个字属于B、E、M、S中的哪一类,然后依据每个字的类别对文本进行分割。要训练这样的模型,就需要在训练前准备好训练语料。所需的训练语料为按照盲文分词及盲文与汉语字词的对应关系,标注好了每一个字的类别(B、E、M、S)的汉语文本。这种训练语料可由句子和词语级对照的汉盲双语语料库得到。
所谓汉盲双语语料库,是指同时存储有内容相同的汉语和盲文文本的语料库。所谓句子和词语级对照,是指语料库中的每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。句子和词语级对照的汉盲双语语料库可以人工或自动方式构建,采用txt文本、数据库等形式存储。
在基于句子和词语级对照的汉盲双语语料库准备训练语料时,对语料库中每一个盲文句子,获取其对应的汉语句子;对于盲文句子中的每一个盲文词,获取其在汉语句子中对应的汉语词或短语,然后对该汉语词或短语中的汉字进行标记:如果只有一个汉字,则标记为S;如果包含多个汉字,则将第一个汉字标记为B,最后一个汉字标记为E,其余标记为M。
在一个实施例中,所采用的汉盲双语语料库是采用计算机程序从内容相同的汉语和盲文书籍中自动对齐和抽取文本得到的,存储形式为txt文本,即对于每一本书,采用两个txt文本文件分别存储汉语和盲文文本,汉语文本编码为UTF-8,盲文文本编码为ASCII码。在两个文本文件中,每行文本表示一个句子,行号相同的汉语和盲文句子对应相同的内容。汉语和盲文句子都去除了标点,并且汉语句子中按照盲文的分词在相应的字词之间添加了空格,从而使得一个句子中相同位置的空格或空方之间的盲文词和汉语词或短语之间建立了明确的对应关系。为得到所需的训练语料,在所述汉语文本的基础上进行改动。根据每个字在所属的词或短语中的位置,为其添加类别标记。最终得到的句子形如:“为/B了/E满/B足/E不/B同/E层/B次/E读/B者/E的/S需/B求/E”,其对应的按照盲文规则分词的汉语句子为:“为了满足不同层次读者的需求”,对应的盲文句子为:“WL5MVZU BUT4C#C2DU/5'DH+K\”。
训练深度神经网络模型。在准备好训练语料之后,需要构建并训练深度神经网络模型。深度神经网络是一种比传统人工神经网络层数更深的人工神经网络模型,采用深度神经网络进行机器学习的技术称为深度学习技术,该技术近年来在机器学习领域受到了广泛关注,在图像处理、语音识别、自然语言处理等领域取得了巨大成功。本发明首次将深度学习技术应用于汉盲转换领域。
在模型选取方面,可根据情况选取各种深度神经网络模型,如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等。在一个实施例中,采用了2层双向长短时记忆网络(Bi-LSTM),该模型不仅能够捕捉更长距离的信息,而且包含了输入序列中每一个点的完整的过去和未来的上下文信息的影响。网络结构如附图2所示。该模型共有六层网络,第一层是Embedding层,基于词向量模型,将训练语料中的字由one-hot编码映射为低维稠密的字向量。第二至五层是Bi-LSTM网络层,共有两层Bi-LSTM层,为了防止过拟合,Bi-LSTM网络层之后添加Dropout层,每次随机丢弃掉一定比例的神经网络节点。第六层输出层是一个全连接层,因为是多分类问题。设置全连接层的激活函数为Softmax,它将多个神经元的输出映射到0到1之间的数值,选择概率最大的类别作为该字的类别。
在模型训练时,由于分词模型的输入是向量形式,因此需要训练词向量模型,将语料转为向量表示。在一个实施例中,采用python的Keras库进行LSTM模型的创建和训练。LSTM为两层双向网络,维度为512。词向量维度为200,使用Python的Gensim库训练。
在模型训练阶段,训练用于标调的n-gram模型。
基于句子和词语级对照的汉盲双语语料库,构建训练n-gram模型所需的词表:将汉盲双语语料库中所有的盲文词对应的中文词或短语的集合作为使用的词表。进一步地将语料中出现的同一词或短语的不同标调形式(如不标调,首字标调,第二字标调……等)作为不同词添加至词表中。例如,语料库中出现了对应汉语词“时间”的盲文词,且“时”字标调,因此,将“时间”和“时2间”都加入词表中。“时2间”表示“时”字标调且标为二声。
基于句子和词语级对照的汉盲双语语料库,构建n-gram模型所需的文本语料:对于句子和词语级对照的汉盲双语语料库中的每个盲文句子,获取其对应的汉语文本,并将汉语文本按照盲文进行分词,即对于每一个盲文词,将其对应的汉语词或短语与相邻字词之间用空格字符隔开。同时,如果某个盲文词是标调的,则将其对应的汉语词或短语也进行标调处理,替换成标调后的形式。例如,盲文词“:1g%”对应汉语词“时间”,且第一个字标出了声调(ASCII码“1”表示二声),因此,则相应的汉语文本中的“时间”替换为标调的形式“时2间”。
训练用于标调的n-gram模型:采用所述词表和语料库训练一个n-gram语言模型。在一个实施例中,采用SRILM工具包进行训练,模型采用相对简单的bi-gram(即2-gram)模型,训练时采用了kneser-ney平滑策略。
在汉盲转换阶段,利用预先训练的深度神经网络模型将汉语文本按盲文规则分词,利用预先训练的n-gram模型确定每个词的标调情况,然后将进行了分词和标调处理的汉语文本转换为盲文。
利用预先训练的深度神经网络模型将汉语文本按盲文规则分词:对一句话进行分词时,将文本中的每个字转换为词向量,输入训练好的深度神经网络模型,通过模型计算得到每个字属于四种类别的概率,选择概率最大的类别作为该字的状态。根据每个字的状态,将输入的汉语字串用空格分隔,得到分词后的汉语文本。例如,对于汉语文本“当然爱的教育也不例外”,其经过神经网络后得到的结果为“当/B然/E爱/S的/S教/B育/E也/S不/B例/M外/E”,基于该结果,可得到分词后的汉语中文本“当然爱的教育也不例外”。
利用预先训练的n-gram模型确定每个汉语词或短语的标调情况:在进行标调时,对于每一个待标调的词或短语(以下通称为词),利用训练好的n-gram语言模型获取在其前n-1个词出现时该词的各种标调形式(不标调、第一个字标调,第二个标调……)出现的条件概率,并选择概率最大的形式。在一个实施例中,采用bi-gram(即2-gram)模型,此时只需要考虑每个词之前的一个词。例如,若某个两字词存在不标调形式w0及两种标调形式w1(首字标调)和w2(第二字标调),此时,比较P(w0|w),P(w1|w),P(w2|w)的大小(其中,w为该词之前的一个词),取概率最大的标调形式为最终选择。
将进行了分词和标调处理的汉语文本转换为盲文:在句子和词语级对照的汉盲双语语料库的支持下,上文中的分词和标调两个步骤都是针对汉语文本进行的,避免了因盲文只表示读音而导致的信息丢失和歧义增加。
在进行分词和标调之后,利用发音词典和发音-盲文映射表将已经分词和标调的汉语文本转换为盲文,转换过程中保留并复制其中的标调信息。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种基于深度神经网络的汉盲自动转系统,其中包括:
模型训练模块,用于获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
转换模块,用于获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文。
该基于深度神经网络的汉盲自动转换系统,其中该模型训练模块包括:
语料标注模块,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
该基于深度神经网络的汉盲自动转换系统,其中该转换模块包括:
分词模块,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调模块,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换模块,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
该基于深度神经网络的汉盲自动转换系统,其中该模型训练模块中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
该基于深度神经网络的汉盲自动转换系统,其中该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。

Claims (8)

1.一种基于深度神经网络的汉盲自动转换方法,其特征在于,包括:
步骤1、获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
步骤2、获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文;
其中该步骤1包括:
语料标注步骤,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
2.如权利要求1所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤2包括:
分词步骤,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调步骤,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换步骤,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
3.如权利要求1所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该步骤1中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
4.如权利要求2所述的基于深度神经网络的汉盲自动转换方法,其特征在于,该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。
5.一种基于深度神经网络的汉盲自动转换系统,其特征在于,包括:
模型训练模块,用于获取句子和词语级对照的汉盲双语语料库,利用该汉盲双语语料库训练深度神经网络,得到用于对汉字串进行分词的分词模型,并利用该汉盲双语语料库,得到用于对汉字进行标调的标调模型;
转换模块,用于获取待转换的汉字文本,使用该分词模型将该汉字文本按照盲文规则进行分词,得到多个字词,使用该标调模型对该字词进行标调,将标调后的该字词转换为盲文;
其中该模型训练模块包括:
语料标注模块,获取句子和词语级对照的汉盲双语语料,根据汉盲双语语料中的汉字按照盲文分词及盲文与汉语字词的对应关系,为汉字进行类别标注,并根据汉盲双语语料中汉字对应的盲文标调信息,对汉盲双语语料中的汉字进行声调标注,将经过类别标注和声调标注的汉盲双语语料作为该汉盲双语语料库。
6.如权利要求5所述的基于深度神经网络的汉盲自动转换系统,其特征在于,该转换模块包括:
分词模块,将该汉字文本中的汉字转换为词向量后输入该分词模型,得到汉字属于各类别的概率,选择概率最大的类别作为汉字的状态,根据汉字的状态,将该汉字文本的汉语字串分隔,得到该多个字词;
标调模块,标调模型根据该字词前具有的词或短语,得到该字词属于各标调形式的概率,选择概率最大的标调形式作为该字词的标调;
转换模块,利用发音词典和发音-盲文映射表将标调后的该字词转换为盲文,转换过程中保留并复制其中的标调信息。
7.如权利要求5所述的基于深度神经网络的汉盲自动转换系统,其特征在于,该模型训练模块中为汉字进行类别标注,该类别包括:B、E、M、S,其中B代表该汉字位于词的开头,M代表该汉字位于词的中间,E代表该汉字位于词的末尾,S代表该汉字单独成词。
8.如权利要求5所述的基于深度神经网络的汉盲自动转换系统,其特征在于,该汉盲双语语料库存储有内容相同的汉语和盲文文本,且该汉盲双语语料库中每一个盲文句子,都有明确对应的汉语句子;盲文句子中的每一个盲文词,都在汉语句子中有明确对应的汉语词或短语。
CN201810889881.5A 2018-08-07 2018-08-07 一种基于深度神经网络的汉盲自动转换方法和系统 Active CN109241540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810889881.5A CN109241540B (zh) 2018-08-07 2018-08-07 一种基于深度神经网络的汉盲自动转换方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810889881.5A CN109241540B (zh) 2018-08-07 2018-08-07 一种基于深度神经网络的汉盲自动转换方法和系统

Publications (2)

Publication Number Publication Date
CN109241540A CN109241540A (zh) 2019-01-18
CN109241540B true CN109241540B (zh) 2020-09-15

Family

ID=65070300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810889881.5A Active CN109241540B (zh) 2018-08-07 2018-08-07 一种基于深度神经网络的汉盲自动转换方法和系统

Country Status (1)

Country Link
CN (1) CN109241540B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110928989A (zh) * 2019-11-01 2020-03-27 暨南大学 一种基于语言模型的年报语料库构建方法
CN111428496B (zh) * 2020-03-24 2023-08-15 北京小米松果电子有限公司 文本分词模型的训练方法、分词处理方法及装置、介质
CN111563379B (zh) * 2020-05-12 2022-12-02 厦门市美亚柏科信息股份有限公司 基于中文词向量模型的文本识别方法、装置及存储介质
CN111581985B (zh) * 2020-05-14 2022-05-24 兰州大学 一种基于Transformer的汉盲翻译方法及系统
CN111814437A (zh) * 2020-05-28 2020-10-23 杭州视氪科技有限公司 一种基于深度学习的盲文转中文方法
CN112307756A (zh) * 2020-09-30 2021-02-02 浙江汉德瑞智能科技有限公司 基于Bi-LSTM和字词融合的汉语分词方法
CN113035026B (zh) * 2021-03-10 2022-06-17 之江实验室 一种盲文信息无障碍的视听触感知匹配方法
CN113343690B (zh) * 2021-06-22 2024-03-12 北京语言大学 一种文本可读性自动评估方法及装置
CN116432603B (zh) * 2023-03-27 2023-10-13 之江实验室 一种存算一体汉语盲文芯片

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN102156693A (zh) * 2011-03-23 2011-08-17 中国科学院计算技术研究所 一种盲文输入方法和系统
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN102156693A (zh) * 2011-03-23 2011-08-17 中国科学院计算技术研究所 一种盲文输入方法和系统
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法

Also Published As

Publication number Publication date
CN109241540A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241540B (zh) 一种基于深度神经网络的汉盲自动转换方法和系统
CN100492350C (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
Dukes Statistical parsing by machine learning from a classical Arabic treebank
CN111581985B (zh) 一种基于Transformer的汉盲翻译方法及系统
Winer Orthographic standardization for Trinidad and Tobago: Linguistic and sociopolitical considerations in an English Creole community
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
US20100106481A1 (en) Integrated system for recognizing comprehensive semantic information and the application thereof
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112528649A (zh) 针对多语言混合文本的英文拼音识别方法和系统
Sodhar et al. Identification of issues and challenges in romanized Sindhi text
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
Wang et al. Chinese-braille translation based on braille corpus
Joyce 15 Writing systems and scripts
Boldsen et al. Interpreting character embeddings with perceptual representations: The case of shape, sound, and color
Jiang et al. Braille to print translations for Chinese
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
Granell et al. Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts
Karimi Machine transliteration of proper names between English and Persian
CN110716654B (zh) 一种汉字输入法、语音合成方法、汉字输入系统
Pae Written languages, East-Asian scripts, and cross-linguistic influences
CN111581991B (zh) 一种基于端到端神经机器翻译的汉盲翻译方法及系统
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
Yadav et al. Different Models of Transliteration-A Comprehensive Review
Minghu et al. Segmentation of Mandarin Braille word and Braille translation based on multi-knowledge
CN114970453A (zh) 一种通用盲文到汉字的转换方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant