CN108229286A - 语言模型生成及应用方法、装置、电子设备和存储介质 - Google Patents

语言模型生成及应用方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108229286A
CN108229286A CN201710393511.8A CN201710393511A CN108229286A CN 108229286 A CN108229286 A CN 108229286A CN 201710393511 A CN201710393511 A CN 201710393511A CN 108229286 A CN108229286 A CN 108229286A
Authority
CN
China
Prior art keywords
language model
character
corpus
character recognition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710393511.8A
Other languages
English (en)
Inventor
王茗
王一茗
梁鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201710393511.8A priority Critical patent/CN108229286A/zh
Publication of CN108229286A publication Critical patent/CN108229286A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例提供了一种语言模型生成及应用方法、装置、电子设备和存储介质,其中,所述语言模型生成方法包括:在多个语料库中确定目标语料库;基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。本发明实施例通过基于目标语料库生成的语言模型对图像进行字符识别,由于目标语料库与图像中包含的字符相关联,因此基于目标语料库生成的语言模型更加适应字符搭配等字符识别规则,根据语言模型对图像进行字符识别,使得字符识别结果更加准确。

Description

语言模型生成及应用方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种语言模型生成方法和装置、字符识别方法和装置、电子设备和计算机可读存储介质。
背景技术
字符识别是利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,字符识别应运而生。
现有的字符识别技术方案中,利用卷积神经网络(Convolutional NeuralNetwork,CNN)加上利用连接时间分类(Connectionist Temporal Classification,CTC)中的解码方式对字符进行识别。
发明内容
本发明实施例提供了一种语言模型生成方法和装置、字符识别方法和装置、电子设备和计算机可读存储介质。
根据本发明实施例的第一方面,提供了一种语言模型生成方法,包括:在多个语料库中确定目标语料库;基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。
可选地,在所述基于所述目标语料库生成语言模型之后,所述方法还包括:基于前缀树存储方式,存储所述语言模型。
可选地,所述前缀树存储方式基于指针进行存储,所述指针用于连接字符的识别概率和字符组合的识别概率。
可选地,所述在多个语料库中确定目标语料库,包括:根据所述多个语料库中分别包含的数据量,确定所述目标语料库。
可选地,所述根据所述多个语料库中分别包含的数据量,确定所述目标语料库,包括:在所述多个语料库中,将包含的数据量大于第一预设阈值的语料库,确定为所述目标语料库。
可选地,所述根据所述多个语料库中分别包含的数据量,确定所述目标语料库,包括:在所述多个语料库中,将包含的数据库小于第二预设阈值的语料库,确定为所述目标语料库。
可选地,所述语言模型包括:二元语言模型或三元语言模型。
可选地,所述在多个语料库中确定目标语料库,包括:根据当前场景类别信息,在所述多个语料库中确定与所述当前场景类别信息对应的所述目标语料库。
可选地,所述语言模型包括概率阈值,所述概率阈值用于根据识别概率对字符进行筛选。
可选地,所述语言模型包括字符序列长度信息,所述字符序列长度信息用于确定识别得到的字符序列的长度范围。
可选地,所述语言模型包括beam值,所述beam值用于确定最佳字符序列。
根据本发明实施例的第二方面,还提供了一种字符识别方法,包括:根据语言模型对图像进行字符识别,得到第一字符识别结果;其中,所述语言模型为根据第一方面所述语言模型生成方法得到。
可选地,所述方法还包括:根据神经网络模型对所述图像进行字符识别,得到第二字符识别结果;基于所述第一字符识别结果及所述第二字符识别结果,生成目标字符识别结果;输出所述目标字符识别结果。
可选地,所述基于所述第一字符识别结果及所述第二字符识别结果,生成目标字符识别结果,包括:基于所述第一字符识别结果、所述第二字符识别结果、及分别对应的权重值,生成所述目标字符识别结果。
可选地,所述输出所述目标字符识别结果,包括:输出多个所述目标字符识别结果,及所述多个目标字符识别结果分别对应的概率值。
根据本发明实施例的第三方面,还提供了一种语言模型生成装置,包括:确定模块,用于在多个语料库中确定目标语料库;生成模块,用于基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。
可选地,所述装置还包括:存储模块,用于在所述生成模块基于所述目标语料库生成语言模型之后,基于前缀树存储方式,存储所述语言模型。
可选地,所述前缀树存储方式基于指针进行存储,所述指针用于连接字符的识别概率和字符组合的识别概率。
可选地,所述确定模块,包括:第一确定子模块,用于根据所述多个语料库中分别包含的数据量,确定所述目标语料库。
可选地,所述第一确定子模块,用于在所述多个语料库中,将包含的数据量大于第一预设阈值的语料库,确定为所述目标语料库。
可选地,所述第一确定子模块,用于在所述多个语料库中,将包含的数据库小于第二预设阈值的语料库,确定为所述目标语料库。
可选地,所述语言模型包括:二元语言模型或三元语言模型。
可选地,所述确定模块,包括:第二确定子模块,用于根据当前场景类别信息,在所述多个语料库中确定与所述当前场景类别信息对应的所述目标语料库。
可选地,所述语言模型包括概率阈值,所述概率阈值用于根据识别概率对字符进行筛选。
可选地,所述语言模型包括字符序列长度信息,所述字符序列长度信息用于确定识别得到的字符序列的长度范围。
可选地,所述语言模型包括beam值,所述beam值用于确定最佳字符序列。
根据本发明实施例的第四方面,还提供了一种字符识别装置,包括:第一识别模块,用于根据语言模型对图像进行字符识别,得到第一字符识别结果;其中,所述语言模型为根据第三方面所述语言模型生成装置得到。
可选地,所述装置还包括:第二识别模块,用于根据神经网络模型对所述图像进行字符识别,得到第二字符识别结果;结果生成模块,用于基于所述第一字符识别结果、及所述第二字符识别结果,生成目标字符识别结果;结果输出模块,用于输出所述目标字符识别结果。
可选地,所述结果生成模块,用于基于所述第一字符识别结果、所述第二字符识别结果及分别对应的权重值,生成所述目标字符识别结果。
可选地,所述结果输出模块,用于输出多个所述目标字符识别结果,及所述多个目标字符识别结果分别对应的概率值。
根据本发明实施例的第五方面,还提供了一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的语言模型生成方法对应的操作。
根据本发明实施例的第六方面,还提供了一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第二方面所述的字符识别方法对应的操作。
根据本发明实施例的第七方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面所述的语言模型生成方法的步骤。
根据本发明实施例的第八方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第二方面所述的字符识别方法的步骤。
根据本发明实施例提供的技术方案,在多个语料库中确定目标语料库,目标语料库为与图像中包含的字符相关联的语料库;基于目标语料库生成语言模型,其中,语言模型用于对图像进行字符识别。根据生成的语言模型对图像进行字符识别,得到第一字符识别结果。
本发明实施例提供的技术方案通过基于目标语料库生成的语言模型对图像进行字符识别,由于目标语料库与图像中包含的字符相关联,因此基于目标语料库生成的语言模型更加适应字符搭配等字符识别规则,根据语言模型对图像进行字符识别,使得字符识别结果更加准确。
附图说明
图1是根据本发明实施例一的语言模型生成方法的步骤流程图;
图2是根据本发明实施例二的语言模型生成方法的步骤流程图;
图3是根据本发明实施例二的基于前缀树存储方式存储语言模型的结构示意图;
图4是根据本发明实施例三的字符识别方法的步骤流程图;
图5是根据本发明实施例四的语言模型生成装置的结构框图;
图6是根据本发明实施例五的字符识别成装置的结构框图;
图7是根据本发明实施例六的电子设备的结构示意图;
图8是根据本发明实施例八的电子设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的语言模型生成方法的步骤流程图。
本实施例的语言模型生成方法包括以下步骤:
步骤S100、在多个语料库中确定目标语料库。
本实施例中,多个语料库可以为任意语料库,各语料库中包含的语料信息可以为任意分类或领域的语料信息,如包含大量购物小票文字的文档,本实施例对多个语料库以及多个语料库中的语料信息不做限制。
本实施例中,从众多语料库中确定目标语料库,该目标语料库用于在后续步骤中生成语言模型,不同的语料库可以生成不同的语言模型。目标语料库的容量大小需要适应实际的字符识别需求条件,目标语料库的容量越大,基于目标语料库生成的语言模型的字符识别效果更好,但语言模型的生成过程的计算量也会相应增加,因此,本实施例中需要根据实际字符识别的需求条件确定目标语料库。目前的字符识别方案中并未引入语料库,本实施例中的目标语料库可以为字符识别提供诸如词语搭配规则等额外信息,可以辅助提高字符识别的准确率。
步骤S102、基于目标语料库生成语言模型。
本实施例中,可以采用斯坦福研究所语言建模工具包(Stanford ResearchInstitute Language Modeling Toolkit,SRILM)基于目标语料库生成语言模型,语言模型可以认为是用来计算一个句子的概率的模型。利用语言模型可以确定句子中哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。本实施例中,可以基于目标语料库生成但不限于n元(n-gram)语言模型。n-gram语言模型的主要思想是:当前词的出现概率仅仅与前面的n-1个词相关。n的取值越大,语言模型越准确,也越复杂,需要的计算量也越大。本实施例对生成的语言模型的类型或者种类不做限制。
一种可选的实施方式中,对于确定得到的目标语料库,可以仅生成n=3的三元语言模型,例如,对于句子“一只小猫”,三元语言模型只将三元词序列“一只小”,“只小猫”,以及二元词组(如“一只”、“小猫”)和一元的字(如“一”、“只”、“小”、“猫”)计入统计,不统计大于3个字的词序列。对于三元语言模型来说,需要对预测频率为0的三元词序列进行剔除,可以采用数据平滑处理算法对预测频率为0的三元词序列进行估计,典型的数据平滑处理算法包括加法平滑算法、古德-图灵(Good-Turing)平滑算法、卡茨(Katz)平滑算法、插值平滑算法和克内责-内伊(Kneser-Ney)打折法等等,本实施例可以采用插值平滑算法和Kneser-Ney打折法进行数据平滑处理。
根据本实施例提供的语言模型生成方法,在多个语料库中确定目标语料库,目标语料库为与图像中包含的字符相关联的语料库;基于目标语料库生成语言模型,其中,语言模型用于对图像进行字符识别。根据生成的语言模型对图像进行字符识别,得到字符识别结果。由于目标语料库与图像中包含的字符相关联,因此基于目标语料库生成的语言模型更加适应字符搭配等字符识别规则,根据语言模型对图像进行字符识别,使得字符识别结果更加准确。
实施例二
参照图2,示出了根据本发明实施例二的语言模型生成方法的步骤流程图。
在上述实施例的基础之上,本实施例重点在于强调与上述实施例的不同之处,相同之处可以参照上述实施例中的相关介绍和说明,在此不再赘述。
本实施例的语言模型生成方法包括以下步骤:
步骤S200、在多个语料库中确定目标语料库。
本实施例中,可以根据以下两方面在多个语料库中确定目标语料库。
一、根据多个语料库中分别包含的数据量,确定目标语料库。
(1)在多个语料库中,将包含的数据量大于第一预设阈值的语料库,确定为目标语料库。
第一预设阈值可以根据实际情况进行设置,将包含的数据量大于第一预设阈值的语料库确定为目标语料库,使得目标语料库中拥有比较多的语料信息,基于语料信息比较多的目标语料库生成的语言模型的字符识别效果更好。
(2)在多个语料库中,将包含的数据库小于第二预设阈值的语料库,确定为目标语料库。
第二预设阈值可以根据实际情况进行设置,将包含的数据量小于第二预设阈值的语料库确定为目标语料库,使得目标语料库中拥有比较少的语料信息,基于语料信息比较少的目标语料库生成语言模型的时间短,语言模型的存储量小。
二、根据当前场景类别信息,在多个语料库中确定与当前场景类别信息对应的目标语料库。
例如,若需要对购物小票进行字符识别,则当前场景类别信息可以为购物信息,确定得到的目标语料库需要包含购物小票中出现过或者出现频率较高的字符。
步骤S202、基于目标语料库生成语言模型。
本实施例中的语言模型可以包括:二元语言模型或三元语言模型,其中,二元语言模型为对单个字符本身和两个字符的组合进行字符识别的语言模型,三元语言模型为对单个字符本身、两个相邻字符的组合和三个相邻字符的组合进行字符识别的语言模型。语言模型可以包括概率阈值、字符序列长度信息、集束(beam)值等,其中,概率阈值用于根据识别概率对字符进行筛选,在字符识别过程中,对于一些字符(如中文字符),预测概率较高的字符和预测概率较低的字符在概率上存在量级的差距,因此,可以设置概率阈值对预测概率较低的字符进行筛除,从而提高语言模型的字符识别效率。字符序列长度信息用于确定识别得到的字符序列的长度范围(例如,长度范围可以为4-8个字符,页可以指定为5个字符,无论是字符范围还是具体字符都可以理解为长度范围),通过字符序列长度信息可以将字符识别结果识别在倾向长度范围内,以提高字符识别的准确度。beam值用于确定最佳字符序列,通过beam值可以提高字符识别的速度。
步骤S204、基于前缀树存储方式,存储语言模型。
语言模型的存储方式直接决定了语言模型的字符识别效率,本实施例中,可以基于前缀树存储方式存储语言模型,前缀树存储方式基于指针进行存储,指针用于连接字符的识别概率和字符组合的识别概率,通过指针可以方便查找字符的识别概率和字符组合的识别概率,如图3所示。仍以三元语言模型为例进行说明,生成三元语言模型需要知道每个字符的一元概率、二元概率、三元概率,即每个字符本身、字符和之前字符组成的二元组,以及字符和之前两个字符组成的三元组在整个目标语料库中出现的概率,其中,log p和logb均为用于计算一元概率、二元概率和三元概率的参数。对于句子“iran is one of”生成的三元语言模型,以倒序的方法从句子末尾字符的概率存起,一元概率、二元概率和三元概率之间通过指针相连,方便查找。
本实施例中,通过前缀树存储方式存储语言模型,使得语言模型在识别字符时有比较高的字符识别效率,减少字符识别时间。
根据本实施例提供的语言模型生成方法,在多个语料库中确定目标语料库,目标语料库为与图像中包含的字符相关联的语料库;基于目标语料库生成语言模型,其中,语言模型用于对图像进行字符识别。根据生成的语言模型对图像进行字符识别,得到字符识别结果。由于目标语料库与图像中包含的字符相关联,因此基于目标语料库生成的语言模型更加适应字符搭配等字符识别规则,根据语言模型对图像进行字符识别,使得字符识别结果更加准确。
本实施例中,可以根据语料库中包含的数据量的大小以及当前场景类别信息确定目标语料库,进而基于目标语料库生成语言模型,提升语言模型的字符识别效果,减小语言模型的存储量,使得语言模型更加适合实际的应用场景,提高字符识别的准确度。
本实施例中,通过语言模型中的概率阈值对预测概率较低的字符进行筛除,从而提高语言模型的字符识别效率;通过字符序列长度信息可以将字符识别结果识别在倾向长度范围内,以提高字符识别的准确度;通过beam值可以提高语言模型的字符识别速度。
本实施例中,基于前缀树存储方式存储语言模型,通过前缀树存储方式中的指针,方便查找字符的识别概率和字符组合的识别概率,提高了语言模型的字符识别效率。
实施例三
参照图4,示出了根据本发明实施例三的字符识别方法的步骤流程图。
本实施例的字符识别方法可以基于上述实施例一和二中的语言模型进行执行,关于语言模型的介绍可以参照上述实施例一和二中的相关说明,在此不再赘述。
本实施例的字符识别方法包括以下步骤:
步骤S400、根据语言模型对图像进行字符识别,得到第一字符识别结果。
本实施例中的图像可以为包含字符的图像,可以是来源于图像采集设备的视频图像,由一帧一帧的图像组成,也可以为单独的一帧图像或者一幅图像,还可以来源于其他设备。本实施例对包含字符的图像的来源和获得途径等不做限制。
第一字符识别结果可以包括图像中的字符为字符字典中的某个字符的概率。其中,字符字典可以理解为包含所有可能预测的字符的数据库。
本实施例中,字符可以包括文字、数字、字母、符号等等,本实施例对字符的具体内容不做限制。
步骤S402、根据神经网络模型对图像进行字符识别,得到第二字符识别结果。
本实施例中,可以基于但不限于循环神经网络模型对图像进行字符识别,得到第二字符识别结果。其中,循环神经网络模型可以为已训练完毕的或者现有的循环神经网络模型,本实施例对循环神经网络模型的来源不做限定。
需要说明的是,上述步骤S400和步骤S402可以顺序执行,即先执行步骤S400,再执行步骤S402,还可以先执行步骤S402,再执行步骤S400,也可以同时执行步骤S400和步骤S402,本实施例对步骤S400和步骤S402的执行顺序不做限制。
步骤S404、基于第一字符识别结果及第二字符识别结果,生成目标字符识别结果。
本实施例中,由于利用语言模型和神经网络模型分别对图像进行字符识别,得到两个识别结果:第一字符识别结果和第二字符识别结果。在确定最终的识别结果时,结合第一字符识别结果和第二字符识别结果,得到目标字符识别结果,一种可选的实施方式中,可以基于第一字符识别结果、第二字符识别结果、及分别对应的权重值,生成目标字符识别结果。其中,第一字符识别结果对应的第一权重值可以在生成语言模型时确定,第一权重值用于确定第一字符识别结果在目标字符识别结果中的概率。同理,第二字符识别结果对应的第二权重值可以在训练神经网络模型时确定,第二权重值用于确定第二字符识别结果在目标字符识别结果中的概率。
步骤S406、输出目标字符识别结果。
本实施例中,在输出目标字符识别结果时,可以输出多个目标字符识别结果,及多个目标字符识别结果分别对应的概率值。对于概率值较高的目标字符识别结果可以优先显示或者靠前显示,本实施例对目标字符识别结果的显示方式不做具体限制。
根据本实施例提供的技术方案,分别利用语言模型和神经网络模型对图像进行字符识别,得到第一字符识别结果和第二字符识别结果,再基于第一字符识别结果及第二字符识别结果,生成目标字符识别结果。
本实施例中的语言模型由目标语料库生成所得,由于目标语料库与图像中包含的字符相关联,因此基于目标语料库生成的语言模型更加适应字符搭配等字符识别规则,根据语言模型对图像进行字符识别,使得字符识别结果更加准确。
本实施例提供的技术方案,可以结合实际应用情况,适当调整语言模型中的参数,包括概率阈值、字符序列长度信息、beam值等,对语言模型进行优化,提高了字符识别的准确度和速度。
本实施例提供的技术方案可以应用在如购物小票识别、身份证识别等场景中,例如,在购物小票识别过程中,两个形状相近的字“菜”和“莱”经过识别后有较接近的概率,这两个字与之前的一个字“白”组成的字符序列分别为“白菜”和“白莱”,因为“白菜”为语义正确的词组,在与购物小票相关的目标语料库生成的语言模型中有较高的概率,因此,“白菜”为对购物小票进行字符识别得到的目标字符识别结果。又例如,在身份证识别过程中,“地址”一项中的街道、小区名称相对固定,通过包含有大量街道、小区名称的目标语料库生成语言模型,根据语言模型对身份证中的“地址”项进行识别,提高对身份证识别的准确度。
实施例四
参照图5,示出了根据本发明实施例四的语言模型生成装置的结构框图。
本实施例的语言模型生成装置包括:确定模块50,用于在多个语料库中确定目标语料库;生成模块52,用于基于目标语料库生成语言模型,语言模型用于对图像进行字符识别。
可选地,本实施例的语言模型生成装置还包括:存储模块54,用于在生成模块52基于目标语料库生成语言模型之后,基于前缀树存储方式,存储语言模型。
可选地,前缀树存储方式基于指针进行存储,指针用于连接字符的识别概率和字符组合的识别概率。
可选地,确定模块50包括:第一确定子模块501,用于根据多个语料库中分别包含的数据量,确定目标语料库。
可选地,第一确定子模块501,用于在多个语料库中,将包含的数据量大于第一预设阈值的语料库,确定为目标语料库。
可选地,第一确定子模块501,用于在多个语料库中,将包含的数据库小于第二预设阈值的语料库,确定为目标语料库。
可选地,语言模型包括:二元语言模型或三元语言模型。
可选地,确定模块50包括:第二确定子模块502,用于根据当前场景类别信息,在多个语料库中确定与当前场景类别信息对应的所述目标语料库。
可选地,语言模型包括概率阈值,概率阈值用于根据识别概率对字符进行筛选。
可选地,语言模型包括字符序列长度信息,字符序列长度信息用于确定识别得到的字符序列的长度范围。
可选地,语言模型包括beam值,beam值用于确定最佳字符序列。
本实施例的语言模型生成装置用于实现上述实施例中相应的语言模型生成方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例五
参照图6,示出了根据本发明实施例五的字符识别装置的结构框图。
本实施例的字符识别装置包括:第一识别模块60,用于根据语言模型对图像进行字符识别,得到第一字符识别结果;其中,语言模型为根据上述实施例中的语言模型生成装置得到。
可选地,本实施例的字符识别装置还包括:第二识别模块62,用于根据神经网络模型对图像进行字符识别,得到第二字符识别结果;结果生成模块64,用于基于第一字符识别结果、及第二字符识别结果,生成目标字符识别结果;结果输出模块66,用于输出目标字符识别结果。
可选地,结果生成模块64,用于基于第一字符识别结果、第二字符识别结果及分别对应的权重值,生成目标字符识别结果。
可选地,结果输出模块66,用于输出多个目标字符识别结果,及多个目标字符识别结果分别对应的概率值。
本实施例的字符识别装置用于实现上述实施例中相应的字符识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例六
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7,其示出了适于用来实现本发明实施例的语言模型生成装置的电子设备700的结构示意图:如图7所示,电子设备700包括一个或多个处理器、通信元件等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)701,和/或一个或多个图像处理器(GPU)713等,处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件712和/或通信接口709。其中,通信组件712可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口709包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口709经由诸如因特网的网络执行通信处理。
处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令,通过通信总线704与通信组件712相连、并经通信组件712与其他目标设备通信,从而完成本发明实施例提供的任一项语言模型生成方法对应的操作,例如,在多个语料库中确定目标语料库;基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。
此外,在RAM703中,还可存储有装置操作所需的各种程序和数据。CPU701或GPU713、ROM702以及RAM703通过通信总线704彼此相连。在有RAM703的情况下,ROM702为可选模块。RAM703存储可执行指令,或在运行时向ROM702中写入可执行指令,可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口705也连接至通信总线704。通信组件712可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口709。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
需要说明的,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
实施例七
根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例中语言模型生成方法的步骤。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,在多个语料库中确定目标语料库;基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器执行时,执行本发明实施例的方法中限定的上述功能。
实施例八
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8,其示出了适于用来实现本发明实施例的字符识别装置的电子设备800的结构示意图:如图8所示,电子设备800包括一个或多个处理器、通信元件等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)801,和/或一个或多个图像处理器(GPU)813等,处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件812和/或通信接口809。其中,通信组件812可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口809经由诸如因特网的网络执行通信处理。
处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令,通过通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信,从而完成本发明实施例提供的任一项字符识别方法对应的操作,例如,根据语言模型对图像进行字符识别,得到第一字符识别结果;其中,所述语言模型为根据上述任一项所述语言模型生成方法得到。
此外,在RAM803中,还可存储有装置操作所需的各种程序和数据。CPU801或GPU813、ROM802以及RAM803通过通信总线804彼此相连。在有RAM803的情况下,ROM802为可选模块。RAM803存储可执行指令,或在运行时向ROM802中写入可执行指令,可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至通信总线804。通信组件812可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口809。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
需要说明的,如图8所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
实施例九
根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例中字符识别方法的步骤。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,根据语言模型对图像进行字符识别,得到第一字符识别结果;其中,所述语言模型为根据上述任一项所述语言模型生成方法得到。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器执行时,执行本发明实施例的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种语言模型生成方法,其特征在于,包括:
在多个语料库中确定目标语料库;
基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述目标语料库生成语言模型之后,所述方法还包括:
基于前缀树存储方式,存储所述语言模型。
3.根据权利要求2所述的方法,其特征在于,所述前缀树存储方式基于指针进行存储,所述指针用于连接字符的识别概率和字符组合的识别概率。
4.一种字符识别方法,其特征在于,包括:
根据语言模型对图像进行字符识别,得到第一字符识别结果;
其中,所述语言模型为根据权利要求1-3任一项所述语言模型生成方法得到。
5.一种语言模型生成装置,其特征在于,包括:
确定模块,用于在多个语料库中确定目标语料库;
生成模块,用于基于所述目标语料库生成语言模型,所述语言模型用于对图像进行字符识别。
6.一种字符识别装置,其特征在于,包括:
第一识别模块,用于根据语言模型对图像进行字符识别,得到第一字符识别结果;
其中,所述语言模型为根据权利要求5所述语言模型生成装置得到。
7.一种电子设备,其特征在于,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-3任一项所述的语言模型生成方法对应的操作。
8.一种电子设备,其特征在于,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求4所述的字符识别方法对应的操作。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-3任一项所述的语言模型生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求4所述的字符识别方法的步骤。
CN201710393511.8A 2017-05-27 2017-05-27 语言模型生成及应用方法、装置、电子设备和存储介质 Pending CN108229286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710393511.8A CN108229286A (zh) 2017-05-27 2017-05-27 语言模型生成及应用方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710393511.8A CN108229286A (zh) 2017-05-27 2017-05-27 语言模型生成及应用方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN108229286A true CN108229286A (zh) 2018-06-29

Family

ID=62656611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710393511.8A Pending CN108229286A (zh) 2017-05-27 2017-05-27 语言模型生成及应用方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108229286A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795927A (zh) * 2019-10-18 2020-02-14 北京声智科技有限公司 n-gram语言模型读取方法、装置、电子设备及存储介质
CN110956058A (zh) * 2018-09-26 2020-04-03 北京嘀嘀无限科技发展有限公司 图像识别方法、装置及电子设备
CN111613215A (zh) * 2019-02-22 2020-09-01 浙江大学 一种语音识别的方法及其装置
CN111700718A (zh) * 2020-07-13 2020-09-25 北京海益同展信息科技有限公司 一种识别握姿的方法、装置、假肢及可读存储介质
CN114943976A (zh) * 2022-07-26 2022-08-26 深圳思谋信息科技有限公司 模型生成的方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
CN102193909A (zh) * 2010-03-09 2011-09-21 方圆 一种统计语言模型自动抽选语料算法
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN105654135A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的图像文字序列识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
CN102193909A (zh) * 2010-03-09 2011-09-21 方圆 一种统计语言模型自动抽选语料算法
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN105654135A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的图像文字序列识别系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALEJANDRO HECTOR TOSELLI等: "《Multimodal Interactive Pattern Recognition and Applications》", 31 December 2011 *
KHAOULA ELAGOUNI, CHRISTOPHE GARCIA, PASCALE SEBILLOT: "A Comprehensive Neural-Based Approach for Text Recognition in Videos using Natural Language Processing", 《ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL ICMR 2011》 *
李元祥,刘长松,丁晓青: "一种利用校对信息的汉字识别自适应后处理方法", 《中文信息学报》 *
翟明新: "统计语言模型平滑技术和压缩技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)计算机软件及计算机应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956058A (zh) * 2018-09-26 2020-04-03 北京嘀嘀无限科技发展有限公司 图像识别方法、装置及电子设备
CN110956058B (zh) * 2018-09-26 2023-10-24 北京嘀嘀无限科技发展有限公司 图像识别方法、装置及电子设备
CN111613215A (zh) * 2019-02-22 2020-09-01 浙江大学 一种语音识别的方法及其装置
CN111613215B (zh) * 2019-02-22 2023-06-23 浙江大学 一种语音识别的方法及其装置
CN110795927A (zh) * 2019-10-18 2020-02-14 北京声智科技有限公司 n-gram语言模型读取方法、装置、电子设备及存储介质
CN110795927B (zh) * 2019-10-18 2023-11-21 北京声智科技有限公司 n-gram语言模型读取方法、装置、电子设备及存储介质
CN111700718A (zh) * 2020-07-13 2020-09-25 北京海益同展信息科技有限公司 一种识别握姿的方法、装置、假肢及可读存储介质
CN114943976A (zh) * 2022-07-26 2022-08-26 深圳思谋信息科技有限公司 模型生成的方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10958748B2 (en) Resource push method and apparatus
CN108229286A (zh) 语言模型生成及应用方法、装置、电子设备和存储介质
US10380236B1 (en) Machine learning system for annotating unstructured text
CN108288078B (zh) 一种图像中字符识别方法、装置和介质
US11216510B2 (en) Processing an incomplete message with a neural network to generate suggested messages
CN109271521B (zh) 一种文本分类方法及装置
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
CN111914085B (zh) 文本细粒度情感分类方法、系统、装置及存储介质
US11544491B2 (en) Data clustering
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN110362814B (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN113434685B (zh) 一种资讯分类处理的方法及系统
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN109918499A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN109801151A (zh) 财务造假风险监控方法、装置、计算机设备和存储介质
CN113468338A (zh) 针对数字化云业务的大数据分析方法及大数据服务器
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN111522736A (zh) 一种软件缺陷预测方法、装置、电子设备及计算机存储介质
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN111160733B (zh) 一种基于有偏样本的风险控制方法、装置及电子设备
CN113010785A (zh) 用户推荐方法及设备
CN111666408A (zh) 重要条款筛选与展示的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication