CN102024150A - 图形识别方法及图形识别装置 - Google Patents

图形识别方法及图形识别装置 Download PDF

Info

Publication number
CN102024150A
CN102024150A CN201010269401.9A CN201010269401A CN102024150A CN 102024150 A CN102024150 A CN 102024150A CN 201010269401 A CN201010269401 A CN 201010269401A CN 102024150 A CN102024150 A CN 102024150A
Authority
CN
China
Prior art keywords
mentioned
similarity
classification
estimate
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010269401.9A
Other languages
English (en)
Inventor
浜村伦行
佐藤俊雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN102024150A publication Critical patent/CN102024150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种图形识别方法及图形识别装置,该图形识别方法对输入图形是多个类目中的哪个类目进行识别,对各类目计算与输入图形的相似度(33),根据表示每个类目的相似度与第1评价值的关系的第1表(42)把上述所计算出的针对各类目的输入图形的相似度变换为第1评价值(34),利用上述所计算出的针对各类目的第1评价值和存储在表示各类目的先验概率的第2表(45)中的每个类目的先验概率来计算第2评价值(35),选择上述所计算出的第2评价值为最大的类目(36)。

Description

图形识别方法及图形识别装置
相关申请的交叉引用
本发明基于申请日为2009年9月16日的在先日本专利申请第2009-214811号,并要求其优先权,其全部内容通过引用包含于此。
技术领域
本发明涉及图形识别方法、字符(character)识别方法、图形识别程序、字符识别程序、图形识别装置以及字符识别装置。
背景技术
以往,针对图形识别方法提出了各种方案。例如,作为识别由多个类目(Category)组成的图形的技术,有希望使用各类目的识别结果为正确结果的概率来提高识别精度的图形识别方法。作为这种图形识别方法的一例,在IEEE Trans.Pattern Analysis and Machine Intelligence,vol.11,no.1,pp.68-83,Jan.1989(非专利文献1)中,公开了这样的方案,即把用先验概率(prior probability)除后验概率(posterior probability)的值作为评价值,把评价值为最大的候补作为下一个检索对象。而且,把后验概率写为P(c|x)。定义后验概率P(c|x)表示以通过识别处理而得到的输出x为条件,候补c为正确结果的概率。此外,设先验概率写为P(c)。定义先验概率P(c)表示在未进行识别处理的阶段,候补c为正确结果的概率。
以往,作为要把各类目的相似度变换为后验概率的尝试,有在日本特登2739950号公报上的方法。在日本特登2739950号公报上公开的方法是,当赋予了某个类目Cj的相似度sj的情况下,求作为类目Cj的后验概率P(Cj|sj)。但是,在日本特登2739950号公报上公开的方法,如上所述,由于只考虑一个类目的相似度sj,因而很难提高精度。
发明内容
本发明的一个方式的目的在于提供一种能够高效率地进行高精度的图形识别的图形识别方法、字符识别方法、图形识别程序、字符识别程序、图形识别装置以及字符识别装置。
一种识别输入图形是多个类目中的哪个类目的图形识别方法,对各类目计算和输入图形的相似度(33),根据表示每个类目的相似度和第1评价值的关系的第1表(42),把上述计算出的针对各类目的输入图形的相似度变换为第1评价值(34),用上述计算出的针对各类目的第1评价值和存储在表示各类目的先验概率的第2表(45)中的每个类目的先验概率来计算第2评价值(35),选择上述计算出的第2评价值为最大的类目(36)。
附图说明
图1是表示实施例中的纸片类处理装置的分类机的概略构成的图。
图2是表示字符识别部的构成例子的图。
图3是表示相似度存储部的构成例子的图。
图4是表示划分类目的第1评价值表的构成例子的图。
图5是表示正确结果分布表的构成例子的图。
图6是表示非正确结果分布表的构成例子的图。
具体实施方式
以下,参照附图详细说明本实施例。
首先,概略说明作为本实施例的图形识别处理。
作为本实施例的图形识别处理是用于判别输入图形是多个类目中的哪个类目的处理。成为识别对象的图形只要是可以计算出与登记在识别用的辞典中的辞典图形(类目)的相似度(或者,称之为可靠度、距离、评价值等的表示类目的可能性(probability)的值)的图形即可。例如,作为设置为识别对象的图形,假设是在字符识别处理中的字符图形,或者,基于脸部图像等生物信息的生物认证处理中的生物信息的特征图形等。
例如,在识别记载于纸片类上的字符信息的OCR处理中,利用从输入图像中检测的字符图形与登记在辞典数据库19中的各字符图形(辞典数据)的相似度来识别字符。在这种字符识别处理等的图形识别处理中,根据相似度来判别输入图形是多个类目(辞典数据)中的哪个类目。
在本实施例中说明的图形识别方法是适用于判定输入图形是多个类目中的哪个类目的识别处理的方法。此外,在本实施例中说明的图形识别方法中,存储针对各类目的输入图形的相似度以及针对输入图形的可能的类目,通过计算以各类目的相似度为条件的后验概率(以后详细说明),高效率并且高速地得到高精度的图形识别结果。
以下,作为图形识别处理的应用例子说明具有字符识别部的纸片类处理装置,上述字符识别部识别记载在纸片类上的地址信息等的字符。
图1是表示作为本实施例的纸片类处理装置的分类机1的概略构成的图。
该分类机1如图1所示,由分类机主体(主体)3和VCS(视频(video)编码系统)4构成。上述分类机主体3是通过地址信息等对纸片类进行分类处理的单元。此外,上述VCS4通过操作者的编码操作而输入不能利用上述分类机主体3识别地址信息的纸片类的地址信息。
上述分类机主体3如图1所示,在前面设置操作面板10。关于上述操作面板10,操作者(操作员)用来指定处理模式或处理开始,或者显示分类机的动作状态等。
上述分类机主体3具有提供纸片类的供给部。收纳在供给部11中的纸片类记载有邮政编码、地址、收件人姓名等字符信息(以下,只称为地址信息)。上述供给部11以规定的间隔一份一份地将纸片类提供给主搬运路12。此外,在提供给上述供给部11的纸片类中,除了地址信息外,有的还记载有表示纸片类的收件人地址姓名信息的收件人地址姓名条形码,或者,记载有在以后说明的OCR处理中赋予不能进行收件人地址姓名信息的字符识别的纸片类的作为识别信息的ID条形码。
在主搬运路12上设置BCR(条形码阅读器)13、扫描仪14、BCW(条形码记录器)部15,以及分类部16。这些部分根据与对各纸片类的搬运状态等的处理状态相对应的分类控制部17进行的控制,而进行动作。
上述BCR13是读取在主搬运路12上搬运的纸片类上打字的ID条形码或者收件人地址姓名条形码等的条形码的单元。上述BCR13具有读取条形码的图像的读取部;识别读取图像中的条形码的识别部。由上述BCR13得到的条形码的识别结果被提供给分类控制部17。
上述扫描仪14读取主搬运路12上的纸片类的图像。上述扫描仪14以光学方式读取纸片类上的图像。上述扫描仪14与字符识别部18连接。上述字符识别部18参照登记在辞典数据库(DB)19中的辞典数据,从由上述扫描仪14读取的图像中识别地址信息。上述字符识别部18把地址信息的识别结果提供给分类控制部17。即,上述扫描仪14、字符识别部18以及辞典数据库构成字符识别装置(OCR)。另外,有关上述字符识别部18的构成在以后详细说明。
上述BCW15根据需要在纸片类上印刷ID条形码,或者,印刷收件人地址姓名条形码。例如,上述BCW15在能够用上述字符识别部18识别地址信息的纸片类上印刷把作为识别结果的地址信息条形码化的收件人地址姓名条形码。此外,上述BCW15在不能用上述字符识别部18识别收件人地址姓名信息的纸片类上印刷ID条形码,该ID条形码是将从分类控制部17赋予的识别信息(书信(letter)ID)条形码化后的码。即,上述BCW15在能够识别地址信息的纸片类上将其识别结果作为收件人地址姓名条形码印刷,在不能识别地址信息的纸片类上印刷ID条形码。
即,上述收件人地址姓名条形码是表示作为OCR识别结果的收件人地址姓名信息自身的条形码,上述ID条形码是表示用于识别该纸片类的识别信息的条形码。用上述ID条形码表示的纸片类的识别信息是用于把在上述VCS4上通过键盘输入的收件人地址姓名信息和纸片类对应起来的信息。换句话说,印刷有上述ID条形码的纸片类是成为由VCS4处理的处理对象的纸片类。
在该BCW15的纸片类搬运方向的下游一侧设置分类部16,该分类部16根据地址信息对纸片类进行分类。该分类部16由划分为多个段、多个列的多个分类容器(pocket)(未图示)构成。各容器与每个分类目标对应地设定,根据地址信息或者机械代码将纸片类顺序地集聚在与地址信息对应的容器中。此外,在分类部16中设置集聚不能识别分类目标的纸片类的VCS排除容器(未图示)。集聚在该VCS排除容器中的纸片类在利用VCS4输入了地址信息后,被再次提供给上述供给部11,根据该纸片类的ID代码和利用上述VCS4输入的地址信息进行再次分类。
以下,说明VCS4。
上述VCS4如图1所示,由图像存储分配装置21以及多个视频编码终端(以下,称为VCD)22等构成。
上述图像存储分配装置21进行处理,把不能用上述分类机主体3识别地址信息的纸片类的图像分发给各VCD22,把利用上述各VCD22的地址信息的键盘输入结果回送给上述分类机主体3。上述图像存储分配装置21连接上述分类机主体3中的扫描仪14、分类控制部17以及字符识别部18。上述图像存储分配装置21例如由具有图像控制部以及存储部的个人计算机(PC)构成。上述图像存储分配装置21把不能用上述字符识别部18识别地址信息的纸片类的图像与该纸片类的识别信息(书信ID)对应起来存储,把存储的纸片类的图像分发给各VCD22。
上述VCD22具有显示器(显示部)或者键盘(操作部)等。上述VCD22例如由PC构成。在上述VCD22中在显示器中显示从上述图像存储分配装置21分配的纸片类的图像。在显示纸片类的图像的状态下,在上述VCD22中,操作者通过键盘输入地址信息。把利用上述VCD22的输入结果与该纸片类的识别信息(ID代码)对应起来回送给上述图像存储分配装置21。此外,上述图像存储分配装置21把来自上述VCD22的输入结果和该纸片类的识别信息(ID代码)对应起来提供给分类控制部17。由此,在分类控制部17中,根据赋予纸片类的ID条形码而得到键盘输入的地址信息。
以下,说明字符识别部18。
图2是表示字符识别部18的构成例子的图。
如图2所示,字符识别部18具有图像输入部31、图形检测部32、相似度计算部33、第1评价值计算部34、第2评价值计算部35、最大值选择部36、识别结果输出部37、相似度存储部41、划分类目的第1评价值表42、正确结果分布表43、非正确结果分布表44,以及先验概率表45等。字符识别部18由具有控制部、存储部以及输入输出接口等的硬件(处理基板)构成。即,字符识别部18通过控制部执行存储在存储部中的程序,具有和实现各种处理功能的计算机同样的构成。
例如,上述图像输入部31、图形检测部32、相似度计算部33、第1评价值计算部34、第2评价值计算部35、最大值选择部36以及识别结果输出部37等是通过计算机(处理基板)的控制部执行各种程序而实现的功能,上述相似度存储部41、划分类目的第1评价值表42、正确结果分布表43、非正确结果分布表44以及先验概率表45等由计算机(处理基板)的存储部实现。另外,在本实施例的字符识别部18中,虽然设想是通过执行图形识别程序来实现上述各部分的功能的,但字符识别部18也可以分别用硬件构成上述各部分的一部分或者全部。
上述图像输入部31是用于输入成为字符识别对象的图像的接口。上述图像输入部31输入由上述扫描仪14读取的纸片类的图像数据。上述图形检测部32从输入的图像中检测输入图形(作为识别对象的字符图形)的候补。检测各类目(层面)的图形(单词)候补。上述图形检测部32例如从输入图像中切割出如记载地址信息那样的地址区域,从地址信息中切割出字符串,从字符串中切割出字符,把切割出的字符的图形作为输入字符图形。
上述相似度计算部33计算从输入的图像中得到的输入图形和各类目的相似度。上述相似度计算部33计算由上述图形检测部32选择出的输入图形(输入字符图形)和作为登记在辞典数据库19中的各类目的各字符(辞典字符图形)的相似度。上述相似度计算部33把计算出的针对各类目的相似度存储在相似度存储部41中。
上述第1评价值计算部34计算针对各类目的第1评价值。在此,上述第1评价值计算部34参照上述划分类目的第1评价值表42,把由上述相似度计算部33计算出的输入字符图形的针对各类目(辞典字符图形)的相似度变换为第1评价值。
上述第2评价值计算部35计算针对各类目的第2评价值。在此,上述第2评价值计算部35把根据先验概率表45而得到的针对各类目(辞典字符图形)的先验概率和由上述第1评价值计算部34得到的针对各类目的第1评价值相乘,计算针对各类目的第2评价值。
上述最大值选择部36选择由第2评价值计算部35计算出的针对各类目的第2评价值中为最大的第2评价值。在此,上述最大值选择部36选择作为第2评价值为最大值的类目的辞典字符图形。这种情况下,可以将第2评价值为最大的字符(辞典字符图形)作为对输入字符图形的字符识别结果而获得。
上述识别结果输出部37是输出作为字符识别部18的地址信息的识别结果的单元。在此,上述识别结果输出部37通过综合评价由上述最大值选择部36选择出的各字符,输出针对纸片类的地址信息的识别结果。上述字符识别部18是识别在纸片类的分类处理中使用的地址信息的单元。因此,识别结果输出部37也可以判别由最大值选择部36选择出的字符是否可以作为用于正确进行该纸片类的分类的地址信息采用。例如,识别结果输出部37也可以根据由最大值选择部36作为最大值而选择出的针对类目的第2评价值是否大于等于规定的阈值来判定该识别结果是否可以作为正确的识别结果采用,也可以根据由最大值选择部36选择出的针对类目的相似度是否大于等于规定的阈值来判定该识别结果是否可以作为正确的识别结果采用。
上述相似度存储部41将由上述相似度计算部33计算出的针对各类目的相似度与各纸片类的识别信息对应起来存储,并且将由VCS4键盘输入的信息作为正确结果的类目(正确的地址信息)与纸片类的识别信息对应起来存储。存储在上述相似度存储部41中的信息被用于构筑正确结果分布表43、非正确结果分布表44以及先验概率表45。
图3是表示相似度存储部41的构成例子的图。
在图3所示的例子中,在相似度存储部41中针对用图形号码识别的各输入图形存储表示正确结果的类目的信息,以及表示各类目(辞典图形)的相似度的信息。针对各输入图形的各类目的相似度是用上述的相似度计算部33计算出的值。因而,当相似度计算部33每次计算针对某个输入图形的各类目(辞典图形)的相似度时,在相似度存储部41中存储表示针对该输入图形的各类目的相似度的信息。进而,在相似度存储部41中还存储表示针对输入图形的正确结果的类目的信息。
在上述分类机1中,假设操作者用VCS4输入的信息(VCS信息)是表示针对输入图形的正确结果的类目的信息。这种情况下,对于与各类目的相似度对应的输入图形,进一步存储表示正确结果的类目的信息。即,在上述分类机1中,在包含由字符识别部18进行的识别处理的在分类机主体3内的对纸片类的处理之后,进行利用VCS4的纸片类的地址信息的键盘输入。因此,相似度存储部41在利用字符识别部18的字符识别处理(在分类机主体3中的纸片类处理)时登记针对输入图形的各类目的相似度,在其后的VCS处理(在VCS4中的键盘输入的处理)时登记针对用图形号码识别的各输入图形的正确结果的类目。
例如,在图3所示的例子中,表示针对图形号码“1”的输入图形,关于在相似度计算部33中计算出的各类目的相似度,类目A的相似度是“585”,类目B的相似度是“702”,类目C的相似度是“893”,用VCS4确定的正确结果的类目是类目“C”。
根据上述那样的相似度存储部41,则对各输入图形,可以很容易地提取在字符识别处理时得到的各类目的相似度和用VCS确定的正确结果的类目。
上述划分类目的第1评价值表42是表示各类目的相似度与第1评价值的关系的表。存储在划分类目的第1评价值表42中的值是根据存储在正确结果分布表43以及非正确结果分布表44中的信息而计算的值。而且,第1评价值相当于以后说明的式(13)中的R(Sc|c)、R(Sc′|c′)。
图4是表示划分类目的第1评价值表42的构成例子的图。在图4所示的构成例子中,表示用100刻度分割相似度的频度,但并不限于此,在划分类目的第1评价值表42中,也可以用任意的范围分割相似度表示频度。在图4表示的例子中,例如,对于类目A表示相似度是1000~900时的第1评价值是“322”,相似度是900~800时的第1评价值是“95”,相似度是800~700时的第1评价值是“2.36”,相似度是700~600时的第1评价值是“0.21”。
正确结果分布表43是表示针对成为正确结果的类目的相似度分布的表。在正确结果分布表43中存储将针对成为正确结果的类目的输入图形的相似度合计后的数据。例如,正确结果分布表43从相似度存储部41中读出成为正确结果的类目的相似度,并对每种类目合计读出的相似度,由此构筑为表示针对每个类目的成为正确结果的图形的相似度的频度值的表。而且,成为正确结果的相似度的频度值与在以后说明的式(13)中的P(Sc|c)对应,通过用合计值除频度值而成为和P(Sc|c)相同的值。
图5是表示正确结果分布表43的构成例子的图。在图5所示的构成例子中,虽然表示用100刻度分割了相似度的频度,但并不限于此,也可以用任意范围分割相似度表示频度。在图5所示的例子中表示,例如,对于类目A,成为正确结果的数量是4414,其中相似度是1000~900时是“310”,相似度是900~800时是“3541”,相似度是800~700时是“512”,相似度是700~600时是“51”。
非正确结果分布表44是表示针对成为非正确结果的类目的相似度的分布布的表。在非正确结果分布表44中存储对针对成为非正确结果的类目的输入图形的相似度合计而得的数据。例如,非正确结果分布表44通过从相似度存储部41中读出成为非正确结果的类目的相似度,并对每一种类目合计所读出的相似度,来构成表示针对每一种类目的成为非正确结果的图形的相似度的频度值。而且,成为非正确结果得相似度的频度值与在以后说明的式(13)中的P(Sc|c的补集)对应,通过用合计值除频度值而成为和P(Sc|c的补集)相同的值。
图6是表示非正确结果分布表44的构成例子的图。在图6所示的构成例子中,虽然表示用100刻度分割了相似度的频度,但并不限于此,也可以用任意的范围分割相似度表示频度。在图6所示的例子中表示,例如,对于类目A,成为非正确结果的数量是108722,其中在相似度是1000~900时是“341”,相似度是900~800时是“2886”,相似度是800~700时是“13943”,在相似度是700~600时是“91552”。
存储到上述正确结果分布表43中的数据是针对输入图形的正确结果类目的相似度的频度值。因此,根据存储在上述正确结果分布表中的数据,在输入图形的正确结果是类目c的条件下能够计算针对类目c的相似度为Sc的第1概率(假设它为P(Sc|c))。
此外,存储在上述非正确结果分布表44中的数据是对不是输入图形的正确结果的类目的类目的相似度的频度值。因此,根据存储在上述非正确结果分布表中的数据,在输入图形的正确结果不是类目c(不是正确结果)的条件下,能够计算针对类目c的相似度为Sc的第2概率(假设它为P(Sc|c补集))。
存储在上述划分类目的第1评价值表42中的数据是针对各类目的相似度的第1评价值。第1评价值是相当于在以后说明的式(13)中的R(Sc|c)、R(Sc′|c′)的值,是比较上述第1概率P(Sc|c)和上述第2概率P(Sc|c的补集)而求得的值。即,存储在上述划分类目的第1评价值表42中的数据(第1评价值)可以根据上述正确结果分布表43以及上述非正确结果分布表44而计算出。
先验概率表45是表示各类目的先验概率的表。即,在先验概率表45中存储针对各类目的先验概率。
根据上述那样的图形识别处理,则能够根据在各类目中成为正确结果的相似度的频度和成为非正确结果的相似度的频度,评价针对输入图形的各类目的相似度,可以实现高精度的图形识别。进而,存储针对输入图形的各类目的相似度和表示针对输入图形的正确结果的类目的信息,能够根据所存储的信息来更新对于各类目成为正确结果的相似度的频度和成为非正确结果的相似度的频度,能够容易地实现学习用于评价各相似度的数据的功能。
以下,详细说明上述的后验概率。
一般,使用贝斯定律如以下所示地计算后验概率。
P ( c | x ) = P ( x | c ) P ( c ) P ( x ) - - - ( 1 )
= P ( x | c ) P ( c ) Σ c ′ ∈ C P ( x | c ′ ) P ( c ′ ) - - - ( 2 )
这里,C是全部类目的集合(辞典的全部数据)(例如,如果是数字辞典,则C={1,2,3,…},如果是字母表(alphabet),则C={A,B,C,…},如果是脸部识别则C={A先生,B先生,C先生,…})。如果是想用概率密度函数表示图形的分布的方法(例如,模拟贝斯;参照「F.Kimura,K.Takashina,S.Tsuruoka,and Y.Miyake,“Modified quadratic discriminate functions and the application to Chinese character recognition”,IEEE Trans.Pattern Analysis and Machine Intelligence,vol.9,no.1,pp.149-153,1987」等),因为得到了以x作为特征向量时的似然度(Likelihood)P(x|c′),所以可以使用它通过式(2)得到后验概率。
但是,在局部空间法中,得到的是各类目的相似度,并未求得似然度。因而,研究如下。
把x作为全部识别结果,即作为汇集了全部类目的相似度的结果(例如,x=(A的相似度800,B的相似度750,…))。想求的是包含在全部类目集合C中的类目c的后验概率P(c|x)。在此,为了容易理解以下所示的式子,设和代入了具体值的式子交替排列。此外,作为具体例子假设是字母表的字符识别,c是字母表的“B”。此外,设识别结果是x=(A的相似度800,B的相似度750,C的相似度900,…)。进而,把它简单记述为x=(A800,B750,C900,…)。
P ( c | x ) - - - ( 3 )
= P ( B | A 800 , B 750 , C 900 , . . . ) - - - ( 4 )
= P ( x | c ) P ( c ) Σ c ′ ∈ C P ( x | c ′ ) P ( c ′ ) - - - ( 5 )
= P ( A 800 , B 750 , C 900 , . . . | B ) P ( B ) P ( A 800 , B 750 , C 900 , . . . | A ) P ( A ) + P ( A 800 , B 750 , C 900 , . . . | B ) P ( B ) + . . . - - - ( 6 )
在此,不能计算似然度P(A800,B750,C900,…|B)。因此,考虑分解为积。如果单纯地分解为积则误差激增,所以将误差量设置成Kc,分解为P(A800,B750,C900,…|B)=KB·P(A800|B,B750|B)P(C900|B)、…。而后,把每种类目c的误差近似为同样的值K。
Figure BSA00000253112300125
(设sc″作为类目c″的相似度值)(7)
Figure BSA00000253112300131
(设
Figure BSA00000253112300133
为类目c″以外的全部类目)(9)
Figure BSA00000253112300134
= P ( s c | c ) P ( s c | c ‾ ) P ( c ) Σ c ′ ∈ C P ( s c ′ | c ′ ) P ( s c ′ | c ′ ‾ ) P ( c ′ ) - - - ( 11 )
Figure BSA00000253112300136
Figure BSA00000253112300137
= R ( B 750 | B ) P ( B ) R ( A 800 | A ) P ( A ) + R ( B 750 | B ) P ( B ) + . . . - - - ( 14 )
例如,在式(12)中,分子的P(B)表示先验概率,分子P(B750|B)表示第1概率(该类目在该相似度中成为正确结果的概率),分子P(B750|B以外)表示第2概率(该类目在该相似度中成为非正确结果(不是正确结果)的概率),将用第2概率P(B750|B以外)除第1概率P(B750|B)的值表示第1评价值(针对该类目的第1评价值)。
即,后验概率能够使用式(13)计算。式(13)和式(2)是同样的形式,设为将式(2)中的似然度的部分置换为R(Sc|c)的形式。即,可知R()是与似然度成比例的值。虽然不能求似然度本身,但其比可以通过R()来求得。
如上所述,在本图形识别处理中,计算针对登记在识别用的辞典中的多个类目的输入图形的相似度,把算出的相似度变换为第1评价值,该第1评价值是根据在是正确结果的条件下成为该相似度的概率和在不是正确结果的条件下成为该相似度的概率而得到的值,根据该第1评价值和先验概率计算出第2评价值,选择第2评价值为最大的类目。由此,能够用根据以往的识别结果对各相似度进行评价后的值来判定识别结果,可以高效率地实现高精度的图形识别。
尽管这里介绍了特定的具体实施例,但这些具体实施例仅仅是作为例子的进行展示的,并不用于限制本发明的使用范围。事实上,这里描述的新的方法和系统可以被应用、集成、嵌入到许多其他形式中;另外,可以在不背离本发明的基本原理的基础上,对这里描述的方法和系统的形式进行各种各样的省略、替代和改进。随附的权利要求和其对等的内容是为了涵盖上述可能产生的符合本发明的使用范围和基本原理的形式和改进。

Claims (7)

1.一种图形识别方法,用于识别输入图形是多个类目中的哪个类目,该图形识别方法的特征在于,
对各类目计算与输入图形的相似度,
根据表示每个类目的相似度与第1评价值的关系的第1表,把上述所计算出的针对各类目的输入图形的相似度变换为第1评价值,
利用上述所计算出的针对各类目的第1评价值和存储在表示各类目的先验概率的第2表中的每个类目的先验概率来计算第2评价值,
选择上述所计算出的第2评价值为最大的类目。
2.根据权利要求1所述的图形识别方法,
上述类目是字符。
3.根据权利要求2所述的图形识别方法,
上述第1表是在输入图形是相应字符的条件下成为相应相似度的概率与在输入图形不是相应字符这一条件下成为相应相似度的概率之比。
4.根据权利要求2所述的图形识别方法,
进一步把上述所计算出的各字符的相似度与表示针对输入图形的正确结果的字符的信息对应起来存储,
根据上述存储的信息更新上述第1表。
5.根据权利要求3所述的图形识别方法,
进一步把上述所计算出的各字符的相似度与表示针对输入图形的正确结果的字符的信息对应起来存储,
根据上述存储的信息更新上述第1表。
6.一种图形识别装置,用于识别输入图形是多个类目中的哪个类目,其特征在于,具有:
相似度计算部,对各类目计算与输入图形的相似度;
第1表,表示每个类目的相似度与第1评价值的关系;
第1评价值计算部,根据用上述第1表表示的关系将由上述相似度计算部计算的针对各类目的输入图形的相似度变换为第1评价值;
第2评价值计算部,利用在上述第1评价值计算部中得到的针对各类目的第1评价值和存储在表示各类目的先验概率的第2表中的每个类目的先验概率来计算第2评价值;
最大值选择部,选择由上述第2评价值计算部计算出的第2评价值为最大的类目。
7.根据权利要求6所述的图形识别装置,
上述类目是字符。
CN201010269401.9A 2009-09-16 2010-08-31 图形识别方法及图形识别装置 Pending CN102024150A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009214811A JP5546819B2 (ja) 2009-09-16 2009-09-16 パターン認識方法、文字認識方法、パターン認識プログラム、文字認識プログラム、パターン認識装置および文字認識装置
JP2009-214811 2009-09-16

Publications (1)

Publication Number Publication Date
CN102024150A true CN102024150A (zh) 2011-04-20

Family

ID=43014492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010269401.9A Pending CN102024150A (zh) 2009-09-16 2010-08-31 图形识别方法及图形识别装置

Country Status (5)

Country Link
US (1) US8457413B2 (zh)
EP (1) EP2299385B1 (zh)
JP (1) JP5546819B2 (zh)
KR (1) KR101145967B1 (zh)
CN (1) CN102024150A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573250A (zh) * 2017-03-08 2018-09-25 株式会社东芝 生成装置、存储介质、识别系统以及生成方法
CN110647648A (zh) * 2019-09-19 2020-01-03 广东小天才科技有限公司 纸质书本的页码识别方法、装置、家教机及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5557091B2 (ja) * 2010-03-30 2014-07-23 日本電気株式会社 画像処理装置、画像読取装置、画像処理方法及び画像処理プログラム
US10606883B2 (en) 2014-05-15 2020-03-31 Evolv Technology Solutions, Inc. Selection of initial document collection for visual interactive search
US10102277B2 (en) * 2014-05-15 2018-10-16 Sentient Technologies (Barbados) Limited Bayesian visual interactive search
US20150331908A1 (en) 2014-05-15 2015-11-19 Genetic Finance (Barbados) Limited Visual interactive search
JP6390501B2 (ja) * 2015-04-15 2018-09-19 京セラドキュメントソリューションズ株式会社 学習支援装置および学習支援方法
WO2017212459A1 (en) 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US10755142B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US11574201B2 (en) 2018-02-06 2023-02-07 Cognizant Technology Solutions U.S. Corporation Enhancing evolutionary optimization in uncertain environments by allocating evaluations via multi-armed bandit algorithms
CN111625636B (zh) * 2020-05-28 2023-08-04 深圳追一科技有限公司 一种人机对话的拒绝识别方法、装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0283266A2 (en) * 1987-03-16 1988-09-21 Kabushiki Kaisha Toshiba Pattern recognition system
EP0335739A2 (en) * 1988-03-31 1989-10-04 Kabushiki Kaisha Toshiba Pattern recognition system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59219799A (ja) * 1983-05-28 1984-12-11 株式会社東芝 音声認識装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
US6205261B1 (en) * 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
JP3868716B2 (ja) 2000-05-25 2007-01-17 株式会社東芝 紙葉類処理装置
JP2008280139A (ja) 2007-05-10 2008-11-20 Toshiba Corp 紙葉類分離取り出し装置、およびその制御方法
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0283266A2 (en) * 1987-03-16 1988-09-21 Kabushiki Kaisha Toshiba Pattern recognition system
EP0335739A2 (en) * 1988-03-31 1989-10-04 Kabushiki Kaisha Toshiba Pattern recognition system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573250A (zh) * 2017-03-08 2018-09-25 株式会社东芝 生成装置、存储介质、识别系统以及生成方法
CN108573250B (zh) * 2017-03-08 2021-09-24 株式会社东芝 生成装置、存储介质、识别系统以及生成方法
CN110647648A (zh) * 2019-09-19 2020-01-03 广东小天才科技有限公司 纸质书本的页码识别方法、装置、家教机及存储介质
CN110647648B (zh) * 2019-09-19 2022-09-20 广东小天才科技有限公司 纸质书本的页码识别方法、装置、家教机及存储介质

Also Published As

Publication number Publication date
JP5546819B2 (ja) 2014-07-09
EP2299385A1 (en) 2011-03-23
KR20110030309A (ko) 2011-03-23
KR101145967B1 (ko) 2012-05-15
JP2011065370A (ja) 2011-03-31
US8457413B2 (en) 2013-06-04
EP2299385B1 (en) 2015-10-28
US20110064316A1 (en) 2011-03-17

Similar Documents

Publication Publication Date Title
CN102024150A (zh) 图形识别方法及图形识别装置
CN100397332C (zh) 文档分类方法和设备
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
CN109492099A (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
US10515265B2 (en) Generating variations of a known shred
CN102129560B (zh) 字符识别的方法和设备
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
Bin Ahmed et al. UCOM offline dataset-an Urdu handwritten dataset generation
CN101326518B (zh) 用于墨水笔记的手写体识别的方法和装置
US11587275B2 (en) Method for generating a handwriting vector
US20170076152A1 (en) Determining a text string based on visual features of a shred
Nguyen et al. CNN based spatial classification features for clustering offline handwritten mathematical expressions
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN101763516A (zh) 一种基于拟合函数的文字识别方法
CN104951781A (zh) 字符辨识装置以及识别函数生成方法
CN112860905A (zh) 文本信息抽取方法、装置、设备及可读存储介质
CN113255767B (zh) 票据分类方法、装置、设备及存储介质
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN107292255A (zh) 基于特征矩阵相似度分析的手写数字识别方法
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
Salamah et al. Towards the machine reading of arabic calligraphy: a letters dataset and corresponding corpus of text
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
Shah et al. Line-of-Sight with Graph Attention Parser (LGAP) for Math Formulas
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110420