CN107533671B - 模式识别装置、模式识别方法以及记录介质 - Google Patents

模式识别装置、模式识别方法以及记录介质 Download PDF

Info

Publication number
CN107533671B
CN107533671B CN201580078044.9A CN201580078044A CN107533671B CN 107533671 B CN107533671 B CN 107533671B CN 201580078044 A CN201580078044 A CN 201580078044A CN 107533671 B CN107533671 B CN 107533671B
Authority
CN
China
Prior art keywords
model
feature vectors
recognition
state
pattern recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580078044.9A
Other languages
English (en)
Other versions
CN107533671A (zh
Inventor
小野聪一郎
水谷博之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN107533671A publication Critical patent/CN107533671A/zh
Application granted granted Critical
Publication of CN107533671B publication Critical patent/CN107533671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

将被输入的信号分割成多个要素,将各要素转换成特征向量来生成特征向量的集合,使用识别字典来评价特征向量的集合。识别字典包括与各个类对应的模型,各模型具有与应被分类为对应于该模型的类的信号能取得的分割模式对应的子模型,子模型具有与用对应于该子模型的分割模式被分割出的各要素对应的状态,该状态是通过特征向量以及表示该状态的标签的函数来表现的状态。识别部将标签或者标签的集合作为识别结果输出,该标签表现具有与特征向量的集合符合的子模型的模型,该标签的集合表现具有与特征向量的集合符合的子模型的模型的集合。

Description

模式识别装置、模式识别方法以及记录介质
技术领域
本发明的实施方式涉及模式识别装置、模式识别方法以及记录介质。
背景技术
在模式识别的领域中,作为用于对识别单位之间不明确的输入信号进行模式识别的方法,已知有以下的2个方法。第1个方法是将输入信号分割成多个要素后按照规定的基准进行结合,分别单独地对各个要素进行识别的方法(以下,将该方法称为“解析的方法”。)。第2个方法是使用隐马氏模型(HMM:Hidden Markov Model)等概率模型,作为输入信号的分割位置一边考虑所有可能性一边同时进行识别和分割的方法(以下,将该方法称为“整体的方法”。
但是,在解析的方法中,由于通过直观推断的方法对暂时分割的要素进行结合,因此,具有不能充分确保识别的精度的情况。另一方面,在整体的方法中,由于一边考虑所有分割位置的可能性一边进行处理,因此,计算量大,要求高规格的硬件资源。由此,在解析的方法和整体的方法中分别具有缺点,因此,希望提供消除了这些缺点的新技术。
发明内容
本发明所要解决的问题是提供一种模式识别装置、模式识别方法以及记录介质,能够对识别单位之间不明确的输入信号以较少的计算量进行高精度的识别。
实施方式的模式识别装置具备分割部、特征提取部以及识别部。分割部将被输入的信号分割成多个要素。特征提取部将被分割出的各要素分别转换成相同维数的特征向量来生成特征向量的集合。识别部使用识别字典来评价上述特征向量的集合,并输出表示被输入的信号所属的类或者类的集合的识别结果。上述识别部使用的上述识别字典包括与各个类对应的模型,上述模型具有与在应被分类为对应于该模型的类的信号被分割成多个要素时能取得的分割模式的各个模式对应的子模型,上述子模型具有与通过对应于该子模型的分割模式而被分割出的各要素各自对应的状态,该状态是通过上述特征向量以及表示该状态的标签的函数来表现的状态。上述识别部将标签或者标签的集合作为上述识别结果输出,该标签表现具有与上述特征向量的集合符合的上述子模型的模型,该标签的集合表现具有与上述特征向量的集合符合的上述子模型的模型的集合。
一种模式识别方法,该方法在模式识别装置中执行,包括:分割步骤,由上述模式识别装置将被输入的信号分割成多个要素;特征提取步骤,由上述模式识别装置将被分割的各要素分别转换成相同维数的特征向量来生成特征向量的集合;以及识别步骤,由上述模式识别装置使用识别字典来评价上述特征向量的集合,并输出表示被输入的信号所属的类或者类的集合的识别结果,上述识别字典包括与各个类对应的模型,上述模型具有与在应被分类为对应于该模型的类的信号被分割成多个要素时能取得的分割模式的各个模式对应的子模型,上述子模型具有与通过对应于该子模型的分割模式而被分割出的各要素各自对应的状态,该状态是通过上述特征向量以及表示该状态的标签的函数来表现的状态,在上述识别步骤中,将标签或者标签的集合作为上述识别结果输出,该标签表现具有与上述特征向量的集合符合的上述子模型的模型,该标签的集合表现具有与上述特征向量的集合符合的上述子模型的模型的集合。
一种记录介质,该记录介质是记录有程序的计算机可读取的记录介质,上述程序使计算机实现如下功能:分割部的功能,将被输入的信号分割成多个要素;特征提取部的功能,将被分割出的各要素分别转换成相同维数的特征向量来生成特征向量的集合;以及识别部的功能,使用识别字典来评价上述特征向量的集合,并输出表示被输入的信号所属的类或者类的集合的识别结果,上述识别字典包括与各个类对应的模型,上述模型具有与在应被分类为对应于该模型的类的信号被分割成多个要素时能取得的分割模式的各个模式对应的子模型,上述子模型具有与通过对应于该子模型的分割模式而被分割出的各要素各自对应的状态,该状态是通过上述特征向量以及表示该状态的标签的函数来表现的状态,上述识别部将标签或者标签的集合作为上述识别结果输出,该标签表现具有与上述特征向量的集合符合的上述子模型的模型,该标签的集合表现具有与上述特征向量的集合符合的上述子模型的模型的集合。
根据上述构成的模式识别装置,能够对识别单位之间不明确的输入信号以较少的计算量进行高精度的识别。
附图说明
图1是表示实施方式的模式识别装置的功能的构成例的框图。
图2是将被输入的信号分割成多个要素的处理的概念图。
图3是识别字典所含有的模型的概念图。
图4是识别字典所含有的模型的概念图。
图5是表示由实施方式的模式识别装置进行的处理顺序的一个例子的流程图。
图6是说明以往的解析的方法的概念图。
图7是包括噪声状态的模型的概念图。
图8是将韩国语字符分割成要素的处理的概念图。
图9是表示韩国语字符的分割模式的一个例子的图。
图10是表示实施方式的模式识别装置的硬件构成例的框图。
具体实施方式
以下,参照附图对实施方式的模式识别装置、模式识别方法以及记录介质进行说明。
本实施方式的模式识别装置通过将以往的解析的方法和整体的方法组合而成的新的方法,来进行相对识别单位之间不明确的输入信号的模式识别。即,基本概念是将被输入的信号分割成多个要素并求出要素的特征向量的集合,使用概率模型,将表示符合特征向量的集合的类或者该集合的识别结果进行输出。
在此,将被输入的信号分割成多个要素时的分割的方式(分割模式) 一般来说对于各个类并不是1种。例如,在被输入的信号为手写字符的图像时,由于手写的习惯等会成为不同的形式,因此,具有即使是应该分类到相同的类的信号,也会以不同的分割模式被分割的情况。而且,在应该分类到相同的类的信号以不同的分割模式被分割时,从被分割后的各个要素提取的特征向量的分布以及个数较大地不同,因此,在隐马氏模型中的 left-to-right模型(参照非专利文献2)等标准的模型中,不能正确地识别被输入的信号。
于是,在本实施方式中,对于各个类,将应该分类到该类的信号能取得的分割模式分别设为子模型,将对这些子模型全部进行结合后得到的模型作为与该类对应的模型来使用。
图1是表示本实施方式的模式识别装置的功能的构成的框图。如图1 所示,本实施方式的模式识别装置具备信号输入部1、分割部2、特征提取部3以及识别部4。
信号输入部1接受成为识别对象的信号的输入。成为识别对象的信号例如是作为图像表示的字符、字符串、其他图像、以及作为波形表示的音声信号、各种的传感器信号等,这些数字信息或者根据需要而实施二值化等前处理后的数字信息被输入到信号输入部1。
分割部2将输入到信号输入部1的信号分割成多个要素。具体地讲,在输入到信号输入部1的信号为字符串图像的情况下,分割部2的处理能够通过应用例如下述的参考文献1所记载的投影以及连结成分分析、或者非专利文献1所记载的“到基本段的分割”的方法等来实现。
<参考文献1>A.Rosenfeld等、“ディジタル画像処理”(长尾真监译)、近代科学社、1978年
图2是将被输入的信号分割成多个要素的处理的概念图,示出了“水の”这样的字符串图像通过分割部2被分割成5个要素的情况。在该图2 所示的例子中,分割字符串图像的方向是单向,但不限于此,还可以以二维的分割模式将信号分割成多个要素。
另外,在输入到信号输入部1的信号为音声信号、各种传感器信号等那样以时间序列的波形来表示的信号的情况下,分割部2的处理能够通过应用例如将信号的功率变成阈值以下的状态持续了一定时间以上的位置设为分割位置的方法等来实现。
对分割后的各要素分别赋予顺序。各要素的顺序是,在原始信号为图像时,能够以图像中的水平方向的坐标为基准,在原始信号为音声信号、传感器信号等时间序列的波形时,能够以时刻等为基准,来决定分割后的各要素的顺序。此时,还可以使分割后的各要素具有序列等构造,并赋予构造内的位置信息。作为具体的例子,考虑有对于从图2示出的字符串图像所分割的各要素,从左开始按顺序赋予编号作为位置信息的方法、或对于从音声信号、各种传感器信号等时间序列的波形所分割的各要素,按照时刻早的顺序赋予编号作为位置信息的方法。另外,在对分割的方向不是单向的图像进行处理的情况下,如后述所示,考虑有按照每个分割模式预先设定以该分割模式分割的各要素的记号(参照图8),并赋予该记号作为位置信息的方法等。
特征提取部3将通过分割部2被分割后的各要素分别转换成相同维数的特征向量,生成特征向量的集合。具体地讲,特征提取部3首先对成为被分割后的各个要素的信号实施对长度、量子化能级进行标准化等的前处理。而且,特征提取部3输出以对该前处理后的值或前处理后的信号进一步实施高斯滤波等滤波处理、傅里叶变换等转换处理后的值作为成分的特征向量,来作为该要素的特征向量。此时,还可以对各要素的特征向量以所有范数成为1的方式进行标准化。特征提取部3以上述的方式从各个要素将特征向量1个个提取,生成特征向量集合。
作为将要素转换成特征向量的处理的具体例,具有例如对音声信号的要素各自的时间进行标准化后,提取如下述的参考文献2所记载的梅尔频率倒谱系数特征,并将这些值保持原样地排列作为特征向量的方法。另外,具有从图像的要素分别提取如下述的参考文献3所记载的加权方向指数直方图特征的方法。
<参考文献2>古井贞熙,“新音响音声工学”,近代科学社,2006年
<参考文献3>鹤冈信治等,“加权方向指数直方图法による手书き漢字·ひらがな识别”信学论(D),J70-D(7),pp.1390-1397,1987
识别部4使用识别字典10来评价由特征提取部3生成的特征向量的集合,并将表示被输入到信号输入部1的信号所属的类或者类的集合的识别结果输出。
识别字典10是包括本实施方式的模式识别装置作为信号的分类目的地进行处理的与各个类对应的模型的数据库,被保持于本实施方式的模式识别装置的内部或者外部。识别字典10所保持的各类的模型是概率模型,能够使用包括隐马氏模型的任意的图形模型(参照下述的参考文献4)。
<参考文献4>C.M.Bishop(对应日语:ビショップ)等,“模式识别と机械学習”(村田升监译),Springer Japan(对应日语:シュプリンガー·ジャパン),2007年
识别部4对该识别字典10包含的模型单独地或者以后述那样进行组合地,探索出与由特征提取部3生成的特征向量的集合之间的最佳的对应。而且,识别部4将表现与特征向量的集合符合的模型的标签、或者表现与特征向量的集合符合的模型的集合的标签的集合作为识别结果进行输出。
图3以及图4是识别字典10所含有的模型M的概念图。图3是与“水”这样的字符图像应被分类的类对应的模型M的例子,图4是与“东京都”的音声信号应被分类的类对应的模型M的例子。
在本实施方式中进行处理的模型M如图3以及图4所示,是将应被分类成与该模型M对应的类的信号通过分割部2被分割成多个要素时所取得的分割模式分别设为子模型m,将这些子模型m全部结合的模型。各个子模型m被选择的概率在预先准备的学习数据中,与对应的分割模式各自的出现率一致。或者,对模型M以及子模型m被选择的概率赋予同样分布等事前分布,基于此能够对模型M以及子模型m被选择的概率进行MAP估计(参照参考文献4)。
各模型M的子模型m例如构成为在节点具有状态s的定向图,该状态 s是与通过对应于该子模型m的分割模式而被分割出的各要素分别对应的状态。在这种状态下,子模型m还可以如隐马氏模型中的left-to-right 模型那样,设置成状态s只能单向地转变。也就是说,子模型m还可以是各状态s被线形地排序,从上一级的状态s向下一级的状态s的转变被禁止的构成。图3以及图4示出的例子例示出将状态s只能单向地转变的子模型m结合后的模型M。通过将子模型m如上述方式构成,从而,能够在将被分类的类或者类的集合预先知道的学习数据传递到分割部2时,决定性地赋予与子模型m的各状态s相对的、被分割的各要素的分配。
子模型m的各自的状态s通过特征向量和表示该状态s的标签的函数来表现,例如能够将该函数设为高斯分布的概率密度函数,将特征向量的对数似然设为函数的输出。此时,分布的参数如上述所示,能够使用被分类的类或者类的集合预先知道的学习数据,例如以参考文献4所记载的EM 算法、变分的贝叶斯方法、梯度法等方法进行估计。
在此,对使用了以上那样的模型M的识别部4的处理的具体例进行说明。另外,以下的说明假设出输入信号作为多个类的序列被分类的例子,但是,对于输入信号被分类为1个类的情况也应用相同的说明。
对于从输入信号得到的特征向量列(特征向量的集合)x1,……,xn的长度n以下的个数允许重复,对模型M进行排序并选择,设为M1,……, Mp。进而,从各自的模型M一个一个地选择子模型m,设为m1,……, mp,合计的长度变得与特征向量列相等。而且,将这样得到的子模型m的状态设为s1,……,sn,以下述数式(1)的形式赋予特征向量的评价函数。
【数式1】
Figure GDA0001413500960000071
但是,f1是N元(N-gram)(参照下述的参考文献5)的概率等由模型 M的列自身决定的评价函数,f2 (i)是子模型m的选择概率等伴随着在模型 Mi中选择子模型mi的评价函数,f3 (j)是状态sj的概率密度函数等伴随着对状态sj分配特征向量xj的评价函数。
<参考文献5>北研二,“概率的言语模型”(语言和计算5),东京大学出版会,1999年
此时,在将子模型m构成为如上述所示状态s只能单向地转变的情况下,将其最大化的M1,……,Mp以及m1,……,mp如非专利文献2所示,能够通过Viterbi的算法高效地计算。而且,输出将其最大化的M1,……, Mp作为识别结果。
随后,按照图5对由本实施方式的模式识别装置进行的处理的概要进行说明。图5是表示由本实施方式的模式识别装置进行的处理顺序的一个例子的流程图。
首先,信号输入部1接受成为识别对象的信号的输入(步骤S101)。被输入到信号输入部1的信号被传递到分割部2。
随后,分割部2从信号输入部1收取在步骤S101中被输入的信号,将该信号分割成多个要素(步骤S102)。由分割部2分割出的各要素分别被传递到特征提取部3。
随后,特征提取部3从分割部2收取在步骤S102中被分割出的各要素,对这些各要素,通过上述的方法求出特征向量,生成特征向量的集合(步骤S103)。由特征提取部3生成的特征向量的集合被传递到识别部4。
随后,识别部4从特征提取部3收取在步骤S103中被生成的特征向量的集合,使用识别字典10来评价特征向量的集合,将表示在步骤S101中被输入的信号所属的类或者类的集合的识别结果输出(步骤S104)。
以上,如边列举具体的例子边说明的那样,在本实施方式中,作为信号的成为分类目的地的各个类所对应的模型M,定义出将模型M与应被分类的信号的各式各样的分割模式所对应的子模型m结合后的概率模型。而且,使用包括这样的每个类的模型M的识别字典10,来评价从被输入的信号得到的特征向量的集合,将表示被输入的信号所属的类或者类的集合的识别结果输出。由此,根据本实施方式的模式识别装置,能够消除以往的解析的方法和整体的方法各自的缺点,能够对识别单位之间不明确的输入信号,以较少的计算量进行高精度的识别。
在以往的解析的方法中,如图6所示,在将被输入的信号分割成多个要素后,与成为识别对象的单位(在图6的例子中为字符)结合地进行基于模式匹配等的识别,但是,要素的结合以例如对字符的平均的大小进行假设来决定分割等直观推断的方法来进行。因此,在图6的例子中,例如具有将A的要素和B的要素、C的要素和D的要素分别作为1个识别对象进行了处理的情况,这种情况下不能充分地确保识别的精度。对此,在本实施方式的模式识别装置中,使用信号的作为分类目的地进行处理的各个类所对应的概率模型即模型M,探索与从被输入的信号得到的特征向量的集合符合的模型M或者其集合,输出表示被输入的信号所属的类或者类的集合的识别结果,因此,能够对识别单位之间不明确的输入信号进行精度良好的识别。
另外,在以往的整体的方法中,使用隐马氏模型等的概率模型进行输入信号的模式识别,但是,由于边考虑各种各样的分割位置的可能性边进行处理,因此,计算量大,要求高规格的硬件资源。对此,在本实施方式的模式识别装置中,使用与按照每个类而预先假设的分割模式所对应的子模型m结合后的模型M,探索与从被输入的信号得到的特征向量的集合符合的模型M或者其集合,输出表示被输入的信号所属的类或者类的集合的识别结果,因此,能够以较少的计算量进行识别。
如以上所示,根据本实施方式的模式识别装置,能够消除以往的解析的方法和整体的方法的各自的缺点,能够对识别单位之间不明确的输入信号,以较少的计算量进行高精度的识别。
另外,在本实施方式中使用的识别字典10还可以包括与信号的成为分类目的地的任意类均不对应的拒绝模型。作为该拒绝模型,能够使用例如仅提取其他模型M的一部分的子模型m作为1个模型的模型、或与随机地设定参数值后的模型连结后的模型。在这种状态下,识别部4在例如上述的式(1)中的M1,……Mp的包括拒绝模型的情况下,将其作为拒绝进行处理,输出表示无法得到识别结果的信息。由此,在错误记载的手写字符的图像被输入的情况等,能够在被输入的信号自身不正确的情况下,将该内容传递给用户。
另外,假设输入信号所含有的噪声错误地作为1个要素被处理的情况,作为以上那样的拒绝模型之一,设置仅由1个状态构成的仅具有1个子模型的模型(噪声模型),该噪声模型中的仅1个状态所对应的评价函数还可以返回值0,或者是随机地决定参数值的函数。
另外,识别字典10所含有的模型M之中的至少1个如图7所示,还可以构成为具有应被分类为与该模型M对应的类的信号所含有的要素的任意要素均不对应的状态即噪声状态s’。通过这样构成模型M,从而,即使输入信号所含有的噪声错误地作为1个要素进行处理,也能够将该要素作为噪声而正确地识别,能够有效地抑制由噪声的混入引起的识别精度的降低。
另外,以上的说明只要是假设了在将被输入的信号分割成要素时的分割的方向是单向的情况,但是,即使分割的方向不是单向的情况下,只要是预先决定其分割模式,也能够进行相同的处理。例如,韩国语字符等希望以二维的分割模式分割成要素,本实施方式的模式识别装置也能够有效地应用于这样的韩国语字符的识别。
图8是将韩国语字符分割成要素的处理的概念图。在作为成为识别对象的信号而输入了韩国语的字符串的图像的情况下,例如,如图8中(a)所示,首先,通过纵向的投影将字符串的图像分割成字符单位。而且,对各字符进行连结成分分析,将连结成分中邻接的组选出一个并将其沿纵向综合,反复进行该操作直到与图8中(b)那样预先决定的分割模式的任意模式一致。而且,对于由以上的操作得到的要素分别赋予按照每个分割模式而预先决定的各要素的记号作为位置信息。
图8中(a)所示的韩国语字符串中最左的字符如图9所示,具有以图8中(b)的分割模式中用0,2,4表示的分割模式来分割的可能性。于是,该字符应被分类的类所对应的模型M设为将与该图9所示的分割模式分别对应的子模型m结合后的模型。由此,通过与上述的方法相同的方法,能够进行高精度的模式识别。
本实施方式的模式识别装置例如如图10所示,能够采用具备了CPU (CentralProcessing Unit)101等处理器、ROM(Read Only Memory) 102、RAM(Random AccessMemory)103等存储装置、HDD(Hard Disk Drive)104等辅助存储装置、与网络连接进行通信的通信I/F105、将各部连接的总线106等的、利用通常的计算机的硬件构成。在这种状态下,上述的各功能的构成要素能够通过在计算机上执行规定的模式识别程序来实现。
该模式识别程序以能够安装的形式或者能够执行的形式的文件被记录于CD-ROM(Compact Disk Read Only Memory)、软盘(FD)、CD -R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等能够用计算机读取的记录介质,来作为计算机程序产品被提供。
另外,还可以构成为将该模式识别程序存储在与因特网等网络连接的其他计算机上,通过经由网络被下载来进行提供。另外,还可以构成为经由因特网等网络来提供或者发布该模式识别程序。
另外,还可以构成为将该模式识别程序预先装入ROM102等进行提供。
该模式识别程序设为包括本实施方式的模式识别装置的各处理部(信号输入部1、分割部2、特征提取部3以及识别部4)的模块构成,作为实际的硬件设置为,例如CPU101(处理器)从上述记录介质中读出程序并执行,由此,上述的各处理部被加载到RAM103(主存储)上,上述的各处理部在RAM103(主存储)上被生成。另外,本实施方式的模式识别装置还能够使用ASIC(Application Specific Integrated Circuit)、FPGA (Field-ProgrammableGate Array)等专用的硬件来实现上述的各处理部的一部分或者全部。
以上,对本发明的实施方式进行了说明,但这些实施方式是作为例子而提出的,并没有意图限定发明的范围。在此说明的新的实施方式可以以其他各种方式进行实施,在不超出发明主旨的范围内,可进行各种省略、调换以及变更。在此说明的实施方式及其变形包括在发明的范围和主旨内,同样,也包括在专利请求所记载的发明和与其等同的范围内。

Claims (10)

1.一种模式识别装置,其特征在于,具备:
分割部,将被输入的信号分割成多个要素;
特征提取部,将被分割出的各要素分别转换成相同维数的特征向量来生成特征向量的集合;以及
识别部,使用识别字典来评价上述特征向量的集合,并输出表示被输入的信号所属的类或者类的集合的识别结果,
上述识别字典包括与各个类对应的模型,
上述模型具有与在应被分类为对应于该模型的类的信号被分割成多个要素时能取得的分割模式的各个模式对应的子模型,
上述子模型具有与通过对应于该子模型的分割模式而被分割出的各要素各自对应的状态,该状态是通过上述特征向量以及表示该状态的标签的函数来表现的状态,
上述识别部将如下标签或者如下标签的集合作为上述识别结果输出,该标签表现具有与上述特征向量的集合符合的上述子模型的模型,该标签的集合表现具有与上述特征向量的集合符合的上述子模型的模型的集合。
2.如权利要求1所述的模式识别装置,其特征在于,
上述子模型的各状态线形地排序,并且从上一级的状态向下一级的状态的转变被禁止。
3.如权利要求1或2所述的模式识别装置,其特征在于,
上述识别字典包括与任意的类均不对应的模型即拒绝模型,
上述识别部在上述特征向量的集合符合上述拒绝模型的情况下,输出表示不能得到上述识别结果的信息。
4.如权利要求1或2所述的模式识别装置,其特征在于,
上述识别字典所含有的上述模型中至少1个模型还具有噪声状态,该噪声状态是与应被分类为对应于该模型的类的信号所含有的要素的任意要素均不对应的状态。
5.如权利要求1或2所述的模式识别装置,其特征在于,
上述子模型具有的状态为,通过在将成为学习数据的信号输入到上述模式识别装置时成为向该状态的输入的上述特征向量的集合以及被输入的概率,来决定该状态保持的函数。
6.如权利要求3所述的模式识别装置,其特征在于,
上述识别字典所含有的上述模型中至少1个模型还具有噪声状态,该噪声状态是与应被分类为对应于该模型的类的信号所含有的要素的任意要素均不对应的状态。
7.如权利要求3所述的模式识别装置,其特征在于,
上述子模型具有的状态为,通过在将成为学习数据的信号输入到上述模式识别装置时成为向该状态的输入的上述特征向量的集合以及被输入的概率,来决定该状态保持的函数。
8.如权利要求4所述的模式识别装置,其特征在于,
上述子模型具有的状态为,通过在将成为学习数据的信号输入到上述模式识别装置时成为向该状态的输入的上述特征向量的集合以及被输入的概率,来决定该状态保持的函数。
9.一种模式识别方法,该方法在模式识别装置中执行,其特征在于,包括:
分割步骤,由上述模式识别装置将被输入的信号分割成多个要素;
特征提取步骤,由上述模式识别装置将被分割的各要素分别转换成相同维数的特征向量来生成特征向量的集合;以及
识别步骤,由上述模式识别装置使用识别字典来评价上述特征向量的集合,并输出表示被输入的信号所属的类或者类的集合的识别结果,
上述识别字典包括与各个类对应的模型,
上述模型具有与在应被分类为对应于该模型的类的信号被分割成多个要素时能取得的分割模式的各个模式对应的子模型,
上述子模型具有与通过对应于该子模型的分割模式而被分割出的各要素各自对应的状态,该状态是通过上述特征向量以及表示该状态的标签的函数来表现的状态,
在上述识别步骤中,将如下标签或者如下标签的集合作为上述识别结果输出,该标签表现具有与上述特征向量的集合符合的上述子模型的模型,该标签的集合表现具有与上述特征向量的集合符合的上述子模型的模型的集合。
10.一种记录介质,其特征在于,该记录介质是记录有程序的计算机可读取的记录介质,
上述程序使计算机实现如下功能:
分割部的功能,将被输入的信号分割成多个要素;
特征提取部的功能,将被分割出的各要素分别转换成相同维数的特征向量来生成特征向量的集合;以及
识别部的功能,使用识别字典来评价上述特征向量的集合,并输出表示被输入的信号所属的类或者类的集合的识别结果,
上述识别字典包括与各个类对应的模型,
上述模型具有与在应被分类为对应于该模型的类的信号被分割成多个要素时能取得的分割模式的各个模式对应的子模型,
上述子模型具有与通过对应于该子模型的分割模式而被分割出的各要素各自对应的状态,该状态是通过上述特征向量以及表示该状态的标签的函数来表现的状态,
上述识别部将如下标签或者如下标签的集合作为上述识别结果输出,该标签表现具有与上述特征向量的集合符合的上述子模型的模型,该标签的集合表现具有与上述特征向量的集合符合的上述子模型的模型的集合。
CN201580078044.9A 2015-05-11 2015-05-11 模式识别装置、模式识别方法以及记录介质 Active CN107533671B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/063522 WO2016181468A1 (ja) 2015-05-11 2015-05-11 パターン認識装置、パターン認識方法およびプログラム

Publications (2)

Publication Number Publication Date
CN107533671A CN107533671A (zh) 2018-01-02
CN107533671B true CN107533671B (zh) 2021-02-23

Family

ID=57247854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580078044.9A Active CN107533671B (zh) 2015-05-11 2015-05-11 模式识别装置、模式识别方法以及记录介质

Country Status (3)

Country Link
US (1) US10373028B2 (zh)
CN (1) CN107533671B (zh)
WO (1) WO2016181468A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154511B (zh) * 2018-01-12 2019-10-25 西安电子科技大学 基于子模字典学习的sar图像分割方法
JP7247472B2 (ja) * 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN112912964A (zh) * 2018-10-19 2021-06-04 豪夫迈·罗氏有限公司 利用卷积神经网络对冻干药物产品的缺陷检测
CN112801237B (zh) * 2021-04-15 2021-07-23 北京远鉴信息技术有限公司 暴恐内容识别模型的训练方法、训练装置及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347502B (en) * 1996-06-12 1998-12-11 Ind Tech Res Inst A storage method for reference database of on-line Chinese character recognition system
CN1247615A (zh) * 1997-02-14 2000-03-15 惠普公司 模式识别方法和装置
US7844114B2 (en) * 2005-12-12 2010-11-30 Microsoft Corporation Logical structure layout identification and classification for offline character recognition
CN102096819A (zh) * 2011-03-11 2011-06-15 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法
JP2012118650A (ja) * 2010-11-30 2012-06-21 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
WO2012121033A1 (ja) * 2011-03-07 2012-09-13 株式会社エヌ・ティ・ティ・ドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN102713945A (zh) * 2010-01-14 2012-10-03 日本电气株式会社 模式识别器、模式识别方法以及用于模式识别的程序
CN103218611A (zh) * 2013-05-07 2013-07-24 西安电子科技大学 基于分布式协同学习的人体运动跟踪方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202830A (ja) * 1995-01-27 1996-08-09 Chugoku Nippon Denki Software Kk 文字認識システム
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
CN101930545A (zh) * 2009-06-24 2010-12-29 夏普株式会社 手写识别方法和设备
JP5488077B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9536180B2 (en) * 2013-12-30 2017-01-03 Google Inc. Text recognition based on recognition units
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347502B (en) * 1996-06-12 1998-12-11 Ind Tech Res Inst A storage method for reference database of on-line Chinese character recognition system
US5923778A (en) * 1996-06-12 1999-07-13 Industrial Technology Research Institute Hierarchical representation of reference database for an on-line Chinese character recognition system
CN1247615A (zh) * 1997-02-14 2000-03-15 惠普公司 模式识别方法和装置
US7844114B2 (en) * 2005-12-12 2010-11-30 Microsoft Corporation Logical structure layout identification and classification for offline character recognition
CN102713945A (zh) * 2010-01-14 2012-10-03 日本电气株式会社 模式识别器、模式识别方法以及用于模式识别的程序
JP2012118650A (ja) * 2010-11-30 2012-06-21 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
WO2012121033A1 (ja) * 2011-03-07 2012-09-13 株式会社エヌ・ティ・ティ・ドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN102096819A (zh) * 2011-03-11 2011-06-15 西安电子科技大学 利用稀疏表示与字典学习进行图像分割的方法
CN103218611A (zh) * 2013-05-07 2013-07-24 西安电子科技大学 基于分布式协同学习的人体运动跟踪方法

Also Published As

Publication number Publication date
US20180005087A1 (en) 2018-01-04
CN107533671A (zh) 2018-01-02
WO2016181468A1 (ja) 2016-11-17
US10373028B2 (en) 2019-08-06

Similar Documents

Publication Publication Date Title
KR20180073424A (ko) 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치
CN107533671B (zh) 模式识别装置、模式识别方法以及记录介质
CN111126396A (zh) 图像识别方法、装置、计算机设备以及存储介质
JP7268198B2 (ja) 画像解析装置、画像解析方法、及びプログラム
JP2011146028A (ja) 文字認識方法及び文字認識装置
CN111667066A (zh) 网络模型的训练、文字识别方法、装置和电子设备
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
JP5251205B2 (ja) 住所認識装置
JP2015158712A (ja) 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム
US10366312B2 (en) Pattern recognition device, pattern recognition method, and computer program product
CN108496185B (zh) 用于对象检测的系统和方法
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
JP4985724B2 (ja) 単語認識プログラム、単語認識方法、単語認識装置
JP2012069103A (ja) 圧縮された状態シーケンスを求めるための方法
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
Kumar et al. Bayesian background models for keyword spotting in handwritten documents
Kumar et al. A Bayesian approach to script independent multilingual keyword spotting
CN114358011A (zh) 命名实体提取方法与装置以及电子设备
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
Amrouch et al. A novel feature set for recognition of printed amazigh text using maximum deviation and hmm
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
CN114863574A (zh) 手写签名识别方法、装置、设备、介质及程序产品
Boukharouba et al. Recognition of handwritten Arabic literal amounts using a hybrid approach
CN113468977A (zh) 文本行语种识别方法、装置、电子设备
US9042641B2 (en) Character recognition apparatus, character recognition method, and computer-readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant