CN1701323B - 使用笔迹特征合成的数字墨数据库搜索 - Google Patents
使用笔迹特征合成的数字墨数据库搜索 Download PDFInfo
- Publication number
- CN1701323B CN1701323B CN028204727A CN02820472A CN1701323B CN 1701323 B CN1701323 B CN 1701323B CN 028204727 A CN028204727 A CN 028204727A CN 02820472 A CN02820472 A CN 02820472A CN 1701323 B CN1701323 B CN 1701323B
- Authority
- CN
- China
- Prior art keywords
- handwriting
- search
- person
- text
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Position Input By Displaying (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Burglar Alarm Systems (AREA)
- Regulating Braking Force (AREA)
- Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
Abstract
本发明公开一种使用特征合成进行笔迹数据搜索的系统和方法,该系统可以使用文本查询搜索数字笔迹数据库。由笔迹识别系统或者自适应程序生成特定的笔迹模型,如果数字笔迹数据库的作者是通过手写输入文本查询,则文本查询被转化成与事先提取出来的特征向量相似的特征向量。用特征向量搜索数据库。这样使得即使在只有文本查询这一种输入机制的情况下,仍然可以搜索数据库,并且可以使得除了数字笔迹数据库的作者之外的其他人也可以搜索数字笔迹数据库。
Description
技术领域
本发明广义上涉及数字处理器实现的笔迹搜索或识别系统,特别地涉及一种使用文本格式的搜索查询的笔迹特征合成来搜索数字墨数据库(digital ink database)的方法和设备。
背景技术
此处使用的“数字墨数据库”指的是存储笔迹特征的数据库,例如构成手写字母的手写字符串。
概述
笔式计算系统提供了一种方便灵活的人机交互方式。大部分人非常熟悉使用纸和笔。这种为人熟知性被如下已知的系统利用,该系统用类似于笔的装置作为文本、绘图或计算的数据输入和记录机制,当然所述媒介支持该文本、绘图或计算。此外手写墨是比数字文本更有表达力的格式,且基于墨的系统是独立于语言的。
笔式计算日益增加的使用和网络计算资源纸质接口的出现(例如参考2000年6月6日Silverbrook Research Pty Ltd出版,P.Lapstun著的《Netpage System Overview》,和Anoto在2000年4月6日的新闻稿中的“Anoto,Ericsson,and Time ManagerTake Pen and Paper into the Digital Age with the AnotoTechnology”)强调了对可存储、索引和搜索(原始)数字墨的技术的需求。笔式计算允许用户以注释和注解的形式来储存数据,随后基于手绘查询来搜索该数据。然而,由于手写作品的不连续性和作者的笔迹风格不同,搜索手写文本要比搜索传统的文本(如:ASCII文本)更加困难。
数字墨数据库搜索
在数字墨数据库中搜索笔迹数据的传统方法是:首先用模式识别技术将数字墨数据库和相应的搜索查询转换成标准文本,然后将查询文本与数据库中已经转换的标准文本相比较。《ComputingSurveys》1980年,12卷4期,381-402页,P.Hall和G.Dowling的″Approximate String Matching″说明了模糊文本搜索方法,该方法在存在与笔迹识别系统产生的错误相似的字符错误的情况下进行文本匹配。
然而,笔迹识别的准确性还较低,(包括数据库项目和笔迹查询的)笔迹识别产生的错误数量说明该技术还不完善。将手写信息转换成文本的过程导致丢失了大量关于笔迹的整体形状和动态特征的信息。例如,在手写一些字母时,其形状非常相似(如“u”和“v”、“v”和“r”,“f”和“t”等)。此外,在许多笔体中(特别是草体),对单个字符的识别非常模糊。
在现有技术中已知很多直接搜索、索引数字墨数据库的技术,如《Proceedings of the ACM Computer-Human Interaction》1994,58-64页,A.Poon、K.Weber和T.Cass的“Scribbler:A Tool for Searching Digital Ink”;美国马里兰州的罗克维尔的《Proceedings of the 5th International Conference onInformation and Knowledge Management》,1996年,11月12-16,I.Kamel的“Fast Retrieval of Cursive Handwriting”;加利福尼亚州圣何塞的《The 1995 ACM SIGMOD InternationalConference on Management of Data》,1995年5月,W.Aref、D.Barbera和P.Vallabhaneni的“The Handwritten Trie:Indexing Electronic Ink”;《Database System-Issues andResearch Direction》,1996年,113-163页,W,Aref、D.Barbera、D.Lopresti和A.Tomkins的“Inkasa First-ClassDatatype in Multimedia Databases”;以及《Proceedings ofthe First ACM International Conference on DigitalLibraries》,1996年,151-159页,R.Manmatha、C.Han、E.Riseman和W.Croft的“Indexing Handwriting Using WordMatching”。
这些系统采用了相似性方法,来比较从查询笔划组得到的特征向量和从数字墨数据库得到的特征向量数据库。返回呈现与查询最大相似度的数据库的项目为匹配项。此外,一些方法创建索引或使用分区方案来避免顺序搜索数据库中的所有项目。例如参考:美国专利5,649,023,D.Barbara、W.Aref、I.Kamel和P.Vallabhaneni的“Method and Apparatus for Indexing aPlurality of Handwritten Objects”;美国专利5,710,916,D.Barbara和I.Kamel的“Method and Apparatus forSimilarity Matching of Handwritten Data Objects”;美国专利5,524,240,D.Barbara和H.Korth的“Method andApparatus for Storage and Retrieval of HandwrittenInformation”;美国专利5,553,284,D.Barbara和W.Aref的“Method for Indexing and Searching HandwrittenDocuments in a Database”;美国专利6,018,591,R.Hull、D.Reynolds和D.Gupter的“Scribble Matching”;美国专利5,687,254,A.Poon、K.Weber和T.Cass的“Searchingand Matching Unrecognized Handwriting”;以及美国专利5,768,423,W.Aref和D.Barbara的“Trie Structure BasedMethod and Apparatus for Indexing and SearchingHandwritten Databases with Dynamic Search Sequencing”。
其他研究如:《Biological Cybernetics》,1981年,139-156页,J.Hollerbach 1981的“An Oscillation Theoryof Handwriting”,以及《IEEE Conference on Computer Visionand Pattern Recognition》,1993年,Y.Singer和N.Tishby1993的“Dynamical Encoding of Cursive Handwriting”,描述了模拟笔迹物理特性以进行笔迹合成所付出的努力。
发明内容
前述数字墨数据库搜索技术基于由数字墨数据库的作者生成的墨查询。然而,如果也可使用其它输入机构来搜索数字墨数据库是有利的,如使用通过计算机键盘输入的文本查询,或通过语音识别系统说出并识别的文本查询。或者,第三方可能希望搜索数字墨数据库,或使用自己的笔迹或使用基于文本的查询。
使用笔迹特征合成的墨数据库搜索允许使用基于文本的查询搜索数字墨数据库。使用由笔迹识别系统或者适当的训练程序生成的特定作者笔迹模型,将文本查询转换成与如果数字墨数据库的作者手写文本查询所提取的特征向量相似的特征向量。然后使用该特征向量例如通过使用传统技术搜索数据库。这在唯一可用的输入机构是文本输入时也允许搜索数字墨数据库,并允许除数字墨数据库作者之外的人搜索该数字墨数据库。
根据本发明主要方面,提供一种使用文本查询搜索数字墨数据库的方法,该方法包括:
搜索包含字母序列和相关联特征向量的表的词典,确定词条序列,该序列包含的字母序列可组合生成文本查询。
得到与词条序列对应的特征向量集。
使用该特征向量集搜索数字墨数据库。
根据本发明具体实施例,词典是使用笔迹识别结果从数字墨数据库的作者获得的笔迹模型的一部分。
在本发明实施例中,笔迹模型存储字母序列到特征向量的映射。优选地词典包括各字母序列的多个特征向量。此外,优选地如果确定了多个词条序列,那么使用具有最少数量条目的词条序列。
在又一实施例中,使用笔迹识别系统将手写输入转换成文本,和/或使用语音识别系统将语音输入转换成文本来获得文本查询。
根据本发明的具体形式,通过以下步骤获得笔迹识别结果:
对笔迹采样;
使用滤波器对笔迹进行平滑处理;
进行倾斜校正;
使用区域估计算法进行高度归一化;
通过特征提取分割成子笔划,生成特征向量;
使用特征向量集的特征简化;
进行向量量化以聚合特征向量并生成码字向量;以及
通过生成的文本字母在字典中搜索最可能的词;
根据本发明又一主要方面,提供使用查询搜索数字墨数据库的设备,该设备包括:
用于用户输入查询的输入装置;
能够接收查询并与数字墨数据库通信的处理器;
如果查询不是文本查询,将该查询转换成文本查询的装置;
用于搜索词典并确定包含可组合以生成文本查询的字母序列的词条序列的装置;
用于获得与词条序列对应的特征向量集的装置;
用特征向量集搜索数字墨数据库的装置;和
用于向用户显示搜索结果的输出装置。
针对本发明实施例的另一方面,使用与生成进行搜索的特征向量的笔迹模型不同的笔迹模型,从笔迹生成文本查询。
根据本发明又一主要方面,提供使用查询搜索数字墨数据库的设备,该设备包括:
用于存储数字墨数据库的存储器;
处理器,用于:
搜索词典,确定包含可组合生成文本查询的字母序列的词条序列;
获得与词条序列相对应的特征向量集;
使用特征向量集搜索数字墨数据库;
其中,词典是使用笔迹识别结果从数字墨数据库的作者获得的笔迹模型的一部分。
附图说明
通过以下对仅作为例子示出的本发明的优选但非限制性实施例的结合附图的说明,本发明更明显,在附图中:
图1示出处理系统。
图2示出笔迹识别方法的概要。
图3示出使用特征合成的数字墨数据库搜索方法。
图4示出第三方墨数据库搜索方法。
图5示出训练和识别/搜索阶段。
图6示出笔迹识别方法。
图7示出文本识别例子。
具体实施方式
将以下实施方式说明为适于本说明书和所附权利要求,以更准确地理解本发明的主题:
I.优选实施例
本发明提供了使用文本查询搜索数字墨数据库的方法和设备。在示出本发明的特征的所有图中,相同的附图标记用来标识相同的部分。
本发明的实施例可以使用处理系统来实现,该处理系统的例子如图1所示。特别地,处理系统10通常包括至少处理器20、存储器21,和输入装置22(例如绘图板和/或键盘)、输出装置23(例如显示器),所述各个部分通过总线24连接。还提供外部接口25,用于将处理系统和数字墨数据库11连接起来。
在使用中,处理系统10用于允许数据被存储在数字墨数据库11中和/或从其检索数据。处理器20通过输入22接收笔迹数据,文本查询等。从而可理解处理系统10可以是任何形式的处理系统或终端,如计算机、便携式电脑、服务器、专用硬件等。
创建笔迹模型
特定作者笔迹模型描述特定用户的笔迹风格。大多数基于用户的自适应笔迹识别系统生成某种模型来解决不同用户之间的笔体差异。一般来说,这些笔迹模型的目的是将从输入笔划组提取的特征向量映射到表示被识别文本的字母集中。
然而,数字墨搜索的特征合成方法使用特定作者的笔迹模型来进行逆映射。即,该模型用于将查询文本转换成接近如果作者手写查询文本则所提取的特征的特征向量集。图2具体示出手写文本识别系统的一般步骤。在步骤26笔迹被采样,原始墨27经过归一化步骤28。标准化墨29经过分割步骤30,结果笔划31经过特征提取步骤32,在该步骤提取特征向量33。然后使用笔迹模型35进行分类步骤34,生成原始要素(primitives)36。文本识别步骤37接收原始要素36,并使用语言模型38和/或笔迹模型35生成与原始墨27相对应的文本39。
为了使用特征合成进行墨数据库搜索,还需要附加步骤。特定作者笔迹模型35需要被修改成存储允许文本映射到墨特征的信息。为进行该映射,在该笔迹模型中还包括将单个字母或字母组(即字母序列)转换成特征的表(也称为词典)。在进行识别后,输出文本中的字母和用于识别的相对应的特征向量可添加到该词典中。
通常同时出现的字母组及其对应的特征向量被连接起来并添加到词典中。这种做法是可取的,因为手写呈现连结效果(其中字母的书写受到周围字母的形状的影响)并且共同写的字母(如“qu”“ed”和“ing”)可能呈现连结现象。通过存储字母组的特征向量,可生成考虑笔划序列的前后影响的对查询墨的更准确的描绘。
词典应能够存储各字母序列的多个特征向量。因为同一个字母可被多次识别,所以词典应能够选择最能代表该字母的特征向量。这可通过对各字母序列存储识别器的所有特征向量序列输出连同对该字母序列所述特征向量序列出现的次数的计数来实现。字母序列的具有最高计数(也就是出现频率最高且最可能的)的特征向量序列用于特征合成。
选择存储哪些字母组可以基于(例如从文本得出的)字符转换统计,其中具有高出现概率的字符序列被存储(例如,“ing”的出现概率远大于“inx”的出现概率)。或者,所有可能的字母组在识别后被储存起来,当表变得太大时,将执行删拣程序(例如,近来最少使用的)。
通过在词典中清楚地建立词尾模型可实现进一步改进。许多书写风格在词尾呈现写得不清楚的字符。在“ing”、“er”和“ed”等手写词缀中这种现象尤其明显。为了模拟该行为,词终符号被附到字母序列(如“ing#”)来表示该字母序列模拟词尾。在特征合成中,这些条目仅用于完成查询词。
特征合成
为了搜索数字墨数据库,通过使用特定作者笔迹模型的特征合成程序将文本查询转换成特征向量集。然后这些特征向量用作搜索数字墨数据库的查询项。可采用传统墨匹配技术来选行墨数据库搜索。图3描述了这一过程。在步骤40输入文本,文本41被提供到特征合成步骤42,特征合成步骤42使用笔迹模型35生成特征43。在对数字墨数据库11的墨搜索步骤44中使用该特征43。这生成墨匹配45。
为了选行特征合成,搜索词典来定位包含可组合生成查询文本的字母序列的词条序列。连接存储的特征向量生成查询特征向量。然而,也许会存在多个用于生成查询文本的不同的词条组合。假定用可能的最小数量的词条生成文本将最准确地模拟上下文效果。例如,假设在词典中存在以下词条:
表1.词典例
B | Bo |
bor | borr |
ed | ow |
rr | rowed |
单词“borrowed”可创建为(bo)(rr)(ow)(ed)、(borr)(ow)(ed)或(bor)(rowed),最后一种结构最可取,因为其包括最少的元素。
A*词典搜索
为了获得准确结果,期望词典非常大,对单词的潜在词条组合的数目用指数来表示。对于包含较长单词的查询,列举所有排列可能不现实。改选的A*搜索算法,参见Prentice Hall1995年出版的由S.Russell和P.Norvig著的《ArtificialIntelligence-A Modern Approach》,可用来搜索字母序列s,路径代价函数g(s)是目前创建文本所使用的词条数量,达到目标的估计代价为:
h(s)=1,如果长度(s)<长度(查询)
=0,其它
该启发函数表示如果字母序列具有少于查询词的字母,需要至少一个另外的词条来完成该字母序列。搜索树中的节点通过g(s)+h(s)排序(分数越低越优秀),具有相同分数的节点通过序列中的字母个数来排列(个数越多越优秀)。
注意,h(s)是单调且合理的启发函数(即该函数不会过高估计到达目标的代价),因此可保证该搜索找到最佳解决方案且效率最佳(即扩展可能的最少的节点以找到最佳解决方案)。对该结果的证明在《Journal of the Association forComputing Machinery》,1985,32卷3期,505-536页,R.Dechter和J.Pearl的“Generalized Best-First Search Strategiesand the Optimality of A*”中给出。
作为上述方法的例子,以下示出对单词“borrowed”的搜索。表中各行代表搜索节点,分数较高的节点位于表的顶部:
s | g(s) | h(s) | g(s)+h(s) | #Letters |
(borr) | 1 | 1 | 2 | 4 |
(bor) | 1 | 1 | 2 | 3 |
(bo) | 1 | 1 | 2 | 2 |
表中顶部最可能的节点被扩展,结果如下:
s | g(s) | h(s) | g(s)+h(s) | #Letters |
(bor) | 1 | 1 | 2 | 3 |
(bo) | 1 | 1 | 2 | 2 |
(borr)(ow) | 2 | 1 | 3 | 6 |
再次对最可能的节点进行扩展:
s | g(s) | h(s) | g(s)+h(s) | #Letters |
(bor)(rowed) | 2 | 0 | 2 | 8 |
(bo) | 1 | 1 | 2 | 2 |
(borr)(ow) | 2 | 1 | 3 | 6 |
现在最顶端的节点就是一个已完成的序列,在搜索中没有其它的节点可以得到更好的分值,所以这个节点就作为搜索的结果。
II.各种实施例
IIA.不进行笔迹识别的特征合成
使用特征合成的墨搜索可以在不使用笔迹识别系统的情况下进行。该技术仅需要能够建立字母序列和相关联特征向量的词典来模拟创建数字墨数据库的作者的笔迹。
如果对于该模拟笔迹识别结果不可用,可使用训练程序来生成特定作者的词典。为此,用户通过复制特定的训练文本提供其笔迹的样本,然后该样本用于建立词典。由于已知该笔迹所代表的文本,因此不需要训练程序进行全部笔迹识别,只需将输入分割成字符和笔划,将笔划转换成特征,并将合适的字母组和相关联特征向量存储在词典中。
用来建立词典的训练文本被最优化以提供单个字母和字母组的平衡样本集。即,该训练文本应最大化可能的词unigrams,bigrams和trigram的范围,参见世界科技出版公司1999年出版的《Advances in Handwriting Recognition》,J.Pitrelli、J.Subrahmonia、M.Perrone和K.Nathan的“Optimizationof Training Texts for Writer-Dependent HandwritingRecognition”,同时强调最有可能碰到的字母和字母序列。
IIB.用于识别和墨匹配的不同特征
由于用来搜索数字墨数据库的特征来自笔迹识别结果,因此优选作法是笔迹识别系统和墨匹配算法使用相同的特征表征。
然而,如果识别特征可被转换成搜索特征,对识别和搜索可使用不同的特征集。一些特征集允许通过训练数据集学习从识别特征到搜索特征的转换。
或者,许多特征集允许从识别特征重新生成数字墨的近似,从该数字墨的近似可以提取出第二特征集。也就是说使用特征合成文本查询被转换成特征向量集,并对该特征应用特征提取过程的逆变换以将该特征转换成从其提取搜索特征的数字墨。要小心确保该过程不会在数字墨中引入影响搜索特征提取的人为因素(例如生成的墨的不连续性对于一些特征提取技术可能会产生问题)。
IIC.第三方墨搜索
用户可通过使用笔迹识别将其墨输入转换成文本,并使用特征合成将识别的文本转换成选行墨搜索的特征,来搜索其他作者的数字墨数据库。
图4描述了该情况,其中作者B搜索由作者A创建的数字墨数据库。在步骤46从作者B接收墨,笔划47被传送到特征提取步骤48。提取出特征49,识别步骤50使用语言模型51和作者B模型52来生成相应的文本53。该文本在词典建立步骤54建立作者B的词典。字母组和特征被发送回作者B模型52,以改进/更新模型。然后,文本53经过特征合成步骤42,随后是与参照图3所述相似的处理过程来检索由作者A创建的墨匹配45。
III.其它例子
以下例子将更详细地说明本发明的一个实施例。这个例子仅仅是举例而不是对本范明范围的限制。
该部分具体说明使用特征合成进行墨数据库搜索。假定已执行了一些预处理步骤,包括单词和字符分割,基线定位归一化。注意,这只是实施该技术的一种可能的方法;对于处理的各阶段存在可用的替选方法。例如,存在可使用的多种分割方案、特征集、笔迹模型和识别过程。
使用特征合成的笔迹识别和墨搜索的过程需要训练阶段和识别或搜索阶段。在训练阶段,将训练数据集转换成笔划特征,笔划特征被聚合成原始笔划(stroke primitives)并用来创建笔迹模型。对于识别和墨搜索,该模型用来解码输入墨或者合成用于墨搜索的特征。图5描绘了该处理。注意对于训练、识别和搜索使用相同的预处理、标准化、分割和特征提取步骤。
笔迹识别系统将输入墨映射到笔划码字集,该笔划码字集用来搜索字典中的匹配词。图6示出该处理的概要,各个步骤将在下文详细阐述。
平滑处理
以100Hz的恒定速率对墨进行采样。研究表明笔迹在约5Hz具有最高频谱密度,在约10Hz降低到噪声水平,参见《HumanMovement Science》,1984年,第3期,193-217页,Teulings和F.Maarse的“Digital Recording and Processing ofHandwriting Movements”。因此,截止频率为10Hz的低通滤波器可除去高频噪声,而不影响笔迹信号的相关频谱组份。
可以通过圈出点素坐标,进行快速傅立叶变换以除去高频组份,再使用快速傅立叶逆变换恢复信号来生成符合上述规格的低通滤波器。然而,简单的加权平均滤波器可同样有效地工作。平滑点序列{p1...pn}:
其中
通过经验确定滤波器的平滑参数k和α平滑系数。
倾斜校正
很多笔迹风格都没有所写字母的垂直主轴(即以一致的倾斜度写下字母)。消除笔迹倾斜是可改进手写字母的识别的标准化处理。在笔迹中,下笔划被认为是最稳定和一致的笔划,因而用来检测笔迹倾斜。
为了检测笔迹倾斜,估计点序列{p1...pn}中的下笔划的加权平均方向:
其中
ai=角(pi,pi-1)
di=||pi-pi-1||如果α1<ai<α2
=0其它
角α1和α2限定哪些笔划部分被视为下笔划的部分,根据经验分别被设为40°和140°(90°代表垂直线)。如果估计的倾斜度偏离垂直大于某阈值,则使用剪切变换除去倾斜。
其中ymin和ymax代表墨边界矩形的顶部和底部。
区域估计
区域估计用于标准化输入墨的的高度。英文字母呈现三个区域:中间区域(对应于‘a’、’c’、’e’等字母的高度),包含‘b’,‘d’,‘g’和‘j’等字母中的上伸部分和下伸部分的较高和较低区域。
通过墨密度的水平直方图来进行区域估计。即对通过墨矩形边界的等间距的水平线确定笔迹交叉的数量。找到直方图的中间峰值,以及直方图中任一侧墨密度降到低于中间峰值高度的某部分的两个点。选择这两个点作为中间区域的上下边界。该中间区域和边界矩形垂直极值之间的区间被定义为所述较高和较低区域。
特征提取
在垂直方向的极值墨被分割成子笔划(即,在Y轴上局部最大最小值)。为了进行该分割,在选择的分割点通过分裂笔划生成的两个子笔划的长度必须大于预计算的最小距离(设为估计的中间区域高度的一半)。
然后分割后的子笔划被重新采样以包含沿着笔划轨迹等距离分布的数量为常数n的点。然后通过标准化坐标可对子笔划建立特征向量:
其中
xmin=子笔划边界矩形的X最小值
ymiddle=中间域顶部的Y坐标
h=中间区域的高度(即ybase-ymiddle)
然后从标准化坐标可以创建特征向量fi={x′1,y′1,...,x′n,y′n}。
特征简化
结果向量使用大量高度相关特征(点pi的坐标依赖于点pi-1等)来描绘子笔划。为了将向量的维数降至m(m<2n),使用Karhunen-Loeve变换(参见John Wiley & Sons,Inc.,2001年出版的《Pattern Classification》第二版,569-570页R.Duda、P.Hart和D.Stork的Principal Component Analysis)。该方法使用线性映射将高维特征映射到在最小二乘意义上最优的较低维度。
为了达到该目的,所有训练特征向量集的协方差(自相关)矩阵通过以下公式计算:
得到矩阵的特征向量和特征值(使用传统的三对角QL隐式算法,参见剑桥市剑桥大学出版社1988年出版,W.Press、B.Flannery、S.Teukolsky和W.Vetterling、W.T.著的《Numerical Recipes in C》),并且与最大n个特征值相对应的特征向量用来形成PCA矩阵Z。然后特征向量乘该矩阵以将特征转换成新的具有正交不相关轴的特征空间:
fi′=fi TZ
向量量化
然后使用Kohonen自组织特征映射(Self-OrganizingFeature Map,SOFM)对转换后的特征向量进行聚合,参考《Biological Cybernetics》,1982年,第43期,59-69页,T.Kohonen的“Self-Organized Formation of TopologicallyCorrect Feature Maps”。该技术使用无监督学习程序对输入向量进行聚合,从而尽可能远地保持向量间的距离和近似关系。所使用的SOFM具有二维结构,看起来相似的码字(即聚合体)彼此邻近地放置。因此,使用两个码字值之间的距离测量(例如欧几里得距离)可以容易地计算出该两个码字间的距离。
使用通过随机权值初始化的简单双层神经网络反复进行SOFM训练。使用最小欧几里得距离得出归一化的输入训练向量x的最佳匹配输出神经元:
其中wi表示输出节点i的权值向量。具有最高激活值的节点及其周围的节点(由近邻函数Λ得到)的权值根据以下公式来更新:
wi(t+1)=wi(t)+η(t)[x-wi(t)]
其中η是学习率函数,并且η和Λ通常随时间t变化。该训练继续进行,一直到在训练集的循环中神经元权值没有明显变化为止。
为了将子笔划序列转换成码字向量,各子笔划特征向量使用训练的SOFM被量化,并附到码字向量(进行特征合成)。通过对SOFM码本的输出神经元选择最大激活值来将特征向量量化成码字:
笔迹模型
笔迹模型存储由笔划码字向量到字母的映射(用于文本识别)和由字母组到码字向量的逆映射(用于特征合成)。为了建立笔迹模型,训练数据中的各字母被转换成与相对应的字母一起存储在表中的码字向量。
注意特定的码字序列可映射到多个字母(例如,写得不清楚的‘u’可与‘v’映射到相同的特征向量)并且单个字母也可被多个码字向量映射。通过保持码字向量代表特定字母的次数的计数,对字母xi向量代表字母xi的概率可以由下述公式计算出来,假设n个词条:
其中,ci是遇到码字向量代表字母xi的次数的计数。以下是表示假设码字向量{3,4}的表的条目例:
表2.码字向量的条目例
x<sub>i</sub> | c<sub>I</sub> | P(x<sub>i</sub>) |
‘u’ | 120 | 0.54 |
‘v’ | 91 | 0.41 |
‘r’ | 12 | 0.05 |
从表中看出,如果在输入中遇到码字序列{3,4},其代表字母‘u’的概率为0.54,代表字母‘v’的概率为0.41,代表字母‘r’的概率为0.05。
以相似的方法生成逆映射表,其中储存与字母和字母组相关联的码字向量。
识别
为进行笔迹识别,如上所述处理输入墨,使用结果码字向量来搜索笔迹模型以生成假设字母。给定得到的字母概率,使用最优搜索策略来搜索字典以找到最可能的词。图7描述了这一过程。
墨搜索
通过使用笔迹识别过程中生成的笔迹模型来将输入查询文本映射成码字序列来选行墨搜索。该码字向量用来使用弹性匹配技术搜索数字墨数据库。在以下参考文献中给出了对相似墨匹配技术的完整说明:IOS出版社1996年出版的《Handwritingand Drawing Research:Basic and Applied Issues》,387-401页,D.Lopresti和A.Tomkins的“Temporal-Domain Matchingof Hand-Drawn Pictorial Queries”。然后通过相似性对查询结果进行排序并呈现给用户。
从而提供根据本发明的使用文本查询搜索数字墨数据库的方法和设备,该方法和设备满足上述优点。
广义上还可以说本发明包括在本申请的说明书中单独或组合提及或示出的部件、元件和特征,以及这些部件、元件和特征的两个或更多的任何组合或所有组合,且特定整体在本发明所涉及的现有技术中具有已知的等同物,该已知的等同物被视作仿佛单独进行了阐述一样包括在该说明书中。
尽管上面对优选实施方式进行了详细地描述,应理解在不脱离以上所述本发明的范围和以下所主张的范围的情况下,本领域的普通技术人员可做出各种改变、替换和修改。
Claims (4)
1.一种使用查询来搜索数字墨数据库的设备,包括:
用户输入查询的输入设备;
能够接收所述查询并与所述数字墨数据库通信的处理器;
如果所述查询不是文本查询,将该查询转换成文本查询的装置;
搜索词典并确定包含可组合生成文本查询的字母序列的词条序列的装置,所述词典是将单个字母或字母序列转换成特征向量的表;
用于通过将搜索词典的过程中获得的特征向量进行连接来获得与所述词条序列相对应的特征向量集的装置;
使用所述特征向量集搜索所述数字墨数据库的装置;以及
向用户显示搜索结果的输出装置。
2.如权利要求1所述的设备,其中使用所述词典将使用笔迹模型识别的手写字母映射到与该手写字母相关联的特征向量,所述笔迹模型是从数字墨数据库的作者得到的。
3.如权利要求2所述的设备,其中使用与生成所述特征向量集所使用的笔迹模型不同的笔迹模型从笔迹生成所述文本查询。
4.如权利要求1-3任一项所述的设备,其中使用训练文本生成所述词典。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AUPR8243A AUPR824301A0 (en) | 2001-10-15 | 2001-10-15 | Methods and systems (npw001) |
AUPR8243 | 2001-10-15 | ||
PCT/AU2002/001395 WO2003034276A1 (en) | 2001-10-15 | 2002-10-15 | Digital ink database searching using handwriting feature synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1701323A CN1701323A (zh) | 2005-11-23 |
CN1701323B true CN1701323B (zh) | 2010-06-23 |
Family
ID=3832068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN028204727A Expired - Fee Related CN1701323B (zh) | 2001-10-15 | 2002-10-15 | 使用笔迹特征合成的数字墨数据库搜索 |
Country Status (12)
Country | Link |
---|---|
US (2) | US8219908B2 (zh) |
EP (1) | EP1444614B1 (zh) |
JP (2) | JP2005505861A (zh) |
KR (1) | KR100717637B1 (zh) |
CN (1) | CN1701323B (zh) |
AT (1) | ATE358851T1 (zh) |
AU (1) | AUPR824301A0 (zh) |
CA (1) | CA2463236C (zh) |
DE (1) | DE60219342D1 (zh) |
IL (1) | IL161381A0 (zh) |
WO (1) | WO2003034276A1 (zh) |
ZA (1) | ZA200402928B (zh) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002952483A0 (en) | 2002-11-05 | 2002-11-21 | Silverbrook Research Pty Ltd | Methods and Systems (NPW009) |
AU2004265699B2 (en) * | 2003-08-15 | 2007-08-09 | Silverbrook Research Pty Ltd | Improving accuracy in searching digital ink |
EP1661028A1 (en) * | 2003-08-15 | 2006-05-31 | Silverbrook Research Pty. Limited | Natural language recognition using distributed processing |
FR2880709B1 (fr) * | 2005-01-11 | 2014-04-25 | Vision Objects | Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants |
US7593908B2 (en) | 2005-06-27 | 2009-09-22 | Microsoft Corporation | Training with heterogeneous data |
US7646940B2 (en) * | 2006-04-04 | 2010-01-12 | Microsoft Corporation | Robust indexing and retrieval of electronic ink |
US8315482B2 (en) | 2007-06-26 | 2012-11-20 | Microsoft Corporation | Integrated platform for user input of digital ink |
US8041120B2 (en) | 2007-06-26 | 2011-10-18 | Microsoft Corporation | Unified digital ink recognition |
US8094939B2 (en) * | 2007-06-26 | 2012-01-10 | Microsoft Corporation | Digital ink-based search |
CN101482920B (zh) * | 2008-12-30 | 2010-12-22 | 广东国笔科技股份有限公司 | 一种手写字符识别方法及系统 |
CN102117122B (zh) * | 2009-12-30 | 2014-08-13 | 浪潮乐金数字移动通信有限公司 | 一种英文输入方法和移动通信终端 |
CN101901355A (zh) * | 2010-06-29 | 2010-12-01 | 北京捷通华声语音技术有限公司 | 一种基于最大熵的文字识别方法和识别装置 |
CN102005033B (zh) * | 2010-11-16 | 2012-07-04 | 中国科学院遥感应用研究所 | 一种图像平滑抑制噪声方法 |
CN102033928B (zh) * | 2010-12-15 | 2013-01-23 | 北京壹人壹本信息科技有限公司 | 手写原笔迹记录及查询系统、电子装置 |
KR101830787B1 (ko) | 2011-07-12 | 2018-02-21 | 삼성전자 주식회사 | 수기로 작성된 메모 데이터 검색 방법 및 장치 |
US10430066B2 (en) * | 2011-12-06 | 2019-10-01 | Nri R&D Patent Licensing, Llc | Gesteme (gesture primitive) recognition for advanced touch user interfaces |
KR101898202B1 (ko) * | 2012-02-09 | 2018-09-12 | 삼성전자주식회사 | 필기 인식을 위한 필기 입력 가이드 장치 및 방법 |
WO2013152417A1 (en) * | 2012-04-11 | 2013-10-17 | Research In Motion Limited | Systems and methods for searching for analog notations and annotations |
JP5717691B2 (ja) * | 2012-05-28 | 2015-05-13 | 株式会社東芝 | 手書き文字検索装置、方法及びプログラム |
JP5330576B1 (ja) * | 2012-07-09 | 2013-10-30 | 株式会社東芝 | 情報処理装置および筆跡検索方法 |
US8640046B1 (en) * | 2012-10-23 | 2014-01-28 | Google Inc. | Jump scrolling |
KR101997447B1 (ko) * | 2012-12-10 | 2019-07-08 | 엘지전자 주식회사 | 이동단말기 및 그 제어 방법 |
US8943092B2 (en) | 2013-03-04 | 2015-01-27 | Microsoft Corporation | Digital ink based contextual search |
US9558400B2 (en) | 2013-03-07 | 2017-01-31 | Ricoh Company, Ltd. | Search by stroke |
US9880990B2 (en) | 2013-03-14 | 2018-01-30 | Microsoft Technology Licensing, Llc | Leveraging previous instances of handwriting for handwriting beautification and other applications |
JP5869179B2 (ja) * | 2013-03-18 | 2016-02-24 | 株式会社東芝 | 電子機器および手書き文書処理方法 |
JP6125333B2 (ja) * | 2013-05-31 | 2017-05-10 | 株式会社東芝 | 検索装置、方法及びプログラム |
US9898187B2 (en) | 2013-06-09 | 2018-02-20 | Apple Inc. | Managing real-time handwriting recognition |
US20140363082A1 (en) * | 2013-06-09 | 2014-12-11 | Apple Inc. | Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition |
US9495620B2 (en) | 2013-06-09 | 2016-11-15 | Apple Inc. | Multi-script handwriting recognition using a universal recognizer |
US9201592B2 (en) * | 2013-08-09 | 2015-12-01 | Blackberry Limited | Methods and devices for providing intelligent predictive input for handwritten text |
KR101488670B1 (ko) * | 2014-01-29 | 2015-02-04 | 주식회사 디오텍 | 텍스트와 디지털 잉크를 포함하는 대용량 문서의 교차 검색 시스템 및 방법 |
JP6270565B2 (ja) * | 2014-03-18 | 2018-01-31 | 株式会社東芝 | 電子機器および方法 |
US10997757B1 (en) * | 2014-06-17 | 2021-05-04 | FlipScript, Inc. | Method of automated typographical character modification based on neighboring characters |
CN105809100B (zh) * | 2014-12-31 | 2019-04-19 | 中国刑事警察学院 | 笔迹与签名量化检验鉴定特征总积法 |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
FR3038100A1 (fr) * | 2015-06-26 | 2016-12-30 | Orange | Procede de reconnaissance d'ecriture manuscrite sur une surface physique |
KR101669821B1 (ko) * | 2015-11-09 | 2016-10-27 | 주식회사 셀바스에이아이 | 필기 데이터 베이스를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 |
KR101667910B1 (ko) * | 2015-11-09 | 2016-10-20 | 주식회사 셀바스에이아이 | 디지털 인공 필기 데이터를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 |
US10228775B2 (en) * | 2016-01-22 | 2019-03-12 | Microsoft Technology Licensing, Llc | Cross application digital ink repository |
CN107292213B (zh) * | 2016-03-30 | 2020-04-14 | 中国刑事警察学院 | 笔迹量化检验鉴定方法 |
DK179374B1 (en) | 2016-06-12 | 2018-05-28 | Apple Inc | Handwriting keyboard for monitors |
CN107562716A (zh) * | 2017-07-18 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN107844472B (zh) * | 2017-07-18 | 2021-08-24 | 创新先进技术有限公司 | 词向量处理方法、装置以及电子设备 |
CN107562715B (zh) * | 2017-07-18 | 2021-01-26 | 创新先进技术有限公司 | 词向量处理方法、装置以及电子设备 |
KR102445371B1 (ko) * | 2017-12-11 | 2022-09-20 | 현대자동차주식회사 | 필기 입력 장치의 문자 인식 방법, 필기 입력 장치 및 필기 입력 장치를 구비하는 자동차 |
US10514841B2 (en) * | 2018-04-30 | 2019-12-24 | Microsoft Technology Licensing, Llc | Multi-layered ink object |
CN109002849B (zh) * | 2018-07-05 | 2022-05-17 | 百度在线网络技术(北京)有限公司 | 识别对象发展阶段的方法和装置 |
US11194467B2 (en) | 2019-06-01 | 2021-12-07 | Apple Inc. | Keyboard management user interfaces |
CN111310543B (zh) * | 2019-12-04 | 2023-05-30 | 湖北工业大学 | 在线笔迹认证中笔画提连笔特征的提取及认证方法 |
CN113128296B (zh) * | 2019-12-31 | 2023-05-09 | 重庆傲雄在线信息技术有限公司 | 一种电子手写签字模糊标签化识别系统 |
CN111242840A (zh) * | 2020-01-15 | 2020-06-05 | 上海眼控科技股份有限公司 | 手写体字符生成方法、装置、计算机设备和存储介质 |
CN113378609B (zh) * | 2020-03-10 | 2023-07-21 | 中国移动通信集团辽宁有限公司 | 代理商代签名的识别方法及装置 |
CN112241686A (zh) * | 2020-09-16 | 2021-01-19 | 四川天翼网络服务有限公司 | 一种基于特征向量的轨迹比对匹配方法及系统 |
WO2022087847A1 (zh) * | 2020-10-27 | 2022-05-05 | 京东方科技集团股份有限公司 | 手写文本识别方法、装置和系统,手写文本搜索方法和系统,以及计算机可读存储介质 |
EP4057182A1 (en) * | 2021-03-09 | 2022-09-14 | Société BIC | Handwriting feedback |
CN113610065B (zh) * | 2021-10-09 | 2022-05-20 | 北京世纪好未来教育科技有限公司 | 笔迹识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5757959A (en) * | 1995-04-05 | 1998-05-26 | Panasonic Technologies, Inc. | System and method for handwriting matching using edit distance computation in a systolic array processor |
US5832474A (en) * | 1996-02-26 | 1998-11-03 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval system with partial match searching of user-drawn annotations |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864618A (en) | 1986-11-26 | 1989-09-05 | Wright Technologies, L.P. | Automated transaction system with modular printhead having print authentication feature |
US5051736A (en) | 1989-06-28 | 1991-09-24 | International Business Machines Corporation | Optical stylus and passive digitizing tablet data input system |
US5063600A (en) * | 1990-05-14 | 1991-11-05 | Norwood Donald D | Hybrid information management system for handwriting and text |
US5220649A (en) * | 1991-03-20 | 1993-06-15 | Forcier Mitchell D | Script/binary-encoded-character processing method and system with moving space insertion mode |
US5477012A (en) | 1992-04-03 | 1995-12-19 | Sekendur; Oral F. | Optical position determination |
US5852434A (en) | 1992-04-03 | 1998-12-22 | Sekendur; Oral F. | Absolute optical position determination |
US5583543A (en) * | 1992-11-05 | 1996-12-10 | Sharp Kabushiki Kaisha | Pen input processing apparatus |
US5392363A (en) * | 1992-11-13 | 1995-02-21 | International Business Machines Corporation | On-line connected handwritten word recognition by a probabilistic method |
IT1265673B1 (it) * | 1993-03-22 | 1996-11-22 | Texas Instruments Italia Spa | Apparecchio e procedimento per il riconoscimento di caratteri manoscritti. |
JP2933801B2 (ja) * | 1993-06-11 | 1999-08-16 | 富士通株式会社 | 文字の切り出し方法及びその装置 |
US5454046A (en) * | 1993-09-17 | 1995-09-26 | Penkey Corporation | Universal symbolic handwriting recognition system |
US5687254A (en) * | 1994-06-06 | 1997-11-11 | Xerox Corporation | Searching and Matching unrecognized handwriting |
US5652412A (en) | 1994-07-11 | 1997-07-29 | Sia Technology Corp. | Pen and paper information recording system |
US5666438A (en) * | 1994-07-29 | 1997-09-09 | Apple Computer, Inc. | Method and apparatus for recognizing handwriting of different users of a pen-based computer system |
US5768423A (en) * | 1994-09-02 | 1998-06-16 | Panasonic Technologies Inc. | Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing |
AU3200095A (en) * | 1994-09-09 | 1996-03-27 | Motorola, Inc. | Method and system for recognizing a boundary between characters in handwritten text |
US5768417A (en) * | 1994-09-09 | 1998-06-16 | Motorola, Inc. | Method and system for velocity-based handwriting recognition |
WO1996008787A1 (en) * | 1994-09-14 | 1996-03-21 | Apple Computer, Inc. | System and method for automatic subcharacter unit and lexicon generation for handwriting recognition |
US5661506A (en) | 1994-11-10 | 1997-08-26 | Sia Technology Corporation | Pen and paper information recording system using an imaging pen |
US6081261A (en) | 1995-11-01 | 2000-06-27 | Ricoh Corporation | Manual entry interactive paper and electronic document handling and processing system |
US5933823A (en) * | 1996-03-01 | 1999-08-03 | Ricoh Company Limited | Image database browsing and query using texture analysis |
US5692073A (en) | 1996-05-03 | 1997-11-25 | Xerox Corporation | Formless forms and paper web using a reference-based mark extraction technique |
JP2000502479A (ja) * | 1996-10-04 | 2000-02-29 | フィリップス エレクトロニクス ネムローゼ フェンノートシャップ | 時系列フレームから取出した集合体化観測を用いる特徴ベクトルに基づくオンライン手書き文字認識方法および装置 |
US6275611B1 (en) * | 1996-10-17 | 2001-08-14 | Motorola, Inc. | Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures |
US6169789B1 (en) * | 1996-12-16 | 2001-01-02 | Sanjay K. Rao | Intelligent keyboard system |
US5970455A (en) * | 1997-03-20 | 1999-10-19 | Xerox Corporation | System for capturing and retrieving audio data and corresponding hand-written notes |
JP3020887B2 (ja) | 1997-04-14 | 2000-03-15 | 株式会社エイ・ティ・アール知能映像通信研究所 | データベース格納方法、データベース検索方法およびデータベース装置 |
US5953451A (en) * | 1997-06-19 | 1999-09-14 | Xerox Corporation | Method of indexing words in handwritten document images using image hash tables |
US6518950B1 (en) | 1997-10-07 | 2003-02-11 | Interval Research Corporation | Methods and systems for providing human/computer interfaces |
WO1999018556A2 (en) * | 1997-10-08 | 1999-04-15 | Koninklijke Philips Electronics N.V. | Vocabulary and/or language model training |
WO1999050787A1 (en) | 1998-04-01 | 1999-10-07 | Xerox Corporation | Cross-network functions via linked hardcopy and electronic documents |
US6157731A (en) * | 1998-07-01 | 2000-12-05 | Lucent Technologies Inc. | Signature verification method using hidden markov models |
US6964374B1 (en) | 1998-10-02 | 2005-11-15 | Lucent Technologies Inc. | Retrieval and manipulation of electronically stored information via pointers embedded in the associated printed material |
JP2001148123A (ja) | 1999-11-22 | 2001-05-29 | Sony Corp | 光ディスク、記録及び/又は再生装置及び方法 |
US6355889B1 (en) | 2000-06-28 | 2002-03-12 | International Business Machines Corporation | Method and apparatus for linking electronic ink to electronic personal information systems |
US7155061B2 (en) * | 2000-08-22 | 2006-12-26 | Microsoft Corporation | Method and system for searching for words and phrases in active and stored ink word documents |
US6785417B1 (en) * | 2000-08-22 | 2004-08-31 | Microsoft Corp | Method and system for searching for words in ink word documents |
US7092870B1 (en) * | 2000-09-15 | 2006-08-15 | International Business Machines Corporation | System and method for managing a textual archive using semantic units |
US7336827B2 (en) * | 2000-11-08 | 2008-02-26 | New York University | System, process and software arrangement for recognizing handwritten characters |
US20020107885A1 (en) * | 2001-02-01 | 2002-08-08 | Advanced Digital Systems, Inc. | System, computer program product, and method for capturing and processing form data |
US7627596B2 (en) * | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
US7188313B2 (en) * | 2001-10-03 | 2007-03-06 | Hallmark Cards, Incorporated | Context sensitive font generation |
US7523235B2 (en) * | 2003-06-11 | 2009-04-21 | Lsi Corporation | Serial Advanced Technology Attachment (SATA) switch |
-
2001
- 2001-10-15 AU AUPR8243A patent/AUPR824301A0/en not_active Abandoned
-
2002
- 2002-10-15 DE DE60219342T patent/DE60219342D1/de not_active Expired - Lifetime
- 2002-10-15 JP JP2003536935A patent/JP2005505861A/ja active Pending
- 2002-10-15 CA CA2463236A patent/CA2463236C/en not_active Expired - Fee Related
- 2002-10-15 KR KR1020047005557A patent/KR100717637B1/ko not_active IP Right Cessation
- 2002-10-15 US US10/492,169 patent/US8219908B2/en not_active Expired - Fee Related
- 2002-10-15 CN CN028204727A patent/CN1701323B/zh not_active Expired - Fee Related
- 2002-10-15 IL IL16138102A patent/IL161381A0/xx unknown
- 2002-10-15 WO PCT/AU2002/001395 patent/WO2003034276A1/en active IP Right Grant
- 2002-10-15 AT AT02801227T patent/ATE358851T1/de not_active IP Right Cessation
- 2002-10-15 EP EP02801227A patent/EP1444614B1/en not_active Expired - Lifetime
-
2004
- 2004-04-19 ZA ZA200402928A patent/ZA200402928B/xx unknown
-
2008
- 2008-07-04 JP JP2008175821A patent/JP2008293519A/ja active Pending
-
2012
- 2012-05-29 US US13/482,828 patent/US20120239397A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5757959A (en) * | 1995-04-05 | 1998-05-26 | Panasonic Technologies, Inc. | System and method for handwriting matching using edit distance computation in a systolic array processor |
US5832474A (en) * | 1996-02-26 | 1998-11-03 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval system with partial match searching of user-drawn annotations |
Also Published As
Publication number | Publication date |
---|---|
DE60219342D1 (de) | 2007-05-16 |
US20120239397A1 (en) | 2012-09-20 |
AUPR824301A0 (en) | 2001-11-08 |
US20050222848A1 (en) | 2005-10-06 |
KR100717637B1 (ko) | 2007-05-15 |
CN1701323A (zh) | 2005-11-23 |
KR20050036863A (ko) | 2005-04-20 |
EP1444614B1 (en) | 2007-04-04 |
EP1444614A1 (en) | 2004-08-11 |
CA2463236C (en) | 2010-09-21 |
JP2008293519A (ja) | 2008-12-04 |
ATE358851T1 (de) | 2007-04-15 |
WO2003034276A1 (en) | 2003-04-24 |
JP2005505861A (ja) | 2005-02-24 |
IL161381A0 (en) | 2004-09-27 |
ZA200402928B (en) | 2005-02-23 |
US8219908B2 (en) | 2012-07-10 |
CA2463236A1 (en) | 2003-04-24 |
EP1444614A4 (en) | 2005-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1701323B (zh) | 使用笔迹特征合成的数字墨数据库搜索 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
Lladós et al. | On the influence of word representations for handwritten word spotting in historical documents | |
US20050154707A1 (en) | Electronic filing system searchable by a handwritten search query | |
US7298903B2 (en) | Method and system for separating text and drawings in digital ink | |
US5710916A (en) | Method and apparatus for similarity matching of handwritten data objects | |
Awal et al. | First experiments on a new online handwritten flowchart database | |
Wang et al. | Document zone content classification and its performance evaluation | |
Chowdhury et al. | Online handwriting recognition using Levenshtein distance metric | |
Al-Dmour et al. | Segmenting Arabic handwritten documents into text lines and words | |
CN102360436B (zh) | 一种基于部件的联机手写藏文字符的识别方法 | |
ZA200200661B (en) | Method and apparatus for determining the cell border for handover operation. | |
Leung et al. | User-independent retrieval of free-form hand-drawn sketches | |
CN106570458A (zh) | 一种在线手写中日文的识别方法 | |
Oudot et al. | An activation-verification model for on-line texts recognition | |
AU2002333066B2 (en) | Digital ink database searching using handwriting feature synthesis | |
CN113641800B (zh) | 一种文本查重方法、装置、设备及可读存储介质 | |
Kang et al. | Design of an interface on PDA for Korean | |
CN107577656B (zh) | 文本隐含语义激活方法及系统 | |
AU2002333066A1 (en) | Digital ink database searching using handwriting feature synthesis | |
ZA200507773B (en) | Method of searching handwritten text databases using a lexicon | |
Akbari et al. | Document image database indexing with pictorial dictionary | |
CN116627912A (zh) | 一种多类型文档多模态内容的整合提取方法 | |
Hao et al. | Re-flowable Document Structure Understanding by Comprehensive Use of Features and Rules | |
Zhang et al. | Keyword spotting from online Chinese handwritten documents using one-versus-all character classification model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100623 Termination date: 20121015 |