CN1701323A - 使用笔迹特征合成的数字笔迹数据库搜索 - Google Patents

使用笔迹特征合成的数字笔迹数据库搜索 Download PDF

Info

Publication number
CN1701323A
CN1701323A CNA028204727A CN02820472A CN1701323A CN 1701323 A CN1701323 A CN 1701323A CN A028204727 A CNA028204727 A CN A028204727A CN 02820472 A CN02820472 A CN 02820472A CN 1701323 A CN1701323 A CN 1701323A
Authority
CN
China
Prior art keywords
handwriting
person
search
text
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028204727A
Other languages
English (en)
Other versions
CN1701323B (zh
Inventor
乔纳森·利·纳珀
保罗·拉普斯顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Silverbrook Research Pty Ltd
Original Assignee
Silverbrook Research Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Silverbrook Research Pty Ltd filed Critical Silverbrook Research Pty Ltd
Publication of CN1701323A publication Critical patent/CN1701323A/zh
Application granted granted Critical
Publication of CN1701323B publication Critical patent/CN1701323B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Position Input By Displaying (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Burglar Alarm Systems (AREA)
  • Regulating Braking Force (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)

Abstract

本发明公开一种使用特征合成进行笔迹数据搜索的系统和方法,该系统可以使用文本查询搜索数字笔迹数据库。由笔迹识别系统或者自适应程序生成特定的笔迹模型,如果数字笔迹数据库的作者是通过手写输入文本查询,则文本查询被转化成与事先提取出来的特征向量相似的特征向量。用特征向量搜索数据库。这样使得即使在只有文本查询这一种输入机制的情况下,仍然可以搜索数据库,并且可以使得除了数字笔迹数据库的作者之外的其他人也可以搜索数字笔迹数据库。

Description

使用笔迹特征合成的数字笔迹数据库搜索
技术领域
本发明涉及用于实现笔迹搜索或者识别系统的数字处理器,尤指以文本格式的查询用笔迹特征合成搜索数字笔迹数据库(digital inkdatabase)的方法和设备。
背景技术
这里所指的“数字笔迹数据库”是指储存了笔迹特征的数据库,例如一个手写字母由一串笔迹特征构成.
概述
笔式计算系统提供了一种方便灵活的人机交互方式.绝大多数的人熟悉怎样使用纸和笔。这种为人熟知的方式已经被现有的系统使用,该系统用类似于笔的装置作为数据入口和由媒介支持的文本、绘图和计算的记录机制。此外手写笔迹是比数字文本更加易于表达的格式,基于笔迹的系统是独立于语言的。
随着笔式计算使用的增加和网络计算资源纸质接口的出现(参考文献:2000年6月6日,P.Lapstun著,西尔弗布鲁克研究有限公司(Silverbrook Research Pty Ltd)出版的《Netpage System Overview》一书;和2000年4月6日的新闻稿中的Anoto,“Anoto,Ericsson,and Time Manager Take Pen and Paper into the Digital Age withthe Anoto Technology”一文,)更加明确了对于这种技术的需求,即可以存储、索引和搜索数字笔迹的技术。笔式计算可以让使用者以注释和批注的形式来储存数据,并且随后可以根据手写图形的查询来搜索数据。然而,由于执笔者的笔迹风格不同,搜索手写文本要比搜索传统的文本(如:ASCII码)更加困难。
数字笔迹数据库搜索
在数字笔迹数据库中搜索笔迹数据的传统方法是:首先用模式识别技术将数字笔迹数据库和相应的搜索查询转换成标准的文本,然后将查询文本与数据库中已经转化的标准文本相匹配。参考P.Hall和G.Dowling著的,1980年出版的《Computing Surveys》一书的12卷第4期的第381-402页的″Approximate String Matching″一文描述了模糊文本搜索方法,该方法执行文本匹配时出现的字符错误与笔迹识别系统产生的错误很相似。
然而,笔迹识别的准确性还很低,由笔迹识别(包括数据库入口和笔迹查询)产生的错误数量意味着这种技术还不是很完善。在将手写信息转化成文本结果的过程中丢失了大量的一般形状和动态特征的信息。例如,手写的字母在形状上很相似(如“u”和“v”。“v”和“r”,“f”和“t”,等等)。此外,在一些手写形式中(特别是连笔字),单个字符的辨认就更加模糊不清了。
迄今为止,已经提出了很多直接搜索、索引数字笔迹数据库的技术,如1994年A.Poon、K.Weber和T.Cass著的《Proceedings of theACM Computer-Human Interaction》的第58-64页的“Scribbler:ATool for Searching Digital Ink”一文;在1996年11月12-16日美国马里兰州的洛克成尔的《Proceedings of the 5th InternationalConference on Information and Knowledge Management》中,I.Kamel提出了“Fast Retrieval of Cursive Handwriting”;1995年5月加利福尼亚州圣何塞的《The 1995 ACM SIGMOD InternationalConference on Management of Data》中,W.Aref、D.Barbera和P.Vallabhaneni提出了“The Handwritten Trie:IndexingElectronic Ink”;W,Aref、D.Barbera、D.Lopresti和A.Tomkins1996年著的《Database System-Issues and Research Direction》的第113-163页的“Ink as a First-Class Datatype in MultimediaDatabases”;以及R.Manmatha、C.Han、E.Riseman和W.Croft1996年在《Proceedings of the First ACM InternationalConference on Digital Libraries》的第151-159页提出的“Indexing Handwriting Using Word Matching”.
上述文献中所提到的系统采用了相似的方法,即将由一组查询笔划得到的特征向量和由数字笔迹数据库中得到的特征向量进行比较。如果数据库的词条与所查询的显示出一定程度的相似,则认为是匹配的。此外,可以采用一些建立索引和使用分区表的方法以避免在数据库中顺序查询所有的词条。如下述参考文献中所提到的方法:D.Barbara、W.Aref、I.Kamel和P.Vallabhaneni在美国专利5,649,023中提出的“Method and Apparatus for Indexing a Plurality ofHandwritten Objects”;D.Barbara和I.Kamel在美国专利5,710,916中提出的“Method and Apparatus for SimilarityMatching of Handwritten Data Objects”;D.Barbara和H.Korth在美国专利5,524,240中提出的“Method and Apparatus forStorage and Retrieval of Handwritten Information”;D.Barbara和W.Aref在美国专利5,553,284中提出的“Method for Indexingand Searching Handwritten Documents in a Database”;R.Hull、D.Reynolds和D.Gupter在美国专利6,018,591中提出的“Scribble Matching”;A.Poon、K.Weber和T.Cass在美国专利5,687,254中提出的“Searching and Matching UnrecognizedHandwriting”;以及W.Aref和D.Barbara在美国专利5,768,423中提出的“Trie Structure Based Method and Apparatus forIndexing and Searching Handwritten Databases with DynamicSearch Sequencing”.
其他的一些研究如:J.Hollerbach 1981年著的《BiologicalCybernetics》一书第139-156页的“An Oscillation Theory ofHandwriting”一文,以及Y.Singer和N.Tishby 1993年著的《IEEEConference on Computer Vision and Pattern Recognition》中的“Dynamical Encoding of Cursive Handwriting”一文,描述了给笔迹合成建立笔迹物理特性的模型的方法。
发明内容
先前描述的数字笔迹数据库的搜索技术是基于由数字笔迹数据库的作者发出的笔迹查询基础上的。但是这些技术对于即使使用其它的输入机制搜索数字笔迹数据库的情况也是有益的,比如说,用电脑键盘输入文本查询,或者用语音识别系统对语言识别。或者,第三方也许希望既能用自己的笔迹也可用文本查询的方式来搜索数字笔迹数据库。
使用笔迹特征合成的笔迹数据库允许使用文本查询方式搜索数字笔迹数据库。使用由笔迹识别系统或者自适应训练程序生成的特定作者笔迹模型,将文本查询转换成与已经提取的特征向量相似的特征向量,使得数字笔迹数据库的作者可以手写文本查询。特征向量用于搜索数据库,例如一些传统的技术。这样就保证了当只有文本查询这一种输入机制的时候,数字笔迹数据库也是可搜索的,并且可以由数字笔迹数据库作者以外的人搜索该数据库。
本发明提供了一种使用文本查询搜索数字笔迹数据库的方法,该方法包括:
搜索包含字母序列表和关联特征向量的词典,确定词条序列,该序列包含的字符序列可以结合产生文本查询。
得到与词条的序列对应的特征向量。
使用特征向量搜索数字笔迹数据库
按照本发明的一项具体实施,词典是笔迹模型的一部分,该笔迹模型是通过对数字笔迹数据库的作者的笔迹识别得到的。
在本发明的一项具体实施方式中,笔迹模型中储存了字符序列和特征向量的映射关系。更可取的是词典包括了针对每一个字母序列的多种特征向量。同样可取的是如果确定了多个词条序列,那么将选择含词条数目最少的词典条目序列。
在进一步的实施方案中,通过笔迹识别系统将手写输入转化成文本来获得文本查询,和/或通过语音识别系统将语音输入转化为文本来获得文本查询。
根据本发明的具体形式,笔迹识别结果可以由如下方法得到:
对笔迹采样;
用滤波器对采样后的笔迹进行平滑处理;
进行倾斜校正;
使用区域估计算法使高度标准化;
通过特征提取分割子笔划,生成特征向量;
对特征向量进行特征简化;
进行向量量化以聚合特征向量生成码字向量;
在字典中搜索与生成的文本字符最接近的词;
针对本发明的更广领域,提供了查询搜索数字笔迹数据库的设备,该设备包含了如下部分:
用于用户输入查询的输入设备;
用于接收查询并且与数字笔迹数据库通信的处理器;
将非文本查询转化成文本查询的工具;
用于搜索词典和确定包含可产生文本查询字符序列的词条序列的工具;
用于获得与词条序列对应的特征向量集的工具;
用特征向量集搜索数字笔迹数据库的工具;和
用于向用户显示搜索结果的输出设备。
针对本发明的另一具体实施,可以通过不同的笔迹模型而不是产生搜索的特征向量的笔迹模型生成文本查询。
针对本发明另一实施方式,提供了使用查询搜索数字笔迹数据库的设备,该设备包含了如下部分:
用于存储数字数据库的存储器;
处理器,用于:
搜索词典,确定包含可产生文本查询字母序列的词条序列;
获得与词条序列相对应的特征向量集;
使用特征向量集搜索数字笔迹数据库;
其中,词典是手写模型的一部分,该手写模型是通过对数字笔迹数据库的作者的笔迹识别得到的。
附图说明
通过如下的附图说明,本发明将更加清晰明确。附图只是通过给出具体例子的方式说明,并不是对实施方式的限定。附图说明如下:
图1是处理系统框图。
图2是笔迹识别方法概述流程图。
图3是使用特征合成的数字笔迹数据库查询方法流程图。
图4是第三方笔迹数据库搜索方法流程图。
图5是训练和识别/搜索方法流程图。
图6是笔迹识别方法流程图。
图7是一个文本识别例子。
具体实施方式
为了更准确的理解本发明的主题,对于具体方式进一步描述:
I.优选实施例:
本发明提供了使用文本查询搜索数字笔迹数据库的方法和设备。在图中阐述了本发明的特征,图中引用的数字用来标识图中的各个部分。
图1中的处理系统是实施本发明的一个例子,。处理系统10通常至少包括一个处理器20,存储器21,输入装置22例如图形输入板和/或键盘,输出装置23例如显示器,所述各个部分通过总线24连接。用于将处理系统和数字笔迹数据库11连接起来外部接口25。
在使用中,处理系统10可以存储数据和/或从数字笔迹数据库11中检索。处理器20通过输入装置22接收笔迹数据,文本查询等。从中我们可以理解为处理系统10可以是任何处理系统或终端的形式,如一台计算机,便携式电脑,服务器,专用硬件设备或者类似的其他形式。
笔迹模型
特定作者笔迹模型描述了一特定用户的笔迹风格。大多数用户适应性笔迹识别系统产生描述不同使用者的笔体的某种模型。一般来说,这些笔迹模型的目的是将从输入笔划中提取的特征向量映射到表示可识别文本的字母集中。
而数字笔迹搜索的特征合成方法使用特定笔者的笔迹模型来完成逆映射。即,该模型用于将查询文本转化成特征向量集,该特征向量集接近于从笔者手写的查询文本中提取出来的特征。附图2具体给出了手写文本查询系统的一般步骤。手写笔迹经过采样26,未加工的笔迹27经过标准化步骤28。标准笔迹29经过步骤30分割后形成的笔划31经过特征提取步骤32,提取出特征向量33。进入分类步骤34,用笔迹模型35进行分类,产生原始要素(primitives)36。文本识别步骤37接收原始要素36,并且使用语言模型38和/或笔迹模型35,产生对应于未加工笔迹27的文本39。
为了使用特征合成进行笔迹数据库搜索,还需要一个附加步骤。特定笔者笔迹模型35需要被修改成存储用于将文本能映射成笔迹特征的信息。为了映射,笔迹模型还包括将单个字母或一群字母(也就是字母序列)映射成特征的表(也称为词典)。在识别后,输出文本中的字母和用于识别的相对应的特征向量也被添加到词典中去。
通常组合出现的字母和他们对应的特征向量也被连接起来添加到词典中。这种做法是可取的,因为手写品出现了组合表达效果(这样一个字母就会受到边缘字母形状的影响)并且通用手写字母(如“qu”“ed”和“ing”)很可能以组合的方式展现出来。通过存储字符组的特征向量,考虑笔划序列上下文的影响,就可以得到更加准确的查询笔迹的翻译。
词典可以存储每个字母序列的多种特征向量。因为同样的字母可能会被多次识别,所以词典应该选择最能体现字母的特征向量。为了达到这个目的,对每个字母序列经过识别器输出的所有特征向量序列,连同字母序列出现过的特征向量序列的次数都存储起来。出现次数最高(也就是出现频率最高,最可能出现的)的特征向量被用于特征合成。
选择存储的字母组可以基于字符转换统计(例如,来自文本总量),该字符转换统计是指出现几率高的字母序列将被存储起来(例如,“ing”出现的概率要大于“inx”出现的概率)。或者,识别后所有可能出现的字母序列都可以储存起来,当词典容量变得太大时,将执行删除程序(例如,近来最少使用)。
通过在词典中明示模型单词词尾可以使该方法得到进一步改进。许多笔迹风格在词尾展现的字符不清楚。尤其是手写单词的后缀,如“ing”,“er”和“ed”。为了模拟这些种行为,在字母序列尾附加上字母序列(如“ing#”)来表明这个字母序列仿效单词结尾。在特征合成中,这些条目只用于完成查询单词。
特征合成
为了搜索数字笔迹数据库,文本查询通过使用特定作者笔迹模型特征合成程序转化成一组特征向量。随后,这些特征向量被用作搜索数字笔迹数据库的查询项。笔迹数据库搜索可以采用传统的笔迹匹配技术。附图3描述了这一过程。在步骤40,文本作为输入,文本41作为特征合成步骤42的输入,特征合成步骤42使用笔迹模型35产生特征43。特征43被用于对数字笔迹数据库11的笔迹查询步骤44,产生笔迹匹配45。
为了特征合成,搜索词典来定位包含生成查询文本的字母序列的词条序列。连接存储的特征向量生成查询特征向量。然而,也许会存在多种不同的词典条目的组合方式来产生查询文本。假定用最小数量的词条产生的文本可以最准确模拟上下文的效果。例如,假设下表所述的即是存在于词典里的词条:
 B  bo
 bor  borr
 ed  ow
 rr  rowed
表1.词典举例
单词“borrowed”可以被建立成如下几种形式:(bo)(rr)(ow)(ed),(borr)(ow)(ed),或者(bor)(rowed),因为最后一种组合包含了最少的元素,因而最可能被采用。
为了结果准确,词典容量可能要非常大,对单词的潜在词条组合的数目将是指数级的。因为查询可能包含长单词,全部排列组合的数目是难于实践的。A修改成A*的搜索算法,见如下参考文献:S.Russell和P.Norvig 1995年著的,Prentice Hall出版的《Artificial Intelligence-A Modern Approach》,可以用来搜索字母序列s,路程代价函数g(s)是指创造文本所需要的词条的数量,达到目标的估计代价为:
h(s)=1,if length(s)<length(查询)
    =0,否则
在这种试探状态下,如果字母序列所含的字母比查询的单词包含的少,要完成字母序列需要至少一个附加词条。搜索树的节点由g(s)+h(s)的值来排序(分值越低越好),同样分值的节点通过序列中的字母个数来排列(越高越好)。
注意,函数h(s)是单调的可试探的(即,不会过高估计达到目标的代价),所以,搜索可以保证找到最优的解决方案,并且具有最优效率(即尽可能扩展最少数量的节点找到最优的解决方案)。该结论的证明在如下文献中给出,R.Dechter和J.Pearl著的,1985年出版的《Journal of the Association for Computing Machinery》的第32卷第3期第505-536页的“Generalized Best-First SearchStrategies and the Optimality of A*”.
下面是上述方法的一个例子,搜索单词“borrowed”如下表所示,表中每行代表一个搜索节点,具有较高分值的节点位于表的上方。
  s   g(s)   h(s)   g(s)+h(s)   # Letters
  (borr)   1   1   2   4
  (bor)   1   1   2   3
  (bo)   1   1   2   2
T扩展在表中最上方的最有希望的节点,结果如下:
  s   g(s)   h(s)   g(s)+h(s)   #Letters
  (bor)   1   1   2   3
  (bo)   1   1   2   2
  (borr)(ow)   2   1   3   6
最有希望的节点在进行扩展:
  s   g(s)   h(s)   g(s)+h(s)   #Letters
  (bor)(rowed)   2   0   2   8
  (bo)   1   1   2   2
  (borr)(ow)   2   1   3   6
现在最顶端的节点就是一个已完成的序列,在搜索中没有其他的节点可以得到更好的分值,所以这个节点就作为搜索的结果。
II各种实施例
IIA没有笔迹识别的特征合成
使用特征合成的笔迹搜索可以在没有笔迹识别系统的情况下进行。这项技术只需要建立字母序列并且与特征向量结合起来模型化编辑数字笔迹数据库的作者的笔迹的能力。
如果笔迹识别的结果不能用来制作模型,可用训练程序产生特定作者的词典。使用者通过模仿特定的训练文本提供他们手写体的采样用于建立词典。因为由手写表示的文本是已知的,所以训练程序并不需要完全笔记识别,只需要将输入分割成字符和笔划,将笔划转化成特征,在词典中存储适合的字母组和相关联的特征向量即可。
应将建立词典的训练文本进行优化以提供单个字母和字母组的平衡样本集。即,尽可能地最大化有效区域(unigrams,bigrams andtrigram),参考文献:J.Pitrelli、J.Subrahmonia、M.Perrone和K.Nathan著,世界科技出版公司1999年出版的《手写体识别的进展》(Advances in Handwriting Recognition)一书中的“Optimization of Training Texts for Writer-DependentHandwriting Recognition”,一文重点突出最有可能碰到的字母和字母序列。
IIB 用于识别和笔迹匹配的不同特征
既然用于搜索数字笔迹数据库的特征是来自于笔迹识别结果,最可取的方法是手写识别系统和笔迹匹配算法使用相同的特征表示。
然而,只要识别特征可以转化成搜索特征,使用不同的特征集去识别和搜索就是可能的。一些特征集可以通过对训练数据的学习得到从识别特征到搜索特征的转换。
或者,一些特征集可以从识别特征中重新生成数字笔迹的近似值,从这些特征集中可以提取出第二特征集。也就是说通过特征合成文本查询可以转化成一组特征向量,并且特征提取过程的逆变换也适用于特征转化为从搜索特征中提取出来的数字笔迹。要小心确保在这一过程中不会引入人工因素而影响搜索特征的提取(即生成笔迹的不连续性可能会给一些特征提取技术带来问题)。
IIC.第三方笔迹搜索
通过笔迹识别将笔迹输入转化成文本,并且使用特征合成将识别文本转化成笔记搜索的特征,用户可以搜索其他作者的数字笔迹数据库。
附图4描述了这种情况,笔者B搜索由作者A建立的数字笔迹数据库。在步骤46,接收来自笔者B的笔迹,笔划47输入到特征提取步骤48。提取出特征49,在识别步骤50通过语言模型51和笔者B的模型52将特征49生成相应的文本53。在词典建立步骤54为笔者B建立词典。字母组和特征被反馈给笔者B模型52,以改进/更新模型。然后,文本53经过特征合成步骤42,再经过与附图3描述的相似的处理过程来检索由笔者A建立的笔迹匹配45。
III.进一步举例
下面的例子将更加详细的描述本发明的具体实施。这个例子仅仅是举例而不是对本范明范围的限制。
这一段将具体描述使用特征合成进行笔迹数据库搜索的实现方法。假定已经执行了预处理步骤,包括单词和字符的分割,基线定位规范化。注意,这只是实现这种技术的一种方法;对于处理的各个阶段都可以用其它的方法替换。例如,可以使用多种分割方案,特征集,笔迹模型和识别步骤。
使用特征合成进行笔迹识别和笔迹搜索的步骤需要一个训练阶段和识别或搜索阶段。在训练阶段,将一组训练数据转化成笔划特征,据合成原始笔划(stroke primitives)来建立笔迹模型。为了识别和笔迹搜索,该模型被用来解译输入笔迹或者合成用于搜索的特征。附图5描述了这一步骤。同样使用预处理,标准化,分割和特征提取步骤来训练,识别和搜索。
笔迹识别系统将输入笔划映射成一组笔划码字,该笔划码字用来搜索字典中的匹配单词。附图6给出了步骤的概述,每个具体步骤将在下文详细阐述。
平滑
以100Hz的采样率对笔迹进行采样。研究表明笔迹信号在5Hz左右出现频谱密度尖峰,大概在10Hz左右减低衰落到噪声水平,参考下述文献,Teulings和F.Maarse著的,1984年出版的《HumanMovement Science》一书的第3期第193-217页的“DigitalRecording and Processing of Handwriting Movements”。因此,采用截止频率为10Hz的低通滤波器可以滤除高频噪声,而不会影响笔迹信号的相关的频谱组成。
A low-pass filter conforming to the above specifications canbe produced by circularizing the point coordinates,performingan FFT to remove the high frequency components,and recreatingthe signal using an inverse-FFT.However,a simple weightedaveraging filter works as effectively.To smooth a sequencesof points{p1...pn}:
上述规格的低通滤波器可以通过如下方法产生:得到点的坐标值,进行快速傅立叶变换将高频部分滤掉,在通过反快速傅立叶变换重新生成信号。然而,一个简单的加权平均滤波器是可以有效工作的。要平滑点序列{p1...pn}:
p i = Σ j = 1 k α j p i + j
其中
Σ j = - k k α j = 1
滤波器的平滑参数k和α的值可以通过经验得到。
倾斜校正
很多笔迹风格都没有所写字母的垂直轴(也就是字母是斜体的)。消除笔迹的倾斜是一个标准化过程,这样可以提高手写字母的识别效果。在笔迹中,下笔划被认为是最稳定和一致的笔划,因而被用来检测笔迹是否倾斜。
为了检测笔迹是否倾斜,估计点序列{p1...pn}中的下笔划的加权平均方向:
slant = Σ i = 2 n d i a i Σ i = 2 n d i
其中
ai=angle(pi,pi-1)
di=‖pi-pi-1‖  ifα1<ai<α2
  =0  否则
Figure A0282047200202
角度α1和α2定义了被作为下笔划的分割笔划,根据经验分别被定为40°和140°(90°代表垂直线)。如果估计出来的倾斜度偏离某一门限值,将用剪切变换消除倾斜。
其中ymin and ymax代表笔迹边界矩形的最高点和最低点。
区域估计
区域估计用于将输入笔迹的高度标准化。英文字母表现为三个区域:中间区域(相对应于字母的高度,如‘a’,’c’,’e’,等),较高和较低的区域包含上伸和下伸字母,如‘b’,‘d’,‘g’和‘j’。
通过笔迹密度的水平直方图来进行区域估计。即笔迹交叉的数量决定通过笔迹矩形边界的等间距的水平线的数量。找到直方图中心尖峰,作为直方图任意一边的两点,在这两点处笔迹密度比中心尖峰高度低一段。这两点被作为中间区域的上下边界。从边界矩形垂直极值点到中间区域的间隔定义为上区域和下区域。
特征提取
笔迹在垂直方向按极值被分割成子笔划(即,在Y轴上局部最大最小值)。为了分段,由选择的分割点上的笔划分割形成的两个子笔划的距离必须大于预算的最小距离(估计中间区域的高度的一般)。
分割后的子笔划被重新采样包含沿着比划轨迹等距离分布的点的数量为常数n,。经过对坐标的标准化后就可以为子笔划建立特征向量:
x i ′ = x i - x min h
x i ′ = y i - y middle h
其中
xmin=X子笔划边缘矩形最小值
ymiddle=Y中间域顶端的坐标
h=中间区域的高度(即ybase-ymiddle)
从标准化坐标fi={x′1,y′1,...x′n,y′n}可以得到特征向量。
特征简化
用特征向量描述子笔划需要使用大量的相关特征(点pi的坐标要依赖于点pi-1等等)。为了将向量的维数降低至m(m<2n),Karhunen-Loeve转换(参考文献:Principal Component Analysis-R.Duda、P.Hart和D.Stork著的John Wiley & Sons,Inc.,2001年出版的《Pattern Classification》的第二版的第569-570页)被使用。程序使用线性映射将多维特征预计为较低维度的特征。
为了达到该目的,所有训练特征向量集的协方差矩阵通过下述公式计算:
C = 1 m - 1 X T X
得到矩阵的特征向量和特征值(使用传统的QL隐式算法,参见文献:W.Press、B.Flannery、S.Teukolsky和W.Vetterling、W.T.著的,剑桥市的剑桥大学出版社1988年出版的《NumericalRecipes in C》),并且用对用于最大特征值n的特征向量形成PCA矩阵Z。通过这个矩阵将特征转化成新的具有正交不相关特征空间,特征向量将多倍增加:
fi′=fi TZ
向量量化
转化后的特征向量用Kohonen自组织特征映射(SOFM)聚合,参考T.Kohonen著的,1982年出版的第43期《BiologicalCybernetics》的第59-69页的“Self-Organized Formation ofTopologically Correct Feature Maps”。这种技术使用无监督学习程序聚合输入向量,这样向量间的距离和近似关系将会最大程度的保持下来。SOFM具有二维的结构,与视觉上相似的码字(即聚合体)彼此相邻。因此,在两个码字值之间采用距离度量(欧几里得距离)可以很容易的计算出两个码字间的距离。
用一个简单的随机初始化权值的二层神经网络反复的进行SOFM训练。使用最小欧几里得距离可以找到与标准化输入训练矩阵x最匹配的输出神经元:
o ( x ) = arg min i n | | x - w i | |
其中wi代表输出节点I的权向量。节点上具有最高激活值的权值和附近的节点(由临域函数Λ得到)不断的更新,据下列公式:
wi(t+1)=wi(t)+η(t)[x-wi(t)]
其中η是学习率函数,并且ηand和Λ随着时间的变化而变化。当权值收敛后,停止学习过程。
为了将子笔划序列转化成码字向量,每个子笔划特征向量都要经过训练后的SOFM进行量化,并且附加到码字向量中。通过为SOFM的输出的神经元选择最大的激活值来把特征向量量化为码字:
q = arg max i n x T w i
笔迹模型
笔迹模型存储由笔划码字向量到字母(用于文本识别)的映射和由字母组到码字向量(用于特征合成)的逆映射。为了建立笔迹模型,训练数据中的每个字母都转换成存储在表中的码字向量,连同相对应的字母都储存到表中。
需要注意的是,特定的码字序列可以映射成多个字母(例如,字迹不清的‘u’也许会映射到‘v’的特征向量中去)并且单个字母也有可能由多个码字向量映射而来。通过保持码字向量出现的特定字母的次数,向量出现字母xi的可能性可以由下述公式计算出来,给定字母xi的词条数n
( x i ) = c i Σ j = 1 n c j
其中,ci是码字向量中遇到字母xi的次数。下面是一个例子,表中词条代表假定码字向量为{3,4},
  xi cI  P(xi)
‘u’ 120  0.54
‘v’ 91  0.41
‘r’ 12  0.05
表2.码字向量的例子
从表中看出,如果输入的码字序列为{3,4},它表示是字母‘u’的可能性是0.54,是字母‘v’的可能性是0.41,是字母‘r’的可能性是0.05。
逆映射表可以用相似的方法得到,储存与字母和字母组相关的码字向量。
识别
对于笔迹识别,输入笔迹按照上述的方法处理,用生成的码字向量来搜索笔迹模型产生字母假设。使用最优的搜索策略来搜索字典,用来找到与给定派生的字母最相似的字。附图7描述了这一过程。
笔迹搜索
笔迹搜索是指使用笔迹识别过程中产生的笔迹模型,将输入查询文本映射成码字序列。码字序列被用于使用弹性匹配技术搜索数字笔迹数据库。近似笔迹匹配技术的全部描述见下列参考文献:D.Lopresti和A.Tomkins著的,IOS出版社1996年出版的《Handwriting and Drawing Research:Basic and Applied Issues》的第387-401页的“Temporal-Domain Matching of Hand-DrawnPictorial Queries”。查询结果按照相似性进行排列提交给用户。
这样,与本发明提供的一致,本发明提供一种使用文本查询搜索数字笔迹数据库的方法和设备,具备前文所述的优点。
广义上说,在应用的说明书中引用或者表示的本发明包括部分、元素和特征,逐个地或者全体地,两个或者多个所述部分、元素或者特征的一些或者所有组合,在此提到的特定数字在与本发明相关的领域是已知的,这些已知知识与本发明是融为一体的即使是分别提出的。
尽管上面对优选实施方式进行了详细地描述,但本领域的普通技术人员仍然可以在不脱离上述描述的和下述请求保护的本发明范围的情况下,做出各种改变、替换和更改。

Claims (17)

1.一种使用文本查询搜索数字笔迹数据库的方法,包括:
搜索包含字母序列表和关联特征向量的词典,确定词条序列,所述词条序列包含的字母序列可以结合产生文本查询;
得到与词条序列对应的特征向量集;
使用所述特征向量集搜索所述数字笔迹数据库;
2.如权利要求1所述的方法,其特征在于:所述的词典是笔迹模型的一部分,所述笔迹模型通过使用笔迹识别结果从数字笔迹数据库的作者得到。
3.如权利要求1或2所述的方法,其特征在于:所述的笔迹模型中储存了字符序列到特征向量的映射关系。
4.如权利要求1到3的任意一项所述的方法,其特征在于:所述的词典针对每一个字母序列包括多个特征向量。
5.如权利要求1到4的任意一项所述的方法,其特征在于:所述的词典包含一个单字字符的末端,表示单词的结束。
6.如权利要求1到5的任意一项所述的方法,其特征在于:所述的用于生成词典的笔迹识别结果是通过训练文本而得到的。
7.如权利要求1到6的任意一项所述的方法,其特征在于:如果确定了多个词条序列,就使用含有词条数量最少的词条序列。
8.如权利要求1到7的任意一项所述的方法,其特征在于:使用一种搜索算法搜索字母序列s。
9.如权利要求1到8的任意一项所述的方法,其特征在于:使用笔迹识别系统将手写输入转化成文本来获得文本查询。
10.如权利要求1到8的任意一项所述的方法,其特征在于:使用语音识别系统将语音输入转化为文本来获得文本查询。
11.如权利要求1到10的任意一项所述的方法,其特征在于:笔迹识别结果由如下方法获得:
对笔迹采样;
用滤波器对所述笔迹进行平滑处理;
进行倾斜校正;
使用区域估计算法进行高度标准化;
使用特征提取来分割子笔划,并生成特征向量;
对特征向量集进行特征简化;
进行向量量化来聚合特征向量和生成码字向量;以及
在字典中搜索与生成的文本字符最接近的词;
12.一种使用查询来搜索数字笔迹数据库的设备,包括:
用户进行输入查询的输入设备;
接收所述查询和与数字笔迹数据库通信的处理器;
当所述查询不是文本查询时,将其转化成文本查询的工具;
搜索词典和确定包含可结合产生文本查询的字符序列的词条序列的工具;
获得与词条序列对应的特征向量集的工具;
使用特征向量集搜索数字笔迹数据库的工具;以及
向用户显示搜索结果的输出设备。
13.如权利要求12所述的设备,其特征在于:所述的词典是笔迹模型的一部分,所述笔迹模型通过使用笔迹识别结果从数字笔迹数据库的作者得到。
14.如权利要求12或13所述的设备,其特征在于:所述的文本查询通过使用不同的笔迹模型而不是用于搜索产生特征向量的笔迹模型而从笔迹中产生。
15.如权利要求12到14的任意一项所述的设备,其特征在于:所述的词典通过训练文本生成。
16.如权利要求12到15的任意一项所述的设备,其特征在于:通过语音识别系统从语音查询产生所述文本查询。
17.一种使用查询搜索数字笔迹数据库的设备,包括:
存储数字笔迹数据库的存储器;
处理器,用于:
搜索词典,并确定包含可结合产生文本查询的字符序列的词条序列,
获得与词条序列相对应的特征向量集,
使用所述特征向量集搜索数字笔迹数据库;
其中,词典是笔迹模型的一部分,所述笔迹模型通过使用笔迹识别结果从数字笔迹数据库的作者得到。
CN028204727A 2001-10-15 2002-10-15 使用笔迹特征合成的数字墨数据库搜索 Expired - Fee Related CN1701323B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AUPR8243A AUPR824301A0 (en) 2001-10-15 2001-10-15 Methods and systems (npw001)
AUPR8243 2001-10-15
PCT/AU2002/001395 WO2003034276A1 (en) 2001-10-15 2002-10-15 Digital ink database searching using handwriting feature synthesis

Publications (2)

Publication Number Publication Date
CN1701323A true CN1701323A (zh) 2005-11-23
CN1701323B CN1701323B (zh) 2010-06-23

Family

ID=3832068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN028204727A Expired - Fee Related CN1701323B (zh) 2001-10-15 2002-10-15 使用笔迹特征合成的数字墨数据库搜索

Country Status (12)

Country Link
US (2) US8219908B2 (zh)
EP (1) EP1444614B1 (zh)
JP (2) JP2005505861A (zh)
KR (1) KR100717637B1 (zh)
CN (1) CN1701323B (zh)
AT (1) ATE358851T1 (zh)
AU (1) AUPR824301A0 (zh)
CA (1) CA2463236C (zh)
DE (1) DE60219342D1 (zh)
IL (1) IL161381A0 (zh)
WO (1) WO2003034276A1 (zh)
ZA (1) ZA200402928B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901355A (zh) * 2010-06-29 2010-12-01 北京捷通华声语音技术有限公司 一种基于最大熵的文字识别方法和识别装置
CN102005033A (zh) * 2010-11-16 2011-04-06 中国科学院遥感应用研究所 一种图像平滑抑制噪声方法
CN102117122A (zh) * 2009-12-30 2011-07-06 乐金电子(中国)研究开发中心有限公司 一种英文输入方法和移动通信终端
CN103455528A (zh) * 2012-05-28 2013-12-18 株式会社东芝 手写文字检索装置、方法以及记录介质
CN105809100A (zh) * 2014-12-31 2016-07-27 中国刑事警察学院 笔迹与签名量化检验鉴定特征总积法
CN107292213A (zh) * 2016-03-30 2017-10-24 中国刑事警察学院 笔迹量化检验鉴定方法
CN109002849A (zh) * 2018-07-05 2018-12-14 百度在线网络技术(北京)有限公司 识别对象发展阶段的方法和装置
CN111242840A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 手写体字符生成方法、装置、计算机设备和存储介质
CN111310543A (zh) * 2019-12-04 2020-06-19 湖北工业大学 在线笔迹认证中笔画提连笔特征的提取及认证方法
CN113128296A (zh) * 2019-12-31 2021-07-16 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统
CN113378609A (zh) * 2020-03-10 2021-09-10 中国移动通信集团辽宁有限公司 代理商代签名的识别方法及装置
CN113610065A (zh) * 2021-10-09 2021-11-05 北京世纪好未来教育科技有限公司 笔迹识别方法和装置
WO2022087847A1 (zh) * 2020-10-27 2022-05-05 京东方科技集团股份有限公司 手写文本识别方法、装置和系统,手写文本搜索方法和系统,以及计算机可读存储介质

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002952483A0 (en) 2002-11-05 2002-11-21 Silverbrook Research Pty Ltd Methods and Systems (NPW009)
CA2529037A1 (en) * 2003-08-15 2005-02-24 Silverbrook Research Pty Ltd Natural language recognition using distributed processing
AU2004265699B2 (en) * 2003-08-15 2007-08-09 Silverbrook Research Pty Ltd Improving accuracy in searching digital ink
FR2880709B1 (fr) * 2005-01-11 2014-04-25 Vision Objects Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants
US7593908B2 (en) 2005-06-27 2009-09-22 Microsoft Corporation Training with heterogeneous data
US7646940B2 (en) * 2006-04-04 2010-01-12 Microsoft Corporation Robust indexing and retrieval of electronic ink
US8094939B2 (en) * 2007-06-26 2012-01-10 Microsoft Corporation Digital ink-based search
US8041120B2 (en) 2007-06-26 2011-10-18 Microsoft Corporation Unified digital ink recognition
US8315482B2 (en) * 2007-06-26 2012-11-20 Microsoft Corporation Integrated platform for user input of digital ink
CN101482920B (zh) * 2008-12-30 2010-12-22 广东国笔科技股份有限公司 一种手写字符识别方法及系统
CN102033928B (zh) * 2010-12-15 2013-01-23 北京壹人壹本信息科技有限公司 手写原笔迹记录及查询系统、电子装置
KR101830787B1 (ko) 2011-07-12 2018-02-21 삼성전자 주식회사 수기로 작성된 메모 데이터 검색 방법 및 장치
US10430066B2 (en) * 2011-12-06 2019-10-01 Nri R&D Patent Licensing, Llc Gesteme (gesture primitive) recognition for advanced touch user interfaces
KR101898202B1 (ko) * 2012-02-09 2018-09-12 삼성전자주식회사 필기 인식을 위한 필기 입력 가이드 장치 및 방법
US8935283B2 (en) 2012-04-11 2015-01-13 Blackberry Limited Systems and methods for searching for analog notations and annotations
JP5330576B1 (ja) * 2012-07-09 2013-10-30 株式会社東芝 情報処理装置および筆跡検索方法
US8640046B1 (en) * 2012-10-23 2014-01-28 Google Inc. Jump scrolling
KR101997447B1 (ko) * 2012-12-10 2019-07-08 엘지전자 주식회사 이동단말기 및 그 제어 방법
US8943092B2 (en) 2013-03-04 2015-01-27 Microsoft Corporation Digital ink based contextual search
US9558400B2 (en) 2013-03-07 2017-01-31 Ricoh Company, Ltd. Search by stroke
US9880990B2 (en) 2013-03-14 2018-01-30 Microsoft Technology Licensing, Llc Leveraging previous instances of handwriting for handwriting beautification and other applications
WO2014147719A1 (ja) * 2013-03-18 2014-09-25 株式会社 東芝 電子機器および手書き文書処理方法
JP6125333B2 (ja) * 2013-05-31 2017-05-10 株式会社東芝 検索装置、方法及びプログラム
US20140363082A1 (en) * 2013-06-09 2014-12-11 Apple Inc. Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition
US9495620B2 (en) 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
US9201592B2 (en) * 2013-08-09 2015-12-01 Blackberry Limited Methods and devices for providing intelligent predictive input for handwritten text
KR101488670B1 (ko) * 2014-01-29 2015-02-04 주식회사 디오텍 텍스트와 디지털 잉크를 포함하는 대용량 문서의 교차 검색 시스템 및 방법
JP6270565B2 (ja) * 2014-03-18 2018-01-31 株式会社東芝 電子機器および方法
US10997757B1 (en) * 2014-06-17 2021-05-04 FlipScript, Inc. Method of automated typographical character modification based on neighboring characters
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
FR3038100A1 (fr) * 2015-06-26 2016-12-30 Orange Procede de reconnaissance d'ecriture manuscrite sur une surface physique
KR101669821B1 (ko) * 2015-11-09 2016-10-27 주식회사 셀바스에이아이 필기 데이터 베이스를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램
KR101667910B1 (ko) * 2015-11-09 2016-10-20 주식회사 셀바스에이아이 디지털 인공 필기 데이터를 생성하는 방법, 장치 및 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램
US10228775B2 (en) * 2016-01-22 2019-03-12 Microsoft Technology Licensing, Llc Cross application digital ink repository
DK179329B1 (en) 2016-06-12 2018-05-07 Apple Inc Handwriting keyboard for monitors
CN107844472B (zh) * 2017-07-18 2021-08-24 创新先进技术有限公司 词向量处理方法、装置以及电子设备
CN107562715B (zh) * 2017-07-18 2021-01-26 创新先进技术有限公司 词向量处理方法、装置以及电子设备
CN107562716A (zh) * 2017-07-18 2018-01-09 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
KR102445371B1 (ko) * 2017-12-11 2022-09-20 현대자동차주식회사 필기 입력 장치의 문자 인식 방법, 필기 입력 장치 및 필기 입력 장치를 구비하는 자동차
US10514841B2 (en) * 2018-04-30 2019-12-24 Microsoft Technology Licensing, Llc Multi-layered ink object
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
CN112241686A (zh) * 2020-09-16 2021-01-19 四川天翼网络服务有限公司 一种基于特征向量的轨迹比对匹配方法及系统
EP4057182A1 (en) * 2021-03-09 2022-09-14 Société BIC Handwriting feedback

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864618A (en) * 1986-11-26 1989-09-05 Wright Technologies, L.P. Automated transaction system with modular printhead having print authentication feature
US5051736A (en) * 1989-06-28 1991-09-24 International Business Machines Corporation Optical stylus and passive digitizing tablet data input system
US5063600A (en) * 1990-05-14 1991-11-05 Norwood Donald D Hybrid information management system for handwriting and text
US5220649A (en) * 1991-03-20 1993-06-15 Forcier Mitchell D Script/binary-encoded-character processing method and system with moving space insertion mode
US5852434A (en) * 1992-04-03 1998-12-22 Sekendur; Oral F. Absolute optical position determination
US5477012A (en) * 1992-04-03 1995-12-19 Sekendur; Oral F. Optical position determination
US5583543A (en) * 1992-11-05 1996-12-10 Sharp Kabushiki Kaisha Pen input processing apparatus
US5392363A (en) * 1992-11-13 1995-02-21 International Business Machines Corporation On-line connected handwritten word recognition by a probabilistic method
IT1265673B1 (it) * 1993-03-22 1996-11-22 Texas Instruments Italia Spa Apparecchio e procedimento per il riconoscimento di caratteri manoscritti.
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5687254A (en) * 1994-06-06 1997-11-11 Xerox Corporation Searching and Matching unrecognized handwriting
US5652412A (en) * 1994-07-11 1997-07-29 Sia Technology Corp. Pen and paper information recording system
US5666438A (en) * 1994-07-29 1997-09-09 Apple Computer, Inc. Method and apparatus for recognizing handwriting of different users of a pen-based computer system
US5768423A (en) * 1994-09-02 1998-06-16 Panasonic Technologies Inc. Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing
US5768417A (en) * 1994-09-09 1998-06-16 Motorola, Inc. Method and system for velocity-based handwriting recognition
GB2307085B (en) * 1994-09-09 1998-09-23 Motorola Inc Method and system for recognizing a boundary between characters in handwritten text
WO1996008787A1 (en) * 1994-09-14 1996-03-21 Apple Computer, Inc. System and method for automatic subcharacter unit and lexicon generation for handwriting recognition
US5661506A (en) * 1994-11-10 1997-08-26 Sia Technology Corporation Pen and paper information recording system using an imaging pen
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
US6081261A (en) 1995-11-01 2000-06-27 Ricoh Corporation Manual entry interactive paper and electronic document handling and processing system
US5832474A (en) * 1996-02-26 1998-11-03 Matsushita Electric Industrial Co., Ltd. Document search and retrieval system with partial match searching of user-drawn annotations
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
US5692073A (en) * 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique
DE69724405T2 (de) * 1996-10-04 2004-05-06 Koninklijke Philips Electronics N.V. Verfahren und apparat zur online handschrifterkennung basierend auf merkmalvektoren unter verwendung von agglomerierten beobachtungen aus zeitlich aufeinanderfolgenden sequenzen
US6275611B1 (en) * 1996-10-17 2001-08-14 Motorola, Inc. Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures
US6169789B1 (en) * 1996-12-16 2001-01-02 Sanjay K. Rao Intelligent keyboard system
US5970455A (en) * 1997-03-20 1999-10-19 Xerox Corporation System for capturing and retrieving audio data and corresponding hand-written notes
JP3020887B2 (ja) 1997-04-14 2000-03-15 株式会社エイ・ティ・アール知能映像通信研究所 データベース格納方法、データベース検索方法およびデータベース装置
US5953451A (en) * 1997-06-19 1999-09-14 Xerox Corporation Method of indexing words in handwritten document images using image hash tables
US6518950B1 (en) * 1997-10-07 2003-02-11 Interval Research Corporation Methods and systems for providing human/computer interfaces
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
WO1999050751A1 (en) 1998-04-01 1999-10-07 Xerox Corporation Routing document identifiers
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
US6964374B1 (en) * 1998-10-02 2005-11-15 Lucent Technologies Inc. Retrieval and manipulation of electronically stored information via pointers embedded in the associated printed material
JP2001148123A (ja) 1999-11-22 2001-05-29 Sony Corp 光ディスク、記録及び/又は再生装置及び方法
US6355889B1 (en) * 2000-06-28 2002-03-12 International Business Machines Corporation Method and apparatus for linking electronic ink to electronic personal information systems
US7155061B2 (en) * 2000-08-22 2006-12-26 Microsoft Corporation Method and system for searching for words and phrases in active and stored ink word documents
US6785417B1 (en) * 2000-08-22 2004-08-31 Microsoft Corp Method and system for searching for words in ink word documents
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US7336827B2 (en) * 2000-11-08 2008-02-26 New York University System, process and software arrangement for recognizing handwritten characters
US20020107885A1 (en) * 2001-02-01 2002-08-08 Advanced Digital Systems, Inc. System, computer program product, and method for capturing and processing form data
US7627596B2 (en) * 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7188313B2 (en) * 2001-10-03 2007-03-06 Hallmark Cards, Incorporated Context sensitive font generation
US7523235B2 (en) * 2003-06-11 2009-04-21 Lsi Corporation Serial Advanced Technology Attachment (SATA) switch

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117122A (zh) * 2009-12-30 2011-07-06 乐金电子(中国)研究开发中心有限公司 一种英文输入方法和移动通信终端
CN102117122B (zh) * 2009-12-30 2014-08-13 浪潮乐金数字移动通信有限公司 一种英文输入方法和移动通信终端
CN101901355A (zh) * 2010-06-29 2010-12-01 北京捷通华声语音技术有限公司 一种基于最大熵的文字识别方法和识别装置
CN102005033A (zh) * 2010-11-16 2011-04-06 中国科学院遥感应用研究所 一种图像平滑抑制噪声方法
CN102005033B (zh) * 2010-11-16 2012-07-04 中国科学院遥感应用研究所 一种图像平滑抑制噪声方法
CN103455528B (zh) * 2012-05-28 2017-09-08 株式会社东芝 手写文字检索装置及方法
CN103455528A (zh) * 2012-05-28 2013-12-18 株式会社东芝 手写文字检索装置、方法以及记录介质
CN105809100B (zh) * 2014-12-31 2019-04-19 中国刑事警察学院 笔迹与签名量化检验鉴定特征总积法
CN105809100A (zh) * 2014-12-31 2016-07-27 中国刑事警察学院 笔迹与签名量化检验鉴定特征总积法
CN107292213A (zh) * 2016-03-30 2017-10-24 中国刑事警察学院 笔迹量化检验鉴定方法
CN109002849B (zh) * 2018-07-05 2022-05-17 百度在线网络技术(北京)有限公司 识别对象发展阶段的方法和装置
CN109002849A (zh) * 2018-07-05 2018-12-14 百度在线网络技术(北京)有限公司 识别对象发展阶段的方法和装置
CN111310543A (zh) * 2019-12-04 2020-06-19 湖北工业大学 在线笔迹认证中笔画提连笔特征的提取及认证方法
CN111310543B (zh) * 2019-12-04 2023-05-30 湖北工业大学 在线笔迹认证中笔画提连笔特征的提取及认证方法
CN113128296A (zh) * 2019-12-31 2021-07-16 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统
CN111242840A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 手写体字符生成方法、装置、计算机设备和存储介质
CN113378609A (zh) * 2020-03-10 2021-09-10 中国移动通信集团辽宁有限公司 代理商代签名的识别方法及装置
CN113378609B (zh) * 2020-03-10 2023-07-21 中国移动通信集团辽宁有限公司 代理商代签名的识别方法及装置
WO2022087847A1 (zh) * 2020-10-27 2022-05-05 京东方科技集团股份有限公司 手写文本识别方法、装置和系统,手写文本搜索方法和系统,以及计算机可读存储介质
US11823474B2 (en) 2020-10-27 2023-11-21 Boe Technology Group Co., Ltd. Handwritten text recognition method, apparatus and system, handwritten text search method and system, and computer-readable storage medium
CN113610065A (zh) * 2021-10-09 2021-11-05 北京世纪好未来教育科技有限公司 笔迹识别方法和装置

Also Published As

Publication number Publication date
CA2463236A1 (en) 2003-04-24
CN1701323B (zh) 2010-06-23
KR20050036863A (ko) 2005-04-20
AUPR824301A0 (en) 2001-11-08
DE60219342D1 (de) 2007-05-16
IL161381A0 (en) 2004-09-27
ATE358851T1 (de) 2007-04-15
US20050222848A1 (en) 2005-10-06
KR100717637B1 (ko) 2007-05-15
WO2003034276A1 (en) 2003-04-24
US20120239397A1 (en) 2012-09-20
JP2005505861A (ja) 2005-02-24
EP1444614B1 (en) 2007-04-04
US8219908B2 (en) 2012-07-10
CA2463236C (en) 2010-09-21
EP1444614A4 (en) 2005-12-28
EP1444614A1 (en) 2004-08-11
ZA200402928B (en) 2005-02-23
JP2008293519A (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
CN1701323A (zh) 使用笔迹特征合成的数字笔迹数据库搜索
CN1145872C (zh) 手写汉字自动分割和识别方法以及使用该方法的系统
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
CN104199965B (zh) 一种语义信息检索方法
CN1625741A (zh) 可以通过手写检索查询来检索的电子文件管理系统
KR101681109B1 (ko) 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
CN102971729B (zh) 将可操作属性归于描述个人身份的数据
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
JP2009537901A (ja) 検索による注釈付与
CN1691019A (zh) 检验关键字和Web站点内容之间的相关性
CN1573923A (zh) 用于用户模型化以增强对命名实体识别的系统和方法
CN1177407A (zh) 基于速度的手写体识别方法和系统
CN117390169B (zh) 表格数据问答方法、装置、设备及存储介质
CN1928860A (zh) 用于校正按键错误的方法、搜索引擎和搜索系统
CN1269060C (zh) 处理和重复使用中文古籍的方法及其所采用的计算机软硬件系统
CN112397201B (zh) 一种面向智能问诊系统的复述句生成优化方法
Sari et al. A search engine for Arabic documents
CN117349420A (zh) 基于本地知识库和大型语言模型的回复方法和装置
CN1252635C (zh) 中文文本自动分类用的特征降维方法
Ascalon et al. Lyric-based music mood recognition
CN116414939B (zh) 基于多维度数据的文章生成方法
JP4918067B2 (ja) カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
CN1811755A (zh) 数据库搜寻系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100623

Termination date: 20121015