CN100388283C - 毛笔书法字检索方法 - Google Patents

毛笔书法字检索方法 Download PDF

Info

Publication number
CN100388283C
CN100388283C CNB2006100534004A CN200610053400A CN100388283C CN 100388283 C CN100388283 C CN 100388283C CN B2006100534004 A CNB2006100534004 A CN B2006100534004A CN 200610053400 A CN200610053400 A CN 200610053400A CN 100388283 C CN100388283 C CN 100388283C
Authority
CN
China
Prior art keywords
word
writing brush
centerdot
candidate
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100534004A
Other languages
English (en)
Other versions
CN1920819A (zh
Inventor
庄越挺
潘云鹤
章夏芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2006100534004A priority Critical patent/CN100388283C/zh
Publication of CN1920819A publication Critical patent/CN1920819A/zh
Application granted granted Critical
Publication of CN100388283C publication Critical patent/CN100388283C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种毛笔书法字检索方法。包括如下步骤:(1)剪去数据库中与用户所提交的样本字没有相似可能性的大部分书法字;(2)将剩余的候选书法字与样本字进行匹配,给出匹配值;(3)按匹配值从小到大顺序排列,根据书法字号取出相应的原始书法字图像,生成可视的结果;(4)用户可用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的方式检索书法字。本发明的有益效果是:解决了书法字不能采用目前的光学字符识别技术识别成文本从而进行检索的问题,为书法爱好者提供展现同一汉字不同书法风格的艺术美;为历史学者提供检索描述历史文化、历史事件的历史书法内容提供工具;为数字图书馆应用提供数字书法的检索工具。

Description

毛笔书法字检索方法
技术领域
本发明涉及数字图像检索,尤其涉及一种毛笔书法字检索方法。
背景技术
中华民族五千年文化留下了许多优秀的书法作品,如王羲之的《兰亭集序》,颜真卿的《多宝塔》。这些原始作品每件都是唯一的,先前存在于纸张、绢丝、或者石头上,因其容易破损而被保护起来,存放在博物馆里,不允许大众随意翻阅。书法作品的数字化和网络存储为历史书法作品提供了第二存储介质,有助于让广大人民群众方便的欣赏和理解民族文化。因此,书法作品是具有中国特色的数字图书馆工程的重要组成部分。然而,目前Internet上的书法作品的检索功能只是针对作品名称、作者、朝代、出版地等已标注的元数据信息进行检索,即最小可检索单位是书法作品,而不能检索单个书法字。对书法字进行检索的一种直观的实现方法是手工标注每个书法字。然而,书法字标注不仅费时费力,且很多书法字难以标注,主要原因有:一,很多古汉字在现代汉语中不再使用;二,甲骨文、篆书、隶书、草书等风格的书体不容易辨认。
光学识别字符Optical Character Recognition技术对打印体汉字具有很好的识别率,然而对历史书法字,其识别效果让人难以接受,主要是因为书法字风格各异,没有统一模板,且历史书法作品由于历史沧桑,具有模糊性。现有的基于内容的图像检索(CB1R)技术在书法字检索中并没有良好的效果。因此,本发明提出了一种利用形状进行书法字检索的方法,并实现了书法字检索系统。
发明内容
本发明的目的是提供一种毛笔书法字检索方法,为当前不能用光学识别方法识别成文本的书法字提供检索工具。
它包括如下步骤:
(1)对书法数据库进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选书法字;
(2)对数据库中剩余的小部分候选字,匹配每个候选字与样本字形状的相似性,给出匹配值;
(3)将匹配值按从小到大顺序排列,并根据书法字号取出相应的原始书法字图像,生成可视的检索结果,供用户浏览;
(4)用户采用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的三种样例提交方法检索书法字。
所述的对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字的步骤如下:
(1)采用书法字的复杂度指数、笔划密度、最左突起、水平及垂直投影直方图对数据库中的候选书法字进行剪枝;
(2)采用动态时序校准算法匹配书法字投影直方图,用支持不等长采样序列的动态校准方法匹配书法字形状的轮廓序列。
匹配每个候选字与样本字形状的相似性的步骤如下:
(1)提取单个书法字的轮廓形状特征,构造书法字的形状矩阵;
(2)匹配书法字形状相似性,给出匹配值。
提取单个书法字的轮廓形状特征的步骤如下:
(1)首先对书法作品页面进行版面分析,识别该作品是拓碑还是书帖,计算作品页面图像中单个书法字的最小包围盒,并使最小包围盒可编辑以便用户反馈更新,切分沿着最小包围盒边界进行以获取单个书法字;
(2)二值化单个书法字获取书法字前景,对书法字非线性归一化,以使它们大小相同具有可比性;
(3)用坎尼边缘检测算法获取书法字轮廓,将轮廓点序列化,进行隔点采样以降低书法字轮廓点的维数。
构造书法字形状矩阵,匹配书法字形状相似性有以下约束:
(1)书法字由有序的笔划组成,不能拿一个字最左边的笔划和另外一个字最右边的笔划进行匹配,即在另一个字上搜索匹配点的范围是限定在区域D={qj:|qj-pi|≤σ×length}内,其中length为归一化长度,σ为权值;
(2)两个轮廓点是否为一匹配点对,不仅自身属性有关还与其所处的位置有关,因此点对的欧式距离平方用作惩罚值。
计算书法字形状相似性的步骤如下:
(1)计算每个轮廓点的32个属性值,构造具有n个轮廓点的书法字的n×32形状矩阵,将同一轮廓点的32个属性值作为矩阵的一行;
(2)两个书法字形状匹配值为 Σ i = 1 n ( PMC i + α | p i - corres ( p i ) | 2 ) , 它是轮廓点匹配值的累积,轮廓点pi的匹配值为PMC=min{c(pi,qi)|j=0,1,2…m},其中qi为候选书法字上的轮廓点, C ( p i , q j ) = 1 2 Σ k = 1 32 [ a ik - b jk ] 2 / ( a ik + b jk ) .
本发明具有的有益的效果是:解决了书法字不能采用目前的光学字符识别技术识别成文本从而进行检索的问题,为书法爱好者提供一种展示同一字不同书法风格的艺术美;历史学者提供检索历史书法内容、了解历史文化的工具;为数字图书馆应用提供有效的数字书法检索工具。
附图说明
图1是毛笔书法字检索方法流程框图;
图2是书法页面切分中所述的书法字的垂直投影截图;
图3是本发明的书法页面切分结果:蓝色框为最小包围盒;
图4是两种书法作品类型例子:书帖和拓本及相应的二值化结果图;
图5是本发明的书法字轮廓采样的一个例子;
图6是本发明的轮廓点32属性值计算示意图;
图7是本发明的两个书法字投影直方动态校准示例;
图8是本发明的书法字检索的一个例子;
图9(a)是本发明的鼠标画出的字的简图所提交的样本示意图;
图9(b)是本发明的输入的文本所提交的样本示意图;
图9(c)是本发明的导入的书法字图像所提交的样本示意图;
图10是本发明的一个实施例子:用鼠标画出的“书”字的简图,以此为样本的检索结果;
图11是浏览图10第一行最后一个“书”字所在的原始作品,蓝色框标识了该字在原作中所在位置;
图12是本发明的一个实施例子:以一个书法“之”字图像为样本的检索测试结果;
图13是浏览图12第一行第一个“之”字所在的原始作品,蓝色框标识了该字在原作中所在位置;
图14是本发明的一个实施例子:用鼠标画出一个“言”字简图作为样本;
图15是以图14为样本的检索结果;
图16是浏览图15最后一行最后一个“言”字所在的原始作品,蓝色框标识了该字在原作中所在位置;
具体实施方法
本发明提出的毛笔书法字图像检索的方法和系统,结合附图及其实施详细说明如下:
本发明的工作原理如图1所示,包括以下步骤:
1.对扫描的原始书法作品进行元数据标注,包括作品名、作者、朝代、评论的关键字,建立数据库表存放作品元数据及相应的原始扫描作品图像在磁盘中的存储路径。
2.书法作品页面图像切分成单个书法字图像,结果如图3示例:
令二元组(xi,s,xi,e)为第i个字切分块的横坐标起始和终止坐标,字切分块需满足:
xi,e-xi,s≥ω, x i + 1 , s - x i , e ≥ λ × 1 n Σ i = 1 i = n ( x i , e - x i , s )
α ≤ Area ch Area ave , 1 β ≤ height ch width ch ≤ β
其中ω=5,λ=0.3,α=0.6,β=1.2是实验经验阈值,widthch,heightch分别为切分块的宽度和高度,Areach,Areaave分别为切分块的面积及同一页面切割块的平均面积。
3.单个书法字归一化为45×45象素点,并判别书法字类型,如图4示例:书法字可分为两种类型:书贴和拓本,书帖是拿直接写在纸张或者绢纸、丝绸上的作品,拓本是指从石头或者碑上拓下来的作品。两者二值化后字的颜色不同,书帖二值化后字是黑色的背景是白色的,拓本则反之。令f(i,j)为书法字图像函数,th为二值化阈值,则判别一个书法字图像类型的函数为:
T = # { f ( i , 0 ) | f ( i , 0 ) ≤ th } + # { f ( 0 , j ) | f ( 0 , j ) ≤ th } # { f ( i , 0 ) | f ( i , 0 ) > th } + # { f ( 0 , j ) | f ( 0 , j ) > th }
其中#为计算个数的函数,若T>1,则该书法字拓本,反之,则是书贴。
4.对书法字图像进行轮廓提取,对轮廓序列点进行亚采样,以亚采样后的轮廓序列点表征一个书法字,如图5示例:
(1)采样Canny边缘检测法提取书法字轮廓。亚采样的方法是:考虑轮廓点的8邻域里与该点相邻的轮廓点个数,如果有3个轮廓点成一条直线,则删除中间点。
(2)轮廓点32属性值计算:以该轮廓点为重心,采用极坐标方式将整个空间划分为大小不一的32个区域,在角度划分出均匀的8份,在弦长上按log2r划出4份。分别统计其余的轮廓点落入32区域的数目值,作为轮廓点的32个属性值,区域划分如图6所示例。
5.隔行采样,构造形状矩阵:
以一个轮廓点的32个属性值作为矩阵的一行,则一个有2n个轮廓采样点的书法字可构造出一个2n×32的形状矩阵。接着,隔行采样,对矩阵进行重构,变成n×32的形状矩阵
a 1,1 a 1,2 a 1,3 . . . a 1,32 . . . . . . . . . . . . . . . a i , 1 . . . a i , j . . . a i , 32 . . . . . . . . . . . . . . . a n , 1 a n , 2 a n , 3 . . . a n , 32
6.对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大量候选字书法字:
(1)以书法字复杂度指数为特征,剪除数据库中与样本字没有相似可能性的候选字:计算采样的轮廓点个数,作为书法复杂度指数,因笔划越多越复杂的字,轮廓就越长,采样点就越多:令Len为样本字q采样序列的长度,Leni候选字ci的采样序列长度,当下列不等式不满足时,候选字ci与样本字不是同一个汉字的书法字,剪除。
1 α ≤ L L i ≤ α
其中,α=1.35为训练得出的阈值。
(2)以书法字笔划密度为特征,剪除数据库中与样本字没有相似可能性的候选字:根据扫描线穿越书法字次数给出书法字笔划的密度:令f(i,j)为一幅M×N书法字图像,Jh,k、Jv,k分别为第k条水平扫描线和第k条垂直扫描线穿越书法字次数,则有:
J h , k = Σ i = 1 i = M - 2 f ( i , k ) ⊗ f ( i + 1 , k )
J v , k = Σ i = 1 i = N - 2 f ( k , j ) ⊗ f ( k , j + 1 )
其中
Figure C20061005340000104
为异或位操作XOR。令bh,k和bv,k分别为水平边缘扫描线和垂直边缘扫描线的穿透数,则有:
bh,k=#{f(i,k)=1|i=0∪=M-1}
bv,k=#{f(k,j)=1|j=0∪j=N-1}
则书法字的水平笔划密度H和垂直笔划密度V为
H = 1 βM Σ j = 0 j = βM ( J h , j + b h , j ) , V = 1 βN Σ j = 0 j = βN ( J v , j + b v , j )
其中β=1/1.5为参数值。令q为样本字,i为候选字,当下列不等式不满足时,候选字与样本字不是同一个汉字的书法字,剪除。
|Hi-Hq|<θ×Hq,|Vi-Vq|<θ×Vq
(3)以书法字最左突起为特征,剪除数据库中与样本字没有相似可能性的候选字:令t为一个M×N书法字图像的最左突起笔划点的Y-轴坐标,P为最左突起值:
P = t + 1 N , t = arg min 0 &le; j < N { i | f ( i , j ) = 1 } ,
其中i=0,1,2…M-1。对样本字i和候选字j,当下列不等式不满足时,候选字j与样本字不是同一个汉字的书法字,剪除。
|Pi-Pj|<θ
其中θ=0.15为阈值。
(4)以书法字的投影直方图为特征,剪除数据库中与样本字没有相似可能性的候选字:将书法字进行二值化而后投影,并将投影的轮廓序列化,作为的校准两个序列,采用动态时序校准Dynamic Time Warping算法对两个序列进行匹配,匹配值为:
DTW ( X , Y ) = min { &Sigma; k = 1 k = m d k }
di=min{d(xi,yj)|i-r≤j≤i+r,j≥0}
d(xi,yj)=(xi-yj)2
令样本字为Q,数据库中的候选字为X,当下列不等式满足时,候选字X与样本字不是同一个汉字的书法字,剪除。
DTW(Q,X)>λ+(lengthq-lengthave)/θlen
其中θlen=60为阈值,lengthq为样本字形状采样序列长度。
7.对数据库中剩余的候选书法字,度量每个字与样本字的形状相似度,计算它们形状矩阵的匹配值:
(1)首先计算样本字的点pi和候选字轮廓点qj的匹配值:
C ( p i , q j ) = 1 2 &Sigma; k = 1 32 [ a ik - b jk ] 2 a ik + b jk
其中aik和bjk分别为样本字和候选字形状矩阵中样本点mi和nj的属性值。
(2)点匹配值PMCi的计算:候选字中跟样本字轮廓点pi对应点的是匹配值最小的那个点,其匹配值为该点的匹配值,写作:
PMCi=min{C(pi,qj):j=0,1,2…m}
(3)书法字匹配值TMC的计算:样本字与候选字的匹配值为样本字轮廓点匹配值及距离惩罚值的累加:
TMC = &Sigma; i = 1 n ( PMC i + &alpha; | | p i - corresp ( p i ) | | 2 )
(4)约束条件:
寻找轮廓点pi的对应点时,约束区域D定义如下:
dist ( p i - c j ) = ( x i - x j ) 2 + ( y i - y j ) 2 &le; &sigma; &times; normalization _ size
其中σ=0.25为阈值参数,这是因为一个书法字左边的笔划不能与另外一个字右边的笔划进行匹配。
8.返回书法字检索结果,如图8所示:
按匹配值从小到大排序,根据书法字号,从磁盘阵列中取出相对应的书法字原图像及相关元数据信息,呈现给用户。
9.为检索方便,系统提供三种用户提交样例的方式,如图9(a)(b)(c)所示;
实施例1:
(1)先对扫描的数字化书法作品页面图像的进行垂直投影,如图2所示;而后进行水平投影。根据投影空隙计算书法字的最小包围盒,如图2所示,沿着最小包围盒切分出的单个书法字图像,如图4所示;
(2)将书法字图像归一化大小为45×45象素点的图像,二值化归一化后的图像;
(3)书法作品类型辨别,将书法作品识别为“书帖”或“拓碑”:目的是识别哪种颜色是书法字色哪种颜色是背景色,以便提取正确的特征;若沿着书法字边缘画一条扫描线,统计扫描线上的颜色数,则背景色的个数要远大于前景色个数。因此令f(i,j)为书法字图像函数,th为二值化阈值,T为判定字符颜色的算子:
T = # { f ( i , 0 ) | f ( i , 0 ) &le; th } + # { f ( 0 , j ) | f ( 0 , j ) &le; th } # { f ( i , 0 ) | f ( i , 0 ) > th } + # { f ( 0 , j ) | f ( 0 , j ) > th }
其中#为计算个数的函数。如果T>1,则该书法字是拓碑,二值化后字的颜色是白色的;反之,可判定该书法字是书贴,字的颜色是黑色的。
(4)书法字图像轮廓提取和轮廓点属性描述:用Canny便于检测法获取轮廓,接着对轮廓序列点进行亚采样,如图5所示;计算每个轮廓点的32属性值,如图6所示;
(5)将每个轮廓点的32个属性值作为矩阵的一行,为具有n个轮廓点的书法字构造n×32的形状矩阵;
(6)分别计算数据库中书法字的复杂度指数、笔划密度、最左突起、水平及垂直投影直方图,对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字;
(7)对数据库中剩余的少量候选字,匹配每个候选字与样本字的相似性,给出匹配值并按匹配值对应的书法字号返回书法字原图像;
(8)图10为该方法的一个应用测试例子:提交一个鼠标画出的繁体“书”字所得的检索结果;
(9)图11为点击检索结果中第3行第1列的“书”字底侧右边的小图标后弹出的一个新窗口,用于浏览该书法字所在的原始作品页面;
实施例2:
(1)从步骤1到步骤7与实施例1相同;
(2)图12为提交一幅从磁盘导入的“之”字图像所得的检索结果;
(3)图13为点击检索结果中第1行第1列的“之”字底侧右边的小图标,弹出一个新窗口,浏览该书法字所在的原始作品页面;
实施例3:
(1)从步骤1到步骤7与实施例1相同;
(2)图14为用鼠标画出一个“言”字简图,以此作为样本提交;
(3)图15为以图14的“言”字简图为样本提交后的检索结果;
(4)图16为点击图15检索结果中最后一行最后一列的“言”字底侧右边的小图标,弹出一个新窗口,浏览该书法字所在的原始作品页面;

Claims (1)

1.一种毛笔书法字检索方法,其特征在于它包括如下步骤:
(1)对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字;
(2)对数据库中剩余的小部分候选字,匹配每个候选字与样本字形状的相似性,并给出匹配值;
(3)将匹配值按从小到大顺序排列,并根据书法字号取出相应的原始书法字图像,生成可视的检索结果,供用户浏览;
(4)用户采用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的三种样例提交方法检索书法字,
所述的对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字的步骤如下:
(a)以书法字复杂度指数为特征,剪除数据库中与样本字没有相似可能性的候选字:计算采样的轮廓点个数,作为书法复杂度指数,因笔划越多越复杂的字,轮廓就越长,采样点就越多:令Len为样本字q采样序列的长度,Leni候选字ci的采样序列长度,当下列不等式不满足时,候选字ci与样本字不是同一个汉字的书法字,剪除,
1 &alpha; &le; Len Len i &le; &alpha;
其中,α=1.35为训练得出的阈值,
(b)以书法字笔划密度为特征,剪除数据库中与样本字没有相似可能性的候选字:根据扫描线穿越书法字次数给出书法字笔划的密度:令f(i,j)为一幅M×N书法字图像,Jh,k、Jv,k分别为第k条水平扫描线和第k条垂直扫描线穿越书法字次数,则有:
J h , k = &Sigma; i = 1 i = M - 2 f ( i , k ) &CircleTimes; f ( i + 1 , k )
J v , k = &Sigma; i = 1 i = N - 2 f ( k , j ) &CircleTimes; f ( k , j + 1 )
其中
Figure C2006100534000002C4
为异或位操作XOR,令bh,k和bv,k分别为水平边缘扫描线和垂直边缘扫描线的穿透数,则有:
bh,k=#{f(i,k)=1|i=0∪i=M-1}
bv,k=#{f(k,j)=1|j=0∪j=N-1}
则书法字的水平笔划密度H和垂直笔划密度V为
H = 1 &beta;M &Sigma; j = 0 j = &beta;M ( J h , j + b h , j ) , V = 1 &beta;N &Sigma; j = 0 j = &beta;N ( J v , j + b v , j )
其中β=1/1.5为参数值,令q为样本字,i为候选字,当下列不等式不满足时,候选字与样本字不是同一个汉字的书法字,剪除,
|Hi-Hq|<θ×Hq,|Vi-Vq|<θ×Vq
(c)以书法字最左突起为特征,剪除数据库中与样本字没有相似可能性的候选字:令t为一个M×N书法字图像的最左突起笔划点的Y-轴坐标,P为最左突起值:
P = t + 1 N , t = arg min 0 &le; j < N { i | f ( i , j ) = 1 } ,
其中i=0,1,2…M-1,对样本字i和候选字j,当下列不等式不满足时,候选字j与样本字不是同一个汉字的书法字,剪除,
|Pi-Pj|<θ
其中θ=0.15为阈值;
(d)以书法字的投影直方图为特征,剪除数据库中与样本字没有相似可能性的候选字:将书法字进行二值化而后投影,并将投影的轮廓序列化,作为的校准两个序列,采用动态时序校准Dynamic Time Warping算法对两个序列进行匹配,匹配值为:
DTW ( X , Y ) = min { &Sigma; k = 1 k = m d k }
di=min{d(xi,yj)|i-r≤j≤i+r,j≥0}
d(xi,yj)=(xi-yj)2
令样本字为Q,数据库中的候选字为X,当下列不等式满足时,候选字X与样本字不是同一个汉字的书法字,剪除,
DTW(Q,X)>λ+(lengthq-lengthave)/θlen
其中θlen=60为阈值,lengthq为样本字形状采样序列长度;
所述的匹配每个候选字与样本字形状的相似性的步骤如下:
(e)首先对书法作品页面进行版面分析,识别该作品是拓碑还是书帖,计算书法作品页面图像中单个书法字的最小包围盒,并使最小包围盒可编辑以便用户反馈更新,切分沿着最小包围盒边界进行以获取单个书法字;
(f)二值化单个书法字获取书法字前景,对书法字非线性归一化,以使它们大小相同具有可比性;
(g)采样Canny边缘检测法提取书法字轮廓,亚采样的方法是:考虑轮廓点的8邻域里与该点相邻的轮廓点个数,如果有3个轮廓点成一条直线,则删除中间点;
(h)轮廓点32属性值计算:以该轮廓点为重心,采用极坐标方式将整个空间划分为大小不一的32个区域,在角度划分出均匀的8份,在弦长上按log2r划出4份,分别统计其余的轮廓点落入32区域的数目值,作为轮廓点的32个属性值;
(i)隔行采样,构造形状矩阵:
以一个轮廓点的32个属性值作为矩阵的一行,则一个有2n个轮廓采样点的书法字可构造出一个2n×32的形状矩阵,接着,隔行采样,对矩阵进行重构,变成n×32的形状矩阵
a 1,1 a 1,2 a 1,3 &CenterDot; &CenterDot; &CenterDot; a 1,32 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; a i , 1 &CenterDot; &CenterDot; &CenterDot; a i , j &CenterDot; &CenterDot; &CenterDot; a i , 32 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; a n , 1 a n , 2 a n , 3 &CenterDot; &CenterDot; &CenterDot; a n , 32 ;
(j)首先计算样本字的点pi和候选字轮廓点qj的匹配值:
C ( p i , q j ) = 1 2 &Sigma; k = 1 32 [ a ik - b jk ] 2 a ik + b jk
其中aik和bjk分别为样本字和候选字形状矩阵中样本点mi和nj的属性值;
(k)点匹配值PMCi的计算:候选字中跟样本字轮廓点pi对应点的是匹配值最小的那个点,其匹配值为该点的匹配值,写作:
PMCi=min{C(pi,qj):j=0,1,2…m}
寻找轮廓点pi的对应点时,约束区域D定义如下:
dist ( p i - c j ) = ( x i - x j ) 2 + ( y i - y i ) 2 &le; &sigma; &times; normalization _ size
其中σ=0.25为阈值参数,这是因为一个书法字左边的笔划不能与另外一个字右边的笔划进行匹配;
(1)书法字匹配值TMC的计算:样本字与候选字的匹配值为样本字轮廓点匹配值及距离惩罚值的累加:
TMC = &Sigma; i = 1 n ( PMC i + &alpha; | | p i - corresp ( p i ) | | 2 ) .
CNB2006100534004A 2006-09-14 2006-09-14 毛笔书法字检索方法 Expired - Fee Related CN100388283C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100534004A CN100388283C (zh) 2006-09-14 2006-09-14 毛笔书法字检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100534004A CN100388283C (zh) 2006-09-14 2006-09-14 毛笔书法字检索方法

Publications (2)

Publication Number Publication Date
CN1920819A CN1920819A (zh) 2007-02-28
CN100388283C true CN100388283C (zh) 2008-05-14

Family

ID=37778545

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100534004A Expired - Fee Related CN100388283C (zh) 2006-09-14 2006-09-14 毛笔书法字检索方法

Country Status (1)

Country Link
CN (1) CN100388283C (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488194B (zh) * 2008-01-18 2013-12-25 王鑫 四方图像编码方法
CN101236577B (zh) * 2008-02-29 2010-06-02 浙江大学 计算机辅助书法牌匾设计方法
CN101882215B (zh) * 2009-05-25 2013-01-09 汉王科技股份有限公司 判断文本区域排版方向的方法
CN102842046B (zh) * 2012-08-07 2015-09-23 天津大学 一种基于全局特征提取和训练的书法风格识别方法
CN103870516B (zh) * 2012-12-18 2019-10-25 北京三星通信技术研究有限公司 检索图像的方法、实时绘画提示方法及其装置
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法
CN103186795B (zh) * 2013-03-28 2016-06-29 浙江大学 基于相似性敏感编码的书法字书体识别方法
CN105574553A (zh) * 2014-10-15 2016-05-11 北大方正集团有限公司 文字处理方法和文字处理装置
CN104834890B (zh) * 2015-02-13 2018-01-05 浙江大学 一种对书法作品中文字神采信息的提取方法
CN106156724A (zh) * 2016-06-15 2016-11-23 浙江大学 一种基于sift特征的铁道检测图片匹配方法
CN106326887B (zh) * 2016-08-29 2019-05-21 东方网力科技股份有限公司 一种光学字符识别结果的校验方法及装置
CN109472221A (zh) * 2018-10-25 2019-03-15 辽宁工业大学 一种基于笔画宽度变换的图像文本检测方法
CN114900590B (zh) * 2022-03-23 2023-08-29 南京硅基智能科技有限公司 跟踪显示方法及提词器、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282831A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 手書きパターン認識装置及びその方法並びにその方法を記録した記録媒体
CN1409200A (zh) * 2002-09-26 2003-04-09 赵宏俊 快乐汉字处理方法
CN1768339A (zh) * 2003-04-03 2006-05-03 都柏林城市大学 用于索引和检索多媒体数据的形状匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282831A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 手書きパターン認識装置及びその方法並びにその方法を記録した記録媒体
CN1409200A (zh) * 2002-09-26 2003-04-09 赵宏俊 快乐汉字处理方法
CN1768339A (zh) * 2003-04-03 2006-05-03 都柏林城市大学 用于索引和检索多媒体数据的形状匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
根据形状相似性的书法内容检索. 章夏芬,庄越挺,鲁伟明,吴飞.计算机辅助设计与图形学学报,第17卷第11期. 2005
根据形状相似性的书法内容检索. 章夏芬,庄越挺,鲁伟明,吴飞.计算机辅助设计与图形学学报,第17卷第11期. 2005 *

Also Published As

Publication number Publication date
CN1920819A (zh) 2007-02-28

Similar Documents

Publication Publication Date Title
CN100388283C (zh) 毛笔书法字检索方法
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
Keim et al. Literature fingerprinting: A new method for visual literary analysis
Amin Recognition of printed Arabic text based on global features and decision tree learning techniques
Anthony Visualisation in corpus-based discourse studies
Pratikakis et al. ICFHR 2014 competition on handwritten keyword spotting (H-KWS 2014)
CN103268363B (zh) 一种基于弹性hog特征和ddtw匹配的中国书法图像检索方法
Liang et al. A synthesised word approach to word retrieval in handwritten documents
CN103093240A (zh) 书法字识别方法
Clausner et al. Icfhr 2018 competition on recognition of historical arabic scientific manuscripts–rasm2018
CN111627088A (zh) 一种用于数学试卷图像识别的样本自动生成方法
Al-Maadeed Text‐Dependent Writer Identification for Arabic Handwriting
CN106844481A (zh) 字体相似度及字体替换方法
Zanibbi et al. Math search for the masses: Multimodal search interfaces and appearance-based retrieval
Cilia et al. PapyRow: a dataset of row images from ancient Greek papyri for writers identification
Gohel et al. On-line handwritten Gujarati character recognition using low level stroke
Ueda et al. Which parts determine the impression of the font?
Chiney et al. Handwritten data digitization using an anchor based multi-channel CNN (MCCNN) trained on a hybrid dataset (h-EH)
Aswatha et al. A method for extracting text from stone inscriptions using character spotting
Zhang et al. Dynamic time warping for chinese calligraphic character matching and recognizing
Halder et al. Individuality of isolated Bangla characters
CN114492425B (zh) 采用一套领域标签体系将多维度数据打通的方法
Garz et al. A user-centered segmentation method for complex historical manuscripts based on document graphs
Panichkriangkrai et al. Character segmentation and transcription system for historical Japanese books with a self-proliferating character image database
Shah et al. Line-of-Sight with Graph Attention Parser (LGAP) for Math Formulas

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080514

Termination date: 20120914