文字相似度确定方法、装置、电子设备及存储介质
技术领域
本申请涉及相似度度量技术领域,尤其涉及一种文字相似度确定方法、装置、电子设备及存储介质。
背景技术
现有的文字,不论是从绘图板还是其他移动终端进行文字输入,通常都是以矢量字的形式进行存储。在硬笔书法教育体系中,往往需要对输入文字与预存的样本文字进行相似度评价,以为输入文字进行评分。
其中,对于输入文字与样本字之间相似度确定通常有两种方法。一种是人工直接进行两者相似度的确定。为了相对地提高评判结果的客观性,通常需要对相关从业人员进行专门的培训。尽管如此,仍然由于不同人员之间的主观差异性,造成评判结果不稳定。并且人员的配置需要人力成本投入。另一种是首先人工提取输入文字的不同特征,然后根据每个特征符合样本字的相对程度进行两者文字之间相似度的自动评判。由于所输入的文字千变万化,通过人工提取的特征无法覆盖文字的笔画以及笔画间结构的所有情况,从而使得评判会发生较大偏离,导致评判结果失真。
可见,亟需一种客观的、低成本以及自动的文字相似度确定方法。
发明内容
本申请提供一种文字相似度确定方法、装置、电子设备及存储介质,用以解决现有的文字相似度确定方法不够客观导致评判结果失真以及人工参与导致成本过高等技术问题。
第一方面,本申请提供一中文字相似度确定方法,包括:
根据第一点集序列以及第二点集序列确定第一对应距离,所述第一点集序列用于表征采样字的第一笔画,所述第二点集序列用于表征样本字中与所述第一笔画对应的第二笔画,所述第一点集序列包括多个第一特征点,所述第二点集序列包括多个第二特征点,所述第一对应距离包括所述第一特征点到所述第二点集序列的距离以及所述第二特征点到所述第一点集序列的距离;
根据所述第一对应距离确定第二对应距离,所述第二对应距离用于表征所述第一笔画与所述第二笔画之间的距离;
根据所述第二对应距离确定第三对应距离,所述第三对应距离用于表征所述采样字与所述样本字之间的相似度。
一种可能的设计中,所述根据所述第二对应距离确定第三对应距离之后,还包括:
根据所述相似度以及参考评分样本集确定评分系统,所述评分系统用于为输入文字评分,所述输入文字为矢量字。
一种可能的设计中,所述根据所述第一点集序列以及所述第二点集序列确定对应点距离之前,还包括:
获取第一点集合以及第二点集合,所述第一点集合用于表征所述采样字,所述第二点集合用于表征与所述采样字对应的所述样本字,所述采样字以及所述样本字都为所述矢量字;
通过预设插值算法以及第一点子集确定第一点集序列,所述第一点子集为所述第一点集合中所述第一笔画所属的子集,所述第一点子集包括多个第一参考点;
通过所述预设插值算法以及第二点子集确定第二点集序列,所述第二点子集为所述第二点集合中所述第二笔画所述的子集,所述第二点子集包括多个第二参考点。
一种可能的设计中,所述根据第一点集序列以及第二点集序列确定第一对应距离,包括:
根据所述第一特征点确定第一浮点,所述第一浮点用于表征所述第一特征点在所述第二点集序列中的插值位置;
通过预设距离算法确定第一点对应距离,所述第一点对应距离为所述第一特征点与所述第一浮点之间的距离,所述第一点对应距离用于表征所述第一特征点到所述第二点集序列的距离;
根据所述第二特征点确定第二浮点,所述第二浮点用于表征所述第二特征点在所述第一点集序列中的插值位置;
通过所述预设距离算法确定第二点对应距离,所述第二点对应距离为所述第二特征点与所述第二浮点之间的距离,所述第二点对应距离用于表征所述第二特征点到所述第一点集序列的距离;
所述第一对应距离包括所述第一点对应距离以及所述第二点对应距离。
一种可能的设计中,所述根据所述第一对应距离确定第二对应距离,包括:
根据所述第一点对应距离以及所述第一点集序列的长度确定第一笔画距离,所述第一笔画距离为所述第一笔画到所述第二笔画的距离;
根据所述第二点对应距离以及所述第二点集序列的长度确定第二笔画距离,所述第二笔画距离为所述第二笔画到所述第一笔画的距离;
所述第二对应距离包括第一笔画距离以及第二笔画距离。
一种可能的设计中,所述根据所述第二对应距离确定第三对应距离,包括:
根据第一笔画距离以及总笔画数确定第一距离,所述第一距离为所述采样字到所述样本字的距离;
根据第二笔画距离以及所述总笔画数确定第二距离,所述第二距离为所述样本字到所述采样字的距离;
根据所述第一距离以及所述第二距离确定所述第三对应距离。
第二方面,本申请提供一种文字相似度确定装置,包括:
第一处理模块,用于根据第一点集序列以及第二点集序列确定第一对应距离,所述第一点集序列用于表征采样字的第一笔画,所述第二点集序列用于表征样本字中与所述第一笔画对应的第二笔画,所述第一点集序列包括多个第一特征点,所述第二点集序列包括多个第二特征点,所述第一对应距离包括所述第一特征点到所述第二点集序列的距离以及所述第二特征点到所述第一点集序列的距离;
第二处理模块,用于根据所述第一对应距离确定第二对应距离,所述第二对应距离用于表征所述第一笔画与所述第二笔画之间的距离;
第三处理模块,用于根据所述第二对应距离确定第三对应距离,所述第三对应距离用于表征所述采样字与所述样本字之间的相似度。
一种可能的设计中,所述装置,还包括:
第四处理模块,用于根据所述相似度以及参考评分样本集确定评分系统,所述评分系统用于为输入文字评分,所述输入文字为矢量字。
一种可能的设计中,所述装置,还包括:第五处理模块;
所述第五处理模块,包括:
获取模块,用于获取第一点集合以及第二点集合,所述第一点集合用于表征所述采样字,所述第二点集合用于表征与所述采样字对应的所述样本字,所述采样字以及所述样本字都为所述矢量字;
第一处理子单元,用于通过预设插值算法以及第一点子集确定第一点集序列,所述第一点子集为所述第一点集合中所述第一笔画所属的子集,所述第一点子集包括多个第一参考点;
第二处理子单元,用于通过所述预设插值算法以及第二点子集确定第二点集序列,所述第二点子集为所述第二点集合中所述第二笔画所述的子集,所述第二点子集包括多个第二参考点。
一种可能的设计中,所述第一处理模块,具体用于:
根据所述第一特征点确定第一浮点,所述第一浮点用于表征所述第一特征点在所述第二点集序列中的插值位置;
通过预设距离算法确定第一点对应距离,所述第一点对应距离为所述第一特征点与所述第一浮点之间的距离,所述第一点对应距离用于表征所述第一特征点到所述第二点集序列的距离;
根据所述第二特征点确定第二浮点,所述第二浮点用于表征所述第二特征点在所述第一点集序列中的插值位置;
通过所述预设距离算法确定第二点对应距离,所述第二点对应距离为所述第二特征点与所述第二浮点之间的距离,所述第二点对应距离用于表征所述第二特征点到所述第一点集序列的距离;
所述第一对应距离包括所述第一点对应距离以及所述第二点对应距离。
一种可能的设计中,所述第二处理模块,具体用于:
根据所述第一点对应距离以及所述第一点集序列的长度确定第一笔画距离,所述第一笔画距离为所述第一笔画到所述第二笔画的距离;
根据所述第二点对应距离以及所述第二点集序列的长度确定第二笔画距离,所述第二笔画距离为所述第二笔画到所述第一笔画的距离;
所述第二对应距离包括第一笔画距离以及第二笔画距离。
一种可能的设计中,所述第三处理模块,具体用于:
根据第一笔画距离以及总笔画数确定第一距离,所述第一距离为所述采样字到所述样本字的距离;
根据第二笔画距离以及所述总笔画数确定第二距离,所述第二距离为所述样本字到所述采样字的距离;
根据所述第一距离以及所述第二距离确定所述第三对应距离。
第三方面,本申请提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面及可选的方案涉及的文字相似度确定方法。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的文字相似度确定方法。
本申请提供一种文字相似度确定方法、装置、电子设备及存储介质,首先根据第一点集序列以及第二点集序列确定第一对应距离,其中,第一点集序列表征采样字的第一笔画,第二点集序列表征样本字中与第一笔画对应的第二笔画,第一点集序列包括多个第一特征点,第二点集序列包括多个第二特征点,第一对应距离包括第一特征点到第二点集序列的距离以及第二特征点到第一点集序列的距离,然后根据第一对应距离确定第二对应距离,第二对应距离表征第一笔画与第二笔画之间的距离,再根据第二对应距离确定第三对应距离,第三对应距离表征采样字与样本字之间的相似度。本申请提供了一种客观的、低成本以及自动确定文字相似度的方法,无需人工参与,极大地降低了工作量,避免了评判结果失真。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例提供的文字相似度确定方法的一种应用场景图;
图2为本申请实施例提供的一种文字相似度确定方法的流程示意图;
图3为本申请实施例提供的另一种文字相似度确定方法的流程示意图;
图4为本申请实施例提供的一种确定第一对应距离的流程示意图;
图5为本申请实施例提供的一种确定第二对应距离的流程示意图;
图6为本申请实施例提供的一种确定第三对应距离的流程示意图;
图7为本申请实施例提供的一种文字相似度确定装置的结构示意图;
图8为本申请实施例提供的另一种文字相似度确定装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现如今,从绘图板等移动终端所输入的文字都是以矢量字的形式进行存储。在硬笔书法教育体系中,通常需要对所输入的文字与预存的样本文字进行相似度评价,以为输入文字进行评分。目前,有两种通用方法。一种是人工直接进行两者相似度的确定。但为了相对地提高评判结果的客观性,需要对相关从业人员进行专门的培训。尽管如此,由于人员之间主观差异性的存在,导致由此确定的评判结果不稳定,此外人员的配置需要投入人力成本。另一种是首先人工提取输入文字的不同特征,然后根据每个特征符合样本字的相对程度进行两者文字之间相似度的自动评判。但由于输入文字千变万化,人工提取特征无法覆盖文字的笔画以及笔画间结构的所有情况,使得评判发生较大偏离,导致评判结果失真。
可见,针对现有技术中的上述问题,亟需一种客观的、低成本以及自动的确定文字相似度的方法。本申请提供一种文字相似度确定方法、装置、电子设备及存储介质。本申请提供的文字相似度确定方法,首先通过第一点集序列以及第二点集序列确定第一对应距离,其中,第一点集序列用于表征采样字的第一笔画,第二点集序列用于表征样本字中与第一笔画对应的第二笔画,第一点集序列中包括多个第一特征点,第二点集序列中包括多个第二特征点,而第一对应距离包括了第一特征点到第二点集序列的距离以及第二特征点到第一点集序列的距离,然后根据第一对应距离确定第二对应距离,第二对应距离表征第一笔画与第二笔画之间的距离,再根据第二对应距离确定第三对应距离,第三对应距离表征采样字与样本字之间的相似度。从而,通过对点序列之间距离的运算,实现了客观地、自动地确定文字相似度。无需人工参与,极大地减少了工作量以及成本的投入,并且避免了评判结果失真。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本申请实施例提供的文字相似度确定方法的一种应用场景图,本申请实施例提供的文字相似度确定方法可以由电子设备执行,其中,电子设备可以是台式电脑、笔记本电脑、平板电脑等终端,凡是能够执行本申请实施例提供的文字相似度确定方法的终端即可,本申请实施例对于终端类型不作限定,图1中以笔记本电脑100为例示出。根据本申请实施例提供的文字相似度确定方法可以建立客观的评分系统,将评分系统引入硬笔书法教育体系中,可以实现对例如图1中所示出的输入文字200进行评分,以评判用户书写的文字是否满足对应的书法字形要求。可以理解的是,通过笔记本电脑100对输入文字200进行评分时,输入文字200是以矢量字的形式存储。
图2为本申请实施例提供的一种文字相似度确定方法的流程示意图,如图2所示,本实施例提供的文字相似度确定方法由电子设备执行,包括:
S201:根据第一点集序列以及第二点集序列确定第一对应距离。
其中,第一点集序列用于表征采样字的第一笔画,第二点集序列用于表征样本字中与第一笔画对应的第二笔画,第一点集序列包括多个第一特征点,第二点集序列包括多个第二特征点,第一对应距离包括第一特征点到第二点集序列的距离以及第二特征点到第一点集序列的距离。
在本申请实施例中,采样字与样本字都是矢量字,其中,采样字可以理解为用户输入的任意字。由于不同人的书写习惯,对于同一个文字,字形也会存在差异。样本字,可以理解为已预存的、具有某种特定字体的标准字形,特定字体可以为楷体、宋体等各种字体。采样字以及样本字都为硬笔字。
矢量字是指通过数学曲线描述文字,包含了字形边界上的特征点、连线的导数信息等,具有描述精确、任意缩放不变形以及存储数据量小的优点。
采样字以及样本字都是由笔画组成,可以理解的是,采样字以及样本字以矢量字存在时,每个笔画上的特征点则对应有坐标信息。换言之,按照一定顺序排列的特征点则能够表示一个特定的笔画,若将按照一定顺序排列的坐标信息集合定义为点集序列,则一个点集序列表征一个笔画。对于文字而言,文字由笔画组成,每个笔画都有对应的点集序列,相应地,每个文字则可以通过固定的点集序列所组成的集合表征。其中,点集序列中包括均匀分布着的特征点。因而,在本实施例中,将表征采样字的每个笔画的点集序列称为第一点集序列,即第一点集序列用于表征采样字的第一笔画,第一笔画为采样字的任意一个笔画,第一点集序列中包括多个第一特征点,多个第一特征点均匀分布,其中的多个可以理解为至少三个。
将表征样本字的每个笔画的点集序列称为第二点集序列,换言之,第二点集序列用于表征样本字中与第一笔画对应的第二笔画。第二点集序列中包括多个第二特征点,多个第二特征点均匀分布,其中的多个可以理解为至少三个。
值得说明的是,采样字与样本字虽属于同一个文字,但因采样字为用户书写的文字,而样本字为标准字体的文字,故而,第一点集序列与第二点集序列中所包括的第一特征点与第二特征点的数量可能相同,也可能不相同。但每相邻的第一特征点之间的距离与每相邻第二特征点之间的距离相等。
第一点集序列与第二点集序列之间的不对称性,使得双向距离计算出现不对称。因而,第一对应距离包括第一特征点到第二点集序列的距离以及第二特征值到第一点集序列的距离。
具体地,根据第一点集序列以及第二点集序列确定第一对应距离,第一对应距离包括第一特征点到第二点集序列的距离以及第二特征点到第一点集序列的距离。其中,第一特征点到第二点集序列的距离,可以理解为,第一特征点与第一特征点对应到第二笔画上的所在位置之间的距离。同理,第二特征点到第一点集序列的距离,可以理解为,第二特征点与第二特征点对应到第一笔画上的所在位置之间的距离。
S202:根据第一对应距离确定第二对应距离。
其中,第二对应距离用于表征第一笔画与第二笔画之间的距离。
可以理解的是,在S201中,确定第一特征点到第二点集序列的距离,是将所有的第一特征点到第二点集序列的距离。同理,确定了所有第二特征点到第一点集序列的距离。而第一点集序列以及第二点集序列分别表征第一笔画和第二笔画,分别统计所有特征点到点集序列的距离,则能够确定点集序列之间的距离,也就是第一笔画与第二笔画之间的距离。
S203:根据第二对应距离确定第三对应距离。
其中,第三对应距离用于表征采样字与样本字之间的相似度。
在确定了第一笔画与第二笔画之间的距离之后,因文字由笔画组成,根据第一笔画与第二笔画之间距离,结合采样字的笔画总数,确定采样字与样本字之间的距离。因为采样字与样本字之间双向距离计算的不对称性,也就是第一笔画到第二笔画的距离与第二笔画到第一笔画的距离,两者的结果不同,在确定第三对应距离时,也采用双向距离计算,即分别计算采样字到样本字的距离以及样本字到采样字的距离。根据两者之间的距离表征采样字与样本字之间的相似度。将主观评判量化,以客观的评判两者之间的相似度。
本实施例提供的文字相似度确定方法,首先根据第一点集序列以及第二点集序列确定第一对应距离,其中,第一对应距离包括第一特征点到第二点集序列的距离以及第二特征点到第一点集序列的距离,然后根据第一对应距离确定第二对应距离,第二对应距离表征第一笔画与第二笔画之间的距离,再根据第二对应距离确定第三对应距离,第三对应距离表征采样字与样本字之间的相似度。从而,通过点集序列之间的距离,将文字之间的相似度进行量化,对相似度进行客观评判,无需人工参与,极大地降低了工作量,避免了评判结果失真。
一种可能的设计中,在根据第二对应距离确定了第三对应距离之后,根据相似度以及参考评分样本集确定评分系统,将评分系统用于为输入文字评分,其中,输入文字为矢量字。
参考评分样本集中包括本领域相关专家为上述采样字的评分,可以理解的是,其中同时包括了上述采样字以及样本字。进一步地,将所确定的相似度与对应的已有分数进行分段拟合,则可以得到一套自动评分系统。将输入文字运用与该评分系统,则能够为其进行自动评分,其中,输入的文字为矢量字。可以理解的是,相似度越小,评分越高。
本实施例提供的评分系统,根据相似度以及参考评分样本集可以确定自动评分系统,以为输入文字进行评分。与现有技术相比,以客观确定的相似度作为评分依据,减少了主观因素对评分的影响,对输入文字自动进行评分,极大的减少了工作量,提高了工作效率以及用户体验。
如前所描述,第一点集序列以及第二点集序列中分别包括多个第一特征点以及第二特征点,其中,第一特征点以及第二特征点都为均匀分布。但采样字以及样本字以矢量字存在时,表示字形边界上的关键点并不一定为均匀分布。可选地,在根据第一点集序列以及第二点集序列确定第一对应距离之前,还包括如图3所示的步骤,图3为本申请实施例提供的另一种文字相似度确定方法的流程示意图,该方法包括:
S301:获取第一点集合以及第二点集合。
其中,第一点集合用于表征采样字,第二点集合用于表征与采样字对应的样本字,采样字以及样本字都为矢量字。
采样字与样本字同属于相同文字,并且都为矢量字。每个文字都存在对应的点集序列组成的集合。首先选取进行相似度确定的采样字以及对应的样本字。即获取第一点集合,第一点集合为表示采样字的字形边界的关键点的集合,换言之,第一点集合表征采样字。相应地,第二点集合为表示样本字的字形边界的关键点的集合,即第二点集合表征样本字。
S302:通过预设插值算法以及第一点子集确定第一点集序列。
其中,第一点子集为第一点集合中第一笔画所属的子集,第一点子集包括多个第一参考点。
在第一点集合中,选取出第一笔画的子集,即为第一点子集,第一点子集中包括多个第一参考点,第一参考点为表示第一笔画的形状边界的关键点,多个第一参考点包括至少两个第一参考点。
当第一参考点在第一笔画上非均匀分布时,通过预设插值算法,例如,样条曲线差值算法,在每两个相邻的第一参考点之间进一步插入子参考点,使得第一笔画上的第一参考点以及子参考点均匀分布,第一参考点以及子参考点则为S201中第一特征点,每相邻第一特征点之间的距离相等,对于该距离的具体数值可以根据实际工况进行设置,对此,本实施例不作限定。
S303:通过预设插值算法以及第二点子集确定第二点集序列。
其中,第二点子集为第二点集合中第二笔画的子集,第二点子集包括多个第二参考点。
步骤S303与S302的实现方式及原理类似,通过预设插值算法,在每相邻的第二参考点之间插入子参考点,使得第二笔画上的第二参考点以及子参考点都均匀分布,第二参考点以及子参考点则为步骤S201中第二特征点,每相邻第二特征点之间的距离与S302中的该距离相同。
本实施例提供的文字相似度确定方法将第一点集合中第一笔画所属的子集包括的第一参考点均匀化,以及将第二点集合中第二笔画所属的子集包括的第二参考点均匀化。从而确定了第一点集序列以及第二点集序列,第一点集序列表征采样字的第一笔画,第二点集序列表征样本字中与第一笔画对应的第二笔画。
一种可能的设计中,S201可能的实现方式如图4所示,图4为本申请实施例提供的一种确定第一对应距离的流程示意图,包括:
S2011:根据第一特征点确定第一浮点。
其中,第一浮点用于表征第一特征点在第二点集序列中的插值位置。
第一点集序列包括多个第一特征点,通过第一特征点确定第一浮点,也就是确定第一特征点在第二笔画中的对应位置,对应位置即为第一特征点在第二点集序列中的插值位置。假设第一点集序列的长度为m,第二点集序列的长度为n,即Sk的长度为m,Tk的长度为n,以及假设第一特征点为第一点集序列中的第X个点,第一浮点用Y表示,则存在如下公式(1)所表示的关系:
Y=(X×n)/m (1)
其中X和Y均为大于1的整数,m和n为大于0的任意数值。
根据第一特征点确定出第一浮点。若第一浮点不是第二特征点,则根据浮点在第二点集序列中的排序位置,确定出浮点前后两个第二特征点,根据该两个特征点的坐标信息,反推出第一浮点的坐标信息。若第一浮点为第二特征点,则根据公式(1)直接确定的Y的数值即为第二点集序列中的第几个第二特征点。
S2012:通过预设距离算法确定第一点对应距离。
其中,第一点对应距离为第一特征点与第一浮点之间的距离,第一点对应距离用于表征第一特征点到第二点集序列的距离。
在获知第一特征点以及第一浮点坐标信息之后,可以通过预设距离算法确定两者之间的距离。换言之,通过预设距离算法确定第一点对应距离,采用第一点对应距离表征第一特征点到第二点集序列的距离。若该距离采用欧式距离(Euclid Dist),则预设距离算法为欧式距离的算法。也可以为其他距离,例如曼哈顿距离,对于预设距离算法的类型,本申请实施例不作限定。
假设以S和T分别表示采样字和样本字,采用k标记第一笔画以及第二笔画分别为采样字和样本字的固定笔画顺序中的第几笔画,L表示采样字也即样本字的总笔画数,则第一点集序列和第二点集序列可以表示为Sk以及Tk,其中,k为大于1小于等于L的整数,L为正整数。
本申请实施例中第一点对应距离采用欧式距离,则第一点对应距离可以采用公式(2)表示:
其中,
表示第一点对应距离,i表示第一特征点,i'表示i在第二点集序列中的插值位置,即第一浮点,i和i'均为正整数。
S2013:根据第二特征点确定第二浮点。
其中第二浮点用于表征第二特征点在第一点集序列中的插值位置。
本步骤的实现原理及效果与S2011类似,根据第二特征点确定第二浮点,第二浮点所在的位置为第二特征点在第一笔画上的对应位置,体现在第一点集序列中,则为第二特征点在第一点集序列中的插值位置。
S2014:通过预设距离算法确定第二点对应距离。
其中,第二点对应距离为第二特征点与第二浮点之间的距离,第二点对应距离用于表征第二特征点到第一点集序列的距离。
与S2013相类似,第二点对应距离采用欧式距离,则可以通过如下公式(3)表示:
其中,
表示第二点对应距离,j表示第二特征点,j'表示j在第一点集序列中的插值位置,即第二浮点,j和j'均为正整数。
S2015:第一对应距离包括第一点对应距离以及第二点对应距离。
因采样字与样本字的不对称性,特征点到点集序列距离的计算存在双向计算不对称性,需要分别计算第一特征点到第二点集序列的距离,以及第二特征点到第一点集序列的距离,换言之,第一对应距离包括第一点对应距离以及第二点对应距离。
本实施例提供的确定第一对应距离的方法,通过根据第一特征点确定第一浮点,然后根据预设距离算法确定第一特征点与第一浮点之间的距离,该距离即为第一点对应距离,采用第一点对应距离表征第一特征点到第二点集序列的距离。同理,确定了第二点对应距离,采用第二点对应距离表征第二特征点到第一点集序列的距离。实现了点序列之间距离的量化计算,为确定笔画之间以及文字之间的距离奠定了客观的数据基础。
进一步地,S202一种可能的实现方式如图5所示,图5为本申请实施例提供的一种确定第二对应距离的流程示意图,该方式包括:
S2021:根据第一点对应距离以及第一点集序列的长度确定第一笔画距离。
其中,第一笔画距离为第一笔画到第二笔画的距离。
在确定了第一点对距离之后,即确定了第一特征点到第二点集序列的距离。将第一点集序列中包括的所有第一特征点到第二点集序列的距离进行累加,累加结果与第一点集序列的长度的比值,则为第一点集序列到第二点集序列的距离,也就是第一笔画到第二笔画的距离,将该距离称为第一笔画距离,在公式(1)和(2)的基础上,第一笔画距离可以采用如下公式(4)表示:
S2022:根据第二点对应距离以及第二点集序列的长度确定第二笔画距离。
其中,第二笔画距离为第二笔画到第一笔画的距离。
与S2021相类似,在确定了第二特征点到第一点集序列的距离之后,将第二点集序列中包括的所有第二特征点到第一点集序列的距离进行累加,累加结果与第二点集序列的长度的比值,则为第二点集序列到第一点集序列的距离,也就是第二笔画到第一笔画的距离,将该距离称为第二笔画距离,在公式(1)和(3)的基础上,第二笔画距离则可以采用如下的公式(5)表示:
S2023:第二对应距离包括第一笔画距离以及第二笔画距离。
因采样字与样本字的不对称性,点集序列之间的距离计算存在双向计算不对称性,需要分别计算第一点集序列到第二点集序列的距离以及第二点集序列到第一点集序列的距离。换言之,第一笔画到第二笔画的距离与第二笔画到第一笔画的距离存在双向计算的不对称性,故而,第一笔画与第二笔画之间的距离,即第二对应距离包括第一笔画距离以及第二笔画距离。
本实施例提供的确定第二对应距离的方法,根据第一点对应距离以及第一点集序列的长度确定了第一笔画距离,第一笔画距离为第一笔画到第二笔画的距离,类似地,根据第二点对应距离以及第二点集序列的长度确定第二笔画距离,第二笔画距离为第二笔画到第一笔画的距离,第一笔画距离以及第二笔画距离构成第二对应距离。从而通过特征点到点集序列的距离,确定了点集序列之间的距离,为确定采样字与样本字之间的距离提供客观的数据基础,以实现文字之间相似度的自动确定。
在上述实施例的基础上,S203一种可能的实现方式如图6所示,图6为本申请实施例提供的一种确定第三对应距离的流程示意图,该方式包括:
S2031:根据第一笔画距离以及总笔画数确定第一距离。
其中,第一距离为采样字到样本字的距离。
在确定了第一笔画到第二笔画的距离之后,即确定了第一笔画距离之后,将采样字所有第一笔画到对应第二笔画的距离进行累加,累加结果与总笔画数的比值定义为第一距离,用其表征采样字到样本字的距离。在上述各公式的基础上,第一距离可如下公式(6)表示:
其中,DistST表示第一距离。
S2032:根据第二笔画距离以及总笔画数确定第二距离。
其中,第二距离为样本字到采样字的距离。
与S2031类似地,在确定了第二笔画到第一笔画的距离之后,即确定了第二笔画距离之后,将样本字所有第二笔画到对应第一笔画的距离进行累加,累加结果与总笔画数的比值定义为第二距离,用其表征样本字到采样字的距离。在上述各公式的基础上,第二距离可如下公式(7)表示:
其中,DistTS表示第二距离。
S2033:根据第一距离以及第二距离确定第三对应距离。
在分别确定了采样字到样本字的距离,以及样本字到采样字的距离之后,引入权重系数,将其与第一距离以及第二距离共同确定第三对应距离,通过第三对应距离将采样字与样本字之间的相似度进行量化。在公式(6)和(7)的基础上,第三对应距离可如下公式(8)表示:
DistS-T=α×DistST+β×DistTS (8)
其中,DistS-T表示第三对应距离,α和β表示权重系数,权重系数的数值可根据采样字与样本字在实际工况中的情况设置,对此,本申请实施例不作限定。
本实施例提供的确定第三对应距离的方法,根据第一笔画距离以及总笔画数确定第一距离,通过第一距离表征采样字到样本字的距离。类似地,根据第二笔画距离以及总笔画数确定了第二距离,通过第二距离表征样本字到采样字的距离,最后结合第一距离以及第二距离确定第三对应距离,将采样字与样本字之间的相似度通过第三对应距离量化,实现了客观评价采样字与样本字之间的相似度。
图7为本申请实施例提供的一种文字相似度确定装置的结构示意图,如图7所示,本实施例提供的文字相似度确定装置600,包括:
第一处理模块601,用于根据第一点集序列以及第二点集序列确定第一对应距离。
其中,第一点集序列用于表征采样字的第一笔画,第二点集序列用于表征样本字中与第一笔画对应的第二笔画,第一点集序列包括多个第一特征点,第二点集序列包括多个第二特征点,第一对应距离包括第一特征点到第二点集序列的距离以及第二特征点到第一点集序列的距离。
第二处理模块602,用于根据第一对应距离确定第二对应距离。
其中,第二对应距离用于表征第一笔画与第二笔画之间的距离。
第三处理模块603,用于根据第二对应距离确定第三对应距离。
其中,第三对应距离用于表征采样字与样本字之间的相似度。
本实施例提供的文字相似度确定装置600与上述图2所示的方法实施例的实现原理以及效果类似,在此不再赘述。
在图7所示实施例的基础上,图8为本申请实施例提供的另一种文字相似度确定装置的结构示意图,如图8所示,装置600,还包括:
第四处理处理模块604,用于根据相似度以及参考评分样本集确定评分系统,评分系统用于为输入文字评分,输入文字为矢量字。
可选地,装置600,还包括:第五处理模块。
其中,第五模块,包括:
获取模块,用于获取第一点集合以及第二点集合,第一点集合用于表征采样字,第二点集合用于表征与采样字对应的样本字,采样字以及样本字都为矢量字;
第一处理子单元,用于通过预设插值算法以及第一点子集确定第一点集序列,第一点子集为第一点集合中第一笔画所属的子集,第一点子集包括多个第一参考点;
第二处理子单元,用于通过预设插值算法以及第二点子集确定第二点集序列,第二点子集为第二点集合中第二笔画的子集,第二点子集包括多个第二参考点。
本实施例提供的文字相似度确定装置600与上述图3所示的方法实施例的实现原理以及效果类似,在此不再赘述。
可选地,第一处理模块601,具体用于:
根据第一特征点确定第一浮点,第一浮点用于表征第一特征点在第二点集序列中的插值位置;
通过预设距离算法确定第一点对应距离,第一点对应距离为第一特征点与第一浮点之间的距离,第一点对应距离用于表征第一特征点到第二点集序列的距离;
根据第二特征点确定第二浮点,第二浮点用于表征第二特征点在第一点集序列中的插值位置;
通过预设距离算法确定第二点对应距离,第二点对应距离为第二特征点与第二浮点之间的距离,第二点对应距离用于表征第二特征点到第一点集序列的距离;
第一对应距离包括第一点对应距离以及第二点对应距离。
本实施例提供的第一处理模块601与上述图4所示的方法实施例的实现原理以及效果类似,在此不再赘述。
可选地,第二处理模块602,具体用于:
根据第一点对应距离以及第一点集序列的长度确定第一笔画距离,第一笔画距离为第一笔画到第二笔画的距离;
根据第二点对应距离以及第二点集序列的长度确定第二笔画距离,第二笔画距离为第二笔画到第一笔画的距离;
第二对应距离包括第一笔画距离以及第二笔画距离。
本实施例提供的第二处理模块602与上述图5所示的方法实施例的实现原理以及效果类似,在此不再赘述。
可选地,第三处理模块603,具体用于:
根据第一笔画距离以及总笔画数确定第一距离,第一距离为采样字到样本字的距离;
根据第二笔画距离以及总笔画数确定第二距离,第二距离为样本字到采样字的距离;
根据第一距离以及第二距离确定第三对应距离。
本实施例提供的第二处理模块602与上述图6所示的方法实施例的实现原理以及效果类似,在此不再赘述。
图9为本申请实施例提供的一种电子设备的结构示意图,如图9所示,本实施例提供的电子设备700包括:
至少一个处理器701;以及
与至少一个处理器通信连接的存储器702;其中,
存储器702存储有可被至少一个处理器701执行的指令,该指令被至少一个处理器701执行,以使至少一个处理器701能够执行上述实施例中的文字相似度确定方法的各个步骤,具体可以参考前述方法实施例中的相关描述。
在示例性实施例中,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述各实施例中文字相似度确定方法的各个步骤。例如,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求书指出。
应当理解的是,本公开不局限于上面已经描述并在附图中示出的精确结构,且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。