CN113051370B - 基于数学表达式评估语言的相似性测度方法 - Google Patents

基于数学表达式评估语言的相似性测度方法 Download PDF

Info

Publication number
CN113051370B
CN113051370B CN202110351939.2A CN202110351939A CN113051370B CN 113051370 B CN113051370 B CN 113051370B CN 202110351939 A CN202110351939 A CN 202110351939A CN 113051370 B CN113051370 B CN 113051370B
Authority
CN
China
Prior art keywords
attribute
node
expression
interval
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110351939.2A
Other languages
English (en)
Other versions
CN113051370A (zh
Inventor
田学东
韩苹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University
Original Assignee
Hebei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University filed Critical Hebei University
Priority to CN202110351939.2A priority Critical patent/CN113051370B/zh
Publication of CN113051370A publication Critical patent/CN113051370A/zh
Application granted granted Critical
Publication of CN113051370B publication Critical patent/CN113051370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于数学表达式评估语言的相似性测度方法。本发明构造基于数学表达式的区间值犹豫模糊语言属性集合,并找到各属性间的偏好程度关系,确定各属性的权重可能度概率值,计算出结果式与查询式的相似度,最终展示给用户所需要的数学表达式检索结果。本发明从构成数学表达式的元素出发,利用运算符、运算数以及查询关键字,形成一种专门用于表达式查询的区间值犹豫模糊语言集合,能够最大程度地表达公式中的不确定性和模糊性,不仅避免了单个确定值表示某对象所造成的片面性决断问题,而且更为贴近人们对事物的表达和描述方式,使得决策效果更为可信和灵活。本发明受河北省自然科学基金资助(项目批准号:F2019201329)。

Description

基于数学表达式评估语言的相似性测度方法
技术领域
本发明涉及信息检索技术领域,具体地说是一种基于数学表达式评估语言的相似性测度方法。
背景技术
目前,随着信息检索技术的飞速发展,人们对信息的检索方式也呈现多样化发展,如何高效获取更接近人们需求的信息成为信息检索的一个重要内容。与一般信息检索不同的是,数学表达式检索的对象不仅涉及到众多数学符号,而且也包含了数学表达式中各个符号节点的空间位置关系、运算含义等特性。描述数学表达式的方式有图片、LaTeX、MathML和OpenMath等多种格式,现有的相关方法一般局限于处理具有某些格式的数学表达式的相关内容。到目前为止还没有一个能够处理所有格式的数学表达式的系统,因此,数学表达式的检索仍然面临一定的困难和挑战。
数学表达式检索系统根据检索方式的不同可以分为:基于文本检索技术的数学表达式检索方法和特别针对数学表达式的检索方法。
前者的代表系统为DLMF(Digital Library of Mathematical Functions)Search,该系统是基于传统全文检索技术的数学表达式检索系统,通过定义一系列元数据,对表达式进行线性化处理并构建数学表达式的索引结构,以此对数学表达式进行检索,而且在数学表达式检索排序方面利用tf-idf算法改进了排序效果。除此之外,基于文本检索技术的数学表达式检索系统还有MathDex、LeActiveMath和EgoMath等系统。
此外,李永辉等构建了数学表达式的原型系统FormulaSearch,该系统也是利用了文本检索方法,采用文档的DOM树结构并设计了针对数学表达式特征的Lucene分词器的倒排索引,实现了能够同时进行数学表达式的编辑以及分析检索相融合的功能,但是,该系统还未能实现对一些较为复杂的数学表达式的检索。
基于文本检索技术的数学表达式检索方法虽然在一定程度上能够利用成熟的文本字符串进行数学表达式的检索,但是,其不能够应用于所有类型的文本,所以,会导致一些固有的局限性,因此,国内外的学者开始研究一种特别针对数学表达式检索的方法。
MathWebSearch系统是特别针对数学表达式的检索系统,该系统是无法进行文本检索的数学表达式检索系统,其采用非文本化的查询方式,将用户输入的数据转换成置换树结构形式,根据子式构建了特别针对数学表达式特征的索引结构,给用户提供了数学表达式的检索功能,利用余弦相似度实现了关于数学表达式的相关文档间的检索排序。
Kamali等提出了一种数学表达式结构相似性算法,以实现对数学表达式相关文档的检索排序。为了更好地表示数学表达式的结构和语义,Davila等做了有益的尝试,他们使用三层模型表示公式的语义和结构的信息构建并行索引,利用相似度评分给出数学表达式之间的相似程度,在一定程度上提高了数学表达式的排序效果,但是,并行索引会导致存储空间的大量增加,虽然检索精度有所提升,但会造成检索时间和空间的浪费。Wei等为了避免子式检索造成的开销,提出了一种倒排索引结构和动态的剪枝算法,进一步简化了索引,提高了检索的速度和效率。
马惠娟等从数学表达式的语义部分入手,探讨了子式检索,结合计算机的代数系统(CAS)和数学搜索技术,利用N-gram方法划分数学表达式中的子式,并将其融入索引结构当中,但是N的取值还待考究。为实现数学表达式特征的提取,在构建索引上采用了抽象树倒排索引结构模型,解决了数学表达式语义和子式检索上的问题,最终通过实验实现了数学表达式的相关文档的检索。林晓雁等提出了一种数学表达式的布局结构,利用该布局结构构建了新的索引和匹配技术,以实现基于文本和空间相似性的数学表达式的检索。
上一段中的两种方法都可以有效实现数学表达式的检索,但是,基于查询的复杂性、数学表达式的多样性以及人们需求的多样化,还有很多问题待解决。如何在众多的表达式当中找到更接近用户需求的数学表达式成为数学表达检索系统的一个重要性问题。
本发明中涉及到模糊集(Fuzzy Sets)、犹豫模糊集(Hesitation Fuzzy Sets)、区间值犹豫模糊集(Interval Valued Hesitation Fuzzy Sets)为现有理论与技术,分别可参考文献“Zadeh LA.Fuzzy sets[J].Information and Control,1965,8∶338-353.”“Torra V.Hesitant fuzzy sets[J].International Journal of Intelligent Systems,2010,25(6):529-539.”、“陈树伟,蔡丽娜.区间值犹豫模糊集[J].模糊系统与数学,2013,27(6):38-44.”。
发明内容
本发明的目的就是提供一种基于数学表达式评估语言的相似性测度方法,该方法通过计算结果式与查询式的相似度,进而实现结果式的排序。
本发明是这样实现的:一种基于数学表达式评估语言的相似性测度方法,包括如下步骤:
a、对数据库中LaTeX格式的数学表达式进行解析,将每个单独的数学符号分解为单个节点;数学符号包括运算符和运算数;
b、对数学表达式中的节点进行特征指标提取;其中,特征指标包括节点位置属性指标、节点层次属性指标和节点标志位属性指标;确定并构建节点中各属性指标的犹豫模糊语言评价值;
c、输入查询式,将数据库中包含查询式的数学表达式作为结果式;解析查询式并依据查询式中节点查找步骤b中所构建的对应节点的属性指标犹豫模糊语言评价值,根据所查找到的节点属性指标犹豫模糊语言评价值计算得出查询式的区间值犹豫模糊语言集合;
d、将结果式进行解析,提取结果式中包含查询式中节点的有效节点,依据有效节点查找步骤b中所构建的对应节点的属性指标犹豫模糊语言评价值,根据所查找到的有效节点属性指标犹豫模糊语言评价值计算得出结果式的区间值犹豫模糊语言集合;
区间值犹豫模糊语言集合包括三个属性的七个区间,三个属性分别为:查询式属性、运算符属性和运算数属性;查询式属性对应有一个查询式区间,查询式区间内仅有查询式属性隶属函数一个值;运算符属性和运算数属性均对应有三个区间,这三个区间分别对应节点位置属性隶属函数、节点层次属性隶属函数和节点标志位属性隶属函数;
e、根据查询式的区间值犹豫模糊语言集合和结果式的区间值犹豫模糊语言集合,利用区间值犹豫模糊距离测度计算各属性的距离测度
Figure BDA0003002386280000031
属性k表示查询式属性z、运算符属性o和运算数属性n;并求得查询式Q与任意结果表达式Rt之间各属性对应的相似度
Figure BDA0003002386280000032
f、根据查询式属性中节点频率与结果式中包含有该节点的频率之比,求得属性的概率权重系数pk,并归一化处理,得到pk′;
g、根据如下公式计算结果式的综合属性相似度sim;
Figure BDA0003002386280000033
其中,λ为正整数;
h、根据结果式的综合属性相似度sim对结果式进行排序。
步骤c和d中,查询式区间内的查询式属性隶属函数是查询式的节点个数与结果式中包含有查询式中节点的有效节点个数之比。
步骤c和d中,运算符属性和运算数属性分别对应的三个区间如下:
Figure BDA0003002386280000034
式中,att表示运算符o和运算数n;tar表示节点位置pos、节点层次level和节点标志位flag;
Figure BDA0003002386280000035
是节点属性隶属函数,其计算公式如下:
Figure BDA0003002386280000041
其中,对于某一节点来说,
Figure BDA0003002386280000042
表示查询式中含有该节点的个数;
Figure BDA0003002386280000043
表示结果式中含有查询式中该节点的个数;N表示数据库中总数学表达式个数;
Figure BDA0003002386280000044
表示数据库中包含有查询式中该节点的公式个数;
Figure BDA0003002386280000045
即为步骤b中所构建的对应节点的属性指标犹豫模糊语言评价值;α是调和因子;
Figure BDA0003002386280000046
Figure BDA0003002386280000047
成正比,即结果式包含该节点越多,
Figure BDA0003002386280000048
值越大;
Figure BDA0003002386280000049
Figure BDA00030023862800000410
成反比,即数据库包含该节点越少,越容易区分,但是,该节点还受到本节点属性评价的限制,为了平衡这两点,使用调和因子限制
Figure BDA00030023862800000411
步骤e中,针对查询式属性z,距离测度
Figure BDA00030023862800000412
即为
Figure BDA00030023862800000413
具体计算公式如下:
Figure BDA00030023862800000414
针对运算符属性o和运算数属性n,距离测度
Figure BDA00030023862800000415
即为
Figure BDA00030023862800000416
具体计算公式如下:
Figure BDA00030023862800000417
查询式Q与任意结果表达式Rt之间各属性对应的相似度
Figure BDA00030023862800000418
的计算公式如下:
Figure BDA00030023862800000419
步骤f中,各属性的概率权重系数的计算公式如下:
Figure BDA00030023862800000420
其中,pz为查询式属性概率权重系数,po为运算符属性概率权重系数,pn为运算数属性概率权重系数;
Figure BDA00030023862800000421
Figure BDA00030023862800000422
分别是查询式Q中运算符和运算数总数;
Figure BDA00030023862800000423
Figure BDA00030023862800000424
分别是结果式Rt中包含查询式Q中出现的运算符和运算数的个数。
本发明设计了一种多属性决策的方法,该方法利用了一种概率犹豫模糊语言集合的评估方法,既采用了犹豫模糊语言集合的评估方法又融合了属性特征的可能度概率权重,增强了处理数学表达式的有效性。
本发明融入了信息决策领域技术,利用概率犹豫模糊语言集在处理多属性决策方面的优势,构造基于数学表达式的区间值犹豫模糊语言属性集合,并从中找到各属性间的偏好程度关系,确定各属性的权重可能度概率值,并且利用相似度测量公式计算出结果表达式与查询关键字的相似度,最终展示给用户所需要的数学表达式检索结果目标。
该方法从构成数学表达式的元素出发,利用运算符、运算数以及查询关键字,形成一种专门用于表达式查询的区间值犹豫模糊语言集合,能够最大程度化地表达公式中的不确定性和模糊性,不仅避免了单个确定值表示某对象所造成的片面性决断问题,而且更为贴近人们对事物的表达和描述方式,使得决策效果更为可信和灵活。
并且,当表达式中出现多个相同符号时,能够利用区间集合的形式,将该符号的信息完整地描述出来,增强数学表达式评估信息的准确性。另一方面,引入了模糊偏好程度关系,平衡各属性在评估中所占的效果影响,提升决策的有效性,从而改善表达式检索系统的性能。
附图说明
图1是本发明的方法流程图。
图2是本发明中数学表达式的区间值犹豫模糊语言属性集合的形成方法流程图。
图3是本发明中数学表达式的相似度的计算方法流程图。
具体实施方式
本发明由河北省自然科学基金(项目批准号:F2019201329)研究完成。面对数学表达式中包含的大量信息,对科研工作者来说,找到令人满意的数学表达式是非常必要的。但是,仅仅基于数学表达式自身的特性,往往无法全面详细地提取并描述其中的特征,导致数学表达式检索过程中出现很多相似的数学表达式,如何区分表达式的相似程度是本发明所研究的重要内容。
为了实现以数学表达式查询和排序为目的的检索系统,本发明首先做以下几点说明:
1、本发明主要是针对结果式进行查询和排序。
在进行以关键字检索的过程中,仅将包含关键字的数学表达式作为结果表达式,所得结果表达式可简称为结果式。在本发明中主要对关键字进行检索,并对检索后所得结果式进行排序。
为了区分结果式之间的相似程度,融入了多属性决策领域中的概率区间值犹豫模糊语言集合,能够尽可能贴合人们描述数学表达式特征的语言,对数学表达式进行描述并构建索引,实现对结果式的相似性测度。
2、本发明以最大程度获取数学表达式的特征信息为目的。
为了完整描述数学表达式,本发明采用了一种犹豫模糊语言决策的方法,该方法可以将数学表达式的信息标准化成专门针对描述数学表达式特征的评估性语言,最大化保留了数学表达式中的原始决策信息,并将该决策语言转化成数学表达式属性的区间值犹豫模糊语言集合。
另一方面,可以将数学表达式中不易描述的离散化的属性数据特征进行全面详细的概括,提高了数学表达式属性特征信息的提取能力,便于形成数学表达式属性的区间值犹豫模糊语言集合,为数学表达式的排序提供了保证。
3、本发明融入了数学表达式属性信息的偏好程度,平衡了主观决策造成查询结果偏离的情况。
考虑到不同的数学表达式属性具有不同的偏好程度,对数学表达式的属性构建了不同的可能度概率权重,可以使得检索的排序结果更为合理有效。
具体地,本发明提供了一种基于数学表达式评估语言的相似性测度方法,该方法一方面采用区间值犹豫模糊语言集构建索引,以解决数学表达式属性描述不充分的问题;另一方面确定了属性之间的权重,优化了排序效果,从而提高了数学表达式的检索性能。
本发明所提供的基于数学表达式评估语言的相似性测度方法,包括如下步骤:
a、对数据库中LaTeX格式的数学表达式进行解析,将其分解为数学表达式结构树的形式,将每个单独的数学符号(包括运算符和运算数)分解为单个节点。
b、对数学表达式中的单个节点进行特征指标提取,该特征指标提取主要从节点的语义和空间结构两个方面分析,其中,特征指标包括:节点位置属性指标、节点层次属性指标和节点标志位属性指标;通过大量的数学公式分析、统计,可以确定并构建节点中各属性指标的犹豫模糊语言评价值。
数学表达式节点的犹豫模糊语言属性评价术语集合包括三个评价术语集合,分别为:节点位置属性评价术语集合spos、节点层次属性评价术语集合slevel和节点标志位属性评价术语集合sflag
将数据库中LaTeX格式的数学表达式进行解析,并分解为数学表达式结构树的形式,把每个单独的数学符号分解为单个节点,通过对各节点进行统计和分析,得到如表1-3的节点属性评价语言值集合。
表1数学表达式节点位置属性评价术语集
pos 1 2 3 4 5 6 7 8 else
s<sub>pos</sub> 1 0.52 0.27 0.14 0.07 0.03 0.02 0.009 0
表1中,pos代表了节点所在表达式中的位置,从LaTeX格式的数学表达式(简称LaTeX式)的左侧开始,第一个节点的位置是1,第二个节点的位置是2,以此类推。节点的位置属性是评价每个节点对于整个数学表达式中的重要程度指标,若节点越靠前,那么该节点对数学表达式来说越重要,因此与其相对应的位置属性评价语言值就越大,当位置为8时,其所对应的位置属性评价语言值为0.009,该值已经很小了,故位置大于8的节点所对应的位置属性评价语言值均记为0。
表2数学表达式节点层次属性评价术语集
level 0 1 2 3 else
s<sub>level</sub> 0.8 0.18 0.015 0.005 0
表2中,节点的层次level即为节点在表达式中所占的层次,将LaTeX式中的第一个节点记为第0层(此处从第0层开始,是由于在计算机程序中通常以0作为起始点),第0层也就是表达式中的主基线层;依次对LaTeX式中的各个节点所在层次进行判断,若LaTeX式中的节点与第一个节点处于同一基准线(或称同一水平线),则将其所在层次记为第0层;若LaTeX式中的节点与第一个节点处于不同的基准线上,则要判断引起该节点水平线位置发生变化的节点是哪个,该节点所在层次是引起其水平线位置发生变化的节点所在层次的下一层。处于同一基准线上的节点,均处于同一层次。层次不同,节点对于整个数学表达式的重要程度不同,若层次节点所对应的层次属性评价语言值越高,那么该节点对数学表达式越重要。节点层次大于3的,所对应的层次属性评价语言值记为0。
表3数学表达式节点标志位属性评价术语集
flag 0 1 2 4 5 6 7 8 else
s<sub>flag</sub> 1 0.7 0.55 0.3 0.7 0.75 0.25 0.25 0
节点的标志位描述的是节点的空间位置关系,具体是:当前节点与其上一层节点(其上一层节点指引起该当前节点层次发生变化的节点)之间的相对空间位置关系,空间位置关系不同,节点对于整个数学表达式的重要程度不同,若节点所对应标志位的属性评价术语值越高,那么该节点对数学表达式越重要。表3中,flag中0、1、2、4、5、6、7、8表示当前节点相对其上一层节点之间的相对空间位置关系依次为:右、上、右上、右下、下、包含、左上以及左下。标志位flag为0的,即为主基线层(第0层)上的节点,这里用“右”的相对位置表示,此处仅为大概示意,无需过分解读。因为严格来说,若当前节点位于其上一层节点的右方,表示两者处于同一层次,这又与“当前节点与引起其层次发生变化的上一层节点具有不同层次”相矛盾,故此只需知晓“0”表示第0层的节点标志位。
本发明中关于节点层次以及节点标志位的描述为现有技术,故不再过多赘述,具体可参考中国发明专利ZL2016102933303。
c、输入查询式并将其作为查询所用关键字,将数据库中包含关键字的数学表达式作为结果式;解析查询式并查找步骤b中预先建立的节点属性指标犹豫模糊语言评价值,找到关键字属性指标评价语言值;根据关键字属性评价语言值计算得出查询式的区间值犹豫模糊语言集合。对于查询式的区间值犹豫模糊语言集合的具体计算方法,可以参考步骤d中对结果式的区间值犹豫模糊语言集合的计算方法。
d、将结果式进行解析,并查找步骤b中预先建立的节点属性指标犹豫模糊语言评价值,找到结果式中包含关键字中节点(将结果式中包含关键字中节点的节点称为有效节点)的属性指标评价语言值;根据所查到的节点属性评价语言值计算得出结果式的区间值犹豫模糊语言集合。
当数学表达式中存在多个不同属性值的相同符号时,单一的取值无法准确描述属性,因此使用区间值来概括属性,通过从预先建立的数学表达式节点属性的犹豫模糊语言评价值中查找,将查到的“最大”和“最小”的评价语言值分别作为属性指标的最大值和最小值,从而形成数学表达式的区间值犹豫模糊语言集合。此段中的“数学表达式”同样适用“查询式”和“结果式”,下同。
数学表达式的区间值犹豫模糊语言集合具体包括三个属性,分别是:查询式属性z、运算符属性o和运算数属性n,所以,数学表达式A的区间值犹豫模糊语言集合可以表示为FA={s′z,s′o,s′n}。
查询式属性z的区间值属性隶属函数为s′z,其中,sz为查询式属性隶属函数。
Figure BDA0003002386280000081
式(1)中,lenghtQ为查询式Q的节点个数(或称节点长度),
Figure BDA0003002386280000082
为结果式Rt的有效节点个数(或称有效节点长度,也即是结果式Rt中所包含的查询式Q中节点的个数),查询式属性z的区间值属性隶属函数s′z其实仅包含一个数值,这里为了使其与运算符属性o和运算数属性n的区间值犹豫模糊语言集合相对应,故以区间值的形式表示。对于查询式来说,其所对应的sz即为1。
运算符和运算数属性融合了节点在数据库中的频度信息和节点包含的属性特征信息,构成了节点的综合属性函数,该函数采用改进的IT-IDF-ICD算法;因此,对于运算符属性o和运算数属性n来说,两者所对应的区间值属性隶属函数可以表示为s′att(att=o,n),具体公式如下:
Figure BDA0003002386280000091
其中,
Figure BDA0003002386280000092
是节点属性隶属函数。对于某一节点来说,查询式Q中该节点个数为
Figure BDA0003002386280000093
结果式Rt中该节点个数为
Figure BDA0003002386280000094
N为数据库中总公式个数,
Figure BDA0003002386280000095
表示数据库中包含查询式Q中该节点的公式个数。
Figure BDA0003002386280000096
是节点属性指标犹豫模糊语言评价值。α是调和因子,当α=2时,节点频度和属性权重分布最优。
e、根据得到的查询式Q以及结果式Rt的区间值犹豫模糊语言集合,利用区间值犹豫模糊距离测度计算各属性的距离测度
Figure BDA0003002386280000097
属性k表示查询式属性z、运算符属性o和运算数属性n;并求得查询式Q与任意结果表达式Rt之间各属性间的相似度
Figure BDA0003002386280000098
针对查询式属性z,距离测度
Figure BDA0003002386280000099
即为
Figure BDA00030023862800000910
具体计算公式如下:
Figure BDA00030023862800000911
针对运算符属性o和运算数属性n,距离测度
Figure BDA00030023862800000912
即为
Figure BDA00030023862800000913
具体计算公式如下:
Figure BDA00030023862800000914
公式(3)和(4)中,
Figure BDA0003002386280000101
是查询式Q和某结果式Rt在查询式属性z下的区间值犹豫模糊语言集合距离测度值;
Figure BDA0003002386280000102
是查询式Q和某结果式Rt在属性att(att=o,n)下的区间值犹豫模糊语言集合距离测度值;其中,λ>0,λ是控制参数,可以为1,2,3,……。当λ=1时,退化为区间值犹豫标准汉明距离测度;当λ=2时,退化为区间犹豫标准欧氏距离测度。
s′Q(atttar)指查询式Q中属性att(att=o,n)下指标tar(tar=level,flag,pos)所对应的区间值属性隶属函数。右上标的“+”表示区间内的最大值,右上标的“-”表示区间内的最小值。其他的类似。
各属性的相似度为
Figure BDA0003002386280000103
式(5)中,k对应表示查询式属性z、运算符属性o、运算数属性n。
f、对不同属性分配不同的概率权重值;根据查询式Q属性中符号频率与结果式中包含有该符号频率之比,求得属性的概率pk(k=z,o,n),属性权重系数不同,重要程度不同。
节点属性概率权重系数包括三个方面:查询式属性概率权重系数pz、运算符属性概率权重系数po和运算数属性概率权重系数pn,其具体公式分别如下
Figure BDA0003002386280000104
其中,
Figure BDA0003002386280000105
分别是查询式Q中运算符和运算数总数;
Figure BDA0003002386280000106
是结果式Rt中包含查询式Q中出现的运算符和运算数的个数;概率权重的设置可以避免由于认知的差异导致决策之间的冲突性和片面性,提升了处理多属性决策的评估效果。概率权重系数求出后,进行归一化处理。
g、最后根据公式(7)计算结果表达式的相似度sim,得到数学表达式的排序结果序列;
Figure BDA0003002386280000107
pk′是归一化处理后的概率权重系数。
如图1所示,本发明中的检索系统分为三个模块:数据分析模块、索引建立模块和检索排序模块。
a、数据分析模块。
该模块的主要目的是分析数据库中数学表达式的特征,从分析归纳这些特征出发,形成一种专门用于描述数学表达式属性特征的评断性的犹豫模糊语言评价值集合。该集合对数学表达式符号节点属性分析,并归纳节点属性特征作为数学表达式的属性评价语言集合,其表现形式类似于我们日常的评判性语言,诸如我们对某事物或事情的评判结果可能为“好”、“良好”、“一般”、“差”等表示偏好程度的语言。而在数学表达式的相关评价中,还没有一种表示数学表达式偏好程度的一种标准型评判语言。因此,本模块中利用偏好程度语言系统地表示数学表达式的综合评价程度,赋予数学表达式的“好”、“坏”等程度,从而找到令人满意的检索结果。
为实现本模块的性能,设置了三个节点属性评判标准,分别为:节点位置属性指标、节点层次属性指标和节点标志位属性指标,根据这三个数学表达式节点属性的评判标准来构造属于数学表达式独有的犹豫模糊语言属性评价集合。
为了对数学表达式节点的位置属性、节点层次属性和节点标志位属性进行详细地描述,下面给出了一个实施示例,例如数学表达式
Figure BDA0003002386280000111
LaTeX格式表示为:d=\frac{|c_{2}-c_{1}|}{\sqrt{a^{2}+b^{2}}}
将线性结构的LaTeX格式的数学表达式(8)分解为单个节点形式,并通过查找数学表达式节点属性评价术语集,形成如表4所示的节点属性评价语言集合。
表4数学表达式(8)的节点属性评价语言集合
Figure BDA0003002386280000112
在表4中关于公式(8)节点位置是根据LaTeX格式的节点顺序依次递增,
Figure BDA0003002386280000113
代表了第一个位置节点的位置属性评价语言值,通过表1可得到节点位置为“1”的位置属性评价语言值,即通过表1可查得
Figure BDA0003002386280000121
的值。
而公式(8)的节点层次判断标准是:节点所在层次是引起其水平线位置发生变化的节点所在层次的下一层。将LaTeX格式的数学符号“d”、“=”、“\frac”节点作为主基线层次,即为第“0”层,用
Figure BDA0003002386280000122
表示第“0”层中节点的层次属性评价语言值。
公式(8)中各个节点的层次信息可以描述为:
第1层的节点依次为“|(绝对值符号)”、“c”、“-”、“c”、“|(绝对值符号)”、“\sqrt”;其中,第一个“|”和第五个“|”节点的层次相同,因此其所对应的层次属性评价语言值相同,但是在数学表达式中两者具有不同的位置属性评价语言值,因此两个节点不能合并为同一个节点来表示。
第2层的节点依次为:“_”、“2(下标)”、“_”、“1”、“a”、“+”、“b”。
第3层的节点依次为:“^”、“2(上标)”、“^”、“2(上标)”。
公式中的节点标志位表示的是当前节点与其上一层节点(其上一层节点指引起该当前节点层次发生变化的节点)之间的相对空间位置关系,标志位0、1、2、4、5、6、7、8表示当前节点相对其上一层节点之间的相对空间位置关系依次为:右、上、右上、右下、下、包含、左上以及左下,
Figure BDA0003002386280000123
表示的是节点标志位为“0”时的标志位属性评价语言值,且标志位为“0”的节点为主基线层上的节点。
公式(8)中标志位为“0”的节点为“d”、“=”、“\frac”;标志位为“1”的节点为“|”、“c”、“-”、“c”、“|”;标志位为“2”的节点为“^”、“2(上标)”、“^”、“2(上标)”;标志位为“4”的节点为“_”、“2(下标)”、“_”、“1”;标志位为“5”的节点为“\sqrt”;标志位为“6”的节点为“a”、“+”、“b”。
在公式(8)中可能会存在看似相同的节点,但节点的位置、层次、标志位所对应的属性评价语言值却不完全相同,此时应将各节点分别来看。
b、索引建立模块。
索引建立模块是检索系统的核心,该模块决定了检索系统性能的好坏程度,构建索引的过程就是构造查询式与结果表达式中属性相互关联的过程。查询式与结果式的相关性匹配程度是数学表达式检索系统构建索引结构的主旋律,为了尽可能多的增加查询式和结果式的匹配度,通过对该属性集合特征的提取,能够最大化程度地表达对数学表达式中的属性特征的描述。最终,实现满足用户预期的检索信息的需求,方便后续的排序过程。
在构建索引的过程中,首先从构成数学表达式的元素分析,构成数学表达式的元素通常是由运算数和运算符两种元素构成。因此,在本发明当中提取了运算符和运算数的属性;另一方面,为了限制并提升查询式与结果式的贴合程度,增加了查询式属性,使查询式属性与运算符和运算数属性一起作为概率犹豫模糊语言集合的三元组。该集合的形成过程即为建立索引的过程,从数学表达式属性的三元组出发,构建数学表达式的索引结构。
如图2所示,数学表达式区间值犹豫模糊属性语言集合的具体形成步骤如下:
①输入数学表达式,将其解析为LaTeX格式,同时得到数学表达式的各个节点;表达式有效节点长度初始化为0。
②从数学表达式的第一个节点开始依序进行判断。
③判断该节点是否是关键字中所包含的节点;若是则执行步骤④,若否则执行步骤⑩。
④使表达式有效节点长度增加1。
⑤查找预先得到的表达式的节点属性评价语言集合(在数据分析模块中已经预先得到),通过计算得到节点属性隶属函数。
节点属性隶属函数的计算公式如下:
Figure BDA0003002386280000131
其中,
Figure BDA0003002386280000132
是节点属性隶属函数。对于某一节点来说,查询式Q中该节点个数为
Figure BDA0003002386280000133
结果式Rt中该节点个数为
Figure BDA0003002386280000134
N为数据库中总公式个数,
Figure BDA0003002386280000135
表示数据库中包含查询式Q中该节点的公式个数。
Figure BDA0003002386280000136
是节点属性指标犹豫模糊语言评价值。α是调和因子,当α=2时,节点频度和属性权重分布最优。
⑥判断该节点是否是运算符,若是则执行步骤⑦,若否则执行步骤⑧。
⑦通过判断、更新得出运算符节点属性区间;运算符节点属性包括节点位置属性、节点层次属性和节点标志位属性,每个属性均对应得到一个区间。
具体地,可以初始化区间的最大值和最小值均为0,或者将第一个运算符节点所对应的属性隶属函数分别赋值为对应区间的最大值和最小值(既是最大值,也是最小值),之后的每一个运算符节点所对应的属性隶属函数均与前面所得对应区间的最大值和最小值相比较,若后面运算符节点的属性隶属函数大于前面对应区间的最大值,则将该对应区间最大值更新(即重新赋值)为该后面运算符节点的属性隶属函数,若否则对应区间的最大值不变;若后面运算符节点的属性隶属函数小于前面对应区间的最小值,则将对应区间最小值更新为该后面运算符节点的属性隶属函数,若否则对应区间的最小值不变。每一个运算符节点,均可依据步骤⑤中公式计算得到三个对应的属性(位置、层次、标志位)隶属函数,因此在判断时,应分别就三个属性隶属函数逐一进行判断,逐一判断是否要更新对应区间的最大值和最小值。
⑧通过判断、更新得出运算数节点属性区间;运算数节点属性同样包括节点位置属性、节点层次属性和节点标志位属性,每个属性均对应得到一个区间。
具体地,可以初始化区间的最大值和最小值均为0,或者将第一个运算数节点所对应的属性隶属函数分别赋值为对应区间的最大值和最小值(既是最大值,也是最小值);之后的每一个运算数节点所对应的属性隶属函数均与前面所得对应区间的最大值和最小值相比较,若后面运算数节点的属性隶属函数大于前面对应区间的最大值,则将该对应区间最大值更新为该后面运算数节点的属性隶属函数,若否则对应区间的最大值不变;若后面运算数节点的属性隶属函数小于前面对应区间的最小值,则将对应区间最小值更新为该后面运算数节点的属性隶属函数,若否则对应区间的最小值不变。同样,每一个运算数节点,也可依据步骤⑤中公式计算得到三个对应的属性(位置、层次、标志位)隶属函数,在判断时,应分别就三个属性隶属函数逐一进行判断,逐一判断是否要更新对应区间的最大值和最小值。
⑨判断该节点是否为最后一个节点,若是,则执行步骤
Figure BDA0003002386280000141
否则,则执行步骤⑩。
⑩依序判断下一个节点,然后执行步骤③。
Figure BDA0003002386280000142
得到表达式有效节点长度,并计算得到表达式的查询式属性隶属函数。查询式属性隶属函数的计算方法是:用查询关键字公式(也即查询式)中节点长度除以表达式有效节点长度,所得商即为表达式的查询式属性隶属函数。对于查询式的查询式属性隶属函数是1。
Figure BDA0003002386280000143
最终通过整理得到数学表达式的区间值犹豫模糊语言属性集合。数学表达式的区间值犹豫模糊语言属性集合包括了三个属性的七个区间,三个属性分别为:查询式属性、运算符属性和运算数属性。查询式属性中只有一个查询式区间,查询式区间所包含的仅有查询式属性隶属函数一个值。运算符属性和运算数属性均具有三个区间,具体见上面步骤⑦和步骤⑧所介绍。
为了能够清楚表示数学表达式的区间值犹豫模糊语言属性集合,下面给出了一个实施例,查询关键字公式如下:
c2-c1 (9)
公式(9)的LaTeX格式为c_{2}-c_{1}。
公式(8)为包含式(9)的一个结果式。
公式(8)的区间值犹豫模糊语言属性集合形成的步骤主要可以分为两个层次,首先,解析并分析查询关键字属性得到关于关键字的属性集合;然后,根据关键字中包含的节点,查找结果表达式中所存在的节点属性关系,最终得到结果表达式属性集合,其具体步骤如下所示:
a、输入LaTeX格式的结果表达式(8),解析为单个节点,并判断节点是否是关键字中包含的节点,如果是则保留该节点的属性值,如果不是即为干扰节点,将其舍弃,继续判断下一个节点,直至所有的节点都判断完毕为止。
b、在保留节点的属性值的过程中,判断节点是否是运算数,如果是,则将首次遇到运算数的节点属性(pos、flag、level)值(即属性隶属函数)赋值给运算数对应属性区间值的最大值、最小值,如果下一个节点还是运算数,判断目前的属性值和记录的对应属性区间的最大值、最小值的大小关系,并更新运算数属性值的区间范围,一直判断到表达式的最后一个节点为止,即可形成数学表达式的运算数属性集合。
c、而数学表达式的运算符属性也是和运算数属性类似,通过整理得到数学表达式的属性,最终得到表5中的区间值犹豫模糊语言属性集合。
表5查询关键字和公式(8)的区间值犹豫模糊语言属性集合
Figure BDA0003002386280000151
在表格5当中,s′z代表了查询式属性区间值集合,该集合中仅有一个表达式长度指标,规定该指标区间的左右端点相等;s′o代表了运算符属性区间值犹豫模糊语言值集合,包含了运算符pos、flag和level指标的区间值犹豫模糊语言值分别是
Figure BDA0003002386280000152
s′n代表了运算数属性区间值犹豫模糊语言值集合,包含运算数pos、flag和level指标的区间值犹豫模糊语言值分别是
Figure BDA0003002386280000153
传统提取属性是将单一的属性值作为属性指标的取值,其单一的属性值不具有代表性,但是,表5中对于公式(8)属性指标的提取,利用区间值可以解决当具有不同属性值时相同的符号,可以保证在不丢失数学表达式信息的情况下,完整描述数学表达式的特征,提高了属性描述的准确性。比如,在公式(8)中有3个“2”的节点,节点符号相同,但是在LaTeX格式的公式中,第1和第2、第3个节点表示的标志位置关系不同,第1个“2”代表了下标,第2和第3个“2”为上标,所以,节点属性指标语言值是不相同的,导致表达式的运算数属性不一样。以结果表达式(8)为例,给出了
Figure BDA0003002386280000161
的形成步骤如下:
根据得到的公式(8)节点属性评价语言集合,从中查找包含关键字节点中的运算数,计算出公式运算数的位置节点属性隶属函数,判断公式(8)中“c”、“1”和“2”节点的位置属性隶属函数,将最大值作为区间的右端点,最小值作为区间的左端点,即可得到公式(8)的运算数属性位置指标区间范围[0.0078,0.0391]。其他属性指标的区间范围都类似,就不详细举例了。
c、检索排序模块
为了提高检索结果的质量,在构建索引过程中已经尽可能多的将数学表达式中的有效信息描述出来,但是,根据以查询式为关键字的检索技术中,查询式和结果式之间的相关性依然是检索系统研究的内容。所以,如何将数学表达式之间的相关性表示出来也是非常重要的,因此,本发明中提供了一种新的排序方式,利用一种基于概率犹豫模糊语言集的数学表达式相似度评估方法,可以有效针对数学表达式进行检索排序。
如图3所示,本模块中给出了检索排序的具体实施过程,其步骤如下:
①输入数学表达式,并将其解析为LaTeX格式,将数学表达式分解为单个符号的节点形式;表达式运算符有效长度和运算数有效长度均初始化为0。
②从数学表达式的第一个节点开始依序进行判断。
③判断该节点是否是关键字中所包含的节点;若是则执行步骤④,若否则执行步骤⑧。
④判断该节点是否是运算符;若是则执行步骤⑤,否则执行步骤⑥。
⑤使运算符有效长度增加1。
⑥使运算数有效长度增加1。
⑦判断该节点是否为最后一个节点,若是,则执行步骤⑨,否则,则执行步骤⑧。
⑧依序判断下一个节点,然后执行步骤③。
⑨计算数学表达式中查询式属性、运算符属性和运算数属性的概率权重系数,并进行归一化处理;概率权重系数的具体计算公式如下:
Figure BDA0003002386280000162
其中,
Figure BDA0003002386280000171
分别是查询式Q中运算符和运算数总数,
Figure BDA0003002386280000172
可以预先得出;
Figure BDA0003002386280000173
是结果式Rt中包含查询式Q中出现的运算符和运算数的个数,
Figure BDA0003002386280000174
即是从步骤⑤中得到的运算符有效长度,
Figure BDA0003002386280000175
即是从步骤⑥中得到的运算数有效长度。
查询式属性、运算符属性和运算数属性的概率权重系数归一化后由pz′、po′和pn′表示。
⑩根据各个属性的区间值犹豫模糊语言集合(见上面索引建立模块中的介绍),计算每个属性的相似度。
各属性的相似度计算公式为:
Figure BDA0003002386280000176
对于查询式属性z来说,
Figure BDA0003002386280000177
对于运算符属性o和运算数属性n来说,
Figure BDA0003002386280000178
Figure BDA0003002386280000179
Figure BDA00030023862800001710
Figure BDA00030023862800001711
通过各个属性的相似度和概率权重系数计算数学表达式的综合属性相似度,计算公式如下:
Figure BDA00030023862800001712
Figure BDA00030023862800001713
根据得到的数学表达式的综合属性相似度,得到结果表达式的结果排序集合。
为了更加清楚地展示本模块的工作内容,本模块给出了当查询公式为公式(10)时的实施例,并给出了表格6中部分检索结果表达式的相似度以及概率权重系数。
x2+y2 (10)
表6检索式为公式(10)的部分结果表达式的相似度以及概率权重系数
Figure BDA0003002386280000181
Figure BDA0003002386280000191
在表6中,pz是查询式属性概率权重系数、po是运算符属性概率权重系数、pn是运算数属性概率权重系数;simz是查询式属性相似度、simo是运算符属性相似度、simn是运算数属性相似度。
结合表6,下面给出了以公式(10)作为查询式的具体检索、排序过程:
a、首先,解析公式(10),分解为单个节点,并判断结果表达式中是否有公式(10)中的节点,若有则记录该符号节点的频率个数,计算各个属性的概率权重系数,并对三种属性概率权重系数进行归一化处理,以控制sim的取值范围在[0,1]内。
b、根据输入的检索关键字,从索引建立模块中得到各个结果表达式区间值犹豫模糊语言集合,计算结果表达式中各个属性与检索式之间的相似度距离。
从索引建立模块中所得到的各个结果表达式,其实即是数据库中包含有检索关键字的所有包含式,也就是说,所有包含式即是结果表达式。
c、计算在不同概率权重属性下的结果表达式的综合相似度,根据相似度的大小关系,得到最终的排序结果序列。
其中,当选择不同的λ时,结果表达式相似值不同,如表7所示是检索公式(10)时,部分结果表达式相似度。
表7检索式为公式(10)的部分结果表达式相似度
Figure BDA0003002386280000192
Figure BDA0003002386280000201
从表中可以得出当λ不同时,结果表达式具有不同的相似度。但是,其相似度的相对大小没有太大的改变,因此,当选择不同的距离测度公式对检索结果表达式的影响不大,因此,该相似度的测量方法对数学表达式检索排序方面适用性程度比较好。
本发明中融入了犹豫模糊偏好关系和区间值犹豫模糊语言集合的决策评估方法,可以充分表达犹豫模糊偏好关系,并且各个属性能够利用区间值犹豫模糊语言集合的形式将数学表达式中的特征充分描述出来,从而提升数学表达式查询系统的性能。

Claims (1)

1.一种基于数学表达式评估语言的相似性测度方法,其特征是,包括如下步骤:
a、对数据库中LaTeX格式的数学表达式进行解析,将每个单独的数学符号分解为单个节点;数学符号包括运算符和运算数;
b、对数学表达式中的节点进行特征指标提取;其中,特征指标包括节点位置属性指标、节点层次属性指标和节点标志位属性指标;确定并构建节点中各属性指标的犹豫模糊语言评价值;
c、输入查询式,将数据库中包含查询式的数学表达式作为结果式;解析查询式并依据查询式中节点查找步骤b中所构建的对应节点的属性指标犹豫模糊语言评价值,根据所查找到的节点属性指标犹豫模糊语言评价值计算得出查询式的区间值犹豫模糊语言集合;
d、将结果式进行解析,提取结果式中包含查询式中节点的有效节点,依据有效节点查找步骤b中所构建的对应节点的属性指标犹豫模糊语言评价值,根据所查找到的有效节点属性指标犹豫模糊语言评价值计算得出结果式的区间值犹豫模糊语言集合;
区间值犹豫模糊语言集合包括三个属性的七个区间,三个属性分别为:查询式属性、运算符属性和运算数属性;查询式属性对应有一个查询式区间,查询式区间内仅有查询式属性隶属函数一个值;运算符属性和运算数属性均对应有三个区间,这三个区间分别对应节点位置属性隶属函数、节点层次属性隶属函数和节点标志位属性隶属函数;
e、根据查询式的区间值犹豫模糊语言集合和结果式的区间值犹豫模糊语言集合,利用区间值犹豫模糊距离测度计算各属性的距离测度
Figure FDA0003809861960000011
属性k表示查询式属性z、运算符属性o和运算数属性n;并求得查询式Q与任意结果式Rt之间各属性对应的相似度
Figure FDA0003809861960000012
f、根据查询式属性中节点频率与结果式中包含有该节点的频率之比,求得属性的概率权重系数pk,并归一化处理,得到pk′;
g、根据如下公式计算结果式的综合属性相似度sim;
Figure FDA0003809861960000013
其中,λ为正整数;
h、根据结果式的综合属性相似度sim对结果式进行排序;
步骤c和d中,查询式区间内的查询式属性隶属函数是查询式的节点个数与结果式中包含有查询式中节点的有效节点个数之比;
步骤c和d中,运算符属性和运算数属性分别对应的三个区间如下:
Figure FDA0003809861960000021
式中,att表示运算符o和运算数n;tar表示节点位置pos、节点层次level和节点标志位flag;
Figure FDA0003809861960000022
是节点属性隶属函数,其计算公式如下:
Figure FDA0003809861960000023
其中,对于某一节点来说,
Figure FDA0003809861960000024
表示查询式中含有该节点的个数;
Figure FDA0003809861960000025
表示结果式中含有查询式中该节点的个数;N表示数据库中总数学表达式个数;
Figure FDA0003809861960000026
表示数据库中包含有查询式中该节点的公式个数;
Figure FDA0003809861960000027
即为步骤b中所构建的对应节点的属性指标犹豫模糊语言评价值;α是调和因子;
步骤e中,针对查询式属性z,距离测度
Figure FDA0003809861960000028
即为
Figure FDA0003809861960000029
具体计算公式如下:
Figure FDA00038098619600000210
其中,s'Q(z)指查询式Q中查询式属性z对应的区间,
Figure FDA00038098619600000211
指结果式Rt中查询式属性z对应的区间;右上标的“+”表示区间内的最大值,右上标的“-”表示区间内的最小值;
针对运算符属性o和运算数属性n,距离测度
Figure FDA00038098619600000212
即为
Figure FDA00038098619600000213
具体计算公式如下:
Figure FDA00038098619600000214
其中,s'Q(atttar)指查询式Q中属性att下指标tar所对应的区间;
Figure FDA00038098619600000215
指结果式Rt中属性att下指标tar所对应的区间;其中,属性att为运算符o或运算数n,下指标tar为节点位置pos、节点层次level或节点标志位flag;右上标的“+”表示区间内的最大值,右上标的“-”表示区间内的最小值;
步骤e中,查询式Q与任意结果式Rt之间各属性对应的相似度
Figure FDA00038098619600000216
的计算公式如下:
Figure FDA0003809861960000031
步骤f中,各属性的概率权重系数的计算公式如下:
Figure FDA0003809861960000032
其中,pz为查询式属性概率权重系数,po为运算符属性概率权重系数,pn为运算数属性概率权重系数;
Figure FDA0003809861960000033
Figure FDA0003809861960000034
分别是查询式Q中运算符和运算数总数;
Figure FDA0003809861960000035
Figure FDA0003809861960000036
分别是结果式Rt中包含查询式Q中出现的运算符和运算数的个数;
步骤c中计算得出查询式的区间值犹豫模糊语言集合和步骤d中计算得出结果式的区间值犹豫模糊语言集合,两者均依据如下方式进行计算:
数学表达式区间值犹豫模糊语言集合的具体形成步骤如下:
①输入数学表达式,将其解析为LaTeX格式,同时得到数学表达式的各个节点;表达式有效节点长度初始化为0;
②从数学表达式的第一个节点开始依序进行判断;
③判断该节点是否是关键字中所包含的节点;若是则执行步骤④,若否则执行步骤⑩;
④使表达式有效节点长度增加1;
⑤查找预先得到的表达式的节点属性指标犹豫模糊语言评价值,通过计算得到节点属性隶属函数;
⑥判断该节点是否是运算符,若是则执行步骤⑦,若否则执行步骤⑧;
⑦通过判断、更新得出运算符节点属性区间;运算符节点属性包括节点位置属性、节点层次属性和节点标志位属性,每个属性均对应得到一个区间;
具体地,初始化区间的最大值和最小值均为0,或者将第一个运算符节点所对应的属性隶属函数分别赋值为对应区间的最大值和最小值,之后的每一个运算符节点所对应的属性隶属函数均与前面所得对应区间的最大值和最小值相比较,若后面运算符节点的属性隶属函数大于前面对应区间的最大值,则将该对应区间最大值更新为该后面运算符节点的属性隶属函数,若否则对应区间的最大值不变;若后面运算符节点的属性隶属函数小于前面对应区间的最小值,则将对应区间最小值更新为该后面运算符节点的属性隶属函数,若否则对应区间的最小值不变;每一个运算符节点,均可依据节点属性隶属函数公式计算得到三个对应的属性隶属函数,因此在判断时,应分别就三个属性隶属函数逐一进行判断,逐一判断是否要更新对应区间的最大值和最小值;
⑧通过判断、更新得出运算数节点属性区间;运算数节点属性同样包括节点位置属性、节点层次属性和节点标志位属性,每个属性均对应得到一个区间;
具体地,初始化区间的最大值和最小值均为0,或者将第一个运算数节点所对应的属性隶属函数分别赋值为对应区间的最大值和最小值;之后的每一个运算数节点所对应的属性隶属函数均与前面所得对应区间的最大值和最小值相比较,若后面运算数节点的属性隶属函数大于前面对应区间的最大值,则将该对应区间最大值更新为该后面运算数节点的属性隶属函数,若否则对应区间的最大值不变;若后面运算数节点的属性隶属函数小于前面对应区间的最小值,则将对应区间最小值更新为该后面运算数节点的属性隶属函数,若否则对应区间的最小值不变;同样,每一个运算数节点,也可依据节点属性隶属函数公式计算得到三个对应的属性隶属函数,在判断时,应分别就三个属性隶属函数逐一进行判断,逐一判断是否要更新对应区间的最大值和最小值;
⑨判断该节点是否为最后一个节点,若是,则执行步骤
Figure FDA0003809861960000041
否则,则执行步骤⑩;
⑩依序判断下一个节点,然后执行步骤③;
Figure FDA0003809861960000042
得到表达式有效节点长度,并计算得到表达式的查询式属性隶属函数;查询式属性隶属函数的计算方法是:用查询式中节点长度除以表达式有效节点长度,所得商即为表达式的查询式属性隶属函数;对于查询式的查询式属性隶属函数是1;
Figure FDA0003809861960000043
最终通过整理得到数学表达式的区间值犹豫模糊语言集合。
CN202110351939.2A 2021-03-31 2021-03-31 基于数学表达式评估语言的相似性测度方法 Active CN113051370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110351939.2A CN113051370B (zh) 2021-03-31 2021-03-31 基于数学表达式评估语言的相似性测度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110351939.2A CN113051370B (zh) 2021-03-31 2021-03-31 基于数学表达式评估语言的相似性测度方法

Publications (2)

Publication Number Publication Date
CN113051370A CN113051370A (zh) 2021-06-29
CN113051370B true CN113051370B (zh) 2022-10-04

Family

ID=76516805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110351939.2A Active CN113051370B (zh) 2021-03-31 2021-03-31 基于数学表达式评估语言的相似性测度方法

Country Status (1)

Country Link
CN (1) CN113051370B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408294B (zh) * 2021-05-31 2024-06-14 北京泰豪智能工程有限公司 语义工程平台的构建方法及语义工程平台
CN115576535B (zh) * 2022-11-10 2023-03-31 商飞软件有限公司 一种表达式解析器
CN117216132B (zh) * 2023-11-09 2024-02-23 厦门达宸信教育科技有限公司 一种数学试题相似性判断方法、系统和应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146184A (zh) * 2018-08-28 2019-01-04 成都信息工程大学 基于改进熵和得分函数的区间直觉模糊多属性决策方法
CN110135587A (zh) * 2019-05-10 2019-08-16 山西大学 基于区间犹豫模糊多粒度决策粗糙集的多属性群决策方法
CN110796255A (zh) * 2019-09-16 2020-02-14 湖州师范学院 一种基于二元联系数的犹豫模糊多属性决策方法
CN112200435A (zh) * 2020-09-27 2021-01-08 郑州大学 基于关联系数的概率不确定语言集多属性决策方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019015A1 (en) * 2006-03-15 2009-01-15 Yoshinori Hijikata Mathematical expression structured language object search system and search method
CN105975584B (zh) * 2016-05-03 2019-02-05 河北大学 一种数学表达式相似距离测量方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146184A (zh) * 2018-08-28 2019-01-04 成都信息工程大学 基于改进熵和得分函数的区间直觉模糊多属性决策方法
CN110135587A (zh) * 2019-05-10 2019-08-16 山西大学 基于区间犹豫模糊多粒度决策粗糙集的多属性群决策方法
CN110796255A (zh) * 2019-09-16 2020-02-14 湖州师范学院 一种基于二元联系数的犹豫模糊多属性决策方法
CN112200435A (zh) * 2020-09-27 2021-01-08 郑州大学 基于关联系数的概率不确定语言集多属性决策方法

Also Published As

Publication number Publication date
CN113051370A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113051370B (zh) 基于数学表达式评估语言的相似性测度方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103473283B (zh) 一种文本案例匹配方法
US7801924B2 (en) Decision tree construction via frequent predictive itemsets and best attribute splits
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN1916889B (zh) 语料库制作装置及其方法
CN105975584B (zh) 一种数学表达式相似距离测量方法
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN111190968A (zh) 基于知识图谱的数据预处理和内容推荐方法
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN114997288A (zh) 一种设计资源关联方法
CN103020283A (zh) 一种基于背景知识的动态重构的语义检索方法
Jayashree et al. Multimodal web page segmentation using self-organized multi-objective clustering
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Yang et al. Understanding the keyword adoption behavior patterns of researchers from a functional structure perspective
CN108920475A (zh) 一种短文本相似度计算方法
Müller et al. Extracting knowledge from life courses: Clustering and visualization
CN110020034B (zh) 一种信息引证分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant