CN103250149A

CN103250149A - 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质

Info

Publication number: CN103250149A
Application number: CN2011800590520A
Authority: CN
Inventors: 朴根兑; 朴镛吉; 崔炯仁; 魏南淑; 李斗锡; 孙正教; 金行文; 李东学
Original assignee: SK Telecom Co Ltd; Iscilab Corp
Priority date: 2010-12-07
Filing date: 2011-12-07
Publication date: 2013-08-14
Anticipated expiration: 2031-12-07
Also published as: US9424251B2; CN103250149B; US20130275122A1; KR20120063442A; KR101431530B1

Abstract

本发明的实施方式涉及一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质。本发明的实施方式提供一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质，其中所述方法包括：从用户接收查询的用户查询输入步骤；提取所输入的用户查询中包括的关键词的查询解析步骤；参照其中对包含语义信息的自然语言标记和数学公式标记编索引的信息，通过测量所提取的关键词和语义信息之间的语义距离获得相似性的步骤。

Description

用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质

技术领域

本公开在一些方面涉及用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质。更具体地，本公开涉及一种用于当搜索所输入的数学语句以给出存储的数学内容之间的相似性时、从由自然语言单词和标准化数学公式中的至少一种组成的数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质。

背景技术

这一部分中的说明仅仅提供与本公开有关的背景信息而可能不构成现有技术。

人类的单词很丰富并且复杂，并且包括大量的具有复杂的语法构造和语境意义的词汇，但是机器或者软件应用通常需要根据特定格式或者规则来输入数据。在此，输入的自然语言单词可以用于几乎全部与人类交互的软件应用。通常，自然语言处理方法包括将自然单词划分为标记（Token）并且将所划分的标记映射到由软件应用提供的一条或者多条运算信息或者动作，其中每一个软件应用被设定为具有一系列独特动作。也就是说，自然语言处理方法适用于基于软件开发者对于用于解析输入的代码的编写，将所输入的自然单词映射到适合于每一个应用的适当动作。

然而，自然语言处理方法可能既不能识别数学公式，也不能通过算出用于搜索数学语句的查询与所存储的数学语句之间的相似程度来提供搜索结果。

发明内容

技术问题

本公开的一个方面适用于自动提取由自然单词和标准化数学公式中的至少一种组成的数学语句中包含的语义信息。

技术方案

本公开的实施方式提供一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的装置，所述装置包括：用户查询输入单元，所述用户查询输入单元用于从用户接收查询；查询解析单元，所述查询解析单元用于提取所输入的用户查询中包括的至少一个关键词；索引信息单元，所述索引信息单元用于对包括语义信息的自然语言标记和数学公式标记中的一个或多个编索引；语义距离提取单元，所述语义距离提取单元用于通过测量所提取的关键词和被编索引的语义信息之间的语义距离来获取相似性。

一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的装置还可包括：信息输入单元，所述信息输入单元用于接收包括自然单词和数学公式中的至少一种的复合语句；语义解析单元，所述语义解析单元用于从所述复合语句分别划分自然单词和数学公式，并且用于解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息，从而生成自然语言标记和数学公式标记。

所述语义解析单元可将所述复合语句转换为简单语句的逻辑组合以生成语义信息。

所述语义解析单元可通过对自然单词标记化来生成自然语言标记，通过基于自然语言标记过滤停用词来生成过滤了停用词的数据，通过对过滤了停用词的数据执行重复去除过滤来生成过滤了重复的数据，并且将过滤了重复的数据与具有所获取的预定义含义的运算信息进行匹配以提取匹配作为语义信息。

所述语义解析单元可将数学公式转换为树形，对树形的数学公式执行遍历处理，对经遍历处理的数学公式执行标记化为数学公式标记，以提取数学公式标记作为语义信息。

语义信息可包括复合语句的运算信息，所述运算信息是通过参照一规则并且通过将自然语言标记和数学公式标记与所述规则进行比较而提取的，所述规则具有自然单词和数学公式中的至少一种的组合，相应的运算信息组合到所述组合。

所述运算信息可包括自然语言标记的结构含义、自然语言标记的方向性和被自然语言标记影响的点。

所述方向性可表示所述运算信息是与自然语言标记的一个或多个前面的数学公式相关联、与自然语言标记的一个或多个随后的数学公式相关联、还是独立。

语义信息可包括通过将自然语言标记的对象数学公式与数学公式标记中的一个相匹配而生成的数学对象。

所述查询解析单元可从用户查询分别划分自然单词和数学公式，解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息，并且提取包括自然语言标记和数学公式标记的关键词。

所述语义距离可被生成为与对于所提取的关键词的语义元素和被编索引的语义信息的语义元素共同的共同语义元素的数量成正比的值。

语义元素可具有针对每一个语义元素设定的权重。

所述语义距离可与等同地存在于所提取的关键词和被编索引的语义信息中的语义元素的权重的和成反比，可与所提取的关键词和被编索引的语义信息中包括的总计语义元素的权重的和成正比。

本公开的另一个实施方式提供一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法，所述方法包括：从用户接收查询，以完成用户查询输入；提取所输入的用户查询中包括的至少一个关键词，以完成查询解析；参照通过对包括语义信息的自然语言标记和数学公式标记中的一个或多个编索引而生成的索引信息，通过测量所提取的关键词和被编索引的语义信息之间的语义距离获取相似性，以完成语义提取。

本公开的又一个实施方式提供一种非瞬时性计算机可读记录介质，其中存储有包括计算机可运行指令的程序，当所述指令被处理器运行时，使所述处理器执行用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法的每一个处理。

有益效果

根据以上描述的本公开，通过提取由自然单词和标准化数学公式中的至少一种组成的数学语句（单一或者复合语句）中包含的语义距离，可以在搜索输入的数学语句时获取存储的数学内容之间的相似性。

此外，通过将输入的复合语句转换为单一语句的逻辑组合并且生成语义信息，可以有效地提取语义信息。此外，通过定义由数学语句表示并且描述动作的代表性关键词，通过当输入各个语句的动作表示时匹配代表性关键词，可以提取数学语句的运算信息或者动作。

附加地，通过识别不被自然语言处理方法识别的数学公式，基于通过算出用于搜索数学语句的查询与所存储的数学语句之间的相似性而提供的搜索结果，还提供了不能被根据现有技术的搜索方法搜索的数学内容的搜索环境。

附图说明

图1是根据本公开的实施方式的用于对数学语句分类的装置的示意框图。

图2是根据本公开的实施方式的复合语句的树形表示的示例性图。

图3是针对“(S₁∩S₂)=>(～S₃∪S₄)”的XML表示的图。

图4是基于数学语句表示方法的语句结构的原始类型的图。

图5是其中用动作和语义描述来表示数学语句的示例的图。

图6是其中用动作和语义描述来表示两个数学公式的示例的图。

图7是根据本公开的另一个实施方式的用于对数学语句分类的方法的流程图。

图8是针对被编索引的数学语句的每一个语义元素设定的布尔值的图。

具体实施方式

图1是根据本公开的实施方式的用于对数学语句分类的装置的示意构造框图。

根据本公开的实施方式的用于对数学语句分类的装置可以被配置为包括信息输入单元110、语义解析单元120、索引信息单元130、用户查询输入单元140、查询解析单元150、语义距离提取单元160和结果提供单元170。

信息输入单元110接收自然单词和数学公式中的至少一种的组合数据（复合语句）。在此，信息输入单元可以通过用户的操纵或者命令直接接收自然单词/数学公式组合数据，但是本公开不一定限于此，因此可以从单独的外部服务器接收组合有自然单词和数学公式中的至少一种的文档数据。

如图2所例示的，为了绘制数学内容可采取的结构的树形表示，在保持词序的有意义的重要信息完整的同时，将构造相同数学内容（根节点）的子节点划分为自然语言和数学公式中的至少一种。此外，通过组织语句的不同顺序，每一个自然单词具有特殊含义。也就是说，很多数学内容可以具有基于自然语言的合成数学公式的结构。例如，数学内容可以具有以下结构：其中自然单词和随后的数学公式在特定条件下连接，提供关于随后的数学公式是否被定义的信息等。可以利用各个节点处的自然单词以及单词和它们的关联物的含义的集成来提取语义重要性。也就是说，为了区分关于数学内容是否需要求解的动作或者描述相应的数学公式等，可以通过按照全部自然单词的含义聚合地算出全部自然单词来获得每一个自然语言标记的方向性。在此，方向性表示数学内容内的自然语言标记是与相应自然语言标记前面的公式相关联、与后面的公式相关联、还是独立，等等。

语义解析单元120从组合数据单独地划分自然单词和数学公式，并且解析构造所划分的自然单词和数学公式的每一个构造信息，以生成语义信息并且生成自然语言标记和数学公式标记。也就是说，语义解析单元120从组合数据单独地划分自然单词和数学公式，并且解析构造所划分的自然单词和数学公式的每一条构造信息，以生成语义信息。在此，语义信息可以包括动作和数学对象。详细描述语义解析单元120的操作，语义解析单元120从组合数据单独地划分自然单词和数学公式。也就是说，当通过信息输入单元110输入了自然单词和数学公式的组合数据时，语义解析单元120单独地划分并且识别组合数据中包含的自然单词和数学公式。语义解析单元120解析构造所划分的自然单词的每一个构造信息并标记化（Tokenization）自然语言标记以生成自然单词，基于自然语言标记过滤停用词以生成停用词过滤数据，对停用词过滤数据进行重复去除过滤以生成重复去除过滤数据，并且将预定义的有意义的动作与重复去除过滤数据相匹配。在此，标记指的是可在连续语句中被区分的单位，标记化指的是将自然单词变为可以被用于对数学语句分类的装置100理解的单词单位的处理。

更详细地描述本公开的实施方式的标记化，标记化主要划分为自然语言标记化和数学公式标记化。自然语言标记化指的是将与通过基于空格划分组合数据（数学问题或者复合语句）中包括的自然单词而获得的结果相对应的每一个单词识别为自然语言标记的处理。另外，数学公式标记化指的是将通过解析组合数据中包含的数学公式获得的各个单位信息识别为数学公式标记的处理。

[示例1]Find the function value9y³+8y²-4y-9with y=-1

例如，与[示例1]中的自然语言标记相对应的信息可以是“Find”、“the”、“function”、“value”、“with”，数学公式标记可以是多项式（Polynomial）、最大次数（Maxdegree=3）、项数（Numofterm=4）、条件（Condition,y=-1）等，这些是在通过解析提取信息之后返回的值。

此外，详细描述停用词过滤，停用词指的是在解析语句或者数学公式时用于去除与不必要的标记相对应的部分的预定义的单词的集合。也就是说，在[示例1]的单词中，诸如“the”这样的单词（另外，a、to等）是停用词，在系统中以字典形式先前定义。在此，字典指的是包括单词的集合的列表。也就是说，语义解析单元120执行生成自然语言标记然后去除作为对于解析不必要的部分的停用词的处理，其中停用词过滤被操作以防止当数学问题长（例如，描述性问题等）时在解析处理期间输入过多标记，并且提高系统的处理速度。此外，描述重复去除过滤，例如，当存在数学问题“方程式中的一个解是3；然而，获得方程式的另一个解。”时，如果自然单词被标记化，则标记“方程式”和“解”均可以被提取两次。在此情况下，可以通过各自地去除关于两个重复“方程式”的标记和关于两个“解”的标记进行重复去除过滤。

语义解析单元120进行以下重复去除过滤：从停用词过滤数据选择重复数据，并且去除所选择的重复数据以从自然语言标记去除重复数据，并且将对应于所生成的重复去除数据内的谓词的数据与预定义的有意义的动作信息相匹配，其中动作指的是可以基于自然语言标记或者数学公式标记提取的概括信息。例如，可以基于[示例1]中的自然语言标记或者数学公式标记提取动作“解”。在此，在用于将组合数据（数学问题）定义为搜索信息或者之后解析问题之间的相似性的架构的处理期间，在获取与整个语句指示的代表性运算有关的信息时，将对应于重复去除数据中的谓词的数据与动作相匹配并且存储被用作有用工具。

此外，语义解析单元120可以将数学公式转换为树形，对转换为树形的数学公式执行遍历处理，并且对经历了遍历处理的数学公式执行标记化。语义解析单元120可以将写为数学标记语言（Math ML）的数学公式转换为XML树形然后转换为文档对象模型（DOM）类型。语义解析单元120可以按照深度优先搜索方法进行遍历，深度优先搜索方法将构造数学公式的构造信息逐渐地从最低节点传递到最高节点。另外，详细描述遍历处理和深度优先搜索，数学公式通常具有Math ML类型，其被配置为树形。用于搜索树的节点以便从树提取信息的处理被称为遍历处理，并且在进行遍历处理时可以使用深度优先搜索。由于用于遍历深度优先搜索的处理从树根开始，前进到子节点，并且当全部子节点的搜索结束时移动到父节点，所以用于遍历深度优先搜索的处理将子节点中包括的全部信息传递到父节点，并且就时间复杂性而言进行与作为在节点之间连接的连接线的边缘的数量相对应的搜索，因此是有效的。此处例示了深度优先搜索，但是本公开的实施方式不限于此。

此外，语义解析单元120可以将数学内容转换为简单语句的逻辑组合以生成语义信息。

语义解析单元120可以将其中混合了数学公式和自然单词的数学内容表示为简单语句的组合，并且可以通过由C-MathML表示的部分的语义解析来给出含义。

例如，假定存在“针对x²+2x-3=0获得满足x²>1的根”类型的数学语句。

当复合语句表示为简单语句时，以上公式如下。

（示例2）

“解((x²+2x-3=0)∩(x²>1))

解(二次方程∩x的大于1的平方根)”

如在以上示例2中，全部复合语句可以被划分为通过简单语句的逻辑连接符（∩（与）、∪（或）、～（非）、

（如果））等连接的语句。如在以上示例中，通过示例方式描述了将复合语句划分为简单语句的逻辑连接符，但是本公开的实施方式不限于此，因此复合语句可以通过各种方法划分为多个简单语句。

例如，在复合语句的XML中，可以使用<SentenceRel>，其作为用于描述简单语句之间的逻辑连接的XML标签，表示语句之间的关系。作为可用方法，可以使用诸如MathML的<apply>方法。

图3是例示针对“(S₁∩S₂)=>(～S₃∪S₄)”的XML表示的图。

另外，可以指定与作为语义信息而提取的动作相对应的关键词。例如，通过基于自然语言标记和数学公式标记从示例1的数学内容提取称为“解”的动作，在将数学问题定义为架构的处理期间，关键词可以具有与整个问题指示的代表性运算有关的信息。例如，编写者也可以使用诸如找到和回答这样的各种措辞作为关键词，例如，“找到(x²+2x-3=0)的根”或者“回答(x²+2x-3=0)”等，而不是“解(x²+2x-3=0)”。唯一地选择这些关键词，以防止语义重复含义。例如，措辞“找到...的根”、“找到解”、“回答”、“计算”、“...的值是什么”等统一地使用根据随后公式之间的相似性的动作作为解。除了“解”之外，还可以存在诸如求...的值（Evaluate）、积分（Integrate）、微分（Differentiate）、因式分解（Factorize）、展开（Expand）的若干动作。

因此，当指定了可用于提取与动作相对应的关键词的各输入项时，可以根据表示单个含义的各输入提取动作。

此外，所提取的动作可以包括自然语言标记的结构含义、自然语言标记的方向性和被自然语言标记影响的点。在此，方向性可以表示动作是与自然语言标记前面的公式相关联、与自然语言标记后面的公式相关联、还是独立。

另外，根据用于表示来自数学公式的语义信息的方法，语义解析单元120例如可以将(x²+2x-3=0)表示为“动作（二次方程）”或者“动作（多项式(次数=2)）”等。

图4是例示基于数学语句表示方法的语句结构的原始类型的图。图4列出的语句表示类型具有代表性，但是通过解析数学问题，可以添加更复杂的类型。

数学问题中包括的语义信息可以包括动作和数学对象。

动作代表基本上要通过数学语句解决的对象。例如，动作是基于对相应的数学公式语句是否解决问题、描述概念等采取动作的实际求解器的信息从问题提取的信息。按照自然语言标记和数学公式标记预处理的定义规则返回该信息。

语义解析单元120可以包括通过匹配作为自然语言标记的对象的数学公式而生成的数学对象，作为数学公式标记中的语义信息。

为了提取由除了自然单词以外还包括数学公式的复合语句组成的数学公式的实际含义并且自动地表示所提取的含义，语义解析单元120可以进行以下：

1、将数学公式标记与自然语言标记之间的关系构造为规则

2、读取表示自然单词和数学公式的语句以搜索数学语句表示的动作

3、构造数学对象

数学对象用于表示数学问题中包括的每一个细化分的实体。也就是说，数学对象可以指示是否需要任何技术或者事实来解数学问题，任何类型的函数是否输入数学问题等。对象的概念可以有助于支持数学问题多样性的可扩展性。从自然单词获得的信息和从数学公式获得的信息均可以是数学对象类型。

作为数学对象，与诸如技术、定义、理论等的知识相对应的信息可以被提取并且具有可扩展性，并且当通过问题解析存在附加的必要信息时，可以形成期望类型的类别并且添加。

基于数学问题语义信息，可用范围非常宽。例如，当特定的人希望实践解二次方程的问题时，可以基于先前提取的信息迅速提供期望信息，而不是像目前的数学问题那样经过比较自然单词、解析MathML类型的全部XML并且确认是否存在期望信息的处理。此外，动作还可以甚至在用于算出所搜索的问题之间的级别的处理中使用，并且可以帮助用户获得最优的搜索结果。

获取的数学问题的动作和数学对象可以根据存储装置按照各种形式存储，其可以被表示为并列、连续、嵌套型等。

作为简单语句的成分，针对用c-MathML表示的数学对象部分的语义描述可以类似于表1配置，用c-MathML表示的数学对象被划分到<MathObj>标签，并且与多个数学对象的关系可以类似于[表1]、[表2]用<MathRel>标签表示。

表1

表2

索引信息单元130存储通过对从语义解析单元120提取的语义信息编索引而获得的信息。例如，索引信息单元130执行向通过语义解析单元120接收的语义信息分配编号的编索引，并且存储执行的信息。索引信息单元130可以生成通过对语义信息编索引而获得的语义索引信息，并且生成通过将关键词信息匹配到语义索引信息而获得的查询索引信息。

用户查询输入单元140从用户接收查询并且将所输入的用户查询传送到查询解析器150。在此，用户查询是一种搜索查询并且包括要被用户搜索的输入关键词。

用户查询输入单元140可以执行类似于信息输入单元110的操作，并且可以接收自然单词和数学公式中的至少一种的组合数据（复合语句）。用户查询输入单元140可以通过用户的操纵或者命令直接接收自然单词和数学公式中的至少一种的组合数据，但是本公开不一定限于此，因此可以从单独的外部服务器接收由自然单词和数学公式中的至少一种的组合组成的文档数据。

查询解析器150提取所输入的用户查询中包括的关键词。在此，所提取的关键词可以包括语义信息，并且查询解析器150可以语义解析所输入的用户查询以提取包括语义信息的关键词。查询解析器150的操作可以类似于语义解析单元120的操作。也就是说，查询解析器150在通过用户查询输入单元140输入的复合语句中分别划分自然单词和数学公式，并且解析构造所划分的自然单词和数学公式的每一个构造信息以生成语义信息，从而生成关键词，其生成自然语言标记和数学公式标记。在此，通过用户查询输入单元140输入的语句可以仅仅包括自然单词或者仅仅包括数学公式。也就是说，当仅仅自然单词被包括在输入语句中时，所生成的关键词中可能仅仅存在自然标记；而当数学公式包括在输入语句中时，所生成的关键词中也可能仅仅存在数学公式标记。

语义距离提取单元160通过测量指示从查询解析单元150提取的关键词中包括的语义信息与在语义解析单元120中生成并且存储在索引信息单元140中的编索引的信息的语义信息之间的相似性的语义距离，来获取相似性。

假定存在例如示例3的一般类型的数学公式。

（示例3）“获得x²+2x-3=0的两个根”

以上通过动作和语义描述表示的数学语句可以如图5表示。

在以上示例3中，仅仅一般语句的数学公式(x²+2x-3=0)可能不是查询对象，并且作为语义描述信息的二次方程变为查询对象。因此，如果设定的架构不存在，则不能处理语义查询，使得语义描述信息可被用作允许语义距离提取单元160处理语义查询的手段。

基于类似示例3的称为二次方程的简单语义描述和通过问题构建（主题、问题、解决方案等）获得的各种语义描述的组合来定义架构，全部问题可以被表示为具有更多种语义描述的语句。

表3、表4、表5、表6示出针对单个数学公式的XML描述的示例。

表3

表4

表5

表6

根据表3、表4、表5、表6，通过自然单词和标准化数学公式表示的数学公式内容被转换为可被对数学语句分类的装置100算出的类型，并且基于自然单词和数学公式的含义提取语义信息并按照XML树形构建。

语义距离提取单元160通过测量所提取的关键词和语义信息之间的语义距离来获取相似性。

在此，语义距离是指在用于转换由数学公式和自然单词组成的复合语句的处理期间分配的语义描述的距离。

例如，假定存在如示例4和示例5的两种类型的语句。

（示例4）“找到x²+2x-3=0的两个根。”

（示例5）“找到二次方程x²+3x+5的积分。”

用动作和语义描述表示两个数学公式，每一个数学公式可以由图6A和图6B表示。

如图6所例示的，仅仅一般语句的数学公式(x²+2x-3=0)和(x²+3x+5)具有获得二次方程的根和不定积分的完全不同的问题，但是语义描述是二次方程，因此可以被确定为相同。因此，定义语义距离，可以容易地测量各语句之间的语义距离。例如，获得二次方程的根和不定积分的问题的语义距离被定义为2，并且不定积分与微分之间的距离被定义为1，以测量对应的数学语句与预存储的数学语句之间的语义距离，从而获取并且存储相似性。

为了获得语义距离，语义距离提取单元160可以将语义距离确定为响应于对所提取的关键词的语义元素和被编索引并且存储在索引信息单元140中的语义信息的语义元素而言共同的语义元素的数量的值。在此，语义距离被确定为响应于语义元素的数量的值，但是用于实现此的数学公式中，可以应用各种类型的数学公式以获得共同语义元素的数量，诸如生成语义距离作为对通过将语义元素的值彼此相乘而获得的值的响应的值。

此外，随着针对两个数学问题的全部语义元素的共同语义元素增多，语义距离可以变短，随着针对两个数学问题的全部语义元素的共同语义元素减少，语义距离可以变长。此外，在不考虑两个数学问题的语义元素的总数的情况下，随着两个数学问题的共同语义元素增多，语义距离可以变短，随着共同语义元素减少，语义距离可以变长。

语义距离提取单元160可以使用如等式1的余弦相似性，作为基于作为用户查询而输入的关键词的语义信息与被编索引并且存储的语义信息之间的相似性来定义语义距离的示例。

等式1

\cos (q, p) = \frac{q \cdot p}{| q | | p |} = \frac{q}{| q |} \cdot \frac{p}{| p |} = \frac{Σ_{i = 1}^{| v |} q_{i} p_{i}}{\sqrt{Σ_{i = 1}^{| v |} q_{i}^{2}} \sqrt{Σ_{i = 1}^{| v |} p_{i}^{2}}}

（p：问题向量，q：查询向量，v：向量中包括的元素的数量）

第一数学语句和第二数学语句中包括的用于测量语义距离的每一条语义信息可以用布尔向量表示。因此，例如，如图8所例示的，可以表示语义i是否在第一数学语句p中存在，pi是布尔的，并且可以表示语义i是否在第二数学语句q中存在，qi是布尔的。也就是说，当布尔值被设定到针对数学语句中的多项式、函数、因数、解问题的解、求解值的求...的值、变量数、次数等的每一个数学语句的每一个语义元素时，可以用如图8例示的表示语义元素的布尔向量表示全部数学语句。

如果如图8所例示的被编索引并且存储的语义信息具有六个语句，则每一个数学问题的布尔向量将是问题1=(1,1,1,0,1,1,1)、问题2=(1,1,1,1,0,0,0)、问题3=(0,0,0,0,0,1,1)、...等。

在此情况下，例如，如果针对从用户查询提取的关键词中包括的语义元素的布尔向量是(1,1,1,1,1,1,1)，则以上公式1可以应用于如图8所例示的全部存储的语义信息，以获得语义距离。

因此，当公式1应用于用户查询的布尔向量和问题的布尔向量时，语义距离变为6/(root(7)*root(6))，当公式1应用于用户查询的布尔向量和问题2的布尔向量时，语义距离变为4/(root(7)*root(4))。类似地，以上公式1可以应用于全部被编索引的问题，以获得与用户查询的布尔向量的语义距离。

在以上公式1中，如果cos(q,p)具有值“0”，则表示不存在对应的语义信息或者语义距离与对应的问题不具有关系。另一方面，如果cos(q,p)具有值“1”，则表示存在满足数学问题的语义信息，并且表示语义距离的cos(q,p)具有从0到1的范围的值。在此情况下，随着值接近1，可以说两个语句之间的语义相似性更高。如果cos(q,p)是1，则可以认为两个语句p、q的语义信息精确地彼此满足，如果cos(q,p)是0，则这两个语句p、q之间不存在语义相似性。

为了获得语义距离，当语义距离提取单元160可以生成语义距离作为响应于对所提取的关键词的语义元素和被编索引并且存储在索引信息单元140中的语义信息的语义元素共同的语义元素的数量的值时，语义提取单元160可以对每一个语义元素设定权重。

语义距离提取单元160可以使用如公式2的加权余弦相似性，作为基于作为用户查询而输入的关键词的语义信息和被编索引并且存储的语义信息之间的关联性来定义语义距离的另一个示例。

等式2

\cos_{w} (q, p) = \frac{Σ_{i = 1}^{| v |} w_{i} q_{i} p_{i}}{\sqrt{Σ_{i = 1}^{| v |} w_{i}^{2}} \sqrt{Σ_{i = 1}^{| v |} q_{i}^{2}} \sqrt{Σ_{i = 1}^{| v |} p_{i}^{2}}}

（p：问题向量，q：查询向量，w_i：权重，v：向量中包括的元素的数量）

也就是说，可以通过向每一个语义元素分配权重w_i来计算语义距离。在此情况下，由于语义元素响应于权重彼此满足而被设定为具有更高重要性，所以两个数学语句之间的语义距离可以被计算为更接近。

如同等式1，在等式2中，如果cos_w(q,p)具有值“0”，则表示不存在对应的语义信息或者语义距离与列中存在的问题不具有关系。另一方面，如果cos_w(q,p)具有值“1”，则表示存在满足行的语义信息，并且如果根据语义信息之间的竖直关系或者重要性，权重被设定为w_i，则可以通过使用以上等式1的矩阵获得数学语句向量p与查询向量q之间的余弦角。

在以上等式1中，由于表示语义距离的cos_w(q,p)具有从0到1的范围的值，所以可以说随着语义距离接近1，两个语句之间的语义相似性更高。如果cos_w(q,p)是1，则可以认为两个语句p、q的语义信息精确地彼此满足，如果cos_w(q,p)是0，则这两个语句p、q之间没有语义相似性。

另外，两个数学公式之间的语义距离与两个数学公式之间的相同语义元素的权重的和成反比，并且与两个数学公式中包括的全部语义元素的权重的和成正比。

例如，假定公式A的语义元素和公式B的语义元素的并集是S={s₁,s₂,…,s_N}，并且与并集中的N个元素中的每一个相对应的权重的集合是W={w₁,w₂,…,w_N}。

在此情况下，通过将针对S的每一个元素s_m(m=1,…,N)在公式A和公式B中相同存在的对应的语义元素的权重求和，计算相同语义元素的权重的和E。

因此，通过以下公式(D=(Sum(w_m)/E)可以计算公式A和公式B的语义距离D。

等式3

\frac{Σ_{m = 1}^{N} w_{m}}{E}

因此，如等式3所示，可以理解两个数学公式之间的语义距离与两个数学公式之间的相同语义元素的权重的和E成反比，并且与两个数学公式中包括的全部语义元素的权重的和(sum(w_m))成正比。

在此情况下，针对每一个语义元素，权重(w_m)可以相等（例如，1），并且针对每一个语义元素，权重(w_m)可以根据语义元素之间的重要性而不同。

例如，假定存在以下三个问题A、B、C。

1、问题A：解方程x²+2x+1=0。

2、问题B：解方程x²-4=0。

3、问题C：解方程x³-1=0(然而,x>0)

此外，当从以上每一个问题提取的语义信息是以下时：

-问题A的语义元素运算（求解），次数（二次方程），项数（3项）

-问题B的语义元素运算（求解），次数（二次方程），项数（2项）

-问题C的语义元素运算（求解），次数（二次方程），项数（2项），条件不等式。

如果假定全部语义元素的权重是1，则由于当问题A与相同问题B之间的相同语义元素包括运算（“求解”）和次数（二次方程）时全部语义元素的和(Sum(w_m))是3并且相同语义元素的权重的和E是2，所以通过以上公式3的计算，问题A与问题B之间的语义距离D变为(D=3/2=1.5)。此外，由于当问题A与问题C之间的相同语义元素仅仅包括运算（“求解”）时全部语义元素的权重的和(Sum(w_m))是4并且相同语义元素的权重的和E是1，所以问题A与问题C之间的语义距离变为(D=4/1=4)。此外，由于当问题A与问题C之间的语义元素包括运算（“求解”）和项数（2项）时全部语义元素的和(Sum(w_m))是4并且相同语义元素的权重的和E是2，所以问题B与问题C之间的语义距离变为(D=4/2=2)。

如果认为方程次数信息最重要的情况下次数的权重是2并且其余信息是1，则由于当问题A与问题B之间的相同语义元素包括运算（“求解”）和次数（二次方程）时全部语义元素的和(Sum(w_m))是4并且相同语义元素的权重的和E是3，所以问题A与问题B之间的语义距离变为(D=4/3=1.33)。此外，由于全部语义元素的权重的和(Sum(w_m))是5并且问题A与问题C之间的相同语义元素的权重的和E是1，所以问题A与问题C之间的语义距离变为(D=5/1=5)。此外，由于全部语义元素的权重的和(Sum(w_m))是5并且问题A与问题C之间的相同语义元素的权重的和E是2，所以问题B与问题C之间的语义距离变为(D=5/2=2.5)。

如上所述，当数学问题之间的语义距离的值小时，确定两个数学问题之间的相似性高；而当语义距离的值大时，确定两个数学问题之间的相似性低，使得可以使用信息。

结果提供单元170可以提供按照通过语义距离的测量而计算出的相似性打分的查询索引信息的评级结果页面。在此，评级结果页面可以被提供到服务器或者请求评级结果页面的终端，但是本公开不一定限于此，并且当用于对数学语句分类的装置100由独立装置实现时，可以通过显示单元显示对应的评级结果页面。

也就是说，通过用户查询输入单元140输入的用户查询被查询解析器150解析，并且传递到语义距离提取单元160，结果提供单元170基于针对预存储的数学内容的索引和用户查询的索引比较语义距离之间的相似性并打分，并且将评级输出到用户结果页面。

图7是描述根据本公开的另一个实施方式的用于对数学语句分类的方法的流程图。

根据本公开的另一个实施方式的用于对数学语句分类的方法包括：信息输入处理，用于接收包括自然单词和数学公式中的至少一种的复合语句（S710）；语义解析处理，用于从复合语句分别构造自然单词和数学公式，并且解析构造所划分的自然单词和数学公式的每一个构造信息，以生成语义信息并且生成自然语言标记和数学公式标记（S720）；索引信息处理，用于存储对所提取的语义信息编索引的信息（S730）；用户查询输入处理，用于从用户接收查询（S740）；查询解析处理，用于提取所输入的用户查询中包括的关键词（S750）；语义距离提取处理，用于通过测量所提取的关键词和语义信息之间的语义距离来获取相似性（S760）；结果提供处理，用于提供按照通过语义距离的测量而计算出的相似性打分的查询索引信息的评级结果页面（S770）。

在此，分别地，信息输入处理（S710）对应于信息输入单元110的操作，语义解析处理（S720）对应于语义解析单元120的操作，索引信息处理（S730）对应于索引信息单元130的操作，用户查询输入处理（S740）对应于用户查询输入单元140的操作，查询解析处理（S750）对应于查询解析单元150的操作，语义距离提取处理（S760）对应于语义距离提取单元160的操作，结果提供处理（S770）对应于结果提供单元170的操作，并且将省略其详细描述。

如上所述，图7例示的根据本公开的另一个实施方式的用于对数学语句分类的方法由程序实现，并且可以记录在非瞬时计算机可读记录介质中。记录了用于实现根据本公开的实施方式的用于对数学语句分类的方法的程序的计算机可读记录介质包括其中存储了可被计算机系统读取的数据的全部类型的记录装置。计算机可读记录介质的示例可以包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储装置等，并且可以包括以载波形式实现的装置（例如，通过因特网传输）。此外，非瞬时计算机可读记录介质分布到与网络连接的计算机系统，并且还可以根据分布类型存储有计算机可读代码并且被执行。此外，用于实现本公开的实施方式的功能程序、代码和代码段可以被本公开的实施方式所属的领域的程序员容易推论。

在以上描述中，尽管本公开的实施方式的全部部分可以被说明为组合或者可操作地连接为单元，但是本领域技术人员将理解本公开不限于这些实施方式。相反，在本公开的一些实施方式内，各个部分按照任意数量的方式选择性地和可操作地组合。尽管为了示例性目的已经描述了本公开的示例性实施方式，但是本领域技术人员将理解的是，在不背离本公开的实质特征的情况下，可以进行各种修改、添加和替换。因此，为了简要和清楚，描述了本公开的示例性实施方式。因此，本领域的技术人员将理解，本公开的范围不限于以上实施方式明确描述的，而是被权利要求和等同物限制。

工业实用性

以上描述的实施方式可以在准备搜索输入的数学语句以给出存储的数学内容之间的相似性时提取由自然单词和标准化数学公式组成的数学语句中包含的语义距离，从而向用户搜索环境提供大的工业应用性。

Claims

1.一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的装置，所述装置包括：

用户查询输入单元，所述用户查询输入单元用于从用户接收查询；

查询解析单元，所述查询解析单元用于提取所输入的用户查询中包括的至少一个关键词；

索引信息单元，所述索引信息单元用于对包括语义信息的自然语言标记和数学公式标记中的一个或多个编索引；

语义距离提取单元，所述语义距离提取单元用于通过测量所提取的关键词和被编索引的语义信息之间的语义距离来获取相似性。

2.根据权利要求1所述的装置，所述装置还包括：

信息输入单元，所述信息输入单元用于接收包括自然单词和数学公式中的至少一种的复合语句；

语义解析单元，所述语义解析单元用于从所述复合语句分别划分自然单词和数学公式，并且用于解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息，从而生成自然语言标记和数学公式标记。

3.根据权利要求2所述的装置，其中，所述语义解析单元将所述复合语句转换为简单语句的逻辑组合以生成语义信息。

4.根据权利要求2所述的装置，其中，所述语义解析单元通过对自然单词标记化来生成自然语言标记，通过基于自然语言标记过滤停用词来生成过滤了停用词的数据，通过对过滤了停用词的数据执行重复去除过滤来生成过滤了重复的数据，并且将过滤了重复的数据与具有所获取的预定义含义的运算信息进行匹配以提取匹配作为语义信息。

5.根据权利要求2所述的装置，其中，所述语义解析单元将数学公式转换为树形，对树形的数学公式执行遍历处理，对经遍历处理的数学公式执行标记化为数学公式标记，以提取数学公式标记作为语义信息。

6.根据权利要求1所述的装置，其中，语义信息包括复合语句的运算信息，所述运算信息是通过参照一规则并且通过将自然语言标记和数学公式标记与所述规则进行比较而提取的，所述规则具有自然单词和数学公式中的至少一种的组合，相应的运算信息组合到所述组合。

7.根据权利要求6所述的装置，其中，所述运算信息包括自然语言标记的结构含义、自然语言标记的方向性和被自然语言标记影响的点。

8.根据权利要求7所述的装置，其中，所述方向性表示所述运算信息是与自然语言标记的一个或多个前面的数学公式相关联、与自然语言标记的一个或多个随后的数学公式相关联、还是独立。

9.根据权利要求1所述的装置，其中，语义信息包括通过将自然语言标记的对象数学公式与数学公式标记中的一个相匹配而生成的数学对象。

10.根据权利要求1所述的装置，其中，所述查询解析单元从用户查询分别划分自然单词和数学公式，解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息，并且提取包括自然语言标记和数学公式标记的关键词。

11.根据权利要求1所述的装置，其中，所述语义距离被生成为与对于所提取的关键词的语义元素和被编索引的语义信息的语义元素共同的共同语义元素的数量成正比的值。

12.根据权利要求11所述的装置，其中，语义元素具有针对每一个语义元素设定的权重。

13.根据权利要求1所述的装置，其中，随着共同语义元素变得多于所提取的关键词的语义元素和被编索引的语义信息的语义元素的总计，所述语义距离变短，随着共同语义元素变得少于总计语义元素，所述语义距离变长。

14.根据权利要求1所述的装置，其中，所述语义距离与等同地存在于所提取的关键词和被编索引的语义信息中的语义元素的权重的和成反比，与所提取的关键词和被编索引的语义信息中包括的总计语义元素的权重的和成正比。

15.一种用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法，所述方法包括：

从用户接收查询，以完成用户查询输入；

提取所输入的用户查询中包括的至少一个关键词，以完成查询解析；

参照通过对包括语义信息的自然语言标记和数学公式标记中的一个或多个编索引而生成的索引信息，通过测量所提取的关键词和被编索引的语义信息之间的语义距离获取相似性，以完成语义提取。

16.根据权利要求15所述的方法，其中，通过以下生成语义信息：

接收包括自然单词和数学公式中的至少一种的复合语句，以完成信息输入；

从所述复合数据分别划分自然单词和数学公式，并且解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息，从而生成自然语言标记和数学公式标记，以完成语义解析。

17.根据权利要求16所述的方法，其中，所述语义解析包括：

将所述复合语句转换为简单语句的逻辑组合以生成语义信息。

18.根据权利要求16所述的方法，其中，所述语义解析包括：

通过对自然单词标记化来生成自然语言标记；

通过基于自然语言标记过滤停用词来生成过滤了停用词的数据；

通过对过滤了停用词的数据执行重复去除过滤来生成过滤了重复的数据；

将过滤了重复的数据与具有所获取的预定义含义的运算信息进行匹配以提取匹配作为语义信息。

19.根据权利要求16所述的方法，其中，所述语义解析包括：

将数学公式转换为树形；

对树形的数学公式执行遍历处理；

对经遍历处理的数学公式执行标记化为数学公式标记，以提取数学公式标记作为语义信息。

20.根据权利要求16所述的方法，其中，语义信息包括复合语句的运算信息，所述运算信息是通过参照一规则并且通过将自然语言标记和数学公式标记与所述规则进行比较而提取的，所述规则具有自然单词和数学公式中的至少一种的组合，相应的运算信息组合到所述组合。

21.根据权利要求20所述的方法，其中，所述运算信息包括自然语言标记的结构含义、自然语言标记的方向性和被自然语言标记影响的点。

22.根据权利要求16所述的方法，其中，语义信息包括通过将自然语言标记的对象数学公式与数学公式标记中的一个相匹配而生成的数学对象。

23.根据权利要求15所述的方法，其中，所述查询解析包括：

从用户查询分别划分自然单词和数学公式；

解析构成所划分的自然单词和数学公式的每一条构造信息来生成语义信息，并且提取包括自然语言标记和数学公式标记的关键词。

24.根据权利要求15所述的方法，其中，所述语义距离被生成为与对于所提取的关键词的语义元素和被编索引的语义信息的语义元素共同的共同语义元素的数量成正比的值。

25.根据权利要求15所述的方法，其中，随着共同语义元素变得多于所提取的关键词的语义元素加上被编索引的语义信息的语义元素，所述语义距离变短，随着共同语义元素变得少于总计语义元素，所述语义距离变长。

26.一种非瞬时性计算机可读记录介质，其中存储有包括计算机可运行指令的程序，当所述指令被处理器运行时，使所述处理器执行根据权利要求15到25中的任一项的用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法的每一个处理。