CN116992824A

CN116992824A - 一种将LaTex公式转为自然语言的方法及系统

Info

Publication number: CN116992824A
Application number: CN202210436294.7A
Authority: CN
Inventors: 任亚乐; 张彦华
Original assignee: Xi'an Tutorial Technology Co ltd
Current assignee: Xi'an Tutorial Technology Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-11-03

Abstract

本发明提出了一种将LaTex公式转为自然语言的方法和系统，属于文本处理技术领域，包括以下步骤：建立符号转换表；所述符号转换表中包括公式符号及对应的自然语言；从目标文本中提取所述待转换LaTex公式；将所述待转换LaTex公式转换为MathML文本；对所述MathML文本进行解析生成公式多叉树；所述公式多叉树中包括不同层级的若干个节点，无子级节点的节点表示所述待转换LaTex公式中的操作数和公式符号，有子级节点的节点表示所述待转换LaTex公式中的函数符号；深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言。

Description

一种将LaTex公式转为自然语言的方法及系统

技术领域

本发明涉及文本处理技术领域，特别是涉及一种将LaTex公式转为自然语言的方法及系统。

背景技术

在目前的教育领域，将教学资料中的文本通过机器发音的应用非常广泛，而随着知识体系的复杂，在某些学科，特别是中小学数理化的教学资料中，逐渐会出现区别于自然语言文本的公式，在业界通常使用LaTex格式对教学资料中的公式进行排版；而现有的机器发音技术仅能够对教学资料中的自然语言文本进行机器发音，而并不能够实现对教学资料中公式的识别。所以要想在这些学科的教学中继续使用机器发音，需要将教学资料中的LaTex公式转换为自然语言文本。

发明内容

本发明的目的是提供一种将LaTex公式转为自然语言的方法和系统，实现了将LaTex公式转换为自然语言文本，扩展了机器发音在教育领域中的应用场景。

为实现上述目的，本发明提供了如下方案：

一种将LaTex公式转为自然语言的方法，包括以下步骤：

建立符号转换表；所述符号转换表中包括公式符号及对应的自然语言；

从目标文本中提取待转换LaTex公式；

将所述待转换LaTex公式转换为MathML文本；

对所述MathML文本进行解析生成公式多叉树；所述公式多叉树中包括不同层级的若干个节点，无子级节点的节点表示所述待转换LaTex公式中的操作数和公式符号，有子级节点的节点表示所述待转换LaTex公式中的函数符号；

深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言。

可选地，所述从目标文本中提取待转换LaTex公式，具体包括：

识别所述目标文本中的两个公式标记符；

截取两个所述公式标记符之间的文本，得到所述待转换LaTex公式。

可选地，所述公式标记符为“$”。

可选地，所述深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言，具体包括：

当读取的目标节点为操作数时：

直接将所述操作数作为自然语言输出；

当读取的目标节点为公式符号时：

在所述符号转换表中进行查找，输出所述公式符号对应的自然语言；

当读取的目标节点为函数符号时：

根据所述函数符号对所述公式多叉树进行修改；

深度遍历所述目标节点下级的各个子节点，按照预设规则以及所述符号转换表将所述目标节点下级的各子节点转换成自然语言。

可选地，所述根据所述函数符号对所述公式多叉树进行修改，具体包括：

当所述函数符号为分式时，所述目标节点下包括两个子节点：

将所述目标节点的两个子节点调换顺序，并在两个子节点之间插入一个辅助节点；所述辅助节点在所述符号转换表中对应的自然语言为“分之”。

当所述函数符号为次方时，所述目标节点下包括两个子节点：

在两个子节点之间插入第一辅助节点，并在第二个子节点之后插入第二辅助节点；所述第一辅助节点在所述符号转换表中对应的自然语言为“的”，所述第二辅助节点在所述符号转换表中对应的自然语言为“次方”。

当所述函数符号为开平方根时，所述目标节点下包括若干个子节点：

在所述目标节点的第一个子节点之前插入一个辅助节点；所述辅助节点在所述符号转换表中对应的自然语言为“根号下的”。

可选地，方法还包括：

当所述公式符号为负号时：

判断所述目标节点是否为同级节点中第一个节点，若是，使用第一辅助节点替换所述目标节点，否则，使用第二辅助节点替换所述目标节点；所述第一辅助节点在所述符号转换表中对应的自然语言为“负”，所述第二辅助节点在所述符号转换表中对应的自然语言为“减”。

对应于前述的将LaTex公式转为自然语言的方法，本发明还提供了一种将LaTex公式转为自然语言的系统，包括：

符号转换表建立模块，用于建立符号转换表；所述符号转换表中包括公式符号及对应的自然语言；

LaTex公式提取模块，用于从目标文本中提取待转换LaTex公式；

MathML转换模块，用于将所述待转换LaTex公式转换为MathML文本；

公式多叉树生成模块，用于对所述MathML文本进行解析生成公式多叉树；所述公式多叉树中包括不同层级的若干个节点，无子级节点的节点表示所述待转换LaTex公式中的操作数和公式符号，有子级节点的节点表示所述待转换LaTex公式中的函数符号；

自然语言转换模块，用于深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言。

可选地，所述LaTex公式提取模块包括：

标记符识别单元，用于识别所述目标文本中的两个公式标记符；

公式截取单元，用于截取两个所述公式标记符之间的文本，得到所述待转换LaTex公式。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的一种将LaTex公式转为自然语言的方法和系统，包括以下步骤：建立符号转换表；所述符号转换表中包括公式符号及对应的自然语言；从目标文本中提取所述待转换LaTex公式；将所述待转换LaTex公式转换为MathML文本；对所述MathML文本进行解析生成公式多叉树；所述公式多叉树中包括不同层级的若干个节点，无子级节点的节点表示所述待转换LaTex公式中的操作数和公式符号，有子级节点的节点表示所述待转换LaTex公式中的函数符号；深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言。本发明通过从目标文本中提取出待转换的LaTex公式，对其进行解析建立公式多叉树，结合预设规则和预先建立的用于公式符号与自然语言文本转换的符号转换表，深度遍历公式多叉树，对公式多叉树中的每一个节点进行自然语言文本的转换，达到了将LaTex公式转换成自然语言文本的目的，从而实现了对教学资料中的公式识别并进行发音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种将LaTex公式转为自然语言的方法的流程图；

图2为本发明实施例1提供的方法中步骤S5的具体流程图；

图3为本发明实施例1提供的方法中求根公式图；

图4为本发明实施例1提供的方法中MathML文本图；

图5为本发明实施例1提供的方法中公式多叉树图；

图6为本发明实施例2提供的一种将LaTex公式转为自然语言的系统的结构示意图。

符号解释：1：符号转换表建立模块；2：LaTex公式提取模块；3：MathML转换模块；4：公式多叉树生成模块；5：自然语言转换模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例提供了一种将LaTex公式转为自然语言的方法，如图1所示，方法包括以下步骤：

S1、建立符号转换表；所述符号转换表中包括公式符号及对应的自然语言；在这个符号转换表中，每一行用特定的符号，如“：”分隔为两部分，前部分是公式符号，后半部分是自然语言，后续查表就是通过公式符号，查到这个公式符号对应的自然语言。

S2、从目标文本中提取待转换LaTex公式；

采用程序代码实现这一过程，具体包括：

S21、识别所述目标文本中的两个公式标记符；一般来说LaTex公式用“$”符号作为字符串分隔符，所以本实施例中，公式标记符为“$”；

S22、截取两个所述公式标记符之间的文本，得到所述待转换LaTex公式。

S3、将所述待转换LaTex公式转换为MathML文本；MathML为描述数学公式的语言的XML可扩展标记语言。

S4、对所述MathML文本进行解析生成公式多叉树；所述公式多叉树中包括不同层级的若干个节点，无子级节点的节点表示所述待转换LaTex公式中的操作数和公式符号，有子级节点的节点表示所述待转换LaTex公式中的函数符号；在本实施例中可以通过SAX(Simple API for XML)的方式，逐行扫描MathML文本，并转换为多叉树的数据结构。多叉树中的叶子节点包含操作数节点，如mi(标识符，即公式中的变量)和mn(数字，即公式中的数值常量)以及公式符号节点mo(公式符号，即+、-、×、÷等符号)，叶子节点的父节点是相应的函数符号节点，如分式、次方以及开平方等函数。

S5、深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言。

在深度遍历公式多叉树中的节点时，由于有不同的节点，所以需要不同的操作过程，如图2所示，包括以下步骤：

S51、当读取的目标节点为操作数时：

S511、直接将所述操作数作为自然语言输出；

S52、当读取的目标节点为公式符号时：

S521、在所述符号转换表中进行查找，输出所述公式符号对应的自然语言；

S53、当读取的目标节点为函数符号时：

S531、根据所述函数符号对所述公式多叉树进行修改；

S532、深度遍历所述目标节点下级的各个子节点，按照预设规则以及所述符号转换表将所述目标节点下级的各子节点转换成自然语言。

其中函数符号还具有不同的类别，比如以下步骤：

S5311、当所述函数符号为分式时，所述目标节点下包括两个子节点：

S5312、将所述目标节点的两个子节点调换顺序，并在两个子节点之间插入一个辅助节点；所述辅助节点在所述符号转换表中对应的自然语言为“分之”。

S5313、当所述函数符号为次方时，所述目标节点下包括两个子节点：

S5314、在两个子节点之间插入第一辅助节点，并在第二个子节点之后插入第二辅助节点；所述第一辅助节点在所述符号转换表中对应的自然语言为“的”，所述第二辅助节点在所述符号转换表中对应的自然语言为“次方”。

S5315、当所述函数符号为开平方根时，所述目标节点下包括若干个子节点：

S5316、在所述目标节点的第一个子节点之前插入一个辅助节点；所述辅助节点在所述符号转换表中对应的自然语言为“根号下的”。

在公式符号中总有一些比较特殊的公式符号，比如“-”，在有些时候读作“负”，有些时候又读作“减”，对此，本发明的方法还包括以下步骤：

S54、当所述公式符号为负号时：

S541、判断所述目标节点是否为同级节点中第一个节点，若是，跳转到步骤S542；否则，跳转到步骤S543；

S542、使用第一辅助节点替换所述目标节点，所述第一辅助节点在所述符号转换表中对应的自然语言为“负”；

S543、使用第二辅助节点替换所述目标节点，所述第二辅助节点在所述符号转换表中对应的自然语言为“减”。

下面结合一个具体的案例来对本发明提供的方法进行说明，对教学资料中常用的如图3所示的求根公式进行转换，在前述已建立符号转换表的基础上，该方法包括以下步骤：

包含求根公式的文本一般包括“$x＝{-b\pm\sqrt{b^2-4ac}\over 2a}$”，其中$就为标记符，识别两个$符号的位置，截取之间的文本，得到LaTex公式，如“x＝{-b\pm\sqrt{b^2-4ac}\over2a}”；

拿到上述抽取的LaTex公式后，利用开源工具MathJax把LaTex文本转换为如图4所示的MathML文本。然后可以通过SAX(Simple API for XML)或DOM的方式，逐行扫描XML文档，并把这个XML转换为如图5所示的多叉树的数据结构，这个树中的叶子节点包含mi(变量)，mn(数字)和mo(公式符号)，叶子节点的父节点是相应的函数符号，圆形节点是叶子节点的值，这个值就包含变量文本，数字文本和公式符号文本。

拿到上述的多叉树结构后，深度遍历这个树结构，在遍历这棵树时每遇到一个叶子节点，拿到这个节点值进行分析处理：

比如深度遍历遇到第一个叶子节点为变量节点，其值为“x”，直接将其作为自然语言输出；第二个叶子节点为公式符号节点，其值为“＝”，在符号转换表中进行查找，找到与“＝”对应的自然语言“等于”并输出。

深度遍历第三个叶子节点为子式节点mrow，其子节点为一个“分式”函数节点，分式函数包括两个子节点，按读取顺序为分子节点和分母节点；由于在自然语言中是分母在前分子在后，所以，需要对分子节点和分母节点进行顺序上的调换，并且在二者之间插入一个新的辅助节点“s_frac”，进而继续遍历该分式函数节点时，先对分母节点下的子节点进行遍历，也就是两个操作数节点“2”和“a”，按照预设规则，直接将二者作为自然语言输出。

对辅助节点进行解析时，在符号转换表中进行查找，找到与“s_frac”对应的自然语言“分之”并输出。

接着对分子节点进行遍历，在分子节点的子级节点中，第一个节点为公式符号节点“-”，由于其是特殊节点，即具有不同的发音，因此判断该节点是否是同级节点中的第一个节点，判断结果为是，所以该节点的应用一个辅助节点“s_fu”代替，在符号转换表中进行查找，找到与“s_fu”对应的自然语言“负”并输出。

分子节点的第二个子级节点为操作数节点“b”，直接作为自然语言输出；第三个子级节点为“±”，在符号转换表中进行查找，找到与“±”对应的自然语言“加减”并输出。

分子节点的第二个子级节点为开平方函数节点，开平方函数中有若干个待开平方的操作数，所以在该开平方函数节点下具有若干个子节点，由于开平方函数在自然语言中读法是以“根号下的…”为开头，所以按照预设规则，需要在开平方函数节点的第一个子节点前插入一个辅助节点“s_sqrt”，在符号转换表中进行查找，找到与“s_sqrt”对应的自然语言“根号下的”并输出。

开平方函数节点下的第一个子节点为次方函数节点，次方函数包括底数和幂数，所以在次方函数节点下包括两个操作数节点，由于次方函数在自然语言中读法是“…的…次方”，所以按照预设规则，需要在两个操作数节点之间插入一个辅助节点“s_de”，以及在第二个操作数的结尾插入另一个辅助节点“s_sup”，深度遍历次方函数节点的子节点时，按照顺序转换输出“b”、“的”、“2”和“次方”。

开平方函数节点下的第二个子节点为公式符号节点，由于其在同级中并不是第一个子节点，所以使用辅助节点“s_minus”替换该公式符号节点，在符号转换表中进行查找，找到与“s_minus”对应的自然语言“减”并输出；后续的几个操作数节点直接输出；通过上述转换步骤得到的自然语言输出为“x等于2a分之负b加减根号下的b的2次方减4ac”。

对于自然语言发音，如果一些中文字符和公式的操作符连在一起发音可能会出错，所以在遍历树转换过程中给所有的操作数节点和公式符号节点前加停顿符号“～”，不具有实际含义，仅做停顿标记；这样上面的求根公式可以进一步转换为：～x～等于2～a分之～负～b～加减根号下～b的2次方～减4～a～c。

本实施例通过一个具体的转换例子，对本发明提供的公式转自然语言的方法进行了说明，通过从目标文本中提取出待转换的LaTex公式，对其进行解析建立公式多叉树，结合预设规则和预先建立的用于公式符号与自然语言文本转换的符号转换表，深度遍历公式多叉树，对公式多叉树中的每一个节点进行自然语言文本的转换，达到了将LaTex公式转换成自然语言文本的目的，从而实现了对教学资料中的公式识别并进行发音，扩展了机器发音在教育领域中的应用场景。

实施例2：

如图6所示的结构示意图，对应于实施例1所提供的一种将LaTex公式转为自然语言的方法，本实施例提供了一种将LaTex公式转为自然语言的系统，包括：

符号转换表建立模块1，用于建立符号转换表；所述符号转换表中包括公式符号及对应的自然语言；

LaTex公式提取模块2，用于从目标文本中提取待转换LaTex公式；

MathML转换模块3，用于将所述待转换LaTex公式转换为MathML文本；

公式多叉树生成模块4，用于对所述MathML文本进行解析生成公式多叉树；所述公式多叉树中包括不同层级的若干个节点，无子级节点的节点表示所述待转换LaTex公式中的操作数和公式符号，有子级节点的节点表示所述待转换LaTex公式中的函数符号；

自然语言转换模块5，用于深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言。

本实施例中，LaTex公式提取模块2包括：

标记符识别单元21，用于识别所述目标文本中的两个公式标记符；

公式截取单元22，用于截取两个所述公式标记符之间的文本，得到所述待转换LaTex公式。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本文中应用了具体个例，但以上描述仅是对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；本领域的技术人员应该理解，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种将LaTex公式转为自然语言的方法，其特征在于，所述方法包括以下步骤：

从目标文本中提取待转换LaTex公式；

将所述待转换LaTex公式转换为MathML文本；

2.根据权利要求1所述的方法，其特征在于，所述从目标文本中提取待转换LaTex公式，具体包括：

识别所述目标文本中的两个公式标记符；

3.根据权利要求2所述的方法，其特征在于，所述公式标记符为“$”。

4.根据权利要求1所述的方法，其特征在于，所述深度遍历所述公式多叉树中的每一节点，按照预设规则以及所述符号转换表将所述公式多叉树各节点转换成自然语言，具体包括：

当读取的目标节点为操作数时：

直接将所述操作数作为自然语言输出；

当读取的目标节点为公式符号时：

当读取的目标节点为函数符号时：

根据所述函数符号对所述公式多叉树进行修改；

5.根据权利要求4所述的方法，其特征在于，所述根据所述函数符号对所述公式多叉树进行修改，具体包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述函数符号对所述公式多叉树进行修改，具体包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述函数符号对所述公式多叉树进行修改，具体包括：

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述公式符号为负号时：

9.一种将LaTex公式转为自然语言的系统，其特征在于，所述系统包括：

LaTex公式提取模块，用于从目标文本中提取待转换LaTex公式；

10.根据权利要求9所述的系统，其特征在于，所述LaTex公式提取模块包括：