CN107590192B

CN107590192B - 文本问题的数学化处理方法、装置、设备和存储介质

Info

Publication number: CN107590192B
Application number: CN201710687829.7A
Authority: CN
Inventors: 刘晓江; 王; 史树明
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2023-05-05
Anticipated expiration: 2037-08-11
Also published as: US11386271B2; US20190377797A1; CN107590192A; WO2019029723A1

Abstract

本发明涉及一种文本问题的数学化处理方法、装置、计算机设备和存储介质，该方法包括：获取问题文本序列；映射所述问题文本序列中的数字为表达式词汇；将包括所述表达式词汇的问题文本序列编码为语义向量；解码所述语义向量，生成包括所述表达式词汇的表达式；将所述表达式中的所述表达式词汇替换为所映射的数字。本申请的方案提高了用于答题的表达式的准确性。

Description

文本问题的数学化处理方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种文本问题的数学化处理方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的发展，人工智能的应用越来越广泛，使用人工智能进行解题的研究也是逐渐受到大家关注。

通过人工智能进行解题时，需要确定用于解答问题的表达式。目前是预先设置了表达式模板，通过预先设置的表达式模板来解答问题。

然而，目前的这种方法，只能使用预设的固定表达式模板解答问题，由于问题的多样性，预设的表达式模板往往具有局限性，无法适用于所有的问题。这样一来，就会造成用于答题的表达式不够准确。

发明内容

基于此，有必要针对目前用于答题的表达式准确性较低的问题，提供一种文本问题的数学化处理方法、装置、计算机设备和存储介质。

一种文本问题的数学化处理方法，所述方法包括：

获取问题文本序列；

映射所述问题文本序列中的数字为表达式词汇；

将包括所述表达式词汇的问题文本序列编码为语义向量；

解码所述语义向量，生成包括所述表达式词汇的表达式；

将所述表达式中的所述表达式词汇替换为所映射的数字。

一种文本问题的数学化处理装置，所述装置包括：

获取模块，用于获取问题文本序列；

映射模块，用于映射所述问题文本序列中的数字为表达式词汇；

编码模块，用于将包括所述表达式词汇的问题文本序列编码为语义向量；

表达式确定模块，用于解码所述语义向量，生成包括所述表达式词汇的表达式；

数学表达式输出模块，用于将所述表达式中的所述表达式词汇替换为所映射的数字。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

获取问题文本序列；

映射所述问题文本序列中的数字为表达式词汇；

将包括所述表达式词汇的问题文本序列编码为语义向量；

解码所述语义向量，生成包括所述表达式词汇的表达式；

将所述表达式中的所述表达式词汇替换为所映射的数字。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取问题文本序列；

映射所述问题文本序列中的数字为表达式词汇；

将包括所述表达式词汇的问题文本序列编码为语义向量；

解码所述语义向量，生成包括所述表达式词汇的表达式；

将所述表达式中的所述表达式词汇替换为所映射的数字。

上述文本问题的数学化处理方法、装置、计算机设备和存储介质，通过将问题文本序列中的数字映射为表达式词汇，并将包括所述表达式词汇的问题文本序列编码为语义向量，通过包含了问题信息的语义向量本身来生成表达式，将表达式中的表达式词汇替换为所映射的数字，得到的数学表达式相较于预设的固定的表达式模板而言，更加的准确，更符合解题需求。

附图说明

图1为一个实施例中文本问题的数学化处理方法的流程示意图；

图2为一个实施例中表达式词汇映射步骤的流程示意图；

图3为一个实施例中关键数字识别模型示意图；

图4为一个实施例中文本问题的数学化处理方法的原理示意图；

图5为一个实施例中表达式确定步骤的流程示意图；

图6为一个实施例中输出概率确定步骤的流程示意图；

图7为一个实施例中相似度获取步骤的流程示意图；

图8为另一个实施例中文本问题的数学化处理方法的流程示意图；

图9为一个实施例中文本问题的数学化处理装置的框图；

图10为一个实施例中映射模块的框图；

图11为一个实施例中表达式确定模块的框图；

图12为另一个实施例中文本问题的数学化处理装置的框图；

图13为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中文本问题的数学化处理方法的流程示意图。本实施例主要以该文本问题的数学化处理方法应用于计算机设备来举例说明。该计算机设备可以是终端或服务器。参照图1，该方法具体包括如下步骤：

S102，获取问题文本序列。

其中，问题文本序列，是指将问题以文本形式进行表述得到的序列。问题可以是数学题或化学题等类型的问题。

比如，“丹妮有5支钢笔和3支铅笔,杰西卡比她多4支钢笔，但少2支铅笔。问：杰西卡总共有多少支笔？”就是一个问题文本序列。

S104，映射问题文本序列中的数字为表达式词汇。

其中，表达式词汇，是构成表达式的词汇。

在一个实施例中，构成表达式的词汇包括运算符词汇、变量词汇和常量词汇等。其中，运算符词汇是表征运算符的词汇，运算符可以是算术运算符、连接运算符、关系运算符、赋值运算符或逻辑运算符等。变量词汇是表征变量的词汇，比如表征变量的字母。本实施例中，计算机设备可以将问题文本序列中的数字映射为变量词汇。

比如，将步骤S102中所举例的问题文本序列中的数字映射为表达式词汇，得到的包括表达式词汇的问题文本序列为“丹妮有n1支钢笔和n2支铅笔,杰西卡比她多n3支钢笔，但少n4支铅笔。问：杰西卡总共有多少支笔？”。

S106，将包括表达式词汇的问题文本序列编码为语义向量。

其中，语义向量，是指表征包括表达式词汇的问题文本序列的语义的向量。可以理解，语义向量是对包括表达式词汇的问题文本序列的低维表达，涵盖了该整个问题文本序列的信息，该语义向量为句向量。

具体地，计算机设备可以对包括表达式词汇的问题文本序列中的每个词进行编码处理，根据每个词的信息对该包括表达式词汇的问题文本序列进行语义表示，得到该问题文本序列的语义向量。

S108，解码语义向量，生成包括表达式词汇的表达式。

具体地，计算机设备可以对语义向量进行解码，从语义向量中抽取信息，根据抽取的信息，确定解码时所要输出的表达式词汇，根据输出的表达式词汇来组合生成包括所映射的表达式词汇的表达式。

S110，将表达式中的表达式词汇替换为所映射的数字。

具体地，计算机设备可以根据步骤S104中问题文本序列中的数字与表达式词汇间的映射关系，将表达式中的表达式词汇替换为所映射的数字。

比如，表达式为x＝n1+n3+n2-n4，则将n1、n2、n3和n4替换为所映射的数字5、3、4和2，得到替换后得到的数学表达式x＝5+4+3-2。

上述文本问题的数学化处理方法，通过将问题文本序列中的数字映射为表达式词汇，并将包括所述表达式词汇的问题文本序列编码为语义向量，通过包含了问题信息的语义向量本身来生成表达式，将表达式中的表达式词汇替换为所映射的数字，得到的数学表达式相较于预设的固定的表达式模板而言，更加的准确，更符合解题需求，进而提高了答题准确性。

如图2所示，在一个实施例中，步骤S104(简称表达式词汇映射步骤)包括：

S202，确定问题文本序列中的数字和相应的上下文内容。

其中，上下文内容，是指位于问题文本序列中数字的前后、且与该数字具有语境关系的文本内容。

比如，问题文本序列包括“如果她有3个架子装满书”，则数字3相应的上下文内容就包括“如果她有”和“个架子装满书”。

在一个实施例中，计算机设备可以根据预设的上下文内容选取长度，确定所需要选取的上下文内容的范围。

S204，将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出问题文本序列中的关键数字。

其中，关键数字，是指与解题相关的数字。关键数字识别模型，是用于识别问题文本序列中的关键数字的模型。

在一个实施例中，计算机设备可以通过关键数字识别模型将数字和相应的上下文内容转换为词向量，通过隐藏层和激活函数对词向量进行转换处理，得到识别标签。计算机设备可以根据识别标签判断该数字是否为关键数字。其中，识别标签包括“是”和“否”的标签，若数字为关键数字，则对应“是”的标签，若数字为非关键数字，则对应“否”的标签。在一个实施例中，计算机设备可以在隐藏层基于神经网络单元来进行关键数字识别，比如LSTM单元。

图3为一个实施例中关键数字识别模型示意图。其中，全句中的数字3和其上下文内容输入关键数字识别模型中，关键数字识别模型通过隐藏层和激活函数对词向量进行转换处理，得到“True”or“False”的识别标签。

在一个实施例中，在步骤S204之前，该方法还包括：获取包括数字和相应上下文的样本数据，以及相应的识别标签，根据样本数据和识别标签进行机器学习模型训练，得到关键数字识别模型。

S206，映射问题文本序列中的关键数字为表达式词汇。

具体地，计算机设备可以将问题文本序列中的关键数字映射为表达式词汇，非关键数字则不进行映射。

比如，问题文本序列为“1天，1个女孩整理她的3个书架，保证每个架子都有九本书，那么她一共有多少书？”，识别出关键数字为3和9，则将问题文本序列中的关键数字3和9映射为表达式词汇，得到包括表达式词汇的问题文本序列为“1天，1个女孩整理她的n1个书架，保证每个架子都有n2本书，那么她一共有多少书？”。

上述实施例中，通过识别问题文本序列中的关键数字，仅将关键数字映射为表达式词汇，而不用将问题文本序列中所有数字映射为表达式词汇，降低了非关键数字对表达式生成过程的干扰，从而使得生成的表达式更加的准确，进而提高了答题的准确性。

在一个实施例中，步骤S106包括：将包括表达式词汇的问题文本序列中的各词转换为词向量，得到词向量序列；按照词向量序列中各词向量的先后顺序，循环地将前次向量编码后的值和当前词向量作为当次编码的输入值；将最后一次编码后的值作为包括表达式词汇的问题文本序列的语义向量。

其中，词向量，是指用于将语言中的词表示成数学形式的向量。比如，“话筒”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0...]，就是一种将语言文本表示为词向量的方式。可以理解，这里不限定将语言文本中的词转换为何种表示的词向量，只要能够将语言文本中的词进行数学化表示即可。

词向量序列，包括所转换成的各词向量。各词向量的先后顺序与相应的词在包括表达式词汇的问题文本序列中出现的先后顺序一致。可以理解，问题文本序列中最开始的词所对应的词向量在词向量序列中的顺序最靠前。

比如，包括表达式词汇的问题文本序列包括“丹妮有n1支钢笔和n2支铅笔……”，那么，词“丹妮”对应词向量v1,“有”对应词向量v2，“n1”对应词向量v3……，则词向量序列包括的词向量依次为v1、v2、v3……。

具体地，计算机设备可以按照词向量序列中各词向量的先后顺序，依次地对各词向量进行编码，循环地将前次编码后的值和当前词向量作为当次编码的输入值，进行当次的编码，直至最后一次编码为止，将最后一次编码后的值作为包括表达式词汇的问题文本序列的语义向量。可以理解，由于第一次编码时不存在前次编码，所以第一次编码时的输入值为第一个词向量。

在一个实施例中，计算机设备可以通过编码单元进行每次的编码处理，每次编码处理对应于一个编码单元来执行。计算机设备可以按照词向量系列中各词向量的先后顺序，循环地将前次编码后的值和当前词向量作为当次编码的输入值，输入进行当次编码的编码单元进行编码。其中，编码单元可以是深度神经网络单元，比如，可以是GRU(Gatedrecurrent unit，门限递归单元)

图4为一个实施例中的文本问题的数学化处理方法的原理示意图。如图4所示，词向量v1经过编码单元1进行编码后输出的值和词向量v2一起作为编码单元2进行编码的输入值，将编码单元2进行编码后的值和词向量v3一起作为编码单元3进行编码的输入值……直至进行完最后一次编码，将最后一次编码后的值作为包括表达式词汇的问题文本序列的语义向量c。

上述实施例中，将包括表达式词汇的问题文本序列中的各词转换为词向量，按照各词向量间的先后顺序，循环地将前次向量编码后的值和当前词向量作为当次编码的输入值；将最后一次编码后的值作为包括表达式词汇的问题文本序列的语义向量。使得所生成的语义向量能够更加充分、完整地包括问题文本序列的信息，进而基于该语义向量所生成的表达式更加的准确，进一步地提高了答题的准确性。

如图5所示，在一个实施例中，步骤S108(简称表达式确定步骤)具体包括以下步骤：

S502，获取表达式词汇集。

其中，表达式词汇集，是由表达式词汇组成的集合。表达式词汇集可以是表格格式也可以是其他格式。

具体地，计算机设备可以直接获取预设的初始的表达式词汇集。计算机设备也可以获取部分预设的初始的表达式词汇集。比如，初始的表达式词汇集包括100个表达式词汇，则计算机设备可以在步骤S402中获取包含其中50个表达式词汇的表达式词汇集。

S504，对语义向量进行循环解码，确定表达式词汇集中各表达式词汇在每次解码时的输出概率。

其中，对语义向量进行解码，是指分析提取语义向量中所包括的信息。可以理解，对语义向量进行循环解码，则语义向量会经历多次解码处理。

具体地，计算机设备在对语义向量进行循环解码时，会在每次解码时输出一个解码向量，计算机设备根据该解码向量能够确定表达式词汇集中各表达式词汇在该次解码时的输出概率。其中，解码向量，是对语义向量进行解码处理所输出的向量。在一个实施例中，解码向量是对语义向量进行非线性转换地解码处理而输出的向量。

S506，选取在每次解码时输出概率最大的表达式词汇进行输出。

具体地，在每次解码时，计算机设备可以根据表达式词汇集中各表达式词汇的输出概率，选取输出概率最大的表达式词汇进行输出。

比如，表达式词汇集中有50个表达式词汇，在每次解码时，每个表达式词汇都有对应的输出概率，计算机设备可以从这50个表达式词汇中选取输出概率最大的表达式词汇进行输出。

S508，按照输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的表达式词汇的表达式。

其中，映射后的表达式词汇，是指对问题文本序列中的数字映射后的表达式词汇。

可以理解，计算机设备在每次解码时，都会选取一个输出概率最大的表达式词汇进行输出，那么在循环解码的过程中，计算机设备则可以输出多个表达式词汇。计算机设备可以按照各输出的表达式词汇被输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的表达式词汇的表达式。

参照图4，图4中对语义向量c进行解码，每次解码后输出的表达式词汇为此次解码时输出概率最大的表达式词汇，图4中的“x”、“＝”、“n1”……“n4”则为每次输出的表达式词汇，将输出的表达式词汇按照输出的先后顺序组合，即生成表达式x＝n1+n3+n2-n4。

上述实施例中，通过对语义向量进行循环解码，根据解码信息将输出概率最大的表达式词汇进行输出，并根据输出的表达式词汇组成生成表达式，而非使用预设的固定的表达式模板，使得确定的用于解题的表达式更加的符合解题需求，从而将表达式中的表达式词汇替换为所映射的数字所输出的问题答案更加的准确。此外，根据输出概率最大的所输出的表达式词汇组合生成的表达式，也更加的准确，进一步提高了答题的准确性。

在一个实施例中，步骤S502包括：识别问题文本序列中的关键数字；获取初始的表达式词汇集；从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，去除与关键数字没有映射关系的表达式词汇。

其中，关键数字，是指与解题相关的数字。

在一个实施例中，计算机设备可以确定问题文本序列中的数字和相应的上下文内容，将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出问题文本序列中的关键数字。

具体地，计算机设备可以获取初始的表达式词汇集，然后确定初始的表达式词汇集中的与数字具有映射关系的表达式词汇，从所确定的与数字具有映射关系的表达式词汇中，去除与关键数字没有映射关系的表达式词汇。可以理解，这种情况下，步骤S404中的表达式词汇集，即为初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，除去与关键数字没有映射关系的表达式词汇后的表达式词汇集。即计算机设备在表达式词汇集中的与具有映射关系对应的表达式词汇中，仅保留与关键数字具有映射关系的表达式词汇，将与关键数字没有映射关系的表达式词汇去除。

比如，表达式词汇集中有100个表达式词汇，100个表达式词汇中有40个是与数字具有映射关系的表达式词汇，这40个与数字具有映射关系的表达式词汇中，有10个是与问题文本序列中识别出的关键数字具有映射关系的表达式词汇，那么，计算机设备则可以将其余30个与关键数字没有映射关系的表达式词汇去除，最终得到的表达式词汇集中包括70个表达式词汇集，其中包括10个与关键数字具有映射关系的表达式词汇。

可以理解，数字与表达式词汇间的映射关系，可以是固定的映射关系，也可以是动态的映射关系。固定的映射关系，是指数字与表达式间的映射关系是固定不变的。动态的映射关系，是指数字与表达式间的映射关系是动态变化的。

比如，假设如果不进行关键数字识别，则问题文本序列“1天，1个女孩整理她的4个书架，保证每个架子都有九本书，那么她一共有多少书？”中，第1个数字“1”就映射为n1，第2个数字“1”就映射为n2，第3个数字“4”就映射为n3，第4个数字“9”就映射为n4。识别出关键数字为“3”和“9”，此时，数字“3”就可以映射为n1，数字“9”就可以映射为n2。则表达式词汇集中的与数字具有映射关系的表达式词汇中，n1和n2属于与关键数字具有映射关系的表达式词汇，除了n1和n2以外的表达式词汇则为与关键数字没有映射关系的表达式词汇。

上述实施例中，识别问题文本序列中的关键数字，从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，除去与关键字没有映射关系的表达式词汇，使得得到的表达式词汇集中的表达式词汇数量减少，从而减少了输出概率计算量，但由于保留了关键数字而不影响问题文本序列的信息量。从而在保证表达式词汇输出准确性的前提下，大大减少了系统资源的占用。

在一个实施例中，步骤S504包括：对语义向量和前次输出的解码向量进行解码，得到当次输出的解码向量和相应权重矩阵；根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率。

其中，解码向量，是对语义向量进行解码处理所输出的向量。解码向量的相应权重矩阵，包括解码向量的各个维度的权重。

具体地，计算机设备在每次解码时，可以将语义向量与前次输出的解码向量进行当次的解码处理，得到当次输出的解码向量和相应权重矩阵。然后，计算机设备可以根据当次输出的解码向量和相应权重矩阵作为概率分布函数的输入，确定当次解码时表达式词汇集汇中各表达式词汇的输出概率。计算机设备可以将语义向量和当次输出的解码向量作为下次解码的输入，按照上述处理循环地进行多次解码，可以理解，每次解码时，语义向量本身都会作为输入值。首次解码时，由于不存在前次输出的解码向量，所以首次解码时是针对语义向量进行解码处理。

在一个实施例中，计算机设备可以通过解码单元进行每次的解码处理，每次解码处理对应于一个解码单元来执行。计算机设备可以通过解码单元对语义向量和前次输出的解码向量进行当次的解码，并将语义向量和当次输出的解码向量在实现下次解码处理的解码单元中进行解码。其中，解码单元可以是深度神经网络单元，比如，可以是LSTM(LongShort-Term Memory，长短期记忆网络)单元。

参照图4，每次解码时，在每个解码单元中输入的是语义向量c和前次解码时输出的解码向量h1、h2、h3……。每个解码单元对语义向量和前次解码时输出的解码向量进行解码。比如，解码单元2对语义向量c和解码单元1输出的解码向量h1进行解码，解码单元3是对语义向量c和解码单元2输出的解码向量h2进行解码。

在一个实施例中，计算机设备可以直接根据当次输出的解码向量和相应权重矩阵的乘积，确定当次解码时表达式词汇集中各表达式词汇的输出概率。计算机设备也可以根据该乘积和预设的表达式格式条件，来确定当次解码时表达式词汇集中各表达式词汇的输出概率。

上述实施例中，在每次解码时，不局限于对单一维度的信息(比如语义向量)进行解码分析，而是通过语义向量和前次解码得到的解码向量的结合来确定当次解码时各表达式词汇的输出概率，语义向量和前次的解码向量都一定程度上包括了问题文本序列中的信息，从而使得根据这两者的结合所确定出的各表达式词汇的输出概率更加的准确，进而使得根据输出的表达式词汇组合成的表达式更加的准确。

如图6所示，在一个实施例中，根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率(简称输出概率确定步骤)，具体包括以下步骤：

S602，根据前次输出的表达式词汇和预设的表达式词汇约束条件，生成当次与表达式词汇集中各表达式词汇对应的二进制向量。

其中，前次输出的表达式词汇，是指前次解码输出的表达式词汇。表达式词汇约束条件，是指前次解码时表达式词汇的输出与当次解码时表达式词汇的输出之间的约束条件。表达式词汇约束条件可以是一组或多组。

可以理解，该表达式词汇约束条件可以用于实现表达式的格式规范，与前次解码输出的表达式词汇满足表达式词汇约束条件的表达式词汇进行输出时才符合表达式的格式，与前次解码输出的表达式词汇不满足表达式词汇约束条件的表达式词汇进行输出时不符合表达式的格式。

比如，r为解码输出的表达式词汇，rt-1为t-1时刻这次解码输出的表达式词汇，rt为t时刻这次解码输出的表达式词汇，那么，rt-1与rt间的表达式词汇约束条件可以是：如果rt-1∈{+，-，*，/}，那么，

或者，如果rt-1为“＝”，那么

等等。

其中，与表达式词汇集中各表达式词汇对应的二进制向量，是指二进制向量的一个位置一一对应于表达式词汇集中的一个表达式词汇，其中，二进制向量中的“1”表征所对应的表达式词汇满足表达式词汇约束条件，二进制向量中的“0”表征所对应的表达式词汇不满足该表达式词汇约束条件。

具体地，计算机设备可以根据前次输出的表达式词汇和预设的表达式词汇约束条件，判断表达式词汇集中各表达式词汇是否满足表达式词汇约束条件，若满足，则在二进制向量中的对应位置赋值为1，若不满足，则在二进制向量中的对应位置赋值为0，进而生成当次解码时的二进制向量。

S604，确定当次输出的解码向量和相应权重矩阵的乘积。

具体地，计算机设备可以将当次输出的解码向量和相应权重矩阵相乘，得到当次输出的解码向量和相应权重矩阵的乘积。

S606，根据乘积和二进制向量，确定表达式词汇集中各表达式词汇在当次的输出概率。

在一个实施例中，计算机设备可以按照以下公式计算表达式词汇集中各表达式词汇在当次的输出概率：

其中，

表示表达式词汇集中各表达式词汇在时刻t这次解码时的输出概率；t表示解码的时刻；

表示是在时刻t这次解码时参与输出概率计算的表达式词汇集中的各表达式词汇；h_t为在时刻t这次解码时输出的解码向量；ρ_t为在时刻t这次解码时与表达式词汇集中各表达式词汇对应的二进制向量；⊙表示点乘；W为解码向量h_t的各维度的权重矩阵。

上述实施例，在确定表达式词汇的输出概率时，增加了表达式词汇约束关系的判断，使得输出的表达式词汇更加的符合表达式格式，提高了生成表达式格式的准确性。

在一个实施例中，在步骤S106之前，该方法还包括：获取包括表达式词汇的问题文本序列与预存问题文本序列间的相似度；确定预存问题文本序列与包括表达式词汇的问题文本序列间的最高相似度；当最高相似度小于预设阈值时，再执行将包括表达式词汇的问题文本序列编码为语义向量的步骤。

其中，预存问题文本序列，是具有对应表达式的预先存储的问题文本序列。预存问题文本序列为至少一个。

具体地，计算机设备可以直接获取已经确定出的包括表达式词汇的问题文本序列与预存问题文本序列间的相似度。计算机设备也可以通过文本相似度算法对包括表达式词汇的问题文本序列与预存问题文本序列进行相似度分析，得到相互间的相似度。在一个实施例中，计算机设备可以通过Jaccard(杰卡德)相似度算法计算包括表达式词汇的问题文本序列与预存问题文本序列间的相似度。

计算机设备可以确定包括表达式词汇的问题文本序列与各预存问题文本序列间的相似度，从中确定最高相似度。将最高相似度与预设阈值进行比对，当最高相似度小于预设阈值时，再执行步骤S106。

在一个实施例中，该方法还包括：当最高相似度大于或等于预设阈值时，则获取最高相似度的预存问题文本序列所对应的表达式；将包括表达式词汇的问题文本序列中的数字代入获取的表达式中输出问题答案。

具体地，计算机设备中预先存储了预设问题文本序列与表达式间的对应关系，当计算机设备判断出最高相似度大于或等于预设阈值时，则根据该对应关系，获取最高相似度的预存问题文本序列所对应的表达式。进一步地，计算机设备可以将包括表达式词汇的问题文本序列中的数字代入所获取的表达式中，输出问题答案。

上述实施例中，通过确定包括表达式词汇的问题文本序列与预存问题文本序列间的相似度，当最高相似度小于预设阈值时，再进行表达式的生成计算，当最高相似度大于或等于预设阈值时，则直接使用最高相似度的预存问题文本序列所对应的表达式，将数字代入该表达式输出问题答案，既避免了不必要的表达式确定计算所造成的资源浪费。此外，根据最高相似度大于预设阈值的预存问题文本序列的表达式进行答题也保证了准确性。

如图7所示，在一个实施例中，获取包括表达式词汇的问题文本序列与预存问题文本序列间的相似度(简称相似度获取步骤)，具体包括以下步骤：

S702，获取包括表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量。

其中，词组权重向量，是由问题文本序列中的词组的权重组成的向量。

具体地，计算机设备可以直接获取已经生成的包括表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量。计算机设备还可以对问题文本序列中和预存问题文本序列中的词组进行权重计算，生成相应的第一词组权重向量和第二词组权重向量。

S704，取第一词组权重向量与第二词组权重向量的交集的模。

S706，取第一词组权重向量与第二词组权重向量的并集的模。

可以理解，向量的交集或并集还是向量。向量的模是向量中各元素的平方和的开平方。

比如，向量a＝[1,0,0,2]；向量b＝[1,0,0,9]；则向量a与向量b的交集为向量c＝[1,0,0]。则

S708，根据交集的模和并集的模的比值，得到包括表达式词汇的问题文本序列与预存问题文本序列间的相似度。

具体地，计算机设备可以直接将交集的模和并集的模的比值，作为包括表达式词汇的问题文本序列与预存问题文本序列间的相似度。

在一个实施例中，计算机设备可以按照以下公式确定包括表达式词汇的问题文本序列与预存问题文本序列间的相似度：

其中，P_T为包括表达式词汇的问题文本序列的第一词组权重向量；Q为预存问题文本序列的第二词组权重向量；J(P_T,Q)为包括表达式词汇的问题文本序列与预存问题文本序列间的相似度；P_T∩Q为第一词组权重向量与第二词组权重向量的交集；|P_T∩Q|为第一词组权重向量与第二词组权重向量的交集的模；P_T∪Q为第一词组权重向量与第二词组权重向量的并集；|P_T∪Q|为第一词组权重向量与第二词组权重向量的并集的模；|P_T|为第一词组权重向量的模；|Q|为第二词组权重向量的模。

上述实施例中，通过包括表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量，来确定包括表达式词汇的问题文本序列与预存问题文本序列间的相似度，保证了所确定的相似度的准确性，进而基于该相似度所进行的阈值比对结果更加的准确。

在一个实施例中，获取包括表达式词汇的问题文本序列的第一词组权重向量包括：获取所包含的各词组在包括表达式词汇的问题文本序列中的词频；根据词频、预存问题文本序列的总数和包括各词组的预存问题文本序列的数量，确定各词组的权重；根据各词组的权重，组成包括表达式词汇的问题文本序列的第一词组权重向量。

其中，词频，是指包括表达式词汇的问题文本序列中的各词组在该问题文本序列中出现的次数。预存问题文本序列，是指预先存储的问题文本序列。包括各词组的预存问题文本序列的数量，是指包括所要进行词组权重计算的词组的预存问题文本序列的数量。

比如，包括表达式词汇的问题文本序列中“书”出现了三次，有50个预存问题文本序列，词组“书”在该问题文本序列中出现了3次，50个预存问题文本序列中有40个预存问题文本序列中包括了“书”这一词组，则词组“书”在该问题文本序列中的词频为3，包括词组“书”的预存问题文本序列的数量为40。

在一个实施例中，根据词频、预存问题文本序列的总数和包括各词组的预存问题文本序列的数量，确定各词组的权重包括：确定预存问题文本序列的总数和包括各词组的预存问题文本序列的数量的比值；根据词频与比值的乘积，确定各词组的权重。

具体地，计算机设备可以直接将词频与比值的乘积作为词组的权重。计算机设备也可以根据词频与比值的乘积与权重调节系数或者权重调节函数结合，来确定各词组的权重。

在一个实施例中，计算机设备可以按照以下公式根据词频与比值的乘积计算各词组的权重：

其中，d表示包括表达式词汇的问题文本序列；m表示问题文本序列d中所包含的词组；W_m,d表示问题文本序列d中的词组m的权重；tf_m,d表示词组m在问题文本序列d中的词频；|D|为预存问题文本序列的总数，|d∈D|t∈d|表示包括词组m的预存问题文本序列的数量。

结合上述例子，按照该权重计算公式，则词组“书”的权重＝3*50/40＝3.75。

进一步地，计算机设备可以根据各词组的权重，组成包括表达式词汇的问题文本序列的第一词组权重向量。比如，问题文本序列中包括10个词组，则根据每个词组的权重组成一个10维的词组权重向量，即为该问题文本序列的词组权重向量。

可以理解，预存问题文本序列的第二词组权重向量也可以按照上述方法确定。

上述实施例中，根据词组在问题文本序列中的词频、预存问题文本序列的总数和包括各词组的预存问题文本序列的数量，所确定出的权重，能够准确地反映出词组的重要性，使得词组的权重更加的准确。进而根据各词组的权重，组成包括表达式词汇的问题文本序列的第一词组权重向量能够更加准确地反映出问题文本序列的文本特征，从而基于该第一词组权重向量进行的文本相似度计算也就更加准确。

在一个实施例中，该方法还包括：根据已将表达式词汇替换为数字的表达式输出问题答案。

在一个实施例中，计算机设备可以根据将表达式词汇替换为数字的表达式，来进行运算得到问题答案并输出。比如，将表达式词汇替换为数字的表达式为x＝5+4+3-2，得到问题答案为10。

在另一个实施例中，计算机设备还可以直接将由表达式词汇替换为数字的表达式作为问题答案进行输出。比如，针对配平化学方程式的问题，表达式为化学方程式，将化学方程式中表征系数的变量词汇替换为所映射的数字，得到配平后的化学方程式即为问题答案。

上述实施例中，将表达式词汇替换为数字的表达式是根据问题文本序列的语义信息进行数学化转换生成的表达式，保证了所生成的该表达式的准确性，进而根据该表达式输出的问题答案更加的准确。

如图8所示，在一个实施例中，提供了另一种文本问题的数学化处理方法，该方法具体包括以下步骤：

S802，获取问题文本序列，确定问题文本序列中的数字和相应的上下文内容。

S804，将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出问题文本序列中的关键数字，映射问题文本序列中的关键数字为表达式词汇。

S806，获取所包含的各词组在包括表达式词汇的问题文本序列中的词频，确定预存问题文本序列的总数和包括各词组的预存问题文本序列的数量的比值。

S808，根据词频与比值的乘积，确定各词组的权重。根据各词组的权重，组成包括表达式词汇的问题文本序列的第一词组权重向量。

在一个实施例中，按照以下公式计算各词组的权重：

S810，获取预存问题文本序列的第二词组权重向量；取第一词组权重向量与第二词组权重向量的交集的模；取第一词组权重向量与第二词组权重向量的并集的模。

S812，根据交集的模和并集的模的比值，得到包括表达式词汇的问题文本序列与预存问题文本序列间的相似度。

S814，判断预存问题文本序列与包括表达式词汇的问题文本序列间的最高相似度是否小于预设阈值，若是，执行步骤S816，若否，执行步骤S832。

S816，将包括表达式词汇的问题文本序列中的各词转换为词向量，得到词向量序列。

S818，按照词向量序列中各词向量的先后顺序，循环将前次编码后的值和当前词向量作为当次编码的输入值；将最后一次编码后的值作为包括表达式词汇的问题文本序列的语义向量。

S820，从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，去除与关键数字没有映射关系的表达式词汇。

S822，对语义向量和前次输出的解码向量进行解码，得到当次输出的解码向量和相应权重矩阵。

S824，根据前次输出的表达式词汇和预设的表达式词汇约束条件，生成当次去除与关键数字没有映射关系的表达式词汇后的表达式词汇集中各表达式词汇所对应的二进制向量。

S826，确定当次输出的解码向量和相应权重矩阵的乘积；根据乘积和二进制向量，确定表达式词汇集中各表达式词汇在当次的输出概率。

在一个实施例中，按照以下公式计算表达式词汇集中各表达式词汇在当次的输出概率：

其中，

S828，选取在每次解码时输出概率最大的表达式词汇进行输出；按照输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的表达式词汇的表达式。

S830，将表达式中的表达式词汇替换为所映射的数字；根据已将表达式词汇替换为数字的表达式输出问题答案。

S832，获取最高相似度的预存问题文本序列所对应的表达式；将包括表达式词汇的问题文本序列中的数字代入获取的表达式中输出问题答案。

上述文本问题的数学化处理方法，通过将问题文本序列中的数字映射为表达式词汇，并将包括所述表达式词汇的问题文本序列编码为语义向量，通过包含了问题信息的语义向量本身来生成表达式，将表达式中的表达式词汇替换为所映射的数字，得到的数学表达式相较于预设的固定的表达式模板而言，更加的准确，更符合解题需求，从而提高了答题准确性。

其次，通过识别问题文本序列中的关键数字，仅将关键数字映射为表达式词汇，而不用将问题文本序列中所有数字映射为表达式词汇，降低了非关键数字对表达式生成过程的干扰，从而使得生成的表达式更加的准确，进而提高了答题准确性。

然后，将包括表达式词汇的问题文本序列中的各词转换为词向量，按照各词向量间的先后顺序，循环地将前次向量编码后的值和当前词向量作为当次编码的输入值；将最后一次编码后的值作为包括表达式词汇的问题文本序列的语义向量。使得所生成的语义向量能够更加充分、完整地包括问题文本序列的信息，进而基于该语义向量所生成的表达式更加的准确，进一步地提高了答题准确性。

接着，通过对语义向量进行循环解码，根据解码信息将输出概率最大的表达式词汇进行输出，并根据输出的表达式词汇组成生成表达式，而非使用预设的固定的表达式模板，使得确定的用于解题的表达式更加的符合解题需求，从而将表达式中的表达式词汇替换为所映射的数字所输出的问题答案更加的准确。此外，根据输出概率最大的所输出的表达式词汇组合生成的表达式，也更加的准确，进一步提高了答题准确性。

最后，通过确定包括表达式词汇的问题文本序列与预存问题文本序列间的相似度，当最高相似度小于预设阈值时，再进行表达式的生成计算，当最高相似度大于或等于预设阈值时，则直接使用最高相似度的预存问题文本序列所对应的表达式，将数字代入该表达式输出问题答案，既避免了不必要的表达式确定计算所造成的资源浪费。此外，根据最高相似度大于预设阈值的预存问题文本序列的表达式进行答题也保证了准确性。

如图9所示，在一个实施例中，提供了一种文本问题的数学化处理装置900，该装置包括：获取模块902、映射模块904、编码模块908、表达式确定模块910以及数学表达式确定模块912，其中：

获取模块902，用于获取问题文本序列。

映射模块904，用于映射所述问题文本序列中的数字为表达式词汇。

编码模块908，用于将包括所述表达式词汇的问题文本序列编码为语义向量。

表达式确定模块910，用于解码所述语义向量，生成包括所述表达式词汇的表达式。

数学表达式确定模块912，用于将所述表达式中的所述表达式词汇替换为所映射的数字。

如图10所示，在一个实施例中，所述映射模块904包括：

输入内容确定模块904a，用于确定所述问题文本序列中的数字和相应的上下文内容；

关键数字识别模块904b，用于将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出所述问题文本序列中的关键数字；

表达式词汇映射模块904c，用于映射所述问题文本序列中的关键数字为表达式词汇。

在一个实施例中，所述编码模块908还用于将包括所述表达式词汇的问题文本序列中的各词转换为词向量，得到词向量序列；按照词向量序列中各词向量的先后顺序，循环地将前次编码后的值和当前词向量作为当次编码的输入值；将最后一次编码后的值作为包括所述表达式词汇的问题文本序列的语义向量。

如图11所示，在一个实施例中，所述表达式确定模块910包括：

输出概率确定模块910a，用于获取表达式词汇集；对所述语义向量进行循环解码，确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率；

表达式词汇输出模块910b，用于选取在每次解码时输出概率最大的表达式词汇进行输出；

表达式生成模块910c，用于按照输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的所述表达式词汇的表达式。

在一个实施例中，所述输出概率确定模块910a还用于识别所述问题文本序列中的关键数字；获取初始的表达式词汇集；从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，去除与所述关键数字没有映射关系的表达式词汇。

在一个实施例中，所述输出概率确定模块910a还用于对所述语义向量和前次输出的解码向量进行解码，得到当次输出的解码向量和相应权重矩阵；根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率。

在一个实施例中，所述输出概率确定模块910a还用于根据前次输出的表达式词汇和预设的表达式词汇约束条件，生成当次与所述表达式词汇集中各表达式词汇对应的二进制向量；确定当次输出的解码向量和相应权重矩阵的乘积；根据所述乘积和所述二进制向量，确定所述表达式词汇集中各表达式词汇在当次的输出概率。

在一个实施例中，所述输出概率确定模块910a还用于按照以下公式计算所述表达式词汇集中各表达式词汇在当次的输出概率：

其中，

如图12所示，在一个实施例中，该装置900还包括：

相似度获取模块905，用于获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度。

最高相似度处理模块906，用于确定所述预存问题文本序列与包括所述表达式词汇的问题文本序列间的最高相似度；当所述最高相似度小于预设阈值时，再通知所述编码模块908将包括所述表达式词汇的问题文本序列编码为语义向量。

在一个实施例中，所述最高相似度处理模块906还用于当所述最高相似度大于或等于所述预设阈值时，则通知所述表达式确定模块910获取最高相似度的预存问题文本序列所对应的表达式；将包括所述表达式词汇的问题文本序列中的数字代入获取的所述表达式中输出问题答案。

在一个实施例中，所述相似度获取模块905还用于获取包括所述表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量；取第一词组权重向量与第二词组权重向量的交集的模；取第一词组权重向量与第二词组权重向量的并集的模；根据所述交集的模和所述并集的模的比值，得到包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度。

在一个实施例中，所述相似度获取模块905还用于获取所包含的各词组在包括所述表达式词汇的问题文本序列中的词频；根据所述词频、预存问题文本序列的总数和包括所述各词组的预存问题文本序列的数量，确定所述各词组的权重；根据所述各词组的权重，组成包括所述表达式词汇的问题文本序列的第一词组权重向量。

在一个实施例中，所述相似度获取模块905还用于确定预存问题文本序列的总数和包括所述各词组的预存问题文本序列的数量的比值；根据所述词频与所述比值的乘积，确定各词组的权重。

在一个实施例中，所述相似度获取模块905还用于按照以下公式计算各词组的权重：

其中，d表示包括所述表达式词汇的问题文本序列；m表示问题文本序列d中所包含的词组；W_m,d表示问题文本序列d中的词组m的权重；tf_m,d表示词组m在问题文本序列d中的词频；|D|为预存问题文本序列的总数，|d∈D|t∈d|表示包括词组m的预存问题文本序列的数量。

在一个实施例中，数学表达式确定模块912还用于根据已将所述表达式词汇替换为所述数字的表达式输出问题答案。

图13为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是终端或服务器。终端可以是个人计算机或者移动电子设备，移动电子设备包括手机、平板电脑、个人数字助理或者穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。参照图13，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令，该计算机可读指令被执行时，可使得处理器执行一种文本问题的数学化处理方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种文本问题的数学化处理方法。计算机设备的网络接口用于进行网络通信。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的文本问题的数学化处理装置可以实现为一种计算机程序的形式，所述计算机程序可在如图13所示的计算机设备上运行，所述计算机设备的非易失性存储介质可存储组成该文本问题的数学化处理装置的各个程序模块，比如，图9所示的获取模块902、映射模块904、编码模块908、表达式确定模块910以及数学表达式确定模块912。各个程序模块中包括计算机可读指令，所述计算机可读指令用于使所述计算机设备执行本说明书中描述的本申请各个实施例的文本问题的数学化处理方法中的步骤，例如，所述计算机设备可以通过如图9所示的文本问题的数学化处理装置900中的获取模块902获取问题文本序列，通过映射模块904映射所述问题文本序列中的数字为表达式词汇，通过编码模块908将包括所述表达式词汇的问题文本序列编码为语义向量。计算机设备通过表达式确定模块910解码所述语义向量，生成包括所述表达式词汇的表达式，并通过数学表达式确定模块912，用于将所述表达式中的所述表达式词汇替换为所映射的数字。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

获取问题文本序列；

映射所述问题文本序列中的数字为表达式词汇；

将包括所述表达式词汇的问题文本序列编码为语义向量；

解码所述语义向量，生成包括所述表达式词汇的表达式；

将所述表达式中的所述表达式词汇替换为所映射的数字。

在一个实施例中，所述映射所述问题文本序列中的数字为表达式词汇包括：

确定所述问题文本序列中的数字和相应的上下文内容；

将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出所述问题文本序列中的关键数字；

映射所述问题文本序列中的关键数字为表达式词汇。

在一个实施例中，所述将包括所述表达式词汇的问题文本序列编码为语义向量包括：

将包括所述表达式词汇的问题文本序列中的各词转换为词向量，得到词向量序列；

按照词向量序列中各词向量的先后顺序，循环地将前次编码后的值和当前词向量作为当次编码的输入值；

将最后一次编码后的值作为包括所述表达式词汇的问题文本序列的语义向量。

在一个实施例中，所述解码所述语义向量，生成包括所述表达式词汇的表达式包括：

获取表达式词汇集；

对所述语义向量进行循环解码，确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率；

选取在每次解码时输出概率最大的表达式词汇进行输出；

按照输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的所述表达式词汇的表达式。

在一个实施例中，所述获取表达式词汇集包括：

识别所述问题文本序列中的关键数字；

获取初始的表达式词汇集；

从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，去除与所述关键数字没有映射关系的表达式词汇。

在一个实施例中，所述对所述语义向量进行循环解码，确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率包括：

对所述语义向量和前次输出的解码向量进行解码，得到当次输出的解码向量和相应权重矩阵；

根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率。

在一个实施例中，所述根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率包括：

根据前次输出的表达式词汇和预设的表达式词汇约束条件，生成当次与所述表达式词汇集中各表达式词汇对应的二进制向量；

确定当次输出的解码向量和相应权重矩阵的乘积；

根据所述乘积和所述二进制向量，确定所述表达式词汇集中各表达式词汇在当次的输出概率。

在一个实施例中，根据所述乘积和所述二进制向量，确定所述表达式词汇集中各表达式词汇在当次的输出概率包括：

按照以下公式计算所述表达式词汇集中各表达式词汇在当次的输出概率：

其中，

在一个实施例中，在所述将包括所述表达式词汇的问题文本序列编码为语义向量之前，计算机可读指令还使得处理器执行以下步骤：

获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度；

确定所述预存问题文本序列与包括所述表达式词汇的问题文本序列间的最高相似度；

当所述最高相似度小于预设阈值时，再执行所述将包括所述表达式词汇的问题文本序列编码为语义向量的步骤。

在一个实施例中，计算机可读指令还使得处理器执行以下步骤：

当所述最高相似度大于或等于所述预设阈值时，则

获取最高相似度的预存问题文本序列所对应的表达式；

将包括所述表达式词汇的问题文本序列中的数字代入获取的所述表达式中输出问题答案。

在一个实施例中，所述获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度包括：

获取包括所述表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量；

取第一词组权重向量与第二词组权重向量的交集的模；

取第一词组权重向量与第二词组权重向量的并集的模；

根据所述交集的模和所述并集的模的比值，得到包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度。

在一个实施例中，所述获取包括所述表达式词汇的问题文本序列的第一词组权重向量包括：

获取所包含的各词组在包括所述表达式词汇的问题文本序列中的词频；

根据所述词频、预存问题文本序列的总数和包括所述各词组的预存问题文本序列的数量，确定所述各词组的权重；

根据所述各词组的权重，组成包括所述表达式词汇的问题文本序列的第一词组权重向量。

在一个实施例中，所述根据所述词频、预存问题文本序列的总数和包括各词的预存问题文本序列的数量，确定所述各词组的权重包括：

确定预存问题文本序列的总数和包括所述各词组的预存问题文本序列的数量的比值；

根据所述词频与所述比值的乘积，确定各词组的权重。

在一个实施例中，所述根据所述词频与所述比值的乘积，确定各词的权重包括：

按照以下公式计算各词组的权重：

在一个实施例中，计算机可读指令还使得处理器执行以下步骤：根据已将所述表达式词汇替换为所述数字的表达式输出问题答案。

在一个实施例中，提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取问题文本序列；

映射所述问题文本序列中的数字为表达式词汇；

将包括所述表达式词汇的问题文本序列编码为语义向量；

解码所述语义向量，生成包括所述表达式词汇的表达式；

将所述表达式中的所述表达式词汇替换为所映射的数字。

确定所述问题文本序列中的数字和相应的上下文内容；

映射所述问题文本序列中的关键数字为表达式词汇。

获取表达式词汇集；

选取在每次解码时输出概率最大的表达式词汇进行输出；

在一个实施例中，所述获取表达式词汇集包括：

识别所述问题文本序列中的关键数字；

获取初始的表达式词汇集；

确定当次输出的解码向量和相应权重矩阵的乘积；

其中，

当所述最高相似度大于或等于所述预设阈值时，则

获取最高相似度的预存问题文本序列所对应的表达式；

取第一词组权重向量与第二词组权重向量的交集的模；

取第一词组权重向量与第二词组权重向量的并集的模；

根据所述词频与所述比值的乘积，确定各词组的权重。

按照以下公式计算各词组的权重：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本问题的数学化处理方法，所述方法包括：

获取问题文本序列；

确定所述问题文本序列中的数字和相应的上下文内容；

将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出所述问题文本序列中的关键数字；所述关键数字识别模型，是用于识别问题文本序列中的关键数字的模型；所述关键数字，是指与解题相关的数字；

映射所述问题文本序列中的关键数字为表达式词汇；

将包括所述表达式词汇的问题文本序列中的各词转换为词向量，得到词向量序列；所述词向量，是指用于将语言中的词表示成数学形式的向量；

将最后一次编码后的值作为包括所述表达式词汇的问题文本序列的语义向量；所述语义向量，是指表征包括所述表达式词汇的问题文本序列的语义的向量；

识别所述问题文本序列中的关键数字；

获取初始的表达式词汇集；

从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，去除与所述关键数字没有映射关系的表达式词汇；

选取在每次解码时输出概率最大的表达式词汇进行输出；

按照输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的所述表达式词汇的表达式；

将所述表达式中的所述表达式词汇替换为所映射的数字。

2.根据权利要求1所述的方法，其特征在于，所述对所述语义向量进行循环解码，确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率包括：

3.根据权利要求2所述的方法，其特征在于，所述根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率包括：

确定当次输出的解码向量和相应权重矩阵的乘积；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

当所述最高相似度小于预设阈值时，再执行将包括所述表达式词汇的问题文本序列编码为语义向量的步骤。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述最高相似度大于或等于所述预设阈值时，则

获取最高相似度的预存问题文本序列所对应的表达式；

6.根据权利要求4所述的方法，其特征在于，所述获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度包括：

取第一词组权重向量与第二词组权重向量的交集的模；

取第一词组权重向量与第二词组权重向量的并集的模；

7.根据权利要求6所述的方法，其特征在于，所述获取包括所述表达式词汇的问题文本序列的第一词组权重向量包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据已将所述表达式词汇替换为所述数字的表达式输出问题答案。

9.一种文本问题的数学化处理装置，其特征在于，所述装置包括：

获取模块，用于获取问题文本序列；

映射模块，用于确定所述问题文本序列中的数字和相应的上下文内容；将确定出的数字和相应的上下文内容输入关键数字识别模型，识别出所述问题文本序列中的关键数字；所述关键数字识别模型，是用于识别问题文本序列中的关键数字的模型；所述关键数字，是指与解题相关的数字；映射所述问题文本序列中的关键数字为表达式词汇；

编码模块，用于将包括所述表达式词汇的问题文本序列中的各词转换为词向量，得到词向量序列；所述词向量，是指用于将语言中的词表示成数学形式的向量；按照词向量序列中各词向量的先后顺序，循环地将前次编码后的值和当前词向量作为当次编码的输入值；将最后一次编码后的值作为包括所述表达式词汇的问题文本序列的语义向量；所述语义向量，是指表征包括所述表达式词汇的问题文本序列的语义的向量；

表达式确定模块，用于识别所述问题文本序列中的关键数字；获取初始的表达式词汇集；从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中，去除与所述关键数字没有映射关系的表达式词汇；对所述语义向量进行循环解码，确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率；选取在每次解码时输出概率最大的表达式词汇进行输出；按照输出的先后顺序，将各输出的表达式词汇组合生成包括映射后的所述表达式词汇的表达式；

数学表达式确定模块，用于将所述表达式中的所述表达式词汇替换为所映射的数字。

10.根据权利要求9所述的装置，其特征在于，所述输出概率确定模块还用于对所述语义向量和前次输出的解码向量进行解码，得到当次输出的解码向量和相应权重矩阵；根据当次输出的解码向量和相应权重矩阵，确定当次解码时表达式词汇集中各表达式词汇的输出概率。

11.根据权利要求10所述的装置，其特征在于，所述输出概率确定模块还用于根据前次输出的表达式词汇和预设的表达式词汇约束条件，生成当次与所述表达式词汇集中各表达式词汇对应的二进制向量；确定当次输出的解码向量和相应权重矩阵的乘积；根据所述乘积和所述二进制向量，确定所述表达式词汇集中各表达式词汇在当次的输出概率。

12.根据权利要求9至11中任一项所述的装置，其特征在于，所述装置还包括：

相似度获取模块，用于获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度；

最高相似度处理模块，用于确定所述预存问题文本序列与包括所述表达式词汇的问题文本序列间的最高相似度；当所述最高相似度小于预设阈值时，再将包括所述表达式词汇的问题文本序列编码为语义向量。

13.根据权利要求12所述的装置，其特征在于，所述最高相似度处理模块还用于当所述最高相似度大于或等于所述预设阈值时，则通知所述表达式确定模块获取最高相似度的预存问题文本序列所对应的表达式；将包括所述表达式词汇的问题文本序列中的数字代入获取的所述表达式中输出问题答案。

14.根据权利要求12所述的装置，其特征在于，所述相似度获取模块还用于获取包括所述表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量；取第一词组权重向量与第二词组权重向量的交集的模；取第一词组权重向量与第二词组权重向量的并集的模；根据所述交集的模和所述并集的模的比值，得到包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度。

15.根据权利要求14所述的装置，其特征在于，所述相似度获取模块还用于获取所包含的各词组在包括所述表达式词汇的问题文本序列中的词频；根据所述词频、预存问题文本序列的总数和包括所述各词组的预存问题文本序列的数量，确定所述各词组的权重；根据所述各词组的权重，组成包括所述表达式词汇的问题文本序列的第一词组权重向量。

16.根据权利要求9所述的装置，其特征在于，所述数学表达式确定模块还用于根据已将所述表达式词汇替换为所述数字的表达式输出问题答案。

17.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

18.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至8中任一项所述方法的步骤。