CN115544213A

CN115544213A - 获取文本中的信息的方法、设备和存储介质

Info

Publication number: CN115544213A
Application number: CN202211498217.0A
Authority: CN
Inventors: 朱峰; 郑益明; 苗嫣
Original assignee: Shanghai Suntime Information Technology Co ltd
Current assignee: Shanghai Suntime Information Technology Co ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2022-12-30
Anticipated expiration: 2042-11-28
Also published as: CN115544213B

Abstract

本公开涉及一种用于获取文本中的信息的方法、计算设备和计算机可读存储介质。该方法包括：基于所输入的文本的预定信息，经由第一自然语言处理模型，将文本分类为目标文本和非目标文本，第一自然语言处理模型是基于二分类模型而构建的；将目标文本进行语句切分，以得到切分后的语句；经由第二自然语言处理模型，在切分后的语句中识别出目标语句；基于正则表达式匹配算法，提取目标语句中的目标数据；以及基于目标数据，获取目标信息。本公开至少能够快速、准确地获取差异化文本中的目标信息。

Description

获取文本中的信息的方法、设备和存储介质

技术领域

本公开总体上涉及信息处理领域，并且更具体地，涉及用于获取文本中的信息的方法、计算设备和计算机可读存储介质。

背景技术

传统的获取文本中的信息的方法例如包括：定位待提取文本中的特定信息的位置；以及基于所定位的位置信息，针对特定信息进行切分以便提取出目标信息。以待提取文本为券商研究机构的研究报告为例，券商研究机构通常从上下游、宏观、微观、产品、产能、原材料、竞争对手、渠道等方向，基于成体系的模型和方法论，对目标公司的未来的经济数据做出预测，以形成研究报告。鉴于每家研究机构考察的维度、使用的模型不尽相同，因此对应的预测数据的表现形式也不一致；加之预测数据会以自然语言句子的方式呈现在研究报告的不特定位置，传统的基于特定信息的位置而实现的获取文本中的信息的方式，无法准确地获取差异化的待提取文本中的目标信息，因此需要附以人工筛查，或附以逐篇逐字地机器筛查，因而难以应对大量文本（例如，研究报告）的筛查工作。

综上，传统的获取文本中的信息的技术方案的不足之处在于：难以快速、准确地获取差异化文本中的目标信息。

发明内容

针对上述问题，本公开提供一种用于获取文本中的信息的方法、计算设备和计算机可读存储介质，至少能够快速、准确地获取差异化文本中的目标信息。

根据本公开的第一方面，提供了一种用于获取文本中的信息的方法，该方法包括：基于所输入的文本的预定信息，经由第一自然语言处理模型，将文本分类为目标文本和非目标文本，第一自然语言处理模型是基于二分类模型而构建的；将目标文本进行语句切分，以得到切分后的语句；经由第二自然语言处理模型，在切分后的语句中识别出目标语句；基于正则表达式匹配算法，提取目标语句中的目标数据；以及基于目标数据，获取目标信息。

在一些实施例中，文本的预定信息包括文本的摘要，目标文本是个股研究报告，非目标文本是除了个股研究报告以外的其他文本。

在一些实施例中，经由第一自然语言处理模型，将文本分类为目标文本和非目标文本包括：计算文本中的第一文本的预定信息中的每个词语的词频-逆文本频率；基于所计算的词频-逆文本频率，创建与第一文本相对应的特征向量；以及将与第一文本相对应的特征向量输入第一自然语言处理模型，以对第一文本进行分类。

在一些实施例中，创建与第一文本相对应的特征向量包括：获取词库词语集合，其中词库词语集合含有N个词库词语，N为正整数；创建维度为N的与第一文本相对应的特征向量，其中与第一文本相对应的特征向量的N个维度分别与词库词语集合中的N个词库词语相关联；判断第一文本的预定信息中的每个词语是否属于词库词语集合；响应于第一文本的预定信息中的当前词语是词库词语集合中的第i个词库词语，将当前词语的词频-逆文本频率赋值到与第一文本相对应的特征向量的与第i个词库词语相关联的维度，其中i是小于或者等于N的正整数；以及响应于当前词语不属于词库词语集合，不将当前词语的词频-逆文本频率赋值到与第一文本相对应的特征向量。

在一些实施例中，方法还包括：基于维度为N的与样本文本相对应的特征向量，经由逻辑回归算法，对第一自然语言处理模型进行训练。

在一些实施例中，第二自然语言处理模型是基于bert模型而构建的，识别出切分后的语句中的目标语句包括：将切分后的语句中的第一语句输入bert模型，识别出用于指示预定盈利预测数据的目标语句。

在一些实施例中，基于正则表达式匹配算法，提取目标语句中的目标数据包括：基于正则表达式匹配算法，确定目标语句中的预测时间；基于正则表达式匹配算法，确定目标语句中的预测指标；以及基于预测时间的格式信息和预测指标的格式信息，将预测时间与预测指标按照年份进行关联，以得到目标数据。

在一些实施例中，方法还包括：对目标信息进行校验，以判断目标信息与预定条件的匹配性。

在一些实施例中，基于从文本中的第一文本所提取的第一目标数据和从文本中的第一文本所提取的第二目标数据之间的关联关系，对从第一文本所获取的目标信息进行校验；或者基于从文本中的第一文本所提取的第一目标数据和从文本中的第二文本所提取的第三目标数据之间的关联关系，对从第一文本所获取的目标信息进行校验。

在一些实施例中，对目标信息进行校验还包括：基于外部输入信息，对从第一文本所获取的目标信息进行校验。

根据本发明的第二方面，还提供了一种计算设备，计算设备包括：至少一个处理器；以及至少一个存储器，至少一个存储器被耦合到至少一个处理器并且存储用于由至少一个处理器执行的指令，指令当由至少一个处理器执行时，使得计算设备执行根据本公开的第一方面所述的方法。

根据本发明的第三方面，还提供了一种计算机可读存储介质，其上存储有计算机程序代码，计算机程序代码在被运行时执行根据本公开的第一方面所述的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1图示了根据本公开实施例的用于实施获取文本中的信息的方法的系统的示意图。

图2图示了根据本公开实施例的用于获取文本中的信息的方法的流程图。

图3图示了根据本公开实施例的用于将文本分类为目标文本和非目标文本的方法的流程图。

图4图示了根据本公开实施例的用于创建与第一文本相对应的特征向量的方法的流程图。

图5图示了用于实现本公开实施例的示例性电子设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如前文所描述，传统的基于特定信息的位置而实现的获取文本中的信息的方式，无法准确地获取差异化的待提取文本中的目标信息，因此需要附以人工筛查，或附以逐篇逐字地机器筛查，因而难以应对大量文本（例如，研究报告）的筛查工作。

为了至少部分地解决上述问题以及其他潜在问题中的一个或多个，本公开提出了一种用于获取文本中的信息的技术方案。在本公开的技术方案中，基于所输入的文本的预定信息，经由基于二分类模型而构建的第一自然语言处理模型，将文本分类为目标文本和非目标文本，并且将目标文本进行语句切分，本公开通过分类出目标文本以及仅针对目标文本进行后续处理，至少能够显著地减少经由第二自然语言处理模型处理的文本数据量，有利于提高数据处理速度与效率；并且本公开经由基于二分类模型而构建的第一自然语言处理模型对输入的文本进行分类，还至少能够使得对目标文本的后续处理不受限于输入的文本中目标信息的表现形式和所处位置的差异。另外，通过在切分后的语句中识别出目标语句；以及基于正则表达式匹配算法提取目标语句中的目标数据，以便基于目标数据，获取目标信息，本公开利用了目标文本语句的规律性，至少能够准确地识别出目标文本中的目标语句。因此，本公开至少能够快速、准确地获取差异化文本中的目标信息。

进一步地，本公开的实施例通过判断所获取的目标信息与预定条件的匹配性，对所获取的目标信息进行校验，至少能够提示可能出错的数据，提高所获取的信息的准确性。

下面通过几个具体的实施例对本公开进行说明。为了保持本发明实施例的以下说明清楚且简明，可省略已知功能和已知部件的详细说明。当本发明实施例的任一部件在一个以上的附图中出现时，该部件在每个附图中由相同的参考标号表示。

例如，图1图示了根据本公开实施例的用于实施获取文本中的信息的方法的系统100的示意图。如图1所示，系统100包括文本管理设备120、计算设备140和网络160，其中文本管理设备120和计算设备140可以通过网络160进行数据交互。

例如，在图1所示的示例中，文本管理设备120可以执行对文本的常规管理，例如收集、存储文本以形成文本库。又例如，文本管理设备120可以经由网络160将所管理的、待提取目标信息的文本发送给计算设备140，并且经由网络160接收计算设备140提取后的目标信息及其相关文本。例如，文本管理设备120可以包括但不限于以下设备：可执行文本读取和修改的台式计算机、膝上型计算机、上网本计算机、平板电脑、网络浏览器、电子书阅读器、个人数字助理（PDA）和可穿戴计算机（诸如智能手表和活动追踪器设备）等。需要说明的是，文本的格式可以取决于实际情况而定，本公开的实施例对此不作限制。例如，文本可以是PDF格式的文本。又例如，文本可以是DOC格式的文本。

例如，在图1所示的示例中，计算设备140用于获取文本中的信息。具体而言，计算设备140可以基于所输入的文本（例如，来自文本管理设备120的待提取目标信息的文本）的预定信息，经由第一自然语言处理模型，将文本分类为目标文本和非目标文本；将目标文本进行语句切分，以得到切分后的语句。计算设备140还可以经由第二自然语言处理模型，在切分后的语句中识别出目标语句；基于正则表达式匹配算法，提取目标语句中的目标数据；以及基于目标数据，获取目标信息。在一些实施例中，计算设备140可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备140例如包括：目标文本和非目标文本分类单元142、语句切分单元144、目标语句识别单元146、目标数据提取单元148、目标信息获取单元150。上述目标文本和非目标文本分类单元142、语句切分单元144、目标语句识别单元146、目标数据提取单元148、目标信息获取单元150可以配置在一个或者多个计算设备140上。

关于目标文本和非目标文本分类单元142，其用于基于所输入的文本的预定信息，经由第一自然语言处理模型，将文本分类为目标文本和非目标文本，第一自然语言处理模型是基于二分类模型而构建的。

关于语句切分单元144，其用于将目标文本进行语句切分，以得到切分后的语句。

关于目标语句识别单元146，其用于经由第二自然语言处理模型，在切分后的语句中识别出目标语句。

关于目标数据提取单元148，其用于基于正则表达式匹配算法，提取目标语句中的目标数据。

关于目标信息获取单元150，其用于基于目标数据，获取目标信息。

例如，在图1所示的示例中，网络可以是有线网络或无线网络，本公开的实施例对此不作限制。

例如，图2图示了本公开实施例提供的一种用于获取文本中的信息的方法200的流程图。方法200可以由图1中所示的系统100中的计算设备140执行，也可以由图5所示的电子设备500执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤202，计算设备140基于所输入的文本的预定信息，经由第一自然语言处理模型，将文本分类为目标文本和非目标文本，第一自然语言处理模型是基于二分类模型而构建的。

例如，所输入的文本为PDF格式的研究报告，文本的预定信息在PDF格式的研究报告的首页中。

例如，所输入的文本的预定信息包括文本的摘要。又例如，文本的预定信息还包括文本的标题、作者、日期、研究机构、涉及的上市公司股票名称（股票代码）等。

需要说明的是，所输入的文本的类型、预定信息在文本中的位置以及预定信息的内容均可以取决于实际情况而定，本公开的实施例对此不作限制。例如，文本也可以为其他格式（例如DOC、XML格式等）的各种文本，预定信息也可以遍布在文本中或在文本的末页中，预定信息的内容也可以为文本中的预定章节的内容等。

还需要说明的是，获取所输入的文本的预定信息的方式可以取决于实际情况而定，本公开的实施例对此不作限制。例如，在预定信息在所输入的文本的首页中的情况下，可以直接截取文本的首页并获取首页中的预定信息。

例如，目标文本是个股研究报告，非目标文本是除了个股研究报告以外的其他文本。例如，非目标文本包括行业研究报告、策略研究报告、宏观研究报告等。需要说明的是，在本公开的实施例中，个股研究报告指代主要研究一家上市公司的研究报告，并且个股研究报告的摘要中通常存在用于指示预定盈利预测数据的语句。还需要说明的是，以个股研究报告作为目标文本仅是示例性的，而不是对本公开的限制，实际上可以取决于要分析的研究报告的类型来确定目标文本。例如，目标文本可以是行业研究报告，非目标文本是除了行业研究报告以外的其他文本。

关于第一自然语言处理模型，其基于二分类模型而构建，二分类模型的分类算法可以取决于实际情况而定，本公开的实施例对此不作限制。例如，分类算法可以为朴素贝叶斯算法、逻辑回归算法、k近邻算法或决策树等。

关于将文本分类为目标文本和非目标文本的方法，其例如包括：计算文本中的第一文本的预定信息中的每个词语的词频-逆文本频率；基于所计算的词频-逆文本频率，创建与第一文本相对应的特征向量；以及将与第一文本相对应的特征向量输入第一自然语言处理模型，以对第一文本进行分类。下文将结合图3说明用于将文本分类为目标文本和非目标文本的方法300，在此，不再赘述。

在步骤204，计算设备140将目标文本进行语句切分，以得到切分后的语句。

例如，可以将目标文本按句号、感叹号、问号等标志语句结束的方式对个股研究报告的摘要进行语句切分。

分类后的目标文本的语句往往具有较强的规律性。例如，在目标文本是个股研究报告的情况下，在个股研究报告的摘要中通常包括用于指示预定盈利预测数据的语句，并且该语句通常包括预测时间和预测指标。例如，在一个示例性的个股研究报告的摘要的后半部分中包括语句“略微调整公司2023-2024年盈利预测，预计2022-2024年营收为4863.8/5372.6/5924.3亿元，预计归母净利润分别由298.9/341.9/385.7亿元调整为298.9/342.6/387.1亿元，预计每股收益分别为0.33/0.37/0.42元，对应2022年8月16日3.75元/股收盘价PE分别为11.5/10.0/8.9倍，维持‘增持’评级”。

在步骤206，计算设备140经由第二自然语言处理模型，在切分后的语句中识别出目标语句。

需要说明的是，在本公开的实施例中，第二自然语言处理模型可以取决于实际情况而定，本公开的实施例对此不作限制。例如，第二自然语言处理模型可以与第一语言处理模型相同。又例如，第二自然语言处理模型可以与第一语言处理模型不同。

例如，第二自然语言处理模型是基于bert模型而构建的。又例如，第二自然语言处理模型可以是基于XLNet模型而构建的。

关于bert模型，其为基于变换器（Transformer）的双向编码器表示模型。bert模型使用纯文本样本语句预先进行训练。例如，bert模型包括bert-base模型、bert-large模型等模型。

关于识别出切分后的语句中的目标语句的方法，其例如包括：计算设备140将切分后的语句中的第一语句输入bert模型，识别出用于指示预定盈利预测数据的目标语句。

例如，可以通过以下方式对bert模型进行迁移学习：将百万数量级的样本语句按照8：1：1的比例划分为训练集、验证集和测试集，其中训练集数据用于参数训练，验证集用于验证bert模型是否过拟合和超参调整，测试集用于最终确定bert模型效果；使用含768隐藏层的预训练模型进行迁移学习。例如，样本语句为中文语句。例如，样本语句为将个股研究报告的摘要进行语句切分后所得到的语句。例如，以下表1列出了用于对bert模型进行迁移学习训练的示例性样本语句：

表1

例如，将对目标文本进行切分所得到的切分后的一个语句输入经训练的bert模型，若bert模型的输出结果为1，则指示该语句是用于指示预定盈利预测数据的目标语句；若bert模型的输出结果为0，则指示该语句不是用于指示预定盈利预测数据的目标语句。通过这种方式可以识别出目标文本中的用于指示预定盈利预测数据的目标语句。

在步骤208，基于正则表达式匹配算法，提取目标语句中的目标数据。

关于正则表达式匹配算法，其利用正则表达式来匹配目标字符串。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符以及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

关于提取目标语句中的目标数据的方法，其例如包括：基于正则表达式匹配算法，确定目标语句中的预测时间；基于正则表达式匹配算法，确定目标语句中的预测指标；以及基于预测时间的格式信息和预测指标的格式信息，将预测时间与预测指标按照年份进行关联，以得到目标数据。

例如，目标语句是个股研究报告的摘要中的用于指示预定盈利预测数据的语句，这种语句具有较强的规律性，并且通常位于摘要的后半部分。

例如，个股研究报告通常基于当前财年往后进行三年的数据预测，个股研究报告的日期格式和分隔方式多样。例如，今年是2022年，则基于21、22、23、24、2021、2022、2023、2024等进行正则表达式匹配（例如，正则表达式为：/2[0-9]+[-~//]2[0-9]+[-~//] 2[0-9]+/），并保留已匹配的位置；检查不同的已匹配的位置之间的字符串是否为“-”、“~”、“/”等预先定义的分隔符，若不同的已匹配的位置之间的字符串是预先定义的分隔符，则可确定匹配上的数字是日期而不是干扰信息；在确定日期数字后，可以确定预测数据的预测时间。

例如，可以基于正则表达式匹配算法，通过寻找指标关键提示词来确定目标语句中的预测指标。例如，指标关键提示词包括“营收”、“营业收入”，“归母净利润”、“净利润”、“EPS”、“ROE”。例如，基于正则表达式匹配算法（例如，正则表达式为：/营收/）来寻找指标关键提示词，之后寻找命中的指标关键提示词后面紧跟的第一组以分隔符分隔的三个带小数点的数字字符串，再之后在数字字符串后的第一个字符串到第一个标点间匹配单位关键词（例如，“亿元”、“亿”、“百万元”等），以用于识别单位。

例如，可以基于正则表达式匹配算法，通过寻找评级关键提示词来确定目标语句中的预测指标。例如，评级关键提示词包括“评级”。例如，基于正则表达式匹配算法来寻找评级关键提示词，命中评级关键提示词后，寻找评级关键提示词左边或者右边第一个引号，将引号内词语作为评级信息提取。

例如，在目标语句为“根据中报业绩相应调整盈利预测，预计2022-2024年公司实现营收60.80/80.32/100.42亿元，同增35.77%/32.11%/25.02%，归母净利3.60/6.31/8.44亿元，同增133.32%/75.19%/33.69%，EPS为0.70/1.22/1.63元；对应2022年8月17日收盘价，PE为51.55/29.42/22.01X，维持‘买入’评级”的情况下，基于正则表达式匹配算法，匹配到2022、2024两个日期，并且两个日期之间的字符串是分隔符“-”，根据日期格式确定预测时间为2022、2023、2024；基于正则表达式匹配算法，命中指标关键提示词“营收”，并基于正则表达式（例如，正则表达式为：/[0-9]+/.[0-9]+[-~//] [0-9]+/.[0-9]+ [-~//] [0-9]+/.[0-9]+/）匹配到数字字符串“60.80/80.32/100.42”；数字字符串后第一个字符串到第一个标点间匹配到单位“亿元”；将“60.80/80.32/100.42”中的以“/”间隔开的数字与之前确定的2022、2023、2024按顺序进行关联；确定目标数据为：2022年营业收入60.80亿元，2023年营业收入80.32亿元，2024年营业收入100.42亿元。类似地，可以确定与归母净利润、同增和EPS等相关的目标数据。又例如，在上述目标语句的情况下，基于正则表达式匹配算法，可以命中评级关键提示词“评级”，关键词右边无引号，左边第一个引号内词语为“买入”，则提取评级信息为“买入”。

在步骤210，基于目标数据，获取目标信息。

例如，基于目标数据，可以获取期望分析的上市公司的盈利相关的预测信息。

在如上所述的本公开的实施例中，筛选出文本中的目标文本，并对目标文本进行后续处理，至少能够有效地减少数据处理量；并且在如上所述的本公开的实施例中，在获取文本中的目标信息时，利用了目标文本语句的规律性，通过对目标文本进行语句切分，识别出目标文本中的目标语句，至少能够快速、准确地从文本中获取目标信息。

机器学习的准确率、召回率均为统计指标，获取文本的目标信息的过程难以确定数据错误。对此，本公开的另一实施例中的用于获取文本中的信息的方法还包括：对目标信息进行校验，以判断目标信息与预定条件的匹配性。

例如，预定条件可以取决于实际情况而定，本公开的实施例对此不作限制。例如，预定条件可以来目标信息所属文本或来自其他文本。

例如，对目标信息进行校验包括：基于从文本中的第一文本所提取的第一目标数据和从文本中的第一文本所提取的第二目标数据之间的关联关系，对从第一文本所获取的目标信息进行校验；或者基于从文本中的第一文本所提取的第一目标数据和从文本中的第二文本所提取的第三目标数据之间的关联关系，对从第一文本所获取的目标信息进行校验。

例如，基于数据内生逻辑（例如会计准则、数据差异波动情况、额外关键数据等），对目标信息进行校验。例如，在基于额外关键数据对目标信息进行校验的一个示例中，可以基于股本数量和会计准则公式（例如，EPS=净利润/股本）来对挖掘出的同一预测年的EPS和净利润进行校对，在当天没有股本变动事件的情况下，基于股本数量和会计准则公式的计算结果若不满足容忍误差，则判定为未能通过校验。例如，在基于数据差异波动情况对目标信息进行校验的一个示例中，可以将相邻日期挖掘到的同一家研究机构对同一个上市公司同一年度的预测数据进行比较，若比较结果不满足容忍误差，则判定为未通过校验。

需要说明的是，上述校验逻辑是示例性的，而不是对本公开的限制，可以取决于实际情况而基于其他的校验逻辑对目标信息进行校验。

例如，对目标信息进行校验还包括：基于外部输入信息，对从第一文本所获取的目标信息进行校验。

例如，外部输入信息可以为人工输入的信息，或者为从其他设备处接收到的信息，本公开的实施例对此不作限制。

在如上所述的本公开的实施例中，基于所输入的文本的预定信息，经由基于二分类模型而构建的第一自然语言处理模型，将文本分类为目标文本和非目标文本，并且将目标文本进行语句切分，通过分类出目标文本以及仅针对目标文本进行后续处理，至少能够显著地减少经由第二自然语言处理模型处理的文本数据量，有利于提高数据处理速度与效率；并且经由基于二分类模型而构建的第一自然语言处理模型对输入的文本进行分类，还至少能够使得对目标文本的后续处理不受限于输入的文本中目标信息的表现形式和所处位置的差异。另外，通过在切分后的语句中识别出目标语句；以及基于正则表达式匹配算法提取目标语句中的目标数据，以便基于目标数据，获取目标信息，利用了目标文本语句的规律性，至少能够准确地识别出目标文本中的目标语句。因此，本公开至少能够快速、准确地获取差异化文本中的目标信息。

图3图示了根据本公开实施例的用于将文本分类为目标文本和非目标文本的方法的流程图。方法300可以由图1中所示的系统100中的计算设备140执行，也可以由图5所示的电子设备500执行。应当理解的是，方法300还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤302，计算设备140计算文本中的第一文本的预定信息中的每个词语的词频-逆文本频率。需要说明的是，第一文本指代文本中的任一个文本。

例如，在一个示例中，经由结巴（jieba）切词工具，对个股研究报告的摘要（通常200~300字）进行切词，以得到摘要中的每个词语。例如，按搜索引擎方式对摘要中的语句“贵州茅台是生产茅台酒的公司”进行切词，可以得到词语“贵州”、“茅台”、“贵州茅台”、“是”、“生产”、“茅台”、“酒”、“茅台酒”、“的”、“公司”。需要说明的是，按搜索引擎方式进行切词可以切出全部可能的词语，为后续的分析提供更全面的数据，以提高后续获取文本中的信息的准确性。还需要说明的是，可以取决于实际情况选择适当的切词工具和切词方式，本公开的实施例对此不作限制。

例如，在一个示例中，去掉切词所得到的词语中的停用词，并计算去掉停用词后的每个词语的词频-逆文本频率。例如，在上述所得到的词语包括“贵州”、“茅台”、“贵州茅台”、“是”、“生产”、“茅台”、“酒”、“茅台酒”、“的”、“公司”的示例中，停用词包括“是”、“的”。

例如，对于第一文本的预定信息中的一个词语，首先确定该词语在第一文本中的出现频次（也就是词频），随后确定该词语在预定文本库中的逆文本频率（包含该词语的文本在预定文本库中的比例越高，该词语的逆文本频率越小），最后将该词语的词频和该词语的逆文本频率相乘可以得到该词语的词频-逆文本频率。需要说明的是，预定文本库可以取决于实际情况而定，本公开的实施例对此不作限制。例如，预定文本库可以是图1中所示的文本管理设备120所形成的文本库；又例如，预定文本库可以是图1中所示的计算设备120所存储的文本库。

在步骤304，计算设备140基于所计算的词频-逆文本频率，创建与第一文本相对应的特征向量。

下文将结合图4说明用于创建与第一文本相对应的特征向量的方法400，在此，不再赘述。

在步骤306，计算设备140将与第一文本相对应的特征向量输入第一自然语言处理模型，以对第一文本进行分类。

例如，将第一文本分类为个股研究报告和除了个股研究报告以外的其他文本。

需要说明的是，在本公开的实施例中，第一自然语言处理模型可以取决于实际情况而定，只要是基于二分类模型构建的即可，本公开的实施例对此不作限制。

例如，基于维度为N的与样本文本相对应的特征向量，经由逻辑回归算法，对第一自然语言处理模型进行训练。

例如，创建与样本文本相对应的特征向量的过程与创建与第一文本相对应的特征向量的过程类似，在此不再赘述。

例如，经由逻辑回归算法，使用以下公式（1）来对二分类模型进行训练：

（1）

在上述公式（1）中，y代表二分类模型的输出结果，W代表维度为N+1的待训练的参数向量，X代表维度为N+1的中间向量（V，1），V代表维度为N的与样本文本相对应的特征向量，W^T表示W的转置。通过梯度法迭代参数向量W，直至按照上述公式得到的输出结果y与真实值之间的差异小于预定义的阈值。

图4图示了根据本公开实施例的用于创建与第一文本相对应的特征向量的方法400的流程图。方法400可以由图1中所示的系统100中的计算设备140执行，也可以由图5所示的电子设备500执行。应当理解的是，方法400还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤402，计算设备140获取词库词语集合，其中词库词语集合含有N个词库词语，N为正整数。

在步骤404，计算设备140创建维度为N的与第一文本相对应的特征向量，其中与第一文本相对应的特征向量的N个维度分别与词库词语集合中的N个词库词语相关联。

在步骤406，计算设备140判断第一文本的预定信息中的每个词语是否属于词库词语集合。

在步骤408，计算设备140响应于第一文本的预定信息中的当前词语是词库词语集合中的第i个词库词语，将当前词语的词频-逆文本频率赋值到与第一文本相对应的特征向量的与第i个词库词语相关联的维度，其中i是小于或者等于N的正整数。

在步骤410，计算设备140响应于当前词语不属于词库词语集合，不将当前词语的词频-逆文本频率赋值到与第一文本相对应的特征向量。

例如，预定文本库包括样本文本，词库词语集合由样本文本中的词语构成。例如，词库词语集合包括对样本文本进行切词所得到的N个词库词语。例如，按照拼音顺序对N个词库词语进行排序，与第一文本相对应的特征向量的第一个维度与排序后的第一个词库词语相关联，与第一文本相对应的特征向量的第二个维度与排序后的第二个词库词语相关联，以此类推。需要说明的是，与第一文本相对应的特征向量的N个维度分别与词库词语集合中的N个词库词语相关联的方式可以取决于实际情况而定，本公开的实施例对此不作限制。例如，可以按照拼音顺序对N个词库词语进行排序，将与第一文本相对应的特征向量的第一个维度与排序后的最后一个词库词语相关联，将与第一文本相对应的特征向量的第二个维度与排序后的倒数第二个词库词语相关联，以此类推。又例如，可以按照随机顺序对N个词库词语进行排序，将与第一文本相对应的特征向量的第一个维度与排序后的第一个词库词语相关联，将与第一文本相对应的特征向量的第二个维度与排序后的第二个词库词语相关联，以此类推。

例如，在遍历过第一文本的预定信息中的每个词语是否属于词库词语集合后，对与第一文本相对应的特征向量中尚未赋值的维度赋值为0。

图5图示了用于实现本公开实施例的示例性电子设备500的框图。例如，如图1所示的计算设备140可以由电子设备500来实施。如图所示，电子设备500包括中央处理单元（CPU）502，其可以根据存储在只读存储器（ROM）504中的计算机程序指令或者从存储单元516加载到随机存取存储器（RAM）506中的计算机程序指令，来执行各种适当的动作和处理。在随机存取存储器506中，还可存储电子设备500操作所需的各种程序和数据。中央处理单元502、只读存储器504以及随机存取存储器506通过总线508彼此相连。输入/输出（I/O）接口510也连接至总线508。

电子设备500中的多个部件连接至输入/输出接口510，包括：输入单元512，例如键盘、鼠标、麦克风等；输出单元514，例如各种类型的显示器、扬声器等；存储单元516，例如磁盘、光盘等；以及通信单元518，例如网卡、调制解调器、无线通信收发机等。通信单元518允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200至400，可由中央处理单元502执行。例如，在一些实施例中，方法200至400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元516。在一些实施例中，计算机程序的部分或者全部可以经由只读存储器504和/或通信单元518而被载入和/或安装到电子设备500上。当计算机程序被加载到随机存取存储器506并由中央处理单元502执行时，可以执行上文描述的方法200至400的一个或多个动作。

本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于获取文本中的信息的方法，其特征在于，所述方法包括：

基于所输入的文本的预定信息，经由第一自然语言处理模型，将所述文本分类为目标文本和非目标文本，所述第一自然语言处理模型是基于二分类模型而构建的，所述目标文本是个股研究报告；

将所述目标文本进行语句切分，以得到切分后的语句；

经由第二自然语言处理模型，在所述切分后的语句中识别出用于指示预定盈利预测数据的目标语句；

基于正则表达式匹配算法，提取所述目标语句中的目标数据；

基于所述目标数据，获取目标信息；以及

对所述目标信息进行校验，以判断所述目标信息与预定条件的匹配性，

其中，对所述目标信息进行校验包括：基于从所述文本中的第一文本所提取的第一目标数据和从所述文本中的第一文本所提取的第二目标数据之间的关联关系，对从所述第一文本所获取的目标信息进行校验。

2.根据权利要求1所述的方法，其特征在于，所述文本的预定信息包括所述文本的摘要，所述非目标文本是除了所述个股研究报告以外的其他文本。

3.根据权利要求1所述的方法，其特征在于，经由第一自然语言处理模型，将所述文本分类为目标文本和非目标文本包括：

计算所述文本中的第一文本的预定信息中的每个词语的词频-逆文本频率；

基于所计算的词频-逆文本频率，创建与所述第一文本相对应的特征向量；以及

将与所述第一文本相对应的特征向量输入所述第一自然语言处理模型，以对所述第一文本进行分类。

4.根据权利要求3所述的方法，其特征在于，创建与所述第一文本相对应的特征向量包括：

获取词库词语集合，其中所述词库词语集合含有N个词库词语，N为正整数；

创建维度为N的与所述第一文本相对应的特征向量，其中与所述第一文本相对应的特征向量的N个维度分别与所述词库词语集合中的N个词库词语相关联；

判断所述第一文本的预定信息中的每个词语是否属于所述词库词语集合；

响应于所述第一文本的预定信息中的当前词语是所述词库词语集合中的第i个词库词语，将所述当前词语的词频-逆文本频率赋值到与所述第一文本相对应的特征向量的与所述第i个词库词语相关联的维度，其中i是小于或者等于N的正整数；以及

响应于所述当前词语不属于所述词库词语集合，不将所述当前词语的词频-逆文本频率赋值到与所述第一文本相对应的特征向量。

5.根据权利要求4所述的方法，其特征在于，还包括：

基于维度为N的与样本文本相对应的特征向量，经由逻辑回归算法，对第一自然语言处理模型进行训练。

6.根据权利要求1所述的方法，其特征在于，第二自然语言处理模型是基于bert模型而构建的，在所述切分后的语句中识别出用于指示预定盈利预测数据的目标语句包括：

将所述切分后的语句中的第一语句输入所述bert模型，识别出用于指示预定盈利预测数据的目标语句。

7.根据权利要求1所述的方法，其特征在于，基于正则表达式匹配算法，提取所述目标语句中的目标数据包括：

基于正则表达式匹配算法，确定所述目标语句中的预测时间；

基于正则表达式匹配算法，确定所述目标语句中的预测指标；以及

基于所述预测时间的格式信息和所述预测指标的格式信息，将所述预测时间与所述预测指标按照年份进行关联，以得到目标数据。

8.根据权利要求1所述的方法，其特征在于，对所述目标信息进行校验还包括：

基于从所述文本中的第一文本所提取的第一目标数据和从所述文本中的第二文本所提取的第三目标数据之间的关联关系，对从所述第一文本所获取的目标信息进行校验。

9.根据权利要求8所述的方法，其特征在于，对所述目标信息进行校验还包括：

基于外部输入信息，对从所述第一文本所获取的目标信息进行校验。

10. 一种计算设备，包括：

至少一个处理器；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理器并且存储用于由所述至少一个处理器执行的指令，所述指令当由所述至少一个处理器执行时，使得所述计算设备执行根据权利要求1至9中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序代码，所述计算机程序代码在被运行时执行根据权利要求1至9中任一项所述的方法。