CN113961674A

CN113961674A - 一种关键信息与上市公司公告文本语义匹配方法及装置

Info

Publication number: CN113961674A
Application number: CN202111571558.1A
Authority: CN
Inventors: 胡为民; 郑喜
Original assignee: Shenzhen Dib Enterprise Risk Management Technology Co ltd
Current assignee: Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-01-21
Anticipated expiration: 2041-12-21
Also published as: CN113961674B

Abstract

本发明公开了一种关键信息与上市公司公告文本语义匹配方法及装置，方法包括：构建马尔科夫链矩阵；根据马尔科夫链矩阵，提取候选词语，构建关键信息候选词语集；筛选关键信息；根据最终关键信息和字段信息，得到最终关键信息向量表征和字段信息向量表征；对最终关键信息向量表征进行迁移学习，得到新生成的最终关键信息向量表征；最终关键信息与字段信息对齐，得到与最终关键信息语义匹配的上市公司公告文本；装置包括关键信息提取模块、以及关键信息与字段对齐模块；本发明提供的这种方法及装置适用于类型众多的上市公司公告文档的关键信息提取，且能够将关键信息与字段信息进行对齐，进而得到与关键信息语义匹配的上市公司公告文本。

Description

一种关键信息与上市公司公告文本语义匹配方法及装置

技术领域

本发明属于自然语言处理领域，尤其涉及一种关键信息与上市公司公告文本语义匹配方法及装置。

背景技术

上市公司公告文本数据中富含大量有价值的数据，这些数据通常涉及不同类型的（法）人、机构、日期、地点、事件、金额等关键信息，形成关于股权、财务、经营状况等描述。通过提取上市公司公告文本数据中的关键信息，并分析关键信息所对应的含义，有助于加强对上市公司的监管。然而上市公司公告类型多达数百种，每年公告数量多达数百万，难以通过人工方式对数据进行处理。由于不同类型公告中的关键信息所对应的含义不同，对于程序自动处理数据带来较大挑战。

现有文本关键信息抽取技术主要分为基于模板规则的文本关键信息抽取技术和基于机器学习的文本关键信息抽取技术。基于模板规则的文本关键信息抽取技术准确性较高，但需要针对不同的文档模板设计规则，不适用于类型众多的上市公司公告文档。基于机器学习的文本关键信息抽取技术则需要标注海量文本数据作为训练数据，目前缺乏已准确标注关键信息及其上下文含义的上市公司公告文本训练数据。

发明内容

本发明的目的在于克服上述现有技术中不适用于类型众多的上市公司公告文档，且不同类型公告中的关键信息所对应的含义不同，不便于程序自动处理数据的不足，提供了一种能够提取不同类型上市公司公告文档的关键信息，且将关键信息与字段信息进行对齐，进而得到与关键信息语义匹配的字段信息的方法，具体为一种关键信息与上市公司公告文本语义匹配方法。

本发明提供了一种关键信息与上市公司公告文本语义匹配方法，包括：

关键信息提取阶段；

S1：采集数据，构建马尔科夫链矩阵；

S2：根据马尔科夫链矩阵，提取候选词语，构建关键信息候选词语集；

S3：筛选关键信息，输入关键信息，并设置与关键信息相关的词首和词根，并根据关键信息候选词语集中的候选词语筛选出最终关键信息；

最终关键信息与字段信息对齐阶段；

S4：根据最终关键信息和字段信息，分别得到最终关键信息向量表征和字段信息向量表征；字段信息为上市公司公告文本关键信息；字段为上市公司公告文本中关键信息的类型；

S5：采用生成对抗网络对最终关键信息向量表征进行迁移学习，得到新生成的最终关键信息向量表征；

S6：最终关键信息与字段信息对齐，基于新生成的最终关键信息向量表征与所有字段信息的向量表征，计算语义相似度，选择与最终关键信息语义相似度最大的字段信息，作为对齐字段信息，根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。

优选的，S1中，包括步骤：

S1.1：采集常规文本数据和上市公司公告文本数据，提取常规文本数据和上市公司公告文本数据中的所有字符，并去重形成常用字典；

S1.2：计算常用字典中的常规文本中两中文连续字符

和

的条件转移概率

，构建常规文本的马尔科夫链矩阵，记为

；计算常用字典中的上市公司公告文本中两中文连续字符

和

的条件转移概率

，构建上市公司公告文本的马尔科夫链矩阵，记为

；

其中，i表示字符

在常用字典中的索引，j表示字符

在常用字典中的索引，n表示常用字典中的字符总数，常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率，上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。

优选的，S2中，包括步骤：

S2.1：根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵，计算两矩阵之间的信息熵，并提取两矩阵中信息熵大于阈值的两中文连续字符；

其中，两矩阵之间的信息熵记为

，公式为：

其中，

表示常规文本的马尔科夫链矩阵，

表示上市公司公告文本的马尔科夫链矩阵；

S2.2：采用分词法对常用字典中的上市公司公告文本进行中文分词，若词语中包含提取后的两中文连续字符，则提取词语为候选词语；进而构建关键信息候选词语集；词语记为

，其中，t、i、j、k均表示字符在常用字典中的索引，候选词语表示常见于上市公司公告文本的连续字符，或不常见于常规文本中的连续字符。

优选的，S3中，筛选出最终关键信息的步骤为：

S3.1：设置与关键信息相关的词首和词根；

S3.2：若词首与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将词首与候选词语组合，并将组合后的词首和候选词语作为最终关键信息；

若词根与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将候选词语与词根组合，并将组合后的候选词语和词根作为最终关键信息；

若词首、词根均与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将词首、候选词语、词根依次组合，并将组合后的词首、候选词语、词根作为最终关键信息；

S3.3：根据最终关键信息构建关键信息候选集。

优选的，S4中，得到最终关键信息向量表征和字段信息向量表征的具体过程为：

将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型中，获得关键信息候选集中所有词语的词向量，所有词语的词向量记为

，基于所有词语的词向量进行向量加法求和运算，并计算平均值，得到最终关键信息向量表征，最终关键信息向量表征记为：

；计算公式为：

其中，N表示关键信息候选集的词语总数，m表示第m个词语；

将字段信息输入至常规文本预训练好的词向量模型中，获得字段信息中所有字段的词向量，所有字段的词向量记为

，基于所有字段的词向量进行向量加法求和运算，并计算平均值，得到字段信息向量表征，所述字段信息向量表征记为：

；计算公式为：

其中，M表示字段的总数，a表示第a个字段。

优选的，S5中，生成对抗网络包括判别网络和生成网络，判别网络包括三层全连接网络，用于判别最终关键信息与字段信息的语义相似性；生成网络包括三层全连接网络，用于生成最终关键信息迁移学习后的向量表征，最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。

优选的，判别网络采用梯度下降法进行训练，并修正判别网络的权重参数；生成网络采用梯度上升法训练，并修正生成网络的权重参数。

优选的，新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。

优选的，S6中，计算语义相似度的方法为：采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度，计算公式为：

其中，

为新生成的最终关键信息向量表征，

表示字段信息向量表征。

本发明还提供了一种关键信息与上市公司公告文本语义匹配装置，包括关键信息提取模块、以及关键信息与字段信息对齐模块，关键信息提取模块用于在数据中筛选出最终关键信息；关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐，得到与最终关键信息语义匹配的字段信息，进而得到与最终关键信息语义匹配的上市公司公告文本。

有益效果：本发明提供的这种方法适用于类型众多的上市公司公告文档的关键信息提取，且能够将关键信息与字段信息进行对齐，得到与关键信息语义匹配的上市公司公告文本，进而能够分析出关键信息所对应的含义，便于程序自动处理数据，有助于加强对上市公司的监管。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中一种关键信息与上市公司公告文本语义匹配方法的流程图。

图2为本发明实施中一种关键信息与上市公司公告文本语义匹配方法中生成对抗网络的架构图。

具体实施方式

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供了一种关键信息与上市公司公告文本语义匹配方法，包括：

关键信息提取阶段；

S1：采集数据，构建马尔科夫链矩阵；

具体的，包括步骤：

S1.2：计算常用字典中的常规文本中两中文连续字符

和

的条件转移概率

，构建常规文本的马尔科夫链矩阵，记为

；计算常用字典中的上市公司公告文本中两中文连续字符

和

的条件转移概率

，构建上市公司公告文本的马尔科夫链矩阵，记为

；

其中，i表示字符

在常用字典中的索引，j表示字符

具体的，S2.1：根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵，计算两矩阵之间的信息熵，并提取两矩阵中信息熵大于阈值的两中文连续字符；

其中，两矩阵之间的信息熵记为

，公式为：

其中，

表示常规文本的马尔科夫链矩阵，

表示上市公司公告文本的马尔科夫链矩阵；

在本实施例中，候选词语为常见于上市公司公告文本的连续字符，或不常见于常规文本中的连续字符，分词法采用jieba分词法，可根据实际情况选用其它作用相似的分词法。

具体的，S3.1：设置与关键信息相关的词首和词根；

若词首、词根均与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将词首、候选词语、词根依次组合，并将组合后的词首、候选词语、词根作为最终关键信息。

在本实施例中，词首记为

，词根记为

；

词首与候选词语相邻表示为

，这种情况则将“词首”+“候选词语”作为最终关键信息；

词根与候选词语相邻表示为

，这种情况则将“候选词语”+“词根”作为最终关键信息；

词首、词根均与候选词语相邻表示为

，这种情况则将“词首”+“候选词语”+“词根”作为最终关键信息；

其中，

表示上市公司公告文本，

表示候选词语；

S3.3：根据最终关键信息构建关键信息候选集。

最终关键信息与字段信息对齐阶段；

S4：根据最终关键信息和字段信息，分别得到最终关键信息向量表征和字段信息向量表征；字段为上市公司公告文本中关键信息的类型（如机构、时间等），字段信息为上市公司公告文本关键信息；

其中，得到最终关键信息向量表征和字段信息向量表征的具体过程为：

将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型（word2vec）中，获得关键信息候选集中所有词语的词向量，所有词语的词向量记为

，基于所有词语的词向量进行向量加法求和运算，并计算平均值，得到最终关键信息向量表征，所述最终关键信息向量表征记为：

；计算公式为：

其中，N表示关键信息候选集的词语总数，m表示第m个词语；

；计算公式为：

其中，M表示字段的总数，a表示第a个字段。

在本实施例中，

，

。

其中，如图2所示，生成对抗网络包括判别网络和生成网络，判别网络包括三层全连接网络，用于判别最终关键信息与字段信息的语义相似性；生成网络包括三层全连接网络，用于生成最终关键信息迁移学习后的向量表征，最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。

判别网络采用梯度下降法进行训练，并修正判别网络的权重参数；生成网络采用梯度上升法训练，并修正生成网络的权重参数。

在本实施例中，生成对抗网络需使用的激活函数采用Sigmoid函数，损失函数采用交叉熵损失函数，在生成对抗网络中输入为最终关键信息向量表征、以及字段信息向量表征，通过判别网络判别最终关键信息与字段信息是否对齐，若对齐则打上字段对齐标签，若不对齐则打上字段不对齐标签，标签为字段信息是否对齐的独热（one-hot）向量，经生成对抗网络训练收敛后，根据标签进行判断，若标签为字段对齐标签，则通过生成网络输出新生成的最终关键信息向量表征，记为

；若标签为字段不对齐标签，则不输出；新生成的最终关键信息向量表征

与字段信息向量表征

在N维欧式空间中的距离相近。

其中，计算语义相似度的方法为：采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度，计算公式为：

其中，

为新生成的最终关键信息向量表征，

表示字段信息向量表征。

本实施例还提供了一种关键信息与上市公司公告文本语义匹配装置，应用于上述分析方法，包括关键信息提取模块、以及关键信息与字段对齐模块，关键信息提取模块用于在数据中筛选出最终关键信息；关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐，得到与最终关键信息语义匹配的字段信息，进而得到与最终关键信息语义匹配的上市公司公告文本。

本实施例提供的这种关键信息与上市公司公告文本语义匹配方法及装置具有如下有益效果：适用于类型众多的上市公司公告文档的关键信息提取，且能够将关键信息与字段信息进行对齐，得到与关键信息语义匹配的上市公司公告文本，进而能够分析出关键信息所对应的含义，便于程序自动处理数据，有助于加强对上市公司的监管。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键信息与上市公司公告文本语义匹配方法，其特征在于，包括：

关键信息提取阶段；

S1：采集数据，构建马尔科夫链矩阵；

最终关键信息与字段信息对齐阶段；

S4：根据最终关键信息和字段信息，分别得到最终关键信息向量表征和字段信息向量表征；所述字段信息为上市公司公告文本关键信息；字段为上市公司公告文本中关键信息的类型；

S6：最终关键信息与字段信息对齐，基于所述新生成的最终关键信息向量表征与所有的字段信息的向量表征，计算语义相似度，选择与最终关键信息语义相似度最大的字段信息，作为对齐字段信息，根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。

2.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，S1中，包括步骤：

S1.1：采集常规文本数据和上市公司公告文本数据，提取所述常规文本数据和上市公司公告文本数据中的所有字符，并去重形成常用字典；

S1.2：计算常用字典中的常规文本中两中文连续字符

和

的条件转移概率

，构建常规文本的马尔科夫链矩阵，记为

；计算常用字典中的上市公司公告文本中两中文连续字符

和

的条件转移概率

，构建上市公司公告文本的马尔科夫链矩阵，记为

；

其中，i表示字符

在常用字典中的索引，j表示字符

3.根据权利要求2所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，S2中，包括步骤：

其中，两矩阵之间的信息熵记为

，公式为：

其中，

表示常规文本的马尔科夫链矩阵，

表示上市公司公告文本的马尔科夫链矩阵；

S2.2：采用分词法对常用字典中的上市公司公告文本进行中文分词，若词语中包含提取后的两中文连续字符，则提取所述词语为候选词语；进而构建关键信息候选词语集；所述词语记为

4.根据权利要求3所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，S3中，筛选出最终关键信息的步骤为：

S3.1：设置与关键信息相关的词首和词根；

S3.2：若词首与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将所述词首与所述候选词语组合，并将组合后的词首和候选词语作为最终关键信息；

若词根与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将所述候选词语与所述词根组合，并将组合后的候选词语和词根作为最终关键信息；

若所述词首、词根均与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻，则将所述词首、候选词语、词根依次组合，并将组合后的词首、候选词语、词根作为最终关键信息；

S3.3：根据最终关键信息构建关键信息候选集。

5.根据权利要求4所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，S4中，得到最终关键信息向量表征和字段信息向量表征的具体过程为：

；计算公式为：

其中，N表示关键信息候选集的词语总数，m表示第m个词语；

；计算公式为：

其中，M表示字段的总数，a表示第a个字段。

6.根据权利要求5所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，S5中，所述生成对抗网络包括判别网络和生成网络，所述判别网络包括三层全连接网络，用于判别最终关键信息与字段信息的语义相似性；所述生成网络包括三层全连接网络，用于生成最终关键信息迁移学习后的向量表征，最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。

7.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，所述判别网络采用梯度下降法进行训练，并修正判别网络的权重参数；所述生成网络采用梯度上升法训练，并修正生成网络的权重参数。

8.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，所述新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。

9.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法，其特征在于，S6中，计算语义相似度的方法为：采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度，计算公式为：

其中，

为新生成的最终关键信息向量表征，

表示字段信息向量表征。

10.一种关键信息与上市公司公告文本语义匹配装置，其特征在于，包括关键信息提取模块、以及关键信息与字段信息对齐模块，所述关键信息提取模块用于在数据中筛选出最终关键信息；所述关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐，得到与最终关键信息语义匹配的字段信息，进而得到与最终关键信息语义匹配的上市公司公告文本。