CN113961674A - 一种关键信息与上市公司公告文本语义匹配方法及装置 - Google Patents

一种关键信息与上市公司公告文本语义匹配方法及装置 Download PDF

Info

Publication number
CN113961674A
CN113961674A CN202111571558.1A CN202111571558A CN113961674A CN 113961674 A CN113961674 A CN 113961674A CN 202111571558 A CN202111571558 A CN 202111571558A CN 113961674 A CN113961674 A CN 113961674A
Authority
CN
China
Prior art keywords
key information
text
information
word
public company
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111571558.1A
Other languages
English (en)
Other versions
CN113961674B (zh
Inventor
胡为民
郑喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Original Assignee
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dib Enterprise Risk Management Technology Co ltd filed Critical Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority to CN202111571558.1A priority Critical patent/CN113961674B/zh
Publication of CN113961674A publication Critical patent/CN113961674A/zh
Application granted granted Critical
Publication of CN113961674B publication Critical patent/CN113961674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种关键信息与上市公司公告文本语义匹配方法及装置,方法包括:构建马尔科夫链矩阵;根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;筛选关键信息;根据最终关键信息和字段信息,得到最终关键信息向量表征和字段信息向量表征;对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;最终关键信息与字段信息对齐,得到与最终关键信息语义匹配的上市公司公告文本;装置包括关键信息提取模块、以及关键信息与字段对齐模块;本发明提供的这种方法及装置适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,进而得到与关键信息语义匹配的上市公司公告文本。

Description

一种关键信息与上市公司公告文本语义匹配方法及装置
技术领域
本发明属于自然语言处理领域,尤其涉及一种关键信息与上市公司公告文本语义匹配方法及装置。
背景技术
上市公司公告文本数据中富含大量有价值的数据,这些数据通常涉及不同类型的(法)人、机构、日期、地点、事件、金额等关键信息,形成关于股权、财务、经营状况等描述。通过提取上市公司公告文本数据中的关键信息,并分析关键信息所对应的含义,有助于加强对上市公司的监管。然而上市公司公告类型多达数百种,每年公告数量多达数百万,难以通过人工方式对数据进行处理。由于不同类型公告中的关键信息所对应的含义不同,对于程序自动处理数据带来较大挑战。
现有文本关键信息抽取技术主要分为基于模板规则的文本关键信息抽取技术和基于机器学习的文本关键信息抽取技术。基于模板规则的文本关键信息抽取技术准确性较高,但需要针对不同的文档模板设计规则,不适用于类型众多的上市公司公告文档。基于机器学习的文本关键信息抽取技术则需要标注海量文本数据作为训练数据,目前缺乏已准确标注关键信息及其上下文含义的上市公司公告文本训练数据。
发明内容
本发明的目的在于克服上述现有技术中不适用于类型众多的上市公司公告文档,且不同类型公告中的关键信息所对应的含义不同,不便于程序自动处理数据的不足,提供了一种能够提取不同类型上市公司公告文档的关键信息,且将关键信息与字段信息进行对齐,进而得到与关键信息语义匹配的字段信息的方法,具体为一种关键信息与上市公司公告文本语义匹配方法。
本发明提供了一种关键信息与上市公司公告文本语义匹配方法,包括:
关键信息提取阶段;
S1:采集数据,构建马尔科夫链矩阵;
S2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;
S3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;
最终关键信息与字段信息对齐阶段;
S4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;字段信息为上市公司公告文本关键信息;字段为上市公司公告文本中关键信息的类型;
S5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;
S6:最终关键信息与字段信息对齐,基于新生成的最终关键信息向量表征与所有字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。
优选的,S1中,包括步骤:
S1.1:采集常规文本数据和上市公司公告文本数据,提取常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;
S1.2:计算常用字典中的常规文本中两中文连续字符
Figure 948894DEST_PATH_IMAGE001
Figure 484918DEST_PATH_IMAGE002
的条件转移概率
Figure 657273DEST_PATH_IMAGE003
,构建常规文本的马尔科夫链矩阵,记为
Figure 546732DEST_PATH_IMAGE005
;计算常用字典中的上市公司公告文本中两中文连续字符
Figure 878356DEST_PATH_IMAGE006
Figure 460647DEST_PATH_IMAGE007
的条件转移概率
Figure 120298DEST_PATH_IMAGE008
,构建上市公司公告文本的马尔科夫链矩阵,记为
Figure 938082DEST_PATH_IMAGE010
其中,i表示字符
Figure 733999DEST_PATH_IMAGE001
在常用字典中的索引,j表示字符
Figure 752771DEST_PATH_IMAGE002
在常用字典中的索引,n表示常用字典中的字符总数,常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率,上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。
优选的,S2中,包括步骤:
S2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;
其中,两矩阵之间的信息熵记为
Figure 260238DEST_PATH_IMAGE011
,公式为:
Figure 22658DEST_PATH_IMAGE013
其中,
Figure 938661DEST_PATH_IMAGE005
表示常规文本的马尔科夫链矩阵,
Figure 721809DEST_PATH_IMAGE014
表示上市公司公告文本的马尔科夫链矩阵;
S2.2:采用分词法对常用字典中的上市公司公告文本进行中文分词,若词语中包含提取后的两中文连续字符,则提取词语为候选词语;进而构建关键信息候选词语集;词语记为
Figure 90474DEST_PATH_IMAGE015
,其中,t、i、j、k均表示字符在常用字典中的索引,候选词语表示常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符。
优选的,S3中,筛选出最终关键信息的步骤为:
S3.1:设置与关键信息相关的词首和词根;
S3.2:若词首与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首与候选词语组合,并将组合后的词首和候选词语作为最终关键信息;
若词根与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将候选词语与词根组合,并将组合后的候选词语和词根作为最终关键信息;
若词首、词根均与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息;
S3.3:根据最终关键信息构建关键信息候选集。
优选的,S4中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:
将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为
Figure 515639DEST_PATH_IMAGE016
,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,最终关键信息向量表征记为:
Figure 551728DEST_PATH_IMAGE017
;计算公式为:
Figure 381144DEST_PATH_IMAGE018
其中,N表示关键信息候选集的词语总数,m表示第m个词语;
将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为
Figure 627317DEST_PATH_IMAGE019
,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:
Figure 731539DEST_PATH_IMAGE020
;计算公式为:
Figure 90977DEST_PATH_IMAGE021
其中,M表示字段的总数,a表示第a个字段。
优选的,S5中,生成对抗网络包括判别网络和生成网络,判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。
优选的,判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;生成网络采用梯度上升法训练,并修正生成网络的权重参数。
优选的,新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。
优选的,S6中,计算语义相似度的方法为:采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度,计算公式为:
Figure 263199DEST_PATH_IMAGE022
其中,
Figure 340877DEST_PATH_IMAGE023
为新生成的最终关键信息向量表征,
Figure 248790DEST_PATH_IMAGE024
表示字段信息向量表征。
本发明还提供了一种关键信息与上市公司公告文本语义匹配装置,包括关键信息提取模块、以及关键信息与字段信息对齐模块,关键信息提取模块用于在数据中筛选出最终关键信息;关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。
有益效果:本发明提供的这种方法适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,得到与关键信息语义匹配的上市公司公告文本,进而能够分析出关键信息所对应的含义,便于程序自动处理数据,有助于加强对上市公司的监管。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中一种关键信息与上市公司公告文本语义匹配方法的流程图。
图2为本发明实施中一种关键信息与上市公司公告文本语义匹配方法中生成对抗网络的架构图。
具体实施方式
下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了一种关键信息与上市公司公告文本语义匹配方法,包括:
关键信息提取阶段;
S1:采集数据,构建马尔科夫链矩阵;
具体的,包括步骤:
S1.1:采集常规文本数据和上市公司公告文本数据,提取常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;
S1.2:计算常用字典中的常规文本中两中文连续字符
Figure 852946DEST_PATH_IMAGE025
Figure 555323DEST_PATH_IMAGE026
的条件转移概率
Figure 385876DEST_PATH_IMAGE027
,构建常规文本的马尔科夫链矩阵,记为
Figure 690955DEST_PATH_IMAGE005
;计算常用字典中的上市公司公告文本中两中文连续字符
Figure 290564DEST_PATH_IMAGE025
Figure 22897DEST_PATH_IMAGE026
的条件转移概率
Figure 340746DEST_PATH_IMAGE028
,构建上市公司公告文本的马尔科夫链矩阵,记为
Figure 324882DEST_PATH_IMAGE029
其中,i表示字符
Figure 405096DEST_PATH_IMAGE025
在常用字典中的索引,j表示字符
Figure 449275DEST_PATH_IMAGE026
在常用字典中的索引,n表示常用字典中的字符总数,常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率,上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。
S2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;
具体的,S2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;
其中,两矩阵之间的信息熵记为
Figure 254420DEST_PATH_IMAGE030
,公式为:
Figure 901302DEST_PATH_IMAGE013
其中,
Figure 475503DEST_PATH_IMAGE005
表示常规文本的马尔科夫链矩阵,
Figure 425004DEST_PATH_IMAGE014
表示上市公司公告文本的马尔科夫链矩阵;
S2.2:采用分词法对常用字典中的上市公司公告文本进行中文分词,若词语中包含提取后的两中文连续字符,则提取词语为候选词语;进而构建关键信息候选词语集;词语记为
Figure 576500DEST_PATH_IMAGE031
,其中,t、i、j、k均表示字符在常用字典中的索引,候选词语表示常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符。
在本实施例中,候选词语为常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符,分词法采用jieba分词法,可根据实际情况选用其它作用相似的分词法。
S3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;
具体的,S3.1:设置与关键信息相关的词首和词根;
S3.2:若词首与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首与候选词语组合,并将组合后的词首和候选词语作为最终关键信息;
若词根与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将候选词语与词根组合,并将组合后的候选词语和词根作为最终关键信息;
若词首、词根均与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息。
在本实施例中,词首记为
Figure 902439DEST_PATH_IMAGE032
,词根记为
Figure 331146DEST_PATH_IMAGE033
词首与候选词语相邻表示为
Figure 841762DEST_PATH_IMAGE034
,这种情况则将“词首”+“候选词语”作为最终关键信息;
词根与候选词语相邻表示为
Figure 355920DEST_PATH_IMAGE035
,这种情况则将“候选词语”+“词根”作为最终关键信息;
词首、词根均与候选词语相邻表示为
Figure 485550DEST_PATH_IMAGE036
,这种情况则将“词首”+“候选词语”+“词根”作为最终关键信息;
其中,
Figure 126354DEST_PATH_IMAGE037
表示上市公司公告文本,
Figure 948816DEST_PATH_IMAGE038
表示候选词语;
S3.3:根据最终关键信息构建关键信息候选集。
最终关键信息与字段信息对齐阶段;
S4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;字段为上市公司公告文本中关键信息的类型(如机构、时间等),字段信息为上市公司公告文本关键信息;
其中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:
将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型(word2vec)中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为
Figure 809325DEST_PATH_IMAGE039
,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,所述最终关键信息向量表征记为:
Figure 742646DEST_PATH_IMAGE040
;计算公式为:
Figure 880366DEST_PATH_IMAGE041
其中,N表示关键信息候选集的词语总数,m表示第m个词语;
将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为
Figure 732784DEST_PATH_IMAGE042
,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:
Figure 221535DEST_PATH_IMAGE043
;计算公式为:
Figure 427388DEST_PATH_IMAGE044
其中,M表示字段的总数,a表示第a个字段。
在本实施例中,
Figure 809828DEST_PATH_IMAGE045
Figure 708514DEST_PATH_IMAGE046
S5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;
其中,如图2所示,生成对抗网络包括判别网络和生成网络,判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。
判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;生成网络采用梯度上升法训练,并修正生成网络的权重参数。
在本实施例中,生成对抗网络需使用的激活函数采用Sigmoid函数,损失函数采用交叉熵损失函数,在生成对抗网络中输入为最终关键信息向量表征、以及字段信息向量表征,通过判别网络判别最终关键信息与字段信息是否对齐,若对齐则打上字段对齐标签,若不对齐则打上字段不对齐标签,标签为字段信息是否对齐的独热(one-hot)向量,经生成对抗网络训练收敛后,根据标签进行判断,若标签为字段对齐标签,则通过生成网络输出新生成的最终关键信息向量表征,记为
Figure 418981DEST_PATH_IMAGE047
;若标签为字段不对齐标签,则不输出;新生成的最终关键信息向量表征
Figure 54624DEST_PATH_IMAGE047
与字段信息向量表征
Figure 432515DEST_PATH_IMAGE048
在N维欧式空间中的距离相近。
S6:最终关键信息与字段信息对齐,基于新生成的最终关键信息向量表征与所有字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。
其中,计算语义相似度的方法为:采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度,计算公式为:
Figure 361157DEST_PATH_IMAGE049
其中,
Figure 824499DEST_PATH_IMAGE050
为新生成的最终关键信息向量表征,
Figure 372155DEST_PATH_IMAGE051
表示字段信息向量表征。
本实施例还提供了一种关键信息与上市公司公告文本语义匹配装置,应用于上述分析方法,包括关键信息提取模块、以及关键信息与字段对齐模块,关键信息提取模块用于在数据中筛选出最终关键信息;关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。
本实施例提供的这种关键信息与上市公司公告文本语义匹配方法及装置具有如下有益效果:适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,得到与关键信息语义匹配的上市公司公告文本,进而能够分析出关键信息所对应的含义,便于程序自动处理数据,有助于加强对上市公司的监管。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种关键信息与上市公司公告文本语义匹配方法,其特征在于,包括:
关键信息提取阶段;
S1:采集数据,构建马尔科夫链矩阵;
S2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;
S3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;
最终关键信息与字段信息对齐阶段;
S4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;所述字段信息为上市公司公告文本关键信息;字段为上市公司公告文本中关键信息的类型;
S5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;
S6:最终关键信息与字段信息对齐,基于所述新生成的最终关键信息向量表征与所有的字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。
2.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S1中,包括步骤:
S1.1:采集常规文本数据和上市公司公告文本数据,提取所述常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;
S1.2:计算常用字典中的常规文本中两中文连续字符
Figure 264569DEST_PATH_IMAGE001
Figure 11070DEST_PATH_IMAGE002
的条件转移概率
Figure 321966DEST_PATH_IMAGE003
,构建常规文本的马尔科夫链矩阵,记为
Figure 982754DEST_PATH_IMAGE004
;计算常用字典中的上市公司公告文本中两中文连续字符
Figure 328285DEST_PATH_IMAGE005
Figure 478643DEST_PATH_IMAGE006
的条件转移概率
Figure 276835DEST_PATH_IMAGE007
,构建上市公司公告文本的马尔科夫链矩阵,记为
Figure 741314DEST_PATH_IMAGE008
其中,i表示字符
Figure 442816DEST_PATH_IMAGE001
在常用字典中的索引,j表示字符
Figure 967339DEST_PATH_IMAGE002
在常用字典中的索引,n表示常用字典中的字符总数,常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率,上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。
3.根据权利要求2所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S2中,包括步骤:
S2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;
其中,两矩阵之间的信息熵记为
Figure 49564DEST_PATH_IMAGE009
,公式为:
Figure 317734DEST_PATH_IMAGE011
其中,
Figure 106699DEST_PATH_IMAGE004
表示常规文本的马尔科夫链矩阵,
Figure 67702DEST_PATH_IMAGE012
表示上市公司公告文本的马尔科夫链矩阵;
S2.2:采用分词法对常用字典中的上市公司公告文本进行中文分词,若词语中包含提取后的两中文连续字符,则提取所述词语为候选词语;进而构建关键信息候选词语集;所述词语记为
Figure 138688DEST_PATH_IMAGE013
,其中,t、i、j、k均表示字符在常用字典中的索引,候选词语表示常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符。
4.根据权利要求3所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S3中,筛选出最终关键信息的步骤为:
S3.1:设置与关键信息相关的词首和词根;
S3.2:若词首与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述词首与所述候选词语组合,并将组合后的词首和候选词语作为最终关键信息;
若词根与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述候选词语与所述词根组合,并将组合后的候选词语和词根作为最终关键信息;
若所述词首、词根均与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息;
S3.3:根据最终关键信息构建关键信息候选集。
5.根据权利要求4所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S4中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:
将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为
Figure 944970DEST_PATH_IMAGE014
,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,所述最终关键信息向量表征记为:
Figure 854020DEST_PATH_IMAGE015
;计算公式为:
Figure 720345DEST_PATH_IMAGE016
其中,N表示关键信息候选集的词语总数,m表示第m个词语;
将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为
Figure 777163DEST_PATH_IMAGE017
,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:
Figure 387136DEST_PATH_IMAGE018
;计算公式为:
Figure 150692DEST_PATH_IMAGE019
其中,M表示字段的总数,a表示第a个字段。
6.根据权利要求5所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S5中,所述生成对抗网络包括判别网络和生成网络,所述判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;所述生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。
7.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,所述判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;所述生成网络采用梯度上升法训练,并修正生成网络的权重参数。
8.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,所述新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。
9.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S6中,计算语义相似度的方法为:采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度,计算公式为:
Figure 954963DEST_PATH_IMAGE020
其中,
Figure 436760DEST_PATH_IMAGE021
为新生成的最终关键信息向量表征,
Figure 647161DEST_PATH_IMAGE022
表示字段信息向量表征。
10.一种关键信息与上市公司公告文本语义匹配装置,其特征在于,包括关键信息提取模块、以及关键信息与字段信息对齐模块,所述关键信息提取模块用于在数据中筛选出最终关键信息;所述关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。
CN202111571558.1A 2021-12-21 2021-12-21 一种关键信息与上市公司公告文本语义匹配方法及装置 Active CN113961674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111571558.1A CN113961674B (zh) 2021-12-21 2021-12-21 一种关键信息与上市公司公告文本语义匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111571558.1A CN113961674B (zh) 2021-12-21 2021-12-21 一种关键信息与上市公司公告文本语义匹配方法及装置

Publications (2)

Publication Number Publication Date
CN113961674A true CN113961674A (zh) 2022-01-21
CN113961674B CN113961674B (zh) 2022-03-22

Family

ID=79473492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111571558.1A Active CN113961674B (zh) 2021-12-21 2021-12-21 一种关键信息与上市公司公告文本语义匹配方法及装置

Country Status (1)

Country Link
CN (1) CN113961674B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170242896A1 (en) * 2016-02-24 2017-08-24 Bank Of America Corporation Technical language processor
US20170242629A1 (en) * 2016-02-24 2017-08-24 Bank Of America Corporation System for categorical data encoding
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
US20180293220A1 (en) * 2017-04-05 2018-10-11 Samsung Electronics Co., Ltd Method and device for generating natural language expression by using framework
CN109412900A (zh) * 2018-12-04 2019-03-01 腾讯科技(深圳)有限公司 一种网络状态识别的方法、模型训练的方法及装置
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
US20190163691A1 (en) * 2017-11-30 2019-05-30 CrowdCare Corporation Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
US10361802B1 (en) * 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
CN110084281A (zh) * 2019-03-31 2019-08-02 华为技术有限公司 图像生成方法、神经网络的压缩方法及相关装置、设备
CN110489661A (zh) * 2019-07-24 2019-11-22 武汉大学 一种基于生成对抗网络和迁移学习的社交关系预测方法
CN110555273A (zh) * 2019-09-05 2019-12-10 苏州大学 基于隐马尔科夫模型和迁移学习的轴承寿命预测方法
CN111104595A (zh) * 2019-12-16 2020-05-05 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111724770A (zh) * 2020-05-19 2020-09-29 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111898381A (zh) * 2020-06-30 2020-11-06 北京来也网络科技有限公司 一种结合rpa与ai的文本信息提取方法、装置、设备及介质
CN112906392A (zh) * 2021-03-23 2021-06-04 北京天融信网络安全技术有限公司 一种文本增强方法、文本分类方法及相关装置
CN113515939A (zh) * 2021-04-27 2021-10-19 西安理工大学 一种勘察报告文本关键信息提取系统和提取方法
CN113761173A (zh) * 2020-07-20 2021-12-07 北京京东尚科信息技术有限公司 一种文本摘要生成方法和装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361802B1 (en) * 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US20170242896A1 (en) * 2016-02-24 2017-08-24 Bank Of America Corporation Technical language processor
US20170242629A1 (en) * 2016-02-24 2017-08-24 Bank Of America Corporation System for categorical data encoding
US20180293220A1 (en) * 2017-04-05 2018-10-11 Samsung Electronics Co., Ltd Method and device for generating natural language expression by using framework
US20190163691A1 (en) * 2017-11-30 2019-05-30 CrowdCare Corporation Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
CN109412900A (zh) * 2018-12-04 2019-03-01 腾讯科技(深圳)有限公司 一种网络状态识别的方法、模型训练的方法及装置
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
CN110084281A (zh) * 2019-03-31 2019-08-02 华为技术有限公司 图像生成方法、神经网络的压缩方法及相关装置、设备
CN110489661A (zh) * 2019-07-24 2019-11-22 武汉大学 一种基于生成对抗网络和迁移学习的社交关系预测方法
CN110555273A (zh) * 2019-09-05 2019-12-10 苏州大学 基于隐马尔科夫模型和迁移学习的轴承寿命预测方法
CN111104595A (zh) * 2019-12-16 2020-05-05 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111724770A (zh) * 2020-05-19 2020-09-29 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111898381A (zh) * 2020-06-30 2020-11-06 北京来也网络科技有限公司 一种结合rpa与ai的文本信息提取方法、装置、设备及介质
CN113761173A (zh) * 2020-07-20 2021-12-07 北京京东尚科信息技术有限公司 一种文本摘要生成方法和装置
CN112906392A (zh) * 2021-03-23 2021-06-04 北京天融信网络安全技术有限公司 一种文本增强方法、文本分类方法及相关装置
CN113515939A (zh) * 2021-04-27 2021-10-19 西安理工大学 一种勘察报告文本关键信息提取系统和提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SALAZAR, A 等: "Generative Adversarial Networks and Markov Random Fields for oversampling very small training sets", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
孙广路等: "基于最大信息系数和近似马尔科夫毯的特征选择方法", 《自动化学报》 *
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 *
肖春等: "生物医学领域中的文本信息抽取技术与系统综述", 《计算机应用研究》 *

Also Published As

Publication number Publication date
CN113961674B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
US20230031738A1 (en) Taxpayer industry classification method based on label-noise learning
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN114781392A (zh) 一种基于bert改进模型的文本情感分析方法
WO2021128704A1 (zh) 一种基于分类效用的开集分类方法
CN115238697A (zh) 基于自然语言处理的司法命名实体识别方法
CN113420548A (zh) 一种基于知识蒸馏和pu学习的实体抽取采样方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN109472020B (zh) 一种特征对齐中文分词方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
Al Ghamdi A novel approach to printed Arabic optical character recognition
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN116541523A (zh) 一种基于大数据的法律判决舆情分类方法
CN113961674B (zh) 一种关键信息与上市公司公告文本语义匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant