CN113961674A - 一种关键信息与上市公司公告文本语义匹配方法及装置 - Google Patents
一种关键信息与上市公司公告文本语义匹配方法及装置 Download PDFInfo
- Publication number
- CN113961674A CN113961674A CN202111571558.1A CN202111571558A CN113961674A CN 113961674 A CN113961674 A CN 113961674A CN 202111571558 A CN202111571558 A CN 202111571558A CN 113961674 A CN113961674 A CN 113961674A
- Authority
- CN
- China
- Prior art keywords
- key information
- text
- information
- word
- public company
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种关键信息与上市公司公告文本语义匹配方法及装置,方法包括:构建马尔科夫链矩阵;根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;筛选关键信息;根据最终关键信息和字段信息,得到最终关键信息向量表征和字段信息向量表征;对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;最终关键信息与字段信息对齐,得到与最终关键信息语义匹配的上市公司公告文本;装置包括关键信息提取模块、以及关键信息与字段对齐模块;本发明提供的这种方法及装置适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,进而得到与关键信息语义匹配的上市公司公告文本。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种关键信息与上市公司公告文本语义匹配方法及装置。
背景技术
上市公司公告文本数据中富含大量有价值的数据,这些数据通常涉及不同类型的(法)人、机构、日期、地点、事件、金额等关键信息,形成关于股权、财务、经营状况等描述。通过提取上市公司公告文本数据中的关键信息,并分析关键信息所对应的含义,有助于加强对上市公司的监管。然而上市公司公告类型多达数百种,每年公告数量多达数百万,难以通过人工方式对数据进行处理。由于不同类型公告中的关键信息所对应的含义不同,对于程序自动处理数据带来较大挑战。
现有文本关键信息抽取技术主要分为基于模板规则的文本关键信息抽取技术和基于机器学习的文本关键信息抽取技术。基于模板规则的文本关键信息抽取技术准确性较高,但需要针对不同的文档模板设计规则,不适用于类型众多的上市公司公告文档。基于机器学习的文本关键信息抽取技术则需要标注海量文本数据作为训练数据,目前缺乏已准确标注关键信息及其上下文含义的上市公司公告文本训练数据。
发明内容
本发明的目的在于克服上述现有技术中不适用于类型众多的上市公司公告文档,且不同类型公告中的关键信息所对应的含义不同,不便于程序自动处理数据的不足,提供了一种能够提取不同类型上市公司公告文档的关键信息,且将关键信息与字段信息进行对齐,进而得到与关键信息语义匹配的字段信息的方法,具体为一种关键信息与上市公司公告文本语义匹配方法。
本发明提供了一种关键信息与上市公司公告文本语义匹配方法,包括:
关键信息提取阶段;
S1:采集数据,构建马尔科夫链矩阵;
S2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;
S3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;
最终关键信息与字段信息对齐阶段;
S4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;字段信息为上市公司公告文本关键信息;字段为上市公司公告文本中关键信息的类型;
S5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;
S6:最终关键信息与字段信息对齐,基于新生成的最终关键信息向量表征与所有字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。
优选的,S1中,包括步骤:
S1.1:采集常规文本数据和上市公司公告文本数据,提取常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;
S1.2:计算常用字典中的常规文本中两中文连续字符和的条件转移概率,构建常规文本的马尔科夫链矩阵,记为;计算常用字典中的上市公司公告文本中两中文连续字符和的条件转移概率,构建上市公司公告文本的马尔科夫链矩阵,记为;
其中,i表示字符在常用字典中的索引,j表示字符在常用字典中的索引,n表示常用字典中的字符总数,常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率,上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。
优选的,S2中,包括步骤:
S2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;
S2.2:采用分词法对常用字典中的上市公司公告文本进行中文分词,若词语中包含提取后的两中文连续字符,则提取词语为候选词语;进而构建关键信息候选词语集;词语记为,其中,t、i、j、k均表示字符在常用字典中的索引,候选词语表示常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符。
优选的,S3中,筛选出最终关键信息的步骤为:
S3.1:设置与关键信息相关的词首和词根;
S3.2:若词首与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首与候选词语组合,并将组合后的词首和候选词语作为最终关键信息;
若词根与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将候选词语与词根组合,并将组合后的候选词语和词根作为最终关键信息;
若词首、词根均与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息;
S3.3:根据最终关键信息构建关键信息候选集。
优选的,S4中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:
将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,最终关键信息向量表征记为:;计算公式为:
其中,N表示关键信息候选集的词语总数,m表示第m个词语;
将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:;计算公式为:
其中,M表示字段的总数,a表示第a个字段。
优选的,S5中,生成对抗网络包括判别网络和生成网络,判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。
优选的,判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;生成网络采用梯度上升法训练,并修正生成网络的权重参数。
优选的,新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。
优选的,S6中,计算语义相似度的方法为:采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度,计算公式为:
本发明还提供了一种关键信息与上市公司公告文本语义匹配装置,包括关键信息提取模块、以及关键信息与字段信息对齐模块,关键信息提取模块用于在数据中筛选出最终关键信息;关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。
有益效果:本发明提供的这种方法适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,得到与关键信息语义匹配的上市公司公告文本,进而能够分析出关键信息所对应的含义,便于程序自动处理数据,有助于加强对上市公司的监管。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中一种关键信息与上市公司公告文本语义匹配方法的流程图。
图2为本发明实施中一种关键信息与上市公司公告文本语义匹配方法中生成对抗网络的架构图。
具体实施方式
下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了一种关键信息与上市公司公告文本语义匹配方法,包括:
关键信息提取阶段;
S1:采集数据,构建马尔科夫链矩阵;
具体的,包括步骤:
S1.1:采集常规文本数据和上市公司公告文本数据,提取常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;
S1.2:计算常用字典中的常规文本中两中文连续字符和的条件转移概率,构建常规文本的马尔科夫链矩阵,记为;计算常用字典中的上市公司公告文本中两中文连续字符和的条件转移概率,构建上市公司公告文本的马尔科夫链矩阵,记为;
其中,i表示字符在常用字典中的索引,j表示字符在常用字典中的索引,n表示常用字典中的字符总数,常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率,上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。
S2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;
具体的,S2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;
S2.2:采用分词法对常用字典中的上市公司公告文本进行中文分词,若词语中包含提取后的两中文连续字符,则提取词语为候选词语;进而构建关键信息候选词语集;词语记为,其中,t、i、j、k均表示字符在常用字典中的索引,候选词语表示常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符。
在本实施例中,候选词语为常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符,分词法采用jieba分词法,可根据实际情况选用其它作用相似的分词法。
S3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;
具体的,S3.1:设置与关键信息相关的词首和词根;
S3.2:若词首与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首与候选词语组合,并将组合后的词首和候选词语作为最终关键信息;
若词根与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将候选词语与词根组合,并将组合后的候选词语和词根作为最终关键信息;
若词首、词根均与关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息。
S3.3:根据最终关键信息构建关键信息候选集。
最终关键信息与字段信息对齐阶段;
S4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;字段为上市公司公告文本中关键信息的类型(如机构、时间等),字段信息为上市公司公告文本关键信息;
其中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:
将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型(word2vec)中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,所述最终关键信息向量表征记为:;计算公式为:
其中,N表示关键信息候选集的词语总数,m表示第m个词语;
将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:;计算公式为:
其中,M表示字段的总数,a表示第a个字段。
S5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;
其中,如图2所示,生成对抗网络包括判别网络和生成网络,判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。
判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;生成网络采用梯度上升法训练,并修正生成网络的权重参数。
在本实施例中,生成对抗网络需使用的激活函数采用Sigmoid函数,损失函数采用交叉熵损失函数,在生成对抗网络中输入为最终关键信息向量表征、以及字段信息向量表征,通过判别网络判别最终关键信息与字段信息是否对齐,若对齐则打上字段对齐标签,若不对齐则打上字段不对齐标签,标签为字段信息是否对齐的独热(one-hot)向量,经生成对抗网络训练收敛后,根据标签进行判断,若标签为字段对齐标签,则通过生成网络输出新生成的最终关键信息向量表征,记为;若标签为字段不对齐标签,则不输出;新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。
S6:最终关键信息与字段信息对齐,基于新生成的最终关键信息向量表征与所有字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。
其中,计算语义相似度的方法为:采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度,计算公式为:
本实施例还提供了一种关键信息与上市公司公告文本语义匹配装置,应用于上述分析方法,包括关键信息提取模块、以及关键信息与字段对齐模块,关键信息提取模块用于在数据中筛选出最终关键信息;关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。
本实施例提供的这种关键信息与上市公司公告文本语义匹配方法及装置具有如下有益效果:适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,得到与关键信息语义匹配的上市公司公告文本,进而能够分析出关键信息所对应的含义,便于程序自动处理数据,有助于加强对上市公司的监管。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种关键信息与上市公司公告文本语义匹配方法,其特征在于,包括:
关键信息提取阶段;
S1:采集数据,构建马尔科夫链矩阵;
S2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;
S3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;
最终关键信息与字段信息对齐阶段;
S4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;所述字段信息为上市公司公告文本关键信息;字段为上市公司公告文本中关键信息的类型;
S5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;
S6:最终关键信息与字段信息对齐,基于所述新生成的最终关键信息向量表征与所有的字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。
2.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S1中,包括步骤:
S1.1:采集常规文本数据和上市公司公告文本数据,提取所述常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;
S1.2:计算常用字典中的常规文本中两中文连续字符和的条件转移概率,构建常规文本的马尔科夫链矩阵,记为;计算常用字典中的上市公司公告文本中两中文连续字符和的条件转移概率,构建上市公司公告文本的马尔科夫链矩阵,记为;
3.根据权利要求2所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S2中,包括步骤:
S2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;
4.根据权利要求3所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S3中,筛选出最终关键信息的步骤为:
S3.1:设置与关键信息相关的词首和词根;
S3.2:若词首与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述词首与所述候选词语组合,并将组合后的词首和候选词语作为最终关键信息;
若词根与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述候选词语与所述词根组合,并将组合后的候选词语和词根作为最终关键信息;
若所述词首、词根均与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息;
S3.3:根据最终关键信息构建关键信息候选集。
5.根据权利要求4所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S4中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:
将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,所述最终关键信息向量表征记为:;计算公式为:
其中,N表示关键信息候选集的词语总数,m表示第m个词语;
将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:;计算公式为:
其中,M表示字段的总数,a表示第a个字段。
6.根据权利要求5所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,S5中,所述生成对抗网络包括判别网络和生成网络,所述判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;所述生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。
7.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,所述判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;所述生成网络采用梯度上升法训练,并修正生成网络的权重参数。
8.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,所述新生成的最终关键信息向量表征与字段信息向量表征在N维欧式空间中的距离相近。
10.一种关键信息与上市公司公告文本语义匹配装置,其特征在于,包括关键信息提取模块、以及关键信息与字段信息对齐模块,所述关键信息提取模块用于在数据中筛选出最终关键信息;所述关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111571558.1A CN113961674B (zh) | 2021-12-21 | 2021-12-21 | 一种关键信息与上市公司公告文本语义匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111571558.1A CN113961674B (zh) | 2021-12-21 | 2021-12-21 | 一种关键信息与上市公司公告文本语义匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113961674A true CN113961674A (zh) | 2022-01-21 |
CN113961674B CN113961674B (zh) | 2022-03-22 |
Family
ID=79473492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111571558.1A Active CN113961674B (zh) | 2021-12-21 | 2021-12-21 | 一种关键信息与上市公司公告文本语义匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113961674B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170242896A1 (en) * | 2016-02-24 | 2017-08-24 | Bank Of America Corporation | Technical language processor |
US20170242629A1 (en) * | 2016-02-24 | 2017-08-24 | Bank Of America Corporation | System for categorical data encoding |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
US20180293220A1 (en) * | 2017-04-05 | 2018-10-11 | Samsung Electronics Co., Ltd | Method and device for generating natural language expression by using framework |
CN109412900A (zh) * | 2018-12-04 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种网络状态识别的方法、模型训练的方法及装置 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
US20190163691A1 (en) * | 2017-11-30 | 2019-05-30 | CrowdCare Corporation | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources |
US10361802B1 (en) * | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
CN110084281A (zh) * | 2019-03-31 | 2019-08-02 | 华为技术有限公司 | 图像生成方法、神经网络的压缩方法及相关装置、设备 |
CN110489661A (zh) * | 2019-07-24 | 2019-11-22 | 武汉大学 | 一种基于生成对抗网络和迁移学习的社交关系预测方法 |
CN110555273A (zh) * | 2019-09-05 | 2019-12-10 | 苏州大学 | 基于隐马尔科夫模型和迁移学习的轴承寿命预测方法 |
CN111104595A (zh) * | 2019-12-16 | 2020-05-05 | 华中科技大学 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
CN111724770A (zh) * | 2020-05-19 | 2020-09-29 | 中国电子科技网络信息安全有限公司 | 一种基于深度卷积生成对抗网络的音频关键词识别方法 |
CN111898381A (zh) * | 2020-06-30 | 2020-11-06 | 北京来也网络科技有限公司 | 一种结合rpa与ai的文本信息提取方法、装置、设备及介质 |
CN112906392A (zh) * | 2021-03-23 | 2021-06-04 | 北京天融信网络安全技术有限公司 | 一种文本增强方法、文本分类方法及相关装置 |
CN113515939A (zh) * | 2021-04-27 | 2021-10-19 | 西安理工大学 | 一种勘察报告文本关键信息提取系统和提取方法 |
CN113761173A (zh) * | 2020-07-20 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 一种文本摘要生成方法和装置 |
-
2021
- 2021-12-21 CN CN202111571558.1A patent/CN113961674B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10361802B1 (en) * | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
US20170242896A1 (en) * | 2016-02-24 | 2017-08-24 | Bank Of America Corporation | Technical language processor |
US20170242629A1 (en) * | 2016-02-24 | 2017-08-24 | Bank Of America Corporation | System for categorical data encoding |
US20180293220A1 (en) * | 2017-04-05 | 2018-10-11 | Samsung Electronics Co., Ltd | Method and device for generating natural language expression by using framework |
US20190163691A1 (en) * | 2017-11-30 | 2019-05-30 | CrowdCare Corporation | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
CN109412900A (zh) * | 2018-12-04 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种网络状态识别的方法、模型训练的方法及装置 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN110084281A (zh) * | 2019-03-31 | 2019-08-02 | 华为技术有限公司 | 图像生成方法、神经网络的压缩方法及相关装置、设备 |
CN110489661A (zh) * | 2019-07-24 | 2019-11-22 | 武汉大学 | 一种基于生成对抗网络和迁移学习的社交关系预测方法 |
CN110555273A (zh) * | 2019-09-05 | 2019-12-10 | 苏州大学 | 基于隐马尔科夫模型和迁移学习的轴承寿命预测方法 |
CN111104595A (zh) * | 2019-12-16 | 2020-05-05 | 华中科技大学 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
CN111724770A (zh) * | 2020-05-19 | 2020-09-29 | 中国电子科技网络信息安全有限公司 | 一种基于深度卷积生成对抗网络的音频关键词识别方法 |
CN111898381A (zh) * | 2020-06-30 | 2020-11-06 | 北京来也网络科技有限公司 | 一种结合rpa与ai的文本信息提取方法、装置、设备及介质 |
CN113761173A (zh) * | 2020-07-20 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 一种文本摘要生成方法和装置 |
CN112906392A (zh) * | 2021-03-23 | 2021-06-04 | 北京天融信网络安全技术有限公司 | 一种文本增强方法、文本分类方法及相关装置 |
CN113515939A (zh) * | 2021-04-27 | 2021-10-19 | 西安理工大学 | 一种勘察报告文本关键信息提取系统和提取方法 |
Non-Patent Citations (4)
Title |
---|
SALAZAR, A 等: "Generative Adversarial Networks and Markov Random Fields for oversampling very small training sets", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
孙广路等: "基于最大信息系数和近似马尔科夫毯的特征选择方法", 《自动化学报》 * |
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 * |
肖春等: "生物医学领域中的文本信息抽取技术与系统综述", 《计算机应用研究》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113961674B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230031738A1 (en) | Taxpayer industry classification method based on label-noise learning | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
WO2021128704A1 (zh) | 一种基于分类效用的开集分类方法 | |
CN115238697A (zh) | 基于自然语言处理的司法命名实体识别方法 | |
CN113420548A (zh) | 一种基于知识蒸馏和pu学习的实体抽取采样方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN109472020B (zh) | 一种特征对齐中文分词方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN116541523A (zh) | 一种基于大数据的法律判决舆情分类方法 | |
CN113961674B (zh) | 一种关键信息与上市公司公告文本语义匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |