CN107247739B - 一种基于因子图的金融公报文本知识提取方法 - Google Patents

一种基于因子图的金融公报文本知识提取方法 Download PDF

Info

Publication number
CN107247739B
CN107247739B CN201710326920.6A CN201710326920A CN107247739B CN 107247739 B CN107247739 B CN 107247739B CN 201710326920 A CN201710326920 A CN 201710326920A CN 107247739 B CN107247739 B CN 107247739B
Authority
CN
China
Prior art keywords
entity
text
data
financial
factor graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710326920.6A
Other languages
English (en)
Other versions
CN107247739A (zh
Inventor
陈华钧
陈曦
张宁豫
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710326920.6A priority Critical patent/CN107247739B/zh
Publication of CN107247739A publication Critical patent/CN107247739A/zh
Application granted granted Critical
Publication of CN107247739B publication Critical patent/CN107247739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于因子图的金融公报文本知识提取方法,包括:(1)从金融数据库上获取满足预设特定关系的文本数据,并对其预处理,得到数据A;(2)对数据A进行弱监督学习得到数据A1;(3)对数据A1进行候选实体识别,构建得到候选实体对集B1;(4)根据建立的正则表达式在金融公报文本中匹配得到满足特定预设关系的候选实体对集B2;(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取,得到特征向量集C1与C2;(6)利用C1、C2对因子图模型进行训练,得到金融文本知识抽取模型;(7)将预测样本输入至金融文本知识抽取模型中,将输出概率值大于阈值的实体对作为抽取结果。

Description

一种基于因子图的金融公报文本知识提取方法
技术领域
本发明涉及计算机文本抽取技术,具体涉及一种基于因子图的金融公报文本知识提取方法。
背景技术
随着网络技术的不断发展,互联网上的信息量也在爆炸性的增长。据统计每天互联网上流通的信息量超过1000PB。如何从海量信息中快速有效的提取出需要的信息和知识,成为了非常重要的研究方向。随着互联网上一些大规模知识库在扮演着越来越重要的角色,知识库的构建工作也越来越成为研究高点,传统的文本知识抽取方法基于各领域专家的人工整合,已经无法处理如此大规模的信息抽取,因此基于机器学习的信息抽取方法成为了大数据时代的主流方法。
近几年来,基于机器学习的文本挖掘算法逐步完善起来,各大互联网公司出现了一些实用的技术和相关产品,例如google通过多种提取技术融合构建了超大规模的Knowledge Vault,它可以自主学习互联网上网页、图表、文本等多种来源的数据从而生成知识库。但是相关领域一些开源的实用文本知识提取方法还非常少见,尤其是面向中文文本的工具更是十分缺乏。另一方面,因子图模型具有很强的计算和表达能力,能在概率推理过程中表达各种模型,例如贝叶斯网络、无向图等,近几年来在信息抽取方面取得了很好的效果,不仅在多个垂直领域得到广泛应用,同时也在各种英文信息抽取竞赛中取得了很好的成绩。因此可以考虑借助因子图模型来完成中文文本知识的抽取。而金融公报中包含了很多有意义的知识信息,这些结构化的信息对于金融人员进行金融数据的分析有着非常重要的作用,如何使用一种自动化的知识提取方法对于实现金融智能有着重大的意义。
发明内容
鉴于上述,本发明提供了一种基于因子图的金融公报文本知识提取方法,用于提取金融公报中的有关股权交易相关的知识。
一种基于因子图的金融公报文本知识提取方法,包括以下步骤:
(1)从金融数据库上获取满足预设特定关系的文本数据,并对这些文本数据进行预处理,得到预处理数据A;
(2)以预处理数据A作为弱监督学习的正样本,以通过负抽样方法建立的数据作为弱监督学习的负样本,进行弱监督学习,得到数据A1
(3)对数据A1进行候选实体(mention)识别,构建得到候选实体对集B1
(4)建立一个正则表达式,并根据正则表达式在金融公报文本中匹配得到满足特定预设关系的文本数据,并对该些文本数据进行预处理,得到候选实体对集B2
(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取,得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2,并将特征向量集C1、C2存储到数据库中;
(6)将数据库中的特征向量集C1、C2作为因子图模型的输入,以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签,以目标函数y最大为目标,对因子图模型进行训练,得到金融文本知识抽取模型;
(7)将预测样本输入至金融文本知识抽取模型中,将输出概率值大于阈值的实体对作为抽取结果。
本发明采用弱监督学习与正则表达式联合标记因子图模型训练样本的方法,可以有效地解决文本知识抽取任务中标记样本不足的问题,从而大大提升方法的应用范围。
步骤(1)中与步骤(4)中,所述的对文本数据进行预处理的具体过程为:采用Stanford Corenlp或jieba工具对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。Stanford Corenlp处理功能强大,能够快速准确地实现对文本数据的处理。
步骤(2)中,所述的数据A1中既包含对正样本弱监督学习得到的数据,又包含对负样本监督学习得到的数据。弱监督学习的方法,可以有效地扩大样本数据的数量,进而提升因子图模型训练的准确度。
所述步骤(3)的具体步骤为:
首先,从数据A1中识别候选实体,排除错误和无意义的候选实体;
然后,对相同意义的候选实体做实体连接,将候选实体两两组合为候选实体对;
最后,去除重复和无意义的候选实体对,形成候选实体对集B1
步骤(3)中,所述候选实体识别采用了传统命名实体识别、正则表达式过滤方法结合的方式,这可以提高候选实体识别的准确率。此处的正则表达式过滤方法主要是针对以下传统命名实体识别面临的错误情况,例如:
非英文字母和汉字字符的候选实体,错误标记,如2015年XX有限公司;错误识别的组织机构,不是上市公司,如上海证券所,美国加州等;一长串识别成整个候选实体,如A与B与C公司;文本中的简称和训练数据的全称不能对应。
本发明针对每一条文本都进行相应的修改,建立正则表达式过滤掉非法字符的候选实体和包含证券所、商务部等非公司词汇的候选实体,限制候选实体长度,建立词典链接公司的简称和全称,并去掉候选实体中公司、股份等词,进行两个候选实体的相似度比较,进一步做实体链接算法。
步骤(4)中,建立的正则表达式视为了获得更多的训练样本,利用正则表达式标记同一种关系。例如:“A收购B的股权”、“A购买B的股份”都是描述的同一种关系。本发明设计了一组相应的匹配表达式,实体对之间最终的Label取决于每项label的和。此处的求和是指训练文本中对实体对之间是否存在关系“股权交易”的标记进行求和,例如本文中出现了“A收购B的股权”或者“A购买B的股份”,则判定为正例,label加1,这对应了本发明设计的正则表达式方法。
步骤(5)中,所述的特征提取为提取实体对句子之间词语序列,包括完整的词语序列、指定window的词语序列,具体为
提取实体对句子之间词语序列的NER序列;
提取实体对句子之间词语序列的POS序列;
提取词典中的特征词序列;
提取实体对左右两侧window的词语序列;
提取实体对句子两侧词语序列的NER序列;
提取实体对句子两侧词语序列的POS序列。
步骤(6)中,在训练因子图模型的过程中,根据训练样本的数据特征采用速度下降方法改变因子图模型的权重,进而得到能够刻画训练样本数据的模型。该模型的训练过程为:
确定随机变量和实体的对应关系,构建user schema;
确定随机变量和函数的对应关系,构建relation schema;
随机初始化随机变量值,通过概率推导得到可能的概率分布;
通过迭代修改的方法提升模型的精度,最后得出最后的因子图模型。
步骤(6)中,所述的目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
本发明方法使用具备复杂关系建模能力的因子图模型来进行关系学习和训练,并设计了多种不同的文本特征来表达关系的上下文,此外,本发明采用基于弱监督和正则表达式的方法来进行数据的标记,可以有效的克服样本数据不足的缺陷。
附图说明
图1是本发明基于因子图的金融公报文本知识提取方法的流程图;
图2是本发明基于正则表达式获取的训练样本的示意图;
图3是本发明中对数据进行特征提取后文本特征表示图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本实施例中预设特定关系为公司之间持股或收购关系。
参见图1,本实施例基于因子图的金融公报文本知识提取方法,包括以下步骤:
S01,从金融数据服务商上获取满足公司之间持股或收购关系的文本数据,并对这些文本数据进行预处理,得到预处理数据A。
本步骤中,采用Stanford Corenlp对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。Stanford Corenlp处理功能强大,能够快速准确地实现对文本数据的处理。
S02,以预处理数据A作为弱监督学习的正样本,以通过负抽样方法建立的数据作为弱监督学习的负样本,进行基于bootstrapping的弱监督学习,得到数据A1
本步骤中,数据A1中既包含对正样本弱监督学习得到的数据,又包含对负样本监督学习得到的数据。弱监督学习的方法,可以有效地扩大样本数据的数量,进而提升因子图模型训练的准确度。
S03,对数据A1进行候选实体识别,构建得到候选实体对集B1
S03的具体过程为:
首先,从数据A1中识别候选实体,排除错误和无意义的候选实体,得到如表1所示的候选实体;
然后,对相同意义的候选实体做实体连接,将候选实体两两组合为候选实体对,如表2所示;
最后,去除重复和无意义的候选实体对,形成候选实体对集B1
表1
字段 类型
Mention_id text
Mention_text text
Doc_id text
Sentence_index int
Begin_index int
End_index int_
表1
字段 类型
P1_id text
P1_name text
P2_id text
P2_name text
S04,如图2所示,建立一个正则表达式,并根据正则表达式在金融公报文本中匹配得到公司之间持股或收购关系的文本数据,并对该些文本数据进行预处理,得到候选实体对集B2
本步骤中,对文本进行预处理的过程为:采用Stanford Corenlp对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。
S05,分别对候选实体对集B1、B2中候选实体对的进行特征提取,得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2,并将特征向量集C1、C2存储到数据库中;
由于自然语言表达的多样性,文本特征一般没有指定的属性,我们需要总结不同句子的语法结构、中间词汇等来计算这部分特征。本步骤中,所述的特征提取为:
1)对于实体对之间的句段,提取完整的词语序列、NER序列、POS序列
2)对于实体对之间的句段,提取指定从0到最大窗WINDOW的所有词语片段
3)实体对前后窗口的词段
4)建立特征词典,判断实体对之间的词段中是否含有这些特征词
5)对于实体对依赖的语法结构,从mention开始,遍历原文本生成的语法树,提取相应的语法依赖项的词语序列、POS序列和词语POS的混合序列。最终提取得到的文本特征如图3所示。
S06,将数据库中的特征向量集C1、C2作为因子图模型的输入,以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签,以目标函数y最大为目标,对因子图模型进行训练,得到金融文本知识抽取模型;
本步骤中,目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
S07,将预测样本输入至金融文本知识抽取模型中,将输出概率值大于0.95的实体对作为抽取结果。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于因子图的金融公报文本知识提取方法,包括以下步骤:
(1)从金融数据库上获取满足预设特定关系的文本数据,并对这些文本数据进行预处理,得到预处理数据A;
(2)以预处理数据A作为弱监督学习的正样本,以通过负抽样方法建立的数据作为弱监督学习的负样本,进行弱监督学习,得到数据A1
(3)对数据A1进行候选实体识别,构建得到候选实体对集B1
(4)建立一个正则表达式,并根据正则表达式在金融公报文本中匹配得到满足特定预设关系的文本数据,并对该些文本数据进行预处理,得到候选实体对集B2
(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取,得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2,并将特征向量集C1、C2存储到数据库中;
(6)将数据库中的特征向量集C1、C2作为因子图模型的输入,以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签,以目标函数y最大为目标,对因子图模型进行训练,得到金融文本知识抽取模型;
(7)将预测样本输入至金融文本知识抽取模型中,将输出概率值大于阈值的实体对作为抽取结果。
2.如权利要求1所述的基于因子图的金融公报文本知识提取方法,其特征在于,步骤(1)中与步骤(4)中,所述的对文本数据进行预处理的具体过程为:采用Stanford Corenlp或jieba工具对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。
3.如权利要求1所述的基于因子图的金融公报文本知识提取方法,其特征在于,所述步骤(3)的具体步骤为:
首先,从数据A1中识别候选实体,排除错误和无意义的候选实体;
然后,对相同意义的候选实体做实体连接,将候选实体两两组合为候选实体对;
最后,去除重复和无意义的候选实体对,形成候选实体对集B1。
4.如权利要求1所述的基于因子图的金融公报文本知识提取方法,其特征在于,步骤(3)中,所述候选实体识别采用了传统命名实体识别、正则表达式过滤方法结合的方式。
5.如权利要求1所述的基于因子图的金融公报文本知识提取方法,其特征在于,所述的特征提取具体为
提取实体对句子之间词语序列的NER序列;
提取实体对句子之间词语序列的POS序列;
提取词典中的特征词序列;
提取实体对左右两侧window的词语序列;
提取实体对句子两侧词语序列的NER序列;
提取实体对句子两侧词语序列的POS序列。
6.如权利要求1所述的基于因子图的金融公报文本知识提取方法,其特征在于,所述的目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
CN201710326920.6A 2017-05-10 2017-05-10 一种基于因子图的金融公报文本知识提取方法 Active CN107247739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710326920.6A CN107247739B (zh) 2017-05-10 2017-05-10 一种基于因子图的金融公报文本知识提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710326920.6A CN107247739B (zh) 2017-05-10 2017-05-10 一种基于因子图的金融公报文本知识提取方法

Publications (2)

Publication Number Publication Date
CN107247739A CN107247739A (zh) 2017-10-13
CN107247739B true CN107247739B (zh) 2019-11-01

Family

ID=60017013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710326920.6A Active CN107247739B (zh) 2017-05-10 2017-05-10 一种基于因子图的金融公报文本知识提取方法

Country Status (1)

Country Link
CN (1) CN107247739B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958025B (zh) * 2017-11-13 2021-12-28 北京工业大学 弱监督实体关系抽取方法及其装置和电子设备
CN107977345A (zh) * 2017-11-14 2018-05-01 福建亿榕信息技术有限公司 一种通用文本信息抽取方法以及系统
CN108959368A (zh) * 2018-05-22 2018-12-07 深圳壹账通智能科技有限公司 一种信息监控方法、存储介质和服务器
CN109189848B (zh) * 2018-09-19 2023-05-30 平安科技(深圳)有限公司 知识数据的抽取方法、系统、计算机设备和存储介质
CN110032649B (zh) * 2019-04-12 2021-10-01 北京科技大学 一种中医文献的实体间关系抽取方法及装置
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN105528437A (zh) * 2015-12-17 2016-04-27 浙江大学 一种基于结构化文本知识提取的问答系统构建方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101305366B (zh) * 2005-11-29 2013-02-06 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
CN105528437A (zh) * 2015-12-17 2016-04-27 浙江大学 一种基于结构化文本知识提取的问答系统构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本知识发现:基于信息抽取的文本挖掘;周雪忠 等;《计算机科学》;20030115;第30卷(第1期);63-66 *

Also Published As

Publication number Publication date
CN107247739A (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
CN107247739B (zh) 一种基于因子图的金融公报文本知识提取方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106570148B (zh) 一种基于卷积神经网络的属性抽取方法
CN107169079B (zh) 一种基于Deepdive的领域文本知识抽取方法
TWI518528B (zh) Method, apparatus and system for identifying target words
CN104133848B (zh) 藏语实体知识信息抽取方法
CN104679885B (zh) 一种基于语义特征模型的用户搜索串机构名识别方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN107168945A (zh) 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN108255813A (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN108090223A (zh) 一种基于互联网信息的开放学者画像方法
CN106886565A (zh) 一种基础房型自动聚合方法
CN110196995A (zh) 一种基于带偏置随机游走的复杂网络特征提取方法
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN115795056A (zh) 非结构化信息构建知识图谱的方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant