CN110188340A - 一种研报文本实体名词自动识别方法 - Google Patents

一种研报文本实体名词自动识别方法 Download PDF

Info

Publication number
CN110188340A
CN110188340A CN201910280838.3A CN201910280838A CN110188340A CN 110188340 A CN110188340 A CN 110188340A CN 201910280838 A CN201910280838 A CN 201910280838A CN 110188340 A CN110188340 A CN 110188340A
Authority
CN
China
Prior art keywords
message
vocabulary
label
substantive noun
substantive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910280838.3A
Other languages
English (en)
Other versions
CN110188340B (zh
Inventor
蔡青林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden State Yongfu Asset Management Ltd
Original Assignee
Golden State Yongfu Asset Management Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden State Yongfu Asset Management Ltd filed Critical Golden State Yongfu Asset Management Ltd
Priority to CN201910280838.3A priority Critical patent/CN110188340B/zh
Publication of CN110188340A publication Critical patent/CN110188340A/zh
Application granted granted Critical
Publication of CN110188340B publication Critical patent/CN110188340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种研报文本实体名词自动识别方法,首先根据金融专业词典对研报进行分词,以历史研报中出现的所有词汇构建词库。对于每个研报文本,计算其TF‑IDF特征向量;基于决策树方法将研报文本划分至不同的实体名词类别。本发明可自动识别研报文本所包含的实体名词,从文本数据挖掘的角度分析研报的主题类别;在智能投顾和智能投研等金融科技领域可发挥重要作用,如在大类资产配置中可自动筛选宏观指标以提升系统决策效率等。

Description

一种研报文本实体名词自动识别方法
技术领域
本发明涉及金融技术、数据挖掘、信息检索等领域,尤其涉及一种研报文本实体名词自动识别方法。
背景技术
随着IT技术的不断提高,计算机与金融领域的结合越来越密切,通过IT技术实时获取市场信息的能力,已成为决定金融公司成败的关键因素。金融市场信息主要来源于非结构化的文本数据,如企业年报、公告、新闻、政策法规、市场研究报告等。然而,目前金融领域的文本信息抽取仍然处于人工判断的初级阶段,分析人员需要阅读大量的行业文档,通过分析后获取关键信息。这种手工作业的方式效率较低,且依赖于从业人员的先验知识,学习门槛较高,在瞬息万变的市场交易中,严重阻碍了投资者把握市场机遇的能力。
计算机具有自动处理金融文本的能力,金融信息抽取作为文本处理的一项关键技术,目前已在金融领域得到快速的应用和发展,如在自动化交易系统中,通过将抽取的信息进行量化,作为金融工程、机器学习等算法的输入,进行投资组合优化,实现收益最大化;在机构信用评级中,从企业财报、资本结构、负债盈利等信息中自动收集评级影响因素,实现对机构信用的快速评级。
此外,作为融合语言学、计算机科学、数学等领域的交叉学科,自然语言处理技术也在金融信息抽取中得到广泛的应用,如从文本数据中抽取半结构化知识描述,然后基于半结构化知识构建知识图谱,对市场深度分析和挖掘具有重要的指导作用。
发明内容
本发明要解决的问题是如何自动识别研报文本所包含的实体名词。为了解决该问题,本发明提出了一种基于决策树的研报文本实体名词自动识别方法。
本发明的目的是通过以下技术方案实现的:一种研报文本实体名词自动识别方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取研报文本语料库Corp的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi
(1.4)初始化词库dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量Ti
(2.2)统计p’i中每个词汇wj的词频tfj
(2.3)统计研报文本数据库中包含词汇wj的所有文本数目dfj
(2.4)计算wj在p’i的tf-idf分值sij,并加入到特征向量Ti
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ;
(3.2)根据di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ;
(3.3)使用Ψ和Φ训练Cart树模型M;
(3.4)对于待识别的研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’;
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
进一步地,所述步骤3.2包括以下子步骤:
(3.2.1)若di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为di的标签yi
进一步地,所述步骤3.3包括以下子步骤:
(3.3.1)初始化Cart树M;
(3.3.2)依次遍历特征矩阵Ψ的每个特征,及相应特征的每个取值,将特征矩阵Ψ及标签向量Φ划分到两个子节点,根据多数表决原则计算两个子节点的输出值;
(3.3.3)计算每个切分点的损失函数,选择损失函数最小的特征及切分点,存入Cart树M;
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入Cart树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出Cart树M。
进一步地,所述步骤3.4包括以下子步骤:
(3.4.1)根据步骤(1)~(2)抽取最新的研报文本d’的特征向量T’;
(3.4.2)依次遍历M的每个节点,根据特征向量T’在对应节点特征的取值,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至将d’划分到M的叶节点,将叶节点的取值作为d’的类别标签并输出。
本发明的有益效果是:
1、有效解决了非结构化文本数据中的实体名词自动识别问题,基于机器学习方法提升了决策系统的运行效率,在智能投顾领域可发挥重要作用。
2、在文本特征抽取步骤中,使用TF-IDF方法可有效突出词汇的文本区分能力,减弱噪声词的影响,保证了本发明对实体名词相关词汇的敏感性及识别的准确率。
3、在实体名词识别步骤中,决策树算法对数据缺失不敏感,可以处理不相关特征数据,并且只需构建一次可反复使用,有效提升了预测效率。
附图说明
图1为研报文本实体名词自动识别方法流程图;
图2为训练Cart树模型流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种研报文本实体名词自动识别方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取规模为N的研报语料库Corp中的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi
(1.4)初始化集合变量dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,如最后30%词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量
(2.2)统计p’i中每个词汇wj的词频tfj和p’i词汇总数ni
(2.3)统计研报数据库中包含词汇wj的所有文本数目dfj
(2.4)根据公式(1)计算wj在p’i的tf-idf分值sij,并加入特征向量Ti
sij=(tfj/ni)·log(dfj/N) (1)
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵和标签向量
(3.2)根据历史研报di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ,具体为:
(3.2.1)若研报di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为研报di的标签yi;n为di包含的实体名词数目;
(3.3)使用Ψ=[T1,T2,…,TN]和Φ=[y1,y2,…,yN]训练Cart树模型M,该过程包括以下子步骤:
(3.3.1)初始化二叉树
(3.3.2)依次遍历特征矩阵Ψ的每个特征j,及相应特征的每个取值vj,将特征矩阵Ψ及标签向量Φ划分到两个子节点ni1和ni2,根据多数表决原则计算两个子节点的输出值ci1和ci2
(3.3.3)根据公式(2)计算每个切分点<j,vj>的损失函数,选择损失函数最小的特征及切分点<jmin,vjmin>,存入二叉树M;
<jmin,vjmin>=minj,v[∑(yi-ci1)2+∑(yi-ci2)2] (2)
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入二叉树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出二叉树M={<j1,v1>,<j2,v2>,…,<jm,vm>}。
(3.4)对于研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’,具体为:
(3.4.1)根据步骤(1)~(2)抽取研报文本d’的特征向量T’;
(3.4.2)依次遍历二叉树M的每个节点<jk,vk>,根据特征向量T’在特征jk的取值v’,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至二叉树M的叶节点nleaf,将叶节点nleaf的取值c’作为研报文本d’的类别标签y’并输出。
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
本发明针对研报文本实体名词自动识别任务,提出了一种基于决策树的实体名词识别方法,不仅可以提高决策系统的运行效率,而且对大类资产配置提供了重要的参考依据,在智能投顾和智能投研等领域可发挥重要的作用。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (4)

1.一种研报文本实体名词自动识别方法,其特征在于,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取研报文本语料库Corp的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi
(1.4)初始化词库dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量Ti
(2.2)统计p’i中每个词汇wj的词频tfj
(2.3)统计研报文本数据库中包含词汇wj的所有文本数目dfj
(2.4)计算wj在p’i的tf-idf分值sij,并加入到特征向量Ti中;
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ;
(3.2)根据di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ;
(3.3)使用Ψ和Φ训练Cart树模型M;
(3.4)对于待识别的研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’;
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
2.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.2包括以下子步骤:
(3.2.1)若di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为di的标签yi
3.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.3包括以下子步骤:
(3.3.1)初始化Cart树M;
(3.3.2)依次遍历特征矩阵Ψ的每个特征,及相应特征的每个取值,将特征矩阵Ψ及标签向量Φ划分到两个子节点,根据多数表决原则计算两个子节点的输出值;
(3.3.3)计算每个切分点的损失函数,选择损失函数最小的特征及切分点,存入Cart树M;
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入Cart树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出Cart树M。
4.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.4包括以下子步骤:
(3.4.1)根据步骤(1)~(2)抽取最新的研报文本d’的特征向量T’;
(3.4.2)依次遍历M的每个节点,根据特征向量T’在对应节点特征的取值,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至将d’划分到M的叶节点,将叶节点的取值作为d’的类别标签并输出。
CN201910280838.3A 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法 Active CN110188340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910280838.3A CN110188340B (zh) 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910280838.3A CN110188340B (zh) 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法

Publications (2)

Publication Number Publication Date
CN110188340A true CN110188340A (zh) 2019-08-30
CN110188340B CN110188340B (zh) 2023-02-14

Family

ID=67713779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910280838.3A Active CN110188340B (zh) 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法

Country Status (1)

Country Link
CN (1) CN110188340B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012859A1 (en) * 2012-07-03 2014-01-09 AGOGO Amalgamated, Inc. Personalized dynamic content delivery system
CN103927615A (zh) * 2008-09-15 2014-07-16 谷歌公司 将实体与类别相关联
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN109063185A (zh) * 2018-08-27 2018-12-21 电子科技大学 面向事件检测的社交网络短文本数据过滤方法
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927615A (zh) * 2008-09-15 2014-07-16 谷歌公司 将实体与类别相关联
US20140012859A1 (en) * 2012-07-03 2014-01-09 AGOGO Amalgamated, Inc. Personalized dynamic content delivery system
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
CN109063185A (zh) * 2018-08-27 2018-12-21 电子科技大学 面向事件检测的社交网络短文本数据过滤方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品
WO2023071129A1 (zh) * 2021-10-30 2023-05-04 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Also Published As

Publication number Publication date
CN110188340B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN110543374B (zh) 使用人工智能机制进行集中式数据协调
WO2021088499A1 (zh) 一种基于动态网络表征的发票虚开识别方法及系统
CN110276054B (zh) 一种保险文本结构化实现方法
CN108520343A (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
CN111754345B (zh) 一种基于改进随机森林的比特币地址分类方法
CN111198817B (zh) 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
CN110415111A (zh) 基于用户数据与专家特征合并逻辑回归信贷审批的方法
CN106844349A (zh) 基于协同训练的垃圾评论识别方法
CN113204603B (zh) 金融数据资产的类别标注方法及装置
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
CN110348974A (zh) 财务报表处理方法和装置
CN110008463A (zh) 用于事件抽取的方法、装置和计算机可读介质
CN110188340A (zh) 一种研报文本实体名词自动识别方法
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN115688101A (zh) 一种基于深度学习的文件分类方法及装置
CN115545437A (zh) 一种基于多源异构数据融合的金融企业经营风险预警方法
CN114579768A (zh) 一种实现设备智能运维知识库的维修方法
Velay et al. Using NLP on news headlines to predict index trends
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
CN113177841A (zh) 一种异常社区的识别方法、装置和设备
CN112907371A (zh) 一种风控模型的训练方法
CN110162781A (zh) 一种金融文本主观句自动识别方法
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
CN109635289A (zh) 词条分类方法及审计信息抽取方法
Chen et al. Finding the keywords affecting the success of crowdfunding projects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant