CN110188340A - 一种研报文本实体名词自动识别方法 - Google Patents
一种研报文本实体名词自动识别方法 Download PDFInfo
- Publication number
- CN110188340A CN110188340A CN201910280838.3A CN201910280838A CN110188340A CN 110188340 A CN110188340 A CN 110188340A CN 201910280838 A CN201910280838 A CN 201910280838A CN 110188340 A CN110188340 A CN 110188340A
- Authority
- CN
- China
- Prior art keywords
- message
- vocabulary
- label
- substantive noun
- substantive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种研报文本实体名词自动识别方法,首先根据金融专业词典对研报进行分词,以历史研报中出现的所有词汇构建词库。对于每个研报文本,计算其TF‑IDF特征向量;基于决策树方法将研报文本划分至不同的实体名词类别。本发明可自动识别研报文本所包含的实体名词,从文本数据挖掘的角度分析研报的主题类别;在智能投顾和智能投研等金融科技领域可发挥重要作用,如在大类资产配置中可自动筛选宏观指标以提升系统决策效率等。
Description
技术领域
本发明涉及金融技术、数据挖掘、信息检索等领域,尤其涉及一种研报文本实体名词自动识别方法。
背景技术
随着IT技术的不断提高,计算机与金融领域的结合越来越密切,通过IT技术实时获取市场信息的能力,已成为决定金融公司成败的关键因素。金融市场信息主要来源于非结构化的文本数据,如企业年报、公告、新闻、政策法规、市场研究报告等。然而,目前金融领域的文本信息抽取仍然处于人工判断的初级阶段,分析人员需要阅读大量的行业文档,通过分析后获取关键信息。这种手工作业的方式效率较低,且依赖于从业人员的先验知识,学习门槛较高,在瞬息万变的市场交易中,严重阻碍了投资者把握市场机遇的能力。
计算机具有自动处理金融文本的能力,金融信息抽取作为文本处理的一项关键技术,目前已在金融领域得到快速的应用和发展,如在自动化交易系统中,通过将抽取的信息进行量化,作为金融工程、机器学习等算法的输入,进行投资组合优化,实现收益最大化;在机构信用评级中,从企业财报、资本结构、负债盈利等信息中自动收集评级影响因素,实现对机构信用的快速评级。
此外,作为融合语言学、计算机科学、数学等领域的交叉学科,自然语言处理技术也在金融信息抽取中得到广泛的应用,如从文本数据中抽取半结构化知识描述,然后基于半结构化知识构建知识图谱,对市场深度分析和挖掘具有重要的指导作用。
发明内容
本发明要解决的问题是如何自动识别研报文本所包含的实体名词。为了解决该问题,本发明提出了一种基于决策树的研报文本实体名词自动识别方法。
本发明的目的是通过以下技术方案实现的:一种研报文本实体名词自动识别方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取研报文本语料库Corp的每个文本di;
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi;
(1.4)初始化词库dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i;
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量Ti;
(2.2)统计p’i中每个词汇wj的词频tfj;
(2.3)统计研报文本数据库中包含词汇wj的所有文本数目dfj;
(2.4)计算wj在p’i的tf-idf分值sij,并加入到特征向量Ti;
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ;
(3.2)根据di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ;
(3.3)使用Ψ和Φ训练Cart树模型M;
(3.4)对于待识别的研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’;
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
进一步地,所述步骤3.2包括以下子步骤:
(3.2.1)若di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为di的标签yi。
进一步地,所述步骤3.3包括以下子步骤:
(3.3.1)初始化Cart树M;
(3.3.2)依次遍历特征矩阵Ψ的每个特征,及相应特征的每个取值,将特征矩阵Ψ及标签向量Φ划分到两个子节点,根据多数表决原则计算两个子节点的输出值;
(3.3.3)计算每个切分点的损失函数,选择损失函数最小的特征及切分点,存入Cart树M;
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入Cart树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出Cart树M。
进一步地,所述步骤3.4包括以下子步骤:
(3.4.1)根据步骤(1)~(2)抽取最新的研报文本d’的特征向量T’;
(3.4.2)依次遍历M的每个节点,根据特征向量T’在对应节点特征的取值,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至将d’划分到M的叶节点,将叶节点的取值作为d’的类别标签并输出。
本发明的有益效果是:
1、有效解决了非结构化文本数据中的实体名词自动识别问题,基于机器学习方法提升了决策系统的运行效率,在智能投顾领域可发挥重要作用。
2、在文本特征抽取步骤中,使用TF-IDF方法可有效突出词汇的文本区分能力,减弱噪声词的影响,保证了本发明对实体名词相关词汇的敏感性及识别的准确率。
3、在实体名词识别步骤中,决策树算法对数据缺失不敏感,可以处理不相关特征数据,并且只需构建一次可反复使用,有效提升了预测效率。
附图说明
图1为研报文本实体名词自动识别方法流程图;
图2为训练Cart树模型流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种研报文本实体名词自动识别方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取规模为N的研报语料库Corp中的每个文本di;
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi;
(1.4)初始化集合变量dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,如最后30%词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i;
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量
(2.2)统计p’i中每个词汇wj的词频tfj和p’i词汇总数ni;
(2.3)统计研报数据库中包含词汇wj的所有文本数目dfj;
(2.4)根据公式(1)计算wj在p’i的tf-idf分值sij,并加入特征向量Ti;
sij=(tfj/ni)·log(dfj/N) (1)
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵和标签向量
(3.2)根据历史研报di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ,具体为:
(3.2.1)若研报di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为研报di的标签yi;n为di包含的实体名词数目;
(3.3)使用Ψ=[T1,T2,…,TN]和Φ=[y1,y2,…,yN]训练Cart树模型M,该过程包括以下子步骤:
(3.3.1)初始化二叉树
(3.3.2)依次遍历特征矩阵Ψ的每个特征j,及相应特征的每个取值vj,将特征矩阵Ψ及标签向量Φ划分到两个子节点ni1和ni2,根据多数表决原则计算两个子节点的输出值ci1和ci2;
(3.3.3)根据公式(2)计算每个切分点<j,vj>的损失函数,选择损失函数最小的特征及切分点<jmin,vjmin>,存入二叉树M;
<jmin,vjmin>=minj,v[∑(yi-ci1)2+∑(yi-ci2)2] (2)
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入二叉树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出二叉树M={<j1,v1>,<j2,v2>,…,<jm,vm>}。
(3.4)对于研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’,具体为:
(3.4.1)根据步骤(1)~(2)抽取研报文本d’的特征向量T’;
(3.4.2)依次遍历二叉树M的每个节点<jk,vk>,根据特征向量T’在特征jk的取值v’,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至二叉树M的叶节点nleaf,将叶节点nleaf的取值c’作为研报文本d’的类别标签y’并输出。
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
本发明针对研报文本实体名词自动识别任务,提出了一种基于决策树的实体名词识别方法,不仅可以提高决策系统的运行效率,而且对大类资产配置提供了重要的参考依据,在智能投顾和智能投研等领域可发挥重要的作用。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (4)
1.一种研报文本实体名词自动识别方法,其特征在于,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取研报文本语料库Corp的每个文本di;
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi;
(1.4)初始化词库dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i;
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量Ti;
(2.2)统计p’i中每个词汇wj的词频tfj;
(2.3)统计研报文本数据库中包含词汇wj的所有文本数目dfj;
(2.4)计算wj在p’i的tf-idf分值sij,并加入到特征向量Ti中;
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ;
(3.2)根据di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ;
(3.3)使用Ψ和Φ训练Cart树模型M;
(3.4)对于待识别的研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’;
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
2.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.2包括以下子步骤:
(3.2.1)若di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为di的标签yi。
3.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.3包括以下子步骤:
(3.3.1)初始化Cart树M;
(3.3.2)依次遍历特征矩阵Ψ的每个特征,及相应特征的每个取值,将特征矩阵Ψ及标签向量Φ划分到两个子节点,根据多数表决原则计算两个子节点的输出值;
(3.3.3)计算每个切分点的损失函数,选择损失函数最小的特征及切分点,存入Cart树M;
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入Cart树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出Cart树M。
4.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.4包括以下子步骤:
(3.4.1)根据步骤(1)~(2)抽取最新的研报文本d’的特征向量T’;
(3.4.2)依次遍历M的每个节点,根据特征向量T’在对应节点特征的取值,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至将d’划分到M的叶节点,将叶节点的取值作为d’的类别标签并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910280838.3A CN110188340B (zh) | 2019-04-09 | 2019-04-09 | 一种研报文本实体名词自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910280838.3A CN110188340B (zh) | 2019-04-09 | 2019-04-09 | 一种研报文本实体名词自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188340A true CN110188340A (zh) | 2019-08-30 |
CN110188340B CN110188340B (zh) | 2023-02-14 |
Family
ID=67713779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910280838.3A Active CN110188340B (zh) | 2019-04-09 | 2019-04-09 | 一种研报文本实体名词自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188340B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN113902568A (zh) * | 2021-10-30 | 2022-01-07 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140012859A1 (en) * | 2012-07-03 | 2014-01-09 | AGOGO Amalgamated, Inc. | Personalized dynamic content delivery system |
CN103927615A (zh) * | 2008-09-15 | 2014-07-16 | 谷歌公司 | 将实体与类别相关联 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN109063185A (zh) * | 2018-08-27 | 2018-12-21 | 电子科技大学 | 面向事件检测的社交网络短文本数据过滤方法 |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
-
2019
- 2019-04-09 CN CN201910280838.3A patent/CN110188340B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927615A (zh) * | 2008-09-15 | 2014-07-16 | 谷歌公司 | 将实体与类别相关联 |
US20140012859A1 (en) * | 2012-07-03 | 2014-01-09 | AGOGO Amalgamated, Inc. | Personalized dynamic content delivery system |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
CN109063185A (zh) * | 2018-08-27 | 2018-12-21 | 电子科技大学 | 面向事件检测的社交网络短文本数据过滤方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN113902568A (zh) * | 2021-10-30 | 2022-01-07 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
WO2023071129A1 (zh) * | 2021-10-30 | 2023-05-04 | 平安科技(深圳)有限公司 | 绿色资产的占比的识别方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN110188340B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543374B (zh) | 使用人工智能机制进行集中式数据协调 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的发票虚开识别方法及系统 | |
CN110276054B (zh) | 一种保险文本结构化实现方法 | |
CN108520343A (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN111754345B (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
CN111198817B (zh) | 一种基于卷积神经网络的SaaS软件故障诊断方法及装置 | |
CN110415111A (zh) | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 | |
CN106844349A (zh) | 基于协同训练的垃圾评论识别方法 | |
CN113204603B (zh) | 金融数据资产的类别标注方法及装置 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
CN110348974A (zh) | 财务报表处理方法和装置 | |
CN110008463A (zh) | 用于事件抽取的方法、装置和计算机可读介质 | |
CN110188340A (zh) | 一种研报文本实体名词自动识别方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN115688101A (zh) | 一种基于深度学习的文件分类方法及装置 | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
CN114579768A (zh) | 一种实现设备智能运维知识库的维修方法 | |
Velay et al. | Using NLP on news headlines to predict index trends | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
CN113177841A (zh) | 一种异常社区的识别方法、装置和设备 | |
CN112907371A (zh) | 一种风控模型的训练方法 | |
CN110162781A (zh) | 一种金融文本主观句自动识别方法 | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
Chen et al. | Finding the keywords affecting the success of crowdfunding projects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |