CN110188340B - 一种研报文本实体名词自动识别方法 - Google Patents

一种研报文本实体名词自动识别方法 Download PDF

Info

Publication number
CN110188340B
CN110188340B CN201910280838.3A CN201910280838A CN110188340B CN 110188340 B CN110188340 B CN 110188340B CN 201910280838 A CN201910280838 A CN 201910280838A CN 110188340 B CN110188340 B CN 110188340B
Authority
CN
China
Prior art keywords
feature
label
research
text
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910280838.3A
Other languages
English (en)
Other versions
CN110188340A (zh
Inventor
蔡青林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guojin Yongfu Asset Management Co ltd
Original Assignee
Guojin Yongfu Asset Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guojin Yongfu Asset Management Co ltd filed Critical Guojin Yongfu Asset Management Co ltd
Priority to CN201910280838.3A priority Critical patent/CN110188340B/zh
Publication of CN110188340A publication Critical patent/CN110188340A/zh
Application granted granted Critical
Publication of CN110188340B publication Critical patent/CN110188340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种研报文本实体名词自动识别方法,首先根据金融专业词典对研报进行分词,以历史研报中出现的所有词汇构建词库。对于每个研报文本,计算其TF‑IDF特征向量;基于决策树方法将研报文本划分至不同的实体名词类别。本发明可自动识别研报文本所包含的实体名词,从文本数据挖掘的角度分析研报的主题类别;在智能投顾和智能投研等金融科技领域可发挥重要作用,如在大类资产配置中可自动筛选宏观指标以提升系统决策效率等。

Description

一种研报文本实体名词自动识别方法
技术领域
本发明涉及金融技术、数据挖掘、信息检索等领域,尤其涉及一种研报文本实体名词自动识别方法。
背景技术
随着IT技术的不断提高,计算机与金融领域的结合越来越密切,通过IT技术实时获取市场信息的能力,已成为决定金融公司成败的关键因素。金融市场信息主要来源于非结构化的文本数据,如企业年报、公告、新闻、政策法规、市场研究报告等。然而,目前金融领域的文本信息抽取仍然处于人工判断的初级阶段,分析人员需要阅读大量的行业文档,通过分析后获取关键信息。这种手工作业的方式效率较低,且依赖于从业人员的先验知识,学习门槛较高,在瞬息万变的市场交易中,严重阻碍了投资者把握市场机遇的能力。
计算机具有自动处理金融文本的能力,金融信息抽取作为文本处理的一项关键技术,目前已在金融领域得到快速的应用和发展,如在自动化交易系统中,通过将抽取的信息进行量化,作为金融工程、机器学习等算法的输入,进行投资组合优化,实现收益最大化;在机构信用评级中,从企业财报、资本结构、负债盈利等信息中自动收集评级影响因素,实现对机构信用的快速评级。
此外,作为融合语言学、计算机科学、数学等领域的交叉学科,自然语言处理技术也在金融信息抽取中得到广泛的应用,如从文本数据中抽取半结构化知识描述,然后基于半结构化知识构建知识图谱,对市场深度分析和挖掘具有重要的指导作用。
发明内容
本发明要解决的问题是如何自动识别研报文本所包含的实体名词。为了解决该问题,本发明提出了一种基于决策树的研报文本实体名词自动识别方法。
本发明的目的是通过以下技术方案实现的:一种研报文本实体名词自动识别方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取研报文本语料库Corp的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi
(1.4)初始化词库dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量Ti
(2.2)统计p’i中每个词汇wj的词频tfj
(2.3)统计研报文本数据库中包含词汇wj的所有文本数目dfj
(2.4)计算wj在p’i的tf-idf分值sij,并加入到特征向量Ti
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ;
(3.2)根据di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ;
(3.3)使用Ψ和Φ训练Cart树模型M;
(3.4)对于待识别的研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’;
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
进一步地,所述步骤3.2包括以下子步骤:
(3.2.1)若di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为di的标签yi
进一步地,所述步骤3.3包括以下子步骤:
(3.3.1)初始化Cart树M;
(3.3.2)依次遍历特征矩阵Ψ的每个特征,及相应特征的每个取值,将特征矩阵Ψ及标签向量Φ划分到两个子节点,根据多数表决原则计算两个子节点的输出值;
(3.3.3)计算每个切分点的损失函数,选择损失函数最小的特征及切分点,存入Cart树M;
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入Cart树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出Cart树M。
进一步地,所述步骤3.4包括以下子步骤:
(3.4.1)根据步骤(1)~(2)抽取最新的研报文本d’的特征向量T’;
(3.4.2)依次遍历M的每个节点,根据特征向量T’在对应节点特征的取值,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至将d’划分到M的叶节点,将叶节点的取值作为d’的类别标签并输出。
本发明的有益效果是:
1、有效解决了非结构化文本数据中的实体名词自动识别问题,基于机器学习方法提升了决策系统的运行效率,在智能投顾领域可发挥重要作用。
2、在文本特征抽取步骤中,使用TF-IDF方法可有效突出词汇的文本区分能力,减弱噪声词的影响,保证了本发明对实体名词相关词汇的敏感性及识别的准确率。
3、在实体名词识别步骤中,决策树算法对数据缺失不敏感,可以处理不相关特征数据,并且只需构建一次可反复使用,有效提升了预测效率。
附图说明
图1为研报文本实体名词自动识别方法流程图;
图2为训练Cart树模型流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种研报文本实体名词自动识别方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取规模为N的研报语料库Corp中的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融专业词典,对文本di进行分词,生成分词文件pi
(1.4)初始化集合变量dict,将pi的所有词汇存入dict;
(1.5)依次统计词库dict中每个词汇的词频f;
(1.6)根据词频f对dict的所有词汇排序,删除低词频词汇,如最后30%词汇,更新词库dict;
(1.7)依次读取分词文件pi,通过匹配词库dict与pi过滤pi的词汇,保留高频词汇,生成新的分词文件p’i
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’i,初始化特征向量
Figure BDA0002021604680000031
(2.2)统计p’i中每个词汇wj的词频tfj和p’i词汇总数ni
(2.3)统计研报数据库中包含词汇wj的所有文本数目dfj
(2.4)根据公式(1)计算wj在p’i的tf-idf分值sij,并加入特征向量Ti
sij=(tfj/ni)·log(dfj/N) (1)
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵
Figure BDA0002021604680000041
和标签向量
Figure BDA0002021604680000042
(3.2)根据历史研报di包含的所有实体名词打标签yi,并将di的特征向量Ti及标签yi分别加入特征矩阵Ψ和标签向量Φ,具体为:
(3.2.1)若研报di包含实体名词Ii,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I1,I2,…,In>的标签,作为研报di的标签yi;n为di包含的实体名词数目;
(3.3)使用Ψ=[T1,T2,…,TN]和Φ=[y1,y2,…,yN]训练Cart树模型M,该过程包括以下子步骤:
(3.3.1)初始化二叉树
Figure BDA0002021604680000043
(3.3.2)依次遍历特征矩阵Ψ的每个特征j,及相应特征的每个取值vj,将特征矩阵Ψ及标签向量Φ划分到两个子节点ni1和ni2,根据多数表决原则计算两个子节点的输出值ci1和ci2
(3.3.3)根据公式(2)计算每个切分点<j,vj>的损失函数,选择损失函数最小的特征及切分点<jmin,vjmin>,存入二叉树M;
<jmin,vjmin>=minj,v[∑(yi-ci1)2+∑(yi-ci2)2] (2)
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入二叉树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出二叉树M={<j1,v1>,<j2,v2>,…,<jm,vm>}。
(3.4)对于研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’,具体为:
(3.4.1)根据步骤(1)~(2)抽取研报文本d’的特征向量T’;
(3.4.2)依次遍历二叉树M的每个节点<jk,vk>,根据特征向量T’在特征jk的取值v’,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至二叉树M的叶节点nleaf,将叶节点nleaf的取值c’作为研报文本d’的类别标签y’并输出。
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
本发明针对研报文本实体名词自动识别任务,提出了一种基于决策树的实体名词识别方法,不仅可以提高决策系统的运行效率,而且对大类资产配置提供了重要的参考依据,在智能投顾和智能投研等领域可发挥重要的作用。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (2)

1.一种研报文本实体名词自动识别方法,其特征在于,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取研报文本语料库Corp的每个文本d i
(1.2)读取停用词典,删除文本d i 中所有停用词;
(1.3)读取金融专业词典,对文本d i 进行分词,生成分词文件p i
(1.4)初始化词库dict,将p i 的所有词汇存入dict
(1.5)依次统计词库dict中每个词汇的词频f
(1.6)根据词频fdict的所有词汇排序,删除低词频词汇,更新词库dict
(1.7)依次读取分词文件p i ,通过匹配词库dictp i 过滤p i 的词汇,保留高频词汇,生成新的分词文件p’ i
(2)文本特征抽取,具体包括以下子步骤:
(2.1)依次读取分词文件p’ i ,初始化特征向量T i
(2.2)统计p’ i 中每个词汇w j 的词频tf j
(2.3)统计研报文本数据库中包含词汇w j 的所有文本数目df j
(2.4)计算w j p’ i 的tf-idf分值s ij ,并加入到特征向量T i 中;
(3)实体名词识别,具体包括以下子步骤:
(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ
(3.2)根据d i 包含的所有实体名词打标签y i ,并将d i 的特征向量T i 及标签y i 分别加入特征矩阵Ψ和标签向量Φ
(3.3)使用ΨΦ训练Cart树模型M,包括以下子步骤:
(3.3.1)初始化Cart树M
(3.3.2)依次遍历特征矩阵Ψ的每个特征,及相应特征的每个取值,将特征矩阵Ψ及标签向量Φ划分到两个子节点,根据多数表决原则计算两个子节点的输出值;
(3.3.3)计算每个切分点的损失函数,选择损失函数最小的特征及切分点,存入Cart树M
(3.3.4)递归调用步骤(3.3.2)~(3.3.3),生成Cart树的所有节点,并存入Cart树M,直到特征矩阵Ψ不能继续被划分;
(3.3.5)输出Cart树M
(3.4)对于待识别的研报文本d’,根据步骤(1)~(2)抽取特征向量T’,输入模型M,经模型计算输出类别标签y’;包括以下子步骤:
(3.4.1)根据步骤(1)~(2)抽取最新的研报文本d’的特征向量T’
(3.4.2)依次遍历M的每个节点,根据特征向量T’在对应节点特征的取值,将d’划分到相应的子节点;
(3.4.3)递归调用步骤(3.4.2),直至将d’划分到M的叶节点,将叶节点的取值作为d’的类别标签并输出;
(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。
2.根据权利要求1所述一种研报文本实体名词自动识别方法,其特征在于,所述步骤3.2包括以下子步骤:
(3.2.1)若d i 包含实体名词I i ,则标记为1,否则标记为0;
(3.2.2)依次联接所有实体名词<I 1, I 2, …, I n >的标签,作为d i 的标签y i
CN201910280838.3A 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法 Active CN110188340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910280838.3A CN110188340B (zh) 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910280838.3A CN110188340B (zh) 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法

Publications (2)

Publication Number Publication Date
CN110188340A CN110188340A (zh) 2019-08-30
CN110188340B true CN110188340B (zh) 2023-02-14

Family

ID=67713779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910280838.3A Active CN110188340B (zh) 2019-04-09 2019-04-09 一种研报文本实体名词自动识别方法

Country Status (1)

Country Link
CN (1) CN110188340B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070339A1 (en) * 2008-09-15 2010-03-18 Google Inc. Associating an Entity with a Category
US20140012859A1 (en) * 2012-07-03 2014-01-09 AGOGO Amalgamated, Inc. Personalized dynamic content delivery system
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
CN109063185A (zh) * 2018-08-27 2018-12-21 电子科技大学 面向事件检测的社交网络短文本数据过滤方法

Also Published As

Publication number Publication date
CN110188340A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
Van Strien et al. Assessing the impact of OCR quality on downstream NLP tasks
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN110276054B (zh) 一种保险文本结构化实现方法
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
Ayishathahira et al. Combination of neural networks and conditional random fields for efficient resume parsing
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
US20230028664A1 (en) System and method for automatically tagging documents
CN110188340B (zh) 一种研报文本实体名词自动识别方法
CN115481635A (zh) 一种地址要素解析方法和系统
CN115687621A (zh) 一种短文本标签标注方法及装置
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN113159969A (zh) 一种金融长文本复核系统
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
AU2021410731A9 (en) System and method for parsing regulatory and other documents for machine scoring
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
JP2018120284A (ja) 決算分析システムおよび決算分析プログラム
CN113312903A (zh) 一种5g移动业务产品词库的构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant