CN110188340B

CN110188340B - 一种研报文本实体名词自动识别方法

Info

Publication number: CN110188340B
Application number: CN201910280838.3A
Authority: CN
Inventors: 蔡青林
Original assignee: Guojin Yongfu Asset Management Co ltd
Current assignee: Guojin Yongfu Asset Management Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2023-02-14
Anticipated expiration: 2039-04-09
Also published as: CN110188340A

Abstract

本发明公开了一种研报文本实体名词自动识别方法，首先根据金融专业词典对研报进行分词，以历史研报中出现的所有词汇构建词库。对于每个研报文本，计算其TF‑IDF特征向量；基于决策树方法将研报文本划分至不同的实体名词类别。本发明可自动识别研报文本所包含的实体名词，从文本数据挖掘的角度分析研报的主题类别；在智能投顾和智能投研等金融科技领域可发挥重要作用，如在大类资产配置中可自动筛选宏观指标以提升系统决策效率等。

Description

一种研报文本实体名词自动识别方法

技术领域

本发明涉及金融技术、数据挖掘、信息检索等领域，尤其涉及一种研报文本实体名词自动识别方法。

背景技术

随着IT技术的不断提高，计算机与金融领域的结合越来越密切，通过IT技术实时获取市场信息的能力，已成为决定金融公司成败的关键因素。金融市场信息主要来源于非结构化的文本数据，如企业年报、公告、新闻、政策法规、市场研究报告等。然而，目前金融领域的文本信息抽取仍然处于人工判断的初级阶段，分析人员需要阅读大量的行业文档，通过分析后获取关键信息。这种手工作业的方式效率较低，且依赖于从业人员的先验知识，学习门槛较高，在瞬息万变的市场交易中，严重阻碍了投资者把握市场机遇的能力。

计算机具有自动处理金融文本的能力，金融信息抽取作为文本处理的一项关键技术，目前已在金融领域得到快速的应用和发展，如在自动化交易系统中，通过将抽取的信息进行量化，作为金融工程、机器学习等算法的输入，进行投资组合优化，实现收益最大化；在机构信用评级中，从企业财报、资本结构、负债盈利等信息中自动收集评级影响因素，实现对机构信用的快速评级。

此外，作为融合语言学、计算机科学、数学等领域的交叉学科，自然语言处理技术也在金融信息抽取中得到广泛的应用，如从文本数据中抽取半结构化知识描述，然后基于半结构化知识构建知识图谱，对市场深度分析和挖掘具有重要的指导作用。

发明内容

本发明要解决的问题是如何自动识别研报文本所包含的实体名词。为了解决该问题，本发明提出了一种基于决策树的研报文本实体名词自动识别方法。

本发明的目的是通过以下技术方案实现的：一种研报文本实体名词自动识别方法，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)依次读取研报文本语料库Corp的每个文本d_i；

(1.2)读取停用词典，删除文本d_i中所有停用词；

(1.3)读取金融专业词典，对文本d_i进行分词，生成分词文件p_i；

(1.4)初始化词库dict，将p_i的所有词汇存入dict；

(1.5)依次统计词库dict中每个词汇的词频f；

(1.6)根据词频f对dict的所有词汇排序，删除低词频词汇，更新词库dict；

(1.7)依次读取分词文件p_i，通过匹配词库dict与p_i过滤p_i的词汇，保留高频词汇，生成新的分词文件p’_i；

(2)文本特征抽取，具体包括以下子步骤：

(2.1)依次读取分词文件p’_i，初始化特征向量T_i；

(2.2)统计p’_i中每个词汇w_j的词频tf_j；

(2.3)统计研报文本数据库中包含词汇w_j的所有文本数目df_j；

(2.4)计算w_j在p’_i的tf-idf分值s_ij，并加入到特征向量T_i；

(3)实体名词识别，具体包括以下子步骤：

(3.1)初始化训练数据特征矩阵Ψ和标签向量Φ；

(3.2)根据d_i包含的所有实体名词打标签y_i，并将d_i的特征向量T_i及标签y_i分别加入特征矩阵Ψ和标签向量Φ；

(3.3)使用Ψ和Φ训练Cart树模型M；

(3.4)对于待识别的研报文本d’，根据步骤(1)～(2)抽取特征向量T’，输入模型M，经模型计算输出类别标签y’；

(3.5)根据步骤(3.2)将类别标签y’转译为具体实体名词并输出。

进一步地，所述步骤3.2包括以下子步骤：

(3.2.1)若d_i包含实体名词I_i，则标记为1，否则标记为0；

(3.2.2)依次联接所有实体名词<I₁,I₂,…,I_n>的标签，作为d_i的标签y_i。

进一步地，所述步骤3.3包括以下子步骤：

(3.3.1)初始化Cart树M；

(3.3.2)依次遍历特征矩阵Ψ的每个特征，及相应特征的每个取值，将特征矩阵Ψ及标签向量Φ划分到两个子节点，根据多数表决原则计算两个子节点的输出值；

(3.3.3)计算每个切分点的损失函数，选择损失函数最小的特征及切分点，存入Cart树M；

(3.3.4)递归调用步骤(3.3.2)～(3.3.3)，生成Cart树的所有节点，并存入Cart树M，直到特征矩阵Ψ不能继续被划分；

(3.3.5)输出Cart树M。

进一步地，所述步骤3.4包括以下子步骤：

(3.4.1)根据步骤(1)～(2)抽取最新的研报文本d’的特征向量T’；

(3.4.2)依次遍历M的每个节点，根据特征向量T’在对应节点特征的取值，将d’划分到相应的子节点；

(3.4.3)递归调用步骤(3.4.2)，直至将d’划分到M的叶节点，将叶节点的取值作为d’的类别标签并输出。

本发明的有益效果是：

1、有效解决了非结构化文本数据中的实体名词自动识别问题，基于机器学习方法提升了决策系统的运行效率，在智能投顾领域可发挥重要作用。

2、在文本特征抽取步骤中，使用TF-IDF方法可有效突出词汇的文本区分能力，减弱噪声词的影响，保证了本发明对实体名词相关词汇的敏感性及识别的准确率。

3、在实体名词识别步骤中，决策树算法对数据缺失不敏感，可以处理不相关特征数据，并且只需构建一次可反复使用，有效提升了预测效率。

附图说明

图1为研报文本实体名词自动识别方法流程图；

图2为训练Cart树模型流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明提供一种研报文本实体名词自动识别方法，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)依次读取规模为N的研报语料库Corp中的每个文本d_i；

(1.2)读取停用词典，删除文本d_i中所有停用词；

(1.4)初始化集合变量dict，将p_i的所有词汇存入dict；

(1.5)依次统计词库dict中每个词汇的词频f；

(1.6)根据词频f对dict的所有词汇排序，删除低词频词汇，如最后30％词汇，更新词库dict；

(2)文本特征抽取，具体包括以下子步骤：

(2.1)依次读取分词文件p’_i，初始化特征向量

(2.2)统计p’_i中每个词汇w_j的词频tf_j和p’_i词汇总数n_i；

(2.3)统计研报数据库中包含词汇w_j的所有文本数目df_j；

(2.4)根据公式(1)计算w_j在p’_i的tf-idf分值s_ij，并加入特征向量T_i；

s_ij＝(tf_j/n_i)·log(df_j/N) (1)

(3)实体名词识别，具体包括以下子步骤：

(3.1)初始化训练数据特征矩阵

和标签向量

(3.2)根据历史研报d_i包含的所有实体名词打标签y_i，并将d_i的特征向量T_i及标签y_i分别加入特征矩阵Ψ和标签向量Φ，具体为：

(3.2.1)若研报d_i包含实体名词I_i，则标记为1，否则标记为0；

(3.2.2)依次联接所有实体名词<I₁,I₂,…,I_n>的标签，作为研报d_i的标签y_i；n为d_i包含的实体名词数目；

(3.3)使用Ψ＝[T₁,T₂,…,T_N]和Φ＝[y₁,y₂,…,y_N]训练Cart树模型M，该过程包括以下子步骤：

(3.3.1)初始化二叉树

(3.3.2)依次遍历特征矩阵Ψ的每个特征j，及相应特征的每个取值v_j，将特征矩阵Ψ及标签向量Φ划分到两个子节点n_i1和n_i2，根据多数表决原则计算两个子节点的输出值c_i1和c_i2；

(3.3.3)根据公式(2)计算每个切分点<j,v_j>的损失函数，选择损失函数最小的特征及切分点<j_min,v_jmin>，存入二叉树M；

<j_min,v_jmin>＝min_j,v[∑(y_i-c_i1)²+∑(y_i-c_i2)²] (2)

(3.3.4)递归调用步骤(3.3.2)～(3.3.3)，生成Cart树的所有节点，并存入二叉树M，直到特征矩阵Ψ不能继续被划分；

(3.3.5)输出二叉树M＝{<j₁,v₁>,<j₂,v₂>,…,<j_m,v_m>}。

(3.4)对于研报文本d’，根据步骤(1)～(2)抽取特征向量T’，输入模型M，经模型计算输出类别标签y’，具体为：

(3.4.1)根据步骤(1)～(2)抽取研报文本d’的特征向量T’；

(3.4.2)依次遍历二叉树M的每个节点<j_k,v_k>，根据特征向量T’在特征j_k的取值v’，将d’划分到相应的子节点；

(3.4.3)递归调用步骤(3.4.2)，直至二叉树M的叶节点n_leaf，将叶节点n_leaf的取值c’作为研报文本d’的类别标签y’并输出。

本发明针对研报文本实体名词自动识别任务，提出了一种基于决策树的实体名词识别方法，不仅可以提高决策系统的运行效率，而且对大类资产配置提供了重要的参考依据，在智能投顾和智能投研等领域可发挥重要的作用。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种研报文本实体名词自动识别方法，其特征在于，包括以下步骤：

（1）数据预处理，具体包括以下子步骤：

（1.1）依次读取研报文本语料库Corp的每个文本d _i；

（1.2）读取停用词典，删除文本d _i中所有停用词；

（1.3）读取金融专业词典，对文本d _i进行分词，生成分词文件p _i；

（1.4）初始化词库dict，将p _i的所有词汇存入dict；

（1.5）依次统计词库dict中每个词汇的词频f；

（1.6）根据词频f对dict的所有词汇排序，删除低词频词汇，更新词库dict；

（1.7）依次读取分词文件p _i，通过匹配词库dict与p _i过滤p _i的词汇，保留高频词汇，生成新的分词文件p’ _i；

（2）文本特征抽取，具体包括以下子步骤：

（2.1）依次读取分词文件p’ _i，初始化特征向量T _i；

（2.2）统计p’ _i中每个词汇w _j的词频tf _j；

（2.3）统计研报文本数据库中包含词汇w _j的所有文本数目df _j；

（2.4）计算w _j在p’ _i的tf-idf分值s _ij，并加入到特征向量T _i中；

（3）实体名词识别，具体包括以下子步骤：

（3.1）初始化训练数据特征矩阵Ψ和标签向量Φ；

（3.2）根据d _i包含的所有实体名词打标签y _i，并将d _i的特征向量T _i及标签y _i分别加入特征矩阵Ψ和标签向量Φ；

（3.3）使用Ψ和Φ训练Cart树模型M，包括以下子步骤：

（3.3.1）初始化Cart树M；

（3.3.2）依次遍历特征矩阵Ψ的每个特征，及相应特征的每个取值，将特征矩阵Ψ及标签向量Φ划分到两个子节点，根据多数表决原则计算两个子节点的输出值；

（3.3.3）计算每个切分点的损失函数，选择损失函数最小的特征及切分点，存入Cart树M；

（3.3.4）递归调用步骤（3.3.2）~（3.3.3），生成Cart树的所有节点，并存入Cart树M，直到特征矩阵Ψ不能继续被划分；

（3.3.5）输出Cart树M；

（3.4）对于待识别的研报文本d’，根据步骤（1）~（2）抽取特征向量T’，输入模型M，经模型计算输出类别标签y’；包括以下子步骤：

（3.4.1）根据步骤（1）~（2）抽取最新的研报文本d’的特征向量T’；

（3.4.2）依次遍历M的每个节点，根据特征向量T’在对应节点特征的取值，将d’划分到相应的子节点；

（3.4.3）递归调用步骤（3.4.2），直至将d’划分到M的叶节点，将叶节点的取值作为d’的类别标签并输出；

（3.5）根据步骤（3.2）将类别标签y’转译为具体实体名词并输出。

2.根据权利要求1所述一种研报文本实体名词自动识别方法，其特征在于，所述步骤3.2包括以下子步骤：

（3.2.1）若d _i包含实体名词I _i，则标记为1，否则标记为0；

（3.2.2）依次联接所有实体名词<I ₁, I ₂, …, I _n>的标签，作为d _i的标签y _i。