CN111428000A

CN111428000A - 一种非结构化文本数据量化方法、系统及存储介质

Info

Publication number: CN111428000A
Application number: CN202010201916.9A
Authority: CN
Inventors: 陈志宝; 朱德伟; 朱峰; 刘园; 潘明慧; 张超
Original assignee: Huatai Securities Co ltd
Current assignee: Huatai Securities Co ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-17

Abstract

本发明公开了一种非结构化文本数据量化方法，包括：将原始数据中的词语向量化；将词语向量化后的数据中的句子矩阵化；将句子矩阵化后数据张量化；将张量化的新闻进行嵌入，本发明能够从非结构化的自然语言数据抽取事件并将其量化。

Description

一种非结构化文本数据量化方法、系统及存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及一种非结构化文本数据量化方法、系统及存储介质。

背景技术

金融新闻资讯数据已在量化投资和事件驱动策略领域有重要的应用，广义上说，市场上任何发生的有可能与投资标的物相关的新闻、事件、公告均有可能成为事件驱动的投资机会。目前市场经过验证有效的事件已经不少，涵盖了影响股票价格的多个方面。事件驱动策略由于其策略逻辑的独特性，因此与其他常规股票策略相关性很低，再加上事件众多，资金容量大这一特点，使得事件驱动策略成为国外对冲基金非常大类的投资策略。然而，如何从日常的新闻信息等非结构化的自然语言中抽事件并将其量化以便利用其指导投资并无很好的方法。

发明内容

针对现有技术存在的问题，本发明提供了一种非结构化文本数据量化方法、系统及存储介质，能够从非结构化的自然语言数据抽取事件并将其量化。

本发明是通过以下技术方案实现的：

第一方面，提供了一种非结构化文本数据量化方法，包括：

将原始数据中的词语向量化；

将词语向量化后的数据中的句子矩阵化；

将句子矩阵化后数据张量化；

将张量化的新闻进行嵌入。

结合第一方面，进一步的，所述将将原始数据中的词语向量化包括：去除原始数据中的虚词，保留实词，并将剩余的实词向量化。

结合第一方面，进一步的，所述将词语向量化后的数据中的句子矩阵化包括：

通过公式(1)将词语向量化后数据中的句子矩阵化；

S＝(word1^T,word2^T,…wordm^T)^T(1)；其中，S表示矩阵化后的句子，wordm表示第m个词向的量。词向量的维度为120。

结合第一方面，所述将句子矩阵化后数据张量化包括：

通过公式(2)将句子矩阵化后数据中的段落张量化；

TN＝[S1,S2,…Sh] (2)

其中TN表示张量化后新闻段落，Sh表示新闻段落中第h个句子的张量值。

结合第一方面，进一步的，所述将张量化的新闻进行嵌入包括：

通过公式(3)对张量化后新闻段落TN中的句子进行奇异值分解

Si＝UiΣiVi^T (3)

其中，Si为第i个句子的张量值，Ui和Vi都是单位正交矩阵，Σi为含有奇异值的对角矩阵；

设句子分解的奇异值为σi1，σi2，σi3，…σin,取其中前p个奇异值，若有句子矩阵分解后不足p个奇异值，用0补足p个；则Si由矩阵转换为向量(σi1，σi2，σi3,σi4，σi5，…σip)；

其中n为句子分解的奇异值的个数；

令SVi＝(σi1，σi2，σi3,σi4，σi5，…σip)，则将张量化后的新闻段落TN转换为新闻矩阵MN，矩阵MN＝(SV1^T,SV2^T,…SVh^T)^T，大小为h*p；其中p的值取8，q的值取5，均为多轮测试后的最佳参数；

最后再将新闻矩阵MN进行奇异值分解，取其中前q个奇异值，将新闻转换为q维的向量。

第二方面，提供了一种非结构化文本数据量化系统，包括：

词语向量化模块：用于将原始数据中的词语向量化；

句子矩阵化模块：用于将词语向量化后的数据中的句子矩阵化；

新闻张量化模块：用于将句子矩阵化后数据张量化；

新闻嵌入模块：用于将张量化的新闻进行嵌入。

第三方面，提供了一种非结构化文本数据量化系统，包括：包括存储器和处理器；

所述存储器用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面任一项所述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

有益效果：(1)首次提出“金融新闻张量化降维”思路：受视频和图像数据结构和压缩技术启发，在词向量的基础上，通过构造句子矩阵化，构造文本张量化，逐层信息表征。

(2)有助于突破现有“因子模型”的传统机器学习方式，研发端到端深度学习量化策略研究，深化X-Quant产品设计：现有AI量化方法中的机器学习，深度学习模型都是建立在严格和繁重的因子加工、因子选择、因子评价基础上的回归模型。并未体现深度学习通过特征表征实现端到端学习的模式，该技术将新闻数据向量化有助于实现“事件驱动”策略研发端到端策略。

(3)相比新闻“情感分析”应用于量化投资，避免NLP新闻处理“过度加工”问题：而现有的事件情感分析以及正负面词对于量化投资存在信息过度加工的疑虑，未必符合策略研究员实际问题中对某一新闻利空利好的判断。

(4)相比新闻“事件抽取”应用于量化投资，更好地衔接新闻数据和量化模型：当前事件驱动模型中的新闻事件抽取，由于其事件定义和模板的复杂性以及冷启动问题，在实际量化业务的应用中有很多障碍。而且即使事件抽取完成，量化建模人员还需要将“事件”数量化才能输入模型。

(5)可以缓解现有新闻资讯NLP应用“标注样本”缺乏，标注工作繁杂等痛点，直接面向业务提供结构化数据低维数值表示：本技术面向量化投资的“新闻嵌入”思想，还可以应用到其他业务场景。NLP技术在金融领域的应用最终是要落到业务实际，而现有的NLP技术大多是从其他传统NLP领域将技术平移，例如情感分析、事件抽取、知识图谱等，而大量NLP工作需要专业的“标注样本”以及业务目标的深刻认知才能真正开展，然后直接根据业务目标建立AI学习任务，有助于研发各种端到端学习的AI产品。

附图说明

图1为本发明的流程图；

图2为本发明的计算过程图。

具体实施方式

下面结合说明书附图，对本发明作进一步的说明。

如图1-2所示，本发明所提供的一种非结构化文本数据量化方法，其在股票量化投资中的应用包括如下步骤：

步骤1、将原始新闻中的数据向量化

基于Word2Vec词嵌入方法对原始的新闻数据进行分词、去除虚词、保留实词，并将剩余的实词向量化，形成新闻词向量组，选取新闻词向量维度为120。

例如，新闻原始数据为：中小板上市公司天夏智慧，股民一致看好该公司，股吧股价一度封上涨停板。

分词结果为：中小板|上市公司|天夏智慧|股民|一致|看好|该|公司|股吧|股价|一度|封上|涨停板。

中小板(Word1)

word1＝(w₁₁,w₁₂,…w₁₂₀)

word2＝(w₂₁,w₂₂,…w_2,120)

wordm＝(w_m1,w_m2,…w_m,120)

w_m1,w_m2,…w_m,120表示词向量的值(以下这些词向量的具体值是基于文本通过Word2Vec转换而来)

Word1＝[-9.26227570e-02 7.85291269e-02 2.06745848e-01 4.53802459e-02-5.98646142e-02 -1.19119920e-02 1.56296641e-01 -1.09672509e-01…]

上市公司(Word2)

Word2＝[1.16033284e-02 2.29552481e-02 6.99908435e-02 -2.01484784e-021.94207549e-01 2.17283014e-02 6.93901032e-02 -7.65632838e-02…]

天夏智慧(Word3)

Word3＝[8.30961317e-02 4.19870876e-02 9.15429965e-02 1.22021772e-01 -4.68323678e-02 1.23583555e-01 -1.16987228e-01 1.98838025e-01…]

股民(Word4)

Word4＝[-7.00142086e-02 2.45623291e-02 -1.72392264e-01 -2.07515791e-01 5.31812124e-02 1.88667163e-01 -1.26254886e-01 4.56392728e-02…]

一致(Word5)

Word5＝[-4.15950269e-03 8.26853067e-02 1.38400182e-01 1.25660971e-02-7.00984821e-02 -1.91034377e-02 4.78707813e-03 -1.85644571e-02…]

看好(Word6)

Word6＝[1.14475131e-01 -8.19272250e-02 2.03411579e-02 2.22017709e-023.18053365e-02-5.38271526e-03 4.67746099e-03 -3.13821882e-02…]

该(Word7)

Word7＝[7.47777373e-02 -1.07056431e-01 2.89814491e-02 -1.20041400e-019.40279216e-02 2.21438497e-01 1.15518011e-01 -4.40506861e-02…]

公司(Word8)

Word8＝[-9.64670628e-02 3.04180589e-02 -1.16972201e-01 2.37145424e-01-1.01149023e-01 -1.90007254e-01 -7.64266700e-02 -7.55789876e-02…]

股吧

Word9＝[2.05468740e-02 -5.86696081e-02 -2.23080248e-01 1.49594083e-011.45589735e-03 -4.47441016e-06 4.34174389e-02 -1.86159909e-02…]

股价(Word10)

Word10＝[-2.09129840e-01 5.41791096e-02 1.09271161e-01 8.20842311e-023.98609750e-02 9.31959003e-02 1.05312563e-01 1.13633588e-01…]

一度(Word11)

Word11＝[8.56399238e-02 -4.06527380e-03 -1.44508347e-01 3.55085842e-02 -5.31395078e-02 1.00096457e-01 3.03170225e-03 1.47069665e-02…]

封上(Word12)

Word12＝[-6.26876876e-02 3.15646268e-02 7.40882680e-02 -1.08592771e-01 8.91190767e-03 3.98380421e-02 -4.85271066e-02 -9.13272500e-02…]

涨停板(Word13)

Word13＝[0.0277054 0.08232085 -0.03442042 -0.07600636

-0.06566229 0.006741890.04554237 0.01285228...]

步骤2、将向量化后的新闻数据中的句子矩阵化

通过公式(1)将词语向量化后数据中的句子矩阵化；

S＝(word1^T,word2^T,…wordm^T)^T (1)

其中，S表示矩阵化后的句子，wordm表示第m个词向的量。

第一句：中小板上市公司天夏智慧

S1＝[[-9.26227570e-02 7.85291269e-02 2.06745848e-01 4.53802459e-02…]

[1.16033284e-02 2.29552481e-02 6.99908435e-02 -2.01484784e-02…]

[8.30961317e-02 4.19870876e-02 9.15429965e-02 1.22021772e-01…]

[0.0 0.0 0.0 0.0...]

[0.0 0.0 0.0 0.0…]]

第二句：股民一致看好该公司

S2＝[[-7.00142086e-02 2.45623291e-02 -1.72392264e-01 -2.07515791e-01…]

[-4.15950269e-03 8.26853067e-02 1.38400182e-01 1.25660971e-02…]

[1.14475131e-01 -8.19272250e-02 2.03411579e-02 2.22017709e-02…]

[7.47777373e-02 -1.07056431e-01 2.89814491e-02 -1.20041400e-01…]

[-9.64670628e-02 3.04180589e-02 -1.16972201e-01 2.37145424e-01…]]

第三句：股吧股价一度封上涨停板

S3＝[[2.05468740e-02 -5.86696081e-02 -2.23080248e-01 1.49594083e-01…]

[-2.09129840e-01 5.41791096e-02 1.09271161e-01 8.20842311e-02…]

[8.56399238e-02 -4.06527380e-03 -1.44508347e-01 3.55085842e-02…]

[-6.26876876e-02 3.15646268e-02 7.40882680e-02 -1.08592771e-01…]

[0.0277054 0.08232085 -0.03442042 -0.07600636 -0.065662290.00674189…]]

步骤三、将句子矩阵化后数据张量化

通过公式(2)将句子矩阵化后数据中的段落张量化；

TN＝[S1,S2,…Sh] (2)

其中TN表示张量化后新闻段落，Sh表示新闻段落中第h个句子的张量值，这里h＝3,TN＝[S1,S2,S3]。

步骤四、新闻嵌入

通过公式(3)对张量化后新闻段落TN中的句子(即S1，S2,S3)进行奇异值分解(SVD，Singular Value Decomposition)

Si＝UiΣiVi^T (3)

其中n为句子分解的奇异值的个数；

令SVi＝(σi1，σi2，σi3,σi4，σi5，…σip)，则将张量化后的新闻段落TN转换为新闻矩阵MN

[[0.23 0.11 0.45 0.33 0.56 0.11 0.28 0.94]

[0.13 0.12 0.66 0.12 0.05 0.03 0.17 0.12]

[0.12 0.05 0.16 0.72 0.32 0.15 0.76 0.23]]

矩阵MN＝(SV1^T,SV2^T,…SVh^T)^T，大小为h*p；其中p的值取8，q的值取5，均为多轮测试后的最佳参数；

最后再将新闻矩阵MN进行奇异值分解，取其中前q个奇异值，将新闻转换为q维的向量(即得到最终的嵌入向量)。

[0.324 -0.012 0.021 -0.006 2.451]

最终：

中小板上市公司天夏智慧，股民一致看好该公司，股吧股价一度封上涨停板。

向量化为[0.324 -0.012 0.021 -0.006 2.451]。

本发明实施例提供的一种非结构化文本数据量化系统，包括：

词语向量化模块：用于将原始数据中的词语向量化；

新闻张量化模块：用于将句子矩阵化后数据张量化；

新闻嵌入模块：用于将张量化的新闻进行嵌入。

本发明提供的一种非结构化文本数据量化系统，还可以是：包括存储器和处理器；

所述存储器用于存储指令；

所述处理器用于根据所述指令进行操作以执行前述非结构化文本数据量化方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述非结构化文本数据量化方法的步骤。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种非结构化文本数据量化方法，其特征在于，包括：

将原始数据中的词语向量化；

将词语向量化后的数据中的句子矩阵化；

将句子矩阵化后数据张量化；

将张量化的新闻进行嵌入。

2.根据权利要求1所述的一种非结构化文本数据量化方法，其特征在于，所述将将原始数据中的词语向量化包括：

去除原始数据中的虚词，保留实词，并将剩余的实词向量化。

3.根据权利要求1所述的一种非结构化文本数据量化方法，其特征在于，所述将词语向量化后的数据中的句子矩阵化包括：

通过公式(1)将词语向量化后数据中的句子矩阵化；

S＝(word1^T,word2^T,…wordm^T)^T(1)

其中，S表示矩阵化后的句子，wordm表示第m个词向的量。

4.根据权利要求1所述的一种非结构化文本数据量化方法，其特征在于，所述将句子矩阵化后数据张量化包括：

通过公式(2)将句子矩阵化后数据中的段落张量化；

TN＝[S1,S2,…Sh](2)

5.根据权利要求4所述的一种非结构化文本数据量化方法，其特征在于，所述将张量化的新闻进行嵌入包括：

通过公式(3)对张量化后新闻段落TN中的句子进行奇异值分解

Si＝UiΣiVi^T(3)

其中n为句子分解的奇异值的个数；

令SVi＝(σi1，σi2，σi3,σi4，σi5，…σip)，则将张量化后的新闻段落TN转换为新闻矩阵MN，矩阵MN＝(SV1^T,SV2^T,…SVh^T)^T，大小为h*p；

6.根据权利要求3所述的一种非结构化文本数据量化方法，其特征在于，所述词向量的维度为120。

7.根据权利要求5所述的一种非结构化文本数据量化方法，其特征在于，设句子分解的奇异值为σi1，σi2，σi3，…σin时,取其中前p个奇异值，p＝8；将新闻矩阵MN进行奇异值分解时，取其中前q个奇异值，q＝5。

8.一种非结构化文本数据量化系统，其特征在于，包括：

词语向量化模块：用于将原始数据中的词语向量化；

新闻张量化模块：用于将句子矩阵化后数据张量化；

新闻嵌入模块：用于将张量化的新闻进行嵌入。

9.一种非结构化文本数据量化系统，其特征在于，包括：包括存储器和处理器；

所述存储器用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。