CN111428000A - 一种非结构化文本数据量化方法、系统及存储介质 - Google Patents

一种非结构化文本数据量化方法、系统及存储介质 Download PDF

Info

Publication number
CN111428000A
CN111428000A CN202010201916.9A CN202010201916A CN111428000A CN 111428000 A CN111428000 A CN 111428000A CN 202010201916 A CN202010201916 A CN 202010201916A CN 111428000 A CN111428000 A CN 111428000A
Authority
CN
China
Prior art keywords
news
sentence
data
matrixing
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010201916.9A
Other languages
English (en)
Inventor
陈志宝
朱德伟
朱峰
刘园
潘明慧
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huatai Securities Co ltd
Original Assignee
Huatai Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huatai Securities Co ltd filed Critical Huatai Securities Co ltd
Priority to CN202010201916.9A priority Critical patent/CN111428000A/zh
Publication of CN111428000A publication Critical patent/CN111428000A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种非结构化文本数据量化方法,包括:将原始数据中的词语向量化;将词语向量化后的数据中的句子矩阵化;将句子矩阵化后数据张量化;将张量化的新闻进行嵌入,本发明能够从非结构化的自然语言数据抽取事件并将其量化。

Description

一种非结构化文本数据量化方法、系统及存储介质
技术领域
本发明属于数据处理技术领域,尤其涉及一种非结构化文本数据量化方法、系统及存储介质。
背景技术
金融新闻资讯数据已在量化投资和事件驱动策略领域有重要的应用,广义上说,市场上任何发生的有可能与投资标的物相关的新闻、事件、公告均有可能成为事件驱动的投资机会。目前市场经过验证有效的事件已经不少,涵盖了影响股票价格的多个方面。事件驱动策略由于其策略逻辑的独特性,因此与其他常规股票策略相关性很低,再加上事件众多,资金容量大这一特点,使得事件驱动策略成为国外对冲基金非常大类的投资策略。然而,如何从日常的新闻信息等非结构化的自然语言中抽事件并将其量化以便利用其指导投资并无很好的方法。
发明内容
针对现有技术存在的问题,本发明提供了一种非结构化文本数据量化方法、系统及存储介质,能够从非结构化的自然语言数据抽取事件并将其量化。
本发明是通过以下技术方案实现的:
第一方面,提供了一种非结构化文本数据量化方法,包括:
将原始数据中的词语向量化;
将词语向量化后的数据中的句子矩阵化;
将句子矩阵化后数据张量化;
将张量化的新闻进行嵌入。
结合第一方面,进一步的,所述将将原始数据中的词语向量化包括:去除原始数据中的虚词,保留实词,并将剩余的实词向量化。
结合第一方面,进一步的,所述将词语向量化后的数据中的句子矩阵化包括:
通过公式(1)将词语向量化后数据中的句子矩阵化;
S=(word1T,word2T,…wordmT)T(1);其中,S表示矩阵化后的句子,wordm表示第m个词向的量。词向量的维度为120。
结合第一方面,所述将句子矩阵化后数据张量化包括:
通过公式(2)将句子矩阵化后数据中的段落张量化;
TN=[S1,S2,…Sh] (2)
其中TN表示张量化后新闻段落,Sh表示新闻段落中第h个句子的张量值。
结合第一方面,进一步的,所述将张量化的新闻进行嵌入包括:
通过公式(3)对张量化后新闻段落TN中的句子进行奇异值分解
Si=UiΣiViT (3)
其中,Si为第i个句子的张量值,Ui和Vi都是单位正交矩阵,Σi为含有奇异值的对角矩阵;
设句子分解的奇异值为σi1,σi2,σi3,…σin,取其中前p个奇异值,若有句子矩阵分解后不足p个奇异值,用0补足p个;则Si由矩阵转换为向量(σi1,σi2,σi3,σi4,σi5,…σip);
其中n为句子分解的奇异值的个数;
令SVi=(σi1,σi2,σi3,σi4,σi5,…σip),则将张量化后的新闻段落TN转换为新闻矩阵MN,矩阵MN=(SV1T,SV2T,…SVhT)T,大小为h*p;其中p的值取8,q的值取5,均为多轮测试后的最佳参数;
最后再将新闻矩阵MN进行奇异值分解,取其中前q个奇异值,将新闻转换为q维的向量。
第二方面,提供了一种非结构化文本数据量化系统,包括:
词语向量化模块:用于将原始数据中的词语向量化;
句子矩阵化模块:用于将词语向量化后的数据中的句子矩阵化;
新闻张量化模块:用于将句子矩阵化后数据张量化;
新闻嵌入模块:用于将张量化的新闻进行嵌入。
第三方面,提供了一种非结构化文本数据量化系统,包括:包括存储器和处理器;
所述存储器用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面任一项所述方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项所述方法的步骤。
有益效果:(1)首次提出“金融新闻张量化降维”思路:受视频和图像数据结构和压缩技术启发,在词向量的基础上,通过构造句子矩阵化,构造文本张量化,逐层信息表征。
(2)有助于突破现有“因子模型”的传统机器学习方式,研发端到端深度学习量化策略研究,深化X-Quant产品设计:现有AI量化方法中的机器学习,深度学习模型都是建立在严格和繁重的因子加工、因子选择、因子评价基础上的回归模型。并未体现深度学习通过特征表征实现端到端学习的模式,该技术将新闻数据向量化有助于实现“事件驱动”策略研发端到端策略。
(3)相比新闻“情感分析”应用于量化投资,避免NLP新闻处理“过度加工”问题:而现有的事件情感分析以及正负面词对于量化投资存在信息过度加工的疑虑,未必符合策略研究员实际问题中对某一新闻利空利好的判断。
(4)相比新闻“事件抽取”应用于量化投资,更好地衔接新闻数据和量化模型:当前事件驱动模型中的新闻事件抽取,由于其事件定义和模板的复杂性以及冷启动问题,在实际量化业务的应用中有很多障碍。而且即使事件抽取完成,量化建模人员还需要将“事件”数量化才能输入模型。
(5)可以缓解现有新闻资讯NLP应用“标注样本”缺乏,标注工作繁杂等痛点,直接面向业务提供结构化数据低维数值表示:本技术面向量化投资的“新闻嵌入”思想,还可以应用到其他业务场景。NLP技术在金融领域的应用最终是要落到业务实际,而现有的NLP技术大多是从其他传统NLP领域将技术平移,例如情感分析、事件抽取、知识图谱等,而大量NLP工作需要专业的“标注样本”以及业务目标的深刻认知才能真正开展,然后直接根据业务目标建立AI学习任务,有助于研发各种端到端学习的AI产品。
附图说明
图1为本发明的流程图;
图2为本发明的计算过程图。
具体实施方式
下面结合说明书附图,对本发明作进一步的说明。
如图1-2所示,本发明所提供的一种非结构化文本数据量化方法,其在股票量化投资中的应用包括如下步骤:
步骤1、将原始新闻中的数据向量化
基于Word2Vec词嵌入方法对原始的新闻数据进行分词、去除虚词、保留实词,并将剩余的实词向量化,形成新闻词向量组,选取新闻词向量维度为120。
例如,新闻原始数据为:中小板上市公司天夏智慧,股民一致看好该公司,股吧股价一度封上涨停板。
分词结果为:中小板|上市公司|天夏智慧|股民|一致|看好|该|公司|股吧|股价|一度|封上|涨停板。
中小板(Word1)
word1=(w11,w12,…w120)
word2=(w21,w22,…w2,120)
wordm=(wm1,wm2,…wm,120)
wm1,wm2,…wm,120表示词向量的值(以下这些词向量的具体值是基于文本通过Word2Vec转换而来)
Word1=[-9.26227570e-02 7.85291269e-02 2.06745848e-01 4.53802459e-02-5.98646142e-02 -1.19119920e-02 1.56296641e-01 -1.09672509e-01…]
上市公司(Word2)
Word2=[1.16033284e-02 2.29552481e-02 6.99908435e-02 -2.01484784e-021.94207549e-01 2.17283014e-02 6.93901032e-02 -7.65632838e-02…]
天夏智慧(Word3)
Word3=[8.30961317e-02 4.19870876e-02 9.15429965e-02 1.22021772e-01 -4.68323678e-02 1.23583555e-01 -1.16987228e-01 1.98838025e-01…]
股民(Word4)
Word4=[-7.00142086e-02 2.45623291e-02 -1.72392264e-01 -2.07515791e-01 5.31812124e-02 1.88667163e-01 -1.26254886e-01 4.56392728e-02…]
一致(Word5)
Word5=[-4.15950269e-03 8.26853067e-02 1.38400182e-01 1.25660971e-02-7.00984821e-02 -1.91034377e-02 4.78707813e-03 -1.85644571e-02…]
看好(Word6)
Word6=[1.14475131e-01 -8.19272250e-02 2.03411579e-02 2.22017709e-023.18053365e-02-5.38271526e-03 4.67746099e-03 -3.13821882e-02…]
该(Word7)
Word7=[7.47777373e-02 -1.07056431e-01 2.89814491e-02 -1.20041400e-019.40279216e-02 2.21438497e-01 1.15518011e-01 -4.40506861e-02…]
公司(Word8)
Word8=[-9.64670628e-02 3.04180589e-02 -1.16972201e-01 2.37145424e-01-1.01149023e-01 -1.90007254e-01 -7.64266700e-02 -7.55789876e-02…]
股吧
Word9=[2.05468740e-02 -5.86696081e-02 -2.23080248e-01 1.49594083e-011.45589735e-03 -4.47441016e-06 4.34174389e-02 -1.86159909e-02…]
股价(Word10)
Word10=[-2.09129840e-01 5.41791096e-02 1.09271161e-01 8.20842311e-023.98609750e-02 9.31959003e-02 1.05312563e-01 1.13633588e-01…]
一度(Word11)
Word11=[8.56399238e-02 -4.06527380e-03 -1.44508347e-01 3.55085842e-02 -5.31395078e-02 1.00096457e-01 3.03170225e-03 1.47069665e-02…]
封上(Word12)
Word12=[-6.26876876e-02 3.15646268e-02 7.40882680e-02 -1.08592771e-01 8.91190767e-03 3.98380421e-02 -4.85271066e-02 -9.13272500e-02…]
涨停板(Word13)
Word13=[0.0277054 0.08232085 -0.03442042 -0.07600636
-0.06566229 0.006741890.04554237 0.01285228...]
步骤2、将向量化后的新闻数据中的句子矩阵化
通过公式(1)将词语向量化后数据中的句子矩阵化;
S=(word1T,word2T,…wordmT)T (1)
其中,S表示矩阵化后的句子,wordm表示第m个词向的量。
第一句:中小板上市公司天夏智慧
S1=[[-9.26227570e-02 7.85291269e-02 2.06745848e-01 4.53802459e-02…]
[1.16033284e-02 2.29552481e-02 6.99908435e-02 -2.01484784e-02…]
[8.30961317e-02 4.19870876e-02 9.15429965e-02 1.22021772e-01…]
[0.0 0.0 0.0 0.0...]
[0.0 0.0 0.0 0.0…]]
第二句:股民一致看好该公司
S2=[[-7.00142086e-02 2.45623291e-02 -1.72392264e-01 -2.07515791e-01…]
[-4.15950269e-03 8.26853067e-02 1.38400182e-01 1.25660971e-02…]
[1.14475131e-01 -8.19272250e-02 2.03411579e-02 2.22017709e-02…]
[7.47777373e-02 -1.07056431e-01 2.89814491e-02 -1.20041400e-01…]
[-9.64670628e-02 3.04180589e-02 -1.16972201e-01 2.37145424e-01…]]
第三句:股吧股价一度封上涨停板
S3=[[2.05468740e-02 -5.86696081e-02 -2.23080248e-01 1.49594083e-01…]
[-2.09129840e-01 5.41791096e-02 1.09271161e-01 8.20842311e-02…]
[8.56399238e-02 -4.06527380e-03 -1.44508347e-01 3.55085842e-02…]
[-6.26876876e-02 3.15646268e-02 7.40882680e-02 -1.08592771e-01…]
[0.0277054 0.08232085 -0.03442042 -0.07600636 -0.065662290.00674189…]]
步骤三、将句子矩阵化后数据张量化
通过公式(2)将句子矩阵化后数据中的段落张量化;
TN=[S1,S2,…Sh] (2)
其中TN表示张量化后新闻段落,Sh表示新闻段落中第h个句子的张量值,这里h=3,TN=[S1,S2,S3]。
步骤四、新闻嵌入
通过公式(3)对张量化后新闻段落TN中的句子(即S1,S2,S3)进行奇异值分解(SVD,Singular Value Decomposition)
Si=UiΣiViT (3)
其中,Si为第i个句子的张量值,Ui和Vi都是单位正交矩阵,Σi为含有奇异值的对角矩阵;
设句子分解的奇异值为σi1,σi2,σi3,…σin,取其中前p个奇异值,若有句子矩阵分解后不足p个奇异值,用0补足p个;则Si由矩阵转换为向量(σi1,σi2,σi3,σi4,σi5,…σip);
其中n为句子分解的奇异值的个数;
令SVi=(σi1,σi2,σi3,σi4,σi5,…σip),则将张量化后的新闻段落TN转换为新闻矩阵MN
[[0.23 0.11 0.45 0.33 0.56 0.11 0.28 0.94]
[0.13 0.12 0.66 0.12 0.05 0.03 0.17 0.12]
[0.12 0.05 0.16 0.72 0.32 0.15 0.76 0.23]]
矩阵MN=(SV1T,SV2T,…SVhT)T,大小为h*p;其中p的值取8,q的值取5,均为多轮测试后的最佳参数;
最后再将新闻矩阵MN进行奇异值分解,取其中前q个奇异值,将新闻转换为q维的向量(即得到最终的嵌入向量)。
[0.324 -0.012 0.021 -0.006 2.451]
最终:
中小板上市公司天夏智慧,股民一致看好该公司,股吧股价一度封上涨停板。
向量化为[0.324 -0.012 0.021 -0.006 2.451]。
本发明实施例提供的一种非结构化文本数据量化系统,包括:
词语向量化模块:用于将原始数据中的词语向量化;
句子矩阵化模块:用于将词语向量化后的数据中的句子矩阵化;
新闻张量化模块:用于将句子矩阵化后数据张量化;
新闻嵌入模块:用于将张量化的新闻进行嵌入。
本发明提供的一种非结构化文本数据量化系统,还可以是:包括存储器和处理器;
所述存储器用于存储指令;
所述处理器用于根据所述指令进行操作以执行前述非结构化文本数据量化方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述非结构化文本数据量化方法的步骤。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种非结构化文本数据量化方法,其特征在于,包括:
将原始数据中的词语向量化;
将词语向量化后的数据中的句子矩阵化;
将句子矩阵化后数据张量化;
将张量化的新闻进行嵌入。
2.根据权利要求1所述的一种非结构化文本数据量化方法,其特征在于,所述将将原始数据中的词语向量化包括:
去除原始数据中的虚词,保留实词,并将剩余的实词向量化。
3.根据权利要求1所述的一种非结构化文本数据量化方法,其特征在于,所述将词语向量化后的数据中的句子矩阵化包括:
通过公式(1)将词语向量化后数据中的句子矩阵化;
S=(word1T,word2T,…wordmT)T(1)
其中,S表示矩阵化后的句子,wordm表示第m个词向的量。
4.根据权利要求1所述的一种非结构化文本数据量化方法,其特征在于,所述将句子矩阵化后数据张量化包括:
通过公式(2)将句子矩阵化后数据中的段落张量化;
TN=[S1,S2,…Sh](2)
其中TN表示张量化后新闻段落,Sh表示新闻段落中第h个句子的张量值。
5.根据权利要求4所述的一种非结构化文本数据量化方法,其特征在于,所述将张量化的新闻进行嵌入包括:
通过公式(3)对张量化后新闻段落TN中的句子进行奇异值分解
Si=UiΣiViT(3)
其中,Si为第i个句子的张量值,Ui和Vi都是单位正交矩阵,Σi为含有奇异值的对角矩阵;
设句子分解的奇异值为σi1,σi2,σi3,…σin,取其中前p个奇异值,若有句子矩阵分解后不足p个奇异值,用0补足p个;则Si由矩阵转换为向量(σi1,σi2,σi3,σi4,σi5,…σip);
其中n为句子分解的奇异值的个数;
令SVi=(σi1,σi2,σi3,σi4,σi5,…σip),则将张量化后的新闻段落TN转换为新闻矩阵MN,矩阵MN=(SV1T,SV2T,…SVhT)T,大小为h*p;
最后再将新闻矩阵MN进行奇异值分解,取其中前q个奇异值,将新闻转换为q维的向量。
6.根据权利要求3所述的一种非结构化文本数据量化方法,其特征在于,所述词向量的维度为120。
7.根据权利要求5所述的一种非结构化文本数据量化方法,其特征在于,设句子分解的奇异值为σi1,σi2,σi3,…σin时,取其中前p个奇异值,p=8;将新闻矩阵MN进行奇异值分解时,取其中前q个奇异值,q=5。
8.一种非结构化文本数据量化系统,其特征在于,包括:
词语向量化模块:用于将原始数据中的词语向量化;
句子矩阵化模块:用于将词语向量化后的数据中的句子矩阵化;
新闻张量化模块:用于将句子矩阵化后数据张量化;
新闻嵌入模块:用于将张量化的新闻进行嵌入。
9.一种非结构化文本数据量化系统,其特征在于,包括:包括存储器和处理器;
所述存储器用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
CN202010201916.9A 2020-03-20 2020-03-20 一种非结构化文本数据量化方法、系统及存储介质 Pending CN111428000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010201916.9A CN111428000A (zh) 2020-03-20 2020-03-20 一种非结构化文本数据量化方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010201916.9A CN111428000A (zh) 2020-03-20 2020-03-20 一种非结构化文本数据量化方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN111428000A true CN111428000A (zh) 2020-07-17

Family

ID=71548406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010201916.9A Pending CN111428000A (zh) 2020-03-20 2020-03-20 一种非结构化文本数据量化方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111428000A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法
CN107844557A (zh) * 2017-10-31 2018-03-27 天津大学 一种基于高维数据结构关系的预测方法
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN108388554A (zh) * 2018-01-04 2018-08-10 中国科学院自动化研究所 基于协同过滤注意力机制的文本情感识别系统
CN110796190A (zh) * 2018-10-29 2020-02-14 谷歌有限责任公司 具有深度学习特征的指数建模
CN110851654A (zh) * 2019-09-10 2020-02-28 南京邮电大学 基于张量化数据降维的工业设备故障检测分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法
CN107844557A (zh) * 2017-10-31 2018-03-27 天津大学 一种基于高维数据结构关系的预测方法
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN108388554A (zh) * 2018-01-04 2018-08-10 中国科学院自动化研究所 基于协同过滤注意力机制的文本情感识别系统
CN110796190A (zh) * 2018-10-29 2020-02-14 谷歌有限责任公司 具有深度学习特征的指数建模
CN110851654A (zh) * 2019-09-10 2020-02-28 南京邮电大学 基于张量化数据降维的工业设备故障检测分类方法

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN109992668B (zh) 一种基于自注意力的企业舆情分析方法和装置
CN111783993A (zh) 智能标注方法、装置、智能平台及存储介质
CN111046185B (zh) 一种文本信息的知识图谱关系抽取方法、装置及终端
CN111597342A (zh) 一种多任务意图分类方法、装置、设备及存储介质
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN115495563A (zh) 基于表格数据检索的智能会话方法及服务器
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
CN116227584A (zh) 面向电力行业的预训练语言模型建立方法、系统及介质
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN115391499A (zh) 生成多任务生成模型的方法、问答对生成方法和相关装置
CN112699218A (zh) 模型建立方法及系统及段落标签获得方法及介质
CN111428000A (zh) 一种非结构化文本数据量化方法、系统及存储介质
CN116681088A (zh) 一种基于大模型的翻译系统、方法及储存介质
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN115718889A (zh) 针对公司简介的行业分类方法及装置
CN115563278A (zh) 一种句子文本的问题分类处理方法及装置
CN115392239A (zh) 一种知识抽取方法及应用其的智能客户系统
CN114021555A (zh) 知识点自动标注的方法、装置、设备及可读存储介质
CN115129872A (zh) 一种基于主动学习的小样本文本标注方法及装置
CN114328903A (zh) 基于文本聚类的客服日志回流方法及装置
CN114333813A (zh) 可配置智能语音机器人的实现方法、装置和存储介质
CN116882398B (zh) 基于短语交互的隐式篇章关系识别方法和系统
CN113849592B (zh) 文本情感分类方法及装置、电子设备、存储介质
CN117473096B (zh) 一种融合latex标签的知识点标注方法及其模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination