CN111353013A

CN111353013A - 一种智能投顾的实现方法及系统

Info

Publication number: CN111353013A
Application number: CN201811481844.7A
Authority: CN
Inventors: 林震亚; 杜新凯; 刘勇; 牛国扬; 屠要峰; 高洪; 黄震江
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-06-30
Also published as: WO2020114269A1

Abstract

本发明实施例公开了一种智能投顾的实现方法及系统，其中，所述方法包括：基于自然语言处理NLP对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。本发明实施例中，通过基于NLP对来自多元异构数据源的数据进行处理，可以获取实时完善的金融数据信息，结合意图识别，可以为用户提供准确的金融市场分析及数据分析服务，从而给用户更精准且方便快捷的金融服务。

Description

一种智能投顾的实现方法及系统

技术领域

本申请涉及但不限于通信领域，尤指一种智能投顾的实现方法及系统。

背景技术

智能投顾是指网络虚拟人工智能产品基于客户自身的理财需求、资产状况、风险承受能力、风险偏好等因素，运用现代投资组合理论，通过算法搭建数据模型，利用人工智能技术和网络平台提供理财顾问服务，取代传统的人工投资顾问。简单地说，智能投顾就是通过人工智能，使用投资组合理论(如CAPM(Capital Asset Pricing Model，资本资产定价模型))，来为用户制定投资组合。在互联网金融日益深入的今天，智能投顾有可能成为影响“资金-资产”配给的关键环节。

从原理上看，传统智能投顾是根据现代资产组合理论构建数据模型，其资产配置的过程完全依靠互联网来完成。但是，传统智能投顾分析准确性不高，也很难提供方便快捷的人性化服务。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种智能投顾的实现方法及系统，为用户提供精准的金融服务。

本发明实施例提供了一种智能投顾的实现方法，包括：

基于自然语言处理NLP对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及

根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。

本发明实施例还提供一种智能投顾系统，包括：数据处理模块、深层语意理解模块、结果反馈模块和金融数据库，其中

所述数据处理模块，用于基于自然语言处理NLP对来自多元异构数据源的数据进行处理，将得到的数据信息加入所述金融数据库；以及，获取用户输入的信息进行处理，将处理后的信息发送至所述深层语意理解模块；

所述深层语意理解模块，用于根据所述处理后的信息，确定所述用户的意图；

所述结果反馈模块，用于基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务。

本发明实施例还提供一种智能投顾系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述智能投顾的实现方法。

本发明实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行所述智能投顾的实现方法。

本发明实施例包括：基于NLP对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。本发明实施例中，通过基于NLP对来自多元异构数据源的数据进行处理，可以获取实时完善的金融数据信息，结合意图识别，可以为用户提供准确的金融市场分析及数据分析服务，从而给用户更精准且方便快捷的金融服务。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1为本发明实施例的智能投顾系统架构图；

图2为本发明实施例的数据处理模块的组成示意图；

图3为本发明实施例的文本结构化处理的示意图；

图4为本发明实施例的深层语意理解模块的组成示意图；

图5为本发明实施例的阅读理解模型框架；

图6为本发明实施例的结果反馈模块的组成示意图；

图7为本发明实施例的用户画像的示意图；

图8为本发明实施例的产品画像的示意图；

图9为本发明实施例的多模态联合学习框架；

图10为Attention(注意力)模型示意图；

图11为Meta-Critic(元-评判)网络结构示意图；

图12为本发明实施例的数据模型管理模块组成示意图；

图13为本发明实施例的智能投顾的实现方法流程图；

图14为本发明实施例的对来自多元异构数据源的数据进行处理的流程图；

图15为本发明实施例的联合学习的流程图；

图16为本发明实施例的确定所述用户的意图的流程图；

图17为本发明实施例的采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐的流程图；

图18为本发明实施例的深层语义理解及结果反馈流程图；

图19为本发明应用实例1的流程图；

图20为本发明应用实例2的流程图；

图21为本发明应用实例3的流程图；

图22为本发明应用实例4的流程图；

图23为本发明应用实例5的流程图；

图24为本发明应用实例6的流程图；

图25为本发明应用实例7的流程图；

图26为本发明应用实例8的流程图；

图27为本发明另一实施例的智能投顾系统的组成示意图。

具体实施方式

下文中将结合附图对本发明的实施例进行详细说明。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

由于金融市场与各类新闻，研报具备强关联性，故而本发明实施例采用NLP(Natural Language Processing，自然语言处理)技术对其进行事件抽取及分析。本发明实施例提供一种可交互式的智能投顾系统，可以完成用户属性刻画，并能通过NLP技术对海量金融文本及数据进行分析，根据用户的要求给出合适的回复。此外，本发明实施例可基于元学习不断进行自我提升和改进。

如图1所示，本发明实施例的智能投顾系统包括：数据处理模块11、深层语意理解模块12、结果反馈模块13和金融数据库14，其中

所述数据处理模块11，用于基于NLP对来自多元异构数据源的数据进行处理，将得到的数据信息加入所述金融数据库14；以及，获取用户输入的信息进行处理，将处理后的信息发送至所述深层语意理解模块12。

其中，所述数据处理模块11可以从多元异构数据源获取数据，例如从稳定的金融服务API(Application Programming Interface，应用程序编程接口)获取数据，网上爬取的各类新闻、评论等。然后通过文本结构化处理流程，将有用的信息存入金融数据库14中。文本主要基于行业及类型进行分类，其中，类型包括新闻、评论、研报等。

所述金融数据库14可以是分布式数据库，可以包括结构化数据库、知识库、图谱库、用户画像、产品画像等，其中，图谱库为图数据库，包括一个知识图谱和多个事理图谱。所述知识图谱与所述知识库相关联。

在一实施例中，参照图2和图3所示，所述数据处理模块11包括数据解析器111，文本分析器112和信息抽取器113，其中，

所述数据解析器111用于对来自多元异构数据源的数据进行数据解析，得到文本数据。

其中，数据解析可以包括：html(HyperText Markup Language，超文本标记语言)解析、word解析、pdf解析等。

所述文本分析器112用于对所述文本数据进行文本分析，得到文本信息。

其中，文本分析可以包括：文本清洗、章节结构分析、句法分析、表情识别、图片提取等。

其中，章节结构分析可采用深度学习分类器、统计语言模型。句法分析可采用段落分析和句法树的形式，表情识别可分别进行表情识别和情绪分析、图片提取可进行图片识别和图片语意理解等。

对于章节结构分析，可以从多层次和多维度进行分类。层次主要分为三层，第一层指篇章内部的结构、意义和组织形式，如会话分析和语料库为基础的篇章分析；第二层指语言和其他语言体现的语篇的模态，如多模态话语分析；第三层指语言与社会、文化、语境的关系，如中介话语分析和体裁分析、批评话语分析和交际民族学等。

维度主要分五维，第一种是把中心放在语篇本体上，研究的是语篇本身的特征及语篇结构，如会话分析和体裁分析；第二种是把重点放在余篇所呈现的内容上，包括社会活动和社会事件以及对于社会的构建作用上，如批评话语分析、积极话语分析等；第三种是把中心放在个体的身份构建上，包括研究个体的方言、性别、阶层、种族用于上；第四种是把重点放在语篇与篇之间的关系上，即互文性研究。有的探讨语篇、语境的关系等，如系统功能语言学的语篇分析理论。第五种是探讨语篇作为社会实践中的过程和产品，如中介话语分析。

针对不同层次和维度，分别设计分类器，从而可以全面的对篇章结构进行分析。常用的文本分类器有fastText、TextCNN(文本CNN)、TextRNN(文本RNN)、TextRCNN(文本RCNN)、Hierarchical Attention Network(分层注意力网络)、seq2seq with Attention(带注意力机制的序列到序列模型)、Transformer(变形网络)、Dynamic Memory Network(动态记忆网络)、EntityNetwork(实体网络)，考虑到模型性能和模型相关性(通常采用相关性低的模型集成可以得到更好的结果)，本发明实施例采用fastText、TextCNN、EntityNet、DynamicMemory和Transformer进行集成。当然，如果出现了更好的文本分类器，由于本发明实施例中模型进行了统一管理，故而可轻易替换。

所述信息抽取器113用于根据所述文本信息进行信息抽取，将得到结构化文本数据加入金融数据库14中的结构化数据库。

其中，所述根据所述文本信息进行信息抽取，可包括：命名实体识别、关系抽取、事件抽取、表格信息抽取等。

其中，对于命名实体识别，可包括实体消歧、LSTM+CRF(Long Short-Term Memory+Conditional Random Field，长短期记忆网络+条件随机场)、基于实体库的规则抽取等，关系/事件抽取可包括动态卷积神经网络、带Attention(注意力)的事件识别、强化学习、加入外部知识的远程监督等，表格信息抽取可包括表格结构分析、表格对齐、表格补全等。

对于关系抽取，传统事件抽取采用动态卷积网络+注意力机制的方法已经可以得到不错的效果，提升重点主要在数据集的搜集和标注层面，特别是在双语语料的合理利用，本发明实施例可以采用机器学习模型(如transformer、seq2seq+Attention)对双语语料进行处理，从而变相扩充了语料。当句子中出现多个实体和多个关系的情况出现时，可以给句子里每个词打上语义标签，找三元组，于是问题转换为打标签任务。这种情况下，采用copy(复制)机制解决overlap(重叠)问题，所以主模型变为了加入copy机制的encoder-decoder(编码器-解码器)模型，该模型中，对于每个三元组，需要采用新的cell(元素)进行encoder，但decoder时只采用一个解码器解码所有三元组。

文本中提取的特征与处理后的文本都将存在结构化数据库中。数据库中保存的文本特征(如实体、关系、事件等)可用于辅助图谱的构建。

另外，针对用户输入的信息，所述文本分析器112用于对用户输入的信息进行文本分析，得到用户输入文本信息。

其中，用户输入的信息可以是语音、文字等内容，如果用户输入的信息是语音，则将该语音转换为文字。

所述信息抽取器113用于根据所述用户输入文本信息进行信息抽取，获取关键词和句式。

在一实施例中，所述数据处理模块11还包括文本摘要子模块114，

所述文本摘要子模块114用于将所述文本分析器112得到的文本信息进行摘要处理，再发送至所述信息抽取器进行信息抽取。

所述文本摘要子模块114将长文本变为短文本，从而便于进一步分析和事件抽取。其中，长文本和短文本可以根据预设的规则定义，例如，500字以上的文本定义为长文本，小于500字的文本定义为短文本。所述文本摘要子模块114可以在文本分析器112处理文本之后进行摘要处理，也可以在数据解析器111处理数据之后进行摘要处理，也可以在文本分析器112处理过程中进行摘要处理。

文本摘要子模块114可以通过TextTeaser、Lexrank这类传统摘要方法及基于copy机制的seq2seq方法实现。调用文本摘要子模块有两种方式，其一是根据特定问题指定调用特定模块，TextTeaser、Lexrank这类传统方法可通过修改超参数控制摘要的精简程度，而seq2seq(Sequence to Sequence，序列到序列)方法需要训练多个模型来解决这个问题；其二是根据文本字数选择特定模块进行摘要，如对于接口A，限定500字以上的文本统一调用Lexrank模块。

所述深层语意理解模块12，用于根据所述处理后的信息，确定所述用户的意图。

如图4所示，在一实施例中，所述深层语意理解模块12包括意图识别子模块121，所述意图识别子模块121用于基于意图识别规则和分类算法，结合用户画像，按照所述关键词、句式，结合实体抽取及文本分类算法确定实体和意图。

另外，所述意图识别子模块121还用于按照所述关键词和句式确定实体和意图之前，基于所述关键词和句式确定用户不在执行与投资无关的输入(不在闲聊)，且确定所述用户不在业务办理流程中。

在一实施例中，所述深层语意理解模块还包括语句生成子模块122，所述语句生成子模块122用于所述意图识别子模块121基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，生成闲聊语句或复述语句，通过所述结果反馈模块13反馈至所述用户。

所述语句生成子模块122可采用主流seq2seq方法进行语句生成，这部分可用于闲聊或是语句复述，增加系统的智能性。

如果所述意图识别子模块121基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，若确定用户在询问日期、天气等通用问题，则可以采用通用模板，通过所述结果反馈模块13反馈至所述用户。

在一实施例中，所述深层语意理解模块还包括阅读理解子模块123，

所述阅读理解子模块123用于对于多次出现且无法回答的问题，采用阅读理解的方式从所述金融数据库14的数据信息中获取相应的回答。

所述阅读理解子模块123可以根据文本及问题，通过其实体和意图找出相关文档，并采用阅读理解的方式获取相应回答，经人工审核后可加入知识库中。知识库中的QA(问题-回答)对如果涉及金融领域常见实体或事件，可加入金融数据库14的图谱库中的知识图谱或事理图谱。

所述阅读理解子模块123可基于r-net、SLQA(Semantic Learning for QuestionAnswering，基于分层融合注意力机制)这类模型实现。

如图5所示，以阅读理解模型基于SLQA架构为例，该架构在特定任务上已经超越了人类。由于金融领域的复杂性，本系统在使用该架构时需要注意相关特征的提取，理论上金融文本特征做得越细，结果会越好。对于多次出现的事件，可采用模板形式提取，从而增加准确性。

该模型主要分为以下几部分：

编码层：用于表示学习，可以理解为语言模型层，用以将篇章及问题从离散字符转变为蕴含语义的表征向量，采用了多类深度学习方法进行特征提取。

对于文本文件，首先需要训练词向量，优先采用词矩阵表征和预训练的语言模型(基于通用语料)解决一词多义的问题，然后分别采用词向量和字的one-hot(独热码)表征训练当前文本的语言模型，得到其相关特征。此外，由于基于词、字embedding(嵌入)学到的特征无法跨文本，故而还需要通过tf-idf和textrank提取关键词，并采用CNN对其进行处理。随后，将上述特征进行排列，并采用文本inception(组织)结构对其进行进一步处理。

对于问题文本，同样需要采用词(词向量得到的方法同上)、字嵌入训练语言模型，由于问题通常较短，故而不需要关键词(每个词都很关键)，但可采用TCN(TemporalConvolutional Network)结构对其进一步进行特征抽取(其特征与语言模型区别较大)。随后，同样将上述特征进行排列，并采用文本inception结构对其进行进一步处理。

注意力层：得到有效的问题及篇章表征后，为表达依据问题定位答案过程，缩小备选答案查找范围，将搜索空间通过注意力机制约束，主要进行多层融合注意力表示，对问题和篇章进行相关性对齐(Align)，并不断补充全局信息(Fusion)，每一次对齐都基于下层信息并在此基础上更加细化，采用的方式分别为Co-Attention(篇章到问题，问题到篇章)，Self-Attention(问题自身，篇章自身)。

实际实现时，对于文本特征，首先将之前传入的特征进行嵌入(可采用全连接结构)，然后将问题的嵌入特征一起进行排列，并对排列后的结果进行Q2P(问题到段落)的注意力机制计算，并将其权重和嵌入结果进行融合(相加或者拼接)。对于融合后的结果，将其与嵌入结果相乘进行语义表示，然后将其与该文本的领域特征(向量表示)放在一起进行自排列(拼接)，然后对于该矩阵进行P2P(段落到段落)注意力机制计算。

对于问题特征，其处理方式与文本特征类似，区别是不需要引入额外的领域特征信息。

匹配层：用于做融合信息后的问题和篇章匹配，采用双线性矩阵来学习经过多层信息过滤后的篇章和问题匹配参数，由于在前一阶段无关信息已经被过滤，最后的匹配可完成答案的定位工作。需要注意的是，文本特征处理时，需将P2P注意力机制得到的结果与之前的语义表示一起进行权重融合，在处理问题特征时不需要这一步操作。

输出层：结合匹配信息对篇章中词汇进行标注，预测相应词汇是答案开始位置或结束位置的概率。之后，模型会抽取可能性最高的一段连续文本作为答案。

该结构中的每一部分都可替换为能实现类似特征处理的其它模块，如编码层可采用ngram(多元语法)特征训练语言模型，注意力层可以采用multi-head Attention(多头注意力)结构。

所述结果反馈模块13，用于基于所述金融数据库14，按照所述用户的意图为所述用户提供相应的金融服务。

所述用户的意图可以包括需要提供金融问题服务、需要提供数据查询服务、需要业务办理服务、需要投资建议服务等。

如图6所示，所述结果反馈模块13包括回复生成子模块131，

所述回复生成子模块131用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要提供金融问题服务时，查询所述金融数据库14中的图谱库，确定存在相应的答案时，输出所述答案。

在明确用户意图后，所述回复生成子模块131通过数据检索、图谱推理或是各类模型的结果得到合理的回复。

在一实施例中，所述回复生成子模块131用于：查询所述图谱库中的知识图谱，确定有相匹配的实体和意图时，通过与所述金融数据库中的知识库中的映射关系确定相应的答案，输出所述答案；或者

查询所述图谱库中的知识图谱，确定没有相匹配的实体和意图时，查询所述图谱库中的事理图谱，确定有相应的事件，按照所述事理图谱进行推断分析，输出所述答案。

在一实施例中，所述结果反馈模块13，包括还相似度匹配子模块132，

所述相似度匹配子模块132用于基于所述金融数据库14中的知识库，将所述用户输入的信息与标准问题进行相似度匹配。

所述相似度匹配子模块132可以分别通过传统相似度特征的组合训练冷启动相似度算法，以及根据领域数据训练相应的深度学习模型进行相似度匹配算法，前者具备更强的领域迁移性和鲁棒稳定性，后者在特定领域内拥有更高的精度。相似度匹配算法可以进行知识库中QA对的检索，同时也可以作为特征辅助其它模块。

所述回复生成子模块131还用于：所述深层语意理解模块12按照所述用户的意图确定所述用户需要提供金融问题服务，基于所述金融数据库14中的图谱库确定没有相应的答案时，根据所述相似度匹配子模块132的匹配结果，在相似度大于或等于阈值时，输出所述标准问题对应的答案。

在一实施例中，所述结果反馈模块13还包括交互子模块133，

所述交互子模块133用于在所述相似度小于所述阈值时，确定所述用户输入的信息中包含所述图谱库中的实体或意图时，基于所述实体或意图进行反问；或者确定所述用户的问题中不包含所述图谱库中的实体或意图时，按照预设规则进行通用反问、回复或推荐信息。

交互子模块133用于当用户信息所在领域和意图不清楚时，主动引导交互确定用户意图。此外，该模块会记忆每轮对话的所有语句，起到上下文交互的作用。

在一实施例中，所述回复生成子模块131还用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要提供数据查询服务时，按照用户输入的信息中的关键词查询所述金融数据库14，输出查询结果。

在一实施例中，所述回复生成子模块131还用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要业务办理服务时，确定所述用户需要办理的业务类型，根据所述业务类型在确定支持办理所述业务时，执行业务办理服务。

在一实施例中，所述结果反馈模块包括还包括产品选择子模块134，

所述产品选择子模块134用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要投资建议服务时，确定所述用户需要的投资类型，采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐。

产品选择子模块134可以对各类产品进行分析并给出合理的资产组合，同时防止某个行业流入过多热钱。

在一实施例中，所述金融数据库14包括图谱库和知识库，所述图谱库包含一个知识图谱和多个事理图谱，所述知识图谱与所述知识库相关联。

在一实施例中，所述智能投顾系统还包括：

图谱模块15，用于将所述知识库中涉及金融领域的实体或事件加入所述金融数据库14中的图谱库中。

图谱主要分为金融知识图谱和事理图谱，知识图谱主要基于金融专业知识进行构建，前期人工构建，后期主要通过关系抽取、实体识别及意图识别，基于大量文本消息进行完善，每个行业、每类金融产品将会作为实体，分别带有各自的属性；事理图谱在知识图谱基础上对于重要事件流进行构建，形式为有向有环图，结点代表事件，有向边代表事件之间的顺承、因果关系。整个图谱库由一个知识图谱和多个事理图谱组成，最终可以得到不同事件对不同行业或是不同指数分别会产生怎样的影响，且会对即将发生的事件给出预期。

知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，选择图数据库作为存储介质，例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

需要注意的是，初期金融知识图谱采用自顶向下的构建方式，通过金融知识体系及专家的经验建立图谱框架，并在框架内填入普适性的实体、关系及属性。后期，随着知识不断更新，人的认知能力不断提升，图谱将采用自底向上的方式进行更新迭代。具体构建过程如下：

1、对结构化数据及第三方数据库进行数据整合，对半结构化数据及非结构化数据进行实体、关系及属性抽取；

2、通过知识推理对实体、关系及属性进行对齐；

3、采用实体、关系及属性进行本体构建；

4、对构建好的本体进行质量评估，如通过便存入知识图谱中；

5、当知识更新时，同样采取质量评估，如通过便进行图谱更新。

事理图谱构建流程与知识图谱类似，所不同的是事理图谱定义了两种事件间关系：一种顺承，一种因果，这两种关系都有时间顺序。此外，知识图谱研究对象为名词性实体及其关系，事理图谱研究对象是谓词性事件及其关系。知识图谱主要知识形式是实体属性和关系，事理图谱则是事理逻辑关系以及概率转移信息。事件间的演化关系多数是不确定的，而实体之间的关系基本是稳定的。

在一实施例中，所述智能投顾系统还包括：

用户画像模块16，用于根据所述用户的属性信息建立或完善用户画像。

用户画像的建立可有助于对用户语句进行意图理解，还可以根据用户的风险偏好给出更好的投资建议。

如图7所示，所述用户的属性信息包括如下至少之一：

年龄因素、家庭收入、可投资金额、家庭负担、投资经验、可接受亏损、心理因素、用户目标数据、用户交互数据、用户行为数据、兴趣爱好。

另外，类似用户画像，金融数据库中还包括产品画像，产品画像的建立可以在更方便对产品进行评估的同时给用户更精确的推荐，同时可以将多模态多任务模型的分析结果与产品关联，判断其在当前形势下受到的影响。

如图8所示，产品属性主要分为产品类型、收益率、最大回撤、关联产业、波动率、美国存托凭证(ADR)、相对强弱指数(RSI)、资产配置、有效前沿、资产相关度、企业状况、其它量化因子等。

得到上述指标后，将其向量化，即每个用户及产品由向量进行表征，并存入金融数据库中。产品向量将随市场的变化而不断变化，而用户向量将根据用户行为不断更新。

在一实施例中，所述数据信息包括多模态数据，所述智能投顾系统还包括：

联合学习模块17，用于从所述金融数据库14中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，存入所述金融数据库14中的知识库中。

联合学习模块17基于多模态输入的joint-learning(联合学习)模型，可建立多模态数据与各个行业之间的联系，如供需变化、相关产品价格变化等等。如：美国大选结果公布后，对国内房地产行业的影响，具体标签可通过板块股价等量化数据变化率的形式体现。该部分结果若多次出现，经人工审核后可加入图谱。

如图9所示，本模型的主要输入为结构化的文本数据、宏观市场数据和图片数据，图片数据除了需进行目标识别(可采用RCNN系列或是YOLO(You Only Look Once)方法)，还采用主流的inception结构(可采用多层)进行抽象特征提取，然后将这些特征线性拼接后导入全连接层，对于较容易进行语义理解的图片，可不作为网络输入，直接将文本语义表示作为结构化文本输入。结构化文本数据先采用三种方法进行处理，其一是提取传统特征，包括文本包含多少词这类简单特征以及主题模型这类较为复杂的特征，这部分提取的特征都是由数字或者向量进行表示，然后将这些特征进行归一化后拼接并导入全连接层(fc)；其二是采用tf-idf、textrank等方法进行文档关键词提取，并采用word2vec(word tovector，词向量)方法进行表示，通常采用fasttext训练skipgram模型可以得到最好的表征效果，然后将拼接后的矩阵导入多层resnet模块进行特征抽取，这里采用resnet的原因是关键词拼接得到的矩阵不用考虑前后相关性，而实际实验中发现该类结构能比textcnn起到更好的特征提取效果；其三是对文本进行摘要，这部分采用传统方法和seq2seq方法结合的方式提取，这两类方法得到的结果具有较大差异性，故而组合两类方法的结果具有意义。随后，采用sentence encoder的方法进行句编码，再分别采用残差模块和TCN进行特征抽取(具体层数视情况而定)。关键词部分不采用TCN的原因是这部分不考虑词序，但需要对每个关键词在文档中出现的位置进行编码，加入到词表征中，以提升效果。

宏观市场数据包括道琼斯指数、汇率、存款利率、贷款利率等。该类数据的不同组合代表着全球金融市场处于不同的形势下，故而加入这类数据有重要的意义。这类数据的特征处理较为简单，只需要将其归一化后导入全连接层即可。通过将这类数据和上述文本数据的嵌入(embedding)，可得到当前金融市场的抽象表征，embedding时可采用拼接嵌入、分层嵌入或者分块嵌入的方式，然后将其结果导入全连接层，当embedding结果不是向量而是矩阵时，也可采用CNN或者其它更强的特征提取层对其进一步处理。

由于金融市场具有完整性，故而本发明实施例中将不同行业的输出模块放在一起训练，这就是典型的joint learning结构。只要不同任务中具有相关性，该结构已经证明了能取得比单模型更好的效果。在联合学习时，加入各个行业相关的强关联特征，从而可以更好的预测某天的文本数据在当前形势下会对某个行业带来何种影响。

在一实施例中，所述智能投顾系统还包括：

元学习模块18，用于基于元学习的方式建立注意力模型，根据所述注意力模型优化所述联合学习模型。

元学习模块18可以分两部分，第一部分基于元学习思想设计通用的Attention模型，改进多模态输入的多任务joint learning模型；第二部分采用meta-critic network的思路学习更好的loss，该部分主要通过强化学习在不同场景下进行人的行为预测，从而辅助系统决策，提升系统的准确性和智能性。

其中，参照图10，第一部分的基本思路是：人的注意力是可以利用以往的经验来实现提升的，那么利用以往的任务来训练一个Attention模型，从而面对新的任务，能够直接关注最重要的部分。本系统构造一个Attention机制，最后的标签判断通过Attention的叠加得到，而Attention则通过历史样本及新样本函数变换后的组合训练得到。基本目的就是利用已有任务训练出一个好的Attention model。该模块可以单独训练一个分类模型，与joint learning得到的结果进行ensemble(组合)，也可以嵌入到多模态joint learning的模型中联合训练，从而提升最终结果。

该方法主要用于训练样本较少的类别，使用时，需要将该类别的历史样本进行序列化编码，然后对其编码信息进行特征提取，进入中间层。对于新样本，除了进行编码后导入中间层，还需与历史样本的编码结果进行Attention计算(可采用multi-head Attention这类新型Attention方法)，计算得到的权重即为新样本与历史样本之间的关联度，从而可以从历史样本对各个行业的影响判断新样本对各个行业的影响。

第二部分较为独立，通过当前形势分析及事理图谱建立状态空间，再基于每个状态建立行为空间及反馈，最终得到人的最佳行为。这部分主要是与产品选择子模块134结合，对金融市场进行更好的预判，因为大多数人的行为将在未来体现在市场上。这里假设大部分资金的持有者是理智的，即有钱人足够聪明。从图11中可以看出本系统构造了一个Meta-Critic Network(包含Meta Value Network和Task-Actor Encoder)来学习预测Actor Network的Loss(损失)。

使用时，分为元学习步骤及元测试步骤，元学习步骤如下：

输入：任务生成器T

输出：训练好的任务及价值网络

元测试步骤如下：

输入：没见过的任务，训练好的任务和价值网络

输出：训练好的策略网络

在一实施例中，所述智能投顾系统还包括：数据模型管理模块19。

如图12所示，所述数据模型管理模块19包括对话管理子模块191和模型管理子模块192。

所述对话管理子模块191用于存储对话数据，包括原始文本数据及处理后的特征数据，进行有效的会话管理。

所述模型管理子模块192用于维护数据处理模块、深层语义理解模块、联合学习模块及元学习模块需要的算法库、规则库以及金融数据库等。

综上所述，本发明实施例的智能投顾系统，具有金融市场分析及智能聊天机器人的功能，通过从多元异构数据源获取数据，进行文本结构化处理，将有用的信息存入分布式数据库中。基于大量文本及各类宏观市场数据，本发明实施例通过多模态joint learning模型建立其与各行业的联系，从而可以通过近期新闻和数据分析整个金融市场的变化。该模型采用离线训练，考虑网络前馈较为耗时，系统每隔一段时间对当天文本及数据进行分析，保存重要结果便于调用。元学习模块18主要有两个作用，第一个是改进模型，解决小样本问题；第二个是通过之前模型的结果学习人的行为。

图谱与语义理解相辅相成，图谱的知识点和事件可用于更好的对文本进行理解，而从文本中抽取出的新常见实体和关系可用于知识图谱的扩充。

系统中智能聊天机器人部分通过数据处理和语义理解，结合用户画像更好的理解用户意图。此外，通过用户在系统上的行为，可对用户画像进行不断的完善及修正。

与业界已有方案相比，本系统更加智能化、人性化。

参照前述针对智能投顾的描述，如图13所示，本发明实施例还提供一种智能投顾的实现方法，包括：

步骤201，基于自然语言处理NLP对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及

步骤202，根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。

其中，由于步骤201可以是定期或实时执行，所以步骤201和202的执行顺序不限。

本发明实施例中，通过基于NLP对来自多元异构数据源的数据进行处理，可以获取实时完善的金融数据信息，结合意图识别，可以为用户提供准确的金融市场分析及数据分析服务，从而给用户更精准且方便快捷的金融服务。

如图14所示，在一实施例中，所述基于NLP对来自多元异构数据源的数据进行处理，包括：

步骤301，对所述数据进行数据解析，得到文本数据；

步骤302，对所述文本数据进行文本分析，得到文本信息；

步骤303，根据所述文本信息进行信息抽取，得到结构化文本数据。

其中，来自多元异构数据源的数据可以是各类新闻、评论、研报、宏观市场数据等。

在一实施例中，所述数据解析，包括如下操作中的至少之一：html解析、word解析、pdf解析；

所述文本分析，包括如下操作中的至少之一：文本清洗、章节结构分析、句法分析、表情识别、图片提取。

在一实施例中，所述根据所述文本信息进行信息抽取，包括如下操作中的至少之一：

命名实体识别、关系抽取、事件抽取、表格信息抽取。

其中，对于命名实体识别，可包括实体消歧、LSTM+CR、基于实体库的规则抽取等，关系/事件抽取可包括动态卷积神经网络、带Attention的事件识别、强化学习、加入外部知识的远程监督等，表格信息抽取可包括表格结构分析、表格对齐、表格补全等。

在一实施例中，所述根据所述文本信息进行信息抽取之前，还包括：

对所述文本信息进行摘要处理。

所述摘要处理是指将长文本变为短文本，从而便于进一步分析和事件抽取。其中，长文本和短文本可以根据预设的规则定义，例如，500字以上的文本定义为长文本，小于500字的文本定义为短文本。在文本分析之后进行摘要处理，也可以在数据解析之后进行摘要处理，也可以在文本分析过程中进行摘要处理。

在一实施例中，所述数据信息包括多模态数据，所述方法还包括：

从所述金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，存入所述金融数据库中的知识库中。

基于多模态输入的joint-learning(联合学习)模型，可建立多模态数据与各个行业之间的联系，如供需变化、相关产品价格变化等等。如：美国大选结果公布后，对国内房地产行业的影响，具体标签可通过板块股价等量化数据变化率的形式体现。该部分结果若多次出现，经人工审核后可加入图谱。

如图15所示，在一实施例中，所述多模态数据包括结构化文本数据、宏观市场数据和图片数据，所述从所述金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，包括：

步骤401，从所述金融数据库中获取结构化文本数据、宏观市场数据及图片数据；

步骤402，进行多模态数据的特征提取；

步骤403，将多模态数据的特征嵌入，将嵌入后的特征进行全连接；

步骤404，将全连接的结果与每个行业对应的强关联特征嵌入，进行联合优化，建立所述多模态数据与行业之间的关联关系。

在一实施例中，所述方法还包括：

基于元学习的方式建立注意力模型，根据所述注意力模型优化所述联合学习模型。

参照图10，构造一个Attention机制，最后的标签判断通过Attention的叠加得到，而Attention则通过历史样本及新样本函数变换后的组合训练得到。基本目的就是利用已有任务训练出一个好的Attention model。该模块可以单独训练一个分类模型，与jointlearning得到的结果进行ensemble，也可以嵌入到多模态joint learning的模型中联合训练，从而提升最终结果。

在一实施例中，所述金融数据库包括图谱库和知识库，所述图谱库包含一个知识图谱和多个事理图谱，所述知识图谱与所述知识库相关联。

在一实施例中，所述方法还包括：

将所述知识库中涉及金融领域的实体或事件加入所述金融数据库中的图谱库中。

初期知识图谱采用自顶向下的构建方式，通过金融知识体系及专家的经验建立图谱框架，并在框架内填入普适性的实体、关系及属性。后期，随着知识不断更新，人的认知能力不断提升，图谱将采用自底向上的方式进行更新迭代。

在一实施例中，所述金融数据库包括用户画像，所述方法还包括：

根据所述用户的属性信息建立或完善用户画像；其中，所述用户的属性信息包括如下至少之一：

如图16所示，在一实施例中，所述根据用户输入的信息，确定所述用户的意图，包括：

步骤501，根据用户输入的信息，获取关键词和句式；

步骤502，基于意图识别规则和分类算法，结合用户画像，按照所述关键词和句式确定实体和意图。

在一实施例中，所述基于意图识别规则和分类算法，结合用户画像，按照所述关键词和句式确定实体和意图之前，还包括：

基于所述关键词和句式确定用户不在执行与投资无关的输入(不在闲聊)，且确定所述用户不在业务办理流程中。

其中，基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，生成闲聊语句或复述语句，将回复反馈至所述用户。

其中，如果基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，若确定用户在询问日期、天气等通用问题，则可以采用通用模板，将回复反馈至所述用户。

在一实施例中，所述用户输入的信息包括问题时，所述方法还包括：

对于多次出现且无法回答的问题，采用阅读理解的方式从所述金融数据库的数据信息中获取相应的回答。

其中，可基于r-net、SLQA这类模型，通过其实体和意图找出相关文档，并采用阅读理解的方式获取相应回答。

在一实施例中，所述采用阅读理解的方式从所述金融数据库的数据信息中获取相应的回答之后，所述方法还包括：

将审核通过的问题和相应的回答加入所述金融数据库中的知识库中。

知识库中的QA(问题-回答)对如果涉及金融领域常见实体或事件，可加入金融数据库的图谱库中的知识图谱或事理图谱。

在一实施例中，所述基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务，包括：

按照所述用户的意图确定所述用户需要提供金融问题服务时，查询所述金融数据库中的图谱库，确定存在相应的答案时，输出所述答案。

在一实施例中，所述查询所述金融数据库中的图谱库，确定存在相应的答案时，输出所述答案，包括：

查询所述图谱库中的知识图谱，确定有相匹配的实体和意图时，通过与所述金融数据库中的知识库中的映射关系确定相应的答案，输出所述答案；或者

按照所述用户的意图确定所述用户需要提供金融问题服务，基于所述金融数据库中的图谱库确定没有相应的答案时，基于所述金融数据库中的知识库，将所述用户输入的信息与标准问题进行相似度匹配，在相似度大于或等于阈值时，输出所述标准问题对应的答案。

其中，分别通过传统相似度特征的组合训练冷启动相似度算法，以及根据领域数据训练相应的深度学习模型进行相似度匹配算法，前者具备更强的领域迁移性和鲁棒稳定性，后者在特定领域内拥有更高的精度。

在一实施例中，所述将所述用户输入的信息与标准问题进行相似度匹配，在相似度小于所述阈值时，所述方法还包括：

确定所述用户输入的信息中包含所述图谱库中的实体或意图时，基于所述实体或意图进行反问；或者

确定所述用户的问题中不包含所述图谱库中的实体或意图时，按照预设规则进行通用反问、回复或推荐信息。

按照所述用户的意图确定所述用户需要提供数据查询服务时，按照用户输入的信息中的关键词查询所述金融数据库，输出查询结果。

在一实施例中，所述查询结果为数据库没有包含查询内容时，所述方法还包括：

确定所述用户输入的信息中包含所述金融数据库的图谱库中的实体或意图时，基于所述实体或意图进行反问；或者

按照所述用户的意图确定所述用户需要业务办理服务时，确定所述用户需要办理的业务类型，根据所述业务类型在确定支持办理所述业务时，执行业务办理服务。

按照所述用户的意图确定所述用户需要投资建议服务时，确定所述用户需要的投资类型；

采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐。

如图17所示，在一实施例中，所述采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐，包括：

步骤601，基于所述金融数据库中的知识库、产品画像和用户画像，构建环境、行为和状态空间；

步骤602，构建优化目标；

步骤603，进行任务-行为编码，计算不同状态下不同行为所带来的回报；

步骤604，将所述任务-行为编码嵌入到元-价值网络中，学习任务的损失函数；

步骤605，进行策略-梯度训练，优化特定环境及特定状态下的行为，根据优化后的行为，为所述用户进行产品推荐。

图17中，通过当前形势分析及事理图谱建立状态空间，再基于每个状态建立行为空间及反馈，最终得到人的最佳行为。

如图18所示，为本发明实施例的深层语义理解及结果反馈流程，包括如下步骤：

步骤701，判断用户是否在闲聊，如果是，用户输入的信息与金融无关，便转入闲聊部分进行处理，执行步骤702，如果否，执行步骤705；

步骤702，判断用户是否询问日期、天气等通用问题，如果是，执行步骤703，如果否，执行步骤704；

步骤703，采用通用模板，将回复反馈至用户。

步骤704，通过语句生成的方式，生成闲聊语句或复述语句，将回复反馈至用户。

步骤705，若不在闲聊，优先判断是否还在流程中，若当前处于某个业务办理流程，执行步骤706，若确认此时不处于业务办理流程，执行步骤708；

步骤706，判断是否要终止流程，若是，执行步骤708，若否，执行步骤707；

步骤707，引导用户完成该业务办理。

步骤706～707表示若当前处于某个业务办理流程，则优先引导用户完成该业务办理，除非用户想主动终止该流程。

步骤708，基于用户画像和前后文对用户意图进行识别；

步骤709，判断意图是否明确，若不明确，执行步骤710；若明确，针对不同类型问题采用不同处理流程。在判断金融问题时，执行步骤711，在判断是数据查询时，执行步骤719，在判断进行业务办理时，执行步骤722，在判断进行投资建议时，执行步骤726；

步骤710，进行通用反问，力求做到准确无误。

步骤711，查找知识图谱，判断是否有相应的实体和意图，若有，通过与知识库的映射关系找到相应答案，执行步骤718，若没有，执行步骤712；

步骤712，查找事理图谱，若有相应事件，根据事理图谱进行推断分析，执行步骤718，若没有，执行步骤713；

步骤713，基于知识库与标准问题进行相似度匹配；

步骤714，判断是否有大于阈值的标准问题，若是，执行步骤718，若否，执行步骤715；

步骤715，从图谱中寻找是否含有相应实体或意图，若有，执行步骤716，若没有，执行步骤717；

步骤716，基于图谱中的实体或意图进行反问。

步骤717，进行通用反问，告诉用户该问题暂时没有答案，同时可以给用户推荐一些相似度高的热点问题，并继续进行交互。

步骤718，给用户相应回复。

步骤719，通过关键词提取确定查询内容；

步骤720，判断金融数据库中释放包含查询内容，若是执行步骤721，若否，执行步骤715；

步骤721，给用户相应结果。用户可通过点击界面获取相关内容。

步骤722，判断用户需要办理的业务类型；

步骤723，判断是否支持该业务办理，若是，执行步骤724，若否，执行步骤725；

步骤724，进入业务办理流程。

步骤725，给用户反馈无法办理的回复。

步骤726，判断用户需要的投资类型；

步骤727，结合元学习模块和产品画像判断最近形式对哪些产品有利；

步骤728，结合用户画像给用户投资建议。

本流程中不涉及长文本算法的调用，原因是长文本处理时间过长，会导致用户等待，从而影响体验。长文本处理工作在离线完成，分析结果存储在金融数据库中，便于上述流程调用。

下面以一些应用实例进行说明。

应用实例1：银行智能客服系统

该系统可用于银行虚拟客服中。与传统智能客服系统不同的是，该系统可更好的回答金融相关问题，或是给出投资建议。对于不同用户，可结合用户多维度的画像给出更好的意图理解。针对银行业务领域时，知识库及图谱中要加入相关内容。如图19所示，包括如下步骤：

801：根据用户的个人信息、历史存贷款及购买理财产品的行为，结合预设的问题，初步建立用户画像。

802：判断用户是否为闲聊，若是，则进入闲聊模块，若不是，则判断是否正在进行业务流程。如用户说：“我想办理信用卡”，则判断其不属于闲聊。

803：如果在进行业务流程，则引导用户完成业务办理，若没有，则通过用户画像理解用户意图。对于之前的问题，会自动转入意图识别。

804：基于用户画像和上下文进行意图识别，若意图明确，则继续流程；如果不明确，则进行反问。对于“我想办理信用卡”，意图明确，系统识别为业务办理，则开始业务办理流程。

805：根据语义模板，相似度计算等方法识别用户要办理的业务类型。这里，识别为“信用卡办理”业务，银行支持该业务办理。

806：按照流程与用户进行交互，引导用户进行业务办理。交互记录将全部保存，方便进行后文语义理解及完善用户画像。

应用实例2：提供产品资料查询服务

该系统可用于提供产品资料查询服务。如图20所示，包括如下步骤：

901：根据预设问题建立用户画像，进行意图识别，前几步流程与应用实例1类似。如用户问：“我想查看中兴通讯的股票及其相关研报”，该问题识别为产品资料查询问题，故而走数据查询流程。

902：挖掘用户问句中的关键词，采用意图分类方法确定其实体和意图。上述问题中，可以确定实体为“股票”和“研报”，意图为“查询”，限定范围为“中兴通讯”。

903：系统接收到消息，若查不到，则基于实体或意图进行反问；若能查到，返回一个链接或是按钮，点击后可进入图形化界面，电脑端是类似wind的形式，手机端类似同花顺的股票显示界面。整个界面尽量简洁，仅提供用户想要的信息，如该问题中仅提供股票走势及相关研报列表。当然，用户可以通过界面内的进一步点击或搜索获取其它方面信息。

904：若用户关闭界面，则视为用户终止该流程。用户的行为记录将被记录，可用于完善用户画像、便于后文语义理解。

905：对于问题中多次出现且系统中无法查询的信息，将会在后台记录，经人工审核后可加入新的数据源。

应用实例3：提供金融市场分析服务

该系统可用于提供金融市场分析服务。如图21所示，包括如下步骤：

1001：根据预设问题建立用户画像，进行意图识别，前几步流程与应用实例1类似。如用户问：“海啸席卷上海时，会产生什么影响”，该问题识别为金融相关问题，故而走金融问题流程。

1002：挖掘用户问句中的关键词，采用意图分类方法确定其实体和意图。如该问题中，实体为“海啸”、“上海”，意图为“影响”。

1003：查找知识图谱，是否能找到对应的实体意图组合，若能则返回答案，若不能则进入下一环节。上述问题由于不属于传统金融知识点，且对应不到特定行业或是产品，故而知识图谱中无法得到答案。

1004：查找事理图谱，确认是否能找到对应的事件。上述问题属于“上海发生自然灾害”这个事件，若已存入事理图谱，则可以返回该事件发生后会带来的一系列后果。这里假设该事件没有存入事理图谱，则进入相似度计算环节。

1005：与知识库中的标准问题进行相似度计算。若匹配上标准问题，则基于QA对返回相应结果；若没有，则进入反问环节。相似度计算主要分为两类，传统特征组合的方式可用于冷启动，当数据逐渐增加，可采用深度学习训练改进的DSSM(Deep StructuredSemantic Model，深层结构语义模型)提升相似度匹配效果。

1006：判断用户问题是否包含知识图谱中存在的实体或是意图。若存在，则基于该实体或是意图进行反问；若不存在，则进行通用反问。如上述问题中，若知识图谱中存在“上海”这个实体，则反问：“您是想问关于上海的xxx问题吗？”。所反问问题尽量与最近发生的事件相关，事件基于图3进行提取，并通过图9建立其与各个行业的联系。

1007：对于多次出现且系统暂时无法回答的问题，将会在后台记录，并会离线通过图5的方式给出相应回答。这类回复中质量较高的将通过人工审核判断其加入图谱还是知识库中。

应用实例4：提供投资建议

该系统可用于提供投资建议。如图22所示，包括如下步骤：

1101：根据预设问题建立用户画像，进行意图识别，前几步流程与应用实例1类似。如用户问：“我想购买理财产品，买什么合适？”，该问题识别为需要提供投资建议，故而走投资建议流程。

1102：挖掘用户问句中的关键词，采用意图分类方法确定其实体和意图。如上述问题中，实体为“理财产品”，意图为“购买”，则判断用户想购买理财产品。

1103：基于图9的模型，判断近期的各类文本新闻及宏观数据对哪些行业有利(这部分结果会在离线计算并存储)，并基于产品库找出相关的理财产品，并评估其相关程度。

1104：基于用户画像给出相应的产品推荐，如用户厌恶风险，则主要推荐低风险、低收益的产品。

1105：用户可基于推荐的产品进行自主组合，用户行为将会在后台记录。用户也可以对推荐结果进行反馈(星级评定)，从而进一步完善用户画像。

应用实例5：提供数据服务

对于资深金融行业从业者，他们更需要基于完备、即时的数据源进行自主分析判断，而不是看系统的分析结果。该系统可直接提供底层结构化数据及图谱查询服务。如图23所示，包括如下步骤：

1201：界面将提供数据库、知识图谱及事理图谱查询的选项，用户可通过点击进入。也可以通过外部接口进行调用。

1202：数据库中包含结构化文本数据和宏观市场数据。前者为根据图3处理后的结果，后者包括各类金融产品走势、宏观指数等。

1203：知识图谱中存储各类金融知识点，除了宏观金融知识，各类行业之间的联系也会记录在图谱中。

1204：事理图谱将记录典型的金融行为过程，主要包含一些周期性金融事件。该部分会随着系统的自学习不断完善。

1205：用户对数据库的调用过程同样会在后台记录，进一步完善用户画像。

应用实例6：文本结构化处理

这里着重介绍多元异构数据源获得的数据如何进行结构化处理并存入数据库的流程。如图24所示，包括如下步骤：

1301：首先对从数据源获取的文件进行解析，如html文件采用html解析器，pdf文件采用pdf解析器，通过解析器提取文件中有用的文本及图片。

1302：进入文本分析器，首先进行文本清洗，然后通过章节分析方法进行粗粒度文本分类。

1303：对文本进行句法分析，提取相关的段落及句法特征。

1304：对文本中的表情进行识别，转换为文字，同时基于此进行文本情绪分析。

1305：提取文件中的图片，并采用图片语义理解的方法对其进行分析(RCNN+RNN)。

1306：进入信息抽取器，首先采用规则及深度学习方法对文本进行命名实体识别，提取相应的实体。

1307：对文本进行关系及事件抽取，主要采用动态卷积网络，强化学习等方法。

1308：对解析得到的表格文件进行结构分析，然后通过表格对齐和补全，抽取完整的表格信息。

1309：将清洗后的文本数据和上述抽取的特征及信息，分类存入结构化数据库中。

应用实例7：行业分析

如图25所示，包括如下步骤：

1401：从数据库分别获取结构化文本数据、宏观市场数据及图片数据，根据要处理的问题类别选取不同时间跨度的数据集。如：“近期钢铁行业需求将如何变化？”，则只需读取近期的数据即可。

1402：进行多模态数据的特征提取，针对不同类型的数据采用不同特征提取方法。对于长文本数据，除了传统特征和关键词特征，还需要对文本进行摘要，然后将摘要后文本的句向量进行特征提取。

1403：将多模态数据的特征嵌入(embedding)，这里有多种方式，如拼接、归一化后加权和、Attention等等。再将嵌入后的特征进行全连接。

1404：将上一层的结果处理后与每个行业对应的强关联特征进行embedding，这里的强关联特征可以采用图3的方法针对特定行业抽取得到，种类不限。如：钢铁行业上市公司的财报数据、钢铁板块研报中提取的事件、股吧中钢铁板块人们的情绪等等。不同类型的数据有其对应的特征提取方式，具体与1402类似。

1405：将1404得到的结果进行处理，激活后导入损失函数层，优化目标为所有损失函数的组合。对于该联合优化问题，每个行业指标数量不同，类型不同，统一根据时间跨度进行归类，如长期、中期、短期，根据不同跨度的指标训练不同的联合学习模型。

应用实例8：推荐优化

如图26所示，包括如下步骤：

1501：构建环境、行为和状态空间，环境和行为如当前形势对某些行业的某些指标有利时，给用户推荐的各类产品组合，状态指用户已持有哪些产品、有多少流动资产等。

1502：构建优化目标，如用户年化期望收益。当然，当系统用户量巨大，给用户推荐会影响整个市场时，在保证每个用户达到某个收益的前提下，以全局优化为目标更为合理。

1503:进行任务-行为编码，计算不同状态下不同行为所带来的回报。

1504：将任务-行为编码嵌入到元-价值网络中，学习整个任务的损失函数。

1505：进行策略-梯度训练，优化特定环境及状态下的行为。

如图27所示，本发明实施例还提供一种智能投顾系统，包括存储器1601、处理器1602及存储在存储器1601上并可在处理器1602上运行的计算机程序1603，所述处理器1602执行所述程序时实现所述智能投顾的实现方法。

在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种智能投顾的实现方法，包括：

2.如权利要求1所述的方法，其特征在于，所述基于NLP对来自多元异构数据源的数据进行处理，包括：

对所述数据进行数据解析，得到文本数据；

对所述文本数据进行文本分析，得到文本信息；

根据所述文本信息进行信息抽取，得到结构化文本数据。

3.如权利要求2所述的方法，其特征在于，所述根据所述文本信息进行信息抽取之前，还包括：

对所述文本信息进行摘要处理。

4.如权利要求1所述的方法，其特征在于，所述数据信息包括多模态数据，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述多模态数据包括结构化文本数据、宏观市场数据和图片数据，所述从所述金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，包括：

从所述金融数据库中获取结构化文本数据、宏观市场数据及图片数据；

进行多模态数据的特征提取；

将多模态数据的特征嵌入，将嵌入后的特征进行全连接；

将全连接的结果与每个行业对应的强关联特征嵌入，进行联合优化，建立所述多模态数据与行业之间的关联关系。

6.如权利要求4所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述金融数据库包括图谱库和知识库，所述图谱库包含一个知识图谱和多个事理图谱，所述知识图谱与所述知识库相关联。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

9.如权利要求1所述的方法，其特征在于，所述根据用户输入的信息，确定所述用户的意图，包括：

根据用户输入的信息，获取关键词和句式；

基于意图识别规则和分类算法，结合用户画像，按照所述关键词和句式确定实体和意图。

10.如权利要求1所述的方法，其特征在于，所述用户输入的信息包括问题时，所述方法还包括：

11.如权利要求10所述的方法，其特征在于，所述采用阅读理解的方式从所述金融数据库的数据信息中获取相应的回答之后，所述方法还包括：

12.如权利要求1所述的方法，其特征在于，所述基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务，包括：

13.如权利要求12所述的方法，其特征在于，所述查询所述金融数据库中的图谱库，确定存在相应的答案时，输出所述答案，包括：

14.如权利要求1所述的方法，其特征在于，所述基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务，包括：

15.如权利要求14所述的方法，其特征在于，所述将所述用户输入的信息与标准问题进行相似度匹配，在相似度小于所述阈值时，所述方法还包括：

16.如权利要求1所述的方法，其特征在于，所述基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务，包括：

17.如权利要求16所述的方法，其特征在于，所述查询结果为数据库没有包含查询内容时，所述方法还包括：

18.如权利要求1所述的方法，其特征在于，所述基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务，包括：

19.如权利要求1所述的方法，其特征在于，所述基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务，包括：

20.如权利要求19所述的方法，其特征在于，所述采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐，包括：

基于所述金融数据库中的知识库、产品画像和用户画像，构建环境、行为和状态空间；

构建优化目标；

进行任务-行为编码，计算不同状态下不同行为所带来的回报；

将所述任务-行为编码嵌入到元-价值网络中，学习任务的损失函数；

进行策略-梯度训练，优化特定环境及特定状态下的行为，根据优化后的行为，为所述用户进行产品推荐。

21.一种智能投顾系统，其特征在于，包括：数据处理模块、深层语意理解模块、结果反馈模块和金融数据库，其中

22.如权利要求21所述的智能投顾系统，其特征在于，所述数据信息包括多模态数据，所述智能投顾系统还包括：

联合学习模块，用于从所述金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，存入所述金融数据库中的知识库中。

23.如权利要求22所述的智能投顾系统，其特征在于，所述智能投顾系统还包括：

元学习模块，用于基于元学习的方式建立注意力模型，根据所述注意力模型优化所述联合学习模型。

24.一种智能投顾系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～20中任意一项所述智能投顾的实现方法。

25.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～20中任意一项所述智能投顾的实现方法。