CN115577124B - 用于交互金融数据的方法、设备和介质 - Google Patents
用于交互金融数据的方法、设备和介质 Download PDFInfo
- Publication number
- CN115577124B CN115577124B CN202211405189.3A CN202211405189A CN115577124B CN 115577124 B CN115577124 B CN 115577124B CN 202211405189 A CN202211405189 A CN 202211405189A CN 115577124 B CN115577124 B CN 115577124B
- Authority
- CN
- China
- Prior art keywords
- data
- label
- financial
- word
- class label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/381—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例涉及用于交互金融数据的方法、设备和介质,包括:针对所获取的第一数据执行切词,从而获取所述第一数据的第一切词集合;对所述第一切词集合执行第一处理,从而获取用于表示所述第一数据的文本维度向量;基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据;将所述第一数据标注为第二数据,标注标签包括开始类标签、中间类标签、非实体类标签、结束类标签和单独类标签中的至少一种;基于第二模型和第一数据的领域属性数据,将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据;以及基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据。
Description
技术领域
本公开的实施例总体涉及数据处理领域,并且更具体地涉及一种用于交互金融数据的方法、计算设备和计算机可读存储介质。
背景技术
金融类的数据交互,区别于常规聊天交互,存在以下特点。首先,金融数据的准确性,远高于常规的聊天交互。金融的交互(例如,问答),尤其在问具体的数据、指标时,需要非常精确的理解用户的意图,才能给到符合用户预期的答案,只是识别出大体意图,往往会答非所问。
其次,金融数据的维度很广。金融数据最常见的展示方式是各种图表,图表本身也是最适合展示金融数据背后内在逻辑的交互方式,因此金融类问题的答案,也要求能够直接是图表,不能简单的是文字。金融数据实时性强。典型的就是行情数据,交易时间段内,行情数据瞬息万变,行情类的问题的答案,也必须反馈实时数据。金融类问题专业性强,金融类术语繁多,交互场景的内在逻辑复杂,专业性强。
基于对汉语自然语言机器交互场景解决方案,目前国内多数采用的是通用型的做法,即通用型聊天机器人。该类聊天机器人在解决聊天陪伴,天气查询,音乐播放,甚至是一些智能化的物联网应用时,具有一定效果。但在金融领域,由于以上总结的金融类交互数据的特点,往往失效。使用通用机器人解决方案,即便这些解决方案提供了灵活的配置后台,但基于通用对话场景设计的后台,无法对接金融数据,结果就是导致问题回答不理想,用户无法获得期望查询的数据。
综上,传统的用于交互金融数据的方法所存在的不足之处在于:对待交互的金融数据内容理解不准确,反馈的金融数据不够准确并且表达形式有限。
发明内容
针对上述问题,本公开提供了一种用于交互金融数据的方法、计算设备和计算机可读存储介质,准确理解待交互的金融数据内容,基于所理解的内容反馈准确金融数据并且根据金融数据以合适的形式表达。
根据本公开的第一方面,提供了一种用于交互金融数据的方法,包括:针对所获取的第一数据执行切词,从而获取所述第一数据的第一切词集合;对所述第一切词集合执行第一处理,从而获取用于表示所述第一数据的文本维度向量;基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据;将所述第一数据标注为第二数据,标注标签包括开始类标签、中间类标签、非实体类标签、结束类标签和单独类标签中的至少一种;基于第二模型和第一数据的领域属性数据,将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据;以及基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据。
根据本公开的第二方面,提供了一种计算设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开的第一方面的方法。
在本公开的第三方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中计算机指令用于使计算机执行本公开的第一方面的方法。
在一些实施例中,基于第一模型对所述第一切词集合执行第一处理:获取第一语料库集合;对所获取的第一语料库集合执行切词,从而获取第二切词集合;计算第二切词集合中每个词对应的词频-逆文档频向量值;将所述第一切词集合中的每个词分别与所述第二切词集合中的每个词执行匹配,从而获取与第一切词集合中的每个词对应的匹配次数;以及基于所获取的匹配次数和词频-逆文档频向量值,确定表示所述第一数据的文本维度向量。
在一些实施例中,基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据包括:获取与金融数据相关的逻辑回归模型,逻辑回归模型被用作第一模型;将所述第一数据的文本维度向量输入到与金融数据相关的逻辑回归模型,从而获取文本维度向量的第一预测值;响应于所述第一预测值大于预定阈值,确定第一数据的领域属性数据为金融领域;以及响应于所述第一预测值小于预定阈值,确定第一数据的领域属性数据为非金融领域。
在一些实施例中,响应于所述预测值大于预定阈值,确定第一数据的领域属性数据为金融领域包括:获取与金融数据相关的softmax模型,所述与金融数据相关的softmax模型被作为第三模型,所述金融数据至少包括与金融相关的指标查询用语、数据筛选用语、名词解释用语;将所述第一数据的文本维度向量输入到与金融数据相关的softmax回归模型,从而获取文本维度向量的第二预测值、第三预测值和第四预测值;响应于所述第二预测值大于预定阈值,确定第一数据的领域属性数据为指标查询领域;响应于所述第三预测值大于预定阈值,确定第一数据的领域属性数据为数据筛选领域;以及响应于所述第四预测值大于预定阈值,确定第一数据的领域属性数据为名词解释领域。
在一些实施例中,将所述第一数据标注为第二数据包括:获取与所述第一数据的领域属性数据相关的数据训练集;通过自训练和局部人工标注,对数据训练集执行标注,从而获取数据训练集的第一属性标签集;将匹配到实体开始的标签设为开始类标签、将匹配到实体结束的标签设为结束类标签、将匹配到实体中部的标签设为中间类标签、将没有匹配到实体的标签设为非实体标签、将匹配到单字实体的标签设为单独类标签;以及基于LSTM-CRF算法,确定所述第一数据的属性标签,从而获取第二数据。
在一些实施例中,将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据包括:通过自训练和局部人工标注,对数据训练集执行标注,从而获取数据训练集的第二属性标签,其中第二属性标签包括对象类标签、证券类标签、时间类标签以及指标类标签;基于LSTM-CRF算法,将具有开始类标签、中间类标签、结束类标签和单独类标签的第二数据分别标注对象类标签、证券类标签、时间类标签以及指标类标签,从而获取具有组合标签的第二数据;以及将具有组合标签和单独类标签的第二数据确定为第三数据。
在一些实施例中,基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据包括:获取包括预定义提问的预定义提问集;基于最小哈希算法,计算与所述第三数据与预定义提问集中的预定义提问之间的相似度;基于所计算的相似度,确定与所述第三数据对应的预定义提问;基于预定义提问,检索对应于第三数据的目标金融数据和输出形式;以及根据所述输出形式,输出所检索的目标金融数据。
在一些实施例中,基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据包括:基于ElasticSearch检索,针对第三数据进行检索,以输出与第三数据对应的目标金融数据,目标金融数据包括与第三数据对应的金融资讯。
在一些实施例中,第一语料库集合包括:证券名称、对象名称、财务指标、金融术语、金融查询用语样本、以及日常查询用语样本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1示出了用于实现根据本公开的实施例的用于交互金融数据的方法的系统100的示意图。
图2示出了根据本公开的实施例的用于交互金融数据的方法200的流程图。
图3示出了根据本公开的实施例的第三数据。
图4示出了根据本公开的实施例的电子设备400的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
从技术角度看,基于自然语言的金融数据查询系统,主要存在以下难点,通用型交互机器人解决的不理想。针对金融领域的汉语语言自然语言模型的缺失,金融术语繁多,通用的基于深度神经网络的自然语言模型虽然有海量的语料训练,具备一定的语言能力,但由于神经网络模型的黑箱特性,导致金融类的术语,尤其是金融类查询问题的金融参数,难以在基于通用交互的平台进行针对性提升,因此通用的交互系统,难以准确理解用户提出的金融问题的意图。
金融领域的数据实时性强,通用交互平台无法平顺对接高频更新的数据。典型的场景就是在金融场景下,非常常见的行情查询问题。通用交互平台的做法,是将问题的答案,配置到对应的后台上,然后再等待一段时间。部分平台能将这个时间缩短到数分钟,然后就能回答这个新配的问题。通过查询行情的问题,无法按照这个模式进行,这是因为交易时间段内,行情数据一直在变化,配置行情问题的答案后,还要再等一段时间才会生效的机制。这会让配置的行情问题答案已经失效并且高频更新答案耗时耗力。
金融数据维度广,数量量大,通用的交互平台,优秀的虽然也能配置图片,但无法配置图表,特别是动态的图表。金融交互场景中涉及到的数据查询条件,查询方式非常灵活,静态的图片基本无用。基于动态查询出来的数据,实时绘制图表,作为答案的一部分返回给用户,是刚性需求。金融数据内在逻辑强,往往一个金融问题问完后,还会有后续的问题进一步询问,问题和问题之间,可以有纵向的递进关系,也可以有横向的拓展关系,通用平台难以满足问题联想在业务上的逻辑性。
图1示出了用于实现根据本公开的实施例的用于交互金融数据的方法的系统100的示意图。如图1中所示,系统100包括计算设备110和金融数据管理设备130和网络140。计算设备110、金融数据管理设备130可以通过网络140(例如,因特网)进行数据交互。
金融数据管理设备130,其例如可以执行对金融数据的常规管理,例如收集、存储金融数据。金融数据管理设备130还可以将所管理的金融数据发送给计算设备110。金融数据管理设备130例如而不限于:可执行金融数据读取和修改的台式计算机、膝上型计算机、上网本计算机、平板电脑、网络浏览器、电子书阅读器、个人数字助理(PDA)和可穿戴计算机(诸如智能手表和活动追踪器设备)等。金融数据管理设备130可以配置成存储金融数据,将金融数据经由网络140发送到计算设备210,并且接收来自计算设备210处理的金融数据。
关于计算设备110,其例如用于经由网络140接收来自金融数据管理设备130的金融数据;针对所接收的金融数据挖掘数据含义。计算设备110还可以基于所挖掘的金融数据来确定金融数据的关联对象、公司等。计算设备110可以具有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外,在每个计算设备110上也可以运行着一个或多个虚拟机。在一些实施例中,计算设备110与金融数据管理设备130可以集成在一起,也可以是彼此分立设置。在一些实施例中,计算设备110例如包括切词模块112、第一处理模块114、确定模块116、标注模块118以及检索模块120。
切词模块112,所述切词模块112配置成针对所获取的第一数据执行切词,从而获取所述第一数据的第一切词集合。
第一处理模块114,所述第一处理模块114配置成对所述第一切词集合执行第一处理,从而获取用于表示所述第一数据的文本维度向量。
确定模块116,所述确定模块116配置成基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据。
标注模块118,所述标注模块118配置成将所述第一数据标注为第二数据,标注标签包括开始类标签、中间类标签、非实体类标签、结束类标签和单独类标签中的至少一种。
标注模块118还配置成基于第二模型和第一数据的领域属性数据,将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据。
检索模块120,所述检索模块120配置成基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据。
图2示出了根据本公开的实施例的用于交互金融数据的方法200的流程图。方法200可由如图1所示的计算设备110执行,也可以在图4所示的电子设备400处执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在步骤202,计算设备110针对所获取的第一数据执行切词,从而获取所述第一数据的第一切词集合。
在一个实施例中,计算设备110可以获取第一数据,数据例如是来自用户的提问。来自用户的提问可能较为多样,例如包括“贵州茅台今天股价多少”、“贵州茅台怎么样”、“茅台怎么样”等。因此需要准确分析第一数据是否与金融相关,以及准确确定其需交互的数据。
因此,可以利用切词方案对第一数据执行切词。切词可以基于本领域常用的切词工具,例如python中的切词jieba库。在切词中可以采用搜索引擎模式进行带有一定冗余的切词。切词所使用的词库可以为自定义词库,并根据一定时间周期进行整理及更新。词库可以包括股票名称,上市公司名称,财务报表会计科目,各类金融指标等专业金融词库。基于金融词库的切词,能有效避免金融专业术语被不当切开后造成的歧义。
在步骤204,计算设备110对所述第一切词集合执行第一处理,从而获取用于表示所述第一数据的文本维度向量。
在一个实施例中,计算设备110可以基于相关的金融论坛、公司内部聊天/问答信息,SNS聊天记录等语料库获取经过人工标记金融数据核心词、金融数据场景分类等信息。所获取的信息可以作为有效样本数据,用于后续的模型训练。数据例如可以包括证券名称、对象名称、财务指标、金融术语、金融查询用语样本、以及日常查询用语样本等。第一语料库集合可以包括各种示例提问。
在一个实施例中,计算设备110对所获取的第一语料库集合执行切词,从而获取第二切词集合。
在一个实施例中,计算设备110计算第二切词集合中每个词对应的词频-逆文档频向量值。
计算设备110可以基于对第二切词集合和第一切词集合中的词语进行匹配,获取第一切词集中每个词的tf-idf向量,即词频-逆文档频向量值。Tf(Term frequency)指的是词频,即第一切词集合中的每个词在第二切词集合中出现的频率。Idf(Inverse documentfrequency)指逆文档频率,第二切词集合中包括所有的文档/含有第一切词集合中的每个词的文档数目。TF-IDF向量值可以等于TF乘以IDF。
在一个实施例中,计算设备110将所述第一切词集合中的每个词分别与所述第二切词集合中的每个词执行匹配,从而获取与第一切词集合中的每个词对应的匹配次数。
计算设备110提取第二切词集合中的金融查询问题样本集及非金融查询问题样本集,其涵盖金融数据主要查询问法和常见聊天问题。该样本集尽可能丰富。计算设备110对其进行切词,并根据如上所述同样的方法计算各个词的tf-idf向量值。
第二切词集合的结果集合可以记为N。词ni(0≤i≤n)是第二切词集合中的每个词。N包括n个词,第二切词集合每个词ni对应的tf-idf向量值为ωi。
第一切词集合的结果集合可以记为A。词aj(0≤j≤m)是第一切词集合中的每个词。A包括m个词,第一切词集合每个词aj对应的tf-idf向量值为λi。
在一个实施例中,计算设备110基于所获取的匹配次数和词频-逆文档频向量值,确定表示所述第一数据的文本维度向量。
计算设备110基于第二切词集合每个词ni对应的tf-idf向量值ωi和第一切词集合每个词aj对应的tf-idf向量值λi计算表示所述第一数据的文本维度向量W。具体来说,将第二切词集合中的每个词ni与第一切词集合每个词aj进行比较。如果切词ni与aj相同(即,匹配),则每次对第二切词集合每个词ni对应的tf-idf向量值为ωi进行累加。如果第二切词集合A中任何词aj均未出现在第一切词集合中,则A的向量化结果为一个所有维度都为0的向量。通过重复对第一切词集合中的词语aj进行匹配,用户问题切词集合A可转换为文本维度向量W。无论用户问题长短,文本维度向量W均为n维度向量。
在步骤206,计算设备110基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据。
在一个实施例中,计算设备110可以将文本维度向量W放入经训练的第一模型,(例如Logistic回归模型),判断该问题是否为金融类问题。
第一模型,Logistic回归模型,基于步骤二中的金融问题样本库和非金融问题样本库训练。金融类问题标签为1,非金融类问题标签为0。该问题场景为一个标准的逻辑回归二分类问题,故直接采用标准方法进行。
在一个实施例中,计算设备110可以获取与金融数据相关的逻辑回归模型,Logistic回归模型,逻辑回归模型被用作第一模型。将所述第一数据的文本维度向量输入到与金融数据相关的逻辑回归模型,从而获取文本维度向量的第一预测值。响应于所述第一预测值大于预定阈值,确定第一数据的领域属性数据为金融领域。响应于所述第一预测值小于预定阈值,确定第一数据的领域属性数据为非金融领域。
在一个优选的实施例中,计算设备110还可以获取与金融数据相关的softmax模型,所述与金融数据相关的softmax模型被作为第三模型,所述金融数据至少包括与金融相关的指标查询用语、数据筛选用语、名词解释用语。将所述第一数据的文本维度向量输入到与金融数据相关的softmax回归模型,从而获取文本维度向量的第二预测值、第三预测值和第四预测值。响应于所述第二预测值大于预定阈值,确定第一数据的领域属性数据为指标查询领域。响应于所述第三预测值大于预定阈值,确定第一数据的领域属性数据为数据筛选领域。响应于所述第四预测值大于预定阈值,确定第一数据的领域属性数据为名词解释领域。
在步骤208,计算设备110将第一数据标注为第二数据,标注标签包括开始类标签、中间类标签、非实体类标签、结束类标签和单独类标签中的至少一种。
在一个实施例中,计算设备110可以用BIOSE方法将第一数据,即用户的提问进行标注。例如针对,提问“贵州茅台今天股价多少”可以将提问中的每个字标注为BIIEBEBEOO标签,从而形成第二数据,其中B为开始类标签、I为中间类标签、O为非实体类标签、E为结束类标签和S为单独类标签。
在步骤210,计算设备110基于第二模型和第一数据的领域属性数据,将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据。
在一个实施例中,计算设备110可以定义包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据,并且将第二数据打上以上标签。例如对象类标签可以定义为S,证券类标签可以定义为F,时间类标签可以定义为D,指标类标签可以定义为A。以步骤208和步骤210的方式标注,总共标注4个大类,每个小类BISE4个标签,另外包括单独的O标签,共计17类标签。
在一个实施例中,计算设备110获取与所述第一数据的领域属性数据相关的数据训练集。计算设备110通过自训练和局部人工标注,对数据训练集执行标注,从而获取数据训练集的第一属性标签集。计算设备110将匹配到实体开始的标签设为开始类标签、将匹配到实体结束的标签设为结束类标签、将匹配到实体中部的标签设为中间类标签、将没有匹配到实体的标签设为非实体标签、将匹配到单字实体的标签设为单独类标签。计算设备110基于LSTM-CRF算法,确定所述第一数据的属性标签,从而获取第二数据。
在一个实施例中,计算设备110通过自训练和局部人工标注,对数据训练集执行标注,从而获取数据训练集的第二属性标签,其中第二属性标签包括对象类标签、证券类标签、时间类标签以及指标类标签。基于LSTM-CRF算法,将具有开始类标签、中间类标签、结束类标签和单独类标签的第二数据分别标注对象类标签、证券类标签、时间类标签以及指标类标签,从而获取具有组合标签的第二数据。将具有组合标签和单独类标签的第二数据确定为第三数据。
图3示出了根据本公开的实施例的第三数据。如图3所示,第一数据“贵州茅台今天股价多少”被标注为BSISISESBDEDBAEAOO、“PE小于20的股票有哪些”被标注为BAEAOOOOOOOOOO、“业绩超预期是什么意思”被标注为BAIAIAIAEAOOOOO,从而形成了带标签的第三数据。所适用的模型可以是BI-LSTM+CRF,模型工具库可以使用Tensorflow。模型输入采用字嵌入向量,例如向量维度数为8,随机初始化,取值范围0.0到1.0。全部标注样本中的一部分例如80%用于训练,另一部分例如20%用于测试。借助模型,实现查询第一数据,即提问中的对象名、证券名、时间名以及指标名,具体可以是上市公司名、基金名称、日期、指标的识别。
在一个优选实施例中,计算设备110可以在初步识别出的各项关键参数后,进行进一步的归一化处理,以解决称谓不规范的问题。例如上市公司股票名称为贵州茅台,但问句里经常用茅台简称,指标的标准名称为营业收入,问句里识别出的大部分为营收,时间词类别更多,如今天,2020年,5月份等等。计算设备110可以采用非标词往标准词映射词典的方式获得规范化名称。通过映射词典结构,将非标词集合映射到标准词,例如将贵州茅台、茅台、赖茅、茅台酒、飞天茅台映射到贵州茅台(600519)。非标词集合可以根据需求扩展。基于以上步骤,完成第三数据,即标准参数抽取。
在步骤212,计算设备110基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据。
计算设备110可以获取包括预定义提问的预定义提问集。基于最小哈希算法,计算与所述第三数据与预定义提问集中的预定义提问之间的相似度。基于所计算的相似度,确定与所述第三数据对应的预定义提问。基于预定义提问,检索对应于第三数据的目标金融数据和输出形式。根据所述输出形式,输出所检索的目标金融数据。
计算设备110可以搭建预定义提问集。预定义提问集录入平台, 同时打上场景的标签。预定义提问集记录的是一组问题-答案的对应关系,主要是录入金融领域的问答,例如对金融数据的查询问答或对金融市场的分析或预测问答。预定义提问集记录的是一组/多组的近似问题。预定义提问集可以一方面用于模型的训练样本,另一方面作为模型分类器的补充。模型可以根据补充录入的问答迭代升级。
为了提升用户体验, 通过平台录入新问题对的方式, 可以使得原本无法回答或者是答非所问的情况, 在人工接入后立马修复。
基于预定义提问集的数据,计算第三数据与预定义提问的相似性。相似性值由短文本minihash算法结合句子的包含关系,设置不同的权重,计算得到相似性。超过设定阈值的,可以认为用户想问的问题和平台录入的完全匹配,可以直接获取答案或者调用api得到正确的结果。如果相似度不满足阈值,可以通过ElasticSearch检索推荐的问题。选择不同的场景作为联想/推荐的问题, 反馈给用户。例如:用户询问“什么是好公司”,这个是个名词解释, 那近似的不同场景问题会是: “好公司有哪些”,“贵州茅台是不是好公司”。
在一个优选的实施例中,还可以由使用本方法或系统的第三方(客户方或业务方)自定义最接近的推荐问题,从而使得数据交互或者问答成为引导用户使用相关功能或者是作为某项功能工作流的引导。
基于ElasticSearch检索,针对第三数据进行检索,以输出与第三数据对应的目标金融数据,目标金融数据包括与第三数据对应的金融资讯。对于选股问题,涉及到筛选条件中参数的识别。 通过配置模板的方式,识别相应的参数。例如对于财务指标范围检索,配置了 “大于XXX”,“在XXX和XXX之间”,“前10”等等常用的模板数值检索模板。确定完筛选条件后,后续就是确定具体的数据值,可能涉及到数字合并,单位的转换。用户如果使用语音,三方的语音转文字涉及数字这块可能会有问题,比如中文数字之类。因而数字参数的识别涉及到中文转数字,数字合并,单位转换等等。
利用以上技术手段,可以将将复杂的金融数据通过准确地定位反馈给用户并且基于动态查询出来的数据,实时绘制图表。这样基于拓展关系定位互动提问也能准确检索到用户需求的数据,满足用户提问时在业务上联想的逻辑性。
图4示出了可以用来实施本公开内容的实施例的示例电子设备400的示意性框图。例如,如图1所示的计算设备110可以由电子设备400来实施。如图所示,电子设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的计算机程序指令或者从存储单元408加载到随机存取存储器(RAM)403中的计算机程序指令,来执行各种适当的动作和处理。在随机存取存储器403中,还可存储电子设备400操作所需的各种程序和数据。中央处理单元401、只读存储器402以及随机存取存储器403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
电子设备400中的多个部件连接至输入/输出接口405,包括:输入单元406,例如键盘、鼠标、麦克风等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200,可由中央处理单元401执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序被加载到随机存取存储器1303并由中央处理单元401执行时,可以执行上文描述的方法200中的一个或多个动作。
本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域普通技术人员应当了解,本发明不限定于上述的实施例,本发明可以在不偏离其主旨与范围内以许多其它的形式实施。因此,所展示的示例与实施例被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
Claims (11)
1.一种用于交互金融数据的方法,包括:
针对所获取的第一数据执行切词,从而获取所述第一数据的第一切词集合,其中切词包括采用搜索引擎模式进行带有一定冗余的切词并且切词所使用的词库为根据一定时间周期进行整理及更新的自定义词库;
对所述第一切词集合执行第一处理,从而获取用于表示所述第一数据的文本维度向量;
基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据,其中所述第一模型为逻辑回归模型;
将第一数据标注为第二数据,标注标签包括开始类标签、中间类标签、非实体类标签、结束类标签和单独类标签中的至少一种;
基于第二模型和第一数据的领域属性数据,将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据,其中所述第二模型为LSTM-CRF模型,所述第二模型用于定义包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据并且将第二数据打上以上标签;以及
基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据。
2.根据权利要求1所述的方法,其中对所述第一切词集合执行第一处理包括:
获取第一语料库集合;
对所获取的第一语料库集合执行切词,从而获取第二切词集合;
计算第二切词集合中每个词对应的词频-逆文档频向量值;
将所述第一切词集合中的每个词分别与所述第二切词集合中的每个词执行匹配,从而获取与第一切词集合中的每个词对应的匹配次数;以及
基于所获取的匹配次数和词频-逆文档频向量值,确定表示所述第一数据的文本维度向量。
3.根据权利要求2所述的方法,其中基于第一模型和所述文本维度向量,确定所述第一数据的领域属性数据包括:
获取与金融数据相关的逻辑回归模型,逻辑回归模型被用作第一模型;
将所述第一数据的文本维度向量输入到与金融数据相关的逻辑回归模型,从而获取文本维度向量的第一预测值;
响应于所述第一预测值大于预定阈值,确定第一数据的领域属性数据为金融领域;以及
响应于所述第一预测值小于预定阈值,确定第一数据的领域属性数据为非金融领域。
4.根据权利要求3所述的方法,其中响应于所述预测值大于预定阈值,确定第一数据的领域属性数据为金融领域包括:
获取与金融数据相关的softmax模型,所述与金融数据相关的softmax模型被作为第三模型,所述金融数据至少包括与金融相关的指标查询用语、数据筛选用语、名词解释用语;
将所述第一数据的文本维度向量输入到与金融数据相关的softmax回归模型,从而获取文本维度向量的第二预测值、第三预测值和第四预测值;
响应于所述第二预测值大于预定阈值,确定第一数据的领域属性数据为指标查询领域;
响应于所述第三预测值大于预定阈值,确定第一数据的领域属性数据为数据筛选领域;以及
响应于所述第四预测值大于预定阈值,确定第一数据的领域属性数据为名词解释领域。
5.根据权利要求1所述的方法,其中将所述第一数据标注为第二数据包括:
获取与所述第一数据的领域属性数据相关的数据训练集;
通过自训练和局部人工标注,对数据训练集执行标注,从而获取数据训练集的第一属性标签集;
将匹配到实体开始的标签设为开始类标签、将匹配到实体结束的标签设为结束类标签、将匹配到实体中部的标签设为中间类标签、将没有匹配到实体的标签设为非实体标签、将匹配到单字实体的标签设为单独类标签;以及
基于LSTM-CRF算法,确定所述第一数据的属性标签,从而获取第二数据。
6.根据权利要求5所述的方法,其中将所述第二数据标注为包括对象类标签、证券类标签、时间类标签以及指标类标签的第三数据包括:
通过自训练和局部人工标注,对数据训练集执行标注,从而获取数据训练集的第二属性标签,其中第二属性标签包括对象类标签、证券类标签、时间类标签以及指标类标签;
基于LSTM-CRF算法,将具有开始类标签、中间类标签、结束类标签和单独类标签的第二数据分别标注对象类标签、证券类标签、时间类标签以及指标类标签,从而获取具有组合标签的第二数据;以及
将具有组合标签和单独类标签的第二数据确定为第三数据。
7.根据权利要求1所述的方法,其中基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据包括:
获取包括预定义提问的预定义提问集;
基于最小哈希算法,计算与所述第三数据与预定义提问集中的预定义提问之间的相似度;
基于所计算的相似度,确定与所述第三数据对应的预定义提问;
基于预定义提问,检索对应于第三数据的目标金融数据和输出形式;以及
根据所述输出形式,输出所检索的目标金融数据。
8.根据权利要求1所述的方法,其中基于第三数据进行检索,以便输出与所述第三数据对应的目标金融数据包括:
基于ElasticSearch检索,针对第三数据进行检索,以输出与第三数据对应的目标金融数据,目标金融数据包括与第三数据对应的金融资讯。
9.根据权利要求2所述的方法,其中所述第一语料库集合包括:
证券名称、对象名称、财务指标、金融术语、金融查询用语样本、以及日常查询用语样本。
10.一种计算设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
所述存储器存储有被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其中所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211405189.3A CN115577124B (zh) | 2022-11-10 | 2022-11-10 | 用于交互金融数据的方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211405189.3A CN115577124B (zh) | 2022-11-10 | 2022-11-10 | 用于交互金融数据的方法、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115577124A CN115577124A (zh) | 2023-01-06 |
CN115577124B true CN115577124B (zh) | 2023-04-07 |
Family
ID=84588583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211405189.3A Active CN115577124B (zh) | 2022-11-10 | 2022-11-10 | 用于交互金融数据的方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577124B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2018101524A4 (en) * | 2018-10-14 | 2018-11-15 | Chai, Xiayun MISS | Stock prediction research based on finiancial news by svm |
CN109857990B (zh) * | 2018-12-18 | 2022-11-25 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN112256842B (zh) * | 2020-12-17 | 2021-03-26 | 上海朝阳永续信息技术股份有限公司 | 用于文本聚类的方法、电子设备和存储介质 |
CN112989005B (zh) * | 2021-04-16 | 2022-07-12 | 重庆中国三峡博物馆 | 一种基于分阶段查询的知识图谱常识问答方法及系统 |
-
2022
- 2022-11-10 CN CN202211405189.3A patent/CN115577124B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115577124A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
US11288593B2 (en) | Method, apparatus and device for extracting information | |
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN106874441B (zh) | 智能问答方法和装置 | |
US11308278B2 (en) | Predicting style breaches within textual content | |
CN113495900B (zh) | 基于自然语言的结构化查询语言语句获取方法及装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
US11521603B2 (en) | Automatically generating conference minutes | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN106934069B (zh) | 数据检索方法及系统 | |
CN108170715B (zh) | 一种文本结构化处理方法 | |
US11977589B2 (en) | Information search method, device, apparatus and computer-readable medium | |
US11023503B2 (en) | Suggesting text in an electronic document | |
US11194963B1 (en) | Auditing citations in a textual document | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
US11630869B2 (en) | Identification of changes between document versions | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN115470313A (zh) | 信息检索及模型训练方法、装置、设备和存储介质 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN114202443A (zh) | 政策分类方法、装置、设备及存储介质 | |
CN111126073B (zh) | 语义检索方法和装置 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN115577124B (zh) | 用于交互金融数据的方法、设备和介质 | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |