CN109697201B - 一种查询处理的方法、系统、设备及计算机可读存储介质 - Google Patents

一种查询处理的方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109697201B
CN109697201B CN201811613634.9A CN201811613634A CN109697201B CN 109697201 B CN109697201 B CN 109697201B CN 201811613634 A CN201811613634 A CN 201811613634A CN 109697201 B CN109697201 B CN 109697201B
Authority
CN
China
Prior art keywords
query
natural language
processing
database
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811613634.9A
Other languages
English (en)
Other versions
CN109697201A (zh
Inventor
赵岑
陈世敏
冯采
张小平
罗广超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811613634.9A priority Critical patent/CN109697201B/zh
Publication of CN109697201A publication Critical patent/CN109697201A/zh
Application granted granted Critical
Publication of CN109697201B publication Critical patent/CN109697201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种查询处理的方法,包括:接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与查询脚本相匹配的Mongo数据库;定义自然语言处理接口及前端显示接口;接收输入的自然语言查询语句,并通过自然语言处理接口获取其中的查询条件信息;利用查询脚本根据查询条件信息在Mongo数据库中进行查询处理,得到查询结果;通过前端显示接口对查询结果进行显示。本申请在接收到自然语言查询语句时,能够根据其中的查询条件信息在Mongo数据库中进行查询处理,避免了因为需求语义的复杂性而导致响应速度下降的问题。本申请同时还提供了一种查询处理的系统、设备及计算机可读存储介质,具有上述有益效果。

Description

一种查询处理的方法、系统、设备及计算机可读存储介质
技术领域
本申请涉及查询处理领域,特别涉及一种查询处理的方法、系统、设备及计算机可读存储介质。
背景技术
个股公告是上市公司最权威、最及时的信息展示窗口,其内容很可能会对投资者判断公司基本面,产生重要影响。个股公告中往往包括各类精确、客观的数据信息,重要时间段及时间节点信息,很多事项的进展、运作、实施的前提条件等。
对于投资者来说,快速准确的获取到个股公告中的信息显得尤为重要,现有技术中用户通常通过输入关键字及查询条件查询数据库中的个股公告信息,系统根据接收到的关键字在数据库中进行匹配,将包括该关键字且满足该查询条件的所有数据信息进行输出。随着互联网技术的发展,互联网上的信息量呈爆炸式增长,个股公告的数量太过庞大,而且传统MySQL和PostgreSQL数据库系统为关系型数据库系统,其具有很强的事务处理和数据分析功能,但是由于需求语义的复杂性,传统数据库的响应速度会因为大量的数据统计分析运算而明显下降。
因此,如何提高个股公告信息查询的响应速度是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种查询处理的方法、系统、设备及计算机可读存储介质,用于提高个股公告信息查询的响应速度。
为解决上述技术问题,本申请提供一种查询处理的方法,该方法包括:
接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与所述查询脚本相匹配的Mongo数据库;
定义自然语言处理接口及前端显示接口;
接收输入的自然语言查询语句,并通过所述自然语言处理接口获取所述自然语言查询语句中的查询条件信息;
利用所述查询脚本根据所述查询条件信息在所述Mongo数据库中进行查询处理,得到查询结果;
通过所述前端显示接口对所述查询结果进行显示。
可选的,所述通过所述自然语言处理接口获取所述自然语言查询语句中的查询条件信息,包括:
对所述自然语言查询语句进行分词处理得到关键词组;
根据所述关键词组确定所述自然语言查询语句的类型,并根据所述自然语言查询语句的类型确定所述自然语言查询语句的各个组成部分;
将各所述组成部分按照第一预设规则转换为预设数据交换格式的文件;
获取所述预设数据交换格式的文件中的查询条件信息。
可选的,所述利用所述查询脚本根据所述查询条件信息在所述Mongo数据库中进行查询处理,得到查询结果,包括:
利用所述查询脚本根据所述自然语言查询语句的类型确定新数据库事件表的类别;其中,所述新数据库事件表为预先对所述Mongo数据库中的个股公告数据进行离线处理得到各处理结果,并将各所述处理结果根据第二预设规则分别进行合并后对应建立的各新数据库事件表;
根据所述查询条件信息在所述新数据库事件表中进行查询处理,得到所述查询结果。
可选的,所述通过所述前端显示接口对所述查询结果进行显示,包括:
根据所述自然语言查询语句的类型确定显示方式;
通过所述前端显示接口以所述显示方式对所述查询结果进行显示。
本申请还提供一种查询处理的系统,该系统包括:
数据转换模块,用于接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与所述查询脚本相匹配的Mongo数据库;
接口定义模块,用于定义自然语言处理接口及前端显示接口;
查询语言获取模块,用于接收输入的自然语言查询语句,并通过所述自然语言处理接口获取所述自然语言查询语句中的查询条件信息;
查询处理模块,用于利用所述查询脚本根据所述查询条件信息在所述Mongo数据库中进行查询处理,得到查询结果;
前端显示模块,用于通过所述前端显示接口对所述查询结果进行显示。
可选的,所述查询语言获取模块包括:
分词子模块,用于对所述自然语言查询语句进行分词处理得到关键词组;
理解子模块,用于根据所述关键词组确定所述自然语言查询语句的类型,并根据所述自然语言查询语句的类型确定所述自然语言查询语句的各个组成部分;
转换子模块,用于将各所述组成部分按照第一预设规则转换为预设数据交换格式的文件;
获取子模块,用于获取所述预设数据交换格式的文件中的查询条件信息。
可选的,所述查询处理模块包括:
查询分类子模块,用于利用所述查询脚本根据所述自然语言查询语句的类型确定新数据库事件表的类别;其中,所述新数据库事件表为预先对所述Mongo数据库中的个股公告数据进行离线处理得到各处理结果,并将各所述处理结果根据第二预设规则分别进行合并后对应建立的各新数据库事件表;
查询处理子模块,用于根据所述查询条件信息在所述新数据库事件表中进行查询处理,得到所述查询结果。
可选的,所述前端显示模块包括:
显示分类子模块,用于根据所述自然语言查询语句的类型确定显示方式;
显示处理子模块,用于通过所述前端显示接口以所述显示方式对所述查询结果进行显示。
本申请还提供一种查询处理设备,该查询处理设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述查询处理的方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述查询处理的方法的步骤。
本申请所提供查询处理的方法,包括:接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与查询脚本相匹配的Mongo数据库;定义自然语言处理接口及前端显示接口;接收输入的自然语言查询语句,并通过自然语言处理接口获取自然语言查询语句中的查询条件信息;利用查询脚本根据查询条件信息在Mongo数据库中进行查询处理,得到查询结果;通过前端显示接口对查询结果进行显示。
由于Mongo数据库是基于文档的键值数据库系统,而文档的半结构化特性使得数据分析能够以较小的代价对需求语义进行处理,故本申请所提供的技术方案,通过预先定义Mongo数据库数据格式,然后将原有数据库转换为Mongo数据库,使得在接收到自然语言查询语句时,能够根据自然语言查询语句中的查询条件信息在Mongo数据库中进行查询处理,得到查询结果,并通过前端显示接口对查询结果进行显示,有效避免了因为需求语义的复杂性而导致响应速度下降的问题。本申请同时还提供了一种查询处理的系统、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种查询处理的方法的流程图;
图2为图1所提供的一种查询处理的方法中S103的一种实际表现方式的流程图;
图3为图1所提供的一种查询处理的方法中S104的一种实际表现方式的流程图;
图4为图1所提供的一种查询处理的方法中S105的一种实际表现方式的流程图;
图5为本申请实施例所提供的一种查询处理的系统的结构图;
图6为本申请实施例所提供的另一种查询处理的系统的结构图;
图7为本申请实施例所提供的一种查询处理设备的结构图。
具体实施方式
本申请的核心是提供一种查询处理的方法、系统、设备及计算机可读存储介质,用于提高个股公告信息查询的响应速度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种查询处理的方法的流程图。
其具体包括如下步骤:
S101:接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与查询脚本相匹配的Mongo数据库;
基于现有技术中个股公告的数量太过庞大,而且传统MySQL和PostgreSQL数据库系统为关系型数据库系统,其具有很强的事务处理和数据分析功能,但是由于需求语义的复杂性,传统数据库的响应速度会因为大量的数据统计分析运算而明显下降,本申请提供了一种查询处理的方法,用于解决上述问题;
数据库的选择涉及到实现性能和程序实现的复杂度,Mongo数据库是基于文档的键值数据库系统,文档的半结构化特性使得数据分析能够以较小的代价预处理,故本申请实施例中先定义Mongo数据库数据格式,然后将原有数据库转换为与查询脚本相匹配的Mongo数据库,能够实现把各类不同的事件存储在一张二维表中,在此基础上可以定义更加复杂的数据结构;
这里提到的,定义Mongo数据库数据格式,其具体可以依据个股公告数据的本身属性进行定义,例如event_id、event_data、所处行业(证监会行业分类)、近日交易数据、事件代号、股票代码、股票行业、公告时间、日数据、月数据、年数据等属性;
其中,event_id指的是事件代号;event_data指的是事件的具体信息,对于不同的事件是有不同的事件具体信息,即为通常意义上对于事件的关键信息的描述;
在本实施例中,finance数据库为原始数据库,finance数据库有自己的event事件表、trade交易表(存储所有股票每日交易信息)、和company公司表,其中:
event事件表为普通二维表,即常规意义上的事件信息表;例如重组/增发等原始的表;每个事件都有一张这样的普通二维表;
trade交易表为普通二维表,主键为股票代码和交易日期;
company公司表为普通二维表,主键为公司股票代码。
而event数据库的event表为event数据库中为一种的一张半结构化数据表,每条记录内嵌原始finance数据库里的不同类型事件,并内嵌对应公告相关的交易信息,通过树状结构或内置二维表进行连接;
下面以要插入到event数据库的collection为例进行说明,即将一条数据插入到event数据库的event表:
Figure BDA0001925352250000061
Figure BDA0001925352250000071
Figure BDA0001925352250000081
S102:定义自然语言处理接口及前端显示接口;
在将原有数据库转换为与查询脚本相匹配的Mongo数据库之后,定义该Mongo数据库的自然语言处理接口及前端显示接口,例如:
1.自然语言处理接口的定义如下:
Figure BDA0001925352250000082
Figure BDA0001925352250000091
Figure BDA0001925352250000101
Figure BDA0001925352250000111
Figure BDA0001925352250000121
其中:event.txt为事件名称文本文件,xxx.txt为事件属性文本文件,industry.txt为股票行业属性文本文件,conception.txt为股票概念属性文本文件,panel.txt为股票板块属性文本文件;
2.前端显示接口的定义如下:
Figure BDA0001925352250000122
Figure BDA0001925352250000131
S103:接收输入的自然语言查询语句,并通过自然语言处理接口获取自然语言查询语句中的查询条件信息;
在接收到输入的自然语言查询语句后,基于步骤S102中定义的自然语言处理接口获取自然语言查询语句中的查询条件信息。
S104:利用查询脚本根据查询条件信息在Mongo数据库中进行查询处理,得到查询结果;
Mongo数据库是一个高性能,开源,无模式的文档型数据库,其主要目标是在键/值存储方式(提供了高性能和高度伸缩性)以及传统的RDBMS系统(丰富的功能)架起一座桥梁,集两者的优势于一身,适合用于对象及JSON数据的存储:Mongo的BSON数据格式非常适合文档化格式的存储及查询;
即在步骤S102的基础上,本申请实施例能够利用查询脚本根据查询条件信息在Mongo数据库中进行json格式数据的查询处理,得到对应的查询结果,以较小的代价对需求语义进行处理,提高了查询处理的响应速度。
S105:通过前端显示接口对查询结果进行显示。
基于上述技术方案,本申请所提供的一种查询处理的方法,通过预先定义Mongo数据库数据格式,然后将原有数据库转换为Mongo数据库,使得在接收到自然语言查询语句时,能够根据自然语言查询语句中的查询条件信息在Mongo数据库中进行查询处理,得到查询结果,并通过前端显示接口对查询结果进行显示,有效避免了因为需求语义的复杂性而导致响应速度下降的问题。
优选的,这里提到的通过自然语言处理接口获取自然语言查询语句中的查询条件信息,其具体可以包括如图2所示的步骤,请参考图2,图2为图1所提供的一种查询处理的方法中S103的一种实际表现方式的流程图,其具体包括以下步骤:
S201:对自然语言查询语句进行分词处理得到关键词组;
这里提到的对该自然语言查询语句进行分词处理得到关键词组,其具体可以通过语言云中文句法分析工具对自然语言查询语句进行分词、词性标注、命名实体识别,然后再进行句法分析获得所有词之间的依赖关系,最后通过语义角色分析获取时间部分表述的范围识别,比如在“2018年上半年哪些公司业绩预盈”中,直接分析得出“2018年上半年”是时间成分;
可选的,为提高分词处理的精度,这里提到的对该自然语言查询语句进行分词处理得到关键词组,其具体也可以预先设置各项自然语言查询语句的组成部分的表述类型词典,再根据该表述类型词典对该自然语言查询语句进行匹配进而确定关键词组,例如,针对于事件时间来说,可以预先将“本周、这周、上周、上一周、(过去,近,这)X周、XXXX年前XX季度、XXXX年第XX季度、(今,去,前)年第XX季度、(过去,近)XX个季度、XXXX年XX月XX日、(今,前,去)年XX月XX日、XXXX年前XX个月、XXXX年XX月、(今,去,前)年XX月、(过去,近,这)XX月、这个月、本月、上个月、XXXX上(下)半年、XXXX年来、今年、去年、前年、XXXX年、(过去,近,这)XX年、今天、昨天”等表述方式收录到事件时间表述辞典中,然后再对接收到的自然语言查询语句进行匹配确定事件时间。
S202:根据关键词组确定自然语言查询语句的类型,并根据自然语言查询语句的类型确定自然语言查询语句的各个组成部分;
本申请预先定义了自然语言查询语句的类型,当接收到自然语言查询语句时根据分词得到的关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分;
这里提到的自然语言查询语句的组成部分包括事件时间、事件属性、事件过滤条件、标的物、标的价格时间、标的价格过滤条件、标的筛选条件中的至少一项;其中,事件时间表明事件发生的时间范围;事件即为常见的金融事件,事件过滤条件即为事件的某个属性和取值,标的物为个股、公司等,标的价格时间为标明价格变动的时间范围,标的价格过滤条件为价格比较的表述,例如:上涨超过5%,标的筛选条件为标的所在的行业、概念、板块。
S203:将各组成部分按照第一预设规则转换为预设数据交换格式的文件;
在确定该自然语言查询语句的各个组成部分之后,将各组成部分按照第一预设规则转换为预设数据交换格式的文件,以使数据库能够直接读取该预设数据交换格式的文件中的信息,并根据该信息确定查询条件信息,进而根据该查询条件信息对公告信息进行查询;
这里提到的第一预设规则,其具体可以为由金融专业人员总结出来的常用查询问题,结合技术人员进行归纳总结出来的规则,是对自然语言查询语句转换到新Mongo数据库内部查询格式的接口定义,可以通过脚本的形式进行实现;
这里提到的预设数据交换格式具体可以为xml格式、json格式、yaml格式中的至少一项;
可选的,以预设数据交换格式为json格式为例,在确定该自然语言查询语句的各个组成部分之后,可以通过正则匹配的方式,将该自然语言查询语句的各个组成部分按照第一预设规则,逐一转化为数字,存到输出的json结构中,在这个功能中,支持汉字或阿拉伯数字表述,所有的数字表述都可以转换为阿拉伯数字。
S204:获取预设数据交换格式的文件中的查询条件信息。
本申请实施例通过可以通过正则匹配的方式,将该自然语言查询语句的各个组成部分按照预设规则,逐一转化为数字,存到输出的json结构中,数据库能够根据event.txt文件及json结构确定查询条件信息对公告信息进行查询,实现了根据输入的自然语言查询语句对公告信息进行查询的目的。
基于上述实施例,针对于步骤S104,其中所描述的,其具体也可以预先对,下面结合图3进行说明。
请参考图3,图3为图1所提供的一种查询处理的方法中S104的一种实际表现方式的流程图。
其具体包括以下步骤:
S301:利用查询脚本根据自然语言查询语句的类型确定新数据库事件表的类别;
其中,新数据库事件表为预先对Mongo数据库中的个股公告数据进行离线处理得到各处理结果,并将各处理结果根据第二预设规则分别进行合并后对应建立的各新数据库事件表;
其中,该第二预设规则具体可以为由金融专业人员总结出来的常用查询问题,结合技术人员进行归纳总结出来的规则,是用于由原始金融数据表(包括公司数据、交易数据、公告数据等)转换为支持高性能的内部查询的半结构化Mongo数据库的规则,可以通过脚本的形式进行实现。
S302:根据查询条件信息在新数据库事件表中进行查询处理,得到查询结果。
本申请实施例中,系统可以预先在树状结构内构建数据查询,有限的将连接操作离线做好,使得数据分析离线处理一部分并存储起来,这样在用户查询即可“站在巨人肩膀上”继续处理数据,以便于在查询时省去这部分时间开销,因此速度会比变快,既定树状数据格式存储复杂中间离线数据,而Mongo数据库的支持这种存储方式。
基于上述实施例,针对于步骤S105,其中所描述的结合预设密钥将该密文解密为明文,其具体也可以根据当前设备的设备级别选择对应秘钥,下面结合图4进行说明。
请参考图4,图4为图1所提供的一种查询处理的方法中S105的一种实际表现方式的流程图。
其具体包括以下步骤:
S401:根据自然语言查询语句的类型确定显示方式;
S402:通过前端显示接口以显示方式对查询结果进行显示。
优选的,上述实施例中步骤S105提到的自然语言查询语句的类型可以包括如下所示的10种类型:
语义类型1为根据单一事件问单只个股,当接收到类型为语义类型1的自然语言查询语句时,输出股票列表(包含事件和基本股价信息)。
Figure BDA0001925352250000171
表1
Figure BDA0001925352250000172
表2
以上述二表为例,表1第一行为接收到的自然语言查询语句,为“今年化工原料行业业绩预亏超过30%在首个交易日内上涨超过5%的公司有哪些”,表1第二行为对该自然语言查询语句进行分词处理得到关键词组“今年”、“业绩预亏”和“的公司”
表2第一行为语义类型1的各项组成部分及其之间的顺序,表2第二为然后根据该关键词组确定该自然语言查询语句的类型为语义类型1,此时根据语义类型1确定该自然语言查询语句的各个组成部分,即确定事件时间为今年,确定句式为有哪些,确定标的过滤条件为化工原料行业,确定标的为个股,确定事件为业绩预亏,确定事件过滤条件为超过30%,确定标的价格时间为在首个交易日内,确定标的价格过滤条件为上涨超过5%。
可选的,当接收到如表3所示语义类型的自然语言查询语句时,输出该事件股票的当日或者近日的交易数据(事件+个股)。
事件时间 句式 事件
2016/1/1以来 发生了哪些 重大资产重组
去年 都有哪些 重大资产重组事件
2017年 哪些 重大资产重组失败
表3
语义类型2为根据单一事件问所有行业,当接收到类型为语义类型2的自然语言查询语句时,可以输出行业柱状图,进一步可以输出行业股票列表和行业股票涨跌饼图,语义类型2的各项组成部分及其之间的顺序如表4、表5及表6所示。
Figure BDA0001925352250000181
表4
Figure BDA0001925352250000182
表5
Figure BDA0001925352250000191
表6
语义类型3为根据单一事件问单一个股,当接收到类型为语义类型3的自然语言查询语句时,可以列表显示个股,并输出柱状图显示个股排序后的涨跌幅,语义类型3的各项组成部分及其之间的顺序如表7所示。
Figure BDA0001925352250000192
表7
语义类型4为根据单一行业单一事件对所有公司,当接收到类型为语义类型4的自然语言查询语句时,可以输出所有符合条件公司的股价统计信息,并输出折线图对比显示个股,语义类型4的各项组成部分及其之间的顺序如表8、表9及表10所示。
Figure BDA0001925352250000193
表8
Figure BDA0001925352250000201
表9
Figure BDA0001925352250000202
表10
语义类型5为根据单一股票单一事件得到股票价格变动,当接收到类型为语义类型5的自然语言查询语句时,可以输出折线图以反映出股票和某特定指数的价格变动,语义类型5的各项组成部分及其之间的顺序如表11所示。
Figure BDA0001925352250000203
表11
语义类型6为查询多个领域在某个事件上的状况,当接收到类型为语义类型6的自然语言查询语句时,可以输出给定时间范围内各个行业相关的统计列表和柱状图以反映行业重要的统计信息信息。在下图所示的例子中,具体可以是行业增发次数和行业公司数目柱状图以对比行业增发状况,语义类型6的各项组成部分及其之间的顺序如表12所示。
标的 句式1 事件 句式2
去年 各个行业 业绩预告 状况
表12
语义类型7为查询某个事件之后标的数量变化,当接收到类型为语义类型7的自然语言查询语句时,可以输出列表和柱状图,以显示行业行业基本信息和按照时间范围分组统计的各个行业符合条件的公司数量,语义类型7的各项组成部分及其之间的顺序如表13所示。
Figure BDA0001925352250000211
表13
语义类型8为查询某些事件频繁发生的标的,当接收到类型为语义类型8的自然语言查询语句时,可以输出列表和事件时间轴,以显示符合条件的标的基本信息、行情信息和事件统计信息。点击详情还可显示对应标的发生事件在时间轴上显示。此处对于多次频繁的处理是,将所有统计结果按照标的事件发生次数排序,可以截取前20条记录,语义类型8的各项组成部分及其之间的顺序如表14所示。
句式1 事件 标的 句式2
多次/频繁 增发 的公司 有哪些
表14
语义类型9为查询事件对标的影响排序,当接收到类型为语义类型9的自然语言查询语句时,可以输出列表和柱状图以表现发生事件前后的行业平均涨跌幅,以反映事件对行业行情的影响,语义类型9的各项组成部分及其之间的顺序如表15所示。
事件 句式1 标的 句式2
增发 对哪个行业 的公司 影响最大
表15
语义类型10为查询某个特定领域在某事件之后的状况,当接收到类型为语义类型10的自然语言查询语句时,可以输出列表和柱状图散点图等以展示统计给定时段给定行业给定事件的基本信息的统计信息,语义类型10的各项组成部分及其之间的顺序如表16所示。
事件时间 标的筛选条件 事件 句式1
近10年 软件行业 业绩预告 预告状况
表16
请参考图5,图5为本申请实施例所提供的一种查询处理的系统的结构图。
该系统可以包括:
数据转换模块100,用于接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与查询脚本相匹配的Mongo数据库;
接口定义模块200,用于定义自然语言处理接口及前端显示接口;
查询语言获取模块300,用于接收输入的自然语言查询语句,并通过自然语言处理接口获取自然语言查询语句中的查询条件信息;
查询处理模块400,用于利用查询脚本根据查询条件信息在Mongo数据库中进行查询处理,得到查询结果;
前端显示模块500,用于通过前端显示接口对查询结果进行显示。
请参考图6,图6为本申请实施例所提供的另一种查询处理的系统的结构图。
该查询语言获取模块300可以包括:
分词子模块,用于对自然语言查询语句进行分词处理得到关键词组;
理解子模块,用于根据关键词组确定自然语言查询语句的类型,并根据自然语言查询语句的类型确定自然语言查询语句的各个组成部分;
转换子模块,用于将各组成部分按照第一预设规则转换为预设数据交换格式的文件;
获取子模块,用于获取预设数据交换格式的文件中的查询条件信息。
该查询处理模块400可以包括:
查询分类子模块,用于利用查询脚本根据自然语言查询语句的类型确定新数据库事件表的类别;其中,新数据库事件表为预先对Mongo数据库中的个股公告数据进行离线处理得到各处理结果,并将各处理结果根据第二预设规则分别进行合并后对应建立的各新数据库事件表;
查询处理子模块,用于根据查询条件信息在新数据库事件表中进行查询处理,得到查询结果。
该前端显示模块500可以包括:
显示分类子模块,用于根据自然语言查询语句的类型确定显示方式;
显示处理子模块,用于通过前端显示接口以显示方式对查询结果进行显示。
由于系统部分实施例与方法部分实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图7,图7为本申请实施例所提供的一种查询处理设备的结构图。
该查询处理设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对装置中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在查询处理设备600上执行存储介质630中的一系列指令操作。
查询处理设备600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1至图4所描述的查询处理的方法中的步骤由查询处理设备基于该图7所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种查询处理的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (6)

1.一种查询处理的方法,其特征在于,包括:
接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与所述查询脚本相匹配的Mongo数据库;
定义自然语言处理接口及前端显示接口;
接收输入的自然语言查询语句,并通过所述自然语言处理接口获取所述自然语言查询语句中的查询条件信息;
利用所述查询脚本根据所述查询条件信息在所述Mongo数据库中进行查询处理,得到查询结果;
通过所述前端显示接口对所述查询结果进行显示;
其中,所述通过所述自然语言处理接口获取所述自然语言查询语句中的查询条件信息,包括:
对所述自然语言查询语句进行分词处理得到关键词组;
根据所述关键词组确定所述自然语言查询语句的语义类型,并根据所述自然语言查询语句的语义类型确定所述自然语言查询语句的各个组成部分,所述自然语言查询语句的组成部分包括事件时间、事件属性、事件过滤条件、标的物、标的价格时间、标的价格过滤条件、标的筛选条件中的至少一项;
将各所述组成部分按照第一预设规则转换为预设数据交换格式的文件;
获取所述预设数据交换格式的文件中的查询条件信息;
其中,所述利用所述查询脚本根据所述查询条件信息在所述Mongo数据库中进行查询处理,得到查询结果,包括:
利用所述查询脚本根据所述自然语言查询语句的语义类型确定新数据库事件表的类别;其中,所述新数据库事件表为预先对所述Mongo数据库中的个股公告数据进行离线处理得到各处理结果,并将各所述处理结果根据第二预设规则分别进行合并后对应建立的各新数据库事件表;
根据所述查询条件信息在所述新数据库事件表中进行查询处理,得到所述查询结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述前端显示接口对所述查询结果进行显示,包括:
根据所述自然语言查询语句的语义类型确定显示方式;
通过所述前端显示接口以所述显示方式对所述查询结果进行显示。
3.一种查询处理的系统,其特征在于,包括:
数据转换模块,用于接收输入的查询脚本,并定义Mongo数据库数据格式,然后将原有数据库转换为与所述查询脚本相匹配的Mongo数据库;
接口定义模块,用于定义自然语言处理接口及前端显示接口;
查询语言获取模块,用于接收输入的自然语言查询语句,并通过所述自然语言处理接口获取所述自然语言查询语句中的查询条件信息;
查询处理模块,用于利用所述查询脚本根据所述查询条件信息在所述Mongo数据库中进行查询处理,得到查询结果;
前端显示模块,用于通过所述前端显示接口对所述查询结果进行显示;
其中,所述查询语言获取模块包括:
分词子模块,用于对所述自然语言查询语句进行分词处理得到关键词组;
理解子模块,用于根据所述关键词组确定所述自然语言查询语句的语义类型,并根据所述自然语言查询语句的语义类型确定所述自然语言查询语句的各个组成部分,所述自然语言查询语句的组成部分包括事件时间、事件属性、事件过滤条件、标的物、标的价格时间、标的价格过滤条件、标的筛选条件中的至少一项;
转换子模块,用于将各所述组成部分按照第一预设规则转换为预设数据交换格式的文件;
获取子模块,用于获取所述预设数据交换格式的文件中的查询条件信息;
其中,所述查询处理模块包括:
查询分类子模块,用于利用所述查询脚本根据所述自然语言查询语句的语义类型确定新数据库事件表的类别;其中,所述新数据库事件表为预先对所述Mongo数据库中的个股公告数据进行离线处理得到各处理结果,并将各所述处理结果根据第二预设规则分别进行合并后对应建立的各新数据库事件表;
查询处理子模块,用于根据所述查询条件信息在所述新数据库事件表中进行查询处理,得到所述查询结果。
4.根据权利要求3所述的系统,其特征在于,所述前端显示模块包括:
显示分类子模块,用于根据所述自然语言查询语句的语义类型确定显示方式;
显示处理子模块,用于通过所述前端显示接口以所述显示方式对所述查询结果进行显示。
5.一种查询处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1或2所述查询处理的方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1或2任一项所述查询处理的方法的步骤。
CN201811613634.9A 2018-12-27 2018-12-27 一种查询处理的方法、系统、设备及计算机可读存储介质 Active CN109697201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811613634.9A CN109697201B (zh) 2018-12-27 2018-12-27 一种查询处理的方法、系统、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811613634.9A CN109697201B (zh) 2018-12-27 2018-12-27 一种查询处理的方法、系统、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109697201A CN109697201A (zh) 2019-04-30
CN109697201B true CN109697201B (zh) 2020-12-04

Family

ID=66232920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811613634.9A Active CN109697201B (zh) 2018-12-27 2018-12-27 一种查询处理的方法、系统、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109697201B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699140B (zh) * 2019-10-23 2023-12-26 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN112035506A (zh) * 2019-10-28 2020-12-04 竹间智能科技(上海)有限公司 一种语义识别方法及其设备
CN111078216B (zh) * 2019-11-08 2023-06-02 泰康保险集团股份有限公司 信息展示方法、装置、电子设备及计算机可读介质
CN111666398A (zh) * 2020-06-17 2020-09-15 天津异乡好居网络科技有限公司 一种基于房源信息关键字搜索匹配的方法
CN111782653A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 数据查询方法、装置、电子设备及存储介质
CN113721896A (zh) * 2021-06-25 2021-11-30 中债金科信息技术有限公司 一种金融欺诈建模语言的优化处理方法及装置
CN116955403B (zh) * 2023-09-21 2023-12-26 北京四维纵横数据技术有限公司 无模式数据运算加速方法、装置、计算机设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092979A (zh) * 2013-01-31 2013-05-08 中国科学院对地观测与数字地球科学中心 遥感数据检索自然语言的处理方法及装置
CN103810275A (zh) * 2014-02-13 2014-05-21 清华大学 用于非关系与关系型数据库间数据交互的方法和装置
CN105389356A (zh) * 2015-11-04 2016-03-09 上海艺瓣文化传播有限公司 一种基于特征提取的音乐数据库检索系统
CN107704601A (zh) * 2017-10-13 2018-02-16 中国人民解放军第三军医大学第附属医院 大数据检索方法与系统、计算机存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092979A (zh) * 2013-01-31 2013-05-08 中国科学院对地观测与数字地球科学中心 遥感数据检索自然语言的处理方法及装置
CN103810275A (zh) * 2014-02-13 2014-05-21 清华大学 用于非关系与关系型数据库间数据交互的方法和装置
CN105389356A (zh) * 2015-11-04 2016-03-09 上海艺瓣文化传播有限公司 一种基于特征提取的音乐数据库检索系统
CN107704601A (zh) * 2017-10-13 2018-02-16 中国人民解放军第三军医大学第附属医院 大数据检索方法与系统、计算机存储介质及电子设备

Also Published As

Publication number Publication date
CN109697201A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN109697201B (zh) 一种查询处理的方法、系统、设备及计算机可读存储介质
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
US8671040B2 (en) Credit risk mining
US10067964B2 (en) System and method for analyzing popularity of one or more user defined topics among the big data
CN113342976B (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN109710742B (zh) 一种个股公告自然语言查询处理的方法、系统及设备
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN111382279A (zh) 审单方法和装置
US10146881B2 (en) Scalable processing of heterogeneous user-generated content
CN110942392A (zh) 一种业务数据处理方法、装置、设备和介质
CN113836314A (zh) 知识图谱构建方法、装置、设备以及存储介质
CN114492368A (zh) 一种ai投标自动评分方法、系统以及存储介质
CN112214505A (zh) 数据同步方法、装置、计算机可读存储介质及电子设备
US20180357227A1 (en) System and method for analyzing popularity of one or more user defined topics among the big data
CN112487181B (zh) 关键词确定方法和相关设备
CN111126073A (zh) 语义检索方法和装置
CN112487132A (zh) 关键词的确定方法和相关设备
US20200110769A1 (en) Machine learning (ml) based expansion of a data set
CN113239177B (zh) 知识点查询方法、装置、服务器、介质及产品
CN110909112B (zh) 数据提取方法、装置、终端设备及介质
CN114741392A (zh) 数据查询方法、装置、电子设备及存储介质
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
US11170164B2 (en) System and method for cell comparison between spreadsheets
CN110738538A (zh) 识别相似物品的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant