CN109710742B - 一种个股公告自然语言查询处理的方法、系统及设备 - Google Patents

一种个股公告自然语言查询处理的方法、系统及设备 Download PDF

Info

Publication number
CN109710742B
CN109710742B CN201811615557.0A CN201811615557A CN109710742B CN 109710742 B CN109710742 B CN 109710742B CN 201811615557 A CN201811615557 A CN 201811615557A CN 109710742 B CN109710742 B CN 109710742B
Authority
CN
China
Prior art keywords
natural language
language query
determining
query statement
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811615557.0A
Other languages
English (en)
Other versions
CN109710742A (zh
Inventor
赵岑
陈世敏
冯采
张小平
罗广超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811615557.0A priority Critical patent/CN109710742B/zh
Publication of CN109710742A publication Critical patent/CN109710742A/zh
Application granted granted Critical
Publication of CN109710742B publication Critical patent/CN109710742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种个股公告自然语言查询处理的方法,包括:接收输入的个股公告信息的自然语言查询语句;对该自然语言查询语句进行分词处理得到关键词组;根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分;将各组成部分按照预设规则转换为预设数据交换格式的文件。本申请使得数据库能够直接读取该预设数据交换格式的文件中的信息,并根据该信息确定查询条件信息,进而根据该查询条件信息对个股公告信息进行查询,提高了用户在对个股公告数据信息进行查询时的效率。本申请同时还提供了一种个股公告自然语言查询处理的系统、设备及计算机可读存储介质,具有上述有益效果。

Description

一种个股公告自然语言查询处理的方法、系统及设备
技术领域
本申请涉及信息转换领域,特别涉及一种个股公告自然语言查询处理的方法、系统、设备及计算机可读存储介质。
背景技术
个股公告是上市公司最权威、最及时的信息展示窗口,其内容很可能会对投资者判断公司基本面,产生重要影响。个股公告中往往包括各类精确、客观的数据信息,重要时间段及时间节点信息,很多事项的进展、运作、实施的前提条件等。
对于投资者来说,快速准确的获取到个股公告中的信息显得尤为重要,现有技术中用户通常通过输入关键字及查询条件查询数据库中的个股公告信息,系统根据接收到的关键字在数据库中进行匹配,将包括该关键字且满足该查询条件的所有数据信息进行输出。而随着互联网技术的发展,互联网上的信息量呈爆炸式增长,个股公告的数量太过庞大,这使得用户想查询到某一个或某一类个股公告信息时,需要输入多个关键字及查询条件,使得个股公告信息的查询过程较为复杂,且需要用户具有一定的数据库操作能力,查询效率较低。
因此,如何提高个股公告信息的查询效率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种个股公告自然语言查询处理的方法、系统、设备及计算机可读存储介质,用于提高个股公告信息的查询效率。
为解决上述技术问题,本申请提供一种个股公告自然语言查询处理的方法,该方法包括:
接收输入的自然语言查询语句;
对所述自然语言查询语句进行分词处理得到关键词组;
根据所述关键词组确定所述自然语言查询语句的类型,并根据所述自然语言查询语句的类型确定所述自然语言查询语句的各个组成部分;
将各所述组成部分按照预设规则转换为预设数据交换格式的文件;
获取所述预设数据交换格式的文件中的查询条件信息,并根据所述查询条件信息对个股公告信息进行查询。
可选的,对所述自然语言查询语句进行分词处理得到关键词组,包括:
对所述自然语言查询语句进行初始匹配,得到初始组成部分;
根据所述初始组成部分对预设类型进行筛选,确定所述自然语言查询语句的类型的初始范围;
调用句法分析工具对所述自然语言查询语句进行分词处理得到关键词组;
所述根据所述关键词组确定所述自然语言查询语句的类型,并确定所述自然语言查询语句的各个组成部分对应包括:
根据所述关键词组在所述初始范围内确定所述自然语言查询语句的类型;
根据所述自然语言查询语句的类型确定所述自然语言查询语句除所述初始组成部分之外的其它组成部分。
可选的,所述自然语言查询语句的组成部分包括事件时间、事件类型、标的物。
可选的,当所述自然语言查询语句的组成部分还包括事件属性时,确定所述自然语言查询语句的各个组成部分,包括:
获取数据库中记录的各事件属性组,并在所述自然语言查询语句中对各所述事件属性组进行匹配并评分;
确定评分最高的事件属性组为所述事件属性。
可选的,当所述自然语言查询语句的组成部分还包括事件过滤条件时,在确定评分最高的事件属性组为所述事件属性之后,还包括:
对所述自然语言查询语句进行句法分析得到第一分析结果;
根据所述第一分析结果确定所述事件属性的修饰词或所述事件属性的谓语及宾语为所述事件过滤条件。
可选的,确定所述自然语言查询语句的各个组成部分,包括:
获取所述数据库中记录的各预设标的物,并在所述自然语言查询语句中对各所述预设标的物进行匹配并评分;
确定评分最高的预设标的物为所述标的物。
可选的,当所述自然语言查询语句的组成部分还包括标的价格过滤条件及标的价格时间时,在确定评分最高的预设标的物为所述标的物之后,还包括:
对所述自然语言查询语句进行句法分析得到第二分析结果;
根据所述第二分析结果确定所述标的物的修饰词或所述标的物的谓语及宾语为所述标的价格过滤条件;
根据所述第二分析结果确定所述标的物的时间限制为所述标的价格时间。
本申请还提供一种个股公告自然语言查询处理的系统,该系统包括:
接收模块,用于接收输入的个股公告信息的自然语言查询语句;
分词模块,用于对所述自然语言查询语句进行分词处理得到关键词组;
确定模块,用于根据所述关键词组确定所述自然语言查询语句的类型,并根据所述自然语言查询语句的类型确定所述自然语言查询语句的各个组成部分;
转换模块,用于将各所述组成部分按照预设规则转换为预设数据交换格式的文件;
查询模块,用于获取所述预设数据交换格式的文件中的查询条件信息,并根据所述查询条件信息对个股公告信息进行查询。
本申请还提供一种个股公告自然语言查询处理设备,该个股公告自然语言查询处理设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述个股公告自然语言查询处理的方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述个股公告自然语言查询处理的方法的步骤。
本申请所提供个股公告自然语言查询处理的方法,包括:接收输入的个股公告信息的自然语言查询语句;对该自然语言查询语句进行分词处理得到关键词组;根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分;将各组成部分按照预设规则转换为预设数据交换格式的文件;获取预设数据交换格式的文件中的查询条件信息,并根据查询条件信息对个股公告信息进行查询。
本申请所提供的技术方案,通过先对接收到的自然语言查询语句进行分词处理得到关键词组,再根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分,最后将各组成部分按照预设规则转换为预设数据交换格式的文件,使得数据库能够直接读取该预设数据交换格式的文件中的信息,并根据该信息确定查询条件信息,进而根据该查询条件信息对个股公告信息进行查询,不需要用户自行输入多个关键字及查询条件,仅需输入正常的自然查询语言即可,降低了对用户的要求,同时提高了用户在对个股公告数据信息进行查询时的效率。本申请同时还提供了一种个股公告自然语言查询处理的系统、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种个股公告自然语言查询处理的方法的流程图;
图2为图1所提供的一种个股公告自然语言查询处理的方法中S102的一种实际表现方式的流程图;
图3为图1所提供的一种个股公告自然语言查询处理的方法中S103的第一种实际表现方式的流程图;
图4为图1所提供的一种个股公告自然语言查询处理的方法中S103的第二种实际表现方式的流程图;
图5为图1所提供的一种个股公告自然语言查询处理的方法中S103的第三种实际表现方式的流程图;
图6为图1所提供的一种个股公告自然语言查询处理的方法中S103的第四种实际表现方式的流程图;
图7为图1所提供的一种个股公告自然语言查询处理的方法中S103的第五种实际表现方式的流程图;
图8为本申请实施例所提供的一种个股公告自然语言查询处理的系统的结构图;
图9为本申请实施例所提供的另一种个股公告自然语言查询处理的系统的结构图;
图10为本申请实施例所提供的一种个股公告自然语言查询处理设备的结构图。
具体实施方式
本申请的核心是提供一种个股公告自然语言查询处理的方法、系统、设备及计算机可读存储介质,用于提高个股公告数据信息的查询效率。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种个股公告自然语言查询处理的方法的流程图。
其具体包括如下步骤:
S101:接收输入的自然语言查询语句;
基于互联网上的信息量呈爆炸式增长,个股公告的数量太过庞大,使得用户想查询到某一个或某一类个股公告信息时,需要输入多个关键字及查询条件,使得个股公告信息的查询过程较为复杂,且需要用户具有一定的数据库操作能力,查询效率较低;
本申请提供了一种个股公告自然语言查询处理的方法,通过对接收到的自然语言查询语句进行处理,使得数据块可直接读取该预设数据交换格式的文件中的信息,并根据该信息确定查询条件信息,进而根据该查询条件信息对个股公告信息进行查询,提高个股公告信息的查询效率;
这里提到的自然语言查询语句即为自然语言的查询语句,例如,用户可直接将“去年各个行业业绩预告状况”、“今年化工原料行业发布业绩预亏超过50%的公司在首个交易日内股价的变动”等查询语句输入到系统中便可进行个股公告信息的查询。
S102:对该自然语言查询语句进行分词处理得到关键词组;
这里提到的对该自然语言查询语句进行分词处理得到关键词组,其具体可以通过语言云中文句法分析工具对自然语言查询语句进行分词、词性标注、命名实体识别,然后再进行句法分析获得所有词之间的依赖关系,最后通过语义角色分析获取时间部分表述的范围识别,比如在“2018年上半年哪些公司业绩预盈”中,直接分析得出“2018年上半年”是时间成分;
可选的,为提高分词处理的精度,这里提到的对该自然语言查询语句进行分词处理得到关键词组,其具体也可以预先设置各项自然语言查询语句的组成部分的表述类型词典,再根据该表述类型词典对该自然语言查询语句进行匹配进而确定关键词组,例如,针对于事件时间来说,可以预先将“本周、这周、上周、上一周、(过去,近,这)X周、XXXX年前XX季度、XXXX年第XX季度、(今,去,前)年第XX季度、(过去,近)XX个季度、XXXX年XX月XX日、(今,前,去)年XX月XX日、XXXX年前XX个月、XXXX年XX月、(今,去,前)年XX月、(过去,近,这)XX月、这个月、本月、上个月、XXXX上(下)半年、XXXX年来、今年、去年、前年、XXXX年、(过去,近,这)XX年、今天、昨天”等表述方式收录到事件时间表述辞典中,然后再对接收到的自然语言查询语句进行匹配确定事件时间。
S103:根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分;
本申请预先定义了自然语言查询语句的类型,当接收到自然语言查询语句时根据分词得到的关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分;
这里提到的自然语言查询语句的组成部分可以包括事件时间、事件类型、事件属性、事件过滤条件、标的物、标的价格时间、标的价格过滤条件、标的筛选条件,其中事件时间、事件类型、标的物为必有项,其余组成成分允许省略;其中,事件时间表明事件发生的时间范围;事件即为常见的金融事件,事件过滤条件即为事件的某个属性和取值,标的物为个股、公司等,标的价格时间为标明价格变动的时间范围,标的价格过滤条件为价格比较的表述,例如:上涨超过5%,标的筛选条件为标的所在的行业、概念、板块。
优选的,这里提到的自然语言查询语句的类型可以包括如下所示的10种类型:
语义类型1为根据单一事件问单只个股,当接收到类型为语义类型1的自然语言查询语句时,输出股票列表(包含事件和基本股价信息)。
Figure BDA0001925751280000071
表1
Figure BDA0001925751280000072
Figure BDA0001925751280000081
表2
以上述二表为例,表1第一行为接收到的自然语言查询语句,为“今年化工原料行业业绩预亏超过30%在首个交易日内上涨超过5%的公司有哪些”,表1第二行为对该自然语言查询语句进行分词处理得到关键词组“今年”、“业绩预亏”和“的公司”
表2第一行为语义类型1的各项组成部分及其之间的顺序,表2第二为然后根据该关键词组确定该自然语言查询语句的类型为语义类型1,此时根据语义类型1确定该自然语言查询语句的各个组成部分,即确定事件时间为今年,确定句式为有哪些,确定标的过滤条件为化工原料行业,确定标的为个股,确定事件为业绩预亏,确定事件过滤条件为超过30%,确定标的价格时间为在首个交易日内,确定标的价格过滤条件为上涨超过5%。
可选的,当接收到如表3所示语义类型的自然语言查询语句时,输出该事件股票的当日或者近日的交易数据(事件+个股)。
事件时间 句式 事件
2016/1/1以来 发生了哪些 重大资产重组
去年 都有哪些 重大资产重组事件
2017年 哪些 重大资产重组失败
表3
语义类型2为根据单一事件问所有行业,当接收到类型为语义类型2的自然语言查询语句时,可以输出行业柱状图,进一步可以输出行业股票列表和行业股票涨跌饼图,语义类型2的各项组成部分及其之间的顺序如表4、表5及表6所示。
Figure BDA0001925751280000082
Figure BDA0001925751280000091
表4
Figure BDA0001925751280000092
表5
事件时间 事件 句式 标的过滤条件
2017年 重大资产重组 都发生在哪些 行业
表6
语义类型3为根据单一事件问单一个股,当接收到类型为语义类型3的自然语言查询语句时,可以列表显示个股,并输出柱状图显示个股排序后的涨跌幅,语义类型3的各项组成部分及其之间的顺序如表7所示。
Figure BDA0001925751280000093
Figure BDA0001925751280000101
表7
语义类型4为根据单一行业单一事件对所有公司,当接收到类型为语义类型4的自然语言查询语句时,可以输出所有符合条件公司的股价统计信息,并输出折线图对比显示个股,语义类型4的各项组成部分及其之间的顺序如表8、表9及表10所示。
Figure BDA0001925751280000102
表8
Figure BDA0001925751280000103
表9
Figure BDA0001925751280000104
Figure BDA0001925751280000111
表10
语义类型5为根据单一股票单一事件得到股票价格变动,当接收到类型为语义类型5的自然语言查询语句时,可以输出折线图以反映出股票和某特定指数的价格变动,语义类型5的各项组成部分及其之间的顺序如表11所示。
Figure BDA0001925751280000112
表11
语义类型6为查询多个领域在某个事件上的状况,语义类型6的各项组成部分及其之间的顺序如表12所示。
标的 句式1 事件 句式2
去年 各个行业 业绩预告 状况
表12
语义类型7为查询某个事件之后标的数量变化,语义类型7的各项组成部分及其之间的顺序如表13所示。
Figure BDA0001925751280000113
表13
语义类型8为查询某些事件频繁发生的标的,语义类型8的各项组成部分及其之间的顺序如表14所示。
句式1 事件 标的 句式2
多次/频繁 增发 的公司 有哪些
表14
语义类型9为查询事件对标的影响排序,语义类型9的各项组成部分及其之间的顺序如表15所示。
事件 句式1 标的 句式2
增发 对哪个行业 的公司 影响最大
表15
语义类型10为查询某个特定领域在某事件之后的状况,语义类型10的各项组成部分及其之间的顺序如表16所示。
事件时间 标的筛选条件 事件 句式1
近10年 软件行业 业绩预告 预告状况
表16S104:将各组成部分按照预设规则转换为预设数据交换格式的文件;
在确定该自然语言查询语句的各个组成部分之后,将各组成部分按照预设规则转换为预设数据交换格式的文件,以使数据库能够直接读取该预设数据交换格式的文件中的信息,并根据该信息确定查询条件信息,进而根据该查询条件信息对个股公告信息进行查询;
这里提到的预设数据交换格式具体可以为xml格式、json格式、yaml格式中的至少一项;
可选的,以预设数据交换格式为json格式为例,在确定该自然语言查询语句的各个组成部分之后,可以通过正则匹配的方式,将该自然语言查询语句的各个组成部分按照预设规则,逐一转化为数字,存到输出的json结构中,在这个功能中,支持汉字或阿拉伯数字表述,所有的数字表述都可以转换为阿拉伯数字,例如,该预设规则可以为:
Figure BDA0001925751280000131
Figure BDA0001925751280000141
Figure BDA0001925751280000151
Figure BDA0001925751280000161
Figure BDA0001925751280000171
由此可见,本申请通过可以通过正则匹配的方式,将该自然语言查询语句的各个组成部分按照预设规则,逐一转化为数字,存到输出的json结构中,数据库能够根据event.txt文件及json结构确定查询条件信息对个股公告信息进行查询,实现了根据输入的自然语言查询语句对个股公告信息进行查询的目的。
S105:获取该预设数据交换格式的文件中的查询条件信息,并根据该查询条件信息对个股公告信息进行查询。
基于上述技术方案,本申请所提供的一种个股公告自然语言查询处理的方法,通过先对接收到的自然语言查询语句进行分词处理得到关键词组,再根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分,最后将各组成部分按照预设规则转换为预设数据交换格式的文件,使得数据库能够直接读取该预设数据交换格式的文件中的信息,并根据该信息确定查询条件信息,进而根据该查询条件信息对个股公告信息进行查询,不需要用户自行输入多个关键字及查询条件,仅需输入正常的自然查询语言即可,降低了对用户的要求,同时提高了用户在对个股公告数据信息进行查询时的效率。
针对于上一实施例的步骤S102,其中所描述的对该自然语言查询语句进行分词处理得到关键词组,其具体也可以包括如图2所示的步骤。
请参考图2,图2为图1所提供的一种个股公告自然语言查询处理的方法中S102的一种实际表现方式的流程图。
其具体包括以下步骤:
S201:对自然语言查询语句进行初始匹配,得到初始组成部分;
S202:根据初始组成部分对预设类型进行筛选,确定自然语言查询语句的类型的初始范围;
S203:调用句法分析工具对自然语言查询语句进行分词处理得到关键词组。
本申请实施例先对自然语言查询语句进行初始匹配,得到初始组成部分,再根据初始组成部分对预设类型进行筛选,确定自然语言查询语句的类型的初始范围,最后调用句法分析工具对自然语言查询语句进行分词处理得到关键词组,进一步的提高了分词处理的精度。
在此基础上,上述实施例中步骤S103提到的,根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分,对应可以包括如图3所示的步骤。
请参考图3,图3为图1所提供的一种个股公告自然语言查询处理的方法中S103的第一种实际表现方式的流程图。
其具体包括以下步骤:
S301:根据关键词组在初始范围内确定自然语言查询语句的类型;
S302:根据自然语言查询语句的类型确定自然语言查询语句除初始组成部分之外的其它组成部分。
本申请实施例在确定了自然语言查询语句的初始组成部分及其类型的初始范围的情况下,先根据关键词组在初始范围内确定自然语言查询语句的类型,再根据自然语言查询语句的类型确定自然语言查询语句除初始组成部分之外的其它组成部分,进一步的提高了自然语言查询语句的各个组成部分的确定精度。
基于上一实施例的步骤S103,当该自然语言查询语句的组成部分还包括事件属性时,其中所描述的根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分,其具体也可以包括如图4所示的步骤。
请参考图4,图4为图1所提供的一种个股公告自然语言查询处理的方法中S103的第二种实际表现方式的流程图。
其具体包括以下步骤:
S401:获取数据库中记录的各事件属性组,并在自然语言查询语句中对各事件属性组进行匹配并评分;
S402:确定评分最高的事件属性组为事件属性。
这里提到的评分的准则具体可以为f1score值,即综合了准确率和召回率的指标,例如,在业绩预告事件中有预盈这个属性,则将“业绩预告预盈”作为子句在自然语言查询语句中进行匹配,得出一个对于这个“事件-属性”对的最高评分,对所有的搭配都进行一次评分,得出最佳搭配和最佳位置。在“2018年业绩预盈的公司有哪些?”语句中获得最高评分,并且能够找出“业绩预盈”。
针对于事件属性,本申请实施例先获取数据库中记录的各事件属性组,并在自然语言查询语句中对各事件属性组进行匹配并评分;再确定评分最高的事件属性组为事件属性,提高了事件属性的确定精度。
进一步的,当该自然语言查询语句的组成部分还包括事件过滤条件时,在确定评分最高的事件属性组为事件属性之后,还可以包括如图5所示的内容,请参考图5,图5为图1所提供的一种个股公告自然语言查询处理的方法中S103的第三种实际表现方式的流程图。
其具体包括以下步骤:
S501:对自然语言查询语句进行句法分析得到第一分析结果;
S502:根据第一分析结果确定事件属性的修饰词或事件属性的谓语及宾语为事件过滤条件。
在确定事件属性的情况下,还可以对自然语言查询语句进行句法分析得到第一分析结果,并根据第一分析结果确定事件属性的修饰词或事件属性的谓语及宾语为事件过滤条件,例如:将“超过10%”确定为事件过滤条件。
基于上一实施例的步骤S103,针对于标的物,其中所描述的根据该关键词组确定该自然语言查询语句的类型,并根据该自然语言查询语句的类型确定该自然语言查询语句的各个组成部分,其具体也可以包括如图6所示的步骤。
请参考图6,图6为图1所提供的一种个股公告自然语言查询处理的方法中S103的第四种实际表现方式的流程图。
其具体包括以下步骤:
S601:获取数据库中记录的各预设标的物,并在自然语言查询语句中对各预设标的物进行匹配并评分;
S602:确定评分最高的预设标的物为标的物。
进一步的,当该自然语言查询语句的组成部分还包括标的价格过滤条件及标的价格时间时,在确定评分最高的预设标的物为标的物之后,还可以包括如图7所示的内容,请参考图7,图7为图1所提供的一种个股公告自然语言查询处理的方法中S103的第五种实际表现方式的流程图。
其具体包括以下步骤:
S701:对自然语言查询语句进行句法分析得到第二分析结果;
S702:根据第二分析结果确定标的物的修饰词或标的物的谓语及宾语为标的价格过滤条件;
S703:根据所述第二分析结果确定标的物的时间限制为标的价格时间。
在确定评分最高的预设标的物为标的物之后,还可以通过正则匹配的方式确定标的价格时间:
以“XXX个交易日(月,季度)”等字眼为关键字进行匹配,对于某些特定句式,就以实际位置查找,例如在“今年发布业绩预亏超过10%,在首个交易日哪些公司上涨最多?”句式中,直接将事件过滤条件和标的中间的部分,即直接将“在首个交易日内”抽取出来作为价格时间。
进一步的,在确定评分最高的预设标的物为标的物之后,还可以通过关键词加数据匹配的方式确定标的筛选条件,这里提到的关键词指的是“行业”、“概念”、“板块”等字眼,在数据中所有出现的筛选条件中进行逐一匹配,进而确定标的筛选条件。
请参考图8,图8为本申请实施例所提供的一种个股公告自然语言查询处理的系统的结构图。
该系统可以包括:
接收模块100,用于接收输入的个股公告信息的自然语言查询语句;
分词模块200,用于对自然语言查询语句进行分词处理得到关键词组;
确定模块300,用于根据关键词组确定自然语言查询语句的类型,并根据自然语言查询语句的类型确定自然语言查询语句的各个组成部分;
转换模块400,用于将各组成部分按照预设规则转换为预设数据交换格式的文件;
查询模块500,用于获取预设数据交换格式的文件中的查询条件信息,并根据查询条件信息对个股公告信息进行查询。
请参考图9,图9为本申请实施例所提供的另一种个股公告自然语言查询处理的系统的结构图。
该分词模块200可以包括:
初始匹配子模块,用于对自然语言查询语句进行初始匹配,得到初始组成部分;
筛选子模块,用于根据初始组成部分对预设类型进行筛选,确定自然语言查询语句的类型的初始范围;
调用子模块,用于调用句法分析工具对自然语言查询语句进行分词处理得到关键词组;
该确定模块300对应可以包括:
第一确定子模块,用于根据关键词组在初始范围内确定自然语言查询语句的类型;
第二确定子模块,用于根据自然语言查询语句的类型确定自然语言查询语句除初始组成部分之外的其它组成部分。
进一步的,该确定模块300可以包括:
第一获取子模块,用于当自然语言查询语句的组成部分还包括事件属性时,获取数据库中记录的各事件属性组,并在自然语言查询语句中对各事件属性组进行匹配并评分;
第三确定子模块,用于确定评分最高的事件属性组为事件属性。
该确定模块300还可以包括:
第一分析子模块,用于当自然语言查询语句的组成部分还包括事件过滤条件时,对自然语言查询语句进行句法分析得到第一分析结果;
第四确定子模块,用于根据第一分析结果确定事件属性的修饰词或事件属性的谓语及宾语为事件过滤条件。
进一步的,该确定模块300可以包括:
第二获取子模块,用于获取数据库中记录的各预设标的物,并在自然语言查询语句中对各预设标的物进行匹配并评分;
第五确定子模块,用于确定评分最高的预设标的物为标的物。
该确定模块300还可以包括:
第二分析子模块,用于当自然语言查询语句的组成部分还包括标的价格过滤条件及标的价格时间时,对自然语言查询语句进行句法分析得到第二分析结果;
第六确定子模块,用于根据第二分析结果确定标的物的修饰词或标的物的谓语及宾语为标的价格过滤条件;
第七确定子模块,用于根据第二分析结果确定标的物的时间限制为标的价格时间。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图10,图10为本申请实施例所提供的一种个股公告自然语言查询处理设备的结构图。
该个股公告自然语言查询处理设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对装置中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在个股公告自然语言查询处理设备1000上执行存储介质1030中的一系列指令操作。
个股公告自然语言查询处理设备1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1至图7所描述的个股公告自然语言查询处理的方法中的步骤由个股公告自然语言查询处理设备基于该图10所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种个股公告自然语言查询处理的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种个股公告自然语言查询处理的方法,其特征在于,包括:
接收输入的自然语言查询语句;
对所述自然语言查询语句进行分词处理得到关键词组;
根据所述关键词组确定所述自然语言查询语句的类型,并根据所述自然语言查询语句的类型确定所述自然语言查询语句的各个组成部分;
将各所述组成部分按照预设规则转换为预设数据交换格式的文件;
获取所述预设数据交换格式的文件中的查询条件信息,并根据所述查询条件信息对个股公告信息进行查询;
其中,对所述自然语言查询语句进行分词处理得到关键词组,包括:
对所述自然语言查询语句进行初始匹配,得到初始组成部分;
根据所述初始组成部分对预设类型进行筛选,确定所述自然语言查询语句的类型的初始范围;
调用句法分析工具对所述自然语言查询语句进行分词处理得到关键词组;
所述根据所述关键词组确定所述自然语言查询语句的类型,并确定所述自然语言查询语句的各个组成部分对应包括:
根据所述关键词组在所述初始范围内确定所述自然语言查询语句的类型;
根据所述自然语言查询语句的类型确定所述自然语言查询语句除所述初始组成部分之外的其它组成部分。
2.根据权利要求1所述的方法,其特征在于,所述自然语言查询语句的组成部分包括事件时间、事件类型、标的物。
3.根据权利要求2所述的方法,其特征在于,当所述自然语言查询语句的组成部分还包括事件属性时,确定所述自然语言查询语句的各个组成部分,包括:
获取数据库中记录的各事件属性组,并在所述自然语言查询语句中对各所述事件属性组进行匹配并评分;
确定评分最高的事件属性组为所述事件属性。
4.根据权利要求3所述的方法,其特征在于,当所述自然语言查询语句的组成部分还包括事件过滤条件时,在确定评分最高的事件属性组为所述事件属性之后,还包括:
对所述自然语言查询语句进行句法分析得到第一分析结果;
根据所述第一分析结果确定所述事件属性的修饰词或所述事件属性的谓语及宾语为所述事件过滤条件。
5.根据权利要求2所述的方法,其特征在于,确定所述自然语言查询语句的各个组成部分,包括:
获取数据库中记录的各预设标的物,并在所述自然语言查询语句中对各所述预设标的物进行匹配并评分;
确定评分最高的预设标的物为所述标的物。
6.根据权利要求5所述的方法,其特征在于,当所述自然语言查询语句的组成部分还包括标的价格过滤条件及标的价格时间时,在确定评分最高的预设标的物为所述标的物之后,还包括:
对所述自然语言查询语句进行句法分析得到第二分析结果;
根据所述第二分析结果确定所述标的物的修饰词或所述标的物的谓语及宾语为所述标的价格过滤条件;
根据所述第二分析结果确定所述标的物的时间限制为所述标的价格时间。
7.一种个股公告自然语言查询处理的系统,其特征在于,包括:
接收模块,用于接收输入的个股公告信息的自然语言查询语句;
分词模块,用于对所述自然语言查询语句进行分词处理得到关键词组;
确定模块,用于根据所述关键词组确定所述自然语言查询语句的类型,并根据所述自然语言查询语句的类型确定所述自然语言查询语句的各个组成部分;
转换模块,用于将各所述组成部分按照预设规则转换为预设数据交换格式的文件;
查询模块,用于获取所述预设数据交换格式的文件中的查询条件信息,并根据所述查询条件信息对个股公告信息进行查询;
其中,所述分词模块包括:
初始匹配子模块,用于对所述自然语言查询语句进行初始匹配,得到初始组成部分;
筛选子模块,用于根据所述初始组成部分对预设类型进行筛选,确定所述自然语言查询语句的类型的初始范围;
调用子模块,调用句法分析工具对所述自然语言查询语句进行分词处理得到关键词组;
所述确定模块对应包括:
第一确定子模块,用于根据所述关键词组在所述初始范围内确定所述自然语言查询语句的类型;
第二确定子模块,用于根据所述自然语言查询语句的类型确定所述自然语言查询语句除所述初始组成部分之外的其它组成部分。
8.一种个股公告自然语言查询处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述个股公告自然语言查询处理的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述个股公告自然语言查询处理的方法的步骤。
CN201811615557.0A 2018-12-27 2018-12-27 一种个股公告自然语言查询处理的方法、系统及设备 Active CN109710742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811615557.0A CN109710742B (zh) 2018-12-27 2018-12-27 一种个股公告自然语言查询处理的方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811615557.0A CN109710742B (zh) 2018-12-27 2018-12-27 一种个股公告自然语言查询处理的方法、系统及设备

Publications (2)

Publication Number Publication Date
CN109710742A CN109710742A (zh) 2019-05-03
CN109710742B true CN109710742B (zh) 2021-01-01

Family

ID=66258743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811615557.0A Active CN109710742B (zh) 2018-12-27 2018-12-27 一种个股公告自然语言查询处理的方法、系统及设备

Country Status (1)

Country Link
CN (1) CN109710742B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516157B (zh) * 2019-08-30 2022-04-01 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN110837545A (zh) * 2019-11-13 2020-02-25 贵州医渡云技术有限公司 交互式数据分析方法、装置、介质及电子设备
CN111353314A (zh) * 2020-02-28 2020-06-30 长沙千博信息技术有限公司 一种用于动漫生成的故事文本语义分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646032A (zh) * 2013-11-11 2014-03-19 漆桂林 一种基于本体和受限自然语言处理的数据库查询方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880645B (zh) * 2012-08-24 2015-12-16 上海云叟网络科技有限公司 语义化的智能搜索方法
KR101661198B1 (ko) * 2014-07-10 2016-10-04 네이버 주식회사 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
CN104657439B (zh) * 2015-01-30 2019-12-13 欧阳江 用于自然语言精准检索的结构化查询语句生成系统及方法
CN108959264A (zh) * 2018-07-11 2018-12-07 郑州云海信息技术有限公司 非法网页的判断方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646032A (zh) * 2013-11-11 2014-03-19 漆桂林 一种基于本体和受限自然语言处理的数据库查询方法

Also Published As

Publication number Publication date
CN109710742A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109697201B (zh) 一种查询处理的方法、系统、设备及计算机可读存储介质
US8671040B2 (en) Credit risk mining
Rosenberg et al. V-measure: A conditional entropy-based external cluster evaluation measure
JP5936698B2 (ja) 単語意味関係抽出装置
CN109710742B (zh) 一种个股公告自然语言查询处理的方法、系统及设备
CN103377239B (zh) 计算文本间相似度的方法和装置
US20140067363A1 (en) Contextually blind data conversion using indexed string matching
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
WO2014035539A1 (en) Contextually blind data conversion using indexed string matching
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
US20060026204A1 (en) System and method for automatic terminology discovery
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
CN113239177B (zh) 知识点查询方法、装置、服务器、介质及产品
CN112487181B (zh) 关键词确定方法和相关设备
CN109992647B (zh) 一种内容搜索方法及装置
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN112487132A (zh) 关键词的确定方法和相关设备
CN111126073A (zh) 语义检索方法和装置
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Demmen et al. Charting the semantics of labour relations in House of Commons debates spanning two hundred years
CN115712715A (zh) 问答方法、装置、电子设备以及存储介质进行介绍
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN113535938B (zh) 基于内容识别的标准数据构建方法、系统、设备及介质
JP2023072863A (ja) 情報処理装置、情報処理方法およびプログラム
CN114139798A (zh) 企业风险预测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant