CN112685475A - 报表查询方法、装置、计算机设备及存储介质 - Google Patents
报表查询方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112685475A CN112685475A CN202011621755.5A CN202011621755A CN112685475A CN 112685475 A CN112685475 A CN 112685475A CN 202011621755 A CN202011621755 A CN 202011621755A CN 112685475 A CN112685475 A CN 112685475A
- Authority
- CN
- China
- Prior art keywords
- report
- keyword
- result
- information
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000008859 change Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012508 change request Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 17
- 238000012790 confirmation Methods 0.000 abstract description 3
- 230000004048 modification Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000009960 carding Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002076 thermal analysis method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据查询领域,本发明公开了一种报表查询方法、装置、计算机设备及存储介质,所述方法包括:通过获取待查询报表信息;运用机械分词算法和MMSeg算法,通过关键字提取模型对获取的待查询报表信息进行分词和关键字识别处理,得到关键字结果;运用文本相似度算法,从报表数据库中查找到与关键字结果匹配的待处理报表;从报表数据库中获取与各待处理报表关联的属性信息;根据关键字结果和所有属性信息,通过报表展示模型对各待处理报表进行关联度分析,得到报表查询结果,并展示报表查询结果。本发明实现了自动识别出报表,无需人工解析、查找和打开报表确认,并快速查找到最新的报表,大大简化了报表查询流程,提升了报表查询的准确率。
Description
技术领域
本发明涉及大数据的数据查询领域,尤其涉及一种报表查询方法、装置、计算机设备及存储介质。
背景技术
随各个企业的发展,企业中涉及的业务越来越多,造成企业内部沉淀的报表、报表的维度和指标越来越多,而且报表的新增数量还随着企业的发展不断的增长,导致企业的报表数据量越来越多。
大多数企业会按照部门、业务种类等不同的规则对报表进行人工划分,建立不同的文件夹存放相关的报表,让用户尽可能快的查找到需要的报表,但是现有的技术方案中,存在以下局限性:
(1)新增报表时需要人工梳理规则,建立相应文件夹,并手工配置相应的目录;
(2)用户在查找报表时需要多层的目录查找;
(3)当用户只知道部分内容时,需要查找多个报表打开后进行查找,耗费人力;
(4)部分报表可能使用频度不高,存在使用旧版本报表的风险。
发明内容
本发明提供一种报表查询方法、装置、计算机设备及存储介质,实现了自动识别出与待查询报表信息匹配的报表,无需人工解析待查询报表信息,并快速查找到最新的报表,避免查找到旧版本的报表,减少了人工成本,提高了报表查询的效率,大大简化了报表查询流程,提升了报表查询的准确率。
一种报表查询方法,包括:
获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;
运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;
运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;
从所述报表数据库中获取与各所述待处理报表关联的属性信息;
根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
一种报表查询装置,包括:
输入模块,用于获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;
识别模块,用于运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;
查找模块,用于运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;
获取模块,用于从所述报表数据库中获取与各所述待处理报表关联的属性信息;
分析模块,用于根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述报表查询方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述报表查询方法的步骤。
本发明提供的报表查询方法、装置、计算机设备及存储介质,通过获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;从所述报表数据库中获取与各所述待处理报表关联的属性信息;根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
如此,本发明实现了通过获取待查询报表信息;运用机械分词算法和MMSeg算法,通过关键字提取模型对获取的所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的待处理报表;从所述报表数据库中获取与各所述待处理报表关联的属性信息;根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果,因此,实现了通过运用机械分词算法、MMSeg算法和文本相似度算法,提取出关键字结果及查询到与关键字结果匹配的待处理报表,并结合关键字结果和属性信息对各待处理报表进行关联度分析,最终输出报表查询结果并展示,能够准确地、快速地、科学地自动识别出与待查询报表信息匹配的报表,无需人工解析待查询报表信息,以及层层目录查找和打开报表确认,并快速查找到最新的报表,避免查找到旧版本的报表,减少了人工成本,提高了报表查询的效率,让报表查询更加智能化,大大简化了报表查询流程,提升了报表查询的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中报表查询方法的应用环境示意图;
图2是本发明一实施例中报表查询方法的流程图;
图3是本发明一实施例中报表查询方法的步骤S20的流程图;
图4是本发明一实施例中报表查询方法的步骤S202的流程图;
图5是本发明一实施例中报表查询方法的步骤S30的流程图;
图6是本发明一实施例中报表查询方法的步骤S302的流程图;
图7是本发明一实施例中报表查询装置的原理框图;
图8是本发明一实施例中报表查询装置的识别模块的原理框图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的报表查询方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种报表查询方法,其技术方案主要包括以下步骤S10-S50:
S10,获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中。
可理解地,所述待查询报表信息为用户输入的与需要查询的报表相关描述的信息,所述待查询报表信息的获取方式可以根据需求设定,比如获取待查询报表信息的方式可以通过对用户输入的语音进行语音识别之后获得,也可以通过对用户输入的笔记图片进行图像识别之后获得,将所述待查询报表信息输入至所述关键字提取模型,所述关键字提取模型为训练完成的模型,所述关键字提取模型能够识别出输入的所述待查询报表信息的关键字。
S20,运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果。
可理解地,所述机械分词算法为基于字符串匹配的分词方法,它是按照相邻字之间组成词语的策略将与待分析的词语对应的字符串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,则将该待分析的词语拆分出来,即从所述待查询报表信息中拆分出词语,其中,机械分词算法的匹配方法可以根据需求设定,可以按照扫描方向的不同,分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配,所述MMSeg算法为运用顺次经过消除歧义的四大规则进行拆分的算法,其中,顺次的四大规则分别为最大匹配规则、最大平均词语长度规则、词语长度的最小变化率规则和取对数总和最大的词组规则,其中,词语长度的最小变化率规则为标准差最小的规则,取对数总和最大的词组规则为计算词组中的所有单字词词频的自然对数,然后将得到的值相加,取总和最大的词组。
其中,所述分词的处理过程为运用所述机械分词算法和所述MMSeg算法对所述待查询报表信息拆分出若干个词语或者字的操作过程,所述关键字识别处理过程为对拆分后的若干词语或者字中提取关键字特征,根据提取的所述关键字特征识别出关键字的过程,提取所述关键字特征的方法可以根据需求设定,可以通过TextRank算法进行提取,也可以通过Word2Vec模型进行提取等等,所述关键字特征为与所有报表的关键字的特性相关的特征,通过所述关键字提取模型能够识别出所述待查询报表信息中的关键字,输出所述关键字结果,所述关键字结果包括多个关键字和与各所述关键字对应的预测值,所述关键字结果表征了所述待查询报表信息中包含的关键字。
在一实施例中,如图3所示,所述步骤S20中,即所述运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果,包括:
S201,运用所述机械分词算法和所述MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词处理,得到分词结果。
可理解地,所述机械分词算法为基于字符串匹配的分词方法,它是按照相邻字之间组成词语的策略将与待分析的词语对应的字符串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,则将该待分析的词语拆分出来,即从所述待查询报表信息中拆分出词语,其中,机械分词算法的匹配方法可以根据需求设定,可以按照扫描方向的不同,分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配,所述MMSeg算法为运用顺次经过消除歧义的四大规则进行拆分的算法,其中,顺次的四大规则分别为最大匹配规则、最大平均词语长度规则、词语长度的最小变化率规则和取对数总和最大的词组规则。
其中,所述分词的处理过程为运用所述机械分词算法和所述MMSeg算法对所述待查询报表信息拆分出若干个词语或者字的操作过程,通过所述关键字提取模型,对所述待查询报表信息进行分词处理后输出所述分词结果,所述分词结果为拆分成若干个词语或字。
S202,通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字。
可理解地,所述关键字特征提取的过程为对所述分词结果进行停用词去除处理,得到可选分词,并运用TextRank算法对可选分词进行词性标注,从而根据可选分词的词性标注与各预设关键字的距离,提取出各可选分词的关键字特征的过程,对提取到的各可选分词的关键字特征进行识别,识别出所述关键字。
所述关键字特征为与所有报表的关键字的特性相关的特征。
在一实施例中,如图4所示,所述步骤S202中,即所述通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字,包括:
S2021,通过所述关键字提取模型对所述分词结果进行停用词去除处理,得到可选分词。
可理解地,所述停用词去除处理为在所述分词结果中去除预设的停用词清单中包含的词语或者字的处理过程。
S2022,运用TextRank算法,通过所述关键字提取模型对所述可选分词进行词性标注,并对词性标注后的所述可选分词进行识别,识别出所述待查询报表信息中的关键字。
可理解地,所述TextRank算法为把文本拆分成词汇作为网络节点,组成词汇网络图模型,将词语间的相似关系看成是一种推荐或投票关系,使其可以计算每一个词语的重要性的算法,运用TextRank算法,通过所述关键字提取模型对所述可选分词进行词性标注,并对词性标注后的所述可选分词进行关键字特征识别,识别各所述可选分词的重要性,将排序后靠前预设值的可选分词作为关键字。
本发明实现了通过所述关键字提取模型对所述分词结果进行停用词去除处理,得到可选分词;运用TextRank算法,通过所述关键字提取模型对所述可选分词进行词性标注,并对词性标注后的所述可选分词进行识别,识别出所述待查询报表信息中的关键字,如此,实现了通过停用词去除处理和TextRank算法,自动从分词结果中识别出所述待查询报表信息中的关键字,提高了识别的准确性和可靠性。
S203,将识别出的所有所述关键字确定为所述关键字结果。
本发明实现了通过运用所述机械分词算法和所述MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词处理,得到分词结果;通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字;将识别出的所有所述关键字确定为所述关键字结果,如此,实现了运用机械分词算法和MMSeg算法,以及通过关键字特征提取,自动识别出所述待查询报表信息的关键字,得到关键字结果,无需人工解析待查询报表信息得到关键字,更加科学地、准确地识别出关键字,减少了人工成本,简化了报表查询的流程,提高了报表查询的效率。
S30,运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表。
可理解地,所述文本相似度算法为将两个文本进行词嵌入(word embeddings)转换处理,将处理后的两个文本进行相似度计算,得到两文本之间的相似度值。
其中,所述报表数据库存储了所有报表,一个所述报表与多个关键字关联标签关联,所述关键字关联标签表明了该报表包含的关键字和领域,所述领域可以包括报表维度和报表涉及指标,所述报表维度为报表所述的团队,所述报表涉及指标为报表中涉及到的相关指标,运用所述文本相似度算法,计算所述关键字结果和在所述报表数据库中的与各所述报表关联的所述关键字关联标签的相似度值,汇总与相同的所述报表关联的所述关键字关联标签和所述关键字结果的相似度值,并求和得到该报表与所述关键字结果匹配的相似度值之和,将与大于预设阈值的相似度值之和对应的所述报表确定为所述待处理报表,所述待处理报表为符合所述关键字结果的报表。
在一实施例中,如图5所示,所述步骤S30之前,即所述运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表之前,包括:
S301,接收到报表发布请求,获取所述报表发布请求中的报表发布信息;所述报表发布信息包括新增报表和与所述新增报表关联的多个第一关键字标签。
可理解地,在需将新增报表录入所述报表数据库时,触发所述报表发布请求,所述报表发布请求包含所述报表发布信息,所述报表发布信息包括新增报表和与所述新增报表关联的多个第一关键字标签,所述报表发布信息为与将新增的报表录入报表数据库相关的信息,所述新增报表为需要录入的新增的报表,所述第一关键字标签为人工对所述新增报表预先定义的关键字或者描述。
S302,通过关键字标签生成模型对所述新增报表进行扫描识别,得到多个第三关键字标签,并将各所述第三关键字标签与所述新增报表关联。
可理解地,所述关键字标签生成模型为训练完成的神经网络模型,所述关键字标签生成模型能够扫描识别出所述新增报表中的第三关键字标签,所述扫描识别过程为通过关键字标签生成模型对所述报表的报表名进行关键字特征及领域特征扫描,识别出第三关键字标签的扫描过程。
在一实施例中,如图6所示,所述步骤S302中,即所述通过关键字标签生成模型对所述报表进行扫描识别,得到多个第二关键字标签,包括:
S3021,通过生成子模型对所述报表的报表名进行关键字特征扫描,识别多个第二关键字标签;所述关键字标签生成模型包括所述生成子模型和领域识别子模型。
可理解地,所述关键字特征扫描为将所述报表名进行词义转换,将转换后的所述报表名的词义进行上下文扫描识别,识别出所述第二关键字标签。
S3022,通过所述领域识别子模型对所述报表进行领域特征扫描,识别出多个与所述报表对应的领域标签。
可理解地,所述领域特征扫描为扫描具有所述领域特征的文本内容,并提取出与其对应的领域标签,所述领域特征为与报表的领域相关的特征,所述领域可以包括报表维度和报表涉及指标。
S3023,将所有所述第二关键字标签和所有所述领域标签确定为所述第三关键字标签。
本发明实现了通过生成子模型对所述报表的报表名进行关键字特征扫描,识别多个第二关键字标签;通过所述领域识别子模型对所述报表进行领域特征扫描,识别出多个与所述报表对应的领域标签;将所有所述第二关键字标签和所有所述领域标签确定为所述第三关键字标签,如此,实现了通过关键字特征扫描和领域特征扫描,识别出第三关键字标签,多维度提取出第三关键字标签,提高了识别的准确性和可靠性。
S303,将与所述新增报表关联的所有所述第一关键字标签和所有所述第三关键字标签标记为与所述新增报表关联的关键字关联标签,同时创建与所述新增报表关联的初始的属性信息。
可理解地,与所述新增报表关联的所述关键字关联标签包括所有所述第一关键字标签和所有所述第三关键字标签,所述属性信息为记录与其关联的所述报表相关的属性的信息,所述属性信息可以记录各个报表热度的信息,比如属性信息包括访问次数、下载次数、访问时长、最近修改时间、报表地址信息等信息,创建与所述新增报表关联的初始的所述属性信息,即对所述新增报表的所述属性信息进行初始化,所述初始化为对属性信息包括的访问次数、下载次数、访问时长、最近修改时间、报表地址信息等信息设置初始值。
S304,将所述新增报表、与所述新增报表关联的所述关键字关联标签和所述属性信息存储至所述报表数据库中。
可理解地,将所述新增报表、所述关键字关联标签和所述属性信息一起存储至所述报表数据库中,存储的同时更新所述报表地址信息,其中,所述报表地址信息为所述新增报表的存储于报表数据库中的信息。
本发明实现了通过接收到报表发布请求,获取所述报表发布请求中的报表发布信息;所述报表发布信息包括新增报表和与所述新增报表关联的多个第一关键字标签;通过关键字标签生成模型对所述新增报表进行扫描识别,得到多个第三关键字标签,并将各所述第三关键字标签与所述新增报表关联;将与所述新增报表关联的所有所述第一关键字标签和所有所述第三关键字标签标记为与所述新增报表关联的关键字关联标签,同时创建与所述新增报表关联的初始的属性信息;将所述新增报表、与所述新增报表关联的所述关键字关联标签和所述属性信息存储至所述报表数据库中,如此,实现了通过获取报表发布信息,以及通过关键字标签生成模型对所述新增报表进行扫描识别出第三关键字标签,从而将第一关键字标签和第三关键字标签标记为关键字关联标签,创建属性信息,将新增报表、关键字关联标签和属性信息关联存储至报表数据库中,自动对新增报表生成关键字关联标签,以及创建属性信息,并关联储存至报表数据库,为后续通过关键字关联标签快速查询报表提供了要素,以及通过属性信息为后续关联度分析提供了基础。
S40,从所述报表数据库中获取与各所述待处理报表关联的属性信息。
可理解地,所述报表数据库中存储了与各所述报表关联的所述属性信息,所述属性信息为记录与其关联的所述报表相关的属性的信息,所述属性信息可以记录各个报表热度的信息,比如属性信息包括访问次数、下载次数、访问时长、最近修改时间、报表地址信息等信息。
S50,根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
可理解地,所述报表展示模型为通过识别出各所述待处理报表和所述关键字结果以及所述属性信息的关联度,得到与各所述待处理报表对应的最终关联值,按照最终关联度值由大到小的排序,并将排序后的所有所述待处理报表输出为所述报表查询结果,并且在应用程序界面上展示所述报表查询结果,以供用户通过点击所述报表查询结果中的待处理报表的名称之后,展现被点击的所述待处理报表,所述报表查询结果包括所述待处理报表和与其关联的所述属性信息。
其中,所述关联度分析为运用所述文本相似度算法,计算所述关键字结果中的所述关键字和与所述待处理报表关联的所述关键字关联标签的相似度值,得到与所述待处理报表和所述关键字对应的第一维度值,将与该所述关键字对应的预测值作为与所述待处理报表和所述关键字对应的第而维度值,对与该待处理报表关联的所有所述属性信息进行热度分析得到与与所述待处理报表和所述关键字对应的第三维度值,对与所述待处理报表和所述关键字对应的所述第一维度值、所述第二维度值和所述第三维度值进行加权处理,得到与所述待处理报表和所述关键字对应的关联度值,将与相同的所述待处理报表对应的所述关联度值进行求和,得到与该待处理报表对应的最终关联度值的分析过程,通过所述报表展示模型对所有所述待处理报表进行关联度分析后得到与各所述待处理报表一一对应的所述最终关联度值,对所有所述最终关联度值进行由大到小的顺序进行排序,将排序后的所有所述待处理报表确定为所述报表查询结果,所述热度分析为根据所述待处理报表的访问次数、下载次数、访问时长和最近修改时间进行综合评分,按照访问次数优于访问时长,访问时长优于下载次数,以及下载次数优于最近修改时间的评分机制,得到所述第三维度值。
本发明实现了通过获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;从所述报表数据库中获取与各所述待处理报表关联的属性信息;根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
如此,本发明实现了通过获取待查询报表信息;运用机械分词算法和MMSeg算法,通过关键字提取模型对获取的所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的待处理报表;从所述报表数据库中获取与各所述待处理报表关联的属性信息;根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果,因此,实现了通过运用机械分词算法、MMSeg算法和文本相似度算法,提取出关键字结果及查询到与关键字结果匹配的待处理报表,并结合关键字结果和属性信息对各待处理报表进行关联度分析,最终输出报表查询结果并展示,能够准确地、快速地、科学地自动识别出与待查询报表信息匹配的报表,无需人工解析待查询报表信息,以及层层目录查找和打开报表确认,并快速查找到最新的报表,避免查找到旧版本的报表,减少了人工成本,提高了报表查询的效率,让报表查询更加智能化,大大简化了报表查询流程,提升了报表查询的准确率。
在一实施例中,所述步骤S50之后,即所述展示所述报表查询结果之后,包括:
S60,检测到属性变更请求,获取所述属性变更请求中的与目标报表对应的属性变更信息;所述属性变更请求为在所述目标报表被执行操作之后触发生成;所述目标报表为在所述报表查询结果中被选取的一个报表。
可理解地,用户从所述报表查询结果中选取需要进行操作的报表,将被选取的该报表确定为所述目标报表,在选取所述目标报表之后进行执行操作,所述执行操作指对目标报表进行访问、修改、下载的操作,其中,所述访问为打开所述目标报表的操作,打开过程中会记录时间和访问时长,进行时间戳记录,以更新所述目标报表的访问次数和访问时长;所述修改包括对所述目标报表中的内容进行了修改,以及修改之后记录的时间,以更新所述目标报表以及报表修改时间,即最后一次的修改记录为其报表修改时间;所述下载为下载所述目标报表的内容,下载之后会记录其时间,以更新所述目标报表的下载次数,不断累积所述目标报表的被下载的次数。
其中,在所述目标报表被执行操作之后自动触发生成所述属性变更请求,所述属性变更请求包括与所述目标报表对应的属性变更信息,所述属性变更信息为修改所述目标报表中的内容的信息,比如目标报表中的某字段内容做了更改等。
S70,对所述属性变更信息进行解析,得到解析结果。
可理解地,所述解析为将所述属性变更信息拆分成各属性信息的维度的信息,并将其转换成SQL语句,将所有SQL语句进行汇总得到所述解析结果。
其中,所述解析结果为可执行的SQL语句的集合。
S80,执行所述解析结果,对所述报表数据库中的与所述目标报表对应的报表关联的所述属性信息进行更新。
可理解地,执行所述解析结果,以更改所述报表数据库中与所述目标报表对应的报表的内容,同时对与所述目标报表对应的报表关联的所述属性信息进行更新,即对访问次数、访问时长、下载次数和修改时间进行自动刷新。
本发明实现了通过检测到属性变更请求,获取所述属性变更请求中的与目标报表对应的属性变更信息;对所述属性变更信息进行解析,得到解析结果;执行所述解析结果,对所述报表数据库中的与所述目标报表对应的报表关联的所述属性信息进行更新,如此,能够在报表查询结果中被选取的目标报表中进行执行操作,自动生成属性变更信息,并解析出解析结果,执行解析结果能够完成对数据库中与目标报表对应的报表,同时对该报表的属性信息进行更新,简化了报表维护操作,以及提高了报表开发的效率,实现了即查即改的快捷操作。
在一实施例中,提供一种报表查询装置,该报表查询装置与上述实施例中报表查询方法一一对应。如图7所示,该报表查询装置包括输入模块11、识别模块12、查找模块13、获取模块14和分析模块15。各功能模块详细说明如下:
输入模块11,用于获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;
识别模块12,用于运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;
查找模块13,用于运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;
获取模块14,用于从所述报表数据库中获取与各所述待处理报表关联的属性信息;
分析模块15,用于根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
在一实施例中,如图8所示,所述识别模块12包括:
分词子模块21,用于运用所述机械分词算法和所述MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词处理,得到分词结果;
提取子模块22,用于通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字;
确定子模块23,用于将识别出的所有所述关键字确定为所述关键字结果。
关于报表查询装置的具体限定可以参见上文中对于报表查询方法的限定,在此不再赘述。上述报表查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种报表查询方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中报表查询方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中报表查询方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种报表查询方法,其特征在于,包括:
获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;
运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;
运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;
从所述报表数据库中获取与各所述待处理报表关联的属性信息;
根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
2.如权利要求1所述的报表查询方法,其特征在于,所述运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果,包括:
运用所述机械分词算法和所述MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词处理,得到分词结果;
通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字;
将识别出的所有所述关键字确定为所述关键字结果。
3.如权利要求2所述的报表查询方法,其特征在于,所述通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字,包括:
通过所述关键字提取模型对所述分词结果进行停用词去除处理,得到可选分词;
运用TextRank算法,通过所述关键字提取模型对所述可选分词进行词性标注,并对词性标注后的所述可选分词进行识别,识别出所述待查询报表信息中的关键字。
4.如权利要求1所述的报表查询方法,其特征在于,所述运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表之前,包括:
接收到报表发布请求,获取所述报表发布请求中的报表发布信息;所述报表发布信息包括新增报表和与所述新增报表关联的多个第一关键字标签;
通过关键字标签生成模型对所述新增报表进行扫描识别,得到多个第三关键字标签,并将各所述第三关键字标签与所述新增报表关联;
将与所述新增报表关联的所有所述第一关键字标签和所有所述第三关键字标签标记为与所述新增报表关联的关键字关联标签,同时创建与所述新增报表关联的初始的属性信息;
将所述新增报表、与所述新增报表关联的所述关键字关联标签和所述属性信息存储至所述报表数据库中。
5.如权利要求4所述的报表查询方法,其特征在于,所述所述通过关键字标签生成模型对所述报表进行扫描识别,得到多个第二关键字标签,包括:
通过生成子模型对所述报表的报表名进行关键字特征扫描,识别多个第二关键字标签;所述关键字标签生成模型包括所述生成子模型和领域识别子模型;
通过所述领域识别子模型对所述报表进行领域特征扫描,识别出多个与所述报表对应的领域标签;
将所有所述第二关键字标签和所有所述领域标签确定为所述第三关键字标签。
6.如权利要求1所述的报表查询方法,其特征在于,所述展示所述报表查询结果之后,包括:
检测到属性变更请求,获取所述属性变更请求中的与目标报表对应的属性变更信息;所述属性变更请求为在所述目标报表被执行操作之后触发生成;所述目标报表为在所述报表查询结果中被选取的一个报表;
对所述属性变更信息进行解析,得到解析结果;
执行所述解析结果,对所述报表数据库中的与所述目标报表对应的报表关联的所述属性信息进行更新。
7.一种报表查询装置,其特征在于,包括:
输入模块,用于获取待查询报表信息,并将所述待查询报表信息输入关键字提取模型中;
识别模块,用于运用机械分词算法和MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词和关键字识别处理,得到关键字结果;
查找模块,用于运用文本相似度算法,从报表数据库中查找到与所述关键字结果匹配的报表,将查询到的所述报表确定为待处理报表;
获取模块,用于从所述报表数据库中获取与各所述待处理报表关联的属性信息;
分析模块,用于根据所述关键字结果和所有所述属性信息,通过报表展示模型对各所述待处理报表进行关联度分析,得到报表查询结果,并展示所述报表查询结果。
8.如权利要求7所述的报表查询装置,其特征在于,所述识别模块包括:
分词子模块,用于运用所述机械分词算法和所述MMSeg算法,通过所述关键字提取模型对所述待查询报表信息进行分词处理,得到分词结果;
提取子模块,用于通过所述关键字提取模型对所述分词结果进行关键字特征提取,以及根据提取的所述关键字特征识别出所述待查询报表信息中的关键字;
确定子模块,用于将识别出的所有所述关键字确定为所述关键字结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述报表查询方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述报表查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011621755.5A CN112685475A (zh) | 2020-12-30 | 2020-12-30 | 报表查询方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011621755.5A CN112685475A (zh) | 2020-12-30 | 2020-12-30 | 报表查询方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685475A true CN112685475A (zh) | 2021-04-20 |
Family
ID=75453857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011621755.5A Pending CN112685475A (zh) | 2020-12-30 | 2020-12-30 | 报表查询方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685475A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140072A (zh) * | 2021-11-29 | 2022-03-04 | 国网福建省电力有限公司 | 一种变更签证模块装置 |
CN114661705A (zh) * | 2022-04-15 | 2022-06-24 | 广州双知网络科技有限公司 | 一种基于云计算的大数据分析系统 |
CN114756149A (zh) * | 2022-05-12 | 2022-07-15 | 北京达佳互联信息技术有限公司 | 呈现数据标签的方法、装置、电子设备及存储介质 |
CN115545783A (zh) * | 2022-10-12 | 2022-12-30 | 永道工程咨询有限公司 | 一种工程造价信息查询方法、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542956A (zh) * | 2018-10-17 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 报表生成方法、装置、计算机设备和存储介质 |
CN110362591A (zh) * | 2018-04-02 | 2019-10-22 | 北京神州泰岳软件股份有限公司 | 一种报表展现方法和装置 |
-
2020
- 2020-12-30 CN CN202011621755.5A patent/CN112685475A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362591A (zh) * | 2018-04-02 | 2019-10-22 | 北京神州泰岳软件股份有限公司 | 一种报表展现方法和装置 |
CN109542956A (zh) * | 2018-10-17 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 报表生成方法、装置、计算机设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140072A (zh) * | 2021-11-29 | 2022-03-04 | 国网福建省电力有限公司 | 一种变更签证模块装置 |
CN114661705A (zh) * | 2022-04-15 | 2022-06-24 | 广州双知网络科技有限公司 | 一种基于云计算的大数据分析系统 |
CN114756149A (zh) * | 2022-05-12 | 2022-07-15 | 北京达佳互联信息技术有限公司 | 呈现数据标签的方法、装置、电子设备及存储介质 |
CN114756149B (zh) * | 2022-05-12 | 2023-12-29 | 北京达佳互联信息技术有限公司 | 呈现数据标签的方法、装置、电子设备及存储介质 |
CN115545783A (zh) * | 2022-10-12 | 2022-12-30 | 永道工程咨询有限公司 | 一种工程造价信息查询方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765275B (zh) | 搜索方法、装置、计算机设备和存储介质 | |
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
US7912816B2 (en) | Adaptive archive data management | |
CN109829629B (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN109800307B (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN108345686B (zh) | 一种基于搜索引擎技术的数据分析方法及系统 | |
CN110674319A (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN111445968A (zh) | 电子病历查询方法、装置、计算机设备和存储介质 | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
CN111177405A (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN113128209B (zh) | 用于生成词库的方法及装置 | |
CN111782595A (zh) | 海量文件管理方法、装置、计算机设备和可读存储介质 | |
CN110597951A (zh) | 文本解析方法、装置、计算机设备和存储介质 | |
CN111737548A (zh) | 点选验证码识别方法、装置、计算机设备和存储介质 | |
CN113065018A (zh) | 一种音视频的索引库创建和检索方法、装置及电子设备 | |
CN111191105A (zh) | 政务信息的搜索方法、装置、系统、设备及存储介质 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
US20200089758A1 (en) | Systems and methods for automated document graphing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |