CN109542956A - 报表生成方法、装置、计算机设备和存储介质 - Google Patents
报表生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109542956A CN109542956A CN201811210013.6A CN201811210013A CN109542956A CN 109542956 A CN109542956 A CN 109542956A CN 201811210013 A CN201811210013 A CN 201811210013A CN 109542956 A CN109542956 A CN 109542956A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- report
- entry
- document
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种报表生成方法、装置、计算机设备和存储介质。基于语义识别的报表生成方法包括:监测报表检索事件;获取与报表检索事件对应的检索词条;通过已训练的意图识别模型对检索词条进行识别,得到与检索词条对应的检索范围、检索维度以及检索意图;按照检索范围、检索维度从数据源库中筛选出报表数据;对筛选出的报表数据按照检索意图进行统计汇总,得到统计数据;根据统计数据生成报表。采用本方法不用约束用户的输入即可生成匹配较高的报表。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种报表生成方法、装置、计算机设备和计算机可读存储介质。
背景技术
目前,市场上针对各行各业都配备有相应的大数据平台,这些平台可以根据用户的输入检索大量的数据并进行统计,还可以报表的形式将统计的结果可视化地呈现给用户,满足用户的数据分析需求。
然而,很多大数据平台为了能够得到与用户的输入匹配的分析结果,在平台中约束了用户的输入的格式,用户只能在平台中以固定的预设格式输入,不够灵活,又或者,在平台不约束用户的输入的格式时,得到的统计结果与用户随意的输入之间的匹配度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种不用约束用户的输入即可生成匹配较高的报表的报表生成方法、装置、计算机设备和存储介质。
一种报表生成方法,所述方法包括:
监测报表检索事件;
获取与所述报表检索事件对应的检索词条;
通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图;
按照所述检索范围、检索维度从数据源库中筛选出报表数据;
对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据;
根据所述统计数据生成报表。
在其中一个实施例中,还包括:
获取用户选定的业务场景类别;
所述按照所述检索范围、检索维度从数据源库中筛选出报表数据包括:
按照所述检索范围、检索维度,从与所述业务场景类别对应的数据源库中筛选出报表数据。
在其中一个实施例中,所述通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图包括:
对所述检索词条进行向量化处理,得到检索词条向量;
将所述检索词条向量输入至已训练的意图识别模型中,通过所述意图识别模型的隐藏层对所述检索词条向量进行处理,得到所述检索词条对应的检索词条编码向量;
通过所述意图识别模型的输出层对所述检索词条编码向量进行变换,得到与所述检索词条对应的检索范围、检索维度以及检索意图。
在其中一个实施例中,还包括:
获取从网络上爬取的文档集;
确定所述检索词条与所述文档集中每个文档之间的相关度;
从所述文档集中选取相关度符合预设条件的文档;
将选取的所述文档的文档标识展示在生成的报表中。
在其中一个实施例中,所述确定所述检索词条与所述文档集中每个文档之间的相关度包括:
统计所述文档集中每个文档所包含词语的词频;
按照所述词频确定每个文档对应的关键词集合;
计算所述检索词条中各个词语与各所述关键词集合的匹配度;
将各所述匹配度作为所述检索词条与每个文档之间的相关度。
在其中一个实施例中,所述确定所述检索词条与所述文档集中每个文档之间的相关度包括:
确定所述文档集中每个文档对应的摘要句子;
通过语义识别模型的输入层对所述检索词条和各所述摘要句子进行语义编码,得到所述检索词条对应的检索词条编码向量和各所述摘要句子对应的摘要句子编码向量;
将所述检索词条编码向量分别和各个所述检索词条编码向量进行拼接,得到多组拼接向量;
在所述语义识别模型的隐藏层中,分别对各所述拼接向量进行变换,得到各所述摘要句子对应的特征向量;
通过所述语义识别模型的输出层对各所述特征向量进行融合、归一化处理,得到每个文档与所述检索词条之间的相关度。
在其中一个实施例中,所述将选取的所述文档的文档标识展示在生成的报表中包括:
当识别出的所述检索维度为日期时,获取选取的所述文档的发布日期;
将选取的所述文档的文档名称展示在生成的报表中与所述发布日期对应的位置处。
一种报表生成装置,所述装置包括:
监测模块,用于监测报表检索事件;
获取模块,用于获取与所述报表检索事件对应的检索词条;
识别模块,用于通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图;
筛选模块,用于按照所述检索范围、检索维度从数据源库中筛选出报表数据;
统计模块,用于对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据;
生成模块,用于根据所述统计数据生成报表。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
监测报表检索事件;
获取与所述报表检索事件对应的检索词条;
通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图;
按照所述检索范围、检索维度从数据源库中筛选出报表数据;
对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据;
根据所述统计数据生成报表。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
监测报表检索事件;
获取与所述报表检索事件对应的检索词条;
通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图;
按照所述检索范围、检索维度从数据源库中筛选出报表数据;
对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据;
根据所述统计数据生成报表。
上述报表生成方法、装置、计算机设备和存储介质,在监测报表检索事件时,就获取与报表检索事件对应的检索词条,然后通过已训练的意图识别模型自动对检索词条进行识别,可以自动得到与检索词条对应的检索范围、检索维度以及检索意图,这样,就可以按照检索范围、检索维度从数据源库中筛选出与用户输入的检索词条匹配的报表数据,无需对用户输入的检索词条的格式进行约束即可准确地了解用户想要查询什么数据,十分灵活。在对筛选出的报表数据按照识别出的检索意图进行统计汇总,得到统计数据后,就可以根据统计数据生成与用户输入的检索词条匹配的报表。
附图说明
图1为一个实施例中报表生成方法的应用场景图;
图2为一个实施例中报表生成方法的流程示意图;
图3为一个实施例中报表数据检索平台的示意图;
图4为一个实施例中在生成的报表中展示文档标识的流程示意图;
图5为一个实施例中报表生成装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的报表生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102可实时监测报表检索事件,并在监测到报表检索事件时,获取与所述报表检索事件对应的检索词条。终端102可通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图。终端102还可按照所述检索范围、检索维度从服务器104对应的数据源库中筛选出报表数据,并对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据,根据所述统计数据生成报表。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现,还可以是提供云服务、云数据库、云存储等基础云计算服务的云服务器。
需要说明的是,上述的应用环境只是一个示例,在一些实施例中,终端102还可将获取的检索词条发送至服务器104,由服务器104通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图,并按照所述检索范围、检索维度从数据源库中筛选出报表数据,对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据,并将得到的统计数据反馈至终端102,最后由终端120根据统计数据生成报表并展示给用户。
在一个实施例中,如图2所示,提供了一种报表生成方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,监测报表检索事件。
其中,数据报表检索事件即触发生成报表的事件。报表是数据呈现的一种方式,通过以图表等较为直观的形式展示数据。在一个实施例中,终端可通过网页提供数据检索平台,监测用户在该平台中执行的操作而触发的报表检索事件。例如,报表检索事件可以是用户账号的成功登录事件,在用户通过已有的账户以及账户密码成功进入该数据检索平台后则自动触发报表检索事件,该自动触发的报表检索事件对应的检索词条可以是默认设置的,还可以是与该用户账号的画像特征对应的。报表检索事件还可以是检索触发事件,当用户点击检索图标时,触发报表检索事件。
步骤204,获取与报表检索事件对应的检索词条。
若报表检索事件是检索触发事件,比如,用户在搜索框中输入了要检索的内容后,点击检索图标触发了报表的生成,则终端可获取用户在搜索框中输入的内容,作为检索词条,如“上海男性借款人的学历如何分布?”。若报表检索事件是用户账号的成功登录事件,则终端可获取默认设置的检索词条,如“近半年贷款量的变化”,或者,终端可获取该用户账号的画像属性和行为特征,据以确定与该用户账号具备密切联系的检索词条,作为用户账号的成功登录事件对应的检索词条。
如图3所示,为一个实施例中报表数据检索平台的示意图。用户可在该平台提供的搜索框中输入检索词条后点击搜索按钮触发报表检索事件,生成与用户输入的检索词条对应的报表并展示给用户。
步骤206,通过已训练的意图识别模型对检索词条进行识别,得到与检索词条对应的检索范围、检索维度以及检索意图。
其中,检索范围可作为从数据源库存储的大量的数据中进行数据筛选的条件,也就是,待生成的报表所需的报表数据限定在该检索范围所限定的范围内,终端可从数据源库中按照检索范围筛选出待生成的报表所需的报表数据。检索维度可作为待生成的报表对筛选出的数据进行展示的展示维度,比如可以是待生成的报表的坐标轴中横轴的含义。检索维度也可用于限定筛选的范围,显然,待生成报表所需的报表数据包括字段名为检索维度对应的字段值。检索意图是数据在不同展示维度对应的值,比如可以是在不同展示维度的变化、对比、分布等。
例如,针对终端获取的检索词条“上海男性借款人的学历如何分布?”,通过意图识别模型进行识别得到相应的检索范围是“上海、男性”,检索维度是“学历”,检索意图是“借款人数在学历上的分布”。又比如,针对检索词条“上海、北京近期贷款量之间的差异”,通过意图识别模型进行识别得到相应的检索范围是“上海、北京”,检索维度是“近半年”,检索意图是“贷款金额的对比”。
具体地,终端可通过已训练的基于机器学习模型的意图识别模型对获取的检索词条进行识别,输出该检索词条对应的检索范围、检索维度以及检索意图。也就是,通过大量语料训练好的模型对用户输入的任意格式的检索词条进行识别,可以得到用户想要检索的数据属性,无需对用户输入的检索词条的格式进行限定。
需要说明的是,通过意图识别模型识别出的检索范围、检索维度和检索意图并不一定是检索词条中所包含的词语,比如,针对检索词条“上海男性借款人的学历如何分布?”以及检索词条“上海男性借款人的教育程度如何?”,识别出的检索维度均为“学历”,“学历”这一词包含在数据源库的数据表的字段名中。
在一个实施例中,步骤206,通过已训练的意图识别模型对检索词条进行识别,得到与检索词条对应的检索范围、检索维度以及检索意图包括:对检索词条进行向量化处理,得到检索词条向量;将检索词条向量输入至已训练的意图识别模型中,通过意图识别模型的隐藏层对检索词条向量进行处理,得到检索词条对应的检索词条编码向量;通过意图识别模型的输出层对检索词条编码向量进行变换,得到与检索词条对应的检索范围、检索维度以及检索意图。
其中,检索词条向量是检索词条的向量化表示。可对获取的检索词条进行分词处理,提取检索词条中的各个词,然后将各个词向量化,得到各个词的向量化表示,可基于各个词语的向量化表示得到检索词条向量,比如可以对检索词条中各个词对应的向量求平均值,得到检索词条向量。
终端可将检索词条向量输入至已训练的意图识别模型中,通过意图识别模型的隐藏层对检索词条向量进行处理,这里的处理包括线性变换处理和非线性变换处理,通过隐藏层中各层神经网络的模型参数对检索词条向量进行变换,可以得到检索词条编码向量,检索词条编码向量是对检索词条向量进行语义编码得到的向量,在语义层面上提取检索词条的信息有助于对检索词条的语义的理解。通过意图识别模型的输出层对检索词条编码向量进行变换,可以得到在范围层面上与该检索词条对应的检索范围、在维度层面上与该检索词条对应的检索维度以及在用户意图层面上与该检索词条对应的检索意图。
步骤208,按照检索范围、检索维度从数据源库中筛选出报表数据。
其中,数据源库中包括大量数据表,每个数据表都包括多个字段名和相应的字段值,终端可在识别出与用户输入的检索词条对应的检索范围、检索维度后,按照检索范围、检索维度从数据源库中筛选出待生成报表所需的报表数据。
具体地,终端可以根据识别出的检索范围、检索维度构造SQL查询语句,从数据源库中读取与识别出的检索范围、检索维度匹配的报表数据。在一个实施例中,终端还可获取该数据源库中可作为检索范围的字段名以及可作为检索维度的字段名,将识别出的检索范围与可作为检索范围的字段名的枚举值进行匹配,将识别出的检索维度与可作为检索维度的字段名的枚举值进行匹配,若能匹配上某个枚举值,说明数据源库中存在包括识别出的检索范围和检索维度的数据项,就可以按匹配的枚举值所对应的字段名对数据源库中的数据进行筛选,得到报表数据。
如下表1所示,为一个实施例中数据源库中包含的数据表的示意图。数据源库中包括大量的报表数据,下表仅用作示意说明。
姓名 | 性别 | 年龄 | 学历 | 地区 | 贷款金额 | 贷款时间 | 身份证号 |
张三 | 女 | 27 | 本科 | 上海 | 50000 | 2018/4/23 | 1XX |
李四 | 男 | 32 | 本科 | 深圳 | 60000 | 2018/5/24 | 2XX |
王五 | 男 | 25 | 大专 | 广州 | 23000 | 2018/5/25 | 3XX |
赵六 | 女 | 42 | 硕士 | 北京 | 32000 | 2018/6/26 | 4XX |
李红 | 男 | 23 | 高中 | 上海 | 50000 | 2018/7/27 | 5XX |
王小明 | 男 | 34 | 硕士 | 广州 | 12000 | 2018/8/28 | 6XX |
吴九 | 男 | 38 | 博士 | 北京 | 60000 | 2018/9/29 | 7XX |
表1
对于用户输入的检索词条“上海男性借款人的学历如何分布?”,终端通过意图识别模型输出的检索范围是“上海、男性”,检索维度是“学历”,那么终端可从上表1所示的数据源库的数据表中按照字段名“地区”筛选出对应的字段值为“上海”、且按字段名“性别”筛选出对应的字段值为“男”的报表数据,然后对筛选出的报表数据按照字段名“学历”获取相应的字段值,就得到了待生成的报表所需的报表数据。
在一个实施例中,方法还包括:获取用户选定的业务场景类别;按照检索范围、检索维度从数据源库中筛选出报表数据包括:按照检索范围、检索维度,从与业务场景类别对应的数据源库中筛选出报表数据。
其中,业务场景类别是数据源库对应的业务类型,用于区分不同的数据源库。业务场景包括贷款业务、保险业务、理财业务、银行业务等,这些不同的业务场景所涉及到的数据源库的数据是不一样的,在训练意图识别模型时,所采用的训练语料也不一样,也就是,不同的业务场景需要用不同的意图识别模型进行识别,也对应了不同的数据源库。
具体地,在用户进入检索平台时,终端可提供业务场景类别供用户选择,用户选定了业务场景类别后,终端可调取与该业务场景类别对应的意图识别模型对用户输入的检索词条进行识别,在识别出相应的检索范围和检索维度后,可按该检索范围、检索维度从与该业务场景类别对应的数据源库中筛选出报表数据,能够缩小检索范围,提高检索结果与检索词条的匹配度。
步骤210,对筛选出的报表数据按照检索意图进行统计汇总,得到统计数据。
具体地,在从数据源库中筛选出待生成的报表所需的报表数据后,可按照检索意图对筛选出的报表数据进行统计汇总,得到统计数据。统计数据是可直接用于生成报表的数据。
仍以上文中提到的检索词条“上海男性借款人的学历如何分布?”为例,在从数据源库中筛选出待生成的报表所需的数据后,也就是包括所有属于上海男性借款人的学历的报表数据,然后按照检索意图“借款人数在学历上的分布”从筛选出的报表数据中统计汇总具有相同学历的借款人数,得到借款人数在学历上的分布数据,即为统计数据。
步骤212,根据统计数据生成报表。
具体地,终端可将识别出的检索维度作为展示数据的横向维度,将检索意图作为展示数据的纵向维度绘制报表,并展示给用户。例如,上文的例子中,可将“学历”作为报表的横轴,将“借款人数”作为纵轴对统计数据进行展示,也就是说,不仅统计数据可以匹配用户输入的检索词条,展示统计数据的形式也是符合用户的检索意图的。
上述报表生成方法中,在监测报表检索事件时,就获取与报表检索事件对应的检索词条,然后通过已训练的意图识别模型自动对检索词条进行识别,可以自动得到与检索词条对应的检索范围、检索维度以及检索意图,这样,就可以按照检索范围、检索维度从数据源库中筛选出与用户输入的检索词条匹配的报表数据,无需对用户输入的检索词条的格式进行约束即可准确地了解用户想要查询什么数据,十分灵活。在对筛选出的报表数据按照识别出的检索意图进行统计汇总,得到统计数据后,就可以根据统计数据生成与用户输入的检索词条匹配的报表。
如图4所示,为一个实施例中在生成的报表中展示文档标识的流程示意图。参照图4,报表生成方法具体还包括以下步骤:
步骤402,获取从网络上爬取的文档集。
具体地,终端可根据预设网站的网址,对网站发布的内容进行爬取,定期下载网站新发布的文档,比如法律条文、行业法规等,爬取的各个文档构成文档集。这些文档可用于对报表数据的波动、调整等变化进行解释。
步骤404,确定检索词条与文档集中每个文档之间的相关度。
其中,相关度用于表示检索词条与文档之间的联系,相关度越高,代表检索词条与该文档之间的联系越密切,反之,相关度越低,代表检索词条与该文档之间联系不大。终端既可以通过规则匹配的方式确定检索词条与文档之间的相关度,也可通过机器学习模型从文档集中找到与检索词条相关度最高的文档。
在一个实施例中,步骤S404,确定检索词条与文档集中每个文档之间的相关度包括:统计文档集中每个文档所包含词语的词频;按照词频确定每个文档对应的关键词集合;计算检索词条中各个词语与各关键词集合的匹配度;将各匹配度作为检索词条与每个文档之间的相关度。
其中,词频是词语在文档中出现的次数,也可以用该词语在文档中出现的次数与文档中所有词语的总数量的比例来表示。
具体地,终端可对文档集中的各个文档所包括的文本进行预处理,得到每个文档所包括的词语,可在除去一些非登录词后,统计文档中各个词语的词频,将词频较高的词语作为该法律条文的关键词,构成关键词集合,并将构成的关键词集合与文档标识对应存储。在比较用户输入的检索词条与各个文档的相关度时,就可以计算检索词条中所包括词语与每个文档的关键词集合的匹配度,匹配度越高,相关度也就也高。在一个实施例中,在计算检索词条中所包括词语与每个文档的关键词集合的匹配度时,可从检索词条中各个词语是否包含在某个文档的关键词集合中来判断。
在一个实施例中,终端还可采用分词技术对用户输入的检索词条进行分词处理,得到检索词条对应的词语序列,将每个词语向量化,得到每个词语的向量化表示,然后基于每个词语的向量化表示得到整个检索词条的向量化表示,比如可以取均值。同样地,将文档中各个词语或者是根据词频筛选出的关键词向量化,得到文档中每个词语的向量化表示,然后基于每个词语的向量化表示得到整个文档的向量化表示,比如可以取均值,或者按照出现的词频给定不同的权重,按相应的权重加权求和得到整个文档的向量化表示。然后计算检索词条的向量化表示与文档的向量化表示之间的相似度,比如可以采用余弦相似度公式计算相似度,相似度最高的文档作为要展示在生成的报表中的文档。
在一个实施例中,步骤404,确定检索词条与文档集中每个文档之间的相关度包括:确定文档集中每个文档对应的摘要句子;通过语义识别模型的输入层对检索词条和各摘要句子进行语义编码,得到检索词条对应的检索词条编码向量和各摘要句子对应的摘要句子编码向量;将检索词条编码向量分别和各个检索词条编码向量进行拼接,得到多组拼接向量;在语义识别模型的隐藏层中,分别对各拼接向量进行变换,得到各摘要句子对应的特征向量;通过语义识别模型的输出层对各特征向量进行融合、归一化处理,得到每个文档与检索词条之间的相关度。
具体地,终端可通过基于机器学习模型的语义识别模型确定检索词条与文档之间的相似度。在一个实施例中,可采用以下策略来确定文档集中每个文档对应的摘要句子:根据句子在文档中的位置、句子包含标题词的个数以及句子包含该文档对应的关键词的个数来为每个句子计算摘要分数,摘要分数满足预设条件的句子构成摘要句子。具体地,首段的首句极有可能是核心句子,其余句子次之;句子中包含标题词越多,该句子也更为关键;句子包含的关键词越多,该句子也就更为关键。按照上述步骤,可选定摘要分数最高的句子作为文档的摘要句子,从而可以确定文档集中各个文档对应的摘要句子。
进一步地,通过语义识别模型对检索词条与各个文档对应的摘要句子的相似度进行计算,相似度越高,相关度也就越高。具体地,可通过语义识别模型的输入层对检索词条Q和各文档对应的摘要句子(W1,W2,W3,…,Wi)进行语义编码,得到检索词条对应的检索词条编码向量EQ和各摘要句子对应的摘要句子编码向量(EW1,EW2,EW3,…,EWi)。
在语义识别模型的隐层中,每一层都有i个神经网络单元,比如可以是LSTM(LongShort-Term Memory,长短期记忆网络)单元,将EQ和EW1作为第1个LSTM单元的输入,EQ和EW2作为第2个LSTM单元的输入,…,将EQ和EWi作为第i个LSTM单元的输入,也就是,对于每个LSTM单元来说,输入由两部分拼接而成,一个是Q的语义编码向量EQ,另外一个是各个文档的摘要句子的语义编码向量,两者拼接后作为新的输入,输入至LSTM单元中,这样每个LSTM单元实际是在判断检索词条Q与某个摘要句子W的相关程度。对于模型中更深层的网络来说,不断重复这个过程,上一层各个LSTM单元的输出作为更高层的输入,直到最高层的各个LSTM单元产生每个摘要句子的输出,即为Y1,Y2,Y3,…,Yi。对每个摘要句子的输出进行信息融合,收集每个LSTM单元的信息,比如可以是求均值,融合每个摘要句子的信息,得到所有文档的信息。最后,通过可通过归一化函数对融合后的向量进行归一化处理产生最后的分类结果,也就是检索词条Q与每个摘要句子W的相关程度,选取相关程度最高的摘要句子所属的文档作为要展示在数据表中的文档。
步骤406,从文档集中选取相关度符合预设条件的文档。
终端可按照相关度高低排序从文档集中选取相关度较高的文档,比如,在用户输入了“近期大学生现金贷调整情况”,确定的相关度最高的文档名称为《关于规范整顿“现金贷”业务的通知》,说明该文档与用户的检索词条之间的相关度联系密切,并且,终端从数据源库中筛选出的报表数据的变化与该文档密切相关,因而该文档可用于解释生成的报表中数据的波动。
步骤408,将选取的文档的文档标识展示在生成的报表中。
具体地,终端可在选取了文档集中与用户输入的检索词条相关度符合预设条件的文档后,可在生成的与检索词条对应的报表中展示所选取文档的文档标识,文档标识比如可以是文档的文档名称。进一步地,终端还可展示该文档的发布日期、发布源等。
在一个实施例中,步骤S408,将选取的文档的文档标识展示在生成的报表中包括:当识别出的检索维度为日期时,获取选取的文档的发布日期;将选取的文档的文档名称展示在生成的报表中与发布日期对应的位置处。
具体地,若检索维度为日期,则生成的报表的展示维度为日期,终端就可以将所选取文档的文档名称按照发布日期展示在报表中,并且展示的位置与该文档的发布日期对应,能够更加可视化地为用户呈现数据波动的原因。
在上述实施例中,通过从爬取的文档集中确定与用户输入的检索词条相关度较高的文档,并在生成的报表中展示该文档的文档标识,有助于解释报表中数据的波动,能够为用户剖析数据变化的原因。
在一个具体的实施例中,报表生成方法具体包括以下步骤:
监测报表检索事件;
获取用户选定的业务场景类别;
获取与报表检索事件对应的检索词条;
对检索词条进行向量化处理,得到检索词条向量;
将检索词条向量输入至已训练的、与选定的业务场景类别对应的意图识别模型中,通过意图识别模型的隐藏层对检索词条向量进行处理,得到检索词条对应的检索词条编码向量;
通过意图识别模型的输出层对检索词条编码向量进行变换,得到与检索词条对应的检索范围、检索维度以及检索意图;
按照检索范围、检索维度从与选定的业务场景类别对应的数据源库中筛选出报表数据;
对筛选出的报表数据按照检索意图进行统计汇总,得到统计数据;
根据统计数据生成报表;
获取从网络上爬取的文档集;
统计文档集中每个文档所包含词语的词频;
按照词频确定每个文档对应的关键词集合;
计算检索词条中各个词语与各关键词集合的匹配度;
将各匹配度作为检索词条与每个文档之间的相关度;
从文档集中选取相关度符合预设条件的文档;
当识别出的检索维度为日期时,获取选取的文档的发布日期;
将所选取文档的文档名称展示在生成的报表中与发布日期对应的位置处。
本实施例中,在监测报表检索事件时,就获取与报表检索事件对应的检索词条,然后通过已训练的意图识别模型自动对检索词条进行识别,可以自动得到与检索词条对应的检索范围、检索维度以及检索意图,这样,就可以按照检索范围、检索维度从数据源库中筛选出与用户输入的检索词条匹配的报表数据,无需对用户输入的检索词条的格式进行约束即可准确地了解用户想要查询什么数据,十分灵活。在对筛选出的报表数据按照识别出的检索意图进行统计汇总,得到统计数据后,就可以根据统计数据生成与用户输入的检索词条匹配的报表。
应该理解的是,虽然图2、图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种报表生成装置500,包括:监测模块502、获取模块504、识别模块506、筛选模块508、统计模块510和生成模块512,其中:
监测模块502,用于监测报表检索事件;
获取模块504,用于获取与报表检索事件对应的检索词条;
识别模块506,用于通过已训练的意图识别模型对检索词条进行识别,得到与检索词条对应的检索范围、检索维度以及检索意图;
筛选模块508,用于按照检索范围、检索维度从数据源库中筛选出报表数据;
统计模块510,用于对筛选出的报表数据按照检索意图进行统计汇总,得到统计数据;
生成模块512,用于根据统计数据生成报表。
在一个实施例中,报表生成装置500还包括业务场景类别获取模块,业务场景类别获取模块用于获取用户选定的业务场景类别;筛选模块508还用于按照检索范围、检索维度,从与业务场景类别对应的数据源库中筛选出报表数据。
在一个实施例中,识别模块506还用于对检索词条进行向量化处理,得到检索词条向量;将检索词条向量输入至已训练的意图识别模型中,通过意图识别模型的隐藏层对检索词条向量进行处理,得到检索词条对应的检索词条编码向量;通过意图识别模型的输出层对检索词条编码向量进行变换,得到与检索词条对应的检索范围、检索维度以及检索意图。
在一个实施例中,报表生成装置还包括文档获取模块、相关度确定模块、文档选取模块以及文档展示模块,文档获取模块用于获取从网络上爬取的文档集;相关度确定模块用于确定检索词条与文档集中每个文档之间的相关度;文档选取模块用于从文档集中选取相关度符合预设条件的文档;文档展示模块用于将选取的文档的文档标识展示在生成的报表中。
在一个实施例中,相关度确定模块还用于统计文档集中每个文档所包含词语的词频;按照词频确定每个文档对应的关键词集合;计算检索词条中各个词语与各关键词集合的匹配度;将各匹配度作为检索词条与每个文档之间的相关度。
在一个实施例中,相关度确定模块还用于确定文档集中每个文档对应的摘要句子;通过语义识别模型的输入层对检索词条和各摘要句子进行语义编码,得到检索词条对应的检索词条编码向量和各摘要句子对应的摘要句子编码向量;将检索词条编码向量分别和各个检索词条编码向量进行拼接,得到多组拼接向量;在语义识别模型的隐藏层中,分别对各拼接向量进行变换,得到各摘要句子对应的特征向量;通过语义识别模型的输出层对各特征向量进行融合、归一化处理,得到每个文档与检索词条之间的相关度。
在一个实施例中,文档展示模块还用于当识别出的检索维度为日期时,获取选取的文档的发布日期;将选取的文档的文档名称展示在生成的报表中与发布日期对应的位置处。
上述报表生成装置500,在监测报表检索事件时,就获取与报表检索事件对应的检索词条,然后通过已训练的意图识别模型自动对检索词条进行识别,可以自动得到与检索词条对应的检索范围、检索维度以及检索意图,这样,就可以按照检索范围、检索维度从数据源库中筛选出与用户输入的检索词条匹配的报表数据,无需对用户输入的检索词条的格式进行约束即可准确地了解用户想要查询什么数据,十分灵活。在对筛选出的报表数据按照识别出的检索意图进行统计汇总,得到统计数据后,就可以根据统计数据生成与用户输入的检索词条匹配的报表。
关于报表生成装置500的具体限定可以参见上文中对于报表生成方法的限定,在此不再赘述。上述报表生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种报表生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的报表生成装置500可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该报表生成装置500的各个程序模块,比如,图5所示的监测模块502、获取模块504、识别模块506、筛选模块508、统计模块510和生成模块512。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的报表生成方法中的步骤。
例如,图6所示的计算机设备可以通过如图5所示的报表生成装置500中的监测模块502执行步骤S202。计算机设备可通过获取模块504执行步骤S204。计算机设备可通过识别模块506执行步骤S206。计算机设备可通过筛选模块508执行步骤S208。计算机设备可通过统计模块510执行步骤S210。计算机设备可通过生成模块512执行步骤S212。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述报表生成方法的步骤。此处报表生成方法的步骤可以是上述各个实施例的报表生成方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述报表生成方法的步骤。此处报表生成方法的步骤可以是上述各个实施例的报表生成方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种报表生成方法,所述方法包括:
监测报表检索事件;
获取与所述报表检索事件对应的检索词条;
通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图;
按照所述检索范围、检索维度从数据源库中筛选出报表数据;
对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据;
根据所述统计数据生成报表。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户选定的业务场景类别;
所述按照所述检索范围、检索维度从数据源库中筛选出报表数据包括:
按照所述检索范围、检索维度,从与所述业务场景类别对应的数据源库中筛选出报表数据。
3.根据权利要求1所述的方法,其特征在于,所述通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图包括:
对所述检索词条进行向量化处理,得到检索词条向量;
将所述检索词条向量输入至已训练的意图识别模型中,通过所述意图识别模型的隐藏层对所述检索词条向量进行处理,得到所述检索词条对应的检索词条编码向量;
通过所述意图识别模型的输出层对所述检索词条编码向量进行变换,得到与所述检索词条对应的检索范围、检索维度以及检索意图。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取从网络上爬取的文档集;
确定所述检索词条与所述文档集中每个文档之间的相关度;
从所述文档集中选取相关度符合预设条件的文档;
将选取的所述文档的文档标识展示在生成的报表中。
5.根据权利要求4所述的方法,其特征在于,所述确定所述检索词条与所述文档集中每个文档之间的相关度包括:
统计所述文档集中每个文档所包含词语的词频;
按照所述词频确定每个文档对应的关键词集合;
计算所述检索词条中各个词语与各所述关键词集合的匹配度;
将各所述匹配度作为所述检索词条与每个文档之间的相关度。
6.根据权利要求4所述的方法,其特征在于,所述确定所述检索词条与所述文档集中每个文档之间的相关度包括:
确定所述文档集中每个文档对应的摘要句子;
通过语义识别模型的输入层对所述检索词条和各所述摘要句子进行语义编码,得到所述检索词条对应的检索词条编码向量和各所述摘要句子对应的摘要句子编码向量;
将所述检索词条编码向量分别和各个所述检索词条编码向量进行拼接,得到多组拼接向量;
在所述语义识别模型的隐藏层中,分别对各所述拼接向量进行变换,得到各所述摘要句子对应的特征向量;
通过所述语义识别模型的输出层对各所述特征向量进行融合、归一化处理,得到每个文档与所述检索词条之间的相关度。
7.根据权利要求4所述的方法,其特征在于,所述将选取的所述文档的文档标识展示在生成的报表中包括:
当识别出的所述检索维度为日期时,获取选取的所述文档的发布日期;
将选取的所述文档的文档名称展示在生成的报表中与所述发布日期对应的位置处。
8.一种报表生成装置,其特征在于,所述装置包括:
监测模块,用于监测报表检索事件;
获取模块,用于获取与所述报表检索事件对应的检索词条;
识别模块,用于通过已训练的意图识别模型对所述检索词条进行识别,得到与所述检索词条对应的检索范围、检索维度以及检索意图;
筛选模块,用于按照所述检索范围、检索维度从数据源库中筛选出报表数据;
统计模块,用于对筛选出的报表数据按照所述检索意图进行统计汇总,得到统计数据;
生成模块,用于根据所述统计数据生成报表。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811210013.6A CN109542956A (zh) | 2018-10-17 | 2018-10-17 | 报表生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811210013.6A CN109542956A (zh) | 2018-10-17 | 2018-10-17 | 报表生成方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109542956A true CN109542956A (zh) | 2019-03-29 |
Family
ID=65843883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811210013.6A Pending CN109542956A (zh) | 2018-10-17 | 2018-10-17 | 报表生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109542956A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362798A (zh) * | 2019-06-17 | 2019-10-22 | 平安科技(深圳)有限公司 | 裁决信息检索分析方法、装置、计算机设备和存储介质 |
CN110378378A (zh) * | 2019-06-17 | 2019-10-25 | 北京百度网讯科技有限公司 | 事件检索方法、装置、计算机设备及存储介质 |
CN110473534A (zh) * | 2019-07-12 | 2019-11-19 | 南京邮电大学 | 一种基于深度神经网络的老年人看护对话系统 |
CN111259209A (zh) * | 2020-01-10 | 2020-06-09 | 平安科技(深圳)有限公司 | 基于人工智能的用户意图预测方法、电子装置及存储介质 |
CN114817267A (zh) * | 2022-05-16 | 2022-07-29 | 通联支付网络服务股份有限公司 | 用于生成数据报表的方法、设备和介质 |
-
2018
- 2018-10-17 CN CN201811210013.6A patent/CN109542956A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362798A (zh) * | 2019-06-17 | 2019-10-22 | 平安科技(深圳)有限公司 | 裁决信息检索分析方法、装置、计算机设备和存储介质 |
CN110378378A (zh) * | 2019-06-17 | 2019-10-25 | 北京百度网讯科技有限公司 | 事件检索方法、装置、计算机设备及存储介质 |
CN110362798B (zh) * | 2019-06-17 | 2023-12-19 | 平安科技(深圳)有限公司 | 裁决信息检索分析方法、装置、计算机设备和存储介质 |
CN110473534A (zh) * | 2019-07-12 | 2019-11-19 | 南京邮电大学 | 一种基于深度神经网络的老年人看护对话系统 |
CN111259209A (zh) * | 2020-01-10 | 2020-06-09 | 平安科技(深圳)有限公司 | 基于人工智能的用户意图预测方法、电子装置及存储介质 |
CN111259209B (zh) * | 2020-01-10 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于人工智能的用户意图预测方法、电子装置及存储介质 |
CN114817267A (zh) * | 2022-05-16 | 2022-07-29 | 通联支付网络服务股份有限公司 | 用于生成数据报表的方法、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542956A (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
CN110221965B (zh) | 测试用例生成、测试方法、装置、设备及系统 | |
CN110489561A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN109670837A (zh) | 债券违约风险的识别方法、装置、计算机设备和存储介质 | |
CN109299094A (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
US20200342016A1 (en) | Systems and methods for coverage analysis of textual queries | |
CN109063000A (zh) | 问句推荐方法、客服系统以及计算机可读存储介质 | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN110458324A (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN108804564A (zh) | 金融产品的组合推荐方法及终端设备 | |
KR101450453B1 (ko) | 컨텐츠 추천 방법 및 장치 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
CN110389963A (zh) | 基于大数据的渠道效果识别方法、装置、设备和存储介质 | |
Zhang et al. | The approaches to contextual transaction trust computation in e‐Commerce environments | |
CN112699245A (zh) | 预算管理知识图谱的构建方法、装置及应用方法、装置 | |
US9785404B2 (en) | Method and system for analyzing data in artifacts and creating a modifiable data network | |
CN110008352A (zh) | 实体发现方法及装置 | |
CN113961811A (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |