CN110222045A - 一种数据报表获取方法、装置及计算机设备、存储介质 - Google Patents

一种数据报表获取方法、装置及计算机设备、存储介质 Download PDF

Info

Publication number
CN110222045A
CN110222045A CN201910328264.2A CN201910328264A CN110222045A CN 110222045 A CN110222045 A CN 110222045A CN 201910328264 A CN201910328264 A CN 201910328264A CN 110222045 A CN110222045 A CN 110222045A
Authority
CN
China
Prior art keywords
data
target
query
field
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910328264.2A
Other languages
English (en)
Other versions
CN110222045B (zh
Inventor
张师琲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910328264.2A priority Critical patent/CN110222045B/zh
Publication of CN110222045A publication Critical patent/CN110222045A/zh
Application granted granted Critical
Publication of CN110222045B publication Critical patent/CN110222045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据技术领域,涉及一种基于大数据的数据报表获取方法、装置及计算机设备、存储介质,所述方法包括:采集语音数据;对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息;根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。本发明提供的方案通过识别用户语音,从中提取目标查询实体和数据操作类别,根据提取的内容自动生成查询信息进行数据查询,由此可实现通过自然语言查询数据,输入自由度高,且查询要素多时可保证查询速度和准确度,查询效率高。

Description

一种数据报表获取方法、装置及计算机设备、存储介质
技术领域
本发明实施例属于大数据技术领域,尤其涉及一种基于大数据的数据报表获取方法、装置及计算机设备、存储介质。
背景技术
关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据,简单说是由多张能互相联接的二维行列表格组成的数据库,用户在执行程序操作时,需要直接获取数据库中的数据,或者基于获取的数据输出数据报表,其中不可避免地涉及到报表数据的查询和处理。
对于开发人员而言,其可通过SQL查询语句快速实现对关系型数据库的查询以获得想要的数据,或者由开发人员开发程序时设计查询入口,提供查询要素的输入界面给用户使用,用户在输入界面输入查询要素后进行数据查询,以获得报表或者绘图。
然而,通过SQL查询语句查询的方式仅适用于了解SQL相关的技术人员使用,不方便普通用户使用,而提供查询要素的输入界面后虽然普通用户能够实现数据查询,但是需要用户能够知道准确的查询要素,输入的自由度较低,且当查询要素过多时,受限于用户输入查询要素的输入速度和输入准确度,用户查询的效率将明显下降。
发明内容
有鉴于此,本发明实施例提供一种基于大数据的数据报表获取方法、装置及计算机设备、存储介质,以解决现有技术中直接通过SQL查询语句查询的方式仅适用于了解SQL相关的技术人员使用,不方便普通用户使用的问题,以及解决在提供查询要素的输入界面来实现数据查询时,需要用户能够知道准确的查询要素,输入的自由度较低,用户查询效率低的问题。
第一方面,本发明实施例提供一种基于大数据的数据报表获取方法,包括:
采集语音数据;
对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;
根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息;
根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。
作为本发明可实施的方式,所述基于所述目标查询实体和所述数据操作类别生成查询信息包括:
确定被查询的数据库中数据的数据形式,结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段,并将确定的所述查询字段根据预设的组装规则进行组装生成SQL查询语句。
作为本发明可实施的方式,所述结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段包括:
判断所述数据形式是否为多维数据形式,其中多维数据由二维数据封装处理形成;
若判定结果为是则确定查询多维数据库的查询字段,并获取所述目标查询实体对应于所述多维数据库中的目标查询实体字段,以及获取所述数据操作类别对应于所述多维数据库中的数据操作类别字段,其中所述查询多维数据库的查询字段至少包括用于连接多维数据库的维度属性字段、纬度值中的中文实体字段和用于查询目标数据的范围字段,所述数据操作类别字段包括函数字段、换算字段、逻辑运算字段中的一种或多种。
作为本发明可实施的方式,所述对获得的所述目标数据进行处理后形成数据报表包括:
获取与所述数据操作类别相对应的数据处理模型,根据所述数据处理模型对所述目标数据进行处理,其中,对所述目标数据进行处理包括数据变换、数据数学运算和数据逻辑运算中的一种或多种;
根据处理后的所述目标数据生成数据报表并输出。
作为本发明可实施的方式,在对所述语音数据进行语音识别以获得文本数据之前,所述方法包括:
对所述语音数据进行去噪处理,并甄别去噪处理后的所述语音数据所属的语言类别;根据所述语言类别调用与所述语言类别对应的词库和分词规则。
作为本发明可实施的方式,对所述文本数据进行语义识别处理包括:
对分词处理后得到的各个词语进行语义匹配和词性标注,并基于语义匹配和词性标注的结果对分词后获得的各个词语之间的依存关系进行分析,获得各个词语的依存关系,以根据所述依存关系确定所述数据操作类别。
作为本发明可实施的方式,在获取目标查询实体之后,所述方法还包括:
确认获取的各个目标查询实体对应的索引信息,所述索引信息对应于所述数据库中的表结构中的列属性。
第二方面,本发明实施例提供一种基于大数据的数据报表获取装置,包括:
采集单元,用于采集语音数据;
语音识别单元,用于对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;
查询信息生成单元,用于根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息;
数据生成单元,用于根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。
第三方面,本发明实施例提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使得所述至少一个处理器能够执行如上所述的基于大数据的数据报表获取方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如上所述的基于大数据的数据报表获取方法的步骤。
根据本发明实施例提供的基于大数据的数据报表获取方法、装置及计算机设备、存储介质,通过识别用户语音,从中提取目标查询实体和数据操作类别,并根据提取的内容自动生成查询信息进行数据查询,由此用户可通过自然语言进行查询,不需要了解SQL相关的技术,也不需要知道准确的查询要素即可实现查询,输入的自由度高,且在查询要素多时依然能够保证查询速度和准确度,用户查询的效率高。
附图说明
为了更清楚地说明本发明的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据报表获取方法的流程图;
图2为本发明实施例提供的有向无环图;
图3为本发明实施例提供的有向无环图取最短路径时的示意图;
图4为本发明实施例提供的数据报表获取装置的结构框图;
图5为本发明实施例提供的数据报表获取装置的另一结构框图;
图6为本发明实施例提供的计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在说明书中的各个位置出现的“实施例”该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种基于大数据的数据报表获取方法,如图1所示,所述基于大数据的数据报表获取方法包括:
S101、采集语音数据;
S102、对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;
S103、根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息;
S104、根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。
在本发明实施例中,对于步骤S101,采集语音数据的过程可以是实时采集,采集语音数据的装置或者系统可以在收到采集触发信号后开启采集模块进行语音数据的采集,也可以是采集语音数据的装置或者系统持续处于采集的状态,在采集过程中,采集的语音数据以语音数据流的形式直接传输至下一处理单元进行处理。
在一些实施例中,采集语音数据的过程也可以是从存储器中调用语音数据,比如有多个查询任务时,多条语音数据被采集后可以存储在指定的存储位置以供后续调用。
在本发明实施例中,对于步骤S102,其可以与步骤S101同步进行,也可以在步骤S101完成所有语音数据的采集之后再进行,对于同步进行的情形,步骤S101采集语音数据的同时,负责语音识别的处理单元直接接收步骤S101采集的语音数据进行识别;而对于步骤S101和S102先后进行的情形,步骤S101采集全部语音数据后,采集的语音数据整体传输至负责语音识别的处理单元进行识别处理,完成识别后将输出文本数据,输出的文本数据可直接传输至下一处理单元,也可存储在指定的存储位置以供后续调用。
在一些实施例中,对所述文本数据进行语义识别处理的过程包括:对分词处理后得到的各个词语进行语义匹配和词性标注,并基于语义匹配和词性标注的结果对分词后获得的各个词语之间的依存关系进行分析,获得各个词语的依存关系,以根据所述依存关系确定所述数据操作类别。
由于语音识别后得到的文本数据是连贯的语句,需要对语句进行分词处理,方便对语句中的词语进语义匹配和词性标注,以基于语义匹配和词性标注后的词语进一步确定查询要素。
对于本发明实施例中的分词处理和语义识别处理过程,可以采用NLP(NaturalLanguage Processing,自然语言处理)分词方式将语句中的每个词语拆解出来,完成分词处理后,再采用一些语义匹配的方法对拆解出来的词语进行语义匹配。具体的,在本方案中以中文分词为例,可采用CRF分词两种算法和N-最短路径分词结合的方式来进行分词并匹配最准确的语义,其中,CRF全称为Conditional Random Field(条件随机场),是一种机器学习模型,可以用于分词(标注字的词位信息,由字构词)、词性标注(标注分词的词性,例如:名词,动词,助词)、命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)等。N-最短路径分词算法是一种基于词典的分词算法,给定一待处理字串(即一条语句),根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,比如给出语句“输出及格率和及格人数”,构造有向无环图后可得到如图2所示的示意图,在图2中,边(虚线指示线)的起点为词的第一个字,边的终点为词尾的下一个字,N-最短路径分词即在上述有向无环图中寻找从开始到结束所有路径中最短的前N条路径,上图的最短的路径如下实线指示线所示出的路径得到图3所示的示意图,从图3中可得到分词结果为:输出/及格率/和/及格/人数。
由于N-最短路径分词基于词典分词,因此过度依赖词典和规则库,尽管分词速度快,效率高,但对于歧义词和未录入词的识别能力较低,此时可配合采用CRF分词来弥补N-最短路径分词的弱点,CRF分词基本思路是对汉字进行标注,即由字构词(组词),不仅考虑了文字词语出现的频率信息,同时考虑上下文语境,具备较好的学习能力,因此其对歧义词和未录入词的识别都具有良好的效果。
在本实施例中,在进行语义匹配的过程中可同时完成对词语的词性标注,以方便后续识别每个词语的属性。比如,假如步骤S2识别得到语句:“输出及格率和及格人数”,进行分词处理后,进行词性标注时,“输出”标注为动词,“及格率”、“人数”标注为名词,“及格”人数标注为形容词,“和”标注为连词等,其中词性标注的也可基于CRF模型来实现。
进一步地,对于分词后获得的各个词语,通过对各个词语之间的依存关系进行分析来获得各个词语的依存关系,即对于整句话进行依存句法分析,由此可以分析用户的意图,此可作为步骤S103中确定数据操作类别的基础,在本实施例中,可采用基于CRF的依存句法分析来进行,这种方式是只提取语句中的主要词语,并分析它们之间的依存关系,假如步骤S102识别得到语句“请现在输出及格率和具体的及格人数”,则只提取“输出”,“及格率”、“及格“、”人数”等关键词组来获取依存关系,其中“及格“和”人数”为形容关系,“及格“用于修饰限定“人数”,而“及格率”和“及格人数”为并列关系,两者又与“输出”形成动宾关系,当这些依存关系分析出来后,就能够确定用户的意图是要获取及格人数和及格率。
在本实施例中,在对所述语音数据进行语音识别以获得文本数据之前,所述方法包括:对所述语音数据进行去噪处理,并甄别去噪处理后的所述语音数据所属的语言类别;根据所述语言类别调用与所述语言类别对应的词库和分词规则。在语音数据的采集过程中,如果环境噪音大,将影响语音识别的准确性,故需预先对采集的语音数据进行去噪处理,实现语音增强;本实施例中分词处理需用到字库和相应的分词方法,不同语言对应的字库和分词方法是不同的,因此通过预先识别语言类别,对语音数据属于哪一种语音进行甄别,比如汉语、英语等,以调用匹配的字库及分词方法,提高处理效率和准确度。
在本发明实施例中,对于步骤S103,所述目标查询实体和所述数据操作类别即为需要确定的查询要素,其中,所述目标查询实体是指SQL语句对应的实体,可包括where条件实体和查询属性实体,所述where条件实体可用于从数据库中确定特定范围的多条记录,而查询属性实体则用于从这多条记录中获取特定的数据。而确定数据操作类别则是指对用于获取数据处理的函数或模型,比如求和,求平均值,最大值等,以对后续查询得到的数据进行处理。
在一些实施例中,对于数据操作类别的确定,也可以通过训练操作类别识别模型来实现,具体根据若干样本数据训练操作类别识别模型,使操作类别识别模型能够根据输入内容对应的输出相应的数据操作类别,比如根据“平均值”输出“求平均值操作类别”,又比如根据“环比增长”输出“求和操作类别”、又比如根据“人民币兑换”输出“换算类别”等。
在本发明实施例中,步骤S103最终生成的查询信息为组装有目标查询实体和数据操作类别的一个完整的SQL查询语句。在一些实施例中,所述基于所述目标查询实体和所述数据操作类别生成查询信息包括:确定被查询的数据库中数据的数据形式,结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段,并将确定的所述查询字段根据预设的组装规则进行组装生成SQL查询语句,SQL查询语句即为查询信息。
在一些实施例中,所述结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段包括:判断所述数据形式是否为多维数据形式,其中多维数据由二维数据封装处理形成;若判定结果为是则确定查询多维数据库的查询字段,并获取所述目标查询实体对应于所述多维数据库中的目标查询实体字段,以及获取所述数据操作类别对应于所述多维数据库中的数据操作类别字段,其中所述查询多维数据库的查询字段至少包括用于连接多维数据库的维度属性字段、纬度值中的中文实体字段和用于查询目标数据的范围字段,所述数据操作类别字段包括函数字段、换算字段、逻辑运算字段中的一种或多种。具体的,对于数据库而言,数据库中存储的数据可能以原始的二维表的形式存在,也可能是经过数据处理后存在,比如在BI(Business Intelligence,商务智能)中,数据库中的二维表形式存在的数据经过数据封装处理后形成多维数据库(cube),因为数据形式发生变化,其查询过程也会发生变化,因此对于不同的数据存在形式,其对应的查询信息则不同,比如对于多维数据库(cube),基于所述目标查询实体和数据操作类别生成查询信息的过程需要确定查询多维数据库的查询字段(可以称为cube字段),相对应的,这些cube字段需包括用于连接多维数据库的维度属性字段、纬度值中的中文实体字段,以及用于查询目标数据的范围字段(比如时间范围),以及对应于所述多维数据库的目标查询实体字段、数据操作类别字段等,其中数据操作类别字段可具体包括函数字段、换算字段、逻辑运算字段等,通过这些函数字段、换算字段、逻辑运算字段可对获取的目标数据进行数据变换、数据数学运算、数据逻辑运算等数据处理操作,对于其他数据形式,比如对以二维表形式存在的数据进行查询的时候,是不需要维度属性字段、纬度值中的中文实体字段的,由此导致生成查询信息所需要的查询字段存在差异。
在一些实施例中,在获取目标查询实体之后,所述方法还包括:确认获取的各个目标查询实体对应的索引信息,所述索引信息对应于所述数据库中的表结构中的列属性。
具体的,所述索引信息通过对数据库中要查询的列属性进行语法分析后获得,列属性可以看作是查询数据库时所要匹配的关键词,比如以数据库中存储的学生信息为例,学生可以包括学号、姓名、所述年级、年龄、性别等列属性,这些列属性在数据库中一般以英文(全称或缩写)或者拼音(全称或缩写)的方式存在,如果采集的语音识别后为不是英文或拼音,如果以识别的词语直接在数据库中查询,则将匹配不到任何信息,因此语法分析的目的是让步骤S102中识别的词语能够匹配到数据库中的列属性。因此,对于采集的语音识别后为中文的情形,完成语法分析后,数据库中的列属性的中文含义将被标注,中文含义对应的列属性信息即为索引信息,列属性与对应的中文含义形成映射关系,当目标查询实体与其中某个中文含义匹配时,通过标签映射获取该中文含义对应的列属性信息,从而可确认目标查询实体对应的索引信息。其中索引信息可存储于本地,也可以存放与搜索引擎的服务器中,比如solr搜索引擎的服务器,由于搜索引擎可提供模糊检索功能,因此可提高目标查询实体匹配上述列属性的中文含义的几率,从而能够有效获得索引信息;当索引信息存放于搜索引擎的服务器中时,上述步骤S102所对应的处理单元(比如分词器)也可设置于搜索引擎的服务器中。
在本实施例中,对于步骤S104,所述对获得的所述目标数据进行处理后形成数据报表包括:获取与所述数据操作类别相对应的数据处理模型,根据所述数据处理模型对所述目标数据进行处理;根据处理后的所述目标数据生成数据报表并输出。以一个例子说明,比如对于“将80分以上的学生的学号和姓名提取出来并输出平均分”的分词处理和词性标注后,可将“80分”、“以上”作为范围实体被抽取出来,而“学号”、“姓名”作为查询属性实体被抽取出来;而根据“输出”、“平均分”可知数据操作类别为求平均值,则对获得的所述目标数据进行处理时将调用求平均值的函数或模型。
需要说明的是,对于上述实施例,在一些实施例中,所述文本数据也可以是直接采集的文本数据,比如提供输入界面,用户在输入界面可输入文本时,实时采集用户输入的文本数据,并将采集的文本数据传入下一处理单元进行处理。在另一些实施例中,所述文本数据也可以是获取文本文件,从文本文件中提取的文本数据,比如需要查询的内容条目较多时,可以在文本文件中以自然语言的形式罗列多个查询任务,则通过提取文本文件中的文本数据后可以一次进行多个查询任务的查询及数据报表输出,查询效率高。当直接获取文本数据或者从文本文件中提取文本数据时,步骤S101可以省略。
根据本发明实施例提供的基于大数据的数据报表获取方法,通过识别用户语音,从中提取目标查询实体和数据操作类别,并根据提取的内容自动生成查询信息进行数据查询,由此用户可通过自然语言进行查询,不需要了解SQL相关的技术,也不需要知道准确的查询要素即可实现查询,输入的自由度高,且在查询要素多时依然能够保证查询速度和准确度,用户查询的效率高。
本发明实施例提供一种基于大数据的数据报表获取装置,如图4所示,所述装置包括采集单元10、语音识别单元20、查询信息生成单元30和数据生成单元40,其中:
所述采集单元10用于采集语音数据;在本实施例中,所述采集单元10采集语音数据的过程可以是实时采集,也可以是从存储器中调用语音数据,具体可参阅上述方法实施例中相关描述。
所述语音识别单元20用于对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;在本实施例中,所述语言识别单元的处理过程可以与所述采集单元10的采集过程,也可以在所述采集单元10完成所有语音数据的采集之后再进行处理,具体可参阅上述方法实施例中相关描述。
在一些实施例中,所述语音识别单元20对所述文本数据进行语义识别处理时具体用于:对分词处理后得到的各个词语进行语义匹配和词性标注,并基于语义匹配和词性标注的结果对分词后获得的各个词语之间的依存关系进行分析,获得各个词语的依存关系,以根据所述依存关系确定所述数据操作类别。本实施例中的分词处理过程、语义识别处理过程和依存关系的确定可以参阅上述方法实施例中相关描述。
在一些实施例中,如图5所示,所述装置还包括预处理单元50,所述预处理单元50用于在对所述语音数据进行语音识别以获得文本数据之前,对所述语音数据进行去噪处理,并甄别去噪处理后的所述语音数据所属的语言类别,以使所述语音识别单元20根据所述语言类别调用与所述语言类别对应的词库和分词规则,提高处理效率和准确度。
所述查询信息生成单元30用于根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息。所述目标查询实体和所述数据操作类别即为需要确定的查询要素,其中,所述目标查询实体是指SQL语句对应的实体,可包括where条件实体和查询属性实体,所述where条件实体可用于从数据库中确定特定范围的多条记录,而查询属性实体则用于从这多条记录中获取特定的数据。而确定数据操作类别则是指对用于获取数据处理的函数或模型,比如求和,求平均值,最大值等,以对后续查询得到的数据进行处理。在一些实施例中,所述查询信息生成单元30确定数据操作类别的过程,也可以通过获取预先训练的操作类别识别模型来实现。
在一些实施例中,所述查询信息生成单元30基于所述目标查询实体和所述数据操作类别生成查询信息时,具体用于确定被查询的数据库中数据的数据形式,结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段,并将确定的所述查询字段根据预设的组装规则进行组装生成SQL查询语句,所述SQL查询语句即为查询信息。
在一些实施例中,所述查询信息生成单元30结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段时,具体用于判断所述数据形式是否为多维数据形式,其中多维数据由二维数据封装处理形成,若判定结果为是则确定查询多维数据库的查询字段,并获取所述目标查询实体对应于所述多维数据库中的目标查询实体字段,以及获取所述数据操作类别对应于所述多维数据库中的数据操作类别字段,其中所述查询多维数据库的查询字段至少包括用于连接多维数据库的维度属性字段、纬度值中的中文实体字段和用于查询目标数据的范围字段,所述数据操作类别字段包括函数字段、换算字段、逻辑运算字段中的一种或多种。
在一些实施例中,在所述查询信息生成单元30在获取目标查询实体还用于确认获取的各个目标查询实体对应的索引信息,所述索引信息对应于所述数据库中的表结构中的列属性。关于列属性可参阅上述实施例中的相关内容。
相应的,所述数据生成单元40用于根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。在本实施例中,所述数据生成单元40对获得的所述目标数据进行处理后形成数据报表时具体用于获取与所述数据操作类别相对应的数据处理模型,根据所述数据处理模型对所述目标数据进行处理,其中,对所述目标数据进行处理包括数据变换、数据数学运算和数据逻辑运算中的一种或多种;并根据处理后的所述目标数据生成数据报表并输出。
根据本发明实施例提供的基于大数据的数据报表获取装置,通过识别用户语音,从中提取目标查询实体和数据操作类别,并根据提取的内容自动生成查询信息进行数据查询,由此用户可通过自然语言进行查询,不需要了解SQL相关的技术,也不需要知道准确的查询要素即可实现查询,输入的自由度高,且在查询要素多时依然能够保证查询速度和准确度,用户查询的效率高。
本发明实施例还提供一种计算机设备,如图6所示,所述计算机设备包括至少一个处理器601,以及与所述至少一个处理器601通信连接的存储器602,图6中示出一个处理器601,所述存储器602存储有可被所述至少一个处理器601执行的指令,所述指令被所述至少一个处理器601执行,以使所述至少一个处理器601能够执行如上所述的基于大数据的数据报表获取方法的步骤。
具体的,本发明实施例中的存储器602为非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请上述实施例中的基于大数据的数据报表获取方法对应的程序指令/模块;所述处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及进行数据处理,即实现上述方法实施例中所述的基于大数据的数据报表获取方法。
在一些实施例中,所述存储器602可以包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需要的应用程序;数据存储区可存储基于大数据的数据报表获取方法的处理过程中所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;
在一些实施例中,存储器602可选包括相对于处理器601远程设置的远程存储器,这些远程存储器可以通过网络连接至执行域名过滤处理的计算机设备,前述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本发明实施例中,执行基于大数据的数据报表获取方法的计算机设备还可以包括输入装置603和输出装置604;其中,输入装置603可获取用户在计算机设备上的操作信息,输出装置604可包括显示屏等显示设备。在本发明实施例中,所述处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
根据本发明实施例提供的计算机设备,通过处理器601执行存储器602中的代码时能够执行上述实施例中基于大数据的数据报表获取方法的步骤,且具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时,能够实现如上所述的基于大数据的数据报表获取方法的步骤,当执行所述方法的步骤时,具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机程序产品,所述产品可执行本申请方法实施例中所提供的基于大数据的数据报表获取方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
需要说明的是,在本发明上述实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或智能终端设备或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,至少两个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (10)

1.一种基于大数据的数据报表获取方法,其特征在于,包括:
采集语音数据;
对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;
根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息;
根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。
2.根据权利要求1所述的基于大数据的数据报表获取方法,其特征在于,所述基于所述目标查询实体和所述数据操作类别生成查询信息包括:
确定被查询的数据库中数据的数据形式,结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段,并将确定的所述查询字段根据预设的组装规则进行组装生成SQL查询语句。
3.根据权利要求2所述的基于大数据的数据报表获取方法,其特征在于,所述结合所述目标查询实体、所述数据操作类别和所述数据形式确定与所述数据库对应的查询字段包括:
判断所述数据形式是否为多维数据形式,其中多维数据由二维数据封装处理形成;
若判定结果为是则确定查询多维数据库的查询字段,并获取所述目标查询实体对应于所述多维数据库中的目标查询实体字段,以及获取所述数据操作类别对应于所述多维数据库中的数据操作类别字段,其中所述查询多维数据库的查询字段至少包括用于连接多维数据库的维度属性字段、纬度值中的中文实体字段和用于查询目标数据的范围字段,所述数据操作类别字段包括函数字段、换算字段、逻辑运算字段中的一种或多种。
4.根据权利要求1至3任一项所述的基于大数据的数据报表获取方法,其特征在于,所述对获得的所述目标数据进行处理后形成数据报表包括:
获取与所述数据操作类别相对应的数据处理模型,根据所述数据处理模型对所述目标数据进行处理,其中,对所述目标数据进行处理包括数据变换、数据数学运算和数据逻辑运算中的一种或多种;
根据处理后的所述目标数据生成数据报表并输出。
5.根据权利要求1所述的基于大数据的数据报表获取方法,其特征在于,在对所述语音数据进行语音识别以获得文本数据之前,所述方法包括:
对所述语音数据进行去噪处理,并甄别去噪处理后的所述语音数据所属的语言类别;根据所述语言类别调用与所述语言类别对应的词库和分词规则。
6.根据权利要求1所述的基于大数据的数据报表获取方法,其特征在于,对所述文本数据进行语义识别处理包括:
对分词处理后得到的各个词语进行语义匹配和词性标注,并基于语义匹配和词性标注的结果对分词处理后获得的各个词语之间的依存关系进行分析,获得各个词语的依存关系,以根据所述依存关系确定所述数据操作类别。
7.根据权利要求1所述的基于大数据的数据报表获取方法,其特征在于,在获取目标查询实体之后,所述方法还包括:
确认获取的各个目标查询实体对应的索引信息,所述索引信息对应于所述数据库中的表结构中的列属性。
8.一种基于大数据的数据报表获取装置,其特征在于,包括:
采集单元,用于采集语音数据;
语音识别单元,用于对所述语音数据进行语音识别以获得文本数据,对所述文本数据进行分词处理和语义识别处理;
查询信息生成单元,用于根据处理结果获取目标查询实体和确定数据操作类别,基于所述目标查询实体和所述数据操作类别生成查询信息;
数据生成单元,用于根据查询信息从数据库中查询获得目标数据,并对获得的所述目标数据进行处理后形成数据报表。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至7中任一项所述的基于大数据的数据报表获取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如权利要求1至7中任一项权利要求所述的基于大数据的数据报表获取方法的步骤。
CN201910328264.2A 2019-04-23 2019-04-23 一种数据报表获取方法、装置及计算机设备、存储介质 Active CN110222045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910328264.2A CN110222045B (zh) 2019-04-23 2019-04-23 一种数据报表获取方法、装置及计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910328264.2A CN110222045B (zh) 2019-04-23 2019-04-23 一种数据报表获取方法、装置及计算机设备、存储介质

Publications (2)

Publication Number Publication Date
CN110222045A true CN110222045A (zh) 2019-09-10
CN110222045B CN110222045B (zh) 2024-05-28

Family

ID=67820082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910328264.2A Active CN110222045B (zh) 2019-04-23 2019-04-23 一种数据报表获取方法、装置及计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN110222045B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765342A (zh) * 2019-09-12 2020-02-07 竹间智能科技(上海)有限公司 信息查询方法及装置、存储介质、智能终端
CN111063340A (zh) * 2019-12-09 2020-04-24 用友网络科技股份有限公司 终端的业务处理方法、装置、终端及计算机可读存储介质
CN111209307A (zh) * 2020-01-07 2020-05-29 深圳迅策科技有限公司 数据动态归类处理方法、装置、终端设备及存储介质
CN111625614A (zh) * 2020-01-20 2020-09-04 全息空间(深圳)智能科技有限公司 直播平台语音收集方法、系统及存储介质
CN111639156A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 一种基于层级标签的查询方法、装置,设备及存储介质
CN112001175A (zh) * 2020-08-24 2020-11-27 平安科技(深圳)有限公司 流程自动化方法、装置、电子设备及存储介质
CN112002323A (zh) * 2020-08-24 2020-11-27 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN112446792A (zh) * 2020-12-01 2021-03-05 中国人寿保险股份有限公司 利益演示生成方法、装置、电子设备及存储介质
CN112948414A (zh) * 2019-12-19 2021-06-11 深圳市明源云链互联网科技有限公司 数据报表生成方法、装置、电子设备及存储介质
CN113140138A (zh) * 2021-04-25 2021-07-20 新东方教育科技集团有限公司 互动教学方法、装置、存储介质及电子设备
CN113377804A (zh) * 2021-06-30 2021-09-10 北京三快在线科技有限公司 一种数据处理方法、装置、存储介质及电子设备
CN113450796A (zh) * 2021-06-29 2021-09-28 平安养老保险股份有限公司 语音报表生成方法、装置、设备及存储介质
CN114090620A (zh) * 2022-01-19 2022-02-25 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置
CN112002323B (zh) * 2020-08-24 2024-07-02 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663007A (zh) * 2012-03-20 2012-09-12 广东电子工业研究院有限公司 一种支持敏捷开发和横向扩展的数据存储与查询方法
CN105138829A (zh) * 2015-08-13 2015-12-09 易保互联医疗信息科技(北京)有限公司 一种中文诊疗信息的自然语言处理方法及系统
US20180095962A1 (en) * 2016-10-05 2018-04-05 International Business Machines Corporation Translation of natural language questions and requests to a structured query format
US20180210883A1 (en) * 2017-01-25 2018-07-26 Dony Ang System for converting natural language questions into sql-semantic queries based on a dimensional model
CN108694214A (zh) * 2017-04-12 2018-10-23 北京京东尚科信息技术有限公司 数据报表的生成方法、生成装置、可读介质及电子设备
CN109446520A (zh) * 2018-10-17 2019-03-08 北京神州泰岳软件股份有限公司 用于构建知识库的数据聚类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663007A (zh) * 2012-03-20 2012-09-12 广东电子工业研究院有限公司 一种支持敏捷开发和横向扩展的数据存储与查询方法
CN105138829A (zh) * 2015-08-13 2015-12-09 易保互联医疗信息科技(北京)有限公司 一种中文诊疗信息的自然语言处理方法及系统
US20180095962A1 (en) * 2016-10-05 2018-04-05 International Business Machines Corporation Translation of natural language questions and requests to a structured query format
US20180210883A1 (en) * 2017-01-25 2018-07-26 Dony Ang System for converting natural language questions into sql-semantic queries based on a dimensional model
CN108694214A (zh) * 2017-04-12 2018-10-23 北京京东尚科信息技术有限公司 数据报表的生成方法、生成装置、可读介质及电子设备
CN109446520A (zh) * 2018-10-17 2019-03-08 北京神州泰岳软件股份有限公司 用于构建知识库的数据聚类方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765342A (zh) * 2019-09-12 2020-02-07 竹间智能科技(上海)有限公司 信息查询方法及装置、存储介质、智能终端
CN111063340A (zh) * 2019-12-09 2020-04-24 用友网络科技股份有限公司 终端的业务处理方法、装置、终端及计算机可读存储介质
CN112948414A (zh) * 2019-12-19 2021-06-11 深圳市明源云链互联网科技有限公司 数据报表生成方法、装置、电子设备及存储介质
CN111209307A (zh) * 2020-01-07 2020-05-29 深圳迅策科技有限公司 数据动态归类处理方法、装置、终端设备及存储介质
CN111625614A (zh) * 2020-01-20 2020-09-04 全息空间(深圳)智能科技有限公司 直播平台语音收集方法、系统及存储介质
CN111639156A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 一种基于层级标签的查询方法、装置,设备及存储介质
CN111639156B (zh) * 2020-05-13 2024-04-12 广州国音智能科技有限公司 一种基于层级标签的查询方法、装置,设备及存储介质
CN112001175A (zh) * 2020-08-24 2020-11-27 平安科技(深圳)有限公司 流程自动化方法、装置、电子设备及存储介质
CN112002323A (zh) * 2020-08-24 2020-11-27 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN112002323B (zh) * 2020-08-24 2024-07-02 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN112001175B (zh) * 2020-08-24 2023-06-02 平安科技(深圳)有限公司 流程自动化方法、装置、电子设备及存储介质
CN112446792A (zh) * 2020-12-01 2021-03-05 中国人寿保险股份有限公司 利益演示生成方法、装置、电子设备及存储介质
CN113140138A (zh) * 2021-04-25 2021-07-20 新东方教育科技集团有限公司 互动教学方法、装置、存储介质及电子设备
CN113450796B (zh) * 2021-06-29 2023-09-19 平安养老保险股份有限公司 语音报表生成方法、装置、设备及存储介质
CN113450796A (zh) * 2021-06-29 2021-09-28 平安养老保险股份有限公司 语音报表生成方法、装置、设备及存储介质
CN113377804A (zh) * 2021-06-30 2021-09-10 北京三快在线科技有限公司 一种数据处理方法、装置、存储介质及电子设备
CN114090620A (zh) * 2022-01-19 2022-02-25 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置
WO2023138378A1 (zh) * 2022-01-19 2023-07-27 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置
CN114090620B (zh) * 2022-01-19 2022-09-27 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置

Also Published As

Publication number Publication date
CN110222045B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN110222045A (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN110362660B (zh) 一种基于知识图谱的电子产品质量自动检测方法
US10678816B2 (en) Single-entity-single-relation question answering systems, and methods
CN104915340B (zh) 自然语言问答方法及装置
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
Arendarenko et al. Ontology-based information and event extraction for business intelligence
EP3799640A1 (en) Semantic parsing of natural language query
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112559684A (zh) 一种关键词提取及信息检索方法
CN111339269A (zh) 模板自动生成的知识图谱问答训练及应用服务系统
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN114997288A (zh) 一种设计资源关联方法
US20210034621A1 (en) System and method for creating database query from user search query
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
CN115114419A (zh) 问答处理方法、装置、电子设备和计算机可读介质
CN111159381A (zh) 数据搜索方法及装置
Greiner-Petter et al. Why machines cannot learn mathematics, yet
CN109472032A (zh) 一种实体关系图的确定方法、装置、服务器及存储介质
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN116090450A (zh) 一种文本处理方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant