CN110222194B - 基于自然语言处理的数据图表生成方法和相关装置 - Google Patents
基于自然语言处理的数据图表生成方法和相关装置 Download PDFInfo
- Publication number
- CN110222194B CN110222194B CN201910426646.9A CN201910426646A CN110222194B CN 110222194 B CN110222194 B CN 110222194B CN 201910426646 A CN201910426646 A CN 201910426646A CN 110222194 B CN110222194 B CN 110222194B
- Authority
- CN
- China
- Prior art keywords
- data
- natural language
- phrase
- chart
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供基于自然语言处理的数据图表生成方法和相关装置,其中,方法包括:获取目标用户输入的目标自然语言数据,目标自然语言数据为有关于生成数据图表的自然语言数据;基于自然语言处理对目标自然语言数据进行分词与语义分析,以确定目标自然语言数据的语法结构特征和目标自然语言数据对应的关键词序列,关键词序列包括至少一个数据图表关键词;确定与关键词序列对应的至少一个数据图表功能模板;根据语法结构特征对至少一个数据图表功能模板进行组装,以确定目标自然语言数据对应的数据图表功能模板集;依次调用并执行数据图表功能模板集中的数据图表功能模板,以生成目标自然语言数据对应的数据图表。该方案可提高数据图表的制作效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及基于自然语言处理的数据图表生成方法和相关装置。
背景技术
随着计算机技术日新月异的发展,企业信息化成为企业进步的必然趋势,人们越来越多地使用计算机进行各种数据的分析与处理,从而为企业的决策提供数据支撑。图表的主要目的是将数据,利用系统化的整理,依据不同的需求,以便于理解的方式呈现出来。图表作为信息系统中的数据展现的最重要的途径,发挥着巨大的作用。
目前,对于制作图表的企业人员来说,需要企业人员根据数据来源,利用生成图表软件(如Excel等),手动选择需要用于制作图表的数据和设置各种图表的参数以生成图表,操作复杂。
发明内容
本发明实施例提供基于自然语言处理(natural language processing,NLP)的数据图表生成方法和相关装置,解决目手动生成图表操作复杂的问题。
第一方面,提供一种基于自然语言处理的数据图表生成方法,包括:
获取目标用户输入的目标自然语言数据,所述目标自然语言数据为有关于生成数据图表的自然语言数据;
基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,所述关键词序列包括至少一个数据图表关键词;
确定与所述关键词序列对应的至少一个数据图表功能模板;
根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集;
依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表。
在该技术方案中,通过分析用户输入的目标自然语言数据的语义,确定与该语义相匹配的用于绘制图表的图表功能模块,然后根据自然语言数据中的词组之间的词组结构关系,确定各个图表功能模块对应的参数和各个图表功能模板的顺序,并按顺序对图表功能模块进行组装,得到与用户的目标自然语言数据对应的图表功能模块集合,依次执行该图表功能模块集合中的图表功能模块,即可生成该目标自然语言数据对应的图表,省去用户手动设置图表的参数等环节,提高了图表的制作效率。
结合第一方面,在一种可能的实现方式中,所述基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,包括:对所述目标自然语言数据进行分词处理,得到所述目标自然语言数据对应的词组序列,所述词组序列包括多个词组;对所述词组序列中的每个词组进行词性标注,以得到所述每个词组的词性标签;基于词组结构分析确定所述词组序列中的各个词组相互之间的词组结构关系;以每个词组为节点构建词组结构树,所述词组结构树包括每个节点之间的词组结构关系以及每个节点之间的父子节点关系;根据所述每个词组的词性标签、所述词组结构树中每个节点之间的词组结构关系和所述每个节点之间的父子节点关系,构建所述目标自然语言数据的语法结构特征;将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词;根据所述至少一个数据图表关键词形成所述目标自然语言数据对应的关键词序列。通过对用户输入的目标自然语言数据进行分词处理、词性标注以及词组结构关系分析等过程,可确定用户输入的目标自然语言数据的语法结构特征和目标自然语言数据中包含的与数据图表有关的数据图表关键词。
结合第一方面,在一种可能的实现方式中,所述将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词,包括:根据所述每个词组的词性标签将所述词组序列中词性标签为名词和形容词的词组确定为目标词组;将所述目标词组与所述预设模板关键词进行关联度匹配;如果所述目标词组与所述预设模板关键词的关联度大于关联度阈值,则确定所述目标词组为数据图表关键词。通过将自然语言数据中的词性为名词和形容词的词组与预设模板关键词进行关联度进行匹配,可以确定用于确定数据图表功能模板的数据图表关键词。
结合第一方面,在一种可能的实现方式中,所述根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集,包括:根据所述语法结构特征分别确定所述关键词序列中的各个数据图表关键词对应的邻近节点;根据所述各个数据图表关键词与所述各个数据图表关键词对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组;根据词组与参数的对应关系分别将与所述各个数据图表关键词具有预设词组结构关系的词组转化为各个数据图表关键词对应的图表功能模板所对应的参数;分别利用各个图表功能模板所对应的参数替换所述图表功能模板中的默认参数;按顺序组装所述各个图表功能模板,得到所述目标自然语言数据对应的数据图表功能模板集。通过分析用户输入的目标自然语言数据中的各个词组之间的关联关系,可确定词组序列中与数据图表关键词有关联关系的词组,进而可分析出图表功能模板的默认参数。
结合第一方面,在一种可能的实现方式中,所述依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表之后,还包括:统计所述目标用户对应的图表生成情况,所述图表生成情况包括已经为所述目标用户生成的数据图表的种类、已经为所述目标用户生成的数据图表的数据来源或已经为所述目标用户生成的数据图表的数量中的至少一种;根据所述图表生成情况为所述目标用户生成图表生成情况报表。通过对用户生成图表的情况进行统计和分析并生成统计报表,可使用户了解自己的图表生成情况。
结合第一方面,在一种可能的实现方式中,所述依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表之后,还包括:生成所述数据图表对应的图表标签,将所述图表标签和所述数据图表保存至所述目标用户对应的图表存储空间。通过为数据图表生成图表标签并保存,在后续查找时可直接利用图表标签查找数据图表,加快了查找的效率。
第二方面,提供一种基于自然语言处理的数据图表生成装置,包括:
数据获取模块,用于获取目标用户输入的目标自然语言数据,所述目标自然语言数据为有关于生成数据图表的自然语言数据;
分析模块,用于基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,所述关键词序列包括至少一个数据图表关键词;
功能模板确定模块,用于确定与所述关键词序列对应的至少一个数据图表功能模板;
组装模块,用于根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集;
图表生成模块,用于依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表。
第三方面,提供另一种基于自然语言处理的数据图表生成装置,包括处理器、存储器以及输入输出接口,所述处理器、存储器和输入输出接口相互连接,其中,所述输入输出接口用于输入或输出数据,所述存储器用于存储基于自然语言处理的数据图表生成装置执行上述方法的应用程序代码,所述处理器被配置用于执行上述第一方面的方法。
第四方面,提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
上述方案存在如下有益效果:省去用户手动设置图表的参数等环节,提高图表的制作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种通信系统的架构示意图;
图2是本发明实施例提供的一种基于自然语言处理的数据图表生成方法的流程示意图;
图3A-3B是本发明实施例提供的一种词组结构树的示意图;
图4是本发明实施例提供的另一种基于自然语言处理的数据图表生成方法的流程示意图;
图5是本发明实施例提供的一种基于自然语言处理的数据图表生成装置的组成结构示意图;
图6是本发明实施例提供的另一种基于自然语言处理的数据图表生成装置的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的技术方案可以应用于数据展示、业务汇报、数据分析等需要利用数据图表来直观清楚地呈现或展示的原始数据的变化趋势、数据分布、数据占比等情况的场景中。例如,本发明实施例的方案可具体应用于利用数据图表来展示销售业绩的趋势的场景中;又如,本发明实施例的方案还可具体应用于利用数据图表来分析某一城市人口中各个年龄层的人口占比的场景中;又如,本发明实施例的方案还可以具体应用于利用数据图表来展示某个国家的各个城市的生产总值在这些场景中,等等,不限于这里的描述。
本发明实施例的技术方案可应用于由终端设备和服务器组成的通信系统中。该通信系统可以如图1所示,通信系统100可包括一个或多个终端设备101和一个或多个服务器102。其中,终端设备101用于与用户交互,终端设备10可用于获取目标用户输入的自然语言数据,并将用户输入的自然语言数据提交给服务器102;终端设备101还可用于接收服务器根据该自然语言数据生成的数据图表,并向用户显示该数据图表。具体地,该终端设备包括但不限于为个人电脑、平板电脑、手机、IPAD等。该一个或多个服务器102可组成数据处理后台系统,用于为终端设备提供后台业务支持,如用于为终端设备提供生成数据图表的业务支持,服务器可用于接收终端设备101获取到的用户输入的自然语言数据,根据该自然语言数据生成该自然语言数据对应的数据图表;服务器102还可用于将该数据图表发送给终端设备101。
在一种可能的实现方式中,该通信系统可以为基于浏览器与服务器(browser/server,B/S)模式或基于客户端与服务器模式的网站系统,该网站系统可包括网站客户端和网站服务端。其中,网站客户端可运行在终端设备101上,用于为用户提供服务,该网站客户端可以是通用型的客户端,通用型的客户端可以为多个网站服务器提供服务,通用型的客户端例如可以为浏览器;该网站客户端也为可以特定的客户端,该特定的客户端只用于为某个特定网站提供服务,特定的客户端例如可以为专为生成数据图表而设计的客户端。具体地,该特定客户端可以是指运行在电脑上的电脑客户端,也可以是指运行在手机、平板电脑等上的应用客户端(application,APP)。网站服务端由服务器102组成,用于管理并向网站客户端提供该网站系统的资源,网站服务端用于向网站客户端提供各种数据使得该网站客户端可以向用户显示各种页面。
可选地,本发明实施例的技术方案也可应用于可生成数据图表的独立设备上,该独立设备可以为上述提到的终端设备101或服务器102,该独立的设备也可以为其他用于生成数据图表的设备,本发明实施例不做限制。
以下介绍发明实施例的技术方案。
参见图2,图2是本发明实施例提供的一种基于自然语言处理的数据图表生成方法的流程示意图,该方法可实现在上述通信系统100中或可生成数据图表的独立设备上,如图所示,该方法包括如下步骤:
S201,获取目标用户输入的目标自然语言数据,目标自然语言数据为有关于生成数据图表的自然语言数据。
这里,目标自然语言数据可以为语音数据或文本数据。在一种可能的场景中,用户可以向终端设备或服务器等与用户交互的设备说出语音数据,该语音数据为自然语言,那么,该语音数据即为目标自然语言数据。例如,用户可以说出“以表1中的数据为数据来源,生成X轴为月份并且Y轴为销售额的柱状图”,那么该“以表1中的数据为数据来源,生成X轴为月份并且Y轴为销售额的柱状图”对应的语音数据即为有关于生成数据图表的自然语言数据,即目标自然语言数据。在另一种可能的场景中,用户也可以通过文字输入的方式向终端设备或服务器等与用户交互的设备输入文本数据,该文本数据即为目标语言数据。例如,用户在与用户交互的设备的显示界面上输入对图表的需求内容,该需求内容具体为“以表1中的数据为数据来源,生成X轴为月份并且Y轴为销售额的柱状图”,那么,该“以表1中的数据为数据来源,生成X轴为月份并且Y轴为销售额的柱状图”即为有关于生成数据图表的自然语言数据,即目标自然语言数据。
其中,当目标语言数据为语音数据时,可以基于语音识别技术生成该目标语言数据对应的目标文本信息,该目标文本信息可以为中文文本信息。
可选地,当获取到的目标用户的目标语言数据不为有关于生成数据图表的自然语言数据时,则结束当前的流程。进一步地,还可以向用户发出“输入错误”、“输入有误”、“请再次输入”、“请重写输入”等提示。
S202,基于NLP对目标自然语言数据进行分词与语义分析,以确定目标自然语言数据的语法结构特征和目标自然语言数据对应的关键词序列,关键词序列包括至少一个数据图表关键词。
本发明实施例中,基于NLP对目标自然语言数据进行分词与语义分析,以确定目标自然语言数据的语法结构特征和目标和目标自然语言数据对应的关键词序列包括如下步骤:
一、对目标自然语言数据进行分词(word segmentation,WS)处理,得到目标自然语言数据对应的词组序列,目标自然语言数据对应的词组序列包括多个词组。
这里,对目标自然语言数据进行分词处理,是指对目标自然语言数据对应的文本信息进行分词,分词可以是指将文本信息序列切分成一个或多个词序列,本发明实施例将对文本信息进行分词后得到的多个词序列称之为多个词组。
具体实现中,可以通过分词算法对目标自然语言数据对应的文本信息进行分词。其中,用于对目标自然语言数据对应的文本信息进行分词的分词算法可以包括基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法,等等,不限于这里的描述。
二、对目标自然语言数据对应的词组序列中的每个词组进行词性标注(part-of-speech tagging,POS tagging),以得到每个词组的词性标签。
这里,对每个词组进行词性标注是指为每个词组标注一个最为合适的词性的过程,也即确定每个词组为名词、动词、形容词或其他词性的过程。进行词性标注后,每个词组具备一个词性标签,其中,词性标签用于标识词组的词性。每个词组的词性标签可以为以下任意一种:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词以及拟声词。其中,名词、动词、形容词、数词、量词、代词为实词,副词、介词、连词、助词、叹词和拟声词为虚词。
例如,目标自然语言数据对应的文本信息为“以表1中的数据为数据来源,生成X轴为月份并且Y轴为销售额的柱状图”,对文本信息分词得到的词组分别为“以”、“表”、“1”、“的”、“数据”、“为”、“数据来源”、“生成”、“X轴”、“为”、“月份”、“并且”、“Y轴”、“为”、“销售额”、“的”、“柱状图”,分别对每个词组进行词性标注,得到每个词组的词性标签为:“以”的词性标签为介词;“表”的词性标签为名词;“1”的词性标签为量词;“的”的词性标签为助词;“数据”的词性标签为“名词”;“为”的词性标签为动词;“数据来源”的词性标签为“名词”;“生成”的词性标签为动词;“X轴”的词性标签为名词;“为”的词性标签为动词;“月份”的词性标签为名词;“并且”的词性标签为连词;“Y轴”的词性标签为名词;“为”的词性标签为动词;“销售额”的词性标签为名词;“的”的词性标签为助词;“柱状图”的词性标签为名词。
具体实现中,可以基于隐马尔可夫模型(hidden Markov model)并结合维特比(Viterbi)算法和/或最大熵(maximum entropy)算法对目标自然语言数据对应的词组序列中的每个词组进行词性标注,以得到每个词组的词性标签。
三、基于词组结构分析确定目标自然语言数据对应的词组序列中的各个词组相互之间的词组结构关系。
本发明实施例中,词组结构分析可以包括:依存句法分析或语义依存分析中的一种或多种。
这里,依存句法分析是指通过分析语言单位内成分之间的依存关系揭示其句法结构的过程,换言之,基于依存句法分析可以识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的语义修饰关系。其中,各成分之间的关系可以为如下关系中的一种:主谓关系(subject-verb,SBV)、动宾关系(verb-object,VOB)、间宾关系(indirect-object,IOB)、前置宾语(fronting-object,FOB)、兼语(double,DBL)、定中关系(attribute,ATT)、状中结构(adverbial,
ADV)、动补结构(complement,CMP)、并列关系(coordinate,COO)、介宾关系(preposition-object,POB)、左附加关系(left adjunct,LAD)、右附加关系(rightadjunct,RAD)、独立结构(independent structure,IS)、标点(punctuation,
WP)、核心关系(head,HED)、数量关系(quantity,QUN)、同位关系(appositive,
APP)、比拟关系(similarity,SIM)、时间关系(temporal,TMP)、处所关系(locative,LOC)、“的”字结构(DE)、“地”字结构(DI)、“得”字结构(DEI)、“所”字结构(SUO)“把”字结构(BA)、“被”字结构(BEI)、关联词(conjunction,CNJ)、关联结构(conjunctivestructure,CS)、语态结构(mood-tense,MT)、连动结构(verb-verb,VV)、双宾语(doubleobject,DOB)、主题(topic,TOP)、独立分句(independent clause,IC)、依存分句(dependent clause,DC)、叠词关系(verb-no-verb or verb-one-verb,VNV)、一个词(YGC)。
在进行依存句法分析分析的过程中,可以以词组序列中词性为动词的词组为中心成分,分别确定词组序列中的各个词组相互之间的依存关系。例如,词组序列为“以”、“表”、“1”、“的”、“数据”、“为”、“数据来源”、“生成”、“X轴”、“为”、“月份”、“并且”、“Y轴”、“为”、“销售额”、“的”、“柱状图”,则可以以“生成”为中心成分,确定各个词组相互之间的依存关系,这里,确定的各个词组相互之间的依存关系可以为:“以”与“为”的依存关系为状中结构,“以”与“数据”的依存关系为介宾关系,“数据”与“的”依存关系为定中关系,“的”与“1”的依存关系为“的”字结构,“1”与“表”的依存关系为定中关系,“为”与“数据来源”的依存关系为动宾关系,“数据来源”与“,”的依存关系为标点,“以”与“生成”的依存关系为状中结构,“生成”与“柱状图”的依存关系为动宾关系“柱状图”与“的”的依存关系为定中关系,“的”与“销售额”的依存关系为“的”字结构,“销售额”与“为”的依存关系为介宾关系,“销售额”与“Y轴”的依存关系为定中关系,“Y轴”与“并且”的依存关系为左附加关系,“Y轴”与“X轴”的依存关系为并列关系,“X轴”与“月份”的依存关系为定中关系,“月份”与“为”的依存关系为介宾关系。
这里,语义依存分析是指分析句子各个语言单位之间的语义关联,将各个语言单位之间的语义关联以依存结构呈现,语义依存分析的过程即为确定句子中的各个语言单位之间的语义关系的过程,其中,语言单位可以理解为词组。其中,各个语言单位之间的语义关系类型可以包括:施事关系(agent,Agt)、当事关系(experiencer,Exp)、感事关系(affection,Aft)、领事关系(possessor,Poss)、受事关系(patient,Pat)、客事关系(content,Cont)、成事关系(product,Prod)、源事关系(Origin,Orig)、涉事关系(dative,Datv)、比较角色(comitative,Comp)、属事角色(belongings,Belg)、类事角色(Classicfication,Class)、依据角色(according,Accd)、缘故角色(reason,Reas)、意图角色(intention,Int)、结局角色(Consequence,Cons)、方式角色(manner,Mann)、工具角色(tool,Tool)、材料角色(material,Malt)、时间角色(time,Time)、空间角色(location,Loc)、历程角色(process,Proc)、趋向角色(direction,Dir)、范围角色(scope,Sco)、数量角色(quantity,Quan)、数量数组(quantity-phrase,Qp)、频率角色(frequency,Freq)、顺序角色(sequence,Seq)、描写角色(description,Desc)、宿主角色(host,Host)、名字修饰角色(name-modifier,Nmod)、时间修饰角色(time-modifier,Tmod)、反角色、嵌套角色、并列关系(event coordination,eCoo)、选择关系(event seletion,eSelt)、等同关系(eventequivalent,eEqu)、先行关系(event precedent,ePrec)、顺承关系(event successor,eSucc),等等。
具体实现中,可以通过词组结构分析方法对自然语言数据对应的词组序列中的各个词组进行词组结构分析,以确定各个词组相互之间的词组结构关系。其中,词组结构分析方法可以包括基于图的词组结构分析方法,基于转移的词组结构分析方法,等等,不限于这里的描述。
四、以每个词组为节点构建词组结构树,词组结构树包括每个节点之间的词组结构关系以及每个节点之间的父子节点关系。
这里,以每个词组为节点构建词组结构树是以具备词组结构关系的两个词组序列分别作为父节点和子节点,以树形结构将词组序列中的词组之间的词组结构关系表示出来。
具体地,若词组结构分析为依存句法分析,则可以将所构建的词组结构树称之为句法结构树,即该句法结构树中的每个节点(即每个词组)之间的字符结构关系可以为依存关系。句法结构树中每个节点之间的父子节点关系是由每个节点之间的依存关系所确定的。若字符结构分析为语义依存分析,则可以将所构建的词组结构树称之为语义结构树,语义结构树中的节点与句法结构树中的节点是相同的,但两种词组结构树中的节点间的父子节点关系不同,且节点间的字符结构关系也不同。在语义结构树中,每个节点之间的字符结构关系为语义关系,因此,每个节点之间的父子节点关系是由每个节点之间的语义关系所确定的。
例如,词组序列为“以”、“表”、“1”、“的”、“数据”、“为”、“数据来源”、“生成”、“X轴”、“为”、“月份”、“并且”、“Y轴”、“为”、“销售额”、“的”、“柱状图”。词组结构分析为依存句法分析,对词组序列进行依存句法分析后得到的结果如前所述,则构建的词组结构树可以如图3所示,每个词组均作为词组结构树的节点,其中,根节点“root”是节点“生成”的父节点,且节点“生成”与其父节点的依存关系为HED(即核心关系);节点“生成”是节点“以”和节点“柱状图”的父节点,且节点“以”与其父节点的依存关系为ADV(即状中结构),节点“柱状图”与其父节点的依存关系是VOB(即动宾关系);节点“以”是节点“为”和节点“数据”的父节点,且节点“为”与其父节点的依存关系为ADV(即状中结构),节点“数据”与其父节点的依存关系为POB(即介宾关系);节点“为”是节点“数据来源”的父节点,节点“数据来源”与其父节点的依存关系为VOB(即动宾关系);节点“数据来源”是节点“,”的父节点,节点“,”与其父节点的依存关系为WP(即标点);节点“数据”是节点“的”的父节点,节点“的”与其父节点的依存关系为ATT(即定中关系);节点“的”是节点“1”的父节点,节点“1”与其父节点的依存关系为DE(即“的”字结构);节点“1”是节点“表”的父节点,节点“表”与其父节点的依存关系为ATT(定中关系);节点“柱状图”是节点“的”的父节点,节点“的”与其父节点的依存关系为ATT(即定中关系);节点“的”是节点“销售额”父节点,节点“销售额”与其父节点的依存关系为DE(即“的”字结构);节点“销售额”是节点“为”和节点“Y轴”的父节点,节点“为”与其父节点的依存关系为POB(即介宾关系),节点“Y轴”与其父节点的依存关系为ATT(即定中关系);节点“Y轴”为节点“X轴”和节点“并且”的父节点,节点“X轴”与其父节点的依存关系为COO(即并列关系),节点“并且”与其父节点的依存关系为LAD(即左附加关系);节点“X轴”为节点“为”和节点“月份”的父节点,节点“为”与其父节点的依存关系为POB(即介宾关系),节点“月份”与其父节点的依存关系为ATT(即定中关系)。
通过构建词组结构树,可明确清楚地获知词组序列中的各个词组之间的关联关系。
五、根据每个词组的标签、词组结构树中每个节点之间的词组结构关系和每个节点之间的父子节点关系,构建目标自然语言数据的语法结构特征。
具体地,可以对词组结构树进行遍历,从词组结构树的根节点(属于最上层的节点)开始,逐渐往下层的节点遍历,按照遍历的顺序可以为每个节点分别对应的词性标签设置一个索引号,使得词组结构树上的每一个节点都是唯一的。
在一种可能的实现方式中,可以基于广度优先的方式对词组结构树的节点进行遍历,即从根节点开始,沿着词组结构树的宽度搜索遍历,即先遍历第一层的节点,再遍历第二层的节点。例如,对图3A的词组结构树进行广度遍历,访问根节点“root”后,第二个访问到的节点为“生成”,“生成”的词性标签为v(v表示动词),设置其索引号为0,并用字符串“v_0”表征该节点;第三个访问到的节点为“以”,“以”的词性标签为prep(prep表示介词),设置其索引号为0,并用字符串“prep_0”表征该节点;第四个访问到的节点为“柱状图”,“柱状图”的词性标签为n(n表示名词),设置其索引号为0,并用字符串“n_0”表征该节点;第五个访问到的节点为“为”,“为”的词性标签为v,节点“为”是第二次访问到的动词,所以设置节点“为”的索引号为1,并用字符串“v_1”表征该节点;以此类推可得到词组结构树的所有节点对应的字符串,利用各个节点对应的字符串对图3A所示的词组结构树中的节点进行替换,可得到如图3B所示的用字符串表征节点的词组结构树。
在另一种可能的实现方式中,也可以基于深度优先的方式对词组结构树的节点进行遍历,即从根节点开始,沿着词组结构树的深度搜索遍历,即沿着第一层的父节点,先遍历左子树的节点,再遍历右子树的节点。例如,对图3的词组结构树进行深度遍历,访问根节点“root”后,第二个访问到的节点为“生成”,“生成”的词性标签为v(v表示动词),设置其索引号为0,并用字符串“v_0”表征该节点;第三个访问到的节点为“以”,“以”的词性标签为prep(prep表示介词),设置其索引号为0,并用字符串“prep_0”表征该节点;第四个访问到的节点为“为”,“为”的词性标签为v(v表示动词),节点“为”是第二次访问到的动词,所以设置节点“为”的索引号为1,并用字符串“v_1”表征该节点;第五个访问到的节点为“数据来源”,“数据来源”的词性标签为n,设置其索引号为0,并用字符串“n_0”表征该节点;以此类推可得到词组结构树的所有节点对应的字符串。
在得到各个词组对应的索引号后,可以根据各个词组词性标签、词组结构树中的多个词组之间的依存关系和父子节点关系、每个词组分别对应的索引号,构建目标自然语言数据对应的语法结构特征,其中,该语法结构特征可以由每个词字符对应的用于表示语法结构的字符串组成,因此,语法结构特征是一种字符串表示形式,这种表示形式的语法结构特征可以提高后续的索引速度。具体地,可以根据该词组结构树中的每个节点之间的父子节点关系对每个节点对应的用于表示语法结构的字符串进行组合,得到目标自然语言数据对应的语法结构特征。其中,语法结构特征中的括号用于表示词组结构树的父子节点关系。例如,基于广度优先的方式对词组结构树的节点进行遍历得到各个词组对应的索引号和字符串,则根据该词组结构树中的每个节点之间的父子节点关系对每个节点对应的用于表示语法结构的字符串进行组合的语法结构特征为:v_HED_0(prep_ADV_0(v_ADV_1(n_VOB_3(wp_WP_0))n_ADV_1(a_ADV_1(q_DE_0(n_ATT_5))))n_VOB_0(a_ATT_0(n_DE_4(v_POB_2n_ATT_4(n_ADV_6(v_POB_3n_ATT_7)con_LAD_0)))))。
六、将词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词。
其中,可以根据每个词组的词性标签将词组序列中词性标签为名词和形容词的词组确定为目标词组;将目标词组与预设模板关键词词进行关联度匹配;如果目标词组与预设模板关键词的关联度大于关联度阈值,则确定目标词组为数据图表关键词。
这里,预设模板关键词为用于描述数据图表的各方面的属性的词组。预设模板关键词可以有多个。具体地,预设模板关键词可包括用于描述数据图表的形态的词组,例如,预设模板关键词可以包括柱状图、条形图、点状图、柱形图、散点图、面积图等词组。预设模板关键词还可包括用于描述数据图表的基本属性的词组,例如,预设模板关键词可包括X轴、Y轴、数据范围、数据来源等词组。预设模板关键词还可包括用于描述数据图表的样式的词组,例如,预设模板关键词可以包括颜色、色彩、形状等词组。其中,可以是一个预设模板关键词对应一个数据图表功能模板,也可以是多个预设模板关键词对应一个数据图表功能模板,每个数据图表功能模板可用于实现该数据图表功能模板对应的预设模板关键词所对应的绘图功能。
在一种可能的实现方式中,将目标词组与预设模板关键词进行关联度匹配可以是指比较目标词组是否与预设模板关键词相同,如果目标词组与预设模板关键词相同,则确定目标词组与预设模板关键词的关联度大于关联度阈值,进而确定目标词组为数据图表关键词。例如,预设模板关键词为X轴,目标词组为X轴,则确定该目标词组为数据图表关键词。
在另一种可能的实现方式中,将目标词组与预设模板关键词进行关联度匹配可以是指比较目标词组的语义与预设模板关键词的语义是否相同或接近,如果目标词组的语义与预设模板关键词的语义相同或接近,则确定目标词组与预设模板关键词的关联度大于关联度阈值,进而确定目标词组为数据图表关键词。例如,预设模板关键词为数据范围,目标词组为数据来源,则确定该目标词组与预设模板关键词的关联度大于关联度阈值,进而确定目标词组为数据图表关键词。
在又一种可能的实现方式中,还可以联网查询目标词组与预设模板关键词在各种语境中的使用情况,根据目标词组与预设模板关键词在各种语境中的使用情况确定目标词组与预设模板关键词的关联度,进而确定目标词组与预设模板关键词的关联度是否大于关联度阈值。例如,在多个语境中,既可以使用该目标词组,又可以使用该预设模板关键词,则确定目标词组与预设模板关键词的关联度较高。
以下举例来对确定数据图表关键词的过程进行说明。例如,词组序列中分别包括的词组为“以”、“表”、“1”、“的”、“数据”、“为”、“数据来源”、“生成”、“X轴”、“为”、“月份”、“并且”、“Y轴”、“为”、“销售额”、“的”、“柱状图”,预设模板关键词包括数据来源、X轴、Y轴,则确定数据图表关键词的过程为:首先,根据各个词组的词性标签可确定词性为名词和形容词的词组为“数据”、“表”、“数据来源”、“X轴”、“月份”、“Y轴”、“销售额”以及“柱状图”,分别将这些词组与预设模板关键词进行关联度匹配,其中,“X轴”、“Y轴”以及“数据来源”与预设模板关键词相同,则确定“X轴”、“Y轴”、“数据来源”以及“柱状图”为数据图表关键字。
七、根据至少一个数据图表关键词形成目标自然语言数据对应的关键词序列。
例如,确定“X轴”、“Y轴”、“数据来源”以及“柱状图”为数据图表关键字,则形成的关键词序列可以为{X轴,Y轴,数据来源,柱状图}。
S203,确定与关键词序列对应的至少一个数据图表功能模板。
这里,数据图表功能是预先设计好的功能模块,不同的数据图表功能模板可实现不同的绘制数据图表的功能。在通过步骤S202确定了各个数据图表关键词后,可以分别确定关键词序列中的各个数据图表关键词对应的预设模板关键词,根据各个数据图表关键词对应的预设模板关键词所对应的数据图表功能模板确定为与关键词序列对应的至少一个数据图表功能模板。
例如,关键词序列中的数据图表关键词分别为X轴、Y轴和数据来源,其分别对应预设关键字X轴,Y轴、数据来源和柱状图,其中,X轴和Y轴对应图表功能模板1,数据来源对应图表功能模板2,柱状图对应图表功能模板3,则确定数据图表功能模板1、数据图表功能模板2以及数据图表功能模板3为关键词序列对应的至少一个数据图表功能模板。
S204,根据目标自然语言数据的语法结构特征对至少一个数据图表功能模板进行组装,以确定目标自然语言数据对应的数据图表功能模板集。
具体地,可以根据语法结构特征确定各个数据图表关键词对应的邻近节点,然后根据各个数据图表关键词与各个数据图表对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组;根据词组与参数的对应关系分别将与所述各个数据图表关键词具有预设词组结构关系的词组转换为各个数据图表关键词对应的图表功能模板所对应的参数;分别利用各个图表功能模板所对应的参数替换各个图表功能模板中的默认参数;按顺序组装各个图表功能模板,得到目标自然语言数据对应的数据图表功能模板集。
这里,根据各个数据图表关键词与各个数据图表对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组是指找到与各个数据图表关键词具备关联关系的词组。在一种可能的实现方式中,可以各个数据图表关键词为起点,遍历与数据图表在一个子树上的节点,确定在该词组结构树中的词性为名词或形容词的与该数据图表关键词邻近的并且不为数据图表关键词的一个或多个节点,结合该一个或多个节点与数据图表关键词之间的直接或间接的关系,确定与各个数据图表具备关联关系的词组。其中,在数据图表关键词有多个的情况下,可以以处于最深层的数据图表关键词开始确定与各个数据图表关键词具备关联关系的词组。以图3A的词组结构树为例,根据前述可知,数据图表关键词为X轴、Y轴、数据来源以及柱状图,则根据图3A所示的词组结构树可知,与X轴邻近的词性为名词的节点为月份和Y轴,由于Y轴为数据图表关键词,则确定月份为与X轴具备关联关系的词组;与Y轴最近的词性为名词的节点为销售、X轴和柱状图,由于X轴和柱状图为数据图表关键词,则将销售额确定为与Y轴具备关联关系的词组;与柱状图邻近的词性为名词的节点为销售额,由于销售额为与Y轴具备关联关系的词组,则确定该词组结构树中没有与该柱状图具备关联关系的词组;与数据来源邻近的词性为名词的节点为数据、1、表,则确定数据、1、表为与数据来源具备关联关系的词组,对数据、1、表1的数据进行进一步分析可确定与数据来源具备关联关系的词组为表1的数据。具体实现中,可通过遍历该词组结构树中对应语法结构特征以确定与数据图表关键词具备关联关系的词组,可以从该语法结构特征的最内层开始向外遍历。可选地,也可以通过其他的实现方式找到与各个数据图表关键词具备关联关系的词组,本发明实施例不做限制。在确定与各个数据图表关键词具备关联关系的词组后,可根据预设的转换规则将与各个数据图表关键词具备关联关系的词组转换为参数。
这里,可以根据各个图表功能模板之间的执行顺序以及目标自然语言数据的结构特征,确定进行参数替换后的各个图表功能模板的顺序,按顺序组装进行参数替换后的各个图表功能模板,得到该目标自然语言数据对应的数据图表功能集合。
S205,依次调用并执行数据图表功能模板集中的数据图表功能模板,以生成目标自然语言数据对应的数据图表。
本发明实施例中,通过分析用户输入的目标自然语言数据的语义,确定与该语义相匹配的用于绘制图表的图表功能模块,然后根据自然语言数据中的词组之间的词组结构关系,确定各个图表功能模块对应的参数和各个图表功能模板的顺序,并按顺序对图表功能模块进行组装,得到与用户的目标自然语言数据对应的图表功能模块集合,依次执行该图表功能模块集合中的图表功能模块,即可生成该目标自然语言数据对应的图表,省去用户手动设置图表的参数等环节,提高了图表的制作效率。
在一些可能的情况中,在根据用户的目标自然语言数据生成数据图表后,还可以统计当前已经为用户生成的图表的情况,并向用户展示。参见图4,图4是本发明实施例提供的另一种基于自然语言处理的数据图表生成方法的流程示意图,该方法可实现在上述通信系统100中或可生成数据图表的独立设备上,如图所示,该方法包括如下步骤:
S301,获取目标用户输入的目标自然语言数据,目标自然语言数据为有关于生成数据图表的自然语言数据。
S302,基于NLP对目标自然语言数据进行分词与语义分析,以确定目标自然语言数据的语法结构特征和目标自然语言数据对应的关键词序列,关键词序列包括至少一个数据图表关键词。
S303,确定与关键词序列对应的至少一个数据图表功能模板。
S304,根据目标自然语言数据的语法结构特征对至少一个数据图表功能模板进行组装,以确定目标自然语言数据对应的数据图表功能模板集。
S305,依次调用并执行数据图表功能模板集中的数据图表功能模板,以生成目标自然语言数据对应的数据图表。
这里,步骤S301~S305的具体实现方式可参考前述图2对应的实施例中步骤S201~S205的描述,此处不再赘述。
S306,统计目标用户对应的图表生成情况,目标用户对应的图表生成情况包括已经为目标用户生成的数据图表的种类、已经为目标用户生成的数据图表的数据来源或已经为目标用户生成的数据图表的数量中的至少一种。
具体地,可以统计该目标用户从历史的某个时间至当前时间这一段时间内的数据图表的生成情况;例如,可以通过过去5天内的数据图表的生成情况。也可以统计为该目标用户生成的所有的数据图表的情况。例如,用户第一次生成数据图表的时间是从2018年12月31日,则可以统计从2018年12月31日至当前为该目标用户生成的所有数据图表的情况。具体实现中,可以为每个目标用户划分一个数据图表存储空间,该数据图表存储空间用于存储某一目标用户生成的数据图表的有关信息,在统计目标用户对应的图表生成情况时,可根据该目标用户对应的数据图表存储空间中存储的有关信息确定已经为目标用户生成的数据图表的种类、已经为目标用户生成的数据图表的数据来源或已经为目标用户生成的数据图表的数量中的至少一种信息。
S307,根据目标用户对应的图表生成情况为目标用户生成图表生成情况报表。
这里,在根据目标用户对应的图表生成情况为目标用户生成图表生成情况报表后,还可以将该图表生成情况报表推送给目标用户。其中,将图表生成情况报表推送给目标用户可以是指向用户显示该图表生成情况报表,或者,将该图表生成情况报表中的内容以语音的形式播放,或者,将该图表生成情况推送给用户终端,以使该用户终端显示该图表生成情况报表或以语音的形式播放该图表生成情况报表中的内容。
本发明实施例中,在根据用户输入的目标自然语言数据生成该目标自然语言数据对应的数据图表后,对用户生成图表的情况进行统计和分析并生成统计报表,可使用户了解自己的图表生成情况。
可选地,在依次调用并执行数据图表功能模板集中的数据图表功能模板,以生成该目标自然语言数据对应的数据图表之后,还可以生成该数据图表对应的图表标签,并将图表标签和该数据图表保存至目标用户对应的图表存储空间。其中,图表标签是用于对该数据图表的各种属性进行描述的标签信息,该图表标签可包括该数据图表的名称、该数据图表的作用、该数据图表对应的内容的概括性描述信息、该数据图表的类型、该数据图表的色彩信息等标签信息的一种或多种。通过为数据图表生成图表标签并保存,在后续查找时可直接利用图表标签查找数据图表,加快了查找的效率。
上面介绍了发明实施例的方法,下面介绍发明实施例的装置。
参见图5,图5是本发明实施例提供的一种基于自然语言处理的数据图表生成装置的组成结构示意图,该装置40包括:
数据获取模块401,用于获取目标用户输入的目标自然语言数据,所述目标自然语言数据为有关于生成数据图表的自然语言数据;
分析模块402,用于基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,所述关键词序列包括至少一个数据图表关键词;
功能模板确定模块403,用于确定与所述关键词序列对应的至少一个数据图表功能模板;
组装模块404,用于根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集;
图表生成模块405,用于依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表。
在一种可能的设计中,所述分析模块402具体用于:
对所述目标自然语言数据进行分词处理,得到所述目标自然语言数据对应的词组序列,所述词组序列包括多个词组;
对所述词组序列中的每个词组进行词性标注,以得到所述每个词组的词性标签;
基于词组结构分析确定所述词组序列中的各个词组相互之间的词组结构关系;
以每个词组为节点构建词组结构树,所述词组结构树包括每个节点之间的词组结构关系以及每个节点之间的父子节点关系;
根据所述每个词组的词性标签、所述词组结构树中每个节点之间的词组结构关系和所述每个节点之间的父子节点关系,构建所述目标自然语言数据的语法结构特征;
将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词;
根据所述至少一个数据图表关键词形成所述目标自然语言数据对应的关键词序列。
在一种可能的设计中,所述分析模块402具体用于:根据所述每个词组的词性标签将所述词组序列中词性标签为名词和形容词的词组确定为目标词组;
将所述目标词组与所述预设模板关键词进行关联度匹配;
如果所述目标词组与所述预设模板关键词的关联度大于关联度阈值,则确定所述目标词组为数据图表关键词。
在一种可能的设计中,所述组装模块404具体用于:
根据所述语法结构特征分别确定所述关键词序列中的各个数据图表关键词对应的邻近节点;
根据所述各个数据图表关键词与所述各个数据图表关键词对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组;
根据词组与参数的对应关系分别将与所述各个数据图表关键词具有预设词组结构关系的词组转化为各个数据图表关键词对应的图表功能模板所对应的参数;
分别利用各个图表功能模板所对应的参数替换所述图表功能模板中的默认参数;
按顺序组装所述各个图表功能模板,得到所述目标自然语言数据对应的数据图表功能模板集。
在一种可能的设计中,所述装置40还包括:
统计模块406,用于统计所述目标用户对应的图表生成情况,所述图表生成情况包括已经为所述目标用户生成的数据图表的种类、已经为所述目标用户生成的数据图表的数据来源或已经为所述目标用户生成的数据图表的数量中的至少一种;
报表生成模块407,用于根据所述图表生成情况为所述目标用户生成图表生成情况报表。
需要说明的是,图5对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。
本发明实施例中,基于自然语言处理的数据图表生成装置通过分析用户输入的目标自然语言数据的语义,确定与该语义相匹配的用于绘制图表的图表功能模块,然后根据自然语言数据中的词组之间的词组结构关系,确定各个图表功能模块对应的参数和各个图表功能模板的顺序,并按顺序对图表功能模块进行组装,得到与用户的目标自然语言数据对应的图表功能模块集合,依次执行该图表功能模块集合中的图表功能模块,即可生成该目标自然语言数据对应的图表,省去用户手动设置图表的参数等环节,提高了图表的制作效率。
参见图6,图6是本发明实施例提供的另一种基于自然语言处理的数据图表生成装置的组成结构示意图,该装置50包括处理器501、存储器502以及输入输出接口503。处理器501连接到存储器502和输入输出接口503,例如处理器501可以通过总线连接到存储器502和输入输出接口503。
处理器501被配置为支持基于自然语言处理的数据图表生成装置执行图2-图4所述的基于自然语言处理的数据图表生成方法中相应的功能。该处理器501可以是中央处理器(central processdng undt,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(appldcatdon specdfdc dntegratedcdrcudt,ASDC),可编程逻辑器件(programmable logdc devdce,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logdc devdce,CPLD),现场可编程逻辑门阵列(fdeld-programmable gate array,FPGA),通用阵列逻辑(generdc array logdc,GAL)或其任意组合。
存储器502存储器用于存储程序代码等。存储器502可以包括易失性存储器(volatdle memory,VM),例如随机存取存储器(random access memory,RAM);存储器502也可以包括非易失性存储器(non-volatdle memory,NVM),例如只读存储器(read-onlymemory,ROM),快闪存储器(flash memory),硬盘(hard ddsk drdve,HDD)或固态硬盘(soldd-state drdve,SSD);存储器502还可以包括上述种类的存储器的组合。本发明实施例中,存储器502用于存储数据图表功能模块、数据图表、数据图表关键词等。
所述输入输出接口503用于输入或输出数据。
处理器501可以调用所述程序代码以执行以下操作:
获取目标用户输入的目标自然语言数据,所述目标自然语言数据为有关于生成数据图表的自然语言数据;
基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,所述关键词序列包括至少一个数据图表关键词;
确定与所述关键词序列对应的至少一个数据图表功能模板;
根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集;
依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表。
在一种可能的实施方式中,处理器501调用所述程序代码以执行基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,包括:
对所述目标自然语言数据进行分词处理,得到所述目标自然语言数据对应的词组序列,所述词组序列包括多个词组;
对所述词组序列中的每个词组进行词性标注,以得到所述每个词组的词性标签;
基于词组结构分析确定所述词组序列中的各个词组相互之间的词组结构关系;
以每个词组为节点构建词组结构树,所述词组结构树包括每个节点之间的词组结构关系以及每个节点之间的父子节点关系;
根据所述每个词组的词性标签、所述词组结构树中每个节点之间的词组结构关系和所述每个节点之间的父子节点关系,构建所述目标自然语言数据的语法结构特征;
将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词;
根据所述至少一个数据图表关键词形成所述目标自然语言数据对应的关键词序列。
在一种可能的实施方式中,处理器501调用所述程序代码以执行将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词,包括:
根据所述每个词组的词性标签将所述词组序列中词性标签为名词和形容词的词组确定为目标词组;
将所述目标词组与所述预设模板关键词进行关联度匹配;
如果所述目标词组与所述预设模板关键词的关联度大于关联度阈值,则确定所述目标词组为数据图表关键词。
在一种可能的实现方式中,处理器501调用所述程序代码以执行根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集,包括:
根据所述语法结构特征分别确定所述关键词序列中的各个数据图表关键词对应的邻近节点;
根据所述各个数据图表关键词与所述各个数据图表关键词对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组;
根据词组与参数的对应关系分别将与所述各个数据图表关键词具有预设词组结构关系的词组转化为各个数据图表关键词对应的图表功能模板所对应的参数;
分别利用各个图表功能模板所对应的参数替换所述图表功能模板中的默认参数;
按顺序组装所述各个图表功能模板,得到所述目标自然语言数据对应的数据图表功能模板集。
在一种可能的实现方式中,处理器501还可以调用所述程序代码以执行以下操作:
统计所述目标用户对应的图表生成情况,所述图表生成情况包括已经为所述目标用户生成的数据图表的种类、已经为所述目标用户生成的数据图表的数据来源或已经为所述目标用户生成的数据图表的数量中的至少一种;
根据所述图表生成情况为所述目标用户生成图表生成情况报表。
需要说明的是,各个操作的实现可以对应参照图2-图4所示的方法实施例的相应描述;所述处理器501还可以与输入输出接口503配合执行上述方法实施例中的其他操作。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法,所述计算机可以为上述提到的基于自然语言处理的数据图表生成装置的一部分。例如为上述的处理器501。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM或RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (8)
1.一种基于自然语言处理的数据图表生成方法,其特征在于,包括:
获取目标用户输入的目标自然语言数据,所述目标自然语言数据为有关于生成数据图表的自然语言数据;
基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,所述关键词序列包括至少一个数据图表关键词;
确定与所述关键词序列对应的至少一个数据图表功能模板;
根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集;
依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表;
其中所述基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,包括:
对所述目标自然语言数据进行分词处理,得到所述目标自然语言数据对应的词组序列,所述词组序列包括多个词组;
对所述词组序列中的每个词组进行词性标注,以得到所述每个词组的词性标签;
基于词组结构分析确定所述词组序列中的各个词组相互之间的词组结构关系;
以每个词组为节点构建词组结构树,所述词组结构树包括每个节点之间的词组结构关系以及每个节点之间的父子节点关系;
根据所述每个词组的词性标签、所述词组结构树中每个节点之间的词组结构关系和所述每个节点之间的父子节点关系,构建所述目标自然语言数据的语法结构特征;
所述根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集,包括:
根据所述语法结构特征分别确定所述关键词序列中的各个数据图表关键词对应的邻近节点;
根据所述各个数据图表关键词与所述各个数据图表关键词对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组;
根据词组与参数的对应关系分别将与所述各个数据图表关键词具有预设词组结构关系的词组转化为各个数据图表关键词对应的图表功能模板所对应的参数;
分别利用各个图表功能模板所对应的参数替换所述图表功能模板中的默认参数;
按顺序组装所述各个图表功能模板,得到所述目标自然语言数据对应的数据图表功能模板集。
2.根据权利要求1所述的方法,其特征在于,所述基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,还包括:
将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词;
根据所述至少一个数据图表关键词形成所述目标自然语言数据对应的关键词序列。
3.根据权利要求2所述的方法,其特征在于,所述将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词,包括:
根据所述每个词组的词性标签将所述词组序列中词性标签为名词和形容词的词组确定为目标词组;
将所述目标词组与所述预设模板关键词进行关联度匹配;
如果所述目标词组与所述预设模板关键词的关联度大于关联度阈值,则确定所述目标词组为数据图表关键词。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表之后,还包括:
统计所述目标用户对应的图表生成情况,所述图表生成情况包括已经为所述目标用户生成的数据图表的种类、已经为所述目标用户生成的数据图表的数据来源或已经为所述目标用户生成的数据图表的数量中的至少一种;
根据所述图表生成情况为所述目标用户生成图表生成情况报表。
5.一种基于自然语言处理的数据图表生成装置,其特征在于,包括:
数据获取模块,用于获取目标用户输入的目标自然语言数据,所述目标自然语言数据为有关于生成数据图表的自然语言数据;
分析模块,用于基于自然语言处理对所述目标自然语言数据进行分词与语义分析,以确定所述目标自然语言数据的语法结构特征和所述目标自然语言数据对应的关键词序列,所述关键词序列包括至少一个数据图表关键词,具体包括:对所述目标自然语言数据进行分词处理,得到所述目标自然语言数据对应的词组序列,所述词组序列包括多个词组;对所述词组序列中的每个词组进行词性标注,以得到所述每个词组的词性标签;基于词组结构分析确定所述词组序列中的各个词组相互之间的词组结构关系;以每个词组为节点构建词组结构树,所述词组结构树包括每个节点之间的词组结构关系以及每个节点之间的父子节点关系;根据所述每个词组的词性标签、所述词组结构树中每个节点之间的词组结构关系和所述每个节点之间的父子节点关系,构建所述目标自然语言数据的语法结构特征;
功能模板确定模块,用于确定与所述关键词序列对应的至少一个数据图表功能模板;
组装模块,用于根据所述语法结构特征对所述至少一个数据图表功能模板进行组装,以确定所述目标自然语言数据对应的数据图表功能模板集;具体用于:根据所述语法结构特征分别确定所述关键词序列中的各个数据图表关键词对应的邻近节点;根据所述各个数据图表关键词与所述各个数据图表关键词对应的邻近节点的词组结构关系分别确定与所述各个数据图表关键词具有预设词组结构关系的词组;根据词组与参数的对应关系分别将与所述各个数据图表关键词具有预设词组结构关系的词组转化为各个数据图表关键词对应的图表功能模板所对应的参数;分别利用各个图表功能模板所对应的参数替换所述图表功能模板中的默认参数;按顺序组装所述各个图表功能模板,得到所述目标自然语言数据对应的数据图表功能模板集;
图表生成模块,用于依次调用并执行所述数据图表功能模板集中的数据图表功能模板,以生成所述目标自然语言数据对应的数据图表。
6.根据权利要求5所述的装置,其特征在于,所述分析模块还用于:
将所述词组序列中与预设模板关键词匹配的至少一个词组确定为至少一个数据图表关键词;
根据所述至少一个数据图表关键词形成所述目标自然语言数据对应的关键词序列。
7.一种基于自然语言处理的数据图表生成装置,包括处理器、存储器以及输入输出接口,所述处理器、存储器和输入输出接口相互连接,其中,所述输入输出接口用于输入或输出数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-4任一项所述的方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426646.9A CN110222194B (zh) | 2019-05-21 | 2019-05-21 | 基于自然语言处理的数据图表生成方法和相关装置 |
PCT/CN2020/086680 WO2020233345A1 (zh) | 2019-05-21 | 2020-04-24 | 基于自然语言处理的数据图表生成方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426646.9A CN110222194B (zh) | 2019-05-21 | 2019-05-21 | 基于自然语言处理的数据图表生成方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222194A CN110222194A (zh) | 2019-09-10 |
CN110222194B true CN110222194B (zh) | 2022-10-04 |
Family
ID=67821724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910426646.9A Active CN110222194B (zh) | 2019-05-21 | 2019-05-21 | 基于自然语言处理的数据图表生成方法和相关装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110222194B (zh) |
WO (1) | WO2020233345A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222194B (zh) * | 2019-05-21 | 2022-10-04 | 深圳壹账通智能科技有限公司 | 基于自然语言处理的数据图表生成方法和相关装置 |
CN112579066A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 图表展示方法、装置、存储介质及设备 |
CN110837545A (zh) * | 2019-11-13 | 2020-02-25 | 贵州医渡云技术有限公司 | 交互式数据分析方法、装置、介质及电子设备 |
CN113486230A (zh) * | 2021-07-28 | 2021-10-08 | 黄泽恒 | 标签化报文模板生成方法 |
US20230104607A1 (en) * | 2021-10-01 | 2023-04-06 | International Business Machines Corporation | Linguistic transformation based relationship discovery for transaction validation |
CN114579111B (zh) * | 2022-05-09 | 2022-07-29 | 中国联合重型燃气轮机技术有限公司 | 燃气轮机保护系统的代码生成方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844335A (zh) * | 2016-12-21 | 2017-06-13 | 海航生态科技集团有限公司 | 自然语言处理方法及装置 |
CN107122398A (zh) * | 2017-03-17 | 2017-09-01 | 武汉斗鱼网络科技有限公司 | 一种数据展示图表生成方法及系统 |
CN107273474A (zh) * | 2017-06-08 | 2017-10-20 | 成都数联铭品科技有限公司 | 基于潜在语义分析的自动摘要抽取方法及系统 |
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN109643329A (zh) * | 2016-09-29 | 2019-04-16 | 谷歌有限责任公司 | 从数据表中的数据生成图表 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106499A1 (en) * | 2005-08-09 | 2007-05-10 | Kathleen Dahlgren | Natural language search system |
CN103631882B (zh) * | 2013-11-14 | 2017-01-18 | 北京邮电大学 | 基于图挖掘技术的语义化业务生成系统和方法 |
CN104915340B (zh) * | 2014-03-10 | 2019-09-10 | 北京大学 | 自然语言问答方法及装置 |
CN104484353A (zh) * | 2014-11-28 | 2015-04-01 | 华为技术有限公司 | 数据图形化方法、装置及数据库服务器 |
US11030406B2 (en) * | 2015-01-27 | 2021-06-08 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
US9754051B2 (en) * | 2015-02-25 | 2017-09-05 | International Business Machines Corporation | Suggesting a message to user to post on a social network based on prior posts directed to same topic in a different tense |
CN106155999A (zh) * | 2015-04-09 | 2016-11-23 | 科大讯飞股份有限公司 | 自然语言语义理解方法及系统 |
US20160335251A1 (en) * | 2015-05-11 | 2016-11-17 | Hristo Georgiev | NEWINFO, A Computer System for Automated Reasoning to find new information in Natural Language Sentences |
GB2540534A (en) * | 2015-06-15 | 2017-01-25 | Erevalue Ltd | A method and system for processing data using an augmented natural language processing engine |
CN105930362B (zh) * | 2016-04-12 | 2019-03-12 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
US20190108276A1 (en) * | 2017-10-10 | 2019-04-11 | NEGENTROPICS Mesterséges Intelligencia Kutató és Fejlesztõ Kft | Methods and system for semantic search in large databases |
CN107861933A (zh) * | 2017-11-29 | 2018-03-30 | 北京百度网讯科技有限公司 | 生成运维报表的方法和装置 |
CN109285030A (zh) * | 2018-08-29 | 2019-01-29 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、终端及计算机可读存储介质 |
CN109145102B (zh) * | 2018-09-06 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 智能问答方法及其知识图谱系统构建方法、装置、设备 |
CN109710733A (zh) * | 2018-11-28 | 2019-05-03 | 北京永洪商智科技有限公司 | 一种基于智能语音识别的数据交互方法和系统 |
CN110222194B (zh) * | 2019-05-21 | 2022-10-04 | 深圳壹账通智能科技有限公司 | 基于自然语言处理的数据图表生成方法和相关装置 |
-
2019
- 2019-05-21 CN CN201910426646.9A patent/CN110222194B/zh active Active
-
2020
- 2020-04-24 WO PCT/CN2020/086680 patent/WO2020233345A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109643329A (zh) * | 2016-09-29 | 2019-04-16 | 谷歌有限责任公司 | 从数据表中的数据生成图表 |
CN106844335A (zh) * | 2016-12-21 | 2017-06-13 | 海航生态科技集团有限公司 | 自然语言处理方法及装置 |
CN107122398A (zh) * | 2017-03-17 | 2017-09-01 | 武汉斗鱼网络科技有限公司 | 一种数据展示图表生成方法及系统 |
CN107273474A (zh) * | 2017-06-08 | 2017-10-20 | 成都数联铭品科技有限公司 | 基于潜在语义分析的自动摘要抽取方法及系统 |
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
受限领域自然语言数据库查询接口研究;余正涛 等;《昆明理工大学学报(理工版)》;20040831;第29卷(第4期);第133页-第138页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020233345A1 (zh) | 2020-11-26 |
CN110222194A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222194B (zh) | 基于自然语言处理的数据图表生成方法和相关装置 | |
US20220292269A1 (en) | Method and apparatus for acquiring pre-trained model | |
US20230142217A1 (en) | Model Training Method, Electronic Device, And Storage Medium | |
KR20220027220A (ko) | 자연어 이해(nlu) 프레임워크에서의 예측 유사도 스코어링 서브시스템 | |
CN110647614A (zh) | 智能问答方法、装置、介质及电子设备 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
US20230004721A1 (en) | Method for training semantic representation model, device and storage medium | |
WO2019224629A1 (en) | Training data expansion for natural language classification | |
CN111274267A (zh) | 一种数据库查询方法、装置及计算机可读取存储介质 | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN111414561A (zh) | 用于呈现信息的方法和装置 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN113434664A (zh) | 文本摘要生成方法、装置、介质及电子设备 | |
CN113779062A (zh) | Sql语句生成方法、装置、存储介质及电子设备 | |
CN108763202A (zh) | 识别敏感文本的方法、装置、设备及可读存储介质 | |
CN115099233A (zh) | 一种语义解析模型的构建方法、装置、电子设备及存储介质 | |
US20220207087A1 (en) | Optimistic facet set selection for dynamic faceted search | |
CN112417875B (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
CN116383412B (zh) | 基于知识图谱的功能点扩增方法和系统 | |
CN114880520B (zh) | 视频标题生成方法、装置、电子设备和介质 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
WO2021135103A1 (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
WO2020026229A2 (en) | Proposition identification in natural language and usage thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |