CN112579600A - 一种基于车载问答的数据处理方法和装置 - Google Patents
一种基于车载问答的数据处理方法和装置 Download PDFInfo
- Publication number
- CN112579600A CN112579600A CN202011522756.4A CN202011522756A CN112579600A CN 112579600 A CN112579600 A CN 112579600A CN 202011522756 A CN202011522756 A CN 202011522756A CN 112579600 A CN112579600 A CN 112579600A
- Authority
- CN
- China
- Prior art keywords
- information
- vehicle
- database
- target
- data entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000013515 script Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000004044 response Effects 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Navigation (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明实施例提供了一种基于车载问答的数据处理方法和装置,所述方法包括:预置针对车辆信息数据库的模式图谱;获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;根据所述目标数据实体的数据库信息,确定目标操作标签信息;采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。通过本发明实施例,实现了对自然语言和查询脚本的自动匹配转化,能够将车载问答请求的自然语言直接解析为查询脚本,提升了处理效率,且采用分模块处理方式生成查询脚本,具有较好的扩展能力。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种基于车载问答的数据处理方法和装置。
背景技术
随着智能汽车的发展,车载智能语音系统涉及大量知识问答,由于相关知识以结构化或表格化的形式存储于关系型数据库中,为了获取问题的答案,通常采用人工查找表格的方式,或针对相关智能问答添加问答对的方式,以满足智能客服的需求,但上述方法需要耗费大量的人工编辑工作,造成了用户获取信息的成本增加。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种基于车载问答的数据处理方法和装置,包括:
一种基于车载问答的数据处理方法,所述方法包括:
预置针对车辆信息数据库的模式图谱;
获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
根据所述目标数据实体的数据库信息,确定目标操作标签信息;
采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
可选地,所述车辆信息数据库包括多个数据实体的数据库信息,在所述根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息之前,还包括:
构建针对所述车辆信息数据库的知识库;
根据所述知识库,从所述多个数据实体的数据库信息中,确定针对所述车载问答请求的候选数据实体的数据库信息;
所述根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息,包括:
结合所述候选数据实体的数据库信息和所述模式图谱,确定所述目标数据实体的数据库信息。
可选地,所述结合所述候选数据实体的数据库信息和所述模式图谱,确定所述目标数据实体的数据库信息,包括:
结合所述候选数据实体的数据库信息和所述模式图谱,生成特征对比信息;
根据所述特征对比信息,确定所述目标数据实体的数据库信息。
可选地,所述根据所述目标数据实体的数据库信息,确定目标操作标签信息,包括:
对所述车载问答请求、所述模式图谱以及所述目标数据实体的数据库信息进行编码处理;
根据编码处理结果,得到目标操作标签信息;其中,所述目标操作标签信息包括所述目标数据实体的数据库信息对应的多个操作标签。
可选地,所述根据编码处理结果,得到目标操作标签信息,包括:
确定标签定义信息;
根据所述标签定义信息和所述编码处理结果,得到目标操作标签信息。
可选地,所述采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果,包括:
根据所述目标数据实体的数据库信息和所述目标操作标签信息,确定候选查询脚本;
对所述候选查询脚本进行文法检验,得到目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
可选地,所述目标数据实体的数据库信息包括目标数据实体的表信息、目标数据实体的属性信息,或者,所述目标数据实体的数据库信息包括目标数据实体的表信息、目标数据实体的属性信息以及属性信息对应的属性值。
一种基于车载问答的数据处理装置,所述装置包括:
模式图谱预置模块,用于预置针对车辆信息数据库的模式图谱;
目标数据实体的数据库信息确定模块,用于获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
目标操作标签信息确定模块,用于根据所述目标数据实体的数据库信息,确定目标操作标签信息;
目标查询脚本生成模块,用于采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
一种服务器,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于车载问答的数据处理方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的基于车载问答的数据处理方法。
本发明实施例具有以下优点:
在本发明实施例中,通过预置针对车辆信息数据库的模式图谱,然后获取车载问答请求,根据模式图谱,确定针对车载问答请求的目标数据实体的数据库信息,根据目标数据实体的数据库信息,确定目标操作标签信息,进而采用目标数据实体的数据库信息和目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果,实现了对自然语言和查询脚本的自动匹配转化,通过针对车载问答请求,确定目标数据实体的数据库信息和目标操作标签信息,进而生成目标查询脚本,能够将车载问答请求的自然语言直接解析为查询脚本,提升了处理效率,且采用分模块处理方式生成查询脚本,具有较好的扩展能力。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种基于车载问答的数据处理方法的步骤流程图;
图2是本发明一实施例提供的一种数据库模式图谱示例的示意图;
图3是本发明一实施例提供的另一种基于车载问答的数据处理方法的步骤流程图;
图4是本发明一实施例提供的另一种基于车载问答的数据处理方法的步骤流程图;
图5a是本发明一实施例提供的一种标签映射示例的示意图;
图5b是本发明一实施例提供的一种基于车载问答的数据处理流程的示意图;
图6是本发明一实施例提供的一种基于车载问答的数据处理装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明一实施例提供的一种基于车载问答的数据处理方法的步骤流程图,具体可以包括如下步骤:
步骤101,预置针对车辆信息数据库的模式图谱;
其中,模式图谱可以为根据车辆信息数据库的数据库模式转化的有向图,例如,可以基于车辆业务的关系型数据库,进行Schema(数据库模式)建模。
在车载系统应用智能客服的语音问答场景中,可以通过预置针对车辆信息数据库的模式图谱,该模式图谱可以为基于车辆信息数据库的数据库模式进行转化,得到的有向图,进而可以根据预置的针对车辆信息数据库的模式图谱,利用数据库模式的各节点和关系的分布信息以增强语义,进行数据库模式的联合链接。
具体的,针对Schema(数据库模式)建模,可以基于对应业务的关系型数据库,例如,针对车辆的相关业务信息(如维修、用车、充电、购车等信息)可以采用结构化或表格化的形式存储于关系型数据库中,进而可以通过提取数据库中表之间的关系和表中各个属性,根据数据库的数据库模式转化得到有向图。
在一示例中,如图2所示,可以将数据库中表的名称、列的名称作为标记,构成有向图(即针对车辆信息数据库的模式图谱)的节点,如可以由数据库中表的名称“地理区域”和列的名称“省份”、“城市”、“区域”,组成有向图中节点;还可以根据数据库中预先存在的数据库关系,确定有向图的边。
创建针对车辆信息数据库的模式图谱,其作用可以为便于与后续针对车辆信息数据库的知识库建立联系,以进行语义搜索;通过有向图的组织形式,可以便于有效提取SQL语句的主要信息;且可以根据有向图的图计算进行推理计算;以及可以将业务相关的处理集中在模式图谱和知识库,便于业务的扩展。
步骤102,获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
其中,车载问答请求可以为用户触发的问答交互请求,例如,在车载系统应用智能客服的语音问答场景中,可以通过用户的语音问答交互操作,获取用户的问答交互请求。
在预置针对车辆信息数据库的模式图谱后,通过获取车载问答请求,可以根据模式图谱,确定针对该车载问答请求的目标数据实体的数据库信息,以进一步根据目标数据实体的数据库信息,得到针对车载问答请求的查询脚本。
在本发明一实施例中,目标数据实体的数据库信息可以包括目标数据实体的表信息、目标数据实体的属性信息,或者,目标数据实体的数据库信息可以包括目标数据实体的表信息、目标数据实体的属性信息以及属性信息对应的属性值。
例如,针对获取的query(即车载问答请求),通过基于模式图谱的数据库模式联合链接,可以将query和车辆信息数据库中数据表进行联系,进而可以根据query中提取的关键字,确定目标数据实体,并可以针对该目标数据实体,得到数据库对应的数据表table、属性column;或可以针对该目标数据实体,得到数据库对应的数据表table、属性column,以及column对应的属性值value。
在一示例中,针对车载问答请求确定的目标数据实体可以为多个,进而可以得到多个目标数据实体的数据库信息。
步骤103,根据所述目标数据实体的数据库信息,确定目标操作标签信息;
其中,目标操作标签信息可以为针对查询脚本的操作标签,其可以表征对目标数据实体的数据库信息的操作信息,例如,目标操作标签信息可以为SQL操作标签,其可以表征对属性column使用函数进行操作的函数信息。
在确定目标数据实体的数据库信息后,可以根据该目标数据实体的数据库信息,确定目标操作标签信息,以进一步结合目标数据实体的数据库信息和目标操作标签信息,得到针对车载问答请求的查询脚本。
步骤104,采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
作为一示例,目标查询脚本可以为用于进行数据查询的可执行脚本文件,例如,SQL(查询语句)脚本。
在确定目标操作标签信息后,可以采用目标数据实体的数据库信息和目标操作标签信息,进而可以生成目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果,从而提供了将车载问答请求的自然语言直接转为SQL的解析方法,利用多维度的语义理解,能够自动完成车载问答请求的自然语言和SQL的匹配转化。
在本发明实施例中,通过预置针对车辆信息数据库的模式图谱,然后获取车载问答请求,根据模式图谱,确定针对车载问答请求的目标数据实体的数据库信息,根据目标数据实体的数据库信息,确定目标操作标签信息,进而采用目标数据实体的数据库信息和目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果,实现了对自然语言和查询脚本的自动匹配转化,通过针对车载问答请求,确定目标数据实体的数据库信息和目标操作标签信息,进而生成目标查询脚本,能够将车载问答请求的自然语言直接解析为查询脚本,提升了处理效率,且采用分模块处理方式生成查询脚本,具有较好的扩展能力。
参照图3,示出了本发明一实施例提供的另一种基于车载问答的数据处理方法的步骤流程图,具体可以包括如下步骤:
步骤301,预置针对车辆信息数据库的模式图谱;
在车载系统应用智能客服的语音问答场景中,可以通过预置针对车辆信息数据库的模式图谱,该模式图谱可以为基于车辆信息数据库的数据库模式进行转化,得到的有向图,进而可以根据预置的针对车辆信息数据库的模式图谱,利用数据库模式的各节点和关系的分布信息以增强语义,进行数据库模式的联合链接。
步骤302,构建针对所述车辆信息数据库的知识库;所述车辆信息数据库包括多个数据实体的数据库信息;
其中,知识库可以为根据车辆信息数据库中多个数据实体的数据库信息构建的知识库,例如,可以基于车辆业务的关系型数据库,采用该数据库中每个数据实体的表名、属性以及属性值,构建词表知识库。
在具体实现中,可以构建针对车辆信息数据库的知识库,由于车辆信息数据库可以包括多个数据实体的数据库信息,进而可以基于该多个数据实体的数据库信息构建知识库,并可以将知识库与模式图谱建立联系,以进行语义搜索。
在一示例中,可以基于车辆业务的关系型数据库,通过将数据库中各个数据的表名、属性以及属性值进行分词处理,可以建立最小粒度索引,并可以对最小粒度的词语进行同义词泛化,以进行数据增强,进而可以构建词表知识库(即针对车辆信息数据库的知识库)。
由于Schema有向图(即模式图谱)虽可以将数据库的相关信息进行组织,但并不足以将query(即车载问答请求)和数据库建立更好的联系,则可以通过知识库,将query和数据库模式更好的联系起来,并可以将两者进行数据对齐,同时,通过知识库,能够便于针对数据集进行优化增强,可以自主地扩展业务。
步骤303,获取车载问答请求,根据所述知识库,从所述多个数据实体的数据库信息中,确定针对所述车载问答请求的候选数据实体的数据库信息;
在具体实现中,通过获取车载问答请求,可以根据针对车辆信息数据库的知识库,从多个数据实体的数据库信息中,确定针对车载问答请求的候选数据实体的数据库信息。
例如,可以针对获取的query(即车载问答请求)进行分词处理,并可以通过检索知识库,提取query中字段和词表类型,进而可以得到相关的候选关键词(即候选数据实体的数据库信息),候选关键词可以为多个,其可以包括多个候选数据实体对应的数据库中数据表table、属性column,或数据表table、属性column,以及column对应的属性值value。
步骤304,结合所述候选数据实体的数据库信息和所述模式图谱,确定目标数据实体的数据库信息;
在得到候选数据实体的数据库信息后,可以结合该候选数据实体的数据库信息和模式图谱,进而可以确定目标数据实体的数据库信息。
在一示例中,由于针对自然语言,通过数据库模式图谱映射到的目标数据实体的数据库信息具有更紧密的特点,则可以利用此特点进行数据库模式的联合链接,可以通过提取数据库的模式图谱和知识库,充分利用各节点和关系的分布信息以增强语义,并可以结合机器学习,从而能够完成数据库模式联合消歧。
在本发明一实施例中,步骤304可以包括如下子步骤:
结合所述候选数据实体的数据库信息和所述模式图谱,生成特征对比信息;根据所述特征对比信息,确定所述目标数据实体的数据库信息。
在实际应用中,可以结合候选数据实体的数据库信息和模式图谱,进行信息编码处理,并可以生成特征对比信息,进而可以通过模型,根据该特征对比信息,确定目标数据实体的数据库信息。
具体的,可以针对候选数据实体的数据库信息,结合数据库模式图谱的连接性,进行信息编码,进而可以获取相关的特征,并可以通过Xgboost模型,从多个候选数据实体的数据库信息中,确定目标数据实体的数据库信息,如使用Xgboost模型,获取分数较高的数据表table、属性column和属性值value,以及对应关系。
在一示例中,由于针对query提取的某个实体并不是单独存在,而是与query中上下文包含的其它实体或属性存在关系,则可以通过特征提取进行判断,以从候选数据实体的数据库信息中,筛选出目标数据实体的数据库信息,例如,针对错误的候选集,正确的候选集在联系上更加紧密;与单个实体或属性链接相比,可以将query所涉及的多个实体进行联合,以保证准确率。
在又一示例中,针对query中多个关键字key,可以获取关键字key对应的多个候选数据实体和候选数据实体间的关系,进而可以通过Schema有向图提取如下特征:
1、同一关键字key对应的各候选数据实体的连接程度;
2、不同关键词key对应的候选数据实体之间的连接程度;
3、候选数据实体的排名。
步骤305,根据所述目标数据实体的数据库信息,确定目标操作标签信息;
在确定目标数据实体的数据库信息后,可以根据该目标数据实体的数据库信息,确定目标操作标签信息。
步骤306,采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
在确定目标操作标签信息后,可以采用目标数据实体的数据库信息和目标操作标签信息,进而可以生成目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果,从而提供了将车载问答请求的自然语言直接转为SQL的解析方法,利用多维度的语义理解,能够自动完成车载问答请求的自然语言和SQL的匹配转化。
参照图4,示出了本发明一实施例提供的另一种基于车载问答的数据处理方法的步骤流程图,具体可以包括如下步骤:
步骤401,预置针对车辆信息数据库的模式图谱;
在车载系统应用智能客服的语音问答场景中,可以通过预置针对车辆信息数据库的模式图谱,该模式图谱可以为基于车辆信息数据库的数据库模式进行转化,得到的有向图,进而可以根据预置的针对车辆信息数据库的模式图谱,利用数据库模式的各节点和关系的分布信息以增强语义,进行数据库模式的联合链接。
步骤402,获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
在预置针对车辆信息数据库的模式图谱后,通过获取车载问答请求,可以根据模式图谱,确定针对该车载问答请求的目标数据实体的数据库信息,以进一步根据目标数据实体的数据库信息,得到针对车载问答请求的查询脚本。
步骤403,对所述车载问答请求、所述模式图谱以及所述目标数据实体的数据库信息进行编码处理;
在具体实现中,可以对车载问答请求、模式图谱以及目标数据实体的数据库信息进行编码处理,以进一步经过模型解析,输出目标操作标签信息。
步骤404,根据编码处理结果,得到目标操作标签信息;其中,所述目标操作标签信息包括所述目标数据实体的数据库信息对应的多个操作标签;
在编码处理后,可以根据编码处理结果,得到目标操作标签信息,该目标操作标签信息可以包括目标数据实体的数据库信息对应的多个操作标签,如SQL操作标签。
在本发明一实施例中,步骤404可以包括如下子步骤:
确定标签定义信息;根据所述标签定义信息和所述编码处理结果,得到目标操作标签信息。
在实际应用中,可以通过确定标签定义信息,进而可以根据标签定义信息和编码处理结果,得到目标操作标签信息。
具体的,如图5a所示,可以采用如下方式确定针对SQL操作标签的标签定义信息:
1、Agg(聚类):可以针对属性column,确定使用某个函数操作,如min、max等;
2、Cond(条件):可以根据属性column和属性值value,确定两者之间的操作符,如>、<、=等;
3、Operate(操作符):可以针对where字句,确定进行某个操作,如and、or。
针对确定SQL操作标签的任务(即得到目标操作标签信息),可以通过模型的三个层级结构完成:
第一层级可以为序列编码,通过将query进行正常的字编码和位置编码,对Schema(数据库模式)中value/column进行类型编码,然后可以针对其对应的文字编码,并可以对query中对应的关键字编码,进而可以将三者加权,获得value/column的向量编码。
第二层可以为针对query和Schema交互增强编码,可以通过Bert模型的编码部分实现。
第三层可以为输出层,其用于完成SQL相关操作标签的输出,如上述定义的Agg(聚类)、Cond(条件)、Operate(操作符)任务,其中,针对每个任务,其可以通过全连接网络(MLP)单独进行,以便更好地将数据库模式表示与每个任务中自然语言的特定部分对齐。
步骤405,根据所述目标数据实体的数据库信息和所述目标操作标签信息,确定候选查询脚本;
在得到目标操作标签信息后,可以根据目标数据实体的数据库信息和目标操作标签信息,确定候选查询脚本,例如,根据目标数据实体的数据库信息和目标操作标签信息,可以确定SQL的各部分,进而可以组成SQL查询语句。
在一示例中,可以采用如下方式生成候选查询脚本:
1、Select部分:可以根据目标数据实体的数据库信息,将无对应value的列作为SQL语句查询表的列;
2、Oprate部分:可以根据目标操作标签信息,确定多个where语句的合并条件,并可以根据输入确定进行操作的列;
3、Agg部分:可以根据目标操作标签信息,确定针对具体的列进行相关的聚类操作;
4、Cond部分:可以根据目标操作标签信息,确定where语句的操作符。
步骤406,对所述候选查询脚本进行文法检验,得到目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
在得到候选查询脚本后,为了确定输出结果是否满足SQL语法,可以对该候选查询脚本进行文法检验,进而可以得到目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果。
例如,针对候选查询脚本SQL的文法检测,可以通过SQL文法规则和规则解析匹配算法实现,从而能够达到自然语言到SQL的准确转化。
针对SQL文法规则,其可以用上下文无关文法来表示,由于EBNF具备更强的表达能力和解析能力,可以使用EBNF实现SQL文法规则,并可以通过json文件存储文法规则,可以根据业务调整实时修改文法规则,从而具备了兼容性和扩展性。
针对规则解析匹配算法,SQL语法解析器可以采用LALR算法,其具有更好的表达能力,在内存空间和解析速度性能上也较为有效;也可以使用Earley算法和CYK算法,以获取语法解析树。
在一示例中,如图5b所示,可以针对获取的车载问答请求,通过模式链接、标签映射、文法检测,进而可以将车载问答请求的自然语言和查询脚本进行自动匹配转化,其中,模式链接可以针对车载问答请求,采用构建的针对车辆信息数据库的知识库进行关键词提取,可以得到候选数据实体的数据库信息,然后采用针对车辆信息数据库的模式图谱进行特征提取,可以得到特征对比信息,进而通过成分识别模型进行属性和值提取,可以得到目标数据实体的数据库信息;标签映射可以针对目标数据实体的数据库信息进行编码,并可以采用标签识别模型进行标签提取,可以得到目标操作标签信息;文法检测可以根据SQL文法规则,针对由目标数据实体的数据库信息和目标操作标签信息得到的候选查询脚本,进行文法检测,进而可以得到目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果。
在又一示例中,由于将自然语言转化为SQL时,在表达上存在较多不一致之处,则可以通过分模块完成语义理解,并可以通过规则方法进行各模块的整合和衔接,即采用将自然语言与SQL的映射进行分模块处理的方式,可以具有较好的可解释性和效果可控性,通过将生成SQL的过程拆分为不同步骤去完成,简化了各模块的任务,便于进行系统调试和针对性的效果优化。
针对将自然语言转化为SQL,对比利用深度学习直接转化的方式,其脱离了数据库本身的知识信息,无法达到较好的转化效果;而通过融合知识库,使用端到端的转化方式,虽然能达到比较好的转化效果,但也无法很好的进行扩展,在数据库调整后不具备良好的扩展性。
本发明提供了一种将自然语言直接转化为SQL的解析方法,通过融合数据库知识和深度学习,可以实现自然语言与SQL的完整映射和对齐,且采用分模块的处理方式,可以将业务模块和算法模块进行分步处理,从而能够不受限于业务和场景,进行扩展;并可以让算法模型适用于各种场景,可以支持数据库线上更新,加快了迭代优化速度,且能够实现无关语言、无关领域,在任务上快速启动。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明一实施例提供的一种基于车载问答的数据处理装置的结构示意图,具体可以包括如下模块:
模式图谱预置模块601,用于预置针对车辆信息数据库的模式图谱;
目标数据实体的数据库信息确定模块602,用于获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
目标操作标签信息确定模块603,用于根据所述目标数据实体的数据库信息,确定目标操作标签信息;
目标查询脚本生成模块604,用于采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
在本发明一实施例中,所述车辆信息数据库包括多个数据实体的数据库信息,还包括:
知识库构建模块,用于构建针对所述车辆信息数据库的知识库;
根据所述知识库,从所述多个数据实体的数据库信息中,确定针对所述车载问答请求的候选数据实体的数据库信息;
所述目标数据实体的数据库信息确定模块602包括:
目标数据实体的数据库信息确定子模块,用于结合所述候选数据实体的数据库信息和所述模式图谱,确定所述目标数据实体的数据库信息。
在本发明一实施例中,所述目标数据实体的数据库信息确定子模块包括:
特征对比信息生成单元,用于结合所述候选数据实体的数据库信息和所述模式图谱,生成特征对比信息;
目标数据实体的数据库信息确定单元,用于根据所述特征对比信息,确定所述目标数据实体的数据库信息。
在本发明一实施例中,所述目标操作标签信息确定模块603包括:
编码处理子模块,用于对所述车载问答请求、所述模式图谱以及所述目标数据实体的数据库信息进行编码处理;
目标操作标签信息得到子模块,用于根据编码处理结果,得到目标操作标签信息;其中,所述目标操作标签信息包括所述目标数据实体的数据库信息对应的多个操作标签。
在本发明一实施例中,所述目标操作标签信息得到子模块包括:
标签定义信息确定单元,用于确定标签定义信息;
目标操作标签信息得到单元,用于根据所述标签定义信息和所述编码处理结果,得到目标操作标签信息。
在本发明一实施例中,所述目标查询脚本生成模块604包括:
候选查询脚本确定子模块,用于根据所述目标数据实体的数据库信息和所述目标操作标签信息,确定候选查询脚本;
目标查询脚本得到子模块,用于对所述候选查询脚本进行文法检验,得到目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
在本发明一实施例中,所述目标数据实体的数据库信息包括目标数据实体的表信息、目标数据实体的属性信息,或者,所述目标数据实体的数据库信息包括目标数据实体的表信息、目标数据实体的属性信息以及属性信息对应的属性值。
在本发明实施例中,通过预置针对车辆信息数据库的模式图谱,然后获取车载问答请求,根据模式图谱,确定针对车载问答请求的目标数据实体的数据库信息,根据目标数据实体的数据库信息,确定目标操作标签信息,进而采用目标数据实体的数据库信息和目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对车载问答请求的应答结果,实现了对自然语言和查询脚本的自动匹配转化,通过针对车载问答请求,确定目标数据实体的数据库信息和目标操作标签信息,进而生成目标查询脚本,能够将车载问答请求的自然语言直接解析为查询脚本,提升了处理效率,且采用分模块处理方式生成查询脚本,具有较好的扩展能力。
本发明一实施例还提供了一种服务器,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上基于车载问答的数据处理方法。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上基于车载问答的数据处理方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种基于车载问答的数据处理方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于车载问答的数据处理方法,其特征在于,所述方法包括:
预置针对车辆信息数据库的模式图谱;
获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
根据所述目标数据实体的数据库信息,确定目标操作标签信息;
采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
2.根据权利要求1所述的方法,其特征在于,所述车辆信息数据库包括多个数据实体的数据库信息,在所述根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息之前,还包括:
构建针对所述车辆信息数据库的知识库;
根据所述知识库,从所述多个数据实体的数据库信息中,确定针对所述车载问答请求的候选数据实体的数据库信息;
所述根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息,包括:
结合所述候选数据实体的数据库信息和所述模式图谱,确定所述目标数据实体的数据库信息。
3.根据权利要求2所述的方法,其特征在于,所述结合所述候选数据实体的数据库信息和所述模式图谱,确定所述目标数据实体的数据库信息,包括:
结合所述候选数据实体的数据库信息和所述模式图谱,生成特征对比信息;
根据所述特征对比信息,确定所述目标数据实体的数据库信息。
4.根据权利要求1或2或3所述的方法,其特征在于,所述根据所述目标数据实体的数据库信息,确定目标操作标签信息,包括:
对所述车载问答请求、所述模式图谱以及所述目标数据实体的数据库信息进行编码处理;
根据编码处理结果,得到目标操作标签信息;其中,所述目标操作标签信息包括所述目标数据实体的数据库信息对应的多个操作标签。
5.根据权利要求4所述的方法,其特征在于,所述根据编码处理结果,得到目标操作标签信息,包括:
确定标签定义信息;
根据所述标签定义信息和所述编码处理结果,得到目标操作标签信息。
6.根据权利要求1所述的方法,其特征在于,所述采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果,包括:
根据所述目标数据实体的数据库信息和所述目标操作标签信息,确定候选查询脚本;
对所述候选查询脚本进行文法检验,得到目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
7.根据权利要求1所述的方法,其特征在于,所述目标数据实体的数据库信息包括目标数据实体的表信息、目标数据实体的属性信息,或者,所述目标数据实体的数据库信息包括目标数据实体的表信息、目标数据实体的属性信息以及属性信息对应的属性值。
8.一种基于车载问答的数据处理装置,其特征在于,所述装置包括:
模式图谱预置模块,用于预置针对车辆信息数据库的模式图谱;
目标数据实体的数据库信息确定模块,用于获取车载问答请求,根据所述模式图谱,确定针对所述车载问答请求的目标数据实体的数据库信息;
目标操作标签信息确定模块,用于根据所述目标数据实体的数据库信息,确定目标操作标签信息;
目标查询脚本生成模块,用于采用所述目标数据实体的数据库信息和所述目标操作标签信息,生成目标查询脚本,以进行数据查询并获取针对所述车载问答请求的应答结果。
9.一种服务器,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于车载问答的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于车载问答的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011522756.4A CN112579600A (zh) | 2020-12-21 | 2020-12-21 | 一种基于车载问答的数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011522756.4A CN112579600A (zh) | 2020-12-21 | 2020-12-21 | 一种基于车载问答的数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579600A true CN112579600A (zh) | 2021-03-30 |
Family
ID=75136529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011522756.4A Pending CN112579600A (zh) | 2020-12-21 | 2020-12-21 | 一种基于车载问答的数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579600A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010616A (zh) * | 2021-04-26 | 2021-06-22 | 广州小鹏汽车科技有限公司 | 数据处理方法和数据处理系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299139A1 (en) * | 2009-04-23 | 2010-11-25 | International Business Machines Corporation | Method for processing natural language questions and apparatus thereof |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN109543019A (zh) * | 2018-11-27 | 2019-03-29 | 苏州思必驰信息科技有限公司 | 用于车辆的对话服务方法及装置 |
CN111090739A (zh) * | 2019-10-30 | 2020-05-01 | 贝壳技术有限公司 | 信息处理方法、装置以及电子设备、存储介质 |
CN111241252A (zh) * | 2020-04-17 | 2020-06-05 | 成都数联铭品科技有限公司 | 一种问答方法及问答装置、电子设备、存储介质 |
CN111414465A (zh) * | 2020-03-16 | 2020-07-14 | 北京明略软件系统有限公司 | 基于知识图谱的问答系统中的处理方法和装置 |
CN111736738A (zh) * | 2020-06-30 | 2020-10-02 | 广州小鹏车联网科技有限公司 | 一种车载系统的控件对象查询方法和装置 |
CN111753100A (zh) * | 2020-06-30 | 2020-10-09 | 广州小鹏车联网科技有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
CN111800493A (zh) * | 2020-06-29 | 2020-10-20 | 百度在线网络技术(北京)有限公司 | 信息内容推送方法、装置、电子设备和存储介质 |
CN111831794A (zh) * | 2020-07-10 | 2020-10-27 | 杭州叙简科技股份有限公司 | 一种基于知识图谱的综合管廊行业知识问答系统构建方法 |
-
2020
- 2020-12-21 CN CN202011522756.4A patent/CN112579600A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299139A1 (en) * | 2009-04-23 | 2010-11-25 | International Business Machines Corporation | Method for processing natural language questions and apparatus thereof |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN109543019A (zh) * | 2018-11-27 | 2019-03-29 | 苏州思必驰信息科技有限公司 | 用于车辆的对话服务方法及装置 |
CN111090739A (zh) * | 2019-10-30 | 2020-05-01 | 贝壳技术有限公司 | 信息处理方法、装置以及电子设备、存储介质 |
CN111414465A (zh) * | 2020-03-16 | 2020-07-14 | 北京明略软件系统有限公司 | 基于知识图谱的问答系统中的处理方法和装置 |
CN111241252A (zh) * | 2020-04-17 | 2020-06-05 | 成都数联铭品科技有限公司 | 一种问答方法及问答装置、电子设备、存储介质 |
CN111800493A (zh) * | 2020-06-29 | 2020-10-20 | 百度在线网络技术(北京)有限公司 | 信息内容推送方法、装置、电子设备和存储介质 |
CN111736738A (zh) * | 2020-06-30 | 2020-10-02 | 广州小鹏车联网科技有限公司 | 一种车载系统的控件对象查询方法和装置 |
CN111753100A (zh) * | 2020-06-30 | 2020-10-09 | 广州小鹏车联网科技有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
CN111831794A (zh) * | 2020-07-10 | 2020-10-27 | 杭州叙简科技股份有限公司 | 一种基于知识图谱的综合管廊行业知识问答系统构建方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010616A (zh) * | 2021-04-26 | 2021-06-22 | 广州小鹏汽车科技有限公司 | 数据处理方法和数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284363B (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN106919655B (zh) | 一种答案提供方法和装置 | |
US10089364B2 (en) | Item recommendation device, item recommendation method, and computer program product | |
US9183511B2 (en) | System and method for universal translating from natural language questions to structured queries | |
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
KR20180041200A (ko) | 정보 처리 방법 및 장치 | |
CN111309863B (zh) | 基于知识图谱的自然语言问答方法及装置 | |
CN104636478A (zh) | 信息查询方法和设备 | |
CN110008308B (zh) | 针对用户问句补充信息的方法和装置 | |
CN111949800A (zh) | 一种开源项目知识图谱的建立方法和系统 | |
KR102292040B1 (ko) | 기계 독해 기반 지식 추출을 위한 시스템 및 방법 | |
CN113779062A (zh) | Sql语句生成方法、装置、存储介质及电子设备 | |
Sun | A natural language interface for querying graph databases | |
CN111813916B (zh) | 一种智能问答方法、装置、计算机设备和介质 | |
CN112579600A (zh) | 一种基于车载问答的数据处理方法和装置 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN117251455A (zh) | 一种基于大模型的智能报表生成方法及其系统 | |
CN113297251A (zh) | 多源数据检索方法、装置、设备及存储介质 | |
CN112417174A (zh) | 一种数据处理的方法和装置 | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
CN115757469A (zh) | 用于文本到sql任务的数据生成方法、电子设备和存储介质 | |
CN115658845A (zh) | 一种适用于开源软件供应链的智能问答方法及装置 | |
CN115470232A (zh) | 模型训练和数据查询方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |