CN109684395B - 一种基于自然语言处理的可视化数据接口通用解析方法 - Google Patents

一种基于自然语言处理的可视化数据接口通用解析方法 Download PDF

Info

Publication number
CN109684395B
CN109684395B CN201811531079.5A CN201811531079A CN109684395B CN 109684395 B CN109684395 B CN 109684395B CN 201811531079 A CN201811531079 A CN 201811531079A CN 109684395 B CN109684395 B CN 109684395B
Authority
CN
China
Prior art keywords
interface
data
data interface
parameter
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811531079.5A
Other languages
English (en)
Other versions
CN109684395A (zh
Inventor
朱邱悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201811531079.5A priority Critical patent/CN109684395B/zh
Publication of CN109684395A publication Critical patent/CN109684395A/zh
Application granted granted Critical
Publication of CN109684395B publication Critical patent/CN109684395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供一种基于自然语言处理的可视化数据接口通用解析方法,属于数据交互技术领域,本发明通过自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;再利用自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。避免不同数据接口解析的重复代码编写,减少数据接口解析错误,提高数据接口解析的便利性、准确性和时效性。

Description

一种基于自然语言处理的可视化数据接口通用解析方法
技术领域
本发明涉及数据交互技术,尤其涉及一种基于自然语言处理的可视化数据接口通用解析方法。
背景技术
Web数据接口系统数据交互的常用方式。数据接口的解析工作是指分析数据接口的调用方式和返回数据格式等信息,实现将调用的数据接口返回数据存储入库的功能。
通常其过程如下:首先,研究接口信息载体中的功能介绍、接口地址、输入参数、返回数据等说明;然后,根据数据接口的输入参数,编写数据接口调用方法;最后,解析数据接口返回数据格式,进行接收表的手动创建,人工匹配接口返回数据与接收数据表字段的对应关系,编写代码将接口返回数据存储入库。
但是,通常的数据接口解析方法需要根据接口信息载体,手动建立接口数据接收表,人工匹配接口返回数据与接收数据表字段的对应关系,每解析一个数据接口,需要重新编写一次数据解析代码,尤其是数据接口比较复杂时,接口信息载体的研究、代码编写和调试费时费力,且容易出现参数解析错误。
发明内容
为了解决以上技术问题,本发明提出了一种基于自然语言处理的可视化数据接口通用解析方法,采用可视化手段解析数据接口调用参数和返回数据等信息的通用方法,实现不同类型数据接口解析的自动化、智能化,避免不同数据接口解析的重复代码编写,减少数据接口解析错误,提高数据接口解析的便利性、准确性和时效性。
本发明采用的技术方案是:
一种基于自然语言处理的可视化数据接口通用解析方法,主要过程为:
通过语义依存、短文本相似等自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;再利用语义分析、汉字转换等自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。
进一步的包括,
主要包括如下步骤:
步骤1、基于海量的数据接口开发方提供的接口信息,组建自然语言处理语料库,进行自然语言处理训练,通过机器学习,完善数据接口信息识别模型。
信息识别模型定义的规则为将接口参数信息描述识别为标准参数名称,即系统能识别的中文汉字。
步骤2、采用步骤1中的数据接口信息识别模型识别要解析的数据接口信息,提取出数据接口的接口说明、接口地址、接口类型、调用参数和返回数据等内容。
步骤3、在可视化操作页面上展示步骤2中提取的接口信息,包括接口说明、接口地址、接口类型、调用参数和返回数据参数,可以进行人工校正确认。
调用参数和返回数据参数如果为多个,按顺序依次在页面展示。
步骤4、以数据接口调用参数和返回数据的参数名称、参数值和中文说明的关联关系建立语义分析模型,通过大量语料库的不断训练,实现参数名称、参数值和中文说明语义分析结果的相互校正,最终给出某个参数的中文推荐解释。
语义分析规则为将数据接口参数名称、参数值和中文说明语义分析结果趋于标准一致的参数名称,即系统能识别的中文汉字。
步骤5、基于自然语言处理的通用语料库训练,建立中英转换、汉字拼音转换、拼音首字母转换等模型。
步骤6、在数据库中建立数据接口返回数据接收表
首先,指定数据库建表方式,建表方式包括数据参数英文建表、拼音建表、首字母建表等;
其次,根据步骤4中语义分析出的参数推荐解释和步骤5中的建表方式的汉字转换模型,在可视化操作页面上,显示自动创建的数据表字段,人工校正确认后,实现返回数据接收表的自动创建。
步骤7、建立数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系;
在可视化操作页面上展示的调用参数、返回数据参数和数据库返回数据接收表字段的一一对应关系,人工校正后,完成数据接口的解析工作。
步骤8、在可视化操作页面上,进行接口解析的在线测试,填写接口调用条件,显示接口调用结果和接口调用错误提示,完成数据接口解析的测试工作。
进一步的包括,
所述的数据接口开发方提供的接口信息包括但不限于接口文档等所有信息载体中的数据接口信息。
进一步的包括,
所述的给出数据接口调用参数和返回数据参数的中文推荐解释的语义分析内容包括但不限于数据接口参数名称、参数值和中文说明等所有数据接口解析信息。
进一步的包括,
所述的返回数据接收表建表方式包括中英转换、汉字拼音转换、拼音首字母转换等所有汉字转换规则。
进一步的包括,
所述的可视化操作界面展示信息包括但不限于信息识别模型识别出的数据接口信息,自动创建的返回数据接收表字段,数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系和接口信息解析的在线测试提示信息等所有在数据接口解析工程中需要可视化展现的内容。
本发明提供的数据接口通用解析方法具有以下有益效果:
1)采用自然语言处理技术进行接口信息的智能识别,减少了接口信息载体的研究时间,避免了人为参数解析错误,提高了数据接口解析的时效性和精确性。
2)采用自然语言处理技术实现返回数据接收表的自动创建和数据接口参数与返回数据接收表字段的自动匹配,减少了数据库人工建表和匹配关系建立的工作量,提高了数据接口解析的效率,提升了数据接口解析的准确性。
3)采用可视化方法进行数据接口解析信息的校正、测试和展现,避免不同数据接口解析的重复代码编写,提高了数据接口解析的便利性,该方法适用于不同类型的数据接口,确保了数据接口解析方法的高可用性。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种基于自然语言处理的可视化数据接口通用解析方法,通过语义依存、短文本相似等自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;再利用语义分析、汉字转换等自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。
主要包括如下步骤:
步骤1、基于海量的数据接口开发方提供的接口信息,组建自然语言处理语料库,进行语义依存、短文本相似等自然语言处理训练,通过机器学习,完善数据接口信息识别模型。
信息识别模型定义的规则为将接口参数信息描述识别为标准参数名称,即系统能识别的中文汉字。
步骤2、采用步骤1中的数据接口信息识别模型识别要解析的数据接口信息,提取出数据接口的接口说明、接口地址、接口类型、调用参数和返回数据等内容。
步骤3、在可视化操作页面上展示步骤2中提取的接口信息,包括接口说明、接口地址、接口类型、调用参数和返回数据参数,可以进行人工校正确认。
调用参数和返回数据参数如果为多个,按顺序依次在页面展示。
步骤4、以数据接口调用参数和返回数据的参数名称、参数值和中文说明(如果接口信息载体未提供,也可以手动增加)的关联关系建立语义分析模型,通过大量语料库的不断训练,实现参数名称、参数值和中文说明语义分析结果的相互校正,最终给出某个参数的中文推荐解释。
语义分析规则为将数据接口参数名称、参数值和中文说明语义分析结果趋于标准一致的参数名称,即系统能识别的中文汉字。
步骤5、基于自然语言处理的通用语料库训练,建立中英转换、汉字拼音转换、拼音首字母转换等模型。
步骤6、在数据库中建立数据接口返回数据接收表
首先,指定数据库建表方式,建表方式包括数据参数英文建表、拼音建表、首字母建表等;
其次,根据步骤4中语义分析出的参数推荐解释和步骤5中的建表方式的汉字转换模型,在可视化操作页面上,显示自动创建的数据表字段,人工校正确认后,实现返回数据接收表的自动创建。
步骤7、建立数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系
在可视化操作页面上展示的调用参数、返回数据参数和数据库返回数据接收表字段的一一对应关系,人工校正后,完成数据接口的解析工作。
步骤8、在可视化操作页面上,进行接口解析的在线测试,填写接口调用条件,显示接口调用结果和接口调用错误提示,完成数据接口解析的测试工作。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (6)

1.一种基于自然语言处理的可视化数据接口通用解析方法,其特征在于,
先通过自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;
再利用自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;
最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析;
所述的返回数据接收表建表方式包括中英转换、汉字拼音转换、拼音首字母转的汉字转换规则;
主要包括如下步骤:
步骤1)、基于海量的数据接口开发方提供的接口信息,组建自然语言处理语料库,进行自然语言处理训练,通过机器学习,完善数据接口信息识别模型;
步骤2)、采用步骤1)中的数据接口信息识别模型识别要解析的数据接口信息,提取出数据接口的接口说明、接口地址、接口类型、调用参数和返回数据;
步骤3)、在可视化操作页面上展示步骤2)中提取的接口信息,包括接口说明、接口地址、接口类型、调用参数和返回数据参数,进行人工校正确认;
步骤4)、以数据接口调用参数和返回数据的参数名称、参数值和中文说明的关联关系建立语义分析模型,通过大量语料库的不断训练,实现参数名称、参数值和中文说明语义分析结果的相互校正,最终给出某个参数的中文推荐解释步骤;
步骤5)、基于自然语言处理的通用语料库训练,建立中英转换、汉字拼音转换、拼音首字母转换模型;
步骤6)、在数据库中建立数据接口返回数据接收表;
步骤7)、建立数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系;
步骤8)、在可视化操作页面上,进行接口解析的在线测试,填写接口调用条件,显示接口调用结果和接口调用错误提示,完成数据接口解析的测试工作。
2.根据权利要求1所述的方法,其特征在于,
在步骤1)中,自然语言处理训练规则为将接口参数信息描述识别为标准参数名称,即系统能识别的中文汉字。
3.根据权利要求1所述的方法,其特征在于,
在步骤2)中,调用参数和返回数据参数如果为一个以上,按顺序依次在页面展示。
4.根据权利要求1所述的方法,其特征在于,
在步骤4中),语义分析训练规则为将数据接口参数名称、参数值和中文说明语义分析结果趋于标准一致,即系统能识别的中文汉字。
5.根据权利要求1所述的方法,其特征在于,
在步骤6)中,
首先,指定数据库建表方式;
其次,根据步骤4)中语义分析出的参数推荐解释和步骤5)中的建表方式的汉字转换模型,在可视化操作页面上,显示自动创建的数据表字段,人工校正确认后,实现返回数据接收表的自动创建。
6.根据权利要求1所述的方法,其特征在于,
在步骤7)中,在可视化操作页面上展示的调用参数、返回数据参数和数据库返回数据接收表字段的一一对应关系,人工校正后,完成数据接口的解析工作。
CN201811531079.5A 2018-12-14 2018-12-14 一种基于自然语言处理的可视化数据接口通用解析方法 Active CN109684395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811531079.5A CN109684395B (zh) 2018-12-14 2018-12-14 一种基于自然语言处理的可视化数据接口通用解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811531079.5A CN109684395B (zh) 2018-12-14 2018-12-14 一种基于自然语言处理的可视化数据接口通用解析方法

Publications (2)

Publication Number Publication Date
CN109684395A CN109684395A (zh) 2019-04-26
CN109684395B true CN109684395B (zh) 2023-02-10

Family

ID=66187669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811531079.5A Active CN109684395B (zh) 2018-12-14 2018-12-14 一种基于自然语言处理的可视化数据接口通用解析方法

Country Status (1)

Country Link
CN (1) CN109684395B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN111078968B (zh) * 2019-12-26 2024-03-08 浪潮通用软件有限公司 一种可视化配置的跨系统数据交互方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228701A (zh) * 2017-10-23 2018-06-29 武汉大学 一种实现汉语近自然语言查询接口的系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308571A1 (en) * 2016-04-20 2017-10-26 Google Inc. Techniques for utilizing a natural language interface to perform data analysis and retrieval

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228701A (zh) * 2017-10-23 2018-06-29 武汉大学 一种实现汉语近自然语言查询接口的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义解析的中文GIS自然语言接口实现研究;周俊生等;《中文信息学报》;20141115(第06期);全文 *

Also Published As

Publication number Publication date
CN109684395A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN111159494B (zh) 一种多用户并发处理的数据标注方法
CN103020044A (zh) 一种机器辅助网页翻译方法及其系统
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN109684395B (zh) 一种基于自然语言处理的可视化数据接口通用解析方法
CN111191429A (zh) 数据表格自动填充的系统和方法
CN113407675A (zh) 教育题目自动批改方法、装置和电子设备
CN111767334A (zh) 信息抽取方法、装置、电子设备及存储介质
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN115391322A (zh) 数据检核方法、装置、设备、存储介质及程序产品
CN112036843A (zh) 基于rpa及ai的流程元素定位方法、装置、设备和介质
CN113434627A (zh) 工单的处理方法、装置和计算机可读存储介质
CN113050933B (zh) 脑图数据处理方法、装置、设备及存储介质
CN112052652B (zh) 一种电子课件脚本自动生成方法及装置
CN113377962B (zh) 一种基于图像识别和自然语言处理的智能过程模拟方法
CN114860901A (zh) 一种基于古籍信息的知识图谱构建方法及问答系统
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
CN113408253A (zh) 一种作业评阅系统及方法
CN113535916A (zh) 一种基于表格的问答方法、装置及计算机设备
CN114417788A (zh) 图纸解析方法、装置、存储介质及电子设备
CN113407676A (zh) 题目批改方法和系统、电子设备和计算机可读介质
KR102118322B1 (ko) 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법
CN112527982A (zh) 一种设备管理系统、方法、设备及存储介质
CN110096259A (zh) 一种Web页面元素定位方法及系统
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
CN111209729A (zh) 一种基于序列标注的财务科目计算关系识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant