CN109684395A - 一种基于自然语言处理的可视化数据接口通用解析方法 - Google Patents
一种基于自然语言处理的可视化数据接口通用解析方法 Download PDFInfo
- Publication number
- CN109684395A CN109684395A CN201811531079.5A CN201811531079A CN109684395A CN 109684395 A CN109684395 A CN 109684395A CN 201811531079 A CN201811531079 A CN 201811531079A CN 109684395 A CN109684395 A CN 109684395A
- Authority
- CN
- China
- Prior art keywords
- interface
- data
- parameter
- natural language
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 238000003058 natural language processing Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于自然语言处理的可视化数据接口通用解析方法,属于数据交互技术领域,本发明通过自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;再利用自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。避免不同数据接口解析的重复代码编写,减少数据接口解析错误,提高数据接口解析的便利性、准确性和时效性。
Description
技术领域
本发明涉及数据交互技术,尤其涉及一种基于自然语言处理的可视化数据接口通用解析方法。
背景技术
Web数据接口系统数据交互的常用方式。数据接口的解析工作是指分析数据接口的调用方式和返回数据格式等信息,实现将调用的数据接口返回数据存储入库的功能。
通常其过程如下:首先,研究接口信息载体中的功能介绍、接口地址、输入参数、返回数据等说明;然后,根据数据接口的输入参数,编写数据接口调用方法;最后,解析数据接口返回数据格式,进行接收表的手动创建,人工匹配接口返回数据与接收数据表字段的对应关系,编写代码将接口返回数据存储入库。
但是,通常的数据接口解析方法需要根据接口信息载体,手动建立接口数据接收表,人工匹配接口返回数据与接收数据表字段的对应关系,每解析一个数据接口,需要重新编写一次数据解析代码,尤其是数据接口比较复杂时,接口信息载体的研究、代码编写和调试费时费力,且容易出现参数解析错误。
发明内容
为了解决以上技术问题,本发明提出了一种基于自然语言处理的可视化数据接口通用解析方法,采用可视化手段解析数据接口调用参数和返回数据等信息的通用方法,实现不同类型数据接口解析的自动化、智能化,避免不同数据接口解析的重复代码编写,减少数据接口解析错误,提高数据接口解析的便利性、准确性和时效性。
本发明采用的技术方案是:
一种基于自然语言处理的可视化数据接口通用解析方法,主要过程为:
通过语义依存、短文本相似等自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;再利用语义分析、汉字转换等自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。
进一步的包括,
主要包括如下步骤:
步骤1、基于海量的数据接口开发方提供的接口信息,组建自然语言处理语料库,进行自然语言处理训练,通过机器学习,完善数据接口信息识别模型。
信息识别模型定义的规则为将接口参数信息描述识别为标准参数名称,即系统能识别的中文汉字。
步骤2、采用步骤1中的数据接口信息识别模型识别要解析的数据接口信息,提取出数据接口的接口说明、接口地址、接口类型、调用参数和返回数据等内容。
步骤3、在可视化操作页面上展示步骤2中提取的接口信息,包括接口说明、接口地址、接口类型、调用参数和返回数据参数,可以进行人工校正确认。
调用参数和返回数据参数如果为多个,按顺序依次在页面展示。
步骤4、以数据接口调用参数和返回数据的参数名称、参数值和中文说明的关联关系建立语义分析模型,通过大量语料库的不断训练,实现参数名称、参数值和中文说明语义分析结果的相互校正,最终给出某个参数的中文推荐解释。
语义分析规则为将数据接口参数名称、参数值和中文说明语义分析结果趋于标准一致的参数名称,即系统能识别的中文汉字。
步骤5、基于自然语言处理的通用语料库训练,建立中英转换、汉字拼音转换、拼音首字母转换等模型。
步骤6、在数据库中建立数据接口返回数据接收表
首先,指定数据库建表方式,建表方式包括数据参数英文建表、拼音建表、首字母建表等;
其次,根据步骤4中语义分析出的参数推荐解释和步骤5中的建表方式的汉字转换模型,在可视化操作页面上,显示自动创建的数据表字段,人工校正确认后,实现返回数据接收表的自动创建。
步骤7、建立数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系;
在可视化操作页面上展示的调用参数、返回数据参数和数据库返回数据接收表字段的一一对应关系,人工校正后,完成数据接口的解析工作。
步骤8、在可视化操作页面上,进行接口解析的在线测试,填写接口调用条件,显示接口调用结果和接口调用错误提示,完成数据接口解析的测试工作。
进一步的包括,
所述的数据接口开发方提供的接口信息包括但不限于接口文档等所有信息载体中的数据接口信息。
进一步的包括,
所述的给出数据接口调用参数和返回数据参数的中文推荐解释的语义分析内容包括但不限于数据接口参数名称、参数值和中文说明等所有数据接口解析信息。
进一步的包括,
所述的返回数据接收表建表方式包括中英转换、汉字拼音转换、拼音首字母转换等所有汉字转换规则。
进一步的包括,
所述的可视化操作界面展示信息包括但不限于信息识别模型识别出的数据接口信息,自动创建的返回数据接收表字段,数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系和接口信息解析的在线测试提示信息等所有在数据接口解析工程中需要可视化展现的内容。
本发明提供的数据接口通用解析方法具有以下有益效果:
1)采用自然语言处理技术进行接口信息的智能识别,减少了接口信息载体的研究时间,避免了人为参数解析错误,提高了数据接口解析的时效性和精确性。
2)采用自然语言处理技术实现返回数据接收表的自动创建和数据接口参数与返回数据接收表字段的自动匹配,减少了数据库人工建表和匹配关系建立的工作量,提高了数据接口解析的效率,提升了数据接口解析的准确性。
3)采用可视化方法进行数据接口解析信息的校正、测试和展现,避免不同数据接口解析的重复代码编写,提高了数据接口解析的便利性,该方法适用于不同类型的数据接口,确保了数据接口解析方法的高可用性。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种基于自然语言处理的可视化数据接口通用解析方法,通过语义依存、短文本相似等自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;再利用语义分析、汉字转换等自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。
主要包括如下步骤:
步骤1、基于海量的数据接口开发方提供的接口信息,组建自然语言处理语料库,进行语义依存、短文本相似等自然语言处理训练,通过机器学习,完善数据接口信息识别模型。
信息识别模型定义的规则为将接口参数信息描述识别为标准参数名称,即系统能识别的中文汉字。
步骤2、采用步骤1中的数据接口信息识别模型识别要解析的数据接口信息,提取出数据接口的接口说明、接口地址、接口类型、调用参数和返回数据等内容。
步骤3、在可视化操作页面上展示步骤2中提取的接口信息,包括接口说明、接口地址、接口类型、调用参数和返回数据参数,可以进行人工校正确认。
调用参数和返回数据参数如果为多个,按顺序依次在页面展示。
步骤4、以数据接口调用参数和返回数据的参数名称、参数值和中文说明(如果接口信息载体未提供,也可以手动增加)的关联关系建立语义分析模型,通过大量语料库的不断训练,实现参数名称、参数值和中文说明语义分析结果的相互校正,最终给出某个参数的中文推荐解释。
语义分析规则为将数据接口参数名称、参数值和中文说明语义分析结果趋于标准一致的参数名称,即系统能识别的中文汉字。
步骤5、基于自然语言处理的通用语料库训练,建立中英转换、汉字拼音转换、拼音首字母转换等模型。
步骤6、在数据库中建立数据接口返回数据接收表
首先,指定数据库建表方式,建表方式包括数据参数英文建表、拼音建表、首字母建表等;
其次,根据步骤4中语义分析出的参数推荐解释和步骤5中的建表方式的汉字转换模型,在可视化操作页面上,显示自动创建的数据表字段,人工校正确认后,实现返回数据接收表的自动创建。
步骤7、建立数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系
在可视化操作页面上展示的调用参数、返回数据参数和数据库返回数据接收表字段的一一对应关系,人工校正后,完成数据接口的解析工作。
步骤8、在可视化操作页面上,进行接口解析的在线测试,填写接口调用条件,显示接口调用结果和接口调用错误提示,完成数据接口解析的测试工作。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (8)
1.一种基于自然语言处理的可视化数据接口通用解析方法,其特征在于,
先通过自然语言处理方法,建立数据接口信息识别模型,从而在接口开发方提供的接口信息载体中识别出数据接口信息;
再利用自然语言处理模型,实现数据接口返回数据接收表的自动创建,数据接口参数与返回数据接收表字段的自动匹配;
最后通过可视化方法将数据接口解析过程展现出来,通过人工校正和在线测试的方式,完成数据接口的解析。
2.根据权利要求1所述的方法,其特征在于,
所述的返回数据接收表建表方式包括中英转换、汉字拼音转换、拼音首字母转的汉字转换规则。
3.根据权利要求2所述的方法,其特征在于,
主要包括如下步骤:
步骤1)、基于海量的数据接口开发方提供的接口信息,组建自然语言处理语料库,进行自然语言处理训练,通过机器学习,完善数据接口信息识别模型;
步骤2)、采用步骤1)中的数据接口信息识别模型识别要解析的数据接口信息,提取出数据接口的接口说明、接口地址、接口类型、调用参数和返回数据;
步骤3)、在可视化操作页面上展示步骤2)中提取的接口信息,包括接口说明、接口地址、接口类型、调用参数和返回数据参数,进行人工校正确认;
步骤4)、以数据接口调用参数和返回数据的参数名称、参数值和中文说明的关联关系建立语义分析模型,通过大量语料库的不断训练,实现参数名称、参数值和中文说明语义分析结果的相互校正,最终给出某个参数的中文推荐解释步骤;
步骤5)、基于自然语言处理的通用语料库训练,建立中英转换、汉字拼音转换、拼音首字母转换模型;
步骤6)、在数据库中建立数据接口返回数据接收表;
步骤7)、建立数据接口调用参数、返回数据参数和返回数据接收表字段的对应关系;
步骤8)、在可视化操作页面上,进行接口解析的在线测试,填写接口调用条件,显示接口调用结果和接口调用错误提示,完成数据接口解析的测试工作。
4.根据权利要求3所述的方法,其特征在于,
在步骤1)中,自然语言处理训练规则为将接口参数信息描述识别为标准参数名称,即系统能识别的中文汉字。
5.根据权利要求3所述的方法,其特征在于,
在步骤2)中,调用参数和返回数据参数如果为一个以上,按顺序依次在页面展示。
6.根据权利要求3所述的方法,其特征在于,
在步骤4中),语义分析训练规则为将数据接口参数名称、参数值和中文说明语义分析结果趋于标准一致,即系统能识别的中文汉字。
7.根据权利要求3所述的方法,其特征在于,
在步骤6)中,
首先,指定数据库建表方式;
其次,根据步骤4)中语义分析出的参数推荐解释和步骤5)中的建表方式的汉字转换模型,在可视化操作页面上,显示自动创建的数据表字段,人工校正确认后,实现返回数据接收表的自动创建。
8.根据权利要求3所述的方法,其特征在于,
在步骤7)中,在可视化操作页面上展示的调用参数、返回数据参数和数据库返回数据接收表字段的一一对应关系,人工校正后,完成数据接口的解析工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811531079.5A CN109684395B (zh) | 2018-12-14 | 2018-12-14 | 一种基于自然语言处理的可视化数据接口通用解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811531079.5A CN109684395B (zh) | 2018-12-14 | 2018-12-14 | 一种基于自然语言处理的可视化数据接口通用解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684395A true CN109684395A (zh) | 2019-04-26 |
CN109684395B CN109684395B (zh) | 2023-02-10 |
Family
ID=66187669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811531079.5A Active CN109684395B (zh) | 2018-12-14 | 2018-12-14 | 一种基于自然语言处理的可视化数据接口通用解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684395B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN111078968A (zh) * | 2019-12-26 | 2020-04-28 | 山东浪潮通软信息科技有限公司 | 一种可视化配置的跨系统数据交互方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308571A1 (en) * | 2016-04-20 | 2017-10-26 | Google Inc. | Techniques for utilizing a natural language interface to perform data analysis and retrieval |
CN108228701A (zh) * | 2017-10-23 | 2018-06-29 | 武汉大学 | 一种实现汉语近自然语言查询接口的系统 |
-
2018
- 2018-12-14 CN CN201811531079.5A patent/CN109684395B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308571A1 (en) * | 2016-04-20 | 2017-10-26 | Google Inc. | Techniques for utilizing a natural language interface to perform data analysis and retrieval |
CN108228701A (zh) * | 2017-10-23 | 2018-06-29 | 武汉大学 | 一种实现汉语近自然语言查询接口的系统 |
Non-Patent Citations (1)
Title |
---|
周俊生等: "基于语义解析的中文GIS自然语言接口实现研究", 《中文信息学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN111078968A (zh) * | 2019-12-26 | 2020-04-28 | 山东浪潮通软信息科技有限公司 | 一种可视化配置的跨系统数据交互方法及系统 |
CN111078968B (zh) * | 2019-12-26 | 2024-03-08 | 浪潮通用软件有限公司 | 一种可视化配置的跨系统数据交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109684395B (zh) | 2023-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947836B (zh) | 英语试卷结构化方法和装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN107329967A (zh) | 基于深度学习的问答系统以及方法 | |
US10891430B2 (en) | Semi-automated methods for translating structured document content to chat-based interaction | |
CN104199871B (zh) | 一种用于智慧教学的高速化试题导入方法 | |
CN108334493B (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
US10956655B2 (en) | Automated production of data-driven reports with descriptive and rich text and graphical contents | |
CN111159494B (zh) | 一种多用户并发处理的数据标注方法 | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN111209728B (zh) | 一种试题自动标注录入方法 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
CN106326307A (zh) | 一种语言交互方法 | |
JP2023012522A (ja) | クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 | |
CN111191429A (zh) | 数据表格自动填充的系统和方法 | |
CN109684395A (zh) | 一种基于自然语言处理的可视化数据接口通用解析方法 | |
CN112580299A (zh) | 智能评标方法、评标设备及计算机存储介质 | |
US20170178528A1 (en) | Method and System for Providing Automated Localized Feedback for an Extracted Component of an Electronic Document File | |
CN112257462A (zh) | 一种基于神经机器翻译技术的超文本标记语言翻译方法 | |
CN113408253A (zh) | 一种作业评阅系统及方法 | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
CN117130593A (zh) | 代码处理方法、系统和电子设备 | |
CN111177414A (zh) | 一种实体预标注方法和装置以及设备 | |
CN115017271A (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN114996494A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115098657A (zh) | 自然语言转换数据库查询语句的方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |