CN112035622A - 一种自然语言处理的集成平台及方法 - Google Patents

一种自然语言处理的集成平台及方法 Download PDF

Info

Publication number
CN112035622A
CN112035622A CN202010922615.5A CN202010922615A CN112035622A CN 112035622 A CN112035622 A CN 112035622A CN 202010922615 A CN202010922615 A CN 202010922615A CN 112035622 A CN112035622 A CN 112035622A
Authority
CN
China
Prior art keywords
layer
interface
model
algorithm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010922615.5A
Other languages
English (en)
Inventor
祝彦森
王硕
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202010922615.5A priority Critical patent/CN112035622A/zh
Publication of CN112035622A publication Critical patent/CN112035622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种自然语言处理的集成平台及方法,集成平台包括:数据层、核心能力层、应用层;所述核心能力层包括基础算法层、算法层、接口层、服务层;数据层用于将非结构化数据以及结构化数据进行数据处理,处理为适用于不同接口的数据,核心能力层通过模型训练实现不同算法,在服务层生成各自独立的目标组件,用户在应用层根据自身需求选择相应目标组件完成业务。通过本发明,集成了一整套自底向上的丰富、高效的中文自然语言处理模块,实现了快速训练、快速部署,简化了用户使用难度,对处理算法所需的模型、数据进行管理,构建实现的统一标准,便于后续模型接口的增添,实现接口的可插拔需求。

Description

一种自然语言处理的集成平台及方法
技术领域
本发明涉及人工智能和语言学领域,尤其涉及一种自然语言处理的集成平台及方法。
背景技术
自然语言处理系统是人工智能和语言学领域的分支学科,用于研究如何让计算机处理及运用自然语言。实现人机之间自然语言通信,意味着要使计算机理解自然语言,生成自然语言,即既能理解自然语言文本的意义,也能以自然语言文本来表达既定的意图、思想等。无论实现自然语言理解,还是自然语言生成,其任务实现都是十分复杂且困难的,从现有的理论和技术现状看,构建一个通用的、高质量的自然语言处理平台,仍然是长期努力的目标。
目前针对相关技术中,存在以下瓶颈,尚未提出有效解决方案,
1、现有技术中提供的自然语言处理算法应用,多数是针对某种特定的自然语言处理任务进行开发的,应用开发后的算法工具包的功能具有局限性。
2、接口不统一,用户使用难度较大。
3、用户想要对工具包进行扩展时,需要编写大量代码,实现困难,导致自然语言处理方法具有较大的使用局限性,适用性差。
本发明集成了一整要自底向上的丰富、高效的中文自然语言处理模块,实现不同目标组件,不再是单一的功能开发,适用于智能搜索引擎、情报分析、泛媒体分析、知识管理等各个领域,降低技术门槛,提升用户在适用相关产品功能的体验。
发明内容
针对上述技术背景问题,本发明揭示了一种自然语言处理的集成平台及方法,用以构建一整套自底向上的丰富、高效的中文自然语言处理模块,从数据采集到模型发布,实现快速训练、快速部署,优化用户体验。
本发明提供了一种自然语言处理方法的集成平台,包括以下结构:
数据层,将非结构化数据以及结构化数据进行处理,处理为适用于不同接口的数据;
核心能力层,用于生成不同各自独立的目标组件;
应用层,用于供客户根据自身需求选择相应目标组件。
作为本发明的进一步改进,核心能力层包括:
基础算法层,使用开源库进行底层算法的开发,学习数据特征,进行基础的文本分析;
算法层,在所述基础算法层的进行基础文本分析的基础上进行复杂的文本分析;
接口层,对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用;
服务层,对算法模块接口进行统一管理,将自然语言处理相关的各算法统一封装,生成各自独立的目标组件。
作为本发明的进一步改进,算法层包括:在所述基础算法层的基础上实现高级算法文本任务模块。
作为本发明的进一步改进,基础算法层包括进行基础文本分析技术的基础算法模块,使用开源库进行底层算法的开发。
作为本发明的进一步改进,接口层提供分词接口、Word2Vec接口、TF-IDF接口、关键词提取接口、命名实体识别接口、依存句法分析接口、自动摘要接口、情感分析接口、文本分类接口、文本聚类接口这10个算法模块接口;
接口层对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用,前端通过调用接口来达到使用后端算法的效果。
作为本发明的进一步改进,接口层使用flask服务实现http接口。
作为本发明的进一步改进,服务层包括模型管理单元模块、语料管理模块、词典管理模块;
服务层基于业务场景使用模型管理单元模块、语料管理模块、词典管理模块的接口进行数据、模型的更换,生成各自独立的目标组件。
作为本发明的进一步改进,基础算法层以及算法层的算法具体实现过程为:
1)通过所述接口层的文件上传接口将模型训练数据或文件上传到服务器端;
2)用户判断模型是否需要训练,将实施过程分为以下两种情况:
①模型不需要训练,则用户可以直接使用现有模型,也可以使用接口层的模型文件上传接口,将预训练好的模型文件或开源的模型文件进行上传到服务器对应调用模型进行使用的目录下,通过上传后的模型调用模型预测接口进行后续的预测任务;
②模型需要重新训练,则用户上传需要进行训练的数据,基于训练数据调用模型训练接口进行模型的训练,将训练好的模型使用接口层的模型添加接口添加到支持的模型列表中,添加后使用模型预测接口对训练好的模型进行相关任务;
3)模型文件都通过接口层的模型下载接口和模型删除接口对模型文件进行处理。
基于相同发明思想,本申请还基于上述任一项发明创造所揭示的自然语言处理方法集成平台,揭示了一种自然语言处理方法,
所述自然语言处理方法包括以下步骤:
通过数据层进行非结构化数据以及结构化数据处理,处理为适用于不同接口的数据;
通过核心能力层生成不同各自独立的目标组件;
通过应用层客户根据自身需求选择相应目标组件。
作为本发明的进一步改进,核心能力层生成目标组件的步骤中包括:
通过基础算法层进行基础文本分析,使用开源库进行底层算法开发;
通过算法层在基础算法层的基础上实现高级算法文本分析技术;
通过接口层对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用,前端通过调用接口来达到使用后端算法的效果;
通过服务层基于业务场景使用模型管理单元模块、语料管理模块、词典管理模块的接口进行数据、模型的更换,生成各自独立的目标组件。
与现有技术相比,本发明的有益效果如下:
集成了一整要自底向上的丰富、高效的中文自然语言处理模块,实现不同目标组件,不再是单一的功能开发,适用于智能搜索引擎、情报分析、泛媒体分析、知识管理等各个领域,降低技术门槛,提升用户在适用相关产品功能的体验;
将算法模型进行封装成接口的形式,便于前端通过调用接口来达到使用后端算法的效果,在代码变多的基础上,使用封装能够提高一些代码的复用性,对一些功能型的和通用配置型的代码采用封装,不仅提高了代码的可读性,还能在下次使用这些功能和配置的时候直接复用,方便简洁;
使用模型管理、文件管理等技术统一对各种自然语言处理算法所需模型、数据进行管理,构建实现的统一标准,便于后续模型接口的增添,实现接口的可插拔需求。
附图说明
图1为本发明一种自然语言处理方法的集成平台结构框架图;
图2为本发明一种自然语言处理方法的集成平台中所涉及的核心能力层结构框架图;
图3为图2所揭示的算法层的具体实施流程图。
图4为根据本申请实施例的计算机设备的框架图。
以上各图中:
10、数据层;20、核心能力层;30、应用层;21、基础算法层;22、算法层;23、接口层;24、服务层;80、总线;81、处理器;82、存储器;83、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明融合主流机器学习以及深度学习算法,通过模型管理库统一构建了一整套自底向上的丰富、高效的自然语言处理模型,提供一种自然语言处理平台,降低技术实现门槛,实现快速训练、快速部署,适用于智能搜索引擎、情报分析、泛媒体分析、知识管理等各个领域。
本申请中,术语“文本分析”包括但不限于关键词抽取、摘要抽取、句子切分、分词、词性标注、命名实体识别、依存句法、语法分析、文本分类、情感分析、文本聚类等。
本申请中,术语“基础算法模块”包括但不限于中文分词、语法分析、TF-IDF、Word2vec等。
本申请中,术语“高级算法文本任务模块”包括但不限于命名实体识别、自动摘要、依存句法分析、情感分析、文本分类、文本聚类、关键词提取。
申请人通过下文示出若干实施例,以对本发明所含具体技术方案予以详细阐述。
实施例一:
参照图1至图3所示,本实例揭示了一种自然语言处理方法的集成平台(以下简称“平台”)的具体实施方式。
具体而言,本实施例所揭示的平台包括:数据层10,核心能力层20以及应用层30,上述数据层10,核心能力层20,应用层30自上而下进行部署,通过自底向上法集成一套丰富、高效的中文自然语言处理模块。
其中自底向上设计是一种设计程序的过程和方法,就是先编写出基础程序段,然后再逐步扩大规模、补充和升级某些功能,实际上是一种自底向上构造程序的过程。自底向上设计方法是根据系统功能要求,从具体的器件、逻辑部件或者相似系统开始,凭借熟练的技巧和丰富的经验,通过对其进行相互连接、修改和扩大,构成所要求的系统,该方法是从底层(具体部件)开始的,实际中无论是取用已有模块还是自行设计电路,其设计成本和开发周期都很优越。
数据层10用以将文本、网页等非结构化数据,图数据库、业务数据库等结构化数据进行处理,处理为适用于不同接口的数据。例如,命名实体识别算法需要数据含实体标签,该标签代表了实体所表示的类别(Place标签代表地址相关的实体,如浙江省、朝阳街道等;Time标签代表时间,如2019年10月1日,下午四点等)。
其中,本实施例中“非结构化数据”没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,典型人文产生的非结构化数据具体包括:文本文件、电子邮件、社交媒体、网站、移动数据、通讯、媒体、业务应用程序。
本实施例中所指“结构化数据”由二维表结构来逻辑表达和实现,严格地遵循数据格式与长度规范,通过关系型数据库进行存储和管理,标记方式为两种,一种使用HTML代码标记,一种使用微数据标记。
结合图2所示,在本实例中,核心能力层20包括:基础算法层21、算法层22、接口层23、服务层24,上述基础算法层21、算法层22、接口层23、服务层24自下而上进行部署。核心能力层20为一个完整自然语言处理算法应用的框架部分,生成不同各自独立的目标组件,满足用户不同的业务场景需求。
基础算法层21包括进行基础文本分析技术的基础算法模块,使用开源库进行底层算法的开发,学习数据特征,进行基础的文本分析,包括中文分词、语法分析、TF-IDF、Word2Vec等。
Word2Vec是Word Embedding方式之一,属于自然语言处理领域。它将文本内容映射到向量空间,从而将文本之间的计算转化为向量空间中两向量间的计算,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,TF(Term Frequency)是词频,IDF(Inverse Document Frequency)是逆文本频率指数。TF-IDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。TF-IDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。
算法层22包括在所述基础算法层21的基础上实现的高级算法文本任务模块,在所述基础算法层21的进行基础文本分析的基础上进行复杂的文本分析,实现命名实体识别、自动摘要、依存句法分析、情感分析、文本分类、文本聚类、关键词提取等文本任务模块。
本实施例中,基础算法层21和算法层22的算法实现方式分为两种,方式一为使用内置数据训练好的的模型在服务层24直接调用接口层23实现的算法进行使用。方式二为使用文件上接口进行上传训练数据集进行模型的重新训练,再调用训练好的模型进行算法的使用,也可以上传别人训练好的正确格式的模型进行算法的使用。
结合图3所示,在本实例中,基础算法层21和算法层22的算法的具体实现过程包括以下步骤:
1)通过所述接口层23的文件上传接口将模型训练数据或文件上传到服务器端;
2)用户判断模型是否需要训练,将实施过程分为以下两种情况:
①模型不需要训练,则用户可以直接使用现有模型,也可以使用接口层的模型文件上传接口,将预训练好的模型文件或开源的模型文件进行上传到服务器对应调用模型进行使用的目录下,通过上传后的模型调用模型预测接口进行后续的预测任务;
②模型需要重新训练,则用户上传需要进行训练的数据,基于训练数据调用模型训练接口进行模型的训练,将训练好的模型使用接口层的模型添加接口添加到支持的模型列表中,添加后使用模型预测接口对训练好的模型进行相关任务;
3)模型文件都通过接口层23的模型下载接口和模型删除接口对模型文件进行处理,决定模型文件是否保留,以免占用服务器的硬盘空间。
接口层23提供分词接口、Word2Vec接口、TF-IDF接口、关键词提取接口、命名实体识别接口、依存句法分析接口、自动摘要接口、情感分析接口、文本分类接口、文本聚类接口这10个算法模块接口。接口层23可以隐藏内部细节,对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用,提高安全性,提高代码的复用性,前端通过调用接口来达到使用后端算法的效果。
尤其地,接口层23使用flask服务实现命名实体识别、依存句法分析、情感分析、语料上传、语料下载、词典更新、模型训练、模型预测、模型上传、文件上传、文件下载等http接口。
其中,使用flask服务实现http接口,是指将算法模型进行封装成接口的形式,可以给前端进行调用,前端通过调用接口来达到使用后端算法的效果,例如:后端写了一个hello world的字符串,然后封装成了一个接口,那么前端调用接口,比如设计一个按钮,点了之后在网页上就会出现hello world的字符串返回给用户。
服务层24包括模型管理单元模块、语料管理模块、词典管理模块,所述服务层24基于业务场景使用模型管理模块、语料管理模块、词典管理模块的接口进行数据、模型的更换,生成各自独立的目标组件。
应用层30用于供客户根据自身业务场景的需要选择相应的目标组件,例如:文本分析、知识图谱、智能问答等。
通过本实施例所揭示的平台,集成了一整要自底向上的丰富、高效的中文自然语言处理模块,实现不同目标组件,不再是单一的功能开发,适用于智能搜索引擎、情报分析、泛媒体分析、知识管理等各个领域,降低技术门槛,提升用户在适用相关产品功能的体验,同时将算法模型进行封装成接口的形式,便于前端通过调用接口来达到使用后端算法的效果,在代码变多的基础上,使用封装能够提高一些代码的复用性,对一些功能型的和通用配置型的代码采用封装,不仅提高了代码的可读性,还能在下次使用这些功能和配置的时候直接复用,方便简洁,并且使用模型管理、文件管理等技术统一对各种自然语言处理算法所需模型、数据进行管理,构建实现的统一标准,便于后续模型接口的增添,实现接口的可插拔需求。
实施例二:
结合实施例一所揭示的一种自然语言处理方法的集成平台,本实施例揭示了一种自然语言处理方法(以下简称“方法”)的具体实施示例。
在本实施例中,申请人以该方法对自然语言处理平台中基于算法模型训练对业务需求进行相应目标组件生成的具体实现过程予以范例性阐述,本领域技术人员可以合理预测到,该方法所涵盖的技术方案还可合理地应用至文本分词、知识图谱、智能问答等其他业务场景中。
本实施例中所揭示的方法包括以下步骤:
首先通过数据层10,进行非结构化数据以及结构化数据处理,处理为适用于不同接口的数据。
其中,本实施例中所述“非结构化数据”没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,典型人文产生的非结构化数据具体包括:文本文件、电子邮件、社交媒体、网站、移动数据、通讯、媒体、业务应用程序,“结构化数据”由二维表结构来逻辑表达和实现,严格地遵循数据格式与长度规范,通过关系型数据库进行存储和管理,标记方式为两种,一种使用HTML代码标记,一种使用微数据标记。
数据层10进行数据的处理后,传到核心能力层20生成不同各自独立的目标组件。
具体而言,核心能力层20生成目标组件过程为:通过基础算法层21进行基础文本分析,使用开源库进行底层算法开发;通过算法层22,在基础算法层21的基础上实现高级算法文本分析技术;通过接口层23,对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用,前端通过调用接口来达到使用后端算法的效果;通过服务层24,基于业务场景使用模型管理模块、语料管理模块、词典管理模块的接口进行数据、模型的更换,生成各自独立的目标组件。
核心能力层20生成不同目标组件后,通过应用层30,客户根据自身需求选择相应目标组件以完成不同业务场景需求。
本实施例所揭示的一种自然语言处理方法与实施例一所揭示的一种自然语言处理方法的集成平台中相同部分的技术方案,请参实施例一所述,在此不再赘述。
实施例三:
结合图4所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种实体推荐方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种自然语言处理方法的集成平台,其特征在于,包括:
数据层,将非结构化数据以及结构化数据进行处理,处理为适用于不同接口的数据;
核心能力层,用于生成不同各自独立的目标组件;
应用层,用于供客户根据自身需求选择相应目标组件。
2.根据权利要求1所述的一种自然语言处理方法集成平台,其特征在于,所述核心能力层包括:
基础算法层,使用开源库进行底层算法的开发,学习数据特征,进行基础的文本分析;
算法层,在所述基础算法层的进行基础文本分析的基础上进行复杂的文本分析;
接口层,对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用;
服务层,对算法模块接口进行统一管理,将自然语言处理相关的各算法统一封装,生成各自独立的目标组件。
3.根据权利要求2所述的一种自然语言处理方法集成平台,其特征在于,所述算法层包括:在所述基础算法层的基础上实现高级算法文本任务模块。
4.根据权利要求3所述的一种自然语言处理方法集成平台,其特征在于,所述基础算法层包括进行基础文本分析技术的基础算法模块,使用开源库进行底层算法的开发。
5.根据权利要求2所述的一种自然语言处理方法集成平台,其特征在于,所述接口层提供分词接口、Word2Vec接口、TF-IDF接口、关键词提取接口、命名实体识别接口、依存句法分析接口、自动摘要接口、情感分析接口、文本分类接口、文本聚类接口这10个算法模块接口;
所述接口层对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用,前端通过调用接口来达到使用后端算法的效果。
6.根据权利要求5所述的一种自然语言处理方法集成平台,其特征在于,所述接口层使用flask服务实现http接口。
7.根据权利要求2所述的一种自然语言处理方法集成平台,其特征在于,所述服务层包括模型管理模块、语料管理模块、词典管理模块;
所述服务层基于业务场景使用模型管理模块、语料管理模块、词典管理模块的接口进行数据、模型的更换,生成各自独立的目标组件。
8.根据权利要求3或4所述的一种自然语言处理方法集成平台,其特征在于,所述基础算法层以及所述算法层的算法的具体实现过程为:
1)通过所述接口层的文件上传接口将模型训练数据或文件上传到服务器端;
2)用户判断模型是否需要训练,将实施过程分为以下两种情况:
①模型不需要训练,则用户可以直接使用现有模型,也可以使用接口层的模型文件上传接口,将预训练好的模型文件或开源的模型文件进行上传到服务器对应调用模型进行使用的目录下,通过上传后的模型调用模型预测接口进行后续的预测任务;
②模型需要重新训练,则用户上传需要进行训练的数据,基于训练数据调用模型训练接口进行模型的训练,将训练好的模型使用接口层的模型添加接口添加到支持的模型列表中,添加后使用模型预测接口对训练好的模型进行相关任务;
3)模型文件都通过接口层的模型下载接口和模型删除接口对模型文件进行处理。
9.一种自然语言处理方法,其特征在于,应用上述权利要求1-8任一项所述集成平台,所述自然语言处理方法包括以下步骤:
通过数据层进行非结构化数据以及结构化数据处理,处理为适用于不同接口的数据;
通过核心能力层生成不同各自独立的目标组件;
通过应用层客户根据自身需求选择相应目标组件。
10.根据权利要求9所述的一种自然语言处理方法,其特征在于,所述通过核心能力层生成目标组件的步骤中包括:
通过基础算法层进行基础文本分析,使用开源库进行底层算法开发;
通过算法层在基础算法层的基础上实现高级算法文本分析技术;
通过接口层对外提供公共访问方式,将算法模型进行统一封装成接口的形式以供前端进行调用;
通过服务层基于业务场景使用模型管理模块、语料管理模块、词典管理模块的接口进行数据、模型的更换,生成各自独立的目标组件。
CN202010922615.5A 2020-09-04 2020-09-04 一种自然语言处理的集成平台及方法 Pending CN112035622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010922615.5A CN112035622A (zh) 2020-09-04 2020-09-04 一种自然语言处理的集成平台及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010922615.5A CN112035622A (zh) 2020-09-04 2020-09-04 一种自然语言处理的集成平台及方法

Publications (1)

Publication Number Publication Date
CN112035622A true CN112035622A (zh) 2020-12-04

Family

ID=73590664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010922615.5A Pending CN112035622A (zh) 2020-09-04 2020-09-04 一种自然语言处理的集成平台及方法

Country Status (1)

Country Link
CN (1) CN112035622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792029A (zh) * 2021-09-22 2021-12-14 电信科学技术第十研究所有限公司 用于大数据处理与分析模型的快速开发框架及其构建方法
CN114492448A (zh) * 2021-12-16 2022-05-13 航天信息股份有限公司 一种确定智能语义分析模型的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562421A (zh) * 2017-09-28 2018-01-09 北京神州泰岳软件股份有限公司 一种自然语言处理方法及处理平台
CN109582294A (zh) * 2018-12-28 2019-04-05 中国科学院电子学研究所苏州研究院 一种内嵌式机器学习系统的软件体系结构设计方法
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN110795567A (zh) * 2019-09-29 2020-02-14 北京远舢智能科技有限公司 一种知识图谱平台
CN111369011A (zh) * 2020-04-16 2020-07-03 光际科技(上海)有限公司 机器学习模型应用的方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562421A (zh) * 2017-09-28 2018-01-09 北京神州泰岳软件股份有限公司 一种自然语言处理方法及处理平台
CN109582294A (zh) * 2018-12-28 2019-04-05 中国科学院电子学研究所苏州研究院 一种内嵌式机器学习系统的软件体系结构设计方法
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN110795567A (zh) * 2019-09-29 2020-02-14 北京远舢智能科技有限公司 一种知识图谱平台
CN111369011A (zh) * 2020-04-16 2020-07-03 光际科技(上海)有限公司 机器学习模型应用的方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋丽梅等: "《机器视觉与机器学习》", 30 June 2020, 北京:机械工业出版社, pages: 321 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792029A (zh) * 2021-09-22 2021-12-14 电信科学技术第十研究所有限公司 用于大数据处理与分析模型的快速开发框架及其构建方法
CN113792029B (zh) * 2021-09-22 2023-12-01 电信科学技术第十研究所有限公司 用于大数据处理与分析模型的快速开发框架及其构建方法
CN114492448A (zh) * 2021-12-16 2022-05-13 航天信息股份有限公司 一种确定智能语义分析模型的方法及系统

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
US10579736B2 (en) Method and device for determining comment, server and storage medium
CN107679039B (zh) 用于确定语句意图的方法和装置
US20230015606A1 (en) Named entity recognition method and apparatus, device, and storage medium
CN109697239B (zh) 用于生成图文信息的方法
US20170116521A1 (en) Tag processing method and device
CN112883731B (zh) 内容分类方法和装置
CN108959413B (zh) 一种主题网页爬取方法及主题爬虫系统
CN115994536B (zh) 一种文本信息处理方法、系统、设备及计算机存储介质
CN110275963A (zh) 用于输出信息的方法和装置
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
US20240078385A1 (en) Method and apparatus for generating text
CN112035622A (zh) 一种自然语言处理的集成平台及方法
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN112188311A (zh) 用于确定新闻的视频素材的方法和装置
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN114462425B (zh) 社交媒体文本处理方法、装置、设备及存储介质
CN114048288A (zh) 细粒度情感分析方法、系统、计算机设备和存储介质
CN112307738B (zh) 用于处理文本的方法和装置
WO2014114143A1 (en) Method, apparatus and computer storage medium for acquiring hot content
CN106156021A (zh) 时空关联信息生成方法和执行其的服务器
CN114330296A (zh) 新词发现方法、装置、设备以及存储介质
CN113536773A (zh) 商品评论情感分析方法、系统、电子设备及存储介质
CN112328844A (zh) 一种处理多类型数据的方法及系统
KR102650634B1 (ko) 워드 클라우드를 이용한 해시태그 추천 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination