CN115577698A - 一种基于机器学习的数据和文本处理系统及其方法 - Google Patents

一种基于机器学习的数据和文本处理系统及其方法 Download PDF

Info

Publication number
CN115577698A
CN115577698A CN202211266918.1A CN202211266918A CN115577698A CN 115577698 A CN115577698 A CN 115577698A CN 202211266918 A CN202211266918 A CN 202211266918A CN 115577698 A CN115577698 A CN 115577698A
Authority
CN
China
Prior art keywords
data
text
module
processing
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211266918.1A
Other languages
English (en)
Inventor
张琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Feichuan Information Technology Nanjing Co ltd
Original Assignee
Feichuan Information Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Feichuan Information Technology Nanjing Co ltd filed Critical Feichuan Information Technology Nanjing Co ltd
Priority to CN202211266918.1A priority Critical patent/CN115577698A/zh
Publication of CN115577698A publication Critical patent/CN115577698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种基于机器学习的数据和文本处理系统及其方法,包括数据文本处理智能平台、与数据文本处理智能平台数据连接的智能流程处理识别服务端、以及与数据文本处理智能平台数据连接的云端服务平台;数据文本处理智能平台包括数据库、数据文本处理系统、数据文本管理系统和数据文本获取端;本发明利用AI智能、大数据处理以及机器学习技术,能够完成对多类别数据文本的标准化分析评估和自主学习优化功能,能够自主学习的优化评估结果,进而能够进一步提高评估的准确性和有效性,且改善了机器学习的流程化操作,且改善了机器学习的流程化操作,提高了智能化应用效果。

Description

一种基于机器学习的数据和文本处理系统及其方法
技术领域
本发明涉及数据文本处理技术领域,特别是一种基于机器学习的数据和文本处理系统及其方法。
背景技术
随着计算机技术和网络技术的发展,文本作为信息的传播载体得到充分发展。为了向用户提供高效的文本搜索和文本推荐等服务,通常需要对文本进行获取分析处理,以向用户提供高质量文本。
但是现有技术存在如下问题:现有文本处理系统在检测数据文本时不够全面和智能,无法快速精准的识别出多项不同形式的数据文本,例如音频、视频、图片等等,且操作流程较为繁琐,同时对于数据文本中可能存在的抄袭现象、重复字现象与错别字现象,也不能根据检测结果进行评估,并根据现有状况进行改善。
发明内容
鉴于上述现有的数据文本处理中存在的问题,提出了本发明。因此,本发明提供一种基于机器学习的数据和文本处理系统及其方法,其利用AI智能、大数据处理以及RPA机器人技术,能够完成对多类别数据文本的标准化分析评估和自主学习优化功能,不断提升标记数据文本的质量,且改善了机器学习的流程化操作,提高了智能化应用效果,有利于大规模的高效应用。
本发明提供如下技术方案:
一方面,提供一种基于机器学习的数据和文本处理系统,包括数据文本处理智能平台、与所述数据文本处理智能平台数据连接的智能流程处理识别服务端、以及与所述数据文本处理智能平台数据连接的云端服务平台;所述数据文本处理智能平台包括数据库、数据文本处理系统、数据文本管理系统和数据文本获取端;所述数据库采用Hadoop大数据集群底层架构,且数据库包括规则库、特征库、算法库、知识库和成果库;所述数据文本处理系统包括大数据处理模块、文本抽取分词模块、索引建立模块、分类模块、识别模块、查验评估模块、报告生成模块和自主学习优化模块,所述数据文本获取端用于获取关联的信息数据;
所述智能流程处理识别服务端用于对所述数据文本获取端获取的关联的信息数据进行流程化处理,形成标准数据文本结构化数据,同时用于所述数据文本处理智能平台中地数据文本处理系统的流程化操作,包括RPA流程机器人、OCR光学字符识别系统和语音识别系统;
所述云端服务平台用于不同的终端用户接入使用,包括决策层、业务层和管理层;
其中,所述数据文本获取端获取关联的信息数据后,调用智能流程处理识别服务端进行处理,将所述关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统中进行数据处理、分类、识别分析和自主学习优化,获得对应的优化文本数据与查验评估报告。
作为本发明的一种优选方案,其中:所述文本抽取分词模块用于接收标准数据文本结构化数据,当判断出标准数据文本结构化数据为破损时,则舍弃掉所述标准数据文本结构化数据;否则识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本;
所述索引建立模块用于根据所提供的分词结果形成的分词文本建立文本内容的索引文件,并为所述数据库提供索引文件;
所述分类模块用于根据所提供的分词结果形成的分词文本确定一个类别分类,并将分类结果缓存至数据库;
所述识别模块用于基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘,并将数据挖掘结果缓存至数据库;
所述查验评估模块用于根据数据索引和数据挖掘结果,对多个句子文本所形成的文档进行质量评估,并将数据索引、数据挖掘结果和质量评估结果缓存至数据库;
所述报告生成模块用于根据导入的标准数据文本结构化数据所生成的质量评估结果,以及相应的图表或等级分类,生成质量评估报告并缓存至数据库;
所述自主学习优化模块用于对当前标记的标准数据文本结构化数据,结合知识库形成的知识图谱神经网络模型,进行自主学习优化和呈现,并缓存至数据库。
作为本发明的一种优选方案,其中:对多个句子文本所形成的文档进行质量评估,具体地,对所述文档中的文本数据进行词性分析得到对应的词性,并从所述文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到所述目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值后进行准确度优化,如下:
采用均方差来作为综合评估值模型的代价函数MSE,度量综合评估值模型输出预测值与真实值的差异,同时采用均方根误差RMSE和平均绝对误差MAE来评测综合评估值模型的预测结果,代价函数MSE的公式如式(1)所示,均方根误差RMSE的公式如式(2)所示,平均绝对误差MAE的公式如式(3)所示;
Figure BDA0003893727530000031
Figure BDA0003893727530000032
Figure BDA0003893727530000033
其中,
Figure BDA0003893727530000034
表示第i个样本的单个预测值,yi表示第i个样本的真实值,n为序号。
作为本发明的一种优选方案,其中:所述分类模块给文本内容确定一个类别进行分类,具体为根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别,同时定义错误分类风险通过式(4)对判定区域内的文本内容的错误进行分类风险TRi,如下:
Figure BDA0003893727530000035
其中,ins∈R(zj)表示下属区域zj的错误分类实例,对于每个错误分类实例j,vj为错误分类实例j中的标题和正文之间语义错误数量,pj为错误分类实例j中的语法错误数量,qj为错误分类实例j中分类关键词的数量,a1、a2和a3分别表示三个数量vj、pj、qj的权重值;
所述识别模块提取文本内容中的关键词,具体包括:根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重,依据综合权重大小排序得到M个关键词,其中关键词M的数量由用户指定;
所述自主学习优化模块基于当前标记的标准数据文本结构化数据,结合综合评估值,进行自主学习优化操作;具体地对当前文档中相应的文本字符进行重要性排序后,通过余弦相似度获得其他文档中相应文本的匹配度,基于其他文档中相应文本,更新当前文档中相应的文本,基于当前标记的标准数据文本结构化数据,完成自主学习优化操作。
作为本发明的一种优选方案,其中:所述数据文本获取端用于获取关联的信息数据,数据类型包括文字、图像、语音、视频和其他文本信息数据。
作为本发明的一种优选方案,其中:所述云端服务平台还包括访问账号管理单元和功能使用单元,所述功能使用单元与所述数据文本管理系统连接。
作为本发明的一种优选方案,其中:所述数据文本管理系统包括查询模块、打印模块、归档模块和文本管理模块。
作为本发明的一种优选方案,其中:所述大数据处理模块用于对获取的标准数据文本结构化数据进行分析,且所述大数据处理模块包括至少一个边缘数据处理器、计算信息分配单元、寻址转移器单元、共享数据单元和状态监控单元;
所述计算信息分配单元通过对标准数据文本结构化数据的聚类分析,并根据边缘计算的预设资源种类进行数据划分,将目标数据划分为至少一个数据块种类,获得数据集后装载子数据集,并创建共享空间分配至终端用户端,以及分配共享数据空间至云端服务平台;
所述共享数据单元用于在大数据处理模块中开设共享数据空间,利用共享数据空间与至少一个边缘数据处理器进行数据交互;
所述状态监控单元用于动态监视任务数组中各任务的运行状态;
所述寻址转移器单元接收并访问调度体模块输入地址,根据虚拟内存地址进行解析,获得大数据处理模块的内存物理地址,进行信息交互,根据数据地址访问共享数据单元中的地址以获取数据。
另一方面,本发明提供一种基于机器学习的数据和文本处理系统的方法,具体包括以下步骤:
步骤S1,数据文本处理智能平台通过云端服务平台接收到数据文本的处理需求后,所述数据文本获取端获取关联的信息数据,调用智能流程处理识别服务端进行处理后将所述关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统中;
步骤S2,识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本,根据所提供的分词结果形成的分词文本建立文本内容的索引文件,通过数据库给文本内容确定一个类别进行分类,基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘;
步骤S3,通过对多个句子文本所形成的文档进行质量评估,具体地,对所述文档中的文本数据进行词性分析得到对应的词性,并从所述文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到所述目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值并生成报表信息;
步骤S4,通过所述自主学习优化模块基于当前标记的标准数据文本结构化数据结合综合评估值,进行自主学习优化操作。
本发明的有益效果:本发明利用AI智能、大数据处理以及机器学习技术,能够完成对多类别数据文本的标准化分析评估和自主学习优化功能,不断完成标记数据文本的质量,能够自主学习的优化评估结果,进而能够进一步提高评估的准确性和有效性,且改善了机器学习的流程化操作,提高了智能化应用效果,有利于大规模的高效应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明实施例中一种基于机器学习的数据和文本处理系统的模块化结构示意图;
图2为本发明实施例中大数据处理模块的模块化结构示意图。
图中标号:10、数据文本处理智能平台;20、智能流程处理识别服务端;30、云端服务平台;101、数据库;102、数据文本处理系统;103、数据文本管理系统;104、数据文本获取端。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
下面通过实施例并结合附图对本方案做进一步具体说明。
参照图1和图2,为本发明的一个实施例,该实施例提供了一种基于机器学习的数据和文本处理系统;包括数据文本处理智能平台10、与数据文本处理智能平台10数据连接的智能流程处理识别服务端20、以及与数据文本处理智能平台10数据连接的云端服务平台30;数据文本处理智能平台10包括数据库101、数据文本处理系统102、数据文本管理系统103和数据文本获取端104;数据库101采用Hadoop大数据集群底层架构,且数据库101包括规则库、特征库、算法库、知识库和成果库;数据文本处理系统102包括大数据处理模块、文本抽取分词模块、索引建立模块、分类模块、识别模块、查验评估模块、报告生成模块和自主学习优化模块,数据文本获取端104用于获取关联的信息数据。
本实施例对于数据文本处理系统102具体地,文本抽取分词模块用于接收标准数据文本结构化数据,当判断出标准数据文本结构化数据为破损时,则舍弃掉标准数据文本结构化数据;否则识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本;
索引建立模块用于根据所提供的分词结果形成的分词文本建立文本内容的索引文件,并为数据库101提供索引文件;
分类模块用于根据所提供的分词结果形成的分词文本确定一个类别分类,并将分类结果缓存至数据库101,其中,分类模块给文本内容确定一个类别进行分类,具体为根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别;同时定义错误分类风险,通过式(4)对判定区域内的文本内容的错误进行分类风险TRi,如下:
Figure BDA0003893727530000071
其中,ins∈R(zj)表示下属区域zj的错误分类实例,对于每个错误分类实例j,vj为错误分类实例j中的标题和正文之间语义错误数量,pj为错误分类实例j中的语法错误数量,qj为错误分类实例j中的分类关键词的数量,a1、a2和a3分别表示三个数量vj、pj、qj的权重值;
识别模块用于基于分类结果的类别,提取文本内容中的关键词,提取文本内容中的关键词具体包括:根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重,依据综合权重大小排序得到M个关键词,其中关键词M的数量由用户指定,通过关键词进行外部数据的数据挖掘,并将数据挖掘结果缓存至数据库101;
查验评估模块用于根据数据索引和数据挖掘结果,对多个句子文本所形成的文档进行质量评估,并将数据索引、数据挖掘结果和质量评估结果缓存至数据库101;
报告生成模块用于根据导入的标准数据文本结构化数据所生成的质量评估结果,以及相应的图表或等级分类,生成质量评估报告并缓存至数据库101;
所述自主学习优化模块用于对当前标记的标准数据文本结构化数据,结合知识库形成的知识图谱神经网络模型,进行自主学习优化和呈现,并缓存至数据库101。自主学习优化模块基于当前标记的标准数据文本结构化数据,结合综合评估值,进行自主学习优化操作;具体地对当前文档中相应的文本字符进行重要性排序后,通过余弦相似度获得其他文档中相应文本的匹配度,基于其他文档中相应文本,更新当前文档中相应的文本,基于当前标记的标准数据文本结构化数据,完成自主学习优化操作。
本实施例需要重点说明的,数据文本处理智能平台10对多个句子文本所形成的文档进行质量评估,具体地,对文档中的文本数据进行词性分析得到对应的词性,并从文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值后进行准确度优化,如下:
采用均方差来作为综合评估值模型的代价函数MSE,度量综合评估值模型输出预测值与真实值的差异,同时采用均方根误差RMSE和平均绝对误差MAE来评测综合评估值模型的预测结果,代价函数MSE的公式如式(1)所示,均方根误差RMSE的公式如式(2)所示,平均绝对误差MAE的公式如式(3)所示;
Figure BDA0003893727530000081
Figure BDA0003893727530000082
Figure BDA0003893727530000083
其中,
Figure BDA0003893727530000084
表示第i个样本的单个预测值,yi表示第i个样本的真实值,n为序号。
基于上述的损失函数可知,可以用来度量单个预测值综合评估值模型输出预测值与真实值的差异,或者说是该模型的犯错误程度,它是一个非负值,如果将所有预测样本的误差求和,就可以得到整个模型的代价函数。此外深度学习模型迭代训练的目的就是通过计算整体的代价函数,找到合适的优化方法,如梯度下降法,来更新模型的参数,使得代价函数最小化。当代价函数最小时,可以认为模型的参数达到了最优,进而优化了评估结果,能够提高评估的准确性和有效性;
同时本发明利用RMSE和MAE在评价一个模型好坏的时候各有优点,RMSE对特别大的误差很敏感,而MAE可以很直观地观测到真实地平均误差数值。因此采用这两种评价指标来进行评价,以得到最全面且直观的评价结果。
本实施例数据文本获取端104用于获取关联的信息数据,数据类型包括文字、图像、语音、视频和其他文本信息数据,进而本实施例的智能流程处理识别服务端20用于对数据文本获取端104获取的关联的信息数据进行流程化处理,形成标准数据文本结构化数据,同时用于数据文本处理智能平台10中的数据文本处理系统102的流程化操作,包括RPA流程机器人、OCR光学字符识别系统和语音识别系统;需要说明的,RPA(Robotic ProcessAutomation,机器人流程自动化),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务;OCR(optical character recognition)光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程,基于上述可完成不同数据类型的识别,以及标准数据文本的转化,以便于数据文本处理智能平台10的分析处理。
本实施例的云端服务平台30用于不同的终端用户接入使用,包括决策层、业务层和管理层;
基于上述可知,本发明数据文本获取端104获取关联的信息数据后,调用智能流程处理识别服务端20进行处理后将关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统102中进行数据处理、分类、识别分析和自主学习优化,获得对应的优化文本数据与查验评估报告。
另外本实施例的云端服务平台30还包括访问账号管理单元和功能使用单元,功能使用单元与数据文本管理系统103连接。
大数据处理模块用于对获取的标准数据文本结构化数据进行分析,且大数据处理模块包括边缘数据处理器、计算信息分配单元、寻址转移器单元、共享数据单元和状态监控单元,以此完成云端服务平台30数据的共享、计算分配、状态监控等功能;计算信息分配单元通过对标准数据文本结构化数据的聚类分析,并根据边缘计算的预设资源种类进行数据划分,将目标数据划分为至少一个数据块种类,获得数据集后装载子数据集,并创建共享空间分配至终端用户端,以及分配共享数据空间至云端服务平台30;共享数据单元用于在大数据处理模块中开设共享数据空间,利用共享数据空间与至少一个边缘数据处理器进行数据交互;状态监控单元用于动态监视任务数组中各任务的运行状态,获取海外企业客户画像数据的异常数据;寻址转移器单元接收访问调度体模块输入地址,根据虚拟内存地址进行解析,获得大数据处理模块的内存物理地址,进行信息交互,根据数据地址访问共享数据单元中地址获取数据。
本实施例优选地,数据文本管理系统103包括查询模块、打印模块、归档模块和文本管理模块。
同时本发明结合上述实施例内容的系统还提供一种基于机器学习的数据和文本处理系统的方法,具体包括以下步骤:
步骤S1,数据文本处理智能平台10通过云端服务平台30接收到数据文本的处理需求后,数据文本获取端104获取关联的信息数据后,调用智能流程处理识别服务端20进行处理后将关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统102中;
步骤S2,识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本,根据所提供的分词结果形成的分词文本建立文本内容的索引文件,通过数据库101给文本内容确定一个类别进行分类,基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘;
步骤S3,通过对多个句子文本所形成的文档进行质量评估,具体地,对文档中的文本数据进行词性分析得到对应的词性,并从文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值并生成报表信息;
步骤S4,通过自主学习优化模块基于当前标记的标准数据文本结构化数据结合综合评估值,进行自主学习优化操作。
综上所述本发明利用AI智能、大数据处理以及机器学习技术,能够完成对多类别数据文本的标准化分析评估和自主学习优化功能,不断完成标记数据文本的质量,且改善了机器学习的流程化操作,提高了智能化应用效果,有利于大规模的高效应用。
此外本发明在应用时,该系统利用AI智能、大数据处理以及RPA机器人技术,例如可融入到网络电商运营中,在商品的预生产到售后,通过获取各个环节多维度和多结构化的海量数据,并通过标准化处理集中汇集到数据文本处理智能平台10中,交由模型算法去自动地定位指标和计算,获取相匹配的文本内容,给出评估报告和结果,并自主学习结合其他文本,优化后生成新的文本数据或者自动化出具智能分析建议,不断完成标记数据文本的质量。
综上所述,本发明可横跨不同来源的数据源,集中(数据挖掘、文本识别、图像识别等)各类数据采集技术,将线上各类结构化和非结构化数据,历史数据、实时数据,消费数据、用户行为数据等各类数据,其中的采集分析、计算处理、文本提取、摘要分析、结论建议等诸多方面的自动化与智能化,将数据分析链路交由AI算法去实现,人类只需根据结果做出最终的审判,在人机耦合中最大化的降低对人的依赖,最大化效能地提升人机耦合的效率和价值,进而透过本发明的系统的路径实现从报表到分析,到智能诊断与自主学习的预测建议。本发明系统为AI和大数据技术相互融合而成,充分利用大数据的集群式存储和运算处理能力,用以支撑特征的实现和自我优化更进。
同时本发明系统主要核心是在Hadoop大数据集群底层架构基础上建设一个AI智能平台,该智能平台为一个容器的概念,所有有关文本识别和语义处理的机器学习算法、数据处理模型、计算规则、计算过程等都集成在该容器内部完成,这些模块之间具有内在联系,并相互作用反馈学习及更新,以此来达到自动迭代和优化的效果,即本发明的文本处理系统基于机器学习为一个自学习系统,是一个不断在自动训练调优的系统,AI智能平台的计算结果一方面对外输出到业务需求层;另一方面对内存储并反馈给到知识库、算法库、规则库、特征库等进行自动学习优化。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于机器学习的数据和文本处理系统,其特征在于,包括数据文本处理智能平台(10)、与所述数据文本处理智能平台(10)数据连接的智能流程处理识别服务端(20)、以及与所述数据文本处理智能平台(10)数据连接的云端服务平台(30);所述数据文本处理智能平台(10)包括数据库(101)、数据文本处理系统(102)、数据文本管理系统(103)和数据文本获取端(104);所述数据库(101)采用Hadoop大数据集群底层架构,且数据库(101)包括规则库、特征库、算法库、知识库和成果库;所述数据文本处理系统(102)包括大数据处理模块、文本抽取分词模块、索引建立模块、分类模块、识别模块、查验评估模块、报告生成模块和自主学习优化模块,所述数据文本获取端(104)用于获取关联的信息数据;
所述智能流程处理识别服务端(20)用于对所述数据文本获取端(104)获取的关联的信息数据进行流程化处理,形成标准数据文本结构化数据,同时用于所述数据文本处理智能平台(10)中的数据文本处理系统(102)的流程化操作,包括RPA流程机器人、OCR光学字符识别系统和语音识别系统;
所述云端服务平台(30)用于不同的终端用户接入使用,包括决策层、业务层和管理层;
其中,所述数据文本获取端(104)获取关联的信息数据后,调用智能流程处理识别服务端(20)进行处理,将所述关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统(102)中进行数据处理、分类、识别分析和自主学习优化,获得对应的优化文本数据与查验评估报告。
2.如权利要求1所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述文本抽取分词模块用于接收标准数据文本结构化数据,当判断出标准数据文本结构化数据为破损时,则舍弃掉所述标准数据文本结构化数据;否则识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本;
所述索引建立模块用于根据所提供的分词结果形成的分词文本建立文本内容的索引文件,并为所述数据库(101)提供索引文件;
所述分类模块用于根据所提供的分词结果形成的分词文本确定一个类别分类,并将分类结果缓存至数据库(101);
所述识别模块用于基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘,并将数据挖掘结果缓存至数据库(101);
所述查验评估模块用于根据数据索引和数据挖掘结果,对多个句子文本所形成的文档进行质量评估,并将数据索引、数据挖掘结果和质量评估结果缓存至数据库(101);
所述报告生成模块用于根据导入的标准数据文本结构化数据所生成的质量评估结果,以及相应的图表或等级分类,生成质量评估报告并缓存至数据库(101);
所述自主学习优化模块用于对当前标记的标准数据文本结构化数据,结合知识库形成的知识图谱神经网络模型,进行自主学习优化和呈现,并缓存至数据库(101)。
3.如权利要求2所述的一种基于机器学习的数据和文本处理系统,其特征在于,对多个句子文本所形成的文档进行质量评估,具体地,对所述文档中的文本数据进行词性分析得到对应的词性,并从所述文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到所述目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值后进行准确度优化,如下:
采用均方差来作为综合评估值模型的代价函数MSE,度量综合评估值模型输出预测值与真实值的差异,同时采用均方根误差RMSE和平均绝对误差MAE来评测综合评估值模型的预测结果,代价函数MSE的公式如式(1)所示,均方根误差RMSE的公式如式(2)所示,平均绝对误差MAE的公式如式(3)所示;
Figure FDA0003893727520000021
Figure FDA0003893727520000022
Figure FDA0003893727520000023
其中,
Figure FDA0003893727520000024
表示第i个样本的单个预测值,yi表示第i个样本的真实值,n为序号。
4.如权利要求3所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述分类模块给文本内容确定一个类别进行分类,具体为根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别,同时定义错误分类风险,通过式(4)对判定区域内的文本内容的错误进行分类风险TRi,如下:
Figure FDA0003893727520000031
其中,ins∈R(zj)表示下属区域zj的错误分类实例,对于每个错误分类实例j,vj为错误分类实例j中的标题和正文之间语义错误数量,pj为错误分类实例j中的语法错误数量,qj为错误分类实例j中的分类关键词的数量,a1、a2和a3分别表示三个数量vj、pj、qj的权重值;
所述提取文本内容中的关键词,具体包括:根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重,依据综合权重大小排序得到M个关键词,其中关键词M的数量由用户指定;
所述自主学习优化模块基于当前标记的标准数据文本结构化数据,结合综合评估值,进行自主学习优化操作;具体地对当前文档中相应的文本字符进行重要性排序后,通过余弦相似度获得其他文档中相应文本的匹配度,基于其他文档中相应文本,更新当前文档中相应的文本,基于当前标记的标准数据文本结构化数据,完成自主学习优化操作。
5.如权利要求1所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述数据文本获取端(104)用于获取关联的信息数据,数据类型包括文字、图像、语音、视频和其他文本信息数据。
6.如权利要求1所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述云端服务平台(30)还包括访问账号管理单元和功能使用单元,所述功能使用单元与所述数据文本管理系统(103)连接。
7.如权利要求6所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述数据文本管理系统(103)包括查询模块、打印模块、归档模块和文本管理模块。
8.如权利要求1所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述大数据处理模块用于对获取的标准数据文本结构化数据进行分析,且所述大数据处理模块包括边缘数据处理器、计算信息分配单元、寻址转移器单元、共享数据单元和状态监控单元,所述边缘数据处理器、计算信息分配单元、寻址转移器单元、共享数据单元和状态监控单元各至少一个;
所述计算信息分配单元通过对标准数据文本结构化数据的聚类分析,并根据边缘计算的预设资源种类进行数据划分,将目标数据划分为至少一个数据块种类,获得数据集后装载子数据集,并创建共享空间分配至终端用户端,以及分配共享数据空间至云端服务平台(30);
所述共享数据单元用于在大数据处理模块中开设共享数据空间,利用共享数据空间与至少一个边缘数据处理器进行数据交互;
所述状态监控单元用于动态监视任务数组中各任务的运行状态;
所述寻址转移器单元接收并访问调度体模块输入地址,根据虚拟内存地址进行解析,获得大数据处理模块的内存物理地址,进行信息交互,根据数据地址访问共享数据单元中的地址以获取数据。
9.如权利要求1所述的一种基于机器学习的数据和文本处理系统的方法,其特征在于,具体包括以下步骤:
步骤S1,数据文本处理智能平台(10)通过云端服务平台(30)接收到数据文本的处理需求后,所述数据文本获取端(104)获取关联的信息数据,调用智能流程处理识别服务端(20)进行处理后将所述关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统(102)中;
步骤S2,识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本,根据所提供的分词结果形成的分词文本建立文本内容的索引文件,通过数据库(101)给文本内容确定一个类别进行分类,基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘;
步骤S3,通过对多个句子文本所形成的文档进行质量评估,具体地,对所述文档中的文本数据进行词性分析得到对应的词性,并从所述文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到所述目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值并生成报表信息;
步骤S4,通过所述自主学习优化模块基于当前标记的标准数据文本结构化数据结合综合评估值,进行自主学习优化操作。
CN202211266918.1A 2022-10-17 2022-10-17 一种基于机器学习的数据和文本处理系统及其方法 Pending CN115577698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211266918.1A CN115577698A (zh) 2022-10-17 2022-10-17 一种基于机器学习的数据和文本处理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211266918.1A CN115577698A (zh) 2022-10-17 2022-10-17 一种基于机器学习的数据和文本处理系统及其方法

Publications (1)

Publication Number Publication Date
CN115577698A true CN115577698A (zh) 2023-01-06

Family

ID=84584994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211266918.1A Pending CN115577698A (zh) 2022-10-17 2022-10-17 一种基于机器学习的数据和文本处理系统及其方法

Country Status (1)

Country Link
CN (1) CN115577698A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859128A (zh) * 2023-02-23 2023-03-28 成都瑞安信信息安全技术有限公司 一种基于档案数据交互相似度的分析方法和系统
CN116502286A (zh) * 2023-05-24 2023-07-28 中国标准化研究院 一种基于边缘计算的标准信息的服务方法及其系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王昊;邓三鸿;苏新宁;官琴;: "基于深度学习的情报学理论及方法术语识别研究" *
金小伟;孙世文;岳海峰;郭永涛;孙素苗;张以波;李皓;周丽奉;: ""四化融一"智慧财务管理体系构建与实施" *
陈拯 等: "人工智能技术在军事航天领域的发展" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859128A (zh) * 2023-02-23 2023-03-28 成都瑞安信信息安全技术有限公司 一种基于档案数据交互相似度的分析方法和系统
CN116502286A (zh) * 2023-05-24 2023-07-28 中国标准化研究院 一种基于边缘计算的标准信息的服务方法及其系统
CN116502286B (zh) * 2023-05-24 2023-11-17 中国标准化研究院 一种基于边缘计算的标准信息的服务方法及其系统

Similar Documents

Publication Publication Date Title
US10089581B2 (en) Data driven classification and data quality checking system
US8856129B2 (en) Flexible and scalable structured web data extraction
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN115577698A (zh) 一种基于机器学习的数据和文本处理系统及其方法
CN111930518B (zh) 面向知识图谱表示学习的分布式框架构建方法
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
US10083403B2 (en) Data driven classification and data quality checking method
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN111506729B (zh) 一种信息处理方法、装置及计算机可读存储介质
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
CN111897963A (zh) 一种基于文本信息和机器学习的商品分类方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN115203338A (zh) 一种标签及标签实例推荐方法
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN112989058B (zh) 信息分类方法、试题分类方法、设备、服务器和存储介质
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN112685374B (zh) 日志分类方法、装置及电子设备
CN116741396A (zh) 文章归类方法和装置、电子设备和存储介质
Jayawickrama et al. Seeking sinhala sentiment: Predicting facebook reactions of sinhala posts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230106