CN115374765B - 一种基于自然语言处理的算力网络5g数据解析系统及方法 - Google Patents
一种基于自然语言处理的算力网络5g数据解析系统及方法 Download PDFInfo
- Publication number
- CN115374765B CN115374765B CN202211321858.9A CN202211321858A CN115374765B CN 115374765 B CN115374765 B CN 115374765B CN 202211321858 A CN202211321858 A CN 202211321858A CN 115374765 B CN115374765 B CN 115374765B
- Authority
- CN
- China
- Prior art keywords
- data
- words
- word
- annotation
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 27
- 238000007405 data analysis Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 238000012098 association analyses Methods 0.000 claims description 6
- 230000029087 digestion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims 3
- 238000007726 management method Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于自然语言处理的算力网络5G数据解析系统及方法,属于算网运营5G大数据解析技术领域,本发明利用机器学习在大数据自然语言处理及语义分析领域的方法,自动遍历、标注、分析、检索、提取用户所需的文本、图片、音频、视频等各类关键数据信息,完成算力网络5G数据自适应解析,简化了5G业务自动化开通效率以及生命周期的自配置和自管理流程,提高了算网5G数据应用的安全性、可扩展性、灵活性和智能性,构建完整的算力网络5G数据解析的自然语言处理语料库。
Description
技术领域
本发明涉及算网运营5G大数据解析技术领域,尤其涉及一种基于自然语言处理的算力网络5G数据解析系统及方法。
背景技术
(1)随着大数据、人工智能、云计算、5G等新一代信息技术的应用普及,全社会对数据存储、计算、传输、应用的需求大幅提升,对具有强大的行业渗透性和广泛的社会应用性的算力要求越来越高。以算力为载体的算力网络得到快速发展。算力网络是响应国家战略、加速技术创新、顺应产业发展、推动公司转型的必然要求,将为社会数智化转型带来全新机遇。算力网络是对云网融合的深化和新升级,一是对象升级,云是算的一种载体,算力将更加立体泛在,包含边端等更丰富的形态;二是融合升级,算力网络不仅是编排管理的融合,更强调算力和网络在形态和协议上的一体融合,同时也强化了以算为中心,ABCD NETS等多种技术的融合共生;三是运营升级,算力网络对网络运营管理的要求更高,从一站式向一体化、智慧化演进;四是服务升级,算力网络是以算力为载体,多要素融合的新型一体化服务。
5G作为先进的通信技术手段,以其大带宽、低时延、高可靠、高连接、泛在网等诸多优势,而5G数据在算力网络5G行业网中发挥着重要作用。针对医疗、能源、制造等不同的行业用户,需要结合具体的业务场景和业务需求,打造针对不同行业的、不同数据类型的5G算网,从而让各类5G数据得到最大的应用。
(2)想要将算力最大限度的应用到各场景中,只通过独立的算力能力很难实现,这就要求算力的网络模型具有灵活性和可扩展性。但5G数据包括文本、图片、音频、视频数据等,具有大体量、多源异构的特征,在算力网络数据解析方面还面临着产业成熟度方面的不足和困难。首先是对垂直行业业务需求和5G网络技术要求的匹配不清晰,由于垂直行业的原有技术体系也相对较为多样和分散,垂直行业的需求极其复杂、个性化,需要提炼出共性需求并映射为明确的5G数据需求;其次,各类5G数据本身面向垂直行业的技术方案,包括对端到端切片、边缘计算,N4解耦等方面,还需要推动技术方案和产业的进一步成熟,且当前的算力网络5G数据解析技术没有充分利用机器学习、智能信息检索等相关领域的研发成果,因此在数据汇集、提取和数据共享服务的精确度和效率方面还无法完全满足实际行业需求,其智能化水平还有很大的提高空间。
发明内容
为了解决以上技术问题,本发明提供了一种基于自然语言处理的算力网络5G数据解析系统。针对算力网络上5G资源数据面向的不同业务场景数据指标,以及用户对增强的数据业务质量保障的需求,应利用机器学习在大数据自然语言处理及语义分析领域的方法,自动遍历、标注、分析、检索、提取用户所需的文本、图片、音频、视频等各类关键数据信息,完成算力网络5G数据自适应解析,简化了5G业务自动化开通效率以及生命周期的自配置和自管理流程,提高了算网5G数据应用的安全性、可扩展性、灵活性和智能性,为用户提供了全套的中文分词、实体识别等功能,构建完整的算力网络5G数据解析的自然语言处理语料库,更加契合了我国5G专网可面向不同的需求场景提供定制化的解决方案的现实需求。
本发明的技术方案是:
一种基于自然语言处理的算力网络5G数据解析系统,针对5G资源数据针对不同业务场景数据指标不同,以及用户对增强的数据业务质量保障的需求,本发明提供一种基于自然语言处理的算力网络5G数据解析系统,应用到了机器学习在大数据自然语言处理及语义分析领域的方法,自动遍历、标注、分析、检索、提取关键数据信息,完成算力网络5G数据自适应解析,包括:机器学习智能标注模块、关键词分类提取模块、图音数据识别模块、视频数据处置模块、知识图谱查询模块。
其中,
智能标注模块。该模块通过系统平台自动遍历算力网络上5G数据内容,标注通过实现从低层特征到高层语义的映射来对如图像、音频片段、视频镜头等结构单元建立语义信息索引(如:关键词序列、语义标注词等),并对算力网络上不同类型的5G数据进行自动解析。该模块有效弥补了传统关系数据库在管理非结构化数据方面存在某些先天不足之局限,为人们对算力网络5G数据的存储、传输、检索、过滤等管理提供了便利。
关键词提取模块。该模块首先对算力网络上5G文本数据进行词根化处理(英文)或分词处理(中文),然后根据停用词表去除数据中的停用词,进而转化为词语集合,并按照词语的频率高度排序,提取高频词,建立词共现图,并将共现图分割成多个连通片即构成簇,每个簇对应着一个主题,而不同簇间存在连接词Link,该词具有词频相对低但又连接不同簇的重要功能,并用该词刻画不同主题间的连接特征。后续利用主题贡献程度计算公式实现词共现图的转换,平台按照每次词语信息量大小智能排序,选取排序前n个词为文本数据关键词,从而用户实现算力网络5G数据本地记忆及文档主题词的信息抽取。
图音数据识别模块。在算力网络上,5G图像和音频数据虽然是两种不同的模态数据,但是都具有底层特征和语义特征两部分,该模块首先对这两种模态的数据应用自然语言处理中的马尔可夫链算法,可以实现自动提取特征信息,而后将图音数据关联主题建立混合高斯模型,并以训练数据集为依据,对关联主题混合高斯模型进行模型训练,并对其参数进行学习,并对多标记的音频标注词进行检测,利用广义的期望最大化算法及权值矩阵所隐含的邻居信息,随着迭代次数的增加,基于前述模型,用户可在图音标注词识别检测中能呈现更好的检测性能。
视频数据处置模块。该模块针对5G数据图像的颜色、纹理和形状等视觉特征和描述摄像机运动、物体运动轨迹、时空关联等的底层特征进行特征识别,基于其内容上存在的时空关联和逻辑结构的结构信息,以及视频本身所包含的对象、事件、关系、情感等语义信息的语义特征,该模块对镜头间的时间标注词和镜头内的空间标注词进行关联分析。后续利用特定数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架,从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限,从而更好的为用户指导视频标注优化处置,更提高标注识别的准确性。
知识图谱查询模块。该模块利用知识图谱的知识搜索接受用户以自然语言的问句输入,将非结构化的自然语言问句映射到结构化的知识图谱查询语句,并将最终的查询语句应用到知识库上,获取到最终的精准答案。该模块还应用语义分析,即利用句子结构的图形表示——语法树,它代表了数据推导结果,并应用语义三元组抽取,将满足一定关系的子树的所有5G数据词语组成的短语,抽取成一个关系短语,通过指代消解,最终将一个语义三元组集合进行合并,得到一个结构化的查询子图。更有利于用户理解算力网络5G数据解析语法结构的层次,且解决自然语言处理中的“长距离相依赖”问题。
本发明还公开了一种基于自然语言处理的算力网络5G数据解析方法,标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析。
1)通过系统平台自动遍历算力网络上5G数据内容,标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析;
2)对算力网络上5G文本数据进行词根化处理(英文)或分词处理(中文),然后根据停用词表去除数据中的停用词,进而转化为词语集合,并按照词语的频率高度排序,提取高频词,建立词共现图,并将共现图分割成数个连通片即构成簇,每个簇对应着一个主题,而不同簇间存在连接词Link,该词具有词频相对低但又连接不同簇的重要功能,并用该词刻画不同主题间的连接特征;
3)对5G图像和音频数据应用自然语言处理中的马尔可夫链算法,实现自动提取特征信息,而后将图音数据关联主题建立混合高斯模型,并以训练数据集为依据,对关联主题混合高斯模型进行模型训练,并对其参数进行学习,并对多标记的音频标注词进行检测,利用广义的期望最大化算法及权值矩阵所隐含的邻居信息,随着迭代次数的增加,基于前述模型,用户可在图音标注词识别检测中能呈现更好的检测性能;
4)针对5G数据图像的视觉特征和描述摄像机运动、物体运动轨迹、时空关联的底层特征进行特征识别,基于其内容上存在的时空关联和逻辑结构的结构信息,以及视频本身所包含语义信息的语义特征;
5)利用知识图谱的知识搜索接受用户以自然语言的问句输入,将非结构化的自然语言问句映射到结构化的知识图谱查询语句,并将最终的查询语句应用到知识库上,获取到最终的精准答案。
再进一步的,
关键词提取时,利用主题贡献程度计算公式实现词共现图的转换,平台按照每次词语信息量大小智能排序,选取排序前n(n>1)个词为文本数据关键词,从而用户实现算力网络5G数据本地记忆及文档主题词的信息抽取。
视频数据处置时对镜头间的时间标注词和镜头内的空间标注词进行关联分析;后续利用数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架,从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限。
知识图谱查询时还应用语义分析,即利用句子结构的图形表示——语法树,它代表了数据推导结果,并应用语义三元组抽取,将满足子树的所有5G数据词语组成的短语,抽取成一个关系短语,通过指代消解,最终将一个语义三元组集合进行合并,得到一个结构化的查询子图。
本发明的有益效果是:
本发明实现了算力网络上各类5G数据的数据深层挖掘、特征及价值提取,同时通过机器学习自然语言处理功能应用去实现,极大地提高了算网5G数据应用的安全性、可扩展性、灵活性和智能性,且为用户提供全套的中文分词、实体识别等功能,构建完整的算力网络5G数据解析的自然语言处理语料库,更加契合了我国5G专网可面向不同的需求场景提供定制化的解决方案的现实需求。
附图说明
图1是本发明的整体结构框图;
图2本发明的硬件拓扑示意图;
图3是本发明的技术架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于自然语言处理的算力网络5G数据解析系统,针对5G资源数据针对不同业务场景数据指标不同,以及用户对增强的数据业务质量保障的需求,本发明提供一种基于自然语言处理的算力网络5G数据解析系统,应用到了机器学习在大数据自然语言处理及语义分析领域的方法,自动遍历、标注、分析、检索、提取关键数据信息,完成算力网络5G数据自适应解析,包括:机器学习智能标注模块、关键词分类提取模块、图音数据识别模块、视频数据处置模块、知识图谱查询模块。
其中,
智能标注模块。该模块通过系统平台自动遍历算力网络上5G数据内容,标注通过实现从低层特征到高层语义的映射来对如图像、音频片段、视频镜头等结构单元建立语义信息索引(如:关键词序列、语义标注词等),并对算力网络上不同类型的5G数据进行自动解析。该模块有效弥补了传统关系数据库在管理非结构化数据方面存在某些先天不足之局限,为人们对算力网络5G数据的存储、传输、检索、过滤等管理提供了便利。
关键词提取模块。该模块首先对算力网络上5G文本数据进行词根化处理(英文)或分词处理(中文),然后根据停用词表去除数据中的停用词,进而转化为词语集合,并按照词语的频率高度排序,提取高频词,建立词共现图,并将共现图分割成多个连通片即构成簇,每个簇对应着一个主题,而不同簇间存在连接词Link,该词具有词频相对低但又连接不同簇的重要功能,并用该词刻画不同主题间的连接特征。后续利用主题贡献程度计算公式实现词共现图的转换,平台按照每次词语信息量大小智能排序,选取排序前n个词为文本数据关键词,从而用户实现算力网络5G数据本地记忆及文档主题词的信息抽取。
图音数据识别模块。在算力网络上,5G图像和音频数据虽然是两种不同的模态数据,但是都具有底层特征和语义特征两部分,该模块首先对这两种模态的数据应用自然语言处理中的马尔可夫链算法,可以实现自动提取特征信息,而后将图音数据关联主题建立混合高斯模型,并以训练数据集为依据,对关联主题混合高斯模型进行模型训练,并对其参数进行学习,并对多标记的音频标注词进行检测,利用广义的期望最大化算法及权值矩阵所隐含的邻居信息,随着迭代次数的增加,基于前述模型,用户可在图音标注词识别检测中能呈现更好的检测性能。
视频数据处置模块。该模块针对5G数据图像的颜色、纹理和形状等视觉特征和描述摄像机运动、物体运动轨迹、时空关联等的底层特征进行特征识别,基于其内容上存在的时空关联和逻辑结构的结构信息,以及视频本身所包含的对象、事件、关系、情感等语义信息的语义特征,该模块对镜头间的时间标注词和镜头内的空间标注词进行关联分析。后续利用特定数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架,从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限,从而更好的为用户指导视频标注优化处置,更提高标注识别的准确性。
知识图谱查询模块。该模块利用知识图谱的知识搜索接受用户以自然语言的问句输入,将非结构化的自然语言问句映射到结构化的知识图谱查询语句,并将最终的查询语句应用到知识库上,获取到最终的精准答案。该模块还应用语义分析,即利用句子结构的图形表示——语法树,它代表了数据推导结果,并应用语义三元组抽取,将满足一定关系的子树的所有5G数据词语组成的短语,抽取成一个关系短语,通过指代消解,最终将一个语义三元组集合进行合并,得到一个结构化的查询子图。更有利于用户理解算力网络5G数据解析语法结构的层次,且解决自然语言处理中的“长距离相依赖”问题。
本发明还公开了一种基于自然语言处理的算力网络5G数据解析方法,标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析。
1)通过系统平台自动遍历算力网络上5G数据内容,标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析;
2)对算力网络上5G文本数据进行词根化处理(英文)或分词处理(中文),然后根据停用词表去除数据中的停用词,进而转化为词语集合,并按照词语的频率高度排序,提取高频词,建立词共现图,并将共现图分割成数个连通片即构成簇,每个簇对应着一个主题,而不同簇间存在连接词Link,该词具有词频相对低但又连接不同簇的重要功能,并用该词刻画不同主题间的连接特征;
3)对5G图像和音频数据应用自然语言处理中的马尔可夫链算法,实现自动提取特征信息,而后将图音数据关联主题建立混合高斯模型,并以训练数据集为依据,对关联主题混合高斯模型进行模型训练,并对其参数进行学习,并对多标记的音频标注词进行检测,利用广义的期望最大化算法及权值矩阵所隐含的邻居信息,随着迭代次数的增加,基于前述模型,用户可在图音标注词识别检测中能呈现更好的检测性能;
4)针对5G数据图像的视觉特征和描述摄像机运动、物体运动轨迹、时空关联的底层特征进行特征识别,基于其内容上存在的时空关联和逻辑结构的结构信息,以及视频本身所包含语义信息的语义特征;
5)利用知识图谱的知识搜索接受用户以自然语言的问句输入,将非结构化的自然语言问句映射到结构化的知识图谱查询语句,并将最终的查询语句应用到知识库上,获取到最终的精准答案。
关键词提取时,利用主题贡献程度计算公式实现词共现图的转换,平台按照每次词语信息量大小智能排序,选取排序前n(n>1)个词为文本数据关键词,从而用户实现算力网络5G数据本地记忆及文档主题词的信息抽取。
视频数据处置时对镜头间的时间标注词和镜头内的空间标注词进行关联分析;后续利用数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架,从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限。
知识图谱查询时还应用语义分析,即利用句子结构的图形表示——语法树,它代表了数据推导结果,并应用语义三元组抽取,将满足子树的所有5G数据词语组成的短语,抽取成一个关系短语,通过指代消解,最终将一个语义三元组集合进行合并,得到一个结构化的查询子图。
(1)如图2所示是本发明的硬件拓扑图。现有的计算中心、边缘计算节点等提供的算力服务效率低下,算力网络的出现可以更好地协调资源和提供更优的服务。算网硬件部署由“云、管、边、端”分布的计算节点通过万兆网络交换机连接起来,动态实时感知5G数据计算资源和网络资源状态,进而智能地分配和调度5G数据计算及服务应用,形成一张计算资源可感知、可分配、可调度的网络。并由端计算节点关联5G数据区域中心控制中心,可以控制所辖省份文本、图片、音频、视频等5G数据采集后的遍历、存储,以及在此基础上的5G数据解析,为各省份提供应用服务,且通过区域控制中心,可实现5G数据解析的跨省份互认联通,提供跨省业务服务。同时,在算力网络拓扑架构上,也为用户提供了一个安全可信的5G数据算力交易服务平台。
(2)如图3所示是本发明的技术架构图。本实施样例以算网5G数据解析系统工程来展现。在算网资源层,具备算力资源、5G数据存储资源、5G网络资源与服务资源,提供“云、管、边、端”多层次的泛在分布式计算资源和5G网络资源,满足5G数据算力需求;在算网控制层,包括5G资源搜集、5G数据定位、数据库存储、网络调度等,并向上层提供深度学习计算框架、流式计算框架等的算网计算和数据碰撞、统计分析的数据解析应用,感知抽象后的算网资源,并综合考虑网络和计算资源状况,将业务按需调度到不同的计算资源节点;在算网服务层,承载自然语言处理、5G图像/声音数据识别、5G视频数据识别等计算的各类服务及应用,并将用户对业务SLA(服务级别协议)的算力等请求参数传递给算力路由层;上述各层关联算网编排管理层,负责算力建模、编排、安全、运营等,以及对算力资源和网络资源的管理。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种基于自然语言处理的算力网络5G数据解析系统,其特征在于,
包括机器学习智能标注模块、关键词提取模块、图音数据识别模块、视频数据处置模块、知识图谱查询模块;
智能标注应用模块,通过系统平台自动遍历算力网络上5G数据内容,标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析;
关键词提取模块,首先对算力网络上5G文本数据进行词根化处理或分词处理,然后根据停用词表去除数据中的停用词,进而转化为词语集合,并按照词语的频率高度排序,提取高频词,建立词共现图,并将共现图分割成数个连通片即构成簇,每个簇对应着一个主题,而不同簇间存在连接词Link,该词具有词频相对低但又连接不同簇的重要功能,并用该词刻画不同主题间的连接特征;
图音数据识别模块,首先对5G图像和音频数据应用自然语言处理中的马尔可夫链算法,实现自动提取特征信息,而后将图音数据关联主题建立混合高斯模型,并以训练数据集为依据,对关联主题混合高斯模型进行模型训练,并对其参数进行学习,并对多标记的音频标注词进行检测,利用广义的期望最大化算法及权值矩阵所隐含的邻居信息,随着迭代次数的增加,基于前述模型,用户可在图音标注词识别检测中能呈现更好的检测性能;
视频数据处置模块,针对5G数据图像的视觉特征和描述摄像机运动、物体运动轨迹、时空关联的底层特征进行特征识别,基于其内容上存在的时空关联和逻辑结构的结构信息,以及视频本身所包含语义信息的语义特征;
知识图谱查询模块,利用知识图谱的知识搜索接受用户以自然语言的问句输入,将非结构化的自然语言问句映射到结构化的知识图谱查询语句,并将最终的查询语句应用到知识库上,获取到最终的答案。
2.根据权利要求1所述的系统,其特征在于,
关键词提取模块,后续利用主题贡献程度计算公式实现词共现图的转换,平台按照每次词语信息量大小智能排序,选取排序前n(n>1)个词为文本数据关键词,从而用户实现算力网络5G数据本地记忆及文档主题词的信息抽取。
3.根据权利要求1所述的系统,其特征在于,
视频数据处置模块,该模块对镜头间的时间标注词和镜头内的空间标注词进行关联分析;
后续利用数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架,从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限。
4.根据权利要求1所述的系统,其特征在于,
知识图谱查询模块,还应用语义分析,即利用句子结构的图形表示——语法树,它代表了数据推导结果,并应用语义三元组抽取,将满足子树的所有5G数据词语组成的短语,抽取成一个关系短语,通过指代消解,最终将一个语义三元组集合进行合并,得到一个结构化的查询子图。
5.种基于自然语言处理的算力网络5G数据解析方法,其特征在于,
标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析;
1)通过系统平台自动遍历算力网络上5G数据内容,标注通过实现从低层特征到高层语义的映射来对结构单元建立语义信息索引,并对算力网络上不同类型的5G数据进行自动解析;
2)对算力网络上5G文本数据进行词根化处理或分词处理,然后根据停用词表去除数据中的停用词,进而转化为词语集合,并按照词语的频率高度排序,提取高频词,建立词共现图,并将共现图分割成数个连通片即构成簇,每个簇对应着一个主题,而不同簇间存在连接词Link,该词具有词频相对低但又连接不同簇的重要功能,并用该词刻画不同主题间的连接特征;
3)对5G图像和音频数据应用自然语言处理中的马尔可夫链算法,实现自动提取特征信息,而后将图音数据关联主题建立混合高斯模型,并以训练数据集为依据,对关联主题混合高斯模型进行模型训练,并对其参数进行学习,并对多标记的音频标注词进行检测,利用广义的期望最大化算法及权值矩阵所隐含的邻居信息,随着迭代次数的增加,基于前述模型,用户可在图音标注词识别检测中能呈现更好的检测性能;
4)针对5G数据图像的视觉特征和描述摄像机运动、物体运动轨迹、时空关联的底层特征进行特征识别,基于其内容上存在的时空关联和逻辑结构的结构信息,以及视频本身所包含语义信息的语义特征;
5)利用知识图谱的知识搜索接受用户以自然语言的问句输入,将非结构化的自然语言问句映射到结构化的知识图谱查询语句,并将最终的查询语句应用到知识库上,获取到最终的精准答案。
6.根据权利要求5所述的方法,其特征在于,
关键词提取时,利用主题贡献程度计算公式实现词共现图的转换,平台按照每次词语信息量大小智能排序,选取排序前n(n>1)个词为文本数据关键词,从而用户实现算力网络5G数据本地记忆及文档主题词的信息抽取。
7.根据权利要求5所述的方法,其特征在于,
视频数据处置时对镜头间的时间标注词和镜头内的空间标注词进行关联分析;后续利用数据的时、空两视角标注词关联估计算法以及基于标注词关联估计的视频标注优化框架,从而挖掘出更合理的标注词关联描述来弥补这种通用标注词关联的局限。
8.根据权利要求5所述的方法,其特征在于,
知识图谱查询时还应用语义分析,即利用句子结构的图形表示——语法树,它代表了数据推导结果,并应用语义三元组抽取,将满足子树的所有5G数据词语组成的短语,抽取成一个关系短语,通过指代消解,最终将一个语义三元组集合进行合并,得到一个结构化的查询子图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211321858.9A CN115374765B (zh) | 2022-10-27 | 2022-10-27 | 一种基于自然语言处理的算力网络5g数据解析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211321858.9A CN115374765B (zh) | 2022-10-27 | 2022-10-27 | 一种基于自然语言处理的算力网络5g数据解析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115374765A CN115374765A (zh) | 2022-11-22 |
CN115374765B true CN115374765B (zh) | 2023-06-02 |
Family
ID=84073251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211321858.9A Active CN115374765B (zh) | 2022-10-27 | 2022-10-27 | 一种基于自然语言处理的算力网络5g数据解析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374765B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116170324B (zh) * | 2022-11-30 | 2024-06-11 | 杭州东方通信软件技术有限公司 | 一种适用于算力网络的可视化视图生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015268637A1 (en) * | 2010-06-22 | 2016-01-07 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN111459290A (zh) * | 2018-01-26 | 2020-07-28 | 上海智臻智能网络科技股份有限公司 | 交互意图确定方法及装置、计算机设备及存储介质 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4493570A (en) * | 1981-10-14 | 1985-01-15 | Ricoh Company, Ltd. | Control system for impact printer |
US7953755B2 (en) * | 2008-03-24 | 2011-05-31 | Dataura LLC | Semantic relational database |
US8520979B2 (en) * | 2008-08-19 | 2013-08-27 | Digimarc Corporation | Methods and systems for content processing |
US8385971B2 (en) * | 2008-08-19 | 2013-02-26 | Digimarc Corporation | Methods and systems for content processing |
US9710491B2 (en) * | 2009-11-02 | 2017-07-18 | Microsoft Technology Licensing, Llc | Content-based image search |
CN108846000A (zh) * | 2018-04-11 | 2018-11-20 | 中国科学院软件研究所 | 一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法 |
CN108803602B (zh) * | 2018-06-01 | 2021-07-13 | 浙江亚特电器有限公司 | 障碍物自学习方法及新障碍物自学习方法 |
JP7449919B2 (ja) * | 2018-07-25 | 2024-03-14 | オラクル・インターナショナル・コーポレイション | 自律型エージェントおよびシソーラスを用いるデータベースのための自然言語インターフェイス |
CN110866091B (zh) * | 2019-11-19 | 2023-07-11 | 杭州数梦工场科技有限公司 | 一种数据检索方法及装置 |
CN112507078B (zh) * | 2020-12-15 | 2022-05-10 | 浙江诺诺网络科技有限公司 | 一种语义问答方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-27 CN CN202211321858.9A patent/CN115374765B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015268637A1 (en) * | 2010-06-22 | 2016-01-07 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN111459290A (zh) * | 2018-01-26 | 2020-07-28 | 上海智臻智能网络科技股份有限公司 | 交互意图确定方法及装置、计算机设备及存储介质 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
A survey on bug-report analysis;ZHANG Jie;WANG XiaoYin;HAO Dan;XIE Bing;ZHANG Lu;MEI Hong;;Science China(Information Sciences)(第02期);全文 * |
面向认知的多源数据学习理论和算法研究进展;杨柳;于剑;刘烨;詹德川;;软件学报(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115374765A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131449B (zh) | 一种基于ElasticSearch的文化资源级联查询接口的实现方法 | |
CN106357942A (zh) | 基于上下文对话语义识别的智能应答方法及系统 | |
CN110941612A (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN109543764B (zh) | 一种基于智能语义感知的预警信息合法性检测方法及检测系统 | |
CN110647632B (zh) | 基于机器学习的图像与文本映射技术 | |
CN103425757A (zh) | 融合多模态信息的跨媒体人物新闻检索方法与系统 | |
CN114218400A (zh) | 基于语义的数据湖查询系统及方法 | |
CN110991279B (zh) | 文档图像分析与识别方法及系统 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN115374765B (zh) | 一种基于自然语言处理的算力网络5g数据解析系统及方法 | |
CN112463910B (zh) | 物联网多维度数据融合系统及方法 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN115858829A (zh) | 一种基于算力网络的多源异构环境数据资产构建方法 | |
CN110347401B (zh) | 一种基于语义相似度的API Framework服务发现方法 | |
CN115033661A (zh) | 一种基于垂直领域知识图谱的自然语言语义理解方法和装置 | |
CN117953297A (zh) | 一种交通领域的场景识别分类的底层推理方法 | |
CN116050517B (zh) | 一种面向公共安全领域的多模态数据管理方法及系统 | |
CN116383335A (zh) | 一种面向多源异构电力数据集的集成方法及系统 | |
CN109857884B (zh) | 一种自动图像语义描述方法 | |
CN111581420A (zh) | 一种基于Flink的医学图像实时检索方法 | |
CN117669718B (zh) | 一种基于人工智能的消防知识训练模型及训练方法 | |
CN109447267A (zh) | 融合数据元标准的叙词本体构建方法 | |
CN117640695B (zh) | 基于通讯标识信息的物联网通信平台和物联网通信方法 | |
KR20110056999A (ko) | 의미 기반 특징을 이용한 유해 영상 판별 및 차단 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |