CN114139499B - 一种基于tss编码的态势文本消息语义压缩编码方法 - Google Patents

一种基于tss编码的态势文本消息语义压缩编码方法 Download PDF

Info

Publication number
CN114139499B
CN114139499B CN202210116917.2A CN202210116917A CN114139499B CN 114139499 B CN114139499 B CN 114139499B CN 202210116917 A CN202210116917 A CN 202210116917A CN 114139499 B CN114139499 B CN 114139499B
Authority
CN
China
Prior art keywords
semantic
coding
time
text message
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210116917.2A
Other languages
English (en)
Other versions
CN114139499A (zh
Inventor
耿虎军
张文宝
楚博策
王梅瑞
韩长兴
高晓倩
孟楠
姜岩松
高峰
陈勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 54 Research Institute
Original Assignee
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 54 Research Institute filed Critical CETC 54 Research Institute
Priority to CN202210116917.2A priority Critical patent/CN114139499B/zh
Publication of CN114139499A publication Critical patent/CN114139499A/zh
Application granted granted Critical
Publication of CN114139499B publication Critical patent/CN114139499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于TSS编码的态势文本消息语义压缩编码方法,属于语义态势文本消息压缩编码领域,根据态势文本消息中蕴含的时间要素、空间要素、语义要素进行编码。针对待压缩的态势文本语义消息,抽取其中的关键语义要素内涵,之后,针对其中态势语义要素,首先根据各类文本消息涉及的对抗应用领域,构建态势语义要素编码方案库和编码方案贝叶斯决策模型,借助构建的编码方案选择模型对进行语义压缩编码;针对时间语义要素,构建两级编码策略,分别对时间基准与时间差值进行编码;针对空间语义要素,构建多层级空间地址语义体系,对经纬度、地名等多种不同表达方式的空间语义进行空间映射编码。本发明可以去除冗余数据,减少传输数据量。

Description

一种基于TSS编码的态势文本消息语义压缩编码方法
技术领域
本发明属于语义态势文本消息压缩编码领域,特别涉及一种基于TSS编码的态势文本消息语义压缩编码方法。
背景技术
语义态势数据往往涉及测绘、侦察、气象等时空域数据,还包含丰富的应用领域相关业务背景知识。在进行态势文本信息压缩编码时需要依据语义要素数据类型以及特定应用领域内语义要素词组的使用频数,分别进行针对性的编码,使得散列分布的时空域语义数据之间可以通过统一的编码建立起强关联关系,实现时空域语义态势数据的高效压缩。
对于文本,传统的编解码方式多以统计建模为基础,简单直接地将其转化为无意义的通信符号序列进行传输,而忽略了其中蕴含着丰富的语义信息。这种方式会产生大量数据的冗余,造成不必要的通信资源的耗费。
发明内容
为此,本发明的目的在于避免背景技术中的问题提出一种基于TSS编码的态势文本消息语义压缩编码方法。
本发明采用的技术方案为:
一种基于TSS编码的态势文本消息语义压缩编码方法,包括以下过程:
首先针对输入的语义文本消息,构建语义消息内容要素提取框架,对语义文本消息的语义内涵要素进行分解;其中,语义内涵要素包括时间要素、空间要素和态势语义要素;
针对语义文本消息中的时间要素,构建时间基准编码与时间差值编码两级编码策略,将时间信息按照原始时间信息表示尺度编码成指定位数的时间整数;
针对语义文本消息中的空间要素,基于预期空间区域内的地形地势和重要战略目标的空间分布,构建多层级空间地址语义体系,将以经纬度区间表示的空间范围、以口语地名表示的地理区域和以相对位置表示的空间区域进行空间映射,将同一区域的不同形式的空间信息编码到同一区段,并按照原始信息表示形式编码成不同类型;
针对语义文本消息中应用领域的态势语义要素,利用先验专家知识将当前文本消息与应用领域以及对应的编码策略进行标注关联,构建文本信息编码方案贝叶斯语义推理模型,依据文本消息的应用领域,选择对应的词组编码方案,将各类态势语义字段在同一应用语义层次中进行压缩;
针对语义文本消息中的各类虚词,结合词性、词组长度和使用频率进行编码。
进一步的,针对语义文本消息中的时间要素进行编码,包括如下步骤:
(201)将语义文本消息中的时间信息分为两个层级:日期部分和时间部分,其中,时间部分特指一天中的具体时间,日期部分包含年、月、日;日期部分和时间部分的表示方式与语义文本消息中的表达方式保持一致;
(202)对于包含多个时间节点的语义文本消息,选定时间中位数的节点作为时间基准,分别计算其它时间点与时间基准的差值,并对时间基准和时间差值分别进行编码;
(203)对于时间基准编码与时间差值编码,首先根据输入的语义文本消息中的各时间的描述尺度确定编码长度,然后将日期部分与时间部分按照格林威治时间的不同时间粒度转化为指定位数的编码;最后将原始位置的时间信息的表述方式加入到编码序列中;其中,表述方式包括数字字母组合形式、中文文本形式和UTC标准形式。
进一步的,针对语义文本消息中的空间要素进行编码,包括如下步骤:
(301)基于地形地势、山川植被、城市结构以及重要固定设施的分布,对目标空间区域的自然或人文地理实体的时空属性和战略属性进行分级标识,构建多层级空间地址语义体系,并作为语义文本消息中的空间信息映射基准;
(302)针对以经纬度区间描述的空间范围,依据描述的空间区域范围在多层级空间地址语义体系中对应层级描述粒度的下一级尺度,对目标区域编码;
针对以口语地名表示的地理区域,依据对应地名在多层级空间地址语义体系中的行政隶属关系和地名对应历史沿用语义体系进行编码,同时去除异地同名数据造成的歧义;
针对以相对位置表示的空间区域,基于原始表述形式选择经纬度或者口语地名的编码策略,之后添加空间相对方位信息的编码。
进一步的,针对语义文本消息中的应用领域的态势要素进行编码,包括如下步骤:
(401)采用统计建模方法与字典建模方法相融合的方式,首先分析各应用领域内不同类型文本在用词、造句和章节方面上的格式化文本结构、行文逻辑以及语义规范,统计各领域内各类词组的使用频度,并进行哈夫曼变长编码;然后融合各应用领域语义要素编码策略,得到语义要素编码方案库;
(402)基于专家先验知识,将语义文本消息的类别属性和时空属性采用符号化聚合近似方法进行语义化离散编码,并进行贝叶斯语义推理,从语义要素编码方案库中选择适用于当前文本消息的语义要素编码策略;其中,类别属性包含消息类型、消息用途、应用领域和消息主体,时空属性包含目标速度、目标人数和目标空间范围。
进一步的,步骤(401)中在对各领域内各类词组进行哈夫曼变长编码时,对于包含多字的复合词组,基于中文语义语用规则,将复合词组拆解成多个简单词组语义层次上的“组合运算”;之后,将复合词组的编码以各简单词组的编码进行表示。
本发明的有益效果:
本发明,引入语义层次的信息,关注信息内容而非编码符号,并结合文本消息使用场合,在同语境下进行用词频率的横向比对衡量,构建编码方案库。从传输内容的语义信息内涵出发,选择适应场景的编码方案,利用文本中词与词之间的巨大关联进行语义压缩编码,可以去除冗余数据,减少传输数据量。
附图说明
图1为本发明实施例中基于TSS编码的态势文本消息语义压缩编码方法流程示意;
图2为本发明实施例中态势文本消息要素编码结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
一种基于TSS编码的态势文本消息语义压缩编码方法,该方法主要流程如图1所示,包含以下步骤:
1、首先针对输入的语义文本消息,根据语义文本消息的文本表现形式,将语义消息中蕴含的时间信息、空间信息、态势要素以及连接词等字、词组进行分割标注,构建语义消息内容要素提取框架,对语义文本消息的语义内涵要素进行分解;其中,语义内涵要素包括时间要素、空间要素和态势语义要素;
2、针对语义文本消息中的时间要素,构建时间基准编码与时间差值编码两级编码策略,将时间信息按照原始时间信息表示尺度编码成指定位数的时间整数;具体包括如下步骤:
(201)将语义文本消息中的时间信息分为两个层级:日期部分和时间部分,其中,时间部分特指一天中的具体时间,时间部分包含时、分、秒,且表示顺序一般较为固定;日期部分包含年、月、日,日期部分中年、月、日的组成顺序因用户的语言、文化、习惯以及文本消息的应用背景不同而有所不同;日期部分和时间部分的表示方式与语义文本消息中的表达方式保持一致;
(202)对于包含多个时间节点的语义文本消息,选定时间中位数的节点作为时间基准,分别计算其它时间点与时间基准的差值,并对时间基准和时间差值分别进行编码;
(203)对于时间基准编码与时间差值编码,首先根据输入的语义文本消息中的各时间的描述尺度确定编码长度,然后将日期部分与时间部分按照格林威治时间的不同时间粒度转化为指定位数的编码;最后将原始位置的时间信息的表述方式加入到编码序列中;其中,表述方式包括数字字母组合形式、中文文本形式和UTC标准形式。
时间要素编码形式如图2中时间要素编码部分所示。
3、针对语义文本消息中的空间要素,基于预期对抗空间区域内的地形地势和重要战略目标的空间分布,构建多层级空间地址语义体系,将以经纬度区间表示的空间范围、以口语地名表示的地理区域和以相对位置表示的空间区域进行空间映射,将同一区域的不同形式的空间信息编码到同一区段,并按照原始信息表示形式编码成不同类型;具体包括以下步骤:
(301)基于地形地势、山川植被、城市结构以及重要固定设施的分布,对目标空间区域的自然或人文地理实体的时空属性和战略属性进行分级标识,构建多层级空间地址语义体系,并作为语义文本消息中的空间信息映射基准;
(302)针对以经纬度区间描述的空间范围,依据描述的空间区域范围在多层级空间地址语义体系中对应层级描述粒度的下一级尺度,对目标区域编码;
针对以口语地名表示的地理区域,依据对应地名在多层级空间地址语义体系中的行政隶属关系和地名对应历史沿用语义体系进行编码,同时去除异地同名数据造成的歧义;
针对以相对位置表示的空间区域,基于原始表述形式选择经纬度或者口语地名的编码策略,之后添加空间相对方位信息的编码。
空间要素编码形式如图2中空间要素编码部分所示。
4、针对语义文本消息中的应用领域的态势要素,利用先验专家知识将当前文本消息与应用领域以及对应的编码策略进行标注关联,构建态势文本信息编码方案贝叶斯语义推理模型,依据文本消息的实际应用,选择对应的词组编码方案,将各类态势语义字段在同一应用语义层次中进行压缩;具体包括如下步骤:
(401)采用统计建模方法与字典建模方法相融合的方式,首先分析各应用领域内不同类型文本在用词、造句和章节方面上的格式化文本结构、行文逻辑以及语义规范,统计各领域内各类词组的使用频度,并进行哈夫曼变长编码;然后融合各应用领域语义要素编码策略,得到语义要素编码方案库;其中,在对包含多字的复合词组进行编码时,除了考虑词组的出现频率还考虑词组的语义含义。通过构建词组在语义层次上的“组合运算”,以使用高频且码长较短的词组来替代使用低频而码长过长的基于词频的编码方案。如,“战略轰炸飞机”在语义层面可等效为“战略”+“轰炸”+“飞机”,前词实现对后词的语义约束。其中,“战略”、“轰炸”与“飞机”三个词使用频率高而码长短;而“战略轰炸飞机”一词,使用频度要远低于上述三词,其码长可能要远远大于上述三词码长的叠加。
语义态势要素编码形式如图2中态势要素编码部分所示。
(402)基于专家先验知识,将语义文本消息的类别属性和时空属性采用符号化聚合近似方法进行语义化离散编码,并进行贝叶斯语义推理,从语义要素编码方案库中选择适用于当前文本消息的语义要素编码策略;其中,类别属性包含消息类型、消息用途、应用领域和消息主体,时空属性包含目标速度、目标人数和目标空间范围。
5、针对语义文本消息中的各类虚词,结合词性、词组长度和使用频率进行编码。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (5)

1.一种基于TSS编码的态势文本消息语义压缩编码方法,其特征在于,包括以下过程:
首先针对输入的语义文本消息,构建语义消息内容要素提取框架,对语义文本消息的语义内涵要素进行分解;其中,语义内涵要素包括时间要素、空间要素和态势语义要素;
针对语义文本消息中的时间要素,构建时间基准编码与时间差值编码两级编码策略,将时间信息按照原始时间信息表示尺度编码成指定位数的时间整数;
针对语义文本消息中的空间要素,基于预期空间区域内的地形地势和重要战略目标的空间分布,构建多层级空间地址语义体系,将以经纬度区间表示的空间范围、以口语地名表示的地理区域和以相对位置表示的空间区域进行空间映射,将同一区域的不同形式的空间信息编码到同一区段,并按照原始信息表示形式编码成不同类型;
针对语义文本消息中应用领域的态势语义要素,利用先验专家知识将当前文本消息与应用领域以及对应的编码策略进行标注关联,构建文本信息编码方案贝叶斯语义推理模型,依据文本消息的应用领域,选择对应的词组编码方案,将各类态势语义字段在同一应用语义层次中进行压缩;
针对语义文本消息中的各类虚词,结合词性、词组长度和使用频率进行编码。
2.根据权利要求1所述的一种基于TSS编码的态势文本消息语义压缩编码方法,其特征在于,针对语义文本消息中的时间要素进行编码,包括如下步骤:
(201)将语义文本消息中的时间信息分为两个层级:日期部分和时间部分,其中,时间部分特指一天中的具体时间,日期部分包含年、月、日;日期部分和时间部分的表示方式与语义文本消息中的表达方式保持一致;
(202)对于包含多个时间节点的语义文本消息,选定时间中位数的节点作为时间基准,分别计算其它时间点与时间基准的差值,并对时间基准和时间差值分别进行编码;
(203)对于时间基准编码与时间差值编码,首先根据输入的语义文本消息中的各时间的描述尺度确定编码长度,然后将日期部分与时间部分按照格林威治时间的不同时间粒度转化为指定位数的编码;最后将原始位置的时间信息的表述方式加入到编码序列中;其中,表述方式包括数字字母组合形式、中文文本形式和UTC标准形式。
3.根据权利要求1所述的一种基于TSS编码的态势文本消息语义压缩编码方法,其特征在于,针对语义文本消息中的空间要素进行编码,包括如下步骤:
(301)基于地形地势、山川植被、城市结构以及重要固定设施的分布,对目标空间区域的自然或人文地理实体的时空属性和战略属性进行分级标识,构建多层级空间地址语义体系,并作为语义文本消息中的空间信息映射基准;
(302)针对以经纬度区间描述的空间范围,依据描述的空间区域范围在多层级空间地址语义体系中对应层级描述粒度的下一级尺度,对目标区域编码;
针对以口语地名表示的地理区域,依据对应地名在多层级空间地址语义体系中的行政隶属关系和地名对应历史沿用语义体系进行编码,同时去除异地同名数据造成的歧义;
针对以相对位置表示的空间区域,基于原始表述形式选择经纬度或者口语地名的编码策略,之后添加空间相对方位信息的编码。
4.根据权利要求1所述的一种基于TSS编码的态势文本消息语义压缩编码方法,其特征在于,针对语义文本消息中的应用领域的态势要素进行编码,包括如下步骤:
(401)采用统计建模方法与字典建模方法相融合的方式,首先分析各应用领域内不同类型文本在用词、造句和章节方面上的格式化文本结构、行文逻辑以及语义规范,统计各领域内各类词组的使用频度,并进行哈夫曼变长编码;然后融合各应用领域语义要素编码策略,得到语义要素编码方案库;
(402)基于专家先验知识,将语义文本消息的类别属性和时空属性采用符号化聚合近似方法进行语义化离散编码,并进行贝叶斯语义推理,从语义要素编码方案库中选择适用于当前文本消息的语义要素编码策略;其中,类别属性包含消息类型、消息用途、应用领域和消息主体,时空属性包含目标速度、目标人数和目标空间范围。
5.根据权利要求4所述的一种基于TSS编码的态势文本消息语义压缩编码方法,其特征在于,步骤(401)中在对各领域内各类词组进行哈夫曼变长编码时,对于包含多字的复合词组,基于中文语义语用规则,将复合词组拆解成多个简单词组语义层次上的“组合运算”;之后,将复合词组的编码以各简单词组的编码进行表示。
CN202210116917.2A 2022-02-08 2022-02-08 一种基于tss编码的态势文本消息语义压缩编码方法 Active CN114139499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210116917.2A CN114139499B (zh) 2022-02-08 2022-02-08 一种基于tss编码的态势文本消息语义压缩编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210116917.2A CN114139499B (zh) 2022-02-08 2022-02-08 一种基于tss编码的态势文本消息语义压缩编码方法

Publications (2)

Publication Number Publication Date
CN114139499A CN114139499A (zh) 2022-03-04
CN114139499B true CN114139499B (zh) 2022-04-12

Family

ID=80382271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210116917.2A Active CN114139499B (zh) 2022-02-08 2022-02-08 一种基于tss编码的态势文本消息语义压缩编码方法

Country Status (1)

Country Link
CN (1) CN114139499B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969350B (zh) * 2022-08-01 2022-11-22 中国电子科技集团公司第十研究所 一种综合态势智能辅助生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103607262A (zh) * 2013-10-25 2014-02-26 河海大学 空时分组编码mimo系统中的两阶段预编码方法
KR20190024409A (ko) * 2017-08-31 2019-03-08 중앙대학교 산학협력단 시공간 선형 부호화 방법 및 시스템
CN112434526A (zh) * 2020-11-24 2021-03-02 南京莱斯信息技术股份有限公司 基于北斗通信的指挥信息结构化语义表达与重构方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103607262A (zh) * 2013-10-25 2014-02-26 河海大学 空时分组编码mimo系统中的两阶段预编码方法
KR20190024409A (ko) * 2017-08-31 2019-03-08 중앙대학교 산학협력단 시공간 선형 부호화 방법 및 시스템
CN112434526A (zh) * 2020-11-24 2021-03-02 南京莱斯信息技术股份有限公司 基于北斗通信的指挥信息结构化语义表达与重构方法

Also Published As

Publication number Publication date
CN114139499A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
Sayood Introduction to data compression
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN110188979B (zh) 水行业应急决策生成方法及装置
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN114139499B (zh) 一种基于tss编码的态势文本消息语义压缩编码方法
JP2001217720A (ja) データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
JP3083730B2 (ja) データ情報を圧縮するためのシステムおよび方法
CN111382212B (zh) 关联地址获取方法、装置、电子设备及存储介质
CN114860960B (zh) 一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法
Zhang et al. Context-based semantic communication via dynamic programming
CN113535959B (zh) 面向基层治理的事件自动分拨方法
CN105740215A (zh) 一种数据通信编码和解码方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
JP2023504961A (ja) 台風事件情報収束方法
CN108920565A (zh) 一种图片标题生成方法、装置和计算机可读存储介质
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
Shevelev et al. Syntax and Probability Vectors in Search Query
CN117459069A (zh) 基于北斗短报文的海事安全信息高效无损压缩系统及方法
CN111191023B (zh) 一种话题标签自动生成方法、装置及系统
CN111753515A (zh) 一种实现实体定位的地址信息提取及匹配方法
CN101853248A (zh) 航空天气报告的解码方法
Bédard et al. Spatial Databases Modeling with Pictogrammic Languages
Guo SDF: A sign description framework for cross-context information resource representation and interchange
Lu et al. Learning Chinese word embeddings by discovering inherent semantic relevance in sub-characters
CN114792091A (zh) 基于词汇增强的中文地址要素解析方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant