CN117254819B - 一种医疗废物智能监管系统 - Google Patents

一种医疗废物智能监管系统 Download PDF

Info

Publication number
CN117254819B
CN117254819B CN202311540351.7A CN202311540351A CN117254819B CN 117254819 B CN117254819 B CN 117254819B CN 202311540351 A CN202311540351 A CN 202311540351A CN 117254819 B CN117254819 B CN 117254819B
Authority
CN
China
Prior art keywords
data
medical waste
character
window
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311540351.7A
Other languages
English (en)
Other versions
CN117254819A (zh
Inventor
郑伟
张建福
乌鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruijian Yixin Technology Co ltd
Original Assignee
Shenzhen Ruijian Yixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruijian Yixin Technology Co ltd filed Critical Shenzhen Ruijian Yixin Technology Co ltd
Priority to CN202311540351.7A priority Critical patent/CN117254819B/zh
Publication of CN117254819A publication Critical patent/CN117254819A/zh
Application granted granted Critical
Publication of CN117254819B publication Critical patent/CN117254819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据压缩技术领域,具体涉及一种医疗废物智能监管系统,该系统包括存储器和处理器,处理器执行存储器存储的计算机程序,以实现如下步骤:获取当前预设时段的每个标签的医疗废物数据序列,确定每个标签的第一编码列表和新的医疗废物数据序列;确定每个标签的医疗废物数据序列对应的最佳搜索窗口;根据每个标签的第一编码列表和最佳搜索窗口,利用MTF编码对每个标签的新的医疗废物数据序列进行压缩,进而实现医疗废物智能监管。本发明通过确定每个标签的第一编码列表和最佳搜索窗口,提高了MTF编码的编码效果和压缩效率,利于实现医疗废物高效监管,主要应用于数据的监控管理领域。

Description

一种医疗废物智能监管系统
技术领域
本发明涉及数据压缩技术领域,具体涉及一种医疗废物智能监管系统。
背景技术
随着信息行业的发展,利用互联网技术和先进的技术手段实现对医疗废物的监控和管理已经成为一种趋势。为了便于实现医疗废物的监管,对采集的医疗废物数据进行预处理,如对医疗废物数据进行压缩处理,压缩后的数据可以呈现更小的数据量,便于进行数据传输。医疗废物数据往往存在多种不同的标签,例如,医疗废物的产出日期、废物类别、子类别、重量。
通常对医疗废物数据进行无损压缩,多种不同标签的医疗废物数据使得MTF(Move-To-Front)前移编码的初始编码列表中的元素较多,导致最终的编码结果受初始编码列表的影响。而现有编码过程中初始编码列表较为随机,重复出现的字符和字符组合对应字符的索引值较大,导致编码效果不佳,医疗废物数据的压缩效率低下,其不利于医疗废物高效监管的实现。
发明内容
为了解决上述医疗废物数据压缩效率低下,不利于实现医疗废物高效监管的技术问题,本发明的目的在于提供一种医疗废物智能监管系统,所采用的技术方案具体如下:
本发明一个实施例提供了一种医疗废物智能监管系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
获取当前预设时段的每个标签的医疗废物数据序列中的每个医疗废物数据,所述医疗废物数据由多个字符组成;
将任意一个标签作为目标标签,对于目标标签,统计目标标签的医疗废物数据序列对应的各类型的字符,确定各类型的字符的出现频率;根据各类型的字符的出现频率确定目标标签的第一编码列表;
根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性;将最大可能性的医疗废物数据移至医疗废物数据序列的首位,获得新的医疗废物数据序列;
构建预设数目个尺寸的滑动窗口,每个尺寸的滑动窗口在新的医疗废物数据序列上滑动,获得每个尺寸对应的各个窗口数据,所述窗口数据为窗口内各个字符构成的数据;
根据各个窗口数据对应的各个字符以及字符在其所属窗口数据对应的所有字符中的位置,确定每个尺寸的滑动窗口为最佳搜索窗口的可能性;将最大可能性的滑动窗口作为最佳搜索窗口;
根据最佳搜索窗口和第一编码列表,利用MTF编码对目标标签的新的医疗废物数据序列进行压缩,获得压缩后的目标标签的新的医疗废物数据序列;
获取压缩后的每个标签的新的医疗废物数据序列;基于压缩后的每个标签的新的医疗废物数据序列进行医疗废物智能监管。
进一步地,确定各类型的字符的出现频率,包括:
对于任意一个类型的字符,确定该类型的字符对应的字符个数和目标标签的医疗废物数据序列对应的所有字符个数;将该类型的字符对应的字符个数与所有字符个数的比值确定为该类型的字符的出现频率。
进一步地,根据各类型的字符的出现频率确定目标标签的第一编码列表,包括:
根据各类型的字符的出现频率,对目标标签的初始编码列表中的各个字符按照从大到小的顺序进行排序,将排序后的初始编码列表作为第一编码列表。
进一步地,根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性,包括:
对于任意一个医疗废物数据,确定医疗废物数据对应的各类型的字符在第一编码列表中的位置,获得各个位置,所述位置为序号;统计医疗废物数据中相同类型且相邻的两个字符之间的一维距离,获得各个一维距离,所述一维距离为两个字符的序号差异;根据医疗废物数据对应的各个位置和各个一维距离,确定医疗废物数据为医疗废物数据序列中第一个数据的可能性。
进一步地,根据医疗废物数据对应的各个位置和各个一维距离,确定医疗废物数据为医疗废物数据序列中第一个数据的可能性,包括:
将医疗废物数据对应的各个位置的累加和作为第一可能性因子,将医疗废物数据对应的各个一维距离作为第二可能性因子;计算第一可能性因子和第二可能性因子的乘积,对第一可能性因子和第二可能性因子的乘积进行反比例的归一化处理,获得医疗废物数据为医疗废物数据序列中第一个数据的可能性。
进一步地,根据各个窗口数据对应的各个字符以及字符在其所属窗口数据对应的所有字符中的位置,确定每个尺寸的滑动窗口为最佳搜索窗口的可能性,包括:
对于任意一个尺寸的滑动窗口,选取任意一个窗口数据作为选定窗口数据,将选定窗口数据以外的其他窗口数据作为比对窗口数据;根据选定窗口数据和比对窗口数据对应的相同字符类别,确定选定窗口数据与比对窗口数据之间的差异程度;
获取选定窗口数据与各个比对窗口数据之间的差异程度,确定选定窗口数据对应的最小差异程度;计算每个窗口数据对应的最小差异程度的累加和,对最小差异程度的累加和进行反比例的归一化处理,将反比例的归一化处理后的最小差异程度的累加和作为对应尺寸的滑动窗口为最佳搜索窗口的可能性。
进一步地,根据选定窗口数据和比对窗口数据对应的相同字符类别,确定选定窗口数据与比对窗口数据之间的差异程度,包括:
根据选定窗口数据和比对窗口数据对应的相同字符类别占所有字符类别的比例差异,确定第三可能性因子;根据选定窗口数据和比对窗口数据对应的相同字符类别的出现频率差异,确定第四可能性因子;根据选定窗口数据和比对窗口数据对应的相同字符类别所处位置的一维距离,确定第五可能性因子;将第三可能性因子、第四可能性因子以及第五可能性因子的乘积,确定为选定窗口数据与比对窗口数据之间的差异程度;所述所有字符类别为选定窗口数据或比对窗口数据对应的字符类别。
进一步地,根据选定窗口数据和比对窗口数据对应的相同字符类别占所有类别的比例差异,确定第三可能性因子,包括:
在选定窗口数据对应的字符类别中,将与比对窗口数据对应的字符类别相同的字符类别作为目标字符类别;将选定窗口数据中的目标字符类别个数和字符类别个数的比值作为第一比值,将比对窗口数据中的目标字符类别个数和字符类别个数的比值作为第二比值,计算第一比值和第二比值的差值绝对值,将第一比值和第二比值的差值绝对值作为第三可能性因子。
进一步地,所述第四可能性因子的计算公式为:
;式中,/>为第四可能性因子,R为选定窗口数据和比对窗口数据对应的目标字符类别个数,r为选定窗口数据和比对窗口数据对应的目标字符类别序号,为第r个目标字符类别在选定窗口数据对应的所有字符中的出现频率,a为选定窗口数据,/>为第r个目标字符类别在比对窗口数据对应的所有字符中的出现频率,b为比对窗口数据,/>为取绝对值函数。
进一步地,根据选定窗口数据和比对窗口数据对应的相同字符类别所处位置的一维距离,确定第五可能性因子,包括:将各个一维距离的累加和作为第五可能性因子。
本发明具有如下有益效果:
本发明提供了一种医疗废物智能监管系统,该监管系统将整个医疗废物数据列表划分为各个标签的医疗废物数据序列,基于各个标签的医疗废物数据序列的实际数据特征分别进行压缩分析,有利于克服现有对整个列表进行无损压缩时索引值较大,编码效果不佳导致压缩效率低下的缺陷;利用各类型的字符的出现频率确定对应标签的第一编码列表,促使每个标签的医疗废物数据序列均有对应的编码列表,在减少利用编码列表进行编码时的索引耗时的同时,使得编码后的数据长度更短,提高了编码列表的自适应性;根据第一编码列表与对应标签的医疗废物数据序列对应的各个字符之间的关系特征,对医疗废物数据序列本身进行重新排序组合,其有利于降低压缩过程中的索引值,即进一步避免了对数据整体进行压缩导致索引值过大的问题,提高压缩效率;更高的医疗废物数据的压缩效率,有助于提升医疗废物智能监管系统的数据存储和运输效率,利于实现医疗废物高效监管。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一种医疗废物智能监管系统的执行流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明所针对的具体场景为:在对医疗废物数据进行传输存储的过程中,通常会对医疗废物数据进行MTF编码压缩,但医疗数据往往存在多种不同标签,若直接对不同标签的医疗废物数据进行压缩则会使得索引值较大,降低了医疗废物数据的压缩效率,不利于进行高效的医疗废物智能监管。
本实施例提供了一种医疗废物智能监管系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
获取当前预设时段的每个标签的医疗废物数据序列中的每个医疗废物数据,所述医疗废物数据由多个字符组成;
将任意一个标签作为目标标签,对于目标标签,统计目标标签的医疗废物数据序列对应的各类型的字符,确定各类型的字符的出现频率;根据各类型的字符的出现频率确定目标标签的第一编码列表;
根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性;将最大可能性的医疗废物数据移至医疗废物数据序列的首位,获得新的医疗废物数据序列;
构建预设数目个尺寸的滑动窗口,每个尺寸的滑动窗口在新的医疗废物数据序列上滑动,获得每个尺寸对应的各个窗口数据,所述窗口数据为窗口内各个字符构成的数据;
根据各个窗口数据对应的各个字符以及字符在其所属窗口数据对应的所有字符中的位置,确定每个尺寸的滑动窗口为最佳搜索窗口的可能性;将最大可能性的滑动窗口作为最佳搜索窗口;
根据最佳搜索窗口和第一编码列表,利用MTF编码对目标标签的医疗废物数据序列进行压缩,获得压缩后的目标标签的医疗废物数据序列;
获取压缩后的每个标签的医疗废物数据序列;基于压缩后的每个标签的医疗废物数据序列进行医疗废物智能监管。
下面对上述各个步骤进行详细展开:
参考图1,示出了本发明一种医疗废物智能监管系统的执行流程图,包括以下步骤:
S1,获取当前预设时段的每个标签的医疗废物数据序列中的每个医疗废物数据。
需要说明的是,在对医疗废物进行分类存储的过程中,根据每个医疗废物的类型、重量等特征将其输入到医疗废物数据监管系统中。而为了提高监管系统的运行效率,需要实时采集医疗废物数据,对采集的医疗废物数据进行压缩存储处理。
在本实施例中,采集当前预设时段的每个标签的医疗废物数据序列中的每个医疗废物数据,当前预设时段可以为当前24小时,即当天。标签类型包括但不限于医疗废物的类型、重量、时间等。预设时段可以由实施者根据具体实际情况设置,不做具体限定。
值得说明的是,后续步骤在对每个标签的医疗废物数据序列进行压缩分析时,每个医疗废物数据在所属医疗废物数据序列中的位置可能会发生改变,为了便于在解码过程中还原每个医疗废物数据在所属医疗废物数据序列中的位置,可以标记每个标签的医疗废物数据序列中每个医疗废物数据的初始位置。
S2,根据每个标签的医疗废物数据序列中的每个医疗废物数据,确定每个标签的第一编码列表。
需要说明的是,在进行MTF编码过程中,主要进行字符列表的更新,越靠近列表前端的字符,其输出的值越小,当输入数据中存在很多重复的符号时,字符列表中排在前面的符号就有更大的概率被使用,从而使得编码后的数据长度更短,反之则更长。因此,需要结合每个标签对应的医疗废物数据的实际情况,构建每个标签的第一编码列表。这里的字符列表即为编码列表,而第一编码列表是为了区分初始编码列表。
将任意一个标签作为目标标签,对于目标标签,统计目标标签的医疗废物数据序列对应的各类型的字符,确定各类型的字符的出现频率;根据各类型的字符的出现频率确定目标标签的第一编码列表。
第一步,将任意一个标签作为目标标签,对于目标标签,统计目标标签的医疗废物数据序列对应的各类型的字符,确定各类型的字符的出现频率。
需要说明的是,由于医疗废物数据量较大,若直接利用MTF编码结合频率分布优化后的初始编码列表进行压缩,压缩效果较差且压缩效率低下。因此,需要根据标签类型对医疗废物数据进行分组编码,每个标签对应的医疗废物数据可以有其对应的独立的编码列表。
在本实施例中,为了便于描述和分析,从多个标签中任意选取一个标签,将该标签作为目标标签,后续部分步骤仅对目标标签的医疗废物数据序列进行压缩分析。根据目标标签的医疗废物数据序列中每个医疗废物数据对应的各个字符,可以获得各个类型的字符,即所有字符中不同的字符,并确定各个类型的字符在目标标签的医疗废物数据序列中的出现频率。例如,所有字符为aacdefe,那么各个类型的字符为a、c、d、e以及f,出现频率为单个类型字符在所有字符中的出现个数与所有字符个数的比值,如其中类型a的出现频率为2/7。
第二步,根据各类型的字符的出现频率确定目标标签的第一编码列表。
需要说明的是,各类型的字符的出现频率越大,对应类型的字符在第一编码列表中的位置靠前概率越大,即越靠前。
在本实施例中,获取目前标签的初始编码列表,初始编码列表是通过目前标签的医疗废物数据序列对应的不同类型的字符构成的,其顺序一般为字符出现的前后顺序,初始编码列表的获取过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。根据各类型的字符的出现频率,对目标标签的初始编码列表中的各个字符按照从大到小的顺序进行排序,即将初始编码列表中各个字符按照上述计算的出现频率值从大到小进行排序,将排序后的初始编码列表作为第一编码列表。
值得说明的是,对于不同标签的医疗废物数据,相同类型的字符出现频率不同,故每个标签均有其对应的第一编码列表。字符编码结果为当前字符在编码列表中的索引值,MTF编码需要通过对字符在编码列表中的前移而减少索引值,实现数据的压缩编码。
S3,根据每个医疗废物数据对应的各个字符和每个标签的第一编码列表,确定每个标签的新的医疗废物数据序列。
对于目标标签,根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性;将最大可能性的医疗废物数据移至医疗废物数据序列的首位,获得新的医疗废物数据序列。
第一步,根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性。
对于任意一个医疗废物数据,确定医疗废物数据对应的各类型的字符在第一编码列表中的位置,获得各个位置,所述位置为序号;统计医疗废物数据中相同类型且相邻的两个字符之间的一维距离,获得各个一维距离,所述一维距离为两个字符的序号差异;根据医疗废物数据对应的各个位置和各个一维距离,确定医疗废物数据为医疗废物数据序列中第一个数据的可能性。
例如,假设第一编码列表为{,/>,/>,/>,/>},/>为第一编码列表中第1个字符a,/>为第一编码列表中第2个字符b,/>为第一编码列表中第3个字符c,/>为第一编码列表中第4个字符d,/>为第一编码列表中第5个字符e,那么字符c在第一编码列表中的位置为(3,0),即为3,字符c与字符e之间的一维距离的计算公式为5-3=2,故该一维距离为2。
其中,医疗废物数据为医疗废物数据序列中第一个数据的可能性的计算过程可以为:
将医疗废物数据对应的各个位置的累加和作为第一可能性因子,将医疗废物数据对应的各个一维距离作为第二可能性因子;计算第一可能性因子和第二可能性因子的乘积,对第一可能性因子和第二可能性因子的乘积进行反比例的归一化处理,获得医疗废物数据为医疗废物数据序列中第一个数据的可能性。
作为示例,医疗废物数据为医疗废物数据序列中第一个数据的可能性的计算公式可以为:
;式中,E为医疗废物数据为医疗废物数据序列中第一个数据的可能性,exp为自然常数e为底的指数函数,Q为医疗废物数据对应的所有类型字符个数,即字符类型个数,q为医疗废物数据对应的所有类型字符序号,/>为医疗废物数据对应的第q个类型的字符在第一编码列表中的位置,K为医疗废物数据对应的一维距离的个数,k为医疗废物数据对应的一维距离的序号,/>为医疗废物数据对应的第k个一维距离,/>为第一可能性因子,/>为第二可能性因子。
在上述计算公式中,参考任意一个医疗废物数据为序列中第一个数据的可能性的计算过程,可以获得序列中每个医疗废物数据为序列中第一个数据的可能性;第q个类型的字符在第一编码列表中的位置越靠前,即越小,同时相邻且类型相同的两个字符之间的一维距离之和/>越小,对应的医疗废物数据作为第一个数据的可能性越大;第一可能性因子、第二可能性因子与作为第一个数据的可能性为负相关关系,利用指数函数实现对第一可能性因子和第二可能性因子的反比例处理;为了确保医疗废物数据作为第一个数据的可能性的数值取值范围为0到1之间,再次利用指数函数实现归一化处理;当然,实施者也可以使用其他方式实现反比例的归一化处理,此处不做具体限定。
第二步,将最大可能性的医疗废物数据移至医疗废物数据序列的首位,获得新的医疗废物数据序列。
在本实施例中,遍历目标标签的医疗废物数据序列中的每个数据,将可能性最大的医疗废物数据移至医疗废物数据序列的首位,将完成数据移动的医疗废物数据序列作为新的医疗废物数据序列。需要说明的是,位于医疗废物数据序列的首位的医疗废物数据在后续的差异程度的计算过程中,不重新进行字符组合且位置固定不变。
S4,根据新的医疗废物数据序列确定每个标签的最佳搜索窗口。
需要说明的是,搜索窗口尺寸不同,字符组合方式不同,字符组合随着窗口尺寸的变化而变化,此时编码列表中的元素也会发生改变,其导致编码后的索引值发生变化。医疗废物数据本身对应的各个字符为无序排列,基于MTF编码的特性,相同标签的同一字符组合对应数据分布越分散,其编码结果索引值越大,导致编码效率低下,故需要基于目标标签的新的医疗废物数据序列对应的各个字符构建最佳尺寸的搜索窗口,即最佳搜索窗口,每个标签均有其对应最优搜索窗口。
第一步,构建预设数目个尺寸的滑动窗口,每个尺寸的滑动窗口在新的医疗废物数据序列上滑动,获得每个尺寸对应的各个窗口数据,窗口数据为窗口内各个字符构成的数据。
在本实施例中,结合新的医疗废物数据序列的数据个数,设置多个不同尺寸的滑动窗口,不同尺寸的滑动窗口的预设数目取经验值为30,滑动窗口的个数可以由实施者根据具体实际情况设置;滑动窗口的尺寸的取值范围为[],/>为医疗废物数据的最小字符个数,即统计目标标签对应的每个医疗废物数据对应的字符个数,将字符个数最小的医疗废物数据对应的字符个数记为/>,/>为医疗废物数据的所有字符个数,实施者可以根据具体实际情况,设置多个不同滑动窗口的尺寸。需要说明的是,滑动窗口在滑动过程中,需要在新的医疗废物数据序列对应的所有字符上进行滑动。
第二步,根据各个窗口数据对应的各个字符以及字符在其所属窗口数据对应的所有字符中的位置,确定每个尺寸的滑动窗口为最佳搜索窗口的可能性;将最大可能性的滑动窗口作为最佳搜索窗口。
需要说明的是,医疗废物一般是当天产生集体运输,即为集中传输。为了尽可能降低索引值,以提高医疗废物数据的传输和存储效率,不仅可以对初始编码列表进行改进,还可以对每个标签对应的医疗废物数据列表中的数据重新进行字符组合。在进行字符组合的过程,为了获得尺寸合适的滑动窗口,需要基于不同尺寸的滑动窗口数据的特征量化每个尺寸的滑动窗口为最佳滑动窗口的可能性。
第一子步骤,对于任意一个尺寸的滑动窗口,选取任意一个窗口数据作为选定窗口数据,将选定窗口数据以外的其他窗口数据作为比对窗口数据;根据选定窗口数据和比对窗口数据对应的相同字符类别,确定选定窗口数据与比对窗口数据之间的差异程度。
在本实施例中,若任意一个尺寸的滑动窗口对应的每个窗口数据与除其本身以外的其他窗口数据之间的相似程度越高,即差异程度越小,则说明该尺寸的滑动窗口为最佳滑动窗口的可能性越大。在分析两个窗口数据之间的差异程度时,主要分析角度包括:两个窗口数据中存在相同字符的数量、相同类型的字符在其本身窗口数据中的出现频率以及相同类型字符在其本身窗口数据中的位置之间的一维距离。
选定窗口数据与比对窗口数据之间的差异程度的实现步骤可以包括:
首先,根据选定窗口数据和比对窗口数据对应的相同字符类别占所有字符类别的比例差异,确定第三可能性因子。
本实施例在选定窗口数据对应的字符类别中,将与比对窗口数据对应的字符类别相同的字符类别作为目标字符类别;将选定窗口数据中的目标字符类别个数和字符类别个数的比值作为第一比值,将比对窗口数据中的目标字符类别个数和字符类别个数的比值作为第二比值,计算第一比值和第二比值的差值绝对值,将第一比值和第二比值的差值绝对值作为第三可能性因子。其中,所有字符类别为选定窗口数据或比对窗口数据对应的字符类别。
假设选定窗口数据对应的各个字符为101233,各类型的字符为1023,字符类别个数为4;选定窗口数据对应的各个字符为201455,各类型的字符为20145,字符类别个数为5;目标字符类别为相同类型的字符,即为102,目标字符类别个数均为3,此时的第一比值为3/4,第二比值为3/5,第三可能性因子为1/5。
作为示例,第三可能性因子的计算公式可以为:
;式中,/>为第三可能性因子,/>为选定窗口数据和比对窗口数据中的目标字符类别个数,/>为选定窗口数据对应的字符类别个数,/>为第一比值,/>为比对窗口数据对应的字符类别个数,/>为第二比值,/>为取绝对值函数,a为选定窗口数据,b为比对窗口数据。
其次,根据选定窗口数据和比对窗口数据对应的相同字符类别的出现频率差异,确定第四可能性因子。
作为示例,第四可能性因子的计算公式可以为:
;式中,/>为第四可能性因子,R为选定窗口数据和比对窗口数据对应的目标字符类别个数,r为选定窗口数据和比对窗口数据对应的目标字符类别序号,为第r个目标字符类别在选定窗口数据对应的所有字符中的出现频率,a为选定窗口数据,/>为第r个目标字符类别在比对窗口数据对应的所有字符中的出现频率,b为比对窗口数据,/>为取绝对值函数。
假设选定窗口数据对应的各个字符为101233,字符个数为6,选定窗口数据对应的各个字符为201455,目标字符类别为102,两个窗口数据对应的字符个数均为6。其中,第1个目标字符类别1在选定窗口数据对应的所有字符中的出现频率为2/6,/>为1/6,/>为1/6;第1个目标字符类别1在比对窗口数据对应的所有字符中的出现频率/>为1/6,/>为1/6,/>为1/6,代入到上述第四可能性因子的计算形式中,可以计算出第四可能性因子为1/6。
然后,根据选定窗口数据和比对窗口数据对应的相同字符类别所处位置的一维距离,确定第五可能性因子。
在本实施例中,将各个一维距离的累加和作为第五可能性因子。
作为示例,第五可能性因子的计算公式可以为:
;式中,/>为第五可能性因子,R为选定窗口数据和比对窗口数据对应的目标字符类别个数,r为选定窗口数据和比对窗口数据对应的目标字符类别序号,/>为第r个目标字符类别对应的一维距离的累加和,即为第r个目标字符类别在选定窗口数据中所处位置与比对窗口数据中对应所处位置之间的一维距离。例如,选定窗口数据为aaddcf,而比对窗口数据为bcaadf,对于目标类型字符a,a在选定窗口数据中的位置序号为1和2,而其在比对窗口数据为3和4,形成2个一维距离,即3-1=2和4-2=2,那么目标类型字符a对应的一维距离累加和为4。
需要说明的是,在计算一维距离时,对于同一个目标类型的字符,在选定窗口数据中的出现个数大于在比对窗口数据中的出现个数,此时先计算两个窗口数据对应的出现个数差值个位于前方的一维距离;然后,对于选定窗口数据中尚未进行一维距离计算的目标类型字符,使其与比对窗口数据中最末尾位置处的兹目标类型字符进行一维距离计算。
假设选定窗口数据对应的各个字符为101233,选定窗口数据对应的各个字符为201455,目标字符类别为102;例如计算第一个类型的字符1对应的一维距离,第一个类型的字符1在选定窗口数据中对应的位置序号为1和3,而第一个类型的字符1在比对窗口数据中对应的位置序号为3,此时的一维距离为同一类型的字符对应的两个位置序号相减求绝对值,计算在选定窗口数据中第一个类型的字符的两个字符均与比对窗口数据中第一个类型字符的一个字符进行一维距离处理,那么计算第一个类型字1对应的一维距离为2和0。
最后,将第三可能性因子、第四可能性因子以及第五可能性因子的乘积,确定为选定窗口数据与比对窗口数据之间的差异程度。
在本实施例中,第三可能性因子、第四可能性因子以及第五可能性因子越小,选定窗口数据与比对窗口数据之间的差异程度越大,相似性越小,故第三可能性因子、第四可能性因子以及第五可能性因子与差异程度为正相关关系,可以将三个可能性因子的乘积作为两个窗口数据之间的差异程度。
第二子步骤,获取选定窗口数据与各个比对窗口数据之间的差异程度,确定选定窗口数据对应的最小差异程度;计算每个窗口数据对应的最小差异程度的累加和,对最小差异程度的累加和进行反比例的归一化处理,将反比例的归一化处理后的最小差异程度的累加和作为对应尺寸的滑动窗口为最佳搜索窗口的可能性。
在本实施例中,参考选定窗口数据与任意一个比对窗口数据之间的差异程度的计算过程,可以获得选定窗口数据与各个比对窗口数据之间的差异程度,记为g。由于两个窗口数据之间的差异程度越小,两个窗口数据的相似性越高,故从选定窗口数据对应的多个差异程度中选取最小差异程度,记为。选定窗口数据为对应尺寸的滑动窗口对应的任意一个窗口数据,需要从整体角度分析对应尺寸的滑动窗口对应的各个窗口数据互相之间的相似性,故需要将每个窗口数据对应的最小差异程度进行累加和的计算,计算公式可以为,式中,G为对应尺寸的滑动窗口在目标标签的新的医疗废物数据序列上滑动时对应的窗口数据差异程度的累加和,m为第m个窗口数据对应的最小差异程度,M为窗口数据的个数。
需要说明的是,G越小,说明窗口数据内相同字符分布越集中,窗口数据的总编码值越小,对应的尺寸的滑动窗口为最佳搜索窗口的可能性越大,需要对G进行反比例处理,例如,取G的倒数。另外,为了便于比较不同尺寸的滑动窗口为最佳搜索窗口的可能性,可以利用线性归一化函数进行归一化处理,获得对应尺寸的滑动窗口为最佳搜索窗口的可能性,进而获得每个尺寸的滑动窗口为最佳搜索窗口的可能性。
S5,根据最佳搜索窗口和第一编码列表,利用MTF编码对每个标签的新的医疗废物数据序列进行压缩,获得压缩后的每个标签的新的医疗废物数据序列。
在本实施例中,每个标签均有其对应的最佳搜索窗口和第一编码列表。利用最佳搜索窗口对该最佳搜索窗口对应标签的新的医疗废物数据序列进行字符分组处理,即将最佳搜索窗口内字符组成字符串,获得相同字符分布较为集中的医疗废物数据序列,结合第一编码列表,利用MTF编码对该相同字符分布较为集中的医疗废物数据序列进行压缩,可以获得压缩后的医疗废物数据。每个标签的新的医疗废物数据序列的压缩实现过程一致,此处不再重复阐述。MTF编码的实现过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
需要说明的是,在对压缩后的医疗废物数据进行解码过程中,可以按照最初获取标记的每个标签的医疗废物数据序列中每个医疗废物数据的初始位置重新进行排序,即可将数据还原至初始列表状态,其有效提高了压缩存储的效率。
S6,基于压缩后的每个标签的新的医疗废物数据序列进行医疗废物智能监管。
在本实施例中,基于压缩后的每个标签的新的医疗废物数据序列,进行医疗废物智能监管过程中的数据存储和数据传输,较少数据量,避免数据存储空间不足,提高了数据传输速度,有利于实现高效的医疗废物智能监管,提升医疗废物监管的便利性。
本发明提供了一种医疗废物智能监管系统,该监管系统利用医疗废物数据序列对应的各类型的字符的出现频率,对初始编码列表中的各个字符重新进行排序,获得第一编码列表,其有效提高了编码列表的自适应性,每个标签的医疗废物数据序列均有其对应的编码列表;其次,根据第一编码列表与对应标签的医疗废物数据序列对应的各个字符之间的关系特征,对医疗废物数据序列本身进行重新排序组合,其有利于降低压缩过程中的索引值,提高压缩效率,进一步提升医疗废物智能监管系统的数据存储和运输效率,利于实现医疗废物高效监管。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种医疗废物智能监管系统,其特征在于,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
获取当前预设时段的每个标签的医疗废物数据序列中的每个医疗废物数据,所述医疗废物数据由多个字符组成;
将任意一个标签作为目标标签,对于目标标签,统计目标标签的医疗废物数据序列对应的各类型的字符,确定各类型的字符的出现频率;根据各类型的字符的出现频率确定目标标签的第一编码列表;
根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性;将最大可能性的医疗废物数据移至医疗废物数据序列的首位,获得新的医疗废物数据序列;
构建预设数目个尺寸的滑动窗口,每个尺寸的滑动窗口在新的医疗废物数据序列上滑动,获得每个尺寸对应的各个窗口数据,所述窗口数据为窗口内各个字符构成的数据;
根据各个窗口数据对应的各个字符以及字符在其所属窗口数据对应的所有字符中的位置,确定每个尺寸的滑动窗口为最佳搜索窗口的可能性;将最大可能性的滑动窗口作为最佳搜索窗口;
根据最佳搜索窗口和第一编码列表,利用MTF编码对目标标签的新的医疗废物数据序列进行压缩,获得压缩后的目标标签的新的医疗废物数据序列;
获取压缩后的每个标签的新的医疗废物数据序列;基于压缩后的每个标签的新的医疗废物数据序列进行医疗废物智能监管;
根据各类型的字符的出现频率确定目标标签的第一编码列表,包括:
根据各类型的字符的出现频率,对目标标签的初始编码列表中的各个字符按照从大到小的顺序进行排序,将排序后的初始编码列表作为第一编码列表。
2.根据权利要求1所述的一种医疗废物智能监管系统,其特征在于,确定各类型的字符的出现频率,包括:
对于任意一个类型的字符,确定该类型的字符对应的字符个数和目标标签的医疗废物数据序列对应的所有字符个数;将该类型的字符对应的字符个数与所有字符个数的比值确定为该类型的字符的出现频率。
3.根据权利要求1所述的一种医疗废物智能监管系统,其特征在于,根据每个医疗废物数据对应的各个字符和第一编码列表,确定每个医疗废物数据为医疗废物数据序列中第一个数据的可能性,包括:
对于任意一个医疗废物数据,确定医疗废物数据对应的各类型的字符在第一编码列表中的位置,获得各个位置,所述位置为序号;统计医疗废物数据中相同类型且相邻的两个字符之间的一维距离,获得各个一维距离,所述一维距离为两个字符的序号差异;根据医疗废物数据对应的各个位置和各个一维距离,确定医疗废物数据为医疗废物数据序列中第一个数据的可能性。
4.根据权利要求1所述的一种医疗废物智能监管系统,其特征在于,根据医疗废物数据对应的各个位置和各个一维距离,确定医疗废物数据为医疗废物数据序列中第一个数据的可能性,包括:
将医疗废物数据对应的各个位置的累加和作为第一可能性因子,将医疗废物数据对应的各个一维距离作为第二可能性因子;计算第一可能性因子和第二可能性因子的乘积,对第一可能性因子和第二可能性因子的乘积进行反比例的归一化处理,获得医疗废物数据为医疗废物数据序列中第一个数据的可能性。
5.根据权利要求1所述的一种医疗废物智能监管系统,其特征在于,根据各个窗口数据对应的各个字符以及字符在其所属窗口数据对应的所有字符中的位置,确定每个尺寸的滑动窗口为最佳搜索窗口的可能性,包括:
对于任意一个尺寸的滑动窗口,选取任意一个窗口数据作为选定窗口数据,将选定窗口数据以外的其他窗口数据作为比对窗口数据;根据选定窗口数据和比对窗口数据对应的相同字符类别,确定选定窗口数据与比对窗口数据之间的差异程度;
获取选定窗口数据与各个比对窗口数据之间的差异程度,确定选定窗口数据对应的最小差异程度;计算每个窗口数据对应的最小差异程度的累加和,对最小差异程度的累加和进行反比例的归一化处理,将反比例的归一化处理后的最小差异程度的累加和作为对应尺寸的滑动窗口为最佳搜索窗口的可能性。
6.根据权利要求5所述的一种医疗废物智能监管系统,其特征在于,根据选定窗口数据和比对窗口数据对应的相同字符类别,确定选定窗口数据与比对窗口数据之间的差异程度,包括:
根据选定窗口数据和比对窗口数据对应的相同字符类别占所有字符类别的比例差异,确定第三可能性因子;根据选定窗口数据和比对窗口数据对应的相同字符类别的出现频率差异,确定第四可能性因子;根据选定窗口数据和比对窗口数据对应的相同字符类别所处位置的一维距离,确定第五可能性因子;将第三可能性因子、第四可能性因子以及第五可能性因子的乘积,确定为选定窗口数据与比对窗口数据之间的差异程度;所有字符类别为选定窗口数据或比对窗口数据对应的字符类别。
7.根据权利要求6所述的一种医疗废物智能监管系统,其特征在于,根据选定窗口数据和比对窗口数据对应的相同字符类别占所有类别的比例差异,确定第三可能性因子,包括:
在选定窗口数据对应的字符类别中,将与比对窗口数据对应的字符类别相同的字符类别作为目标字符类别;将选定窗口数据中的目标字符类别个数和字符类别个数的比值作为第一比值,将比对窗口数据中的目标字符类别个数和字符类别个数的比值作为第二比值,计算第一比值和第二比值的差值绝对值,将第一比值和第二比值的差值绝对值作为第三可能性因子。
8.根据权利要求7所述的一种医疗废物智能监管系统,其特征在于,所述第四可能性因子的计算公式为:
;式中,/>为第四可能性因子,R为选定窗口数据和比对窗口数据对应的目标字符类别个数,r为选定窗口数据和比对窗口数据对应的目标字符类别序号,/>为第r个目标字符类别在选定窗口数据对应的所有字符中的出现频率,a为选定窗口数据,为第r个目标字符类别在比对窗口数据对应的所有字符中的出现频率,b为比对窗口数据,/>为取绝对值函数。
9.根据权利要求6所述的一种医疗废物智能监管系统,其特征在于,根据选定窗口数据和比对窗口数据对应的相同字符类别所处位置的一维距离,确定第五可能性因子,包括:将各个一维距离的累加和作为第五可能性因子。
CN202311540351.7A 2023-11-20 2023-11-20 一种医疗废物智能监管系统 Active CN117254819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311540351.7A CN117254819B (zh) 2023-11-20 2023-11-20 一种医疗废物智能监管系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311540351.7A CN117254819B (zh) 2023-11-20 2023-11-20 一种医疗废物智能监管系统

Publications (2)

Publication Number Publication Date
CN117254819A CN117254819A (zh) 2023-12-19
CN117254819B true CN117254819B (zh) 2024-02-27

Family

ID=89137251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311540351.7A Active CN117254819B (zh) 2023-11-20 2023-11-20 一种医疗废物智能监管系统

Country Status (1)

Country Link
CN (1) CN117254819B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112582030A (zh) * 2020-12-18 2021-03-30 广州大学 一种基于dna存储介质的文本存储方法
WO2022120912A1 (zh) * 2020-12-11 2022-06-16 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN115543946A (zh) * 2022-12-02 2022-12-30 陕西湘秦衡兴科技集团股份有限公司 一种金融大数据优化存储方法
CN116015312A (zh) * 2023-03-28 2023-04-25 山东奔虎智能科技有限公司 基于物联网平台的气体报警系统数据存储方法
CN116153452A (zh) * 2023-04-18 2023-05-23 济南科汛智能科技有限公司 基于人工智能的医疗电子病历存储系统
CN116450829A (zh) * 2023-05-06 2023-07-18 平安科技(深圳)有限公司 医疗文本分类方法、装置、设备及介质
CN116723337A (zh) * 2023-08-10 2023-09-08 深圳市君兰电子有限公司 一种hdmi高清数据优化传输方法及系统
CN116961675A (zh) * 2023-09-20 2023-10-27 长春医学高等专科学校(长春职工医科大学长春市医学情报所) 一种医疗护理数据智能处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650261B2 (en) * 2001-09-06 2003-11-18 Xerox Corporation Sliding window compression method utilizing defined match locations
AU2005248949B2 (en) * 2005-12-23 2010-04-01 Canon Kabushiki Kaisha Efficient Halftone Image Compression
US8458457B2 (en) * 2007-02-02 2013-06-04 Red Hat, Inc. Method and system for certificate revocation list pre-compression encoding
JP6609404B2 (ja) * 2014-07-22 2019-11-20 富士通株式会社 圧縮プログラム、圧縮方法および圧縮装置
CN114399772B (zh) * 2021-12-20 2024-02-27 北京百度网讯科技有限公司 样本生成、模型训练和轨迹识别方法、装置、设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022120912A1 (zh) * 2020-12-11 2022-06-16 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN112582030A (zh) * 2020-12-18 2021-03-30 广州大学 一种基于dna存储介质的文本存储方法
CN115543946A (zh) * 2022-12-02 2022-12-30 陕西湘秦衡兴科技集团股份有限公司 一种金融大数据优化存储方法
CN116015312A (zh) * 2023-03-28 2023-04-25 山东奔虎智能科技有限公司 基于物联网平台的气体报警系统数据存储方法
CN116153452A (zh) * 2023-04-18 2023-05-23 济南科汛智能科技有限公司 基于人工智能的医疗电子病历存储系统
CN116450829A (zh) * 2023-05-06 2023-07-18 平安科技(深圳)有限公司 医疗文本分类方法、装置、设备及介质
CN116723337A (zh) * 2023-08-10 2023-09-08 深圳市君兰电子有限公司 一种hdmi高清数据优化传输方法及系统
CN116961675A (zh) * 2023-09-20 2023-10-27 长春医学高等专科学校(长春职工医科大学长春市医学情报所) 一种医疗护理数据智能处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于动态贝叶斯网络的健壮报头压缩算法;周伟;赵宝康;刘波;吴少康;李琰;刘华;;计算机工程与科学;39(01);第61-66页 *

Also Published As

Publication number Publication date
CN117254819A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN103067022B (zh) 一种整型数据无损压缩方法、解压缩方法及装置
US20110181448A1 (en) Lossless compression
CN101923569B (zh) 一种实时数据库的结构类型数据的存储方法
CN112000771B (zh) 一种面向司法公开服务的句子对智能语义匹配方法和装置
CN101282121B (zh) 一种基于条件概率的哈夫曼解码的方法
CN117290364B (zh) 一种市场调查数据智能存储方法
CN115955513B (zh) 一种物联网数据优化传输方法
CN115543946A (zh) 一种金融大数据优化存储方法
CN114722014A (zh) 基于数据库日志文件的批量数据时间序列传输方法及系统
CN116915259A (zh) 基于物联网的仓配数据优化储存方法及系统
CN117254819B (zh) 一种医疗废物智能监管系统
CN117081602B (zh) 基于区块链的资金结算数据优化处理方法
CN117177100B (zh) 一种智能ar偏振数据传输方法
CN117376430B (zh) 基于dcs的工业数据快速传输方法及系统
CN116011403B (zh) 一种用于计算机数据存储的重复数据识别方法
CN112948532A (zh) 基于工业大数据分析的链表数据压缩策略选择方法及系统
CN115695564B (zh) 一种物联网数据的高效传输方法
CN116805537A (zh) 用于心肺康复管理系统的数据处理方法
CN115964347A (zh) 一种市场监管监测中心数据的智能存储方法
CN103139566A (zh) 用于可变长度码的高效解码的方法
CN114580548A (zh) 一种目标检测模型的训练方法、目标检测方法及装置
CN110111851B (zh) 基因测序数据压缩方法、系统及计算机可读介质
CN117896442B (zh) 一种基于物联网的综合能源数据管理系统
CN116561183B (zh) 一种海量医疗保险数据智能信息检索系统
CN117194490B (zh) 基于人工智能的金融大数据存储查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant