CN114757145A - 一种判断消息字符集编码的方法 - Google Patents

一种判断消息字符集编码的方法 Download PDF

Info

Publication number
CN114757145A
CN114757145A CN202210276312.XA CN202210276312A CN114757145A CN 114757145 A CN114757145 A CN 114757145A CN 202210276312 A CN202210276312 A CN 202210276312A CN 114757145 A CN114757145 A CN 114757145A
Authority
CN
China
Prior art keywords
message
character set
ith
character
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210276312.XA
Other languages
English (en)
Inventor
邢智涣
兰雨晴
余丹
王丹星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Standard Intelligent Security Technology Co Ltd
Original Assignee
China Standard Intelligent Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Standard Intelligent Security Technology Co Ltd filed Critical China Standard Intelligent Security Technology Co Ltd
Priority to CN202210276312.XA priority Critical patent/CN114757145A/zh
Publication of CN114757145A publication Critical patent/CN114757145A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的实施例公开一种判断消息字符集编码的方法,涉及计算机技术领域。所述方法,包括:提取当前收到的第i个消息中的指定文字信息;按照预设字符集编码中的各种预设字符集编码对第i个消息中的指定文字信息分别进行预显示,得到第i个消息对应的预显示文字信息集合;通过OCR技术对第i个消息对应的预显示文字信息集合中的各预显示文字信息进行文字识别,得到由各预显示文字信息对应的文本信息组成的第i个消息对应的文本信息集合;通过预设分析算法分析第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定第i个消息对应的字符集编码。本发明能自动、智能地确定目标消息使用的字符集编码。

Description

一种判断消息字符集编码的方法
技术领域
本发明属于计算机技术领域,尤其涉及一种判断消息字符集编码的方法。
背景技术
常见字符集有ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。目前,多平台间发送消息时,由于各平台使用的字符集编码不统一而造成中文字符乱码的情况,开发者只能对每个对接设备或平台使用的字符集编码进行手动设置。不仅设置繁琐,同时一旦设备和平台使用的字符集编码产生变化,就得重新进行手动配置,存在着不够智能,不能根据设备和平台使用的字符集编码进行自动配置。
发明内容
有鉴于此,本发明实施例提供一种判断消息字符集编码的方法,用于解决现有多平台间字符集编码设置方法,只能通过手动设置,存在着不够智能且设置耗时问题。本发明根据目标消息预显示中文字乱码状态,自动、智能地确定目标消息使用的字符集编码。
本发明实施例提供一种判断消息字符集编码的方法,用于消息接收端,所述方法包括:
提取当前收到的第i个消息中的指定文字信息;i为正整数;
按照预设字符集编码中的各种预设字符集编码对所述第i个消息中的指定文字信息分别进行预显示,得到所述第i个消息对应的预显示文字信息集合;所述预显示文字信息集合中的每条预显示文字信息对应一种预设字符集编码;
通过OCR技术对所述第i个消息对应的预显示文字信息集合中的各预显示文字信息进行文字识别,得到由各预显示文字信息对应的文本信息组成的第i个消息对应的文本信息集合;
通过预设分析算法分析所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定所述第i个消息对应的字符集编码。
在一可选实施例中,在确定所述第i个消息对应的字符集编码后,所述方法还包括:
在预先设置的消息发送端标识和字符集编码对应关系表中建立第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系;
在所述提取当前收到的第i个消息中的指定文字信息之前,还包括:
获取当前收到的第i个消息的消息发送端标识,作为目标消息发送端标识;
判断所述消息发送端标识和字符集编码对应关系表中是否有所述目标消息发送端标识相关的记录;
若所述消息发送端标识和字符集编码对应关系表中有所述目标消息发送端标识相关的记录,则获取所述目标消息发送端标识对应的字符集编码,作为所述第i个消息对应的字符集编码;
若所述消息发送端标识和字符集编码对应关系表中没有所述目标消息发送端标识相关的记录,则执行所述提取当前收到的第i个消息中的指定文字信息的步骤。
在一可选实施例中,所述预设字符集编码包括:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集编码中的至少一种。
在一可选实施例中,所述通过预设分析算法分析所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定出所述第i个消息对应的字符集编码,包括:
将所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码最少的文本信息对应的预设字符集编码作为所述第i个消息对应的字符集编码。
在一可选实施例中,所述提取当前收到的第i个消息中的指定文字信息,包括:
根据以下第一公式提取第i个消息中的指定文字信息:
Figure BDA0003555872790000031
其中,W(i)表示第i个消息中的指定文字信息,其为二进制形式的数据;len,-表示求取括号内数据的位数;G(i)表示所述第i个消息的二进制形式数据;(i_ID)2表示第i个消息的发送端标识,其为二进制形式数据;&&表示按位与;
Figure BDA0003555872790000032
表示由前端len,(iID)2-个0和后端len,G(i)--len,(i_ID)2-个1组成的二进制数;>>表示右移符号;(END)2为第i个消息中的末端截止数据,其为二进制形式的数据;
所述将所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码最少的文本信息对应的预设字符集编码作为所述第i个消息对应的字符集编码,包括:
根据以下第二公式确定所述第i个消息对应的字符集编码:
Figure BDA0003555872790000033
其中,A(i)表示第i个消息对应的字符集编码的排位值;a表示第a种预设字符集编码在全部预设字符集编码中的排位值,是所述第a种预设字符集编码的唯一标识,a=1,2,…,m;m表示预设字符集编码类型总数;print,a_W(i)-表示按照第a种预设字符集编码对第i个消息中的指定文字信息W(i)进行预显示得到的预显示文字信息;OCR*+表示通过OCR技术对括号内的文字信息进行文字识别得到的文本信息;sumerror codes*+表示求取括号内文本信息中的乱码总数;
Figure BDA0003555872790000034
表示将的a值从1取值到m得到括号内最小值时所对应的a值。
在一可选实施例中,所述在预先设置的消息发送端标识和字符集编码对应关系表中建立第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系,包括:
根据第三公式计算第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的匹配数据代码;
在预先设置的消息发送端标识和字符集编码对应关系表中记录所述第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的匹配数据代码,以此作为所述第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系记录;
其中,所述第三公式为:
P,i_ID→A(i)-=(i_ID)2<<len*,A(i)-2++,A(i)-2
所述第三公式中,P,i_ID→A(i)-表示第i个消息的发送端标识和本次确定出的第i个消息对应的字符集编码之间的匹配数据代码;,A(i)-2表示将A(i)转换为二进制数;<<表示左移符号。
在一可选实施例中,所述指定文字类型为中文。
本发明提供的一种判断消息字符集编码的方法,首先按照预设字符集编码中的各种预设字符集编码对目标消息中的指定文字信息分别进行预显示,接着对各预显示文字信息进行文字识别,获得目标消息对应的文本信息集合,最后根据文本信息集合中各文本信息的乱码状态,确定目标消息对应的字符集编码。本发明根据目标消息预显示中文字乱码状态,自动、智能地确定目标消息使用的字符集编码。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种判断消息字符集编码的方法实施例一流程图;
图2为本发明实施例提供的一种判断消息字符集编码的方法实施例二流程图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种判断消息字符集编码的方法实施例一流程图。参见图1,该方法包括如下步骤S101-S104:
S101:提取当前收到的第i个消息中的指定文字信息;i为正整数。
本实施例中,消息格式为:设备标识+指定文字信息+末端截止数据,其中,此处假设有一消息为1011 11100011 01111110,设备标识为1011,末端截止数据为01111110,则指定文字信息为11100011,提取出指定文字信息,便于后续分析指定文字信息使用的字符集编码。
S102:按照预设字符集编码中的各种预设字符集编码对所述第i个消息中的指定文字信息分别进行预显示,得到所述第i个消息对应的预显示文字信息集合。
其中,所述预显示文字信息集合中的每条预显示文字信息对应一种预设字符集编码。
本实施例中,所述字符集编码包括:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集编码中的至少一项。
S103:通过OCR技术对所述第i个消息对应的预显示文字信息集合中的各预显示文字信息进行文字识别,得到由各预显示文字信息对应的文本信息组成的第i个消息对应的文本信息集合。
本实施例中,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机等)检查纸上打印、图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字(如文本信息)的过程,此处通过OCR技术对第i个消息对应的预显示文字信息集合中的各预显示文字信息进行文字识别,即可得到对应的文本信息,便于后续对文本信息中的乱码情况做分析。
S104:通过预设分析算法分析所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定所述第i个消息对应的字符集编码。
本实施例中,指定文字类型为中文,此处各文本信息中中文乱码信息,客观的反映了,第i个消息使用预设字符集编码进行解析的正确程度,假设有一消息,用ASCII字符集编码进行预显示后,中文乱码数量为1;用GB2312字符集编码进行预显示后,中文乱码数量为0,则可以推断出此消息使用了GB2312字符集编码,从而实现了自动的获取消息使用的字符集编码。
本发明实施例提供的一种判断消息字符集编码的方法,首先按照预设字符集编码中的各种预设字符集编码对目标消息中的指定文字信息分别进行预显示,接着对各预显示文字信息进行文字识别,获得目标消息对应的文本信息集合,最后根据文本信息集合中各文本信息的乱码状态,确定目标消息对应的字符集编码。本发明根据目标消息预显示中文字乱码状态,自动、智能地确定目标消息使用的字符集编码。
图2为本发明实施例提供的一种判断消息字符集编码的方法实施例二流程图。参见图2,该方法包括如下步骤S201-S208:
S201:获取当前收到的第i个消息的消息发送端标识,作为目标消息发送端标识。
S202:判断所述消息发送端标识和字符集编码对应关系表中是否有所述目标消息发送端标识相关的记录;是则执行S203,否则执行S204。
本实施例中,获取第i个消息的消息发送端标识后,继续判定在字符集编码对应关系表中是否有所述目标消息发送端标识相关的记录,是则从字符集编码对应关系表中就可以直接检索出第i个消息使用的字符集编码,从而有效地提高了执行效率;如果字符集编码对应关系表中没有发送端标识,则后续待确定第i个消息使用的字符集编码后,将发送端标识及字符集编码对应关系保存在字符集编码对应关系表中,便于下次同一个终端/平台发来消息时,则直接从字符集编码对应关系表中根据终端标识检索就可以获得对应的字符集编码,有效地提高了系统执行效率。
S203:获取所述目标消息发送端标识对应的字符集编码,作为所述第i个消息对应的字符集编码。
S204:提取当前收到的第i个消息中的指定文字信息;i为正整数。
作为一可选实施例,本步骤S204,包括:根据以下第一公式提取第i个消息中的指定文字信息:
Figure BDA0003555872790000071
其中,W(i)表示第i个消息中的指定文字信息,其为二进制形式的数据;len,-表示求取括号内数据的位数;G(i)表示所述第i个消息的二进制形式数据;(i_ID)2表示第i个消息的发送端标识,其为二进制形式数据;&&表示按位与;
Figure BDA0003555872790000072
表示由前端len,(iID)2-个0和后端len,G(i)--len,(i_ID)2-个1组成的二进制数;>>表示右移符号;(END)2为第i个消息中的末端截止数据,其为二进制形式的数据。
本实施例中,假设存在一消息为1011 11100011 01111110,其中,设备标识为1011,末端截止数据为01111110,则根据第一公式,则W(i)=*1011 11100011 01111110&&0000 11111111 11111111+>>8=11100011。根据接收到设备或平台的消息提取出所设备或平台的指定文字信息(即中文文字信息),进而将需要设备的ID信息以及截止数据全部去除方便后续的运算以及分析判断。
S205:按照预设字符集编码中的各种预设字符集编码对所述第i个消息中的指定文字信息分别进行预显示,得到所述第i个消息对应的预显示文字信息集合。
其中,所述预显示文字信息集合中的每条预显示文字信息对应一种预设字符集编码。
S206:通过OCR技术对所述第i个消息对应的预显示文字信息集合中的各预显示文字信息进行文字识别,得到由各预显示文字信息对应的文本信息组成的第i个消息对应的文本信息集合。
S207:通过预设分析算法分析所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定所述第i个消息对应的字符集编码。
作为一可选实施例,本步骤S207,包括:将所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码最少的文本信息对应的预设字符集编码作为所述第i个消息对应的字符集编码。优选地,可以根据以下第二公式确定所述第i个消息对应的字符集编码:
Figure BDA0003555872790000081
其中,A(i)表示第i个消息对应的字符集编码的排位值;a表示第a种预设字符集编码在全部预设字符集编码中的排位值,是所述第a种预设字符集编码的唯一标识,a=1,2,…,m;m表示预设字符集编码类型总数;print,a_W(i)-表示按照第a种预设字符集编码对第i个消息中的指定文字信息W(i)进行预显示得到的预显示文字信息;OCR*+表示通过OCR技术对括号内的文字信息进行文字识别得到的文本信息;sumerror codes*+表示求取括号内文本信息中的乱码总数;
Figure BDA0003555872790000082
表示将的a值从1取值到m得到括号内最小值时所对应的a值。
本实施例中,假设已经有5种预设字符集编码,其排位值分别为1,2,3,4,5,若有新的一种预设字符集编码需要加入时,则为其排位值赋值为6,因为排位值1,2,3,4,5,6都唯一不重复,因此可以使用排位值作为预设字符集编码唯一标识。假设目前有6种预设字符集编码,其第i个信息的sumerror codes*OCR*print,a_W(i)-分别为5,4,3,2,1,0,则根据第二公式,则可以确定第6中预设字符集编码为第i个信息使用的字符集编码。通过分析文本文字信息中文字的乱码状态确定出所述设备或平台的回应消息所使用的字符集编码,进而将未知编码的数据通过轮循的方式转换为已知的字符编码数据,进而保证匹配和识别的准确率,并且全部过程均可自动化实现。
S208:在预先设置的消息发送端标识和字符集编码对应关系表中建立第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系。
作为一可选实施例,本步骤S208,可以包括以下步骤S2081-S2082:
S2081:根据第三公式计算第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的匹配数据代码。
优选地,第三公式为:
P,i_ID→A(i)-=(i_ID)2<<len*,A(i)-2++,A(i)-2 (3)
所述第三公式中,P,i_ID→A(i)-表示第i个消息的发送端标识和本次确定出的第i个消息对应的字符集编码之间的匹配数据代码;,A(i)-2表示将A(i)转换为二进制数;<<表示左移符号。
本实施例中,假设第i个消息的发送端标识为6,A(i)=6,则P,iID→A(i)-=(1010)<<len*(1010)2++(1010)=10101010,此数据既能表示设备/平台与使用的字符集编码之前的对应关系,并且占用的空间也比较小。
S2082:在预先设置的消息发送端标识和字符集编码对应关系表中记录所述第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的匹配数据代码,以此作为所述第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系记录。
本实施例中,将所述设备或平台与确定所使用的字符集编码进行ID匹配得到匹配数据代码,进而通过所述匹配数据代码建立字符集编码和设备平台之间的对应关系,从而可以在与其进行下一次通信时,从保存的匹配数据代码中直接获取对应的设备或平台标识与字符集编码的信息,确保了第二次识别的快速性,提高了系统效率。
本发明实施例提供的一种判断消息字符集编码的方法,首先按照预设字符集编码中的各种预设字符集编码对目标消息中的指定文字信息分别进行预显示,接着对各预显示文字信息进行文字识别,获得目标消息对应的文本信息集合,然后根据文本信息集合中各文本信息的乱码状态,确定目标消息对应的字符集编码,最后将消息发送端的设备/平台的唯一标识与使用的字符集编码的对应关系存储在字符集编码对应关系表,便于后续再有相同的设备/平台发来消息时,可以从字符集编码对应关系表根据设备/平台的唯一标识即可检索出使用的字符集编码,有效地提高了系统执行效率。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种判断消息字符集编码的方法,其特征在于,用于消息接收端,所述方法包括:
提取当前收到的第i个消息中的指定文字信息;i为正整数;
按照预设字符集编码中的各种预设字符集编码对所述第i个消息中的指定文字信息分别进行预显示,得到所述第i个消息对应的预显示文字信息集合;所述预显示文字信息集合中的每条预显示文字信息对应一种预设字符集编码;
通过OCR技术对所述第i个消息对应的预显示文字信息集合中的各预显示文字信息进行文字识别,得到由各预显示文字信息对应的文本信息组成的第i个消息对应的文本信息集合;
通过预设分析算法分析所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定所述第i个消息对应的字符集编码。
2.如权利要求1所述的一种判断消息字符集编码的方法,其特征在于,在确定所述第i个消息对应的字符集编码后,所述方法还包括:
在预先设置的消息发送端标识和字符集编码对应关系表中建立第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系;
在所述提取当前收到的第i个消息中的指定文字信息之前,还包括:
获取当前收到的第i个消息的消息发送端标识,作为目标消息发送端标识;
判断所述消息发送端标识和字符集编码对应关系表中是否有所述目标消息发送端标识相关的记录;
若所述消息发送端标识和字符集编码对应关系表中有所述目标消息发送端标识相关的记录,则获取所述目标消息发送端标识对应的字符集编码,作为所述第i个消息对应的字符集编码;
若所述消息发送端标识和字符集编码对应关系表中没有所述目标消息发送端标识相关的记录,则执行所述提取当前收到的第i个消息中的指定文字信息的步骤。
3.如权利要求1所述的一种判断消息字符集编码的方法,其特征在于,所述预设字符集编码包括:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集编码中的至少一种。
4.如权利要求2所述的一种判断消息字符集编码的方法,其特征在于,所述通过预设分析算法分析所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码状态,确定出所述第i个消息对应的字符集编码,包括:
将所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码最少的文本信息对应的预设字符集编码作为所述第i个消息对应的字符集编码。
5.如权利要求4所述的一种判断消息字符集编码的方法,其特征在于,所述提取当前收到的第i个消息中的指定文字信息,包括:
根据以下第一公式提取第i个消息中的指定文字信息:
Figure FDA0003555872780000021
其中,W(i)表示第i个消息中的指定文字信息,其为二进制形式的数据;len[]表示求取括号内数据的位数;G(i)表示所述第i个消息的二进制形式数据;(i_ID)2表示第i个消息的发送端标识,其为二进制形式数据;&&表示按位与;
Figure FDA0003555872780000022
表示由前端len[(iID)2]个0和后端len[G(i)]-len[(i_ID)2]个1组成的二进制数;>>表示右移符号;(END)2为第i个消息中的末端截止数据,其为二进制形式的数据;
所述将所述第i个消息对应的文本信息集合中的各文本信息中指定文字的乱码最少的文本信息对应的预设字符集编码作为所述第i个消息对应的字符集编码,包括:
根据以下第二公式确定所述第i个消息对应的字符集编码:
Figure FDA0003555872780000023
其中,A(i)表示第i个消息对应的字符集编码的排位值;a表示第a种预设字符集编码在全部预设字符集编码中的排位值,是所述第a种预设字符集编码的唯一标识,a=1,2,…,m;m表示预设字符集编码类型总数;print[a_W(i)]表示按照第a种预设字符集编码对第i个消息中的指定文字信息W(i)进行预显示得到的预显示文字信息;OCR{}表示通过OCR技术对括号内的文字信息进行文字识别得到的文本信息;sumerrorcodes{}表示求取括号内文本信息中的乱码总数;
Figure FDA0003555872780000031
表示将的a值从1取值到m得到括号内最小值时所对应的a值。
6.如权利要求5所述的一种判断消息字符集编码的方法,其特征在于,所述在预先设置的消息发送端标识和字符集编码对应关系表中建立第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系,包括:
根据第三公式计算第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的匹配数据代码;
在预先设置的消息发送端标识和字符集编码对应关系表中记录所述第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的匹配数据代码,以此作为所述第i个消息的发送端标识和确定出的第i个消息对应的字符集编码之间的对应关系记录;
其中,所述第三公式为:
P[i_ID→A(i)]=(i_ID)2<<len{[A(i)]2}+[A(i)]2
所述第三公式中,P[i_ID→A(i)]表示第i个消息的发送端标识和本次确定出的第i个消息对应的字符集编码之间的匹配数据代码;[A(i)]2表示将A(i)转换为二进制数;<<表示左移符号。
7.如权利要求1-6任一项所述的一种判断消息字符集编码的方法,其特征在于,所述指定文字类型为中文。
CN202210276312.XA 2022-03-21 2022-03-21 一种判断消息字符集编码的方法 Pending CN114757145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210276312.XA CN114757145A (zh) 2022-03-21 2022-03-21 一种判断消息字符集编码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210276312.XA CN114757145A (zh) 2022-03-21 2022-03-21 一种判断消息字符集编码的方法

Publications (1)

Publication Number Publication Date
CN114757145A true CN114757145A (zh) 2022-07-15

Family

ID=82327013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210276312.XA Pending CN114757145A (zh) 2022-03-21 2022-03-21 一种判断消息字符集编码的方法

Country Status (1)

Country Link
CN (1) CN114757145A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702641A (zh) * 2009-11-11 2010-05-05 中国农业大学 编码方法和网络服务器
CN101848349A (zh) * 2010-03-25 2010-09-29 中兴通讯股份有限公司 一种处理移动多媒体广播中文本信息的方法、系统及终端
CN101938718A (zh) * 2009-07-02 2011-01-05 华为技术有限公司 网络间短消息转发方法和装置
CN104516862A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN108449262A (zh) * 2018-04-08 2018-08-24 成都万维图新信息技术有限公司 一种即时通信数据的传输方法
CN110147289A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 异常消息筛选方法和装置以及计算机可读存储介质
CN110704813A (zh) * 2019-10-19 2020-01-17 白杨 一种基于字符重新编码的文字防盗版系统
CN113507509A (zh) * 2021-06-25 2021-10-15 中标慧安信息技术股份有限公司 基于区块链的物联网数据保密存储方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101938718A (zh) * 2009-07-02 2011-01-05 华为技术有限公司 网络间短消息转发方法和装置
CN101702641A (zh) * 2009-11-11 2010-05-05 中国农业大学 编码方法和网络服务器
CN101848349A (zh) * 2010-03-25 2010-09-29 中兴通讯股份有限公司 一种处理移动多媒体广播中文本信息的方法、系统及终端
CN104516862A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN110147289A (zh) * 2018-02-13 2019-08-20 北京京东尚科信息技术有限公司 异常消息筛选方法和装置以及计算机可读存储介质
CN108449262A (zh) * 2018-04-08 2018-08-24 成都万维图新信息技术有限公司 一种即时通信数据的传输方法
CN110704813A (zh) * 2019-10-19 2020-01-17 白杨 一种基于字符重新编码的文字防盗版系统
CN113507509A (zh) * 2021-06-25 2021-10-15 中标慧安信息技术股份有限公司 基于区块链的物联网数据保密存储方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢谦等: "编码字符集标准及分类研究", 《中文信息学报》 *

Similar Documents

Publication Publication Date Title
CN107645524B (zh) 一种消息推送处理方法以及装置
US9870502B2 (en) Apparatus for, a method of, and a network server for detecting data patterns in a data stream
CN111970353A (zh) 云计算平台物联网中异构设备的数据处理方法及装置
CN111290779B (zh) 灰度发布方法、装置、存储介质和电子设备
CN107066303B (zh) 固件比对方法和装置
CN110162973B (zh) 一种Webshell文件检测方法及装置
CN112559112B (zh) 界面节点定位方法及装置
CN104052774A (zh) 一种数据传输方法及系统
CN116346961B (zh) 金融报文处理方法、装置、电子设备及存储介质
CN114757145A (zh) 一种判断消息字符集编码的方法
CN115793559A (zh) Plc采集点表的配置方法、装置、智能网关、设备及介质
CN109840294B (zh) 电子元件配套资料查询方法、存储介质及终端
CN111178008A (zh) 一种面向数字字符的数据编码方法、解析方法及系统
CN116796705B (zh) 表情符检测方法及装置、电子设备、存储介质
CN114221883B (zh) 消息测试方法、装置、服务器及存储介质
CN113179494B (zh) 基于短信的业务办理方法及系统
CN114302425B (zh) 设备配网方法、装置、存储介质及电子设备
CN111488727B (zh) 词文件解析方法、词文件解析设备和计算机可读存储介质
CN110880999B (zh) 一种电子红包识别方法、装置及终端设备
CN110881002B (zh) 一种电子红包监控方法、装置及终端设备
CN113961647A (zh) 一种数据反序列化方法、装置及相关设备
CN108334567B (zh) 垃圾文本判别方法、装置及服务器
CN114968340A (zh) 一种信息类数据识别方法及装置
CN118193208A (zh) 程序运行耗时的监测方法、装置、电子设备及存储介质
CN115878914A (zh) 一种域名匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220715