CN105528420A - 文字编码和译码方法、装置及电子设备 - Google Patents

文字编码和译码方法、装置及电子设备 Download PDF

Info

Publication number
CN105528420A
CN105528420A CN201510890341.5A CN201510890341A CN105528420A CN 105528420 A CN105528420 A CN 105528420A CN 201510890341 A CN201510890341 A CN 201510890341A CN 105528420 A CN105528420 A CN 105528420A
Authority
CN
China
Prior art keywords
participle
word
current
lead
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510890341.5A
Other languages
English (en)
Inventor
潘洪安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510890341.5A priority Critical patent/CN105528420A/zh
Publication of CN105528420A publication Critical patent/CN105528420A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了文字编码和译码方法、装置及电子设备,在分词编码库中找到根节点为当前分词首字的树,在子节点中找到下一个字所在的节点,将该下一个字作为当前分词尾字,在其子节点中查找下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字,返回执行在其子节点中查找下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的分词转换为预设长度的编码,将编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行找到根节点为当前分词首字的树的步骤,本发明在分词编码库中查找待转换文本中的分词,并将查找到的分词转换为预设长度的编码达到减少占用存储空间的目的。

Description

文字编码和译码方法、装置及电子设备
技术领域
本发明涉及计算机应用技术领域,特别是涉及文字编码和译码方法、装置及电子设备。
背景技术
随着科学技术的发展,人们在纸上撰写文章并保留文章的情况越来越少,人们更多的使用计算机来撰写文章并存储文章。
在计算机中,对于长篇幅的文本而言,在进行存储时会占用较多存储空间。对于中文而言,现有的方法用二进制编码来表示中文,每个中文至少占双字节。例如:中华人民共和国,每个中文用双字节编码,需要占用14字节。可见,这种方法占用存储空间较多。当然,其他文字,如日文、韩文的编码方式也存在占用存储空间较多的情况。
发明内容
本发明实施例的目的在于提供文字编码和译码方法、装置及电子设备,将分词转换为预设长度的编码,减少占用的存储空间。具体技术方案如下:
本发明实施例提供的一种文字编码方法,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述方法包括:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
可选的,所述方法还包括:
如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤。
可选的,所述预设长度为3字节。
可选的,所述文字为英文、中文、韩文或日文。
本发明实施例提供的一种文字译码方法,用于对本发明实施例中任一种文字编码方法中所述编码文件进行处理,所述方法应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述方法包括:
获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
本发明实施例提供了一种文字编码装置,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述装置包括:
第一获得模块,用于获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
第一查找模块,用于在所述分词编码库中找到根节点为当前分词首字的树;
确定模块,用于在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
第二查找模块,用于在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
第一编码模块,用于第二查找模块如果找到,则将该下一个字作为当前分词尾字,触发第二查找模块;第二查找模块如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,触发第一查找模块,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
可选的,所述装置还包括:
第二编码模块,用于确定模块如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,触发第一查找模块。
可选的,所述预设长度为3字节。
可选的,所述文字为英文、中文、韩文或日文。
本发明实施例提供了一种文字译码装置,用于对本发明实施例提供的任一种文字编码装置中所述编码文件进行处理,所述装置应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述装置包括:
第二获得模块,用于获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
第三查找模块,用于在所述分词译码库中查找所述当前编码对应的分词;
译码模块,用于将所述当前编码转换为第三查找模块查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,触发第三查找模块,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
本发明实施例提供的一种电子设备,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述电子设备包括:
壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
本发明实施例提供的一种电子设备,所述电子设备中存储有分词译码库,所述分词译码库是根据分词编码库设置的,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述电子设备包括:
壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
获得编码文件中的当前编码,其中,所述编码文件为待转换文本根据所述分词编码库编码得到的文件,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
为实现上述目的,本发明实施例还提供了一种存储介质,其中,该存储介质用于存储应用程序,所述应用程序用于在运行时执行本发明实施例所述的一种文字编码方法。其中,本发明实施例所述的一种文字编码方法,应用于电子设备,该方法可以包括:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
相应地,本发明实施例还提供了一种存储介质,其中,该存储介质用于存储应用程序,所述应用程序用于在运行时执行本发明实施例所述的一种文字译码方法。其中,本发明实施例所述的一种文字译码方法,应用于电子设备,该方法可以包括:
获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
为实现上述目的,本发明实施例还提供了一种应用程序,其中,该应用程序用于在运行时执行本发明实施例所述的一种文字编码方法。其中,本发明实施例所述的一种文字编码方法,应用于电子设备,该方法可以包括:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
相应地,本发明实施例还提供了一种应用程序,其中,该应用程序用于在运行时执行本发明实施例所述的一种文字译码方法。其中,本发明实施例所述的一种文字译码方法,应用于电子设备,该方法可以包括:
获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
本发明实施例提供的文字编码和译码方法、装置及电子设备,可以在分词编码库中找到根节点为当前分词首字的树,在所述根节点的子节点中找到下一个字所在的节点,将该下一个字作为当前分词尾字,在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字,返回执行在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的分词转换为预设长度的编码,将编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行找到根节点为当前分词首字的树的步骤。本发明在分词编码库中查找待转换文本中的分词,并将查找到的分词转换为预设长度的编码,与将单个文字转化为预设长度的编码的方法相比,本发明将分词转换为预设长度的编码减少了占用的存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文字编码方法的流程示意图;
图2为本发明实施例提供的一种分词编码库中的字典树的结构示意图;
图3为本发明实施例提供的另一种文字编码方法的流程示意图;
图4为本发明实施例提供的一种文字译码方法的流程示意图;
图5为本发明实施例提供的一种文字编码装置的结构示意图;
图6为本发明实施例提供的一种文字译码装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种文字编码方法,图1所示方法可以应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,该方法可以包括:
S101:获得待转换文本中的当前分词首字。
其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字。
所述分词编码库是根据预设分词编制的,所以具有通用性。
具体的,所述文字可以为英文、中文、韩文或日文。
例如:所述文字为中文,如图2所示,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个中文且各字典树的根节点中包含的中文不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码。
S102:在所述分词编码库中找到根节点为当前分词首字的树。
当开始对待转换文本进行转换时,从所述分词编码库包含的多个字典树中找到所述待转换文本的首个文字所在的树。其它情况时,从所述分词编码库包含的多个字典树中找到所述待转换文本的当前分词首字所在的树。
S103:在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字。
当开始对待转换文本进行转换时,如果在所述首个文字所在的树的子节点中找到待转换文本中第二个字所在的节点,则将该第二个字作为当前分词尾字。其它情况时,如果在所述当前分词首字所在的树的子节点中找到待转换文本中当前分词首字的下一个字所在的节点,则将该下一个字作为当前分词尾字。
S104:在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点,如果找到,则执行步骤S105;否则,则执行步骤106。
S105:将该下一个字作为当前分词尾字,返回执行步骤S104。
如果在确定的当前分词尾字的子节点中找到当前分词尾字的下一个字所在的节点,将该下一个字作为当前分词尾字,且继续查找作为当前分词尾字的下一个字所在的节点,如果找到,则一直执行查找作为当前分词尾字的下一个字所在的节点的步骤。
S106:将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行步骤S102。
具体的,所述预设长度可以为3字节。
如果在确定的当前分词尾字的子节点中未找到当前分词尾字的下一个字所在的节点,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,由此,将所述待转换文本中的分词转换为编码,并将转换后得到的编码存储在编码文件中的对应位置上。
其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
在所述分词编码库包含的各字典树中,不是每个节点都对应有预设长度的编码,由于分词编码库是根据预设分词而编制的,所以只有预设分词的分词尾字所在的节点才对应有预设长度的编码。
例如:所述文字为中文,如图2所示,所述分词编码库中包含有多个字典树,各字典树中的每个节点中均包含一个中文且各字典树的根节点中包含的中文不同,将所有根节点按拼音递增有序排列,每个字典树包含以其根节点为分词首字的所有预设分词,将所有预设分词所包括的中文均放置于对应的节点上,且每个预设分词的分词尾字所在的节点对应有预设长度的编码。
在图2中,在根节点为“中”的字典树中,将由“中”为分词首字的预设分词“中华人民共和国”所包括的中文均放置于对应的节点上,“人”、“共”和“和”所在节点不存在预设长度的编码,“华”、“民”和“国”所在节点对应有预设长度的编码。因为“中华人”、“中华人民共”和“中华人民共和”不是预设分词,所以“人”、“共”和“和”所在节点不存在预设长度的编码。而“中华”、“中华人民”和“中华人民共和国”是预设分词,所以,“华”、“民”和“国”所在节点对应有预设长度的编码。
本发明实施例通过将分词转换为预设长度的编码,达到减少占用存储空间的目的。
例如:所述文字为中文,所述待转换文本为中文文本,将待转换文本中的“中华人民共和国”转换为编码,每个字转换为双字节编码,需要占用14字节的存储空间。用本发明所述方法将“中华人民共和国”作为分词,将这个分词转换为预设长度的编码,所述预设长度为3字节,则只需要占用3字节的存储空间。对整个待转换文本而言,使用本发明所述方法将大大减少占用的存储空间。
下面通过一具体实施例对本发明图1所示方法进行介绍:
假定待转换文本中的中文为:中华人民共和国成立了。在分词编码库中找到根节点为“中”的树,在所述“中”的子节点中查找到“华”所在的节点,将“华”作为当前分词尾字,在“华”的子节点中查找到“人”所在的节点,最后找到“国”所在的叶子节点,将“中华人民共和国”转换为“国”对应的预设长度的编码并将该编码存储到编码文件的第一个位置上。然后在分词编码库中找到根节点为“成”的树,在所述“成”的子节点中查找到“立”所在的节点,将“立”作为当前分词尾字,由于在“立”的子节点中未找到“了”所在的节点,将“成立”转换为“立”对应的预设长度的编码并将该编码存储到编码文件的第二个位置上,由于“了”已经为待转换文本的最后一个字,所以将“了”转换为“了”对应的预设长度的编码并将该编码存储到编码文件的第三个位置上,由此将所述待转换文本中的分词均转换为编码并存储在编码文件中。
在图1所示方法实施例基础上,如图3所示,本发明提供的另一种文字编码方法,还可以包括:
S301:如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,返回执行步骤S102。
由于在待转换文本中,不仅存在分词还存在不能组成分词的单个文字,而分词编码库中的预设分词包括单个文字,所以如果在根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应预设长度的编码,由此,将待转换文本中的单个文字转换为对应预设长度的编码,并将转换后得到的编码存储在编码文件中的对应位置上。
例如:所述文字为中文,所述当前分词首字为“龘”,如图2所示,在分词编码库中根节点为“龘”的树,其不存在子节点,无法找到其下一个所在的节点,所以可将“龘”视为一个预设分词,将“龘”转换为对应预设长度的编码,将转换后得到的编码存储到编码文件中。
将当前分词首字的下一个字确定为当前分词首字,返回执行步骤S102直至将所述文本中的分词均转换为编码并按顺序存储在编码文件中为止。
本发明实施例提供的一种文字编码方法,可以在分词编码库中找到根节点为当前分词首字的树,在所述根节点的子节点中找到下一个字所在的节点,将该下一个字作为当前分词尾字,在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字,返回执行在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的分词转换为预设长度的编码,将编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行找到根节点为当前分词首字的树的步骤。本发明在分词编码库中查找待转换文本中的分词,并将查找到的分词转换为预设长度的编码,与将单个文字转化为预设长度的编码的方法相比,本发明将分词转换为预设长度的编码减少了占用的存储空间。
如图4所示,本发明提供的一种文字译码方法,对图1或图3所述任意一种方法中的所述编码文件进行处理,图4所示方法可以应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码。所述方法可以包括:
S401:获得所述编码文件中的当前编码。
其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码。
在所述分词译码库中,预设长度的编码与分词是映射的关系,从预设长度的编码到分词的映射可以通过Map结构来实现。
由于所述分词译码库是根据所述分词编码库设置的,所以所述分词译码库也具有通用性。
S402:在所述分词译码库中查找所述当前编码对应的分词。
在开始对所述编码文件中的编码进行转换时,从所述分词译码库包含的多个映射关系中找到所述编码文件中的首个预设长度的编码所在的映射关系对应的分词。其它情况时,从所述分词译码库包含的多个映射关系中找到所述编码文件中的当前预设长度的编码所在的映射关系对应的分词。
S403:将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行步骤S402。
将所述当前编码转换为查找到的分词,并将转换后得到的分词存储到文本的对应位置上,继续查找已转换的当前预设长度的编码的下一个预设长度的编码对应的分词并转换为查找到的分词,并转换为对应的分词直至所述编码文件的最后一个编码为止,将所述编码文件中的编码均转换为分词并按顺序存储在文本中。
其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
由此,将编码文件中的编码转换为分词。
可见,本发明实施例提供的一种文字译码方法,可以获得编码文件中的当前编码,在所述分词译码库中查找所述当前编码对应的分词,将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤。本发明在分词译码库中查找编码文件中的编码对应的分词,将编码转换为查找到的分词,并将转换后得到的分词存储到文本中,将预设长度的编码转换为文字达到文字译码的目的。
图5为本发明实施例提供的一种文字编码装置的结构示意图,与图1所示的方法相对应,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,图5所示装置可以包括:
第一获得模块501,用于获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
所述分词编码库是根据预设分词编制的,所以具有通用性。
所述文字可以为英文、中文、韩文或日文。
第一查找模块502,用于在所述分词编码库中找到根节点为当前分词首字的树;
确定模块503,用于在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
第二查找模块504,用于在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
第一编码模块505,用于第二查找模块504如果找到,则将该下一个字作为当前分词尾字,触发第二查找模块504;第二查找模块504如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,触发第一查找模块502,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
所述预设长度可以为3字节。
所述装置还可以包括:
第二编码模块,用于确定模块503如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,触发第一查找模块502。
本发明实施例提供的一种文字编码装置,可以在分词编码库中找到根节点为当前分词首字的树,在所述根节点的子节点中找到下一个字所在的节点,将该下一个字作为当前分词尾字,在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字,触发在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的模块;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的分词转换为预设长度的编码,将编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,触发找到根节点为当前分词首字的树的模块。本发明在分词编码库中查找待转换文本中的分词,并将查找到的分词转换为预设长度的编码,与将单个文字转化为预设长度的编码的方法相比,本发明将分词转换为预设长度的编码达到减少占用空间的目的。
图6为本发明实施例提供的一种文字译码装置的结构示意图,与图4所示的方法相对应,所述装置应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,图6所示装置可以包括:
第二获得模块601,用于获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
第三查找模块602,用于在所述分词译码库中查找所述当前编码对应的分词;
译码模块603,用于将所述当前编码转换为第三查找模块602查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,触发第三查找模块602,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
可见,本发明实施例提供的一种文字译码装置,可以获得编码文件中的当前编码,在所述分词译码库中查找所述当前编码对应的分词,将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,触发所述在所述分词译码库中查找所述当前编码对应的分词的模块。本发明在分词译码库中查找编码文件中的编码对应的分词,将编码转换为查找到的分词,并将转换后得到的分词存储到文本中,将预设长度的编码转换为文字达到文字译码的目的。
相应地,如图7所述,本发明实施例提供了一种电子设备,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述电子设备可以包括:
壳体(图中未示出)、处理器701、存储器702、电路板703和电源电路704,其中,电路板703安置在壳体围成的空间内部,处理器701和存储器702设置在电路板703上;电源电路704,用于为电子设备的各个电路或器件供电;存储器702用于存储可执行程序代码;处理器701通过读取存储器702中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
该电子设备可以为终端设备或与终端设备通信连接的服务器。
相应地,如图7所述,本发明实施例提供了一种电子设备,所述电子设备中存储有分词译码库,所述分词译码库是根据分词编码库设置的,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述电子设备可以包括:
壳体(图中未示出)、处理器701、存储器702、电路板703和电源电路704,其中,电路板703安置在壳体围成的空间内部,处理器701和存储器702设置在电路板703上;电源电路704,用于为电子设备的各个电路或器件供电;存储器702用于存储可执行程序代码;处理器701通过读取存储器702中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
获得编码文件中的当前编码,其中,所述编码文件为待转换文本根据所述分词编码库编码得到的文件,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
在本发明的另一实施例中提供了一种电子设备,所述电子设备中既存储有分词编码库又存储有分词译码库,且所述分词译码库是根据所述分词编码库设置的,所述电子设备既可以用于文字编码又可以用于文字译码。
相应地,本发明实施例还提供了一种存储介质,其中,该存储介质用于存储应用程序,所述应用程序用于在运行时执行本发明实施例所述的一种文字编码方法。其中,本发明实施例所述的一种文字编码方法,应用于电子设备,该方法可以包括:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
相应地,本发明实施例还提供了一种存储介质,其中,该存储介质用于存储应用程序,所述应用程序用于在运行时执行本发明实施例所述的一种文字译码方法。其中,本发明实施例所述的一种文字译码方法,应用于电子设备,该方法可以包括:
获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
相应地,本发明实施例还提供了一种应用程序,其中,该应用程序用于在运行时执行本发明实施例所述的一种文字编码方法。其中,本发明实施例所述的一种文字编码方法,应用于电子设备,该方法可以包括:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
相应地,本发明实施例还提供了一种应用程序,其中,该应用程序用于在运行时执行本发明实施例所述的一种文字译码方法。其中,本发明实施例所述的一种文字译码方法,应用于电子设备,该方法可以包括:
获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文字编码方法,其特征在于,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述方法包括:
获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
在所述分词编码库中找到根节点为当前分词首字的树;
在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤。
3.根据权利要求1所述的方法,其特征在于,所述预设长度为3字节。
4.根据权利要求1所述的方法,其特征在于,所述文字为英文、中文、韩文或日文。
5.一种文字译码方法,其特征在于,用于对权利要求1至4中任一项权利要求中的所述编码文件进行处理,所述方法应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述方法包括:
获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
在所述分词译码库中查找所述当前编码对应的分词;
将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
6.一种文字编码装置,其特征在于,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述装置包括:
第一获得模块,用于获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
第一查找模块,用于在所述分词编码库中找到根节点为当前分词首字的树;
确定模块,用于在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
第二查找模块,用于在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
第一编码模块,用于第二查找模块如果找到,则将该下一个字作为当前分词尾字,触发第二查找模块;第二查找模块如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,触发第一查找模块,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二编码模块,用于确定模块如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,触发第一查找模块。
8.根据权利要求6所述的装置,其特征在于,所述预设长度为3字节。
9.根据权利要求6所述的装置,其特征在于,所述文字为英文、中文、韩文或日文。
10.一种文字译码装置,其特征在于,用于对权利要求6至9中任一项权利要求中的所述编码文件进行处理,所述装置应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述装置包括:
第二获得模块,用于获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
第三查找模块,用于在所述分词译码库中查找所述当前编码对应的分词;
译码模块,用于将所述当前编码转换为第三查找模块查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,触发第三查找模块,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
CN201510890341.5A 2015-12-07 2015-12-07 文字编码和译码方法、装置及电子设备 Pending CN105528420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510890341.5A CN105528420A (zh) 2015-12-07 2015-12-07 文字编码和译码方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510890341.5A CN105528420A (zh) 2015-12-07 2015-12-07 文字编码和译码方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN105528420A true CN105528420A (zh) 2016-04-27

Family

ID=55770643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510890341.5A Pending CN105528420A (zh) 2015-12-07 2015-12-07 文字编码和译码方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN105528420A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153637A (zh) * 2017-05-16 2017-09-12 中国人民解放军重庆通信学院 应用于低速率应急通信的混合汉字编码方法
CN107682407A (zh) * 2017-09-11 2018-02-09 惠州Tcl移动通信有限公司 一种基于nfc传输多文件的方法、移动终端及存储介质
CN109918664A (zh) * 2019-03-05 2019-06-21 北京声智科技有限公司 分词方法和装置
CN110968990A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种表格解析方法及装置
CN111178065A (zh) * 2019-12-12 2020-05-19 中国建设银行股份有限公司 分词识别词库构建方法、中文分词方法和装置
CN111310450A (zh) * 2020-03-23 2020-06-19 中国建设银行股份有限公司 一种字符串分词方法、装置、设备及存储介质
CN113836866A (zh) * 2021-06-04 2021-12-24 腾讯科技(深圳)有限公司 文本编码方法、装置、计算机可读介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770478A (zh) * 2008-12-26 2010-07-07 高德信息技术有限公司 数据检索方法、数据检索引擎及嵌入式终端
US20120218130A1 (en) * 2009-11-13 2012-08-30 Universitaet Paderborn Indexing compressed data
CN102880703A (zh) * 2012-09-25 2013-01-16 广州市动景计算机科技有限公司 中文网页数据编码、解码方法及系统
CN103577548A (zh) * 2013-10-12 2014-02-12 优视科技有限公司 近音文字匹配方法及装置
CN104467868A (zh) * 2014-11-04 2015-03-25 深圳市元征科技股份有限公司 中文文本压缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770478A (zh) * 2008-12-26 2010-07-07 高德信息技术有限公司 数据检索方法、数据检索引擎及嵌入式终端
US20120218130A1 (en) * 2009-11-13 2012-08-30 Universitaet Paderborn Indexing compressed data
CN102880703A (zh) * 2012-09-25 2013-01-16 广州市动景计算机科技有限公司 中文网页数据编码、解码方法及系统
CN103577548A (zh) * 2013-10-12 2014-02-12 优视科技有限公司 近音文字匹配方法及装置
CN104467868A (zh) * 2014-11-04 2015-03-25 深圳市元征科技股份有限公司 中文文本压缩方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153637A (zh) * 2017-05-16 2017-09-12 中国人民解放军重庆通信学院 应用于低速率应急通信的混合汉字编码方法
CN107682407A (zh) * 2017-09-11 2018-02-09 惠州Tcl移动通信有限公司 一种基于nfc传输多文件的方法、移动终端及存储介质
CN110968990A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种表格解析方法及装置
CN110968990B (zh) * 2018-09-30 2024-02-13 北京国双科技有限公司 一种表格解析方法及装置
CN109918664A (zh) * 2019-03-05 2019-06-21 北京声智科技有限公司 分词方法和装置
CN109918664B (zh) * 2019-03-05 2023-04-18 北京声智科技有限公司 分词方法和装置
CN111178065A (zh) * 2019-12-12 2020-05-19 中国建设银行股份有限公司 分词识别词库构建方法、中文分词方法和装置
CN111178065B (zh) * 2019-12-12 2023-06-27 建信金融科技有限责任公司 分词识别词库构建方法、中文分词方法和装置
CN111310450A (zh) * 2020-03-23 2020-06-19 中国建设银行股份有限公司 一种字符串分词方法、装置、设备及存储介质
CN111310450B (zh) * 2020-03-23 2023-07-14 中国建设银行股份有限公司 一种字符串分词方法、装置、设备及存储介质
CN113836866A (zh) * 2021-06-04 2021-12-24 腾讯科技(深圳)有限公司 文本编码方法、装置、计算机可读介质及电子设备
CN113836866B (zh) * 2021-06-04 2024-05-24 腾讯科技(深圳)有限公司 文本编码方法、装置、计算机可读介质及电子设备

Similar Documents

Publication Publication Date Title
CN105528420A (zh) 文字编码和译码方法、装置及电子设备
CN104753540B (zh) 数据压缩方法、数据解压方法和装置
CN111008230B (zh) 数据存储方法、装置、计算机设备及存储介质
JP2005525625A (ja) データ構造によるコンピュータ表現及びそれに関連する符号化/復号化方法
CN103401561A (zh) 用于地图数据的压缩和解压缩的方法及装置
CN105677686A (zh) 一种道路编码方法及装置
CN102880703B (zh) 中文网页数据编码、解码方法及系统
Gasieniec et al. Real-Time Traversal in Grammar-Based Compressed Files.
CN104899214B (zh) 一种建立输入建议的数据处理方法和系统
US7366984B2 (en) Phonetic searching using multiple readings
CN114490853A (zh) 数据处理方法、装置、设备、存储介质及程序产品
US20190379393A1 (en) Dynamic dictionary-based data symbol encoding
CN103078646B (zh) 字典查询压缩、解压缩方法及其装置
CN105391514A (zh) 字符编码解码方法及装置
CN114567331A (zh) 一种基于lz77的压缩方法、装置及其介质
CN110473551B (zh) 一种语音识别方法、装置、电子设备及存储介质
US11741121B2 (en) Computerized data compression and analysis using potentially non-adjacent pairs
CN108829872A (zh) 无损压缩文件的快速处理方法、设备、系统及存储介质
US7167115B1 (en) Method, apparatus, and computer-readable medium for data compression and decompression utilizing multiple dictionaries
CN105653506A (zh) 一种基于字符编码转换的gpu内文本处理的方法及装置
Watanabe et al. A succinct n-gram language model
US11397712B2 (en) Rapid and robust predicate evaluation
CN114880523A (zh) 字符串处理方法、装置、电子设备及存储介质
CN104184545A (zh) 一种传输数据的方法及解码端、编码端
CN102708191A (zh) 一种节省内存的字库编码和解码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160427