CN106354746A - 搜索方法和搜索设备 - Google Patents

搜索方法和搜索设备 Download PDF

Info

Publication number
CN106354746A
CN106354746A CN201610546697.1A CN201610546697A CN106354746A CN 106354746 A CN106354746 A CN 106354746A CN 201610546697 A CN201610546697 A CN 201610546697A CN 106354746 A CN106354746 A CN 106354746A
Authority
CN
China
Prior art keywords
data
search
code
coded format
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610546697.1A
Other languages
English (en)
Other versions
CN106354746B (zh
Inventor
片冈正弘
山田树
山田树一
上田晴康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN106354746A publication Critical patent/CN106354746A/zh
Application granted granted Critical
Publication of CN106354746B publication Critical patent/CN106354746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了搜索方法和搜索设备。搜索设备(100)根据第一编码规则将搜索数据转换成具有第一编码格式的编码搜索数据。搜索设备(100)在已通过第一编码规则被编码成第一编码格式或者已被编码成第二编码格式的目标编码数据中搜索编码搜索数据.当在搜索时检测到被编码成第二编码格式的特定编码数据时,搜索设备(100)将编码搜索数据与经转换的编码数据进行比较,该经转换的编码数据是基于预定转换规则而被转换成第一编码格式的特定编码数据。

Description

搜索方法和搜索设备
技术领域
本文所论述的实施例涉及搜索方法等。
背景技术
传统上,当在文本数据中搜索字符串时,将文本数据与字符串进行比较以确定文本数据是否包括与该字符串匹配的字符串。当文本数据是压缩数据时,例如,文本数据和字符串并不相互对应,因此,在对压缩数据进行解压缩之后与该字符串进行比较。
还存在通过编码方案对文本数据和字符串进行编码以提高压缩率的情况。当基于相同的编码方案对文本数据和字符串进行编码时,可以直接对文本数据和字符串进行比较而不进行解码(日本公开专利公布第7-287716号和第11-143877号)。
然而,在上述传统技术中,尽管在特定字符或字被分配给不同编码方案的情况下可以提高压缩率,但是无法高速地处理编码方案中的比较。
通常,在对文本数据进行编码时所使用的字符编码方案可以具有冗余结构,并且可以将字符或字分配给与在预定字符编码方案中定义的码不同的码。例如,可以将一百万个字分配给三字节码。为了进一步提高压缩率,可以将以高频率出现的一些字和字符转换成一字节码或两字节码,而不是三字节码。
当如上所述那样将以高频率出现的一些字或字符转换成一字节码或两字节码时,例如,无法在不进行处理的情况下将包括被混合在其中的一字节码、两字节码和三字节码的文本数据与其中搜索字符串被编码成三字节码的文本数据进行比较,从而妨碍了实现高速处理。
因此,本发明的实施例的一个方面的目的是提供实现了在编码系统中以字节为单位高速地处理的搜索的搜索方法和搜索设备。
发明内容
根据实施例的一方面,一种搜索方法包括:根据第一编码规则将搜索数据转换成具有第一编码格式的编码搜索数据;以及在已通过第一编码规则被编码成第一编码格式或者已被编码成第二编码格式的目标编码数据中搜索编码搜索数据,其中,当在搜索时检测到被编码成第二编码格式的特定编码数据时,所述搜索将编码搜索数据与经转换的编码数据进行比较,该经转换的编码数据是基于预定转换规则而被转换成第一编码格式的特定编码数据。
附图说明
图1示出了由根据本实施例的搜索设备执行的处理的一个示例;
图2是示出了根据本实施例的搜索设备的配置的功能框图;
图3是示出了搜索处理单元的配置的功能框图(1);
图4是示出了搜索处理单元的配置的功能框图(2);
图5示出了码转换表的数据结构的一个示例;
图6是根据本实施例的搜索处理单元的处理过程的流程图;
图7示出了计算机的硬件配置示例;
图8示出了在计算机上运行的程序的配置示例;以及
图9示出了实施例的系统中的设备的配置示例。
具体实施方式
将参照附图来说明本发明的优选实施例。
图1示出了由根据本实施例的搜索设备执行的处理的一个示例。例如,在由搜索设备处理的文本数据中,以高频率出现的一些字符和字被转换成两字节码而不是三字节码。因此,在文本数据中,三字节码和两字节码被混合。
因此,例如,当包括在搜索对象的字符串中的每个搜索字的码是三字节码并且作为目标的每个字的码是两字节时,在传统技术中,不能直接比较各个码并且不能高速地执行比较处理。为了解决该问题,根据本实施例的搜索设备执行以下处理。在下面的说明中,将与包括在搜索字符串中的具有空格的字对应的码表示为搜索字码。此外,将与包括在文本数据中的具有空格的字对应的码表示为目标字码。
在图1中,作为一个示例,三字节搜索字码是“90023Fh”。该搜索字码“90023Fh”对应于字“ableΔ”。“Δ”对应于空格。
此外,包括在要作为搜索对象的文本数据中的两字节目标字码是“0701h”。该目标字码“0701h”对应于字“ableΔ”。由于搜索字码是三字节码并且目标字码是两字节码,因此搜索设备无法将搜索字码与目标字码按原样进行比较。
搜索设备将搜索字码和目标字码输入到搜索自动化装置(search automaton)50。在接收到两字节目标字码时,搜索自动化装置50将目标字码与码转换表60进行比较,并且将两字节目标字码转换成三字节目标字码。码转换表60将两字节码与三字节码关联。在图1所示的示例中,搜索自动化装置50将两字节目标字码“0701h”转换成三字节目标字码“90023Fh”。
搜索自动化装置50将三字节搜索字码与三字节目标字码进行比较,并且确定字码是否匹配。当搜索字码与目标字码匹配时,例如,搜索自动化装置50输出搜索结果(匹配检查结果)“0”。另一方面,当搜索字码与目标字码不匹配时,搜索自动化装置50输出搜索结果“-1”。在图1所示的示例中,由于搜索字码“90023Fh”与目标字码“90023Fh”匹配,所以搜索自动化装置50输出搜索结果“0”。
如图1所示,当将包括被混合在其中的两字节码和三字节码的文本数据与要作为搜索对象的三字节码时进行比较时,根据本实施例的搜索设备将两字节码转换成三字节码,然后执行比较。通过搜索设备执行这样的处理,可以高速地处理编码系统中的搜索。
图2是示出根据本实施例的搜索设备的配置的功能框图。如图2所示,例如,搜索设备100包括接受单元110、搜索处理单元120以及输出单元130。
接受单元110是接受文本数据和经受搜索的字符串数据的处理单元。在下面的说明中,将经受搜索的字符串恰当地表示为搜索字符串。接受单元110将接受的文本数据和搜索字符串输出到搜索处理单元120。
当接受单元110接受尚未被编码的文本数据时,接受单元110可以执行基于预定编码规则将包括在文本数据中的每个字转换成三字节码的处理。此外,接受单元110可以执行基于预定编码规则将尚未被编码的数据转换成两字节目标字码的处理。
搜索处理单元120是基于文本数据和搜索字符串数据来执行图1中说明的搜索处理(匹配检查处理)的处理单元。例如,搜索处理单元120将两字节目标字码转换成三字节目标字码,然后通过比较搜索字码和目标字码来执行搜索处理。
输出单元130是输出由搜索处理单元120获得的搜索结果的处理单元。例如,输出单元130输出指示文本数据是否包括搜索字符串、文本数据中存在的搜索字符串的位置等的信息。
图3和图4是示出搜索处理单元的配置的功能框图。如图3所示,该搜索处理单元120包括搜索自动化装置50、搜索结果寄存器71以及匹配指针(matching pointer)72。搜索自动化装置50包括搜索寄存器51、52、目标寄存器53、54、码转换单元55a、55b、比较单元56、获取指针(fetch pointer)57以及码转换表60。
搜索寄存器51是存储三字节搜索字码的存储单元。搜索自动化装置50从接受单元110获得搜索字符串的搜索字码,并且将其存储在搜索寄存器51中。
搜索寄存器52是存储三字节搜索字码的存储单元。搜索寄存器52通过码转换单元55a获得存储在搜索寄存器51中的搜索字码,并且存储所获得的搜索字码。
目标寄存器53是存储两字节或三字节目标字码的存储单元。搜索自动化装置50从接受单元110获得文本数据的目标字码,并且将所获得的目标字码存储在目标寄存器53中。搜索自动化装置50从文本数据中获得在由获取指针57指示的位置处的目标字码,并且将该码存储在目标寄存器53中。随后描述关于获取指针57的说明。
目标寄存器54是存储三字节目标字码的存储单元。目标寄存器54通过码转换单元55b获得三字节目标字码,并且存储所获得的目标字码。
码转换单元55a是获得存储在搜索寄存器51中的搜索字码并且将所获得的搜索字码输出到搜索寄存器52的处理单元。
码转换单元55b是获得存储在目标寄存器53中的三字节或两字节目标字码并且将经受码转换的目标字码输出到目标寄存器54的处理单元。在下文中,对在码转换单元55b获得三字节目标字码时的处理以及在码转换单元55b获得两字节目标字码时的处理进行说明。
当获得三字节目标字码时,码转换单元55b将目标字码按原样输出到目标寄存器54,而不使目标字码经受码转换。
当获得两字节目标字码时,码转换单元55b对码转换表60与两字节目标字码进行比较,并且将两字节目标字码转换成三字节目标字码。码转换单元55b将三字节目标字码输出到目标寄存器54。
图5示出了码转换表的数据结构的一个示例。如图5所示,该码转换表60将字、两字节码以及三字节码相关联。在图5所示的示例中,与字“aΔ”对应的两字节码是“0700h”。此外,与字“aΔ”对应的三字节码是“900000h”。
码转换单元55b将码转换表60中的两字节码的列与目标字码进行比较以检索命中记录,并且将目标字码转换成检索到的记录的三字节码。
假定目标字码例如是“0701h”,对由码转换单元55b执行的处理进行说明。当码转换单元55b将目标字码“0701h”与码转换表60的两字节码的列进行比较时,字“ableΔ”的记录被命中。与字“ableΔ”的记录对应的三字节码是“90023Fh”。因此,码转换单元55b将两字节目标字码“0701h”转换成三字节目标字码“90023Fh”。
说明返回至图3。比较单元56是如下处理单元:其将存储在搜索寄存器52中的三字节搜索字码与存储在目标寄存器54中的三字节目标字码进行比较并且将比较结果输出到搜索结果寄存器71。
例如,当存储在搜索寄存器52中的三字节搜索字码与存储在目标寄存器54中的三字节目标字码匹配时,比较单元56将搜索结果“0”输出到搜索结果寄存器71。另一方面,当存储在搜索寄存器52中的三字节搜索字码与存储在目标寄存器54中的三字节目标字码不匹配时,比较单元56将搜索结果“-1”输出到搜索结果寄存器71。
获取指针57是保存包括在文本数据中的各个目标字码之中的、要存储在目标寄存器53中的目标字码的位置信息的存储单元。获取指针57的初始值例如是包括在文本数据中的各个目标字码当中的在最前面处的目标字码的位置信息。每当比较单元56的比较完成时,搜索自动化装置50将获取指针的位置信息更新为文本数据中的下一目标字码的位置。
搜索结果寄存器71是从比较单元56获得搜索结果并且存储所获得的搜索结果的存储单元。
匹配指针72是保存文本数据中的与搜索字码匹配的目标字码的位置信息的存储单元。例如,当搜索结果“0”存储在目标寄存器中时,搜索处理单元120在匹配指针72中存储在获取指针57中所存储的位置信息。
接下来,对由搜索自动化装置50执行的处理的一个示例进行说明。首先,对当三字节搜索字码“90041Ah(aboutΔ)”存储在搜索寄存器51中时的处理以及当两字节目标字码“0701h(ableΔ)”存储在目标寄存器53中时的处理进行说明。如图3所示,假定获取指针57中的位置信息指示目标字码“0701h(ableΔ)”的位置。
码转换单元55a将已存储在搜索寄存器51中的三字节搜索字码“90041Ah(aboutΔ)”存储在搜索寄存器52中。
码转换单元55b获得存储在目标寄存器53中的两字节目标字码“0701h”,并且参考码转换表60来将该码转换成三字节目标字码“90023Fh”。码转换单元55b将三字节目标字码“90023Fh”存储在目标寄存器54中。
比较单元56将存储在搜索寄存器52中的三字节搜索字码“90041Ah”与存储在目标寄存器54中的三字节目标字码“90023Fh”进行比较。由于搜索字码“90041Ah”与目标字码“90023Fh”不匹配,所以比较单元56将搜索结果“-1”输出到搜索结果寄存器71。
随后,使用图4来说明当三字节搜索字码“90041Ah(aboutΔ)”存储在搜索寄存器51中并且两字节目标字码“0702h(aboutΔ)”存储在目标寄存器53中时的处理。如图4所示,假定获取指针57的位置信息指示目标字码“0702h(aboutΔ)”。
码转换单元55a将已存储在搜索寄存器51中的三字节搜索字码“90041Ah(aboutΔ)”存储在搜索寄存器52中。
码转换单元55b获得存储在目标寄存器53中的两字节目标字码“0702h”,并且参考码转换表60来将该码转换成三字节目标字码“90041Ah”。码转换单元55b将三字节目标字码“90041Ah”存储在目标寄存器54中。
比较单元56将存储在搜索寄存器52中的三字节搜索字码“90041Ah”与存储在目标寄存器54中的三字节目标字码“90041Ah”进行比较。由于搜索字码“90041Ah”与目标字码“90041Ah”匹配,所以比较单元56将搜索结果“0”输出到搜索结果寄存器71。当搜索结果“0”存储在搜索结果寄存器71中时,搜索处理单元120在匹配指针72中存储在获取指针57中所存储的位置信息。
搜索处理单元120将包括在搜索字符串中的搜索字码存储在搜索寄存器51中,并且重复上述处理,从而确定搜索字符串是否包括在文本数据中。搜索处理单元120将搜索结果输出至输出单元130。搜索结果例如包括指示是否包括搜索字符串的信息以及文本数据中包括搜索字符串的位置信息。
图6是根据本实施例的搜索处理单元的处理过程的流程图。如图6所示,搜索处理单元120将搜索字符串中的搜索字码存储在搜索寄存器51中(步骤S101)。之后,将在步骤S101中存储在搜索寄存器51中的搜索字码存储在搜索寄存器52中。
搜索处理单元120将由获取指针指示的目标字码存储在目标寄存器53中(步骤S102)。搜索处理单元120的码转换单元55b确定存储在目标寄存器53中的目标字码是否是两字节码(步骤S103)。
当存储在目标寄存器53中的目标字码是三字节码时(步骤S103:否),码转换单元55b将目标寄存器53中的三字节目标字码存储在目标寄存器54中(步骤S104)。然后,搜索处理单元120转到步骤S106。
另一方面,当存储在目标寄存器53中的目标字码是两字节码时(步骤S103:是),码转换单元55b执行下面的处理。码转换单元55b基于码转换表60将两字节目标字码转换成三字节目标字码,并且将该码存储在目标寄存器54中(步骤S105)。
搜索处理单元120的比较单元56将存储在搜索寄存器52中的搜索字码与存储在目标寄存器54中的目标字码进行比较(步骤S106)。搜索处理单元120将搜索结果存储在搜索结果寄存器71中(步骤S107)。当在步骤S107中将搜索结果“0”存储在搜索寄存器71中时,搜索处理单元120将存储在获取指针57中的位置信息存储在匹配指针72中。
接下来,对根据本实施例的搜索设备100的效果进行说明。当将包括混合在其中的两字节目标字码和三字节目标字码的文本数据与三字节搜索字码进行比较时,搜索设备100将两字节目标字码转换成三字节码,然后执行比较。搜索设备100执行如所述的处理,从而使得即使在编码系统中针对包括混合在其中的两字节码和三字节码的、具有提高的压缩率的文本数据来执行搜索时仍能够高速地进行搜索。
尽管在作为一个示例的本实施例中已将目标字码说明为两字节码,但是目标字码并不限于此,而可以是一字节码。在这种情况下,搜索处理单元120将目标字码与码转换表60进行比较以将一字节目标字码转换成三字节目标字码,然后将搜索字码与目标字码进行比较。
在下文中,对本实施例中使用的硬件和软件进行说明。图7示出了计算机1的硬件配置示例。计算机1例如包括处理器301、随机存取存储器(RAM)302、只读存储器(ROM)303、驱动单元304、存储介质305、输入接口(I/F)306、输入设备307、输出I/F 308、输出设备309、通信I/F 310、存储区域网络(SAN)I/F 311、总线312等。各个硬件部件通过总线312相连接。
RAM 302是可读写存储器设备,并且还使用诸如静态RAM(SRAM)和动态RAM(DRAM)的半导体存储器或者闪速存储器,尽管闪速存储器并非RAM。ROM 303包括可编程ROM(PROM)等。驱动单元304是执行对记录在存储介质305中的信息的读取或写入中的至少一种的设备。存储介质305存储由驱动单元304写入的信息。存储介质305例如是硬盘、闪速存储器(诸如固态驱动器(SSD))、或者诸如光盘(CD)、数字多功能盘(DVD)以及蓝光盘的存储介质。此外,例如,计算机1为驱动单元304和存储介质305提供各种存储介质中的每种存储介质。
输入I/F 306是连接至输入设备307并且向处理器301传送从输入设备307接收到的输入信号的电路。输出I/F 308是连接至输出设备309并且使得输出设备309根据处理器301的指令来执行输出的电路。通信I/F310是通过网络3控制通信的电路。通信I/F 310例如是网络接口卡(NIC)等。SAN I/F 311是通过存储区域网络来控制与连接至计算机1的存储设备的通信的电路。SAN I/F 311例如是主机总线适配器(HBA)等。
输入设备307是根据操作来传送输入信号的设备。输入设备307例如是:按键设备,诸如键盘和布置在计算机1的主要单元上的按钮;以及指向设备,诸如鼠标和触摸面板。输出设备309是根据计算机1的控制来输出信息的设备。输出设备309例如是诸如显示器的图像输出设备(显示设备)、诸如扬声器的音频输出设备等。此外,诸如触摸屏的输入/输出设备被用作输入设备307和输出设备309。此外,可以将输入设备307和输出设备309与计算机1一起集成在一个单元中、或者例如作为从外部连接至计算机1的设备而与计算机1分离。
例如,处理器301读取存储在ROM 303或存储介质305中的程序,并且根据读取的程序的过程来执行接受单元110、搜索处理单元120以及输出单元130的处理。此时,RAM 302被用作处理器301的工作区域。存储单元的功能通过以下操作来实现:ROM 303和存储介质305存储程序文件(稍后描述的应用程序24、中间件23、操作系统(OS)22等)和数据文件(文本数据、要搜索的字符串),以及RAM 302用作处理器301的工作区域。使用图8来说明由处理器301读取的程序。
图8示出了在计算机1上运行的程序的配置示例。图8中所示的对硬件组21(301至312)进行控制的OS 22在计算机1上运行。处理器301以根据OS 22的过程来进行操作以对硬件组21进行控制和管理,从而在硬件组21中根据应用程序24或中间件23执行处理。此外,在计算机1中,中间件23或应用程序24由处理器301读出到RAM 302并执行。
当调用搜索功能时,处理器301基于中间件23或应用程序24的至少一部分来执行处理,从而(通过基于OS 22来控制硬件组21以进行处理)实现搜索处理单元120的功能。搜索功能可包括在应用程序24本身中,或者可以是根据应用程序24来执行、调用的中间件23的一部分。
图9示出了实施例的系统中的设备的配置示例。图9中的系统包括计算机1a、计算机1b、基站2以及网络3。计算机1a通过无线连接和有线连接中的至少一个而连接至与计算机1b连接的网络3。图2中所示的搜索设备100的功能可以包括在计算机1a和计算机1b中的任一个。
可以在编码系统中高速地执行搜索。

Claims (8)

1.一种由计算机执行的搜索方法,所述方法包括:
根据第一编码规则将搜索数据转换成具有第一编码格式的编码搜索数据;以及
在已通过所述第一编码规则被编码成所述第一编码格式或者已被编码成第二编码格式的目标编码数据中搜索所述编码搜索数据,其中,
当在所述搜索时检测到被编码成所述第二编码格式的特定编码数据时,所述搜索将编码搜索数据与经转换的编码数据进行比较,所述经转换的编码数据是基于预定转换规则而被转换成所述第一编码格式的所述特定编码数据。
2.根据权利要求1所述的搜索方法,其中,
具有所述第一编码格式的所述编码搜索数据是三字节码,并且要编码成所述第二编码格式的数据是两字节码和一字节码中的任一个。
3.根据权利要求1所述的搜索方法,其中,
具有所述第一编码格式的所述编码搜索数据和要编码成所述第二编码格式的数据与字符串和具有空格的预定字中的任一个相关联。
4.根据权利要求1所述的搜索方法,还包括:
将原始数据转换成具有所述第二编码格式的两字节编码数据;
当在所述搜索时检测到所述两字节编码数据时,基于所述预定转换规则将所述两字节编码数据转换成具有所述第一编码格式的三字节编码数据,以与所述编码搜索数据进行比较;以及
将具有所述第一编码格式的所述三字节编码数据与所述编码搜索数据进行比较。
5.一种搜索设备,包括:
接受单元(110),根据第一编码规则将搜索数据转换成具有第一编码格式的编码搜索数据;以及
搜索处理单元(120),在已通过所述第一编码规则被编码成所述第一编码格式或者已被编码成第二编码格式的目标编码数据中搜索所述编码搜索数据,其中,当检测到被编码成所述第二编码格式的特定编码数据时,所述搜索处理单元(120)将所述编码搜索数据与经转换的编码数据进行比较,所述经转换的编码数据是基于预定转换规则而被转换成所述第一编码格式的所述特定编码数据。
6.根据权利要求5所述的搜索设备,其中,
具有所述第一编码格式的所述编码搜索数据是三字节码,并且要编码成所述第二编码格式的数据是两字节码和一字节码中的任一个。
7.根据权利要求5所述的搜索设备,其中,
具有所述第一编码格式的所述编码搜索数据和要编码成所述第二编码格式的数据与字符串和具有空格的预定字中的任一个相关联。
8.根据权利要求5所述的搜索设备,其中,
所述接受单元(110)将原始数据转换成具有所述第二编码格式的两字节编码数据;以及
当在所述搜索时检测到所述两字节编码数据时,所述搜索处理单元(120)基于所述预定转换规则将所述两字节编码数据转换成具有所述第一编码格式的三字节编码数据,并且将具有所述第一编码格式的所述三字节编码数据与所述编码搜索数据进行比较。
CN201610546697.1A 2015-07-13 2016-07-12 搜索方法和搜索设备 Active CN106354746B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015139997A JP6648431B2 (ja) 2015-07-13 2015-07-13 照合プログラム、照合方法および照合装置
JP2015-139997 2015-07-13

Publications (2)

Publication Number Publication Date
CN106354746A true CN106354746A (zh) 2017-01-25
CN106354746B CN106354746B (zh) 2020-07-07

Family

ID=56148261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610546697.1A Active CN106354746B (zh) 2015-07-13 2016-07-12 搜索方法和搜索设备

Country Status (4)

Country Link
US (1) US10664491B2 (zh)
EP (1) EP3118755A1 (zh)
JP (1) JP6648431B2 (zh)
CN (1) CN106354746B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002423A (zh) * 2017-06-06 2018-12-14 北大方正集团有限公司 文本搜索方法及装置
CN113535710A (zh) * 2020-04-22 2021-10-22 中山大学 一种搜索方法、装置、终端设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395231B2 (en) 2016-06-27 2019-08-27 Altria Client Services Llc Methods, systems, apparatuses, and non-transitory computer readable media for validating encoded information
JP6737117B2 (ja) * 2016-10-07 2020-08-05 富士通株式会社 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
US11438314B2 (en) * 2021-02-10 2022-09-06 Yahoo Assets Llc Automatic privacy-aware machine learning method and apparatus

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502064B1 (en) * 1997-10-22 2002-12-31 International Business Machines Corporation Compression method, method for compressing entry word index data for a dictionary, and machine translation system
US20030206519A1 (en) * 2002-05-03 2003-11-06 Michael Sanders System and method for encoding and decoding messages
CN1492358A (zh) * 2002-10-24 2004-04-28 国际商业机器公司 数据定位及数据转换方法及设备
CN1774931A (zh) * 2003-04-17 2006-05-17 皇家飞利浦电子股份有限公司 对编码视频数据的内容分析
CN1918634A (zh) * 2004-02-16 2007-02-21 皇家飞利浦电子股份有限公司 代码转换器以及用于其的代码转换方法
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN102662935A (zh) * 2012-04-08 2012-09-12 北京语智云帆科技有限公司 一种交互式的机器翻译方法和机器翻译系统
WO2013175707A1 (ja) * 2012-05-23 2013-11-28 株式会社デンソー 情報検索システム、中継サーバ、データ形式変換のためのコンピュータ読み取り媒体、及び、移動端末
CN105574037A (zh) * 2014-10-16 2016-05-11 腾讯科技(深圳)有限公司 一种信息处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287716A (ja) 1994-02-22 1995-10-31 Ricoh Co Ltd 辞書検索装置
JPH1185459A (ja) 1997-09-01 1999-03-30 Denso Corp 文字データ符号化方法および記録媒体
US7779391B2 (en) * 2006-09-05 2010-08-17 International Business Machines Corporation Method of employing instructions to convert UTF characters with an enhanced extended translation facility

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502064B1 (en) * 1997-10-22 2002-12-31 International Business Machines Corporation Compression method, method for compressing entry word index data for a dictionary, and machine translation system
US20030206519A1 (en) * 2002-05-03 2003-11-06 Michael Sanders System and method for encoding and decoding messages
CN1492358A (zh) * 2002-10-24 2004-04-28 国际商业机器公司 数据定位及数据转换方法及设备
CN1774931A (zh) * 2003-04-17 2006-05-17 皇家飞利浦电子股份有限公司 对编码视频数据的内容分析
CN1918634A (zh) * 2004-02-16 2007-02-21 皇家飞利浦电子股份有限公司 代码转换器以及用于其的代码转换方法
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN102662935A (zh) * 2012-04-08 2012-09-12 北京语智云帆科技有限公司 一种交互式的机器翻译方法和机器翻译系统
WO2013175707A1 (ja) * 2012-05-23 2013-11-28 株式会社デンソー 情報検索システム、中継サーバ、データ形式変換のためのコンピュータ読み取り媒体、及び、移動端末
CN105574037A (zh) * 2014-10-16 2016-05-11 腾讯科技(深圳)有限公司 一种信息处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002423A (zh) * 2017-06-06 2018-12-14 北大方正集团有限公司 文本搜索方法及装置
CN113535710A (zh) * 2020-04-22 2021-10-22 中山大学 一种搜索方法、装置、终端设备及存储介质
CN113535710B (zh) * 2020-04-22 2023-12-15 中山大学 一种搜索方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
JP6648431B2 (ja) 2020-02-14
CN106354746B (zh) 2020-07-07
JP2017021661A (ja) 2017-01-26
EP3118755A1 (en) 2017-01-18
US20170017707A1 (en) 2017-01-19
US10664491B2 (en) 2020-05-26

Similar Documents

Publication Publication Date Title
CN106354746A (zh) 搜索方法和搜索设备
US20160063050A1 (en) Database Migration Consistency Checker
CN111090641B (zh) 数据处理方法及装置、电子设备、存储介质
CN108388640B (zh) 一种数据转换方法、装置以及数据处理系统
TW200917671A (en) Data compression/decompression apparatus and method
CN105808513A (zh) 转换装置和转换方法
US11163560B1 (en) Methods and arrangements to process comments
US20140095523A1 (en) Apparatus and method for converting vo
US11741735B2 (en) Automatically attaching optical character recognition data to images
CN110807194A (zh) 一种webshell检测方法及装置
US20150120682A1 (en) Automated recognition of patterns in a log file having unknown grammar
EP3236368A1 (en) Encoding processing program, encoding processing device, encoding processing method, decoding processing program, decoding processing device, and decoding processing method
CN105279171A (zh) 在压缩的可变长度字符串上进行谓词评估的方法和设备
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN113553309A (zh) 一种日志模板的确定方法、装置、电子设备及存储介质
JP7122835B2 (ja) 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
US10942934B2 (en) Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus
EP3385860A1 (en) Compression of text using multiple dynamic dictionaries
US20150055868A1 (en) Character data processing method, information processing method, and information processing apparatus
US20090083267A1 (en) Method and System for Compressing Data
US20160210304A1 (en) Computer-readable recording medium, information processing apparatus, and conversion process method
CN109545279B (zh) 染色体微阵列数据的分析方法、装置、设备及存储介质
CN111061528B (zh) 一种基于32bit数据位的简化编码方法
JP5971069B2 (ja) 情報処理装置、タイトル抽出方法及びプログラム
US12124844B2 (en) Methods and arrangements to process comments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant