CN101246478B - 信息存储及检索方法 - Google Patents

信息存储及检索方法 Download PDF

Info

Publication number
CN101246478B
CN101246478B CN2007100798327A CN200710079832A CN101246478B CN 101246478 B CN101246478 B CN 101246478B CN 2007100798327 A CN2007100798327 A CN 2007100798327A CN 200710079832 A CN200710079832 A CN 200710079832A CN 101246478 B CN101246478 B CN 101246478B
Authority
CN
China
Prior art keywords
word
chinese
chinese data
data
index file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100798327A
Other languages
English (en)
Other versions
CN101246478A (zh
Inventor
姜德荣
董振宁
吴跃进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN2007100798327A priority Critical patent/CN101246478B/zh
Publication of CN101246478A publication Critical patent/CN101246478A/zh
Application granted granted Critical
Publication of CN101246478B publication Critical patent/CN101246478B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种信息存储及检索方法包括将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内;将标识及位置信息存入中文数据基本信息二级索引文件内;将所述单词所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内;将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。本发明还公开一种信息检索方法包括接收检索字母;中文数据基本信息索引文件、中文数据基本信息二级索引文件、单词拼音索引文件以及单词拼音二级索引文件之间的对应关系获得结果。采用本发明信息存储及检索方法能够快速、准确地定位查询目标而且能够实现跨词检索的功能。

Description

信息存储及检索方法
技术领域
本发明涉及中文信息的存储及检索领域,尤指一种信息存储及检索方法。
背景技术
随着信息化时代的到来和发展步伐的不断加快,中文信息检索技术也已逐步渗透到人们的日常生活、工作和学习中,对中文信息检索技术的检索性能和质量也提出了更高的要求。所述中文信息检索指在由中文数据构成的文档集内查询或者检索符合查询条件的文档对象。
20世纪80年代中期以后,由于计算机处理能力的大大提高和使用的逐步普及,中文信息检索技术的研究进入一个快速发展的黄金期,各种中文信息索引方法、检索算法以及实用化系统不断涌现,各种基于中文信息检索技术的商用产品也纷纷出现。如,文本检索技术,改进和应用了当前较为流行的三种信息信息检索模型:布尔模型、概率模型和向量空间模型。TRS(拓尔思),从1994年开始就推出文本检索系统TRS 1.0,经过多年的研究与改进,如今已经发展到第四代产品(基于自然语言处理的知识检索)。
在上世纪80年代中叶,少数研究人员开始研究中文信息检索技术的另一分支--拼音检索;同时,随着PDA、手机、触摸屏等移动终端的广泛应用,且这些设备也不便于用户快速输入信息,为此“汉字拼音首字母检索法”也就应运而生。2001年,拼音首字母检索法首先出现于期刊上],经过几年的研究与发展,不断提出了各种拼音检索法:形序排检法、音序排检法、主题或分类排检法、时序或地序排检法等。
上述各种拼音检索法,都可保证“输入尽可能少的信息即可查询到中文信息”的能力,但在中文数据信息数据量比较庞大的情况下,就会出现“返回符合检索条件的中文数据信息过多,而往往不是用户真实需要的,无法保证快速、准确的给用户返回目标结果”。
发明内容
本发明要解决的问题是提供一种能够快速准确地返回目标结果的基于中文语义的信息存储及检索方法。
为了解决上述问题,本发明基于中文语义的信息存储方法的技术方案包括:
对中文数据进行分词处理以获得若干单词;
获取每个单词内所有汉字的汉字码;
在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音字符串;
从汉语拼音字符串中抽析出每个拼音的首字母;
将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件作为一条中文数据记录;
在中文数据基本信息二级索引文件中,通过中文数据标识与该中文数据标识所代表的中文数据在中文数据基本信息索引文件中的位置的一一对应关系,在中文数据基本信息二级索引文件中存放中文数据在中文数据基本信息索引文件中的偏移量;
将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;
将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。
相应地,本发明基于中文语义的信息检索方法的技术方案包括:
A1)接收检索字母;
A2)判断所述检索字母是否是第一个字母,执行步骤A3),否则执行A7);
A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的起始偏移位置和终止偏移位置;
A4)在所述单词拼音索引内从所述起始偏移位置处开始获取所有以所述检索字母为开头的单词所属的中文数据标识以及所述单词在所属的中文数据内的位置,直到获取到所述终止偏移位置在所述单词拼音索引内对应的位置,进入步骤A5);
A5)根据所述中文数据标识从中文数据二级索引文件内获得其对应的中文数据记录在中文数据索引文件内的位置;
A6)根据中文数据记录在中文数据索引内的位置取出所述中文数据记录,并与所述中文数据标识以及单词在中文数据内的位置共同构成记录结果集,执行步骤A1);
A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较,将不包含所述检索字母的记录从所述记录结果集中删除,执行步骤A1)。
步骤A4)具体包括步骤:
A41)判断起始偏移位置是否小于终止偏移位置,若是执行步骤A42);否则执行步骤A5);
A42)从所述起始偏移位置在单词拼音索引内对应的位置处取出中文数据标识以及所述单词在所属的中文数据内的位置;
A43)修改所述起始偏移位置使其指向所述单词拼音索引内的下一条记录,执行步骤A41)。
与现有技术相比,本发明信息存储及检索方法的有益效果为:
由于是以中文数据及其所分得的若干单词的拼音首字母为基础的,通过中文数据及其所分得的若干单词的拼音首字母的对应关系,使得用户输入拼音首字母这样的检索字,就能够在海量的中文数据集内快速、准确定位和查询中文数据的功能。
由于是利用中文分词技术对中文数据进行分词处理以获取若干单词,且每个单词都具有自身含义,则对中文数据进行分词处理,就是解析中文数据的基本语义,因此,就能够基于中文数据的基本语义查询中文数据。
由于是利用中文分词技术对中文数据进行分词处理以获取若干单词,并以每个单词信息为基础构建单词拼音索引,则遵照本发明信息检索方法,就能够实现跨词检索的功能。
附图说明
图1是本发明信息存储方法的流程图;
图2是图1中步骤1)进一步细分的流程图;
图3是图2中步骤12)进一步细分的流程图;
图4是中文数据基本信息索引的示意图;
图5是中文数据基本信息二级索引的示意图;
图6是单词拼音索引的示意图;
图7是单词拼音二级索引的示意图;
图8是本发明信息检索方法的流程图;
图9是图8中步骤A4)进一步细分的流程图。
具体实施方式
如图1所示,本发明信息存储方法包括下述步骤:
1)将中文数据及将其经过分词处理后获得的单词的精首字母序列存入中文数据基本信息索引文件内,所述拼音首字母指每个汉字所对应的汉语拼音的第一个字母;
2)将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基本信息二级索引文件内;
3)将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;
4)将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。
其中,如图2所示,所述步骤1)进一步包括步骤:
11)对中文数据进行分词处理以获得若干单词;
12)获取每个单词的拼音首字母;
13)将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件内。
进一步地,如图3所示,所述12)还可包括步骤:
121)获取每个单词内所有汉字的汉字码;
122)在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音;
123)从汉语拼音字符串中抽析出每个拼音的首字母。
由上述可知,本发明基于中文语义的信息存储方法是以中文数据为基础的,所述中文数据不是简单的由多个单字构成,而是由若干单字所组成一个个具有特定含义的单词共同构成的,也就是说,整条中文数据的语义是由其内部所包含的单词的含义来共同表达的。
对中文数据进行分词处理以获得若干单词,中文分词技术目前已相当成熟,可采用正向/逆向最大匹配词典分词法,即在所构建的含有丰富且全面单词的词典的基础上,按照一定的字符串匹配与词频统计策略,将待分词的中文数据与词典内词条进行逐一、快速的匹配并进行词频统计,由此可从中文数据内分析出若干相对独立且具有自身含义的单词。
例如,中文数据:北京市海淀区人民法院,采用正向最大匹配分词法对其进行分词处理,即将中文汉字串“北京市海淀区人民法院”与词典内的单词进行快速匹配,并对匹配成功的单词出现次数进行统计,以选出词频相对较高的单词,本例得到了四个独立的单词:“北京市”、“海淀区”、“人民”和“法院”。这四个单词本身就具有含义,并且也能够表达和代表中文数据“北京市海淀区人民法院”的部分含义。
取得了若干单词后,下面就是获取单词的拼音首字母。可运用汉字-拼音自动转换技术,所述汉字-拼音自动转换技术是一种将汉字自动转换为与之相对应的拼音的技术。首先获取单词内每个汉字的汉字码,例如单词“北京市”,“北”的汉字码为“B1B1”、“京”的汉字码为“BEA9”和“市”的汉字码为“CAD0”。接着根据简体中文字符码表(GB2312)内汉字编码与汉语拼音之间的映射关系,例如汉字码“B1B1”在简体中文字符码内对应的汉语拼音为“bei”,汉字码“BEA9”对应的汉语拼音为“jing”,汉字码为“CAD0”对应的汉语拼音为“shi”。因此,汉字“北”的拼音为“bei”,汉字“京”的拼音为“jing”,汉字“市”的拼音为“shi”。根据每个汉字的拼音,抽析出每个拼音的首字母,分别为“B”和“J”和“S”,所以单词“北京市”的拼音首字母序列为“BJS”。同理,可获得其他三个单词的拼音首字母序列分别为“HDQ”、“RM”和“FY”。
获得了单词的拼音首字母后,将该中文数据及其相应的单词的拼音首字母序列存入中文数据基本信息索引文件内作为一条中文数据记录,如图4所示,为(北京市海淀区人民法院\rBJS,HDQ,RM,FY\r)。
对于中文数据基本信息索引可用下述表示:
BasicInfoIndex<CHARS object,‘\r’,CHARS spell,‘\r’>
其中:
object--字符串型,即中文数据记录对象的主题内容;
spell--字符串型,即中文数据对象object所对应汉语拼音首字母序列。
接下来,步骤2)将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基体信息二级索引文件内。每个中文数据都具有一个唯一标识,例如本例“北京市海淀区人民法院”的标识是1384。在中文数据基本信息二级索引文件中,通过中文数据标识与该中文数据标识所代表的中文数据在中文数据基本信息索引文件中的位置的一一对应关系,在中文数据基本信息二级索引文件中存放中文数据在中文数据基本信息索引文件中的偏移量,如图5所示,其中,5447是(北京市海淀区人民法院\rBJS,HDQ,RM.FY\r)在中文数据基本信息索引文件中的偏移量。
对于中文数据基本信息二级索引可用下述表示:
SuperIndexForBasicInfo<INT data_id,INT offset>
其中:
data_id--整数型,即某一中文数据记录的标识;
offset--整数型,即某一中文数据记录对象object的基本信息在索引
BasicInfoIndex中的起始位置偏移量。
步骤3)将所述单词在所述中文数据基本信息索引内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内。该步骤是对中文数据进行分词处理后得到的单词的进一步处理。例如单词“北京市”、“海淀区”、“人民”和“法院”的拼音首字母分别为BJS,HDQ,RM和FY,由于它们所属的中文数据的标识是1384,它们在该中文数据记录内的起始偏移位置分别为:0、3、6和8。因此BJS,HDQ,RM和FY分别对应四个拼音索引信息,<1384,0>,<1384,3>,<1384,6>和<1384,8>,将这四个拼音索引信息分别存入以字母“B”,“H”,“R”和“F”开头的数据簇内。
对于单词拼音索引可用下述表示:
SpellIndexForWord<INT data_id,BYTE pos>
其中:
data_id--整数型,即单词所属中文数据记录的标识;
pos--字节型,即单词在所属中文数据记录内的起始位置。
由于在单词拼音索引文件中是以26个字母(A,B,C,...,X,Y,Z)来分成26个数据簇,那么步骤4)将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件,也就是在单词拼音二级索引文件中存放以每个字母开头的数据簇在单词拼音索引文件中的位置。如图6所示,其中,以A开头的数据簇的起始偏移位置为0,以B开头的数据簇的起始偏移位置为7657,以C开头的数据簇的起始偏移位置为59334,......,以Z开头的数据簇的起始偏移位置为784509。
对于单词拼音二级索引可用下述表示:
SuperIndexForSpell<INT offset>
其中:
offset--整数型,即索引SpellIndexForWord内以某一字母开头的数据簇在“单词拼音索引”文件内的起始位置偏移量。
由于上面建立了拼音首字母与中文数据及其分词所得的若干单词的对应关系,因此,通过输入拼音首字母序列能够快速查找到其所对应的中文数据。
相应地,如图8所示,本发明基于中文语义的信息检索方法包括步骤:
A1)接收检索字母;
A2)判断所述检索字母是否是第一个字母,执行步骤A3),否则执行A7);
A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的位置;
A4)根据所述位置从所述单词拼音索引文件内获得所有以所述检索字母为开头的单词所属的中文数据标识以及所述单词在所属的中文数据内的位置;
A5)根据所述中文数据标识从中文数据二级索引文件内获得其对应的中文数据记录在中文数据索引文件内的位置;
A6)根据中文数据记录在中文数据索引文件内的位置处取出所述中文数据记录,并与所述中文数据唯一标识以及单词在中文数据内的位置共同构成记录结果集,执行步骤A1);
A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较,将不包含所述检索字母的记录从所述记录结果集中删除,执行步骤A1)。
其中,如图9所示,步骤A4)进一步包括步骤:
A41)判断起始位置是否小于终止位置,若是执行步骤A42);否则执行步骤A5);
A42)从单词拼音索引中取出所述起始位置处的中文数据标识以及所述单词在所属的中文数据内的位置;
A43)移动起始位置使其指向下一个中文数据标识,执行步骤A41)。
例如,对于检索词为“BJ”,即输入字母序列“BJ”来查找“北京市海淀区人民法院”。
首先,先接收到字母“B”,并且判断是第一个字母,那么执行步骤A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的位置;对于本例,从单词拼音二级索引文件可知字母B在单词拼音索引内的起始偏移位置为7657,终止位置为59334。设
Figure B2007100798327D00081
Figure B2007100798327D00082
比较数值
Figure B2007100798327D00083
的大小,若
Figure B2007100798327D00085
则查找过程结束,进入步骤A5),在单词拼音索引文件的偏移量位置处读取一条拼音索引信息spellindex<data_id,pos>(data_id为该条拼音索引所属的中文数据标识,pos为该拼音串在所属的中文数据内的起始位置),同时
Figure B2007100798327D00087
pos=pos+1。将所有的以字母B开头的拼音索引记录读出,从中可知所有以字母B开头的单词所属的中文数据标识,其中有一条拼音索引记录为spellindex<1348,0>,1384是中文数据“北京市海淀区人民法院”的标识。
下面执行步骤A5),根据上述步骤获得的中文数据标识data_id,从索引文件“中文数据基本信息二级索引”内获取标识为data_id的中文数据在中文数据基本信息索引文件内的偏移位置
Figure B2007100798327D00088
其中,标识为1348的中文数据记录在中文数据基本信息索引文件内的偏移位置的值为5447--是中文数据“北京市海淀区人民法院”在中文数据基本信息索引文件内的偏移位置;
获得了所有的偏移位置后,根据偏移位置,取出这些偏移位置所对应的所有中文数据记录,并与所述中文数据唯一标识以及单词在中文数据内的位置共同构成记录结果集。设,在索引文件“中文数据基本信息索引”中的偏移位置
Figure B2007100798327D000810
处读取一条中文数据记录为:basicInfodata_id<object,spell>,并与拼音索引spellindex一起构成记录结果集:data<data_id,object,spell,pos>。在本例中,记录结果集中有一条记录为:data<1348;北京市海淀区人民法院;BJS,HDQ,RM,FY;0>。
得到记录结果集后,执行步骤A1)接收检索字母,本例中接收的是第二个检索字母“J”,然后执行步骤A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较,将不包含所述检索字母的记录从所述记录结果集中删除。也就是,依次读取记录结果集data<data_id,object,spell,pos>中的记录,将字母“J”依次与该记录内的拼音首字母进行比较,若不存在,删除该data<data_id,object,spell,pos>记录。
随着检索字母的输入,在记录结果集中的记录的数量会越来越少,也就是说,用户输入的检索字母越多,越能精确返回获取结果记录。
另外,本发明基于中文语义的信息存储及检索方法还能实现跨词检索的功能,所述跨词检索,就是在信息检索过程中,不要求输入的检索字母(即拼音首字母序列)的具体内容和相邻关系与目标数据完全相符,即输入的检索字母序列在某条目标数据中不强制连续且跨越若干个具有自身语义的单词,也可检索到该条目标数据。例如,用户输入“HDQRMFY”,遵照本发明信息检索方法,可检索到中文数据“北京市海淀区人民法院”;输入“HDQFY”,也可检索到中文数据“北京市海淀区人民法院”;同样,输入“SLGHYJYSLYJS”可检索到中文数据“北京市水利规划设计研究院水利科学研究所”。
综上所述,本发明信息存储及检索方法,是以中文数据及其所分得的若干单词的拼音首字母为基础的,通过中文数据及其所分得的若干单词的拼音首字母的对应关系,使得用户输入拼音首字母这样的检索字,就能够在海量的中文数据集内快速、准确定位和查询中文数据的功能。

Claims (3)

1.一种信息存储方法,其特征在于,包括下述步骤:
对中文数据进行分词处理以获得若干单词;
获取每个单词内所有汉字的汉字码;
在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音字符串;
从汉语拼音字符串中抽析出每个拼音的首字母;
将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件作为一条中文数据记录;
在中文数据基本信息二级索引文件中,通过中文数据标识与该中文数据标识所代表的中文数据在中文数据基本信息索引文件中的位置的一一对应关系,在中文数据基本信息二级索引文件中存放中文数据在中文数据基本信息索引文件中的偏移量;
将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内,所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内;
将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。
2.基于权利要求1所述的信息存储方法的信息检索方法,其特征在于,包括步骤:
A1)接收检索字母;
A2)判断所述检索字母是否是第一个字母,执行步骤A3),否则执行A7);
A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的起始偏移位置和终止偏移位置;
A4)在所述单词拼音索引内从所述起始偏移位置处开始获取所有以所述检索字母为开头的单词所属的中文数据标识以及所述单词在所属的中文数据内的位置,直到获取到所述终止偏移位置在所述单词拼音索引内对应的位置,进入步骤A5);
A5)根据所述中文数据标识从中文数据二级索引文件内获得其对应的中文数据记录在中文数据索引文件内的位置;
A6)根据中文数据记录在中文数据索引内的位置取出所述中文数据记录,并与所述中文数据标识以及单词在中文数据内的位置共同构成记录结果集,执行步骤A1);
A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较,将不包含所述检索字母的记录从所述记录结果集中删除,执行步骤A1)。
3.如权利要求2所述的信息检索方法,其特征在于,步骤A4)具体包括步骤:
A41)判断起始偏移位置是否小于终止偏移位置,若是执行步骤A42);否则执行步骤A5);
A42)从所述起始偏移位置在单词拼音索引内对应的位置处取出中文数据标识以及所述单词在所属的中文数据内的位置;
A43)修改所述起始偏移位置使其指向所述单词拼音索引内的下一条记录,执行步骤A41)。
CN2007100798327A 2007-02-14 2007-02-14 信息存储及检索方法 Expired - Fee Related CN101246478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100798327A CN101246478B (zh) 2007-02-14 2007-02-14 信息存储及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100798327A CN101246478B (zh) 2007-02-14 2007-02-14 信息存储及检索方法

Publications (2)

Publication Number Publication Date
CN101246478A CN101246478A (zh) 2008-08-20
CN101246478B true CN101246478B (zh) 2010-08-25

Family

ID=39946937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100798327A Expired - Fee Related CN101246478B (zh) 2007-02-14 2007-02-14 信息存储及检索方法

Country Status (1)

Country Link
CN (1) CN101246478B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770478B (zh) * 2008-12-26 2013-04-24 高德信息技术有限公司 数据检索方法、数据检索装置及嵌入式终端
CN101582091B (zh) * 2009-06-10 2012-04-18 凌阳科技股份有限公司 一种词库创建方法和系统,及相应的单词查询方法和系统
CN102033891B (zh) * 2009-09-29 2013-06-05 高德软件有限公司 中文信息检索方法、中文信息检索装置
CN101699438B (zh) * 2009-11-04 2013-04-17 北京锋力信息科技有限公司 数据存取方法及系统
CN102467544B (zh) * 2010-11-16 2015-01-21 中国电信股份有限公司 基于空间模糊编码的信息智能搜索方法及系统
KR101843980B1 (ko) * 2011-09-01 2018-03-30 삼성전자주식회사 휴대단말기의 데이터 송수신 관리 장치 및 방법
CN102819606B (zh) * 2012-08-20 2015-06-03 中国农业银行股份有限公司 基于拼音的信息查询方法、系统和服务器
CN103617248A (zh) * 2013-10-28 2014-03-05 乐视网信息技术(北京)股份有限公司 一种名称转换方法及装置
CN104063500B (zh) * 2014-07-07 2019-03-29 联想(北京)有限公司 信息处理设备以及信息处理方法
CN105243086B (zh) * 2015-09-08 2019-04-12 北京北大千方科技有限公司 一种车辆信息查询方法和装置
CN107633017A (zh) * 2017-08-23 2018-01-26 西安理工大学 一种中文关键词的模糊集构造方法
CN110968555B (zh) * 2018-09-30 2023-07-04 北京国双科技有限公司 维度数据处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1147655A (zh) * 1996-07-03 1997-04-16 北京金远见电脑技术有限公司 一种汉字信息检索方法和使用该方法的电子记事簿
JP3266755B2 (ja) * 1995-04-20 2002-03-18 シャープ株式会社 中国語情報処理装置
CN1373410A (zh) * 2001-10-16 2002-10-09 张咪 中英文资料名称的字母编码键盘及其首位拼音字母编码方法
CN1375789A (zh) * 2002-04-18 2002-10-23 叶铠铭 句子字典的编辑方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266755B2 (ja) * 1995-04-20 2002-03-18 シャープ株式会社 中国語情報処理装置
CN1147655A (zh) * 1996-07-03 1997-04-16 北京金远见电脑技术有限公司 一种汉字信息检索方法和使用该方法的电子记事簿
CN1373410A (zh) * 2001-10-16 2002-10-09 张咪 中英文资料名称的字母编码键盘及其首位拼音字母编码方法
CN1375789A (zh) * 2002-04-18 2002-10-23 叶铠铭 句子字典的编辑方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特许第3266755号B2 2002.01.11

Also Published As

Publication number Publication date
CN101246478A (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN101246478B (zh) 信息存储及检索方法
Shekhar et al. Word image retrieval using bag of visual words
Gordo Supervised mid-level features for word image representation
Lladós et al. On the influence of word representations for handwritten word spotting in historical documents
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
Jin et al. SCUT-COUCH2009—a comprehensive online unconstrained Chinese handwriting database and benchmark evaluation
CN112257421A (zh) 嵌套实体数据的识别方法、装置及电子设备
CN109960800A (zh) 基于主动学习的弱监督文本分类方法及装置
CN109408600B (zh) 一种基于数据挖掘的图书荐购方法
CN105808524A (zh) 一种基于专利文献摘要的专利自动分类方法
Christlein et al. ICDAR 2019 competition on image retrieval for historical handwritten documents
CN104199965A (zh) 一种语义信息检索方法
CN106326303A (zh) 一种口语语义解析系统及方法
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
Shi et al. Fisher vector for scene character recognition: A comprehensive evaluation
CN110188197A (zh) 一种用于标注平台的主动学习方法及装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN109582783B (zh) 热点话题检测方法及装置
CN103853797B (zh) 一种基于n元图片索引结构的图片检索方法与系统
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
Barakat et al. The pinkas dataset
CN115994535A (zh) 文本处理方法及装置
CN115048539A (zh) 基于动态记忆力的社交媒体数据在线检索方法及系统
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN106611016A (zh) 一种基于可分解词包模型的图像检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200511

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 102200, Changping District, Beijing, super Road, No. 13, 3 layers

Patentee before: AUTONAVI SOFTWARE Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100825

Termination date: 20200214

CF01 Termination of patent right due to non-payment of annual fee