CN101493841A - 一种搜索方法及搜索装置 - Google Patents

一种搜索方法及搜索装置 Download PDF

Info

Publication number
CN101493841A
CN101493841A CNA2009101055299A CN200910105529A CN101493841A CN 101493841 A CN101493841 A CN 101493841A CN A2009101055299 A CNA2009101055299 A CN A2009101055299A CN 200910105529 A CN200910105529 A CN 200910105529A CN 101493841 A CN101493841 A CN 101493841A
Authority
CN
China
Prior art keywords
word
text
field
predefine
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009101055299A
Other languages
English (en)
Inventor
申屠青春
杨伦
阮伟军
林飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd filed Critical SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CNA2009101055299A priority Critical patent/CN101493841A/zh
Publication of CN101493841A publication Critical patent/CN101493841A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种搜索方法,通过获得文本,并从词料库中查找得到与文本中的词语匹配的预定义词语,然后根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段。另外,本发明实施例还提供了一种搜索装置。采用本发明实施例的搜索方法及装置,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源。

Description

一种搜索方法及搜索装置
技术领域
本发明涉及计算机领域,尤其涉及一种搜索方法及搜索装置。
背景技术
一般的数据库搜索都是采用数据库提供的结构化查询语言(StructuredQuery Language,SQL)语句来完成的,搜索的速度较慢,特别是当数据库的数据量很大的时候(如在一个T级别数据量的数据库),搜索的速度会变得尤为缓慢,例如,使用常规的SQL语句进行中文词语“中国”的匹配搜索,往往需要好几个小时的时间才能返回结果,这样的效率很难满足日常的搜索需要。
发明内容
本发明实施例所要解决的技术问题在于,提供一种搜索方法和搜索装置,将获得的文本进行拆分,并从词料库中查找得到与拆分得到的文本的词语匹配的预定义词语,然后根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源。
为解决上述技术问题,本发明实施例采用如下技术方案:
一种搜索方法,包括:
获得文本;
从词料库中查找得到与所述文本中的词语匹配的预定义词语;
根据所述预定义词语与字段存在的对应关系的记录,确定与所述文本对应的字段。
一种搜索装置,包括:
获取模块,用于获得文本;
查找模块,用于从词料库中查找得到与所述文本中的词语匹配的预定义词语;
确定模块,用于根据所述预定义词语与字段存在的对应关系的记录,确定与所述文本对应的字段。
本发明实施例的有益效果是:
通过获得文本,并从词料库中查找得到与文本的词语匹配的预定义词语,然后根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源。
下面结合附图对本发明实施例作进一步的详细描述。
附图说明
图1是本发明实施例的搜索方法的主要流程图;
图2是本发明的搜索方法的具体实施例示意图;
图3是本发明实施例的搜索装置的主要结构图;
图4是本发明的搜索装置的具体实施例示意图。
具体实施方式
图1是本发明实施例的搜索方法的主要流程图,参照该图,该搜索方法主要包括:
101,获得文本,具体地,文本可以是中文文本、英文文本,日文文本,或者同时包含中文和英文的文本等;
102,从词料库中查找得到与文本中的词语匹配的预定义词语,具体地,当文本是中文文本时,文本中的词语应当是具有含义的若干汉字的组合,如“厉娜”(歌星姓名)、“深圳”、“我”等,此时即需要根据预先设定的规则对中文文本进行拆分得到中文文本中的词语,当文本为日文文本时,文本中的词语应当是具有含义的若干片假名或平假名的组合,当文本是英文文本时,文本中的词语应当是单个的英文单词或多个英文单词的组合,如“butterfly”、“we belong together”等,当然,对于其他文本也应当类似上述方法得到文本中的词语;词料库中预先以文本文件或数据表的形式设定了若干个词语,即预定义词语,例如,以文本文件的形式设定预定义词语可以是如下表1所示的方式进行,即每行记录一个中文词语或英文单词,但不仅限于此:
你好今天明天HelloHi
表1
以数据表的形式设定预定义词语可以是如下表2所示的方式进行,即对表格的表项定义为词语word(包括中文词语、英文单词等):
 word
 你好
 今天
 明天
 Hello
 Hi
表2
与文本中的词语匹配的预定义词语可以是与文本中的词语相同的预定义词语,例如,文本中的词语为“孔子”,而“孔子”也是预定义词语,则此时文本中的词语与预定义词语匹配,与文本中的词语匹配的预定义词语可以是与文本中的词语相似的预定义词语,例如,文本中的词语为“北大”,预定义词语为“北京大学”,“北大”与“北京大学”相似,则此时文本中的词语与预定义词语匹配;
103,根据预定义词语与字段存在的对应关系的记录,确定与文本对应的字段,具体地,字段可以是内容或标题等,预定义词语与字段存在的对应关系可以是字段包含预定义词语的包含关系,也可以是字段的某一部分与预定义词语的某一部相同的相似关系,例如,字段为“我们是社会主义建设者”,预定义词语为“社会主义”,那么预定义词语与字段存在的对应关系为字段“我们是社会主义建设者”包含预定义词语“社会主义”的包含关系,而预定义词语与字段存在的对应关系的记录可以是一个表,该表中可包含三个表项,即指示字段的字段名称、预定义词语、指示预定义词语与字段存在的对应关系的记录标识(Identification,ID),ID可采用二进制文本的方式;当文本中的词语数量为多个时,从词料库中查找得到与文本中的词语匹配的预定义词语也可以是多个,此时,预定义词语与字段存在的对应关系的记录也可以是多个,因此文本对应的字段可以是上述多个记录对应字段的交集或并集,例如,文本为“玛丽亚凯莉作为二十世纪世界流行音乐史上的天后级歌手,创作了众多排行榜冠军单曲”,该文本中的词语(可拆分文本得到)为“二十世纪”、“流行音乐史”、“排行榜”、“冠军单曲”等,而词料库中的预定义词语包括“流行音乐史”、“冠军单曲”,那么从词料库中查找得到与文本中的词语匹配的预定义词语即为“流行音乐史”、“冠军单曲”,而预定义词语“流行音乐史”与字段A存在的对应关系的记录为a、与字段B存在的对应关系的记录为b,预定义词语“冠军单曲”与字段C存在的对应关系的记录为c,可以确定文本“玛丽亚凯莉作为二十世纪世界流行音乐史上的天后级歌手,创作了众多排行榜冠军单曲”对应的字段可以是记录a、记录b、记录c对应字段的交集或并集。
实施如图1所示的本发明实施例的搜索方法,通过101获得文本,102从词料库中查找得到与文本的词语匹配的预定义词语,103根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源。
图2是本发明的搜索方法的具体实施例示意图,参照该图,该方法主要包括:
201,预先建立第一表格,该第一表格可包括两个表项,各表项依次为字段、指示预定义词语与字段存在的对应关系的ID,可如下表3、表4所示,其中Content指示字段为内容,Title指示字段为标题,十进制ID值97对应二进制ID值为1100001,十进制ID值734对应二进制ID值为1011011110,十进制ID值77对应二进制ID值为1001101,十进制ID值88对应二进制ID值为1011000:
  ID   Content
  97   你好,朋友我们是一家人
......   ......
 734   你好,欢迎光临
表3
  ID   Title
  77   Hello,你好啊,怎么这么晚
......   ......
  88   Hello,welcome to Beijing
表4
202,当字段中是否包含词料库中的预定义词语时,建立第二表格来记录字段与预定义词语存在的对应关系,当有新的字段写入第一表格,而新的字段中的词语需要加入到词料库中形成预定义词语时,此时可更新第一表格,第二表格可包括三个表项,各表项依次为指示字段的字段名称、预定义词语、指示预定义词语与字段存在的对应关系的ID,ID为二进制文本,其是由十进制ID转换而来的,取出时可依次向后取4个字节转换成十进制ID,可如上述表3、表4对应的下表5所示,其中ID110001与ID1011011110可合并存储至表5的第三列:
  字段名称   预定义词语   ID
  Content   你好   1100001(可存储为4个字节大小的空间,不足时补0)1011011110(可存储为4个字节大小的空间,不足时补0)
  Title   你好   1001101(可存储为4个字节大小的空间,不足时补0)
  Title   Hello   1001101(可存储为4个字节大小的空间,不足时补0)1011000(可存储为4个字节大小的空间,不足时补0)
表5
203,经过上述201、202的预处理之后,此时可进行主要的搜索处理,首先获得同时包含中文和英文的文本“你好,Hello!”;
204,由于文本“你好,Hello!”中包含中文,因此需拆分文本,得到具有含义的汉字的组合“你好”,将“你好”、“Hello”作为文本中的词语;
205,从词料库中查找得到与文本中的词语匹配的预定义词语,词料库中预先以文本文件或数据表的形式设定了若干个词语,即预定义词语,根据表3,与文本中的词语匹配的预定义词语即是“你好”、“Hello”;
206,根据预定义词语与字段存在的对应关系的记录,确定与文本对应的字段,预定义词语与字段存在的对应关系可以是字段包含预定义词语的包含关系,以预定义词语与字段名称作为联合主键搜索表5,205查找得到的预定义词语“你好”与ID为“1100001”的字段Content存在对应关系,并且与ID为“1001101”的字段Title存在对应关系,形成集合1,集合1包含字段名称Content以及ID“1100001”对应十进制ID值97、ID“1011011110”对应十进制ID值734,集合1还包括字段名称Title以及ID“1001101”对应十进制ID值77,另一查找得到的预定义词语“Hello”与ID为“1001101”的字段Title存在对应关系,并且与ID为“1011000”的字段Title存在对应关系,形成集合2,集合2包含字段名称Title以及ID“1001101”对应十进制ID值77、ID“1011000”对应十进制ID值88,那么,文本“你好,Hello!”对应的字段可以是集合1、集合2的交集或并集,也即记录(ID)对应字段的交集或并集,例如,取集合1、集合2的交集时,该交集为十进制ID值77对应字段Title;取集合1、集合2的并集时,该并集为十进制ID值97、734对应字段Content以及十进制ID值77、88对应字段Title。
实施上述如图2所示的本发明实施例的搜索方法,通过201、202的预处理的第一表格、第二表格,203获得文本,204拆分文本,205从词料库中查找得到与文本的词语匹配的预定义词语,206根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源;因为十进制ID数字比较大所以将每个十进制ID转换成以4个字节为单位的二进制ID,从而将这些二进制ID无缝隙连接并存储到表5的第三列,这样会比直接存储字符串节省更多的空间。
需要说明的是,上述拆分词语、取交集或并集等方法可沿用现有技术的内容,此处不再赘述。
相应地,下面对本发明实施例的搜索装置进行说明。
图3是本发明实施例的搜索装置的主要结构图,参照该图,该搜索装置主要包括获取模块301、查找模块302、确定模块303,其中:
获取模块301、确定模块303均与查找模块302相连;
获取模块301,可获得文本,具体地,文本可以是中文文本、英文文本,日文文本,或者同时包含中文和英文的文本等;
查找模块302,可从词料库中查找得到与文本中的词语匹配的预定义词语,具体地,当文本是中文文本时,文本中的词语应当是具有含义的若干汉字的组合,如“厉娜”(歌星姓名)、“深圳”、“我”等,此时即需要根据预先设定的规则对中文文本进行拆分得到中文文本中的词语,当文本是英文文本时,文本中的词语应当是单个的英文单词或多个英文单词的组合,如“butterfly”、“we belong together”等,当然,对于其他文本也应当类似上述方法得到文本中的词语;词料库中预先以文本文件或数据表的形式设定了若干个词语,即预定义词语,例如,以文本文件的形式设定预定义词语可以是如上表1所示的方式进行,即每行记录一个中文词语或英文单词,但不仅限于此,以数据表的形式设定预定义词语可以是如上表2所示的方式进行,即对表格的表项定义为词语word(包括中文词语、英文单词等);与文本中的词语匹配的预定义词语可以是与文本中的词语相同的预定义词语,例如,文本中的词语为“孔子”,而“孔子”也是预定义词语,则此时文本中的词语与预定义词语匹配,与文本中的词语匹配的预定义词语可以是与文本中的词语相似的预定义词语,例如,文本中的词语为“北大”,预定义词语为“北京大学”,“北大”与“北京大学”相似,则此时文本中的词语与预定义词语匹配;
确定模块303,可根据预定义词语与字段存在的对应关系的记录,确定与文本对应的字段,具体地,字段可以是内容或标题等,预定义词语与字段存在的对应关系可以是字段包含预定义词语的包含关系,也可以是字段的某一部分与预定义词语的某一部相同的相似关系,例如,字段为“我们是社会主义建设者”,预定义词语为“社会主义”,那么预定义词语与字段存在的对应关系为字段“我们是社会主义建设者”包含预定义词语“社会主义”的包含关系,而预定义词语与字段存在的对应关系的记录可以是一个表,该表中可包含三个表项,即指示字段的字段名称、预定义词语、指示预定义词语与字段存在的对应关系的记录ID,ID可采用二进制文本的方式;当文本中的词语数量为多个时,从词料库中查找得到与文本中的词语匹配的预定义词语也可以是多个,此时,预定义词语与字段存在的对应关系的记录也可以是多个,因此文本对应的字段可以是上述多个记录对应字段的交集或并集,例如,文本为“玛丽亚凯莉作为二十世纪世界流行音乐史上的天后级歌手,创作了众多排行榜冠军单曲”,该文本中的词语(可拆分文本得到)为“二十世纪”、“流行音乐史”、“排行榜”、“冠军单曲”等,而词料库中的预定义词语包括“流行音乐史”、“冠军单曲”,那么从词料库中查找得到与文本中的词语匹配的预定义词语即为“流行音乐史”、“冠军单曲”,而预定义词语“流行音乐史”与字段A存在的对应关系的记录为a、与字段B存在的对应关系的记录为b,预定义词语“冠军单曲”与字段C存在的对应关系的记录为c,可以确定文本“玛丽亚凯莉作为二十世纪世界流行音乐史上的天后级歌手,创作了众多排行榜冠军单曲”对应的字段可以是记录a、记录b、记录c对应字段的交集或并集。
实施如图3所示的本发明实施例的搜索装置,通过获取模块301获得文本,查找模块302从词料库中查找得到与文本的词语匹配的预定义词语,确定模块303根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源。
图4是本发明的搜索装置的具体实施例示意图,参照该图,该装置主要包括获取模块401、拆分模块402、查找模块403、确定模块404,其中:
获取模块401、查找模块403均与拆分模块402相连,查找模块403与确定模块404相连;
搜索装置中的表格建立模块,可预先建立第一表格,该第一表格可包括两个表项,各表项依次为字段、指示预定义词语与字段存在的对应关系的ID,可如上表3、表4所示,其中Content指示字段为内容,Title指示字段为标题:当字段中是否包含词料库中的预定义词语时,建立第二表格来记录字段与预定义词语存在的对应关系,当有新的字段写入第一表格,而新的字段中的词语需要加入到词料库中形成预定义词语时,此时可更新第一表格,第二表格可包括三个表项,各表项依次为指示字段的字段名称、预定义词语、指示预定义词语与字段存在的对应关系的ID,ID为二进制文本,其是由十进制ID转换而来的,取出时可依次向后取4个字节转换成十进制ID,可如上述表5所示;
获取模块401,经过上述表格建立模块的预处理之后,此时可进行主要的搜索处理,可首先获得同时包含中文和英文的文本“你好,Hello!”;
拆分模块402,可拆分文本,得到具有含义的汉字的组合“你好”,将“你好”、“Hello”作为文本中的词语;
查找模块403,可从词料库中查找得到与文本中的词语匹配的预定义词语,词料库中预先以文本文件或数据表的形式设定了若干个词语,即预定义词语,根据表3,与文本中的词语匹配的预定义词语即是“你好”、“Hello”;词料库可存储在查找模块403中的存储模块中;
确定模块404,可根据预定义词语与字段存在的对应关系的记录,确定与文本对应的字段,预定义词语与字段存在的对应关系可以是字段包含预定义词语的包含关系,以预定义词语与字段名称作为联合主键搜索表5,205查找得到的预定义词语“你好”与ID为“1100001”的字段Content存在对应关系,并且与ID为“1001101”的字段Title存在对应关系,形成集合1,集合1包含字段名称Content以及ID“1100001”对应十进制ID值97、ID“1011011110”对应十进制ID值734,集合1还包括字段名称Title以及ID“1001101”对应十进制ID值77,另一查找得到的预定义词语“Hello”与ID为“1001101”的字段Title存在对应关系,并且与ID为“1011000”的字段Title存在对应关系,形成集合2,集合2包含字段名称Title以及ID“1001101”对应十进制ID值77、ID“1011000”对应十进制ID值88,那么,文本“你好,Hello!”对应的字段可以是集合1、集合2的交集或并集,也即记录(ID)对应字段的交集或并集,例如,取集合1、集合2的交集时,该交集为十进制ID值77对应字段Title;取集合1、集合2的并集时,该并集为十进制ID值97、734对应字段Content以及十进制ID值77、88对应字段Title。
实施上述如图4所示的本发明实施例的搜索装置,通过表格建立模块的预处理的第一表格、第二表格,获取模块401获得文本,拆分模块402拆分文本,查找模块403从词料库中查找得到与文本的词语匹配的预定义词语,确定模块404根据预定义词语与字段存在的对应关系的记录,确定文本对应的字段,可以提升搜索的速度,特别是当要搜索的数据量很大的时候,能更有效地提升搜索的速度,同时大大节省系统的资源;因为十进制ID数字比较大所以将每个十进制ID转换成以4个字节为单位的二进制ID,从而将这些二进制ID无缝隙连接并存储到表5的第三列,这样会比直接存储字符串节省更多的空间。
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1、一种搜索方法,其特征在于,包括:
获得文本;
从词料库中查找得到与所述文本中的词语匹配的预定义词语;
根据所述预定义词语与字段存在的对应关系的记录,确定与所述文本对应的字段。
2、如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述文本为中文文本时,拆分所述文本,得到具有含义的汉字的组合,作为所述文本中的词语;
当所述文本为英文文本时,所述文本中的词语为英文单词。
3、如权利要求1所述的方法,其特征在于,所述根据所述预定义词语与字段存在的对应关系的记录,确定与所述文本对应的字段具体为:
当存在至少两个所述对应关系的记录时,以所述记录对应字段的交集或并集作为所述文本对应的字段。
4、如权利要求1所述的方法,其特征在于,所述与所述文本中的词语匹配的预定义词语为:
与所述文本中的词语相同的预定义词语,或与所述文本中的词语相似的预定义词语。
5、如权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
预先建立所述预定义词语与所述记录的对应关系,所述对应关系为所述字段包含所述预定义词语的包含关系。
6、如权利要求1至4中任一项所述的方法,其特征在于,所述字段为内容或标题。
7、一种搜索装置,其特征在于,包括:
获取模块,用于获得文本;
查找模块,用于从词料库中查找得到与所述文本中的词语匹配的预定义词语;
确定模块,用于根据所述预定义词语与字段存在的对应关系的记录,确定与所述文本对应的字段。
8、如权利要求7所述的装置,其特征在于,所述装置还包括:
拆分模块,用于当所述文本为中文文本时,拆分所述文本,得到具有含义的汉字的组合,作为所述文本中的词语。
9、如权利要求7所述的装置,其特征在于,当存在至少两个所述对应关系的记录时,所述文本对应的字段为所述记录对应字段的交集或并集。
10、如权利要求7至9中任一项所述的装置,其特征在于,所述对应关系为所述字段包含所述预定义词语的包含关系,所述字段为内容或标题。
CNA2009101055299A 2009-02-23 2009-02-23 一种搜索方法及搜索装置 Pending CN101493841A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009101055299A CN101493841A (zh) 2009-02-23 2009-02-23 一种搜索方法及搜索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009101055299A CN101493841A (zh) 2009-02-23 2009-02-23 一种搜索方法及搜索装置

Publications (1)

Publication Number Publication Date
CN101493841A true CN101493841A (zh) 2009-07-29

Family

ID=40924443

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009101055299A Pending CN101493841A (zh) 2009-02-23 2009-02-23 一种搜索方法及搜索装置

Country Status (1)

Country Link
CN (1) CN101493841A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886064A (zh) * 2014-03-19 2014-06-25 宇龙计算机通信科技(深圳)有限公司 一种语言融合搜索装置及方法
CN106487769A (zh) * 2015-09-01 2017-03-08 深圳市中兴微电子技术有限公司 一种访问控制列表acl的实现方法及装置
CN109684442A (zh) * 2018-12-21 2019-04-26 东软集团股份有限公司 一种文本检索方法、装置、设备及程序产品
WO2020248377A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN113204794A (zh) * 2021-07-02 2021-08-03 深圳市深圳通有限公司 交易记录安全存储方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886064A (zh) * 2014-03-19 2014-06-25 宇龙计算机通信科技(深圳)有限公司 一种语言融合搜索装置及方法
CN103886064B (zh) * 2014-03-19 2017-11-17 宇龙计算机通信科技(深圳)有限公司 一种语言融合搜索装置及方法
CN106487769A (zh) * 2015-09-01 2017-03-08 深圳市中兴微电子技术有限公司 一种访问控制列表acl的实现方法及装置
CN106487769B (zh) * 2015-09-01 2020-02-04 深圳市中兴微电子技术有限公司 一种访问控制列表acl的实现方法及装置
CN109684442A (zh) * 2018-12-21 2019-04-26 东软集团股份有限公司 一种文本检索方法、装置、设备及程序产品
CN109684442B (zh) * 2018-12-21 2021-03-23 东软集团股份有限公司 一种文本检索方法、装置、设备及程序产品
WO2020248377A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN113204794A (zh) * 2021-07-02 2021-08-03 深圳市深圳通有限公司 交易记录安全存储方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Williams et al. Fast phrase querying with combined indexes
CN102110123B (zh) 倒排索引建立方法
CN101196898A (zh) 将词组索引技术应用在互联网搜索引擎中的方法
CN111026710A (zh) 一种数据集的检索方法及系统
CN101493841A (zh) 一种搜索方法及搜索装置
CN105843960B (zh) 基于语义树的索引方法和系统
CN100498783C (zh) 一种支持全文检索系统同时检索数值类型数据域的方法
Crestan et al. Web-scale knowledge extraction from semi-structured tables
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN101136013A (zh) 一种在全文检索系统中快速更新数据域的方法
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
Yafooz et al. Managing unstructured data in relational databases
CN102314464B (zh) 歌词搜索方法及搜索引擎
CN100483409C (zh) 一种字符数据的检索方法
CN101833556B (zh) 文件内容管理系统及其方法
CN104252537A (zh) 基于邮件特征的索引分片方法
Feng et al. Multi-modal query expansion for web video search
Jin et al. Whole database retrieval method of general relational database based on lucene
Shi et al. An optimized full-text retrieval system based on lucene in oracle database
CN103116607A (zh) 一种基于拼音全文检索的方法
Wang et al. A search-based Chinese word segmentation method
Shui et al. Querying and maintaining ordered XML data using relational databases
Cui et al. An approximate markov blanket feature selection algorithm
CN102339284A (zh) 数据库索引的建立方法及其电脑系统
Tashiro et al. EPCI: extracting potentially copyright infringement texts from the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090729