CN108280085B - 数据去重的方法及装置 - Google Patents

数据去重的方法及装置 Download PDF

Info

Publication number
CN108280085B
CN108280085B CN201710010119.0A CN201710010119A CN108280085B CN 108280085 B CN108280085 B CN 108280085B CN 201710010119 A CN201710010119 A CN 201710010119A CN 108280085 B CN108280085 B CN 108280085B
Authority
CN
China
Prior art keywords
data
common substring
longest common
substring
longest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710010119.0A
Other languages
English (en)
Other versions
CN108280085A (zh
Inventor
路博
王跃
方诗旭
张育雄
郭丽
杨小燕
刘艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Telecommunications Research CATR
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Telecommunications Research CATR filed Critical China Academy of Telecommunications Research CATR
Priority to CN201710010119.0A priority Critical patent/CN108280085B/zh
Publication of CN108280085A publication Critical patent/CN108280085A/zh
Application granted granted Critical
Publication of CN108280085B publication Critical patent/CN108280085B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据统计技术领域,具体涉及一种数据去重的方法及装置。本发明的数据去重的方法包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。本发明的数据去重的方法及装置,不需要频繁更新表中数据,减少了数据存储量,提高了去重过程中数据比对效率。

Description

数据去重的方法及装置
技术领域
本发明涉及数据统计技术领域,具体涉及一种数据去重的方法及装置。
背景技术
移动应用商店上架的应用可能存在重复的问题,有去重的需求;或者在对不同移动应用商店的应用进行数据分析时,也需要对相同的应用进行去重处理。
同一款应用会存在多个名称的问题。例如,同一款应用,在不同时间段会采用不同的名称,如视频应用软件会将最近热播剧的名字添加到应用名中。又例如,同一款应用,在不同应用商店可能会使用不同的名称,如腾讯QQ、QQ。当然还有其他情况导致同一款应用的名称不完全相同。
不同应用也会存在名称相似(存在相同字段)的问题。例如,百度与百度地图是两个不同的应用,但存在相同的字段(百度)。
现有的一种去重方式是建立基础表,在基础表中会记录同一款应用的各种不同名称,通过查表来实现去重。这种处理方式需要频繁更新基础表才能保证去重的准确性。
应当指出的是,以上仅是一种典型的应用。对于其他数据去重的应用,也可能会存在类似的问题。
发明内容
针对现有技术中的缺陷,本发明提供的数据去重的方法及装置,不需要频繁更新表中数据,减少了数据存储量,提高了去重过程中数据比对效率。
第一方面,本发明提供的一种数据去重的方法,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。
本发明提供的数据去重的方法,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。
优选地,所述根据获取的目标数据构建最长公共子串表,包括:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
优选地,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。
优选地,所述提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。
优选地,所述目标数据和所述数据均为应用的应用名称。
第二方面,本发明提供的一种数据去重的装置,包括:最长公共子串表构建模块,用于根据获取的目标数据构建最长公共子串表;去重判断模块,用于提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较,若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。
本发明提供的数据去重的装置,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。
优选地,所述最长公共子串表构建模块具体用于:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
优选地,所述最长公共子串表构建模块中,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。
优选地,所述去重判断模块中,提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。
优选地,所述目标数据和所述数据均为应用的应用名称。
附图说明
图1为本发明实施例所提供的数据去重的方法的流程图;
图2为本发明实施例所提供的数据去重的装置的结构框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本实施例提供了一种数据去重的方法,包括:
步骤S1,根据获取的目标数据构建最长公共子串表。
其中,目标数据为字符串格式,每个目标数据指代一个对象。例如,对象为应用,则目标数据可以是应用的名称。最长公共子串是指不同的目标数据中长度最长的相同字段,该字段在目标数据中应为连续不间断的。以应用的名称为例,“百度”与“百度地图”之间的最长公共子串是“百度”,“百度地图”与“百度地图导航”之间的最长公共子串是“百度地图”。
其中,最长公共子串表用于存储最长公共子串,存入最长公共子串表中的最长公共子串至少对应了两个不同的对象。例如,“百度地图”与“百度地图导航”之间的最长公共子串是“百度地图”,因为“百度地图”与“百度地图导航”为两个不同的应用,所以最长公共子串“百度地图”存入最长公共子串表中;“百度视频鬼吹灯”与“百度视频甄嬛传”之间的最长公共子串是“百度视频”,但是“百度视频鬼吹灯”与“百度视频甄嬛传”实际上是一个应用,因此,最长公共子串“百度视频”不会被存入最长公共子串表。
步骤S2,提取两个需要进行去重判断的数据的最长公共子串,并将该最长公共子串与最长公共子串表中的子串进行比较;若最长公共子串表中不存在与该最长公共子串相同的子串,则对这两个数据进行去重处理,否则不需要去重。
其中,存入最长公共子串表中的最长公共子串至少对应了两个不同的对象。以应用为例,例如两个应用的名称为“百度视频”和“百度视频热门电视剧潜伏”,其最长公共子串为“百度视频”,而“百度视频”在最长公共子串表中不存在,表明“百度视频”和“百度视频热门电视剧潜伏”为同一应用。例如两个应用的名称为“百度外卖”和“百度文库”,其最长公共子串为“百度”,在最长公共子串表中存在,所以“百度外卖”和“百度文库”为不同的应用。
现有的去重方式是建立基础表,在基础表中会记录同一对象的各种不同名称,通过查表来实现去重。现有的处理方式需要频繁更新基础表才能保证去重的准确性。而本实施例提供的数据去重的方法,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。尤其对同一款应用因不同时期的宣传需要,对名称进行修改的情况,本实施例提供的数据去重的方法尤为有效。
其中,在步骤S1前,还需要对于目标数据进行筛选。以应用为例,如果去重关注的重点是热门应用,则先进行热门应用的筛选,具体是从库中查找下载量超过设定阈值的应用。应当指出的是,如果是其他类型的数据,筛选的指标可能是下载量、访问量等等。当然,这一步并不是必须的。
步骤S1中,根据获取的目标数据构建最长公共子串表的方法具体包括:
步骤S11,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串。
其中,数据集合是根据目标数据间的公共子串进行划分的。
例如:数据集合一{百度地图、百度地图导航、百度地图HD},最大公共子串为“百度地图”。
数据集合二{百度手机助手、百度手机卫士},最大公共子串为“百度手机”。
数据集合三{百度视频、百度视频热门电视剧潜伏、百度视频鬼吹灯}最大公共子串为“百度视频”。
数据集合四{百度外卖、百度视频、百度文库、百度音乐、百度新闻、百度贴吧},最大公共子串为“百度”。
步骤S12,检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
例如:数据集合一中,百度地图、百度地图导航、百度地图HD为不同的应用,则将“百度地图”存入最大公共子串表。
数据集合二中,百度手机助手、百度手机卫士为不同的应用,则将“百度手机”存入最大公共子串表。
数据集合三中,百度视频、百度视频热门电视剧潜伏、百度视频鬼吹灯为相同的应用,则“百度视频”不放入最大公共子串表。
数据集合四中,百度外卖、百度视频、百度文库、百度音乐、百度新闻、百度贴吧为不同的应用,则将“百度”放入最大公共子串表。
步骤S1可以由人工辅助实现,也可以完全由程序实现。
如果是人工辅助实现,具体实现方式可以是:将筛选出来的目标数据导入表格中(例如excel表格),然后人工对表格中的数据进行筛选,根据筛选出来的数据得到若干数据集合,每个数据集合由具有公共子串但不是相同应用的应用构成,对应一个最大公共子串,将这些最大公共子串保存为最大公共子串表。在数据筛选时,使用excel中的排序功能,根据目标数据中的前几个字符进行排序,可以提高筛选的效率。
如果采用程序实现步骤S1,其具体实现方式为:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,该相同最长公共子串即为数据集合对应的最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
其中,提取两个数据的最长公共子串的方法包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。
由于中文语法的原因,应用的前几个字符不会随意变动。因此,在提取两个数据的最长公共子串时,是从两个数据的第一个字符开始判断的。这样判断的优点是数据数个月之内不会发生变化,不用每月进行重新判断,可以半年更新一次不同开发者的表,大大降低更新表的频率,也不会影响判断的准确率。
其中,检测每个数据集合中的目标数据指代的对象是否相同的方法有很多种。以应用为例,利用爬虫技术从应用商店爬取应用信息,根据应用信息判断是否是相同的应用。
基于与上述数据去重的方法相同的发明构思,本实施例还提供了一种数据去重的装置,如图2所示,包括:最长公共子串表构建模块,用于根据获取的目标数据构建最长公共子串表;去重判断模块,用于提取两个需要进行去重判断的数据的最长公共子串,并将最长公共子串与最长公共子串表中的子串进行比较,若最长公共子串表中不存在与最长公共子串相同的子串,则对两个数据进行去重处理。
本实施例提供的数据去重的装置,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。尤其对同一款应用因不同时期的宣传需要,对名称进行修改的情况,本实施例提供的数据去重的方法尤为有效。
其中,最长公共子串表构建模块具体用于:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
其中,最长公共子串表构建模块中,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,相同最长公共子串为数据集合对应的最大公共子串。
其中,去重判断模块中,提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。
其中,目标数据和数据均为应用的应用名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种数据去重的方法,其特征在于,包括:
根据获取的目标数据构建最长公共子串表;
提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;
若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理;
其中,每个目标数据指代一个对象,存入所述最长公共子串表中的最长公共子串至少对应两个不同的对象。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标数据构建最长公共子串表,包括:
根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;
检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
3.根据权利要求2所述的方法,其特征在于,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:
对获取的目标数据进行两两比对,提取最长公共子串;
将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。
4.根据权利要求1所述的方法,其特征在于,所述提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标数据和所述数据均为应用的应用名称。
6.一种数据去重的装置,其特征在于,包括:
最长公共子串表构建模块,用于根据获取的目标数据构建最长公共子串表;
去重判断模块,用于提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较,若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理;
其中,每个目标数据指代一个对象,存入所述最长公共子串表中的最长公共子串至少对应两个不同的对象。
7.根据权利要求6所述的装置,其特征在于,所述最长公共子串表构建模块具体用于:
根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;
检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。
8.根据权利要求7所述的装置,其特征在于,所述最长公共子串表构建模块中,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:
对获取的目标数据进行两两比对,提取最长公共子串;
将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。
9.根据权利要求6所述的装置,其特征在于,所述去重判断模块中,提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述目标数据和所述数据均为应用的应用名称。
CN201710010119.0A 2017-01-06 2017-01-06 数据去重的方法及装置 Expired - Fee Related CN108280085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710010119.0A CN108280085B (zh) 2017-01-06 2017-01-06 数据去重的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710010119.0A CN108280085B (zh) 2017-01-06 2017-01-06 数据去重的方法及装置

Publications (2)

Publication Number Publication Date
CN108280085A CN108280085A (zh) 2018-07-13
CN108280085B true CN108280085B (zh) 2021-07-27

Family

ID=62800873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710010119.0A Expired - Fee Related CN108280085B (zh) 2017-01-06 2017-01-06 数据去重的方法及装置

Country Status (1)

Country Link
CN (1) CN108280085B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756591B (zh) * 2022-04-15 2022-10-14 成都卓讯智安科技有限公司 一种基于双向链表的数据筛选方法和系统
CN117076474B (zh) * 2023-10-16 2024-03-12 之江实验室 离线多模态文献数据的更新方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064908A (zh) * 2012-12-18 2013-04-24 北京讯鸟软件有限公司 一种通过内存快速去重名单的方法
CN103218368A (zh) * 2012-01-20 2013-07-24 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN103959254A (zh) * 2011-11-30 2014-07-30 国际商业机器公司 优化去重后的数据的迁移/复制
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN105045900A (zh) * 2015-08-05 2015-11-11 石河子大学 数据提取的方法及装置
CN106126670A (zh) * 2016-06-28 2016-11-16 努比亚技术有限公司 运营数据排序处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934714B2 (en) * 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959254A (zh) * 2011-11-30 2014-07-30 国际商业机器公司 优化去重后的数据的迁移/复制
CN103218368A (zh) * 2012-01-20 2013-07-24 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN103064908A (zh) * 2012-12-18 2013-04-24 北京讯鸟软件有限公司 一种通过内存快速去重名单的方法
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN105045900A (zh) * 2015-08-05 2015-11-11 石河子大学 数据提取的方法及装置
CN106126670A (zh) * 2016-06-28 2016-11-16 努比亚技术有限公司 运营数据排序处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于语义指纹和LCS的文本去重方法;陈露;《软件》;20141225(第11期);第25-30页 *
网页去重中的关键词和特征串提取;符于江;《电子技术与软件工程》;20160901(第17期);第28-29页 *

Also Published As

Publication number Publication date
CN108280085A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
JP5328808B2 (ja) データをクラスタリングする方法、システム、装置およびその方法を適用するためのコンピュータ・プログラム
CN110162621B (zh) 分类模型训练方法、异常评论检测方法、装置及设备
CN102110132B (zh) 统一资源定位符匹配查找方法、装置和网络侧设备
CN109213844B (zh) 一种文本处理方法、装置以及相关设备
CN103678494A (zh) 客户端同步服务端数据的方法及装置
WO2020211236A1 (zh) 基于b+树的读写冲突解决方法、装置及存储介质
CN109271641B (zh) 一种文本相似度计算方法、装置及电子设备
JP2009520283A (ja) 複数セグメント文字列の検索
CN109408589B (zh) 数据同步方法及装置
CN111831785B (zh) 敏感词检测方法、装置、计算机设备及存储介质
CN109857898A (zh) 一种海量数字音频指纹存储与检索的方法及系统
CN109086456B (zh) 数据索引方法及装置
CN105760380A (zh) 数据库查询方法、装置及系统
CN112347767B (zh) 一种文本处理方法、装置及设备
CN108280085B (zh) 数据去重的方法及装置
US20160239510A1 (en) Method for Extracting Useful Content from Setup Files of Mobile Applications
CN105574030A (zh) 一种信息搜索方法及装置
CN107193870B (zh) 网页内容的提取方法和系统
CN111061972B (zh) 一种用于url路径匹配的ac查找优化方法和装置
CN110515895B (zh) 大数据存储系统中对数据文件进行关联存储的方法及系统
CN112559913B (zh) 一种数据处理方法、装置、计算设备及可读存储介质
KR20140012377A (ko) 인덱스 파일 생성방법, 사전 인덱스 파일을 이용한 데이터 검색 방법 및 데이터 관리 시스템, 기록매체
CN105653540B (zh) 文件属性信息的处理方法和装置
CN107577667B (zh) 一种实体词处理方法和装置
US8682644B1 (en) Multi-language sorting index

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210727

Termination date: 20220106

CF01 Termination of patent right due to non-payment of annual fee