CN104899189B - 基于信息熵的对象名称匹配方法 - Google Patents

基于信息熵的对象名称匹配方法 Download PDF

Info

Publication number
CN104899189B
CN104899189B CN201510280012.9A CN201510280012A CN104899189B CN 104899189 B CN104899189 B CN 104899189B CN 201510280012 A CN201510280012 A CN 201510280012A CN 104899189 B CN104899189 B CN 104899189B
Authority
CN
China
Prior art keywords
comentropy
object oriented
gram
character
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510280012.9A
Other languages
English (en)
Other versions
CN104899189A (zh
Inventor
王明兴
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201510280012.9A priority Critical patent/CN104899189B/zh
Publication of CN104899189A publication Critical patent/CN104899189A/zh
Priority to PCT/CN2015/094379 priority patent/WO2016188051A1/zh
Application granted granted Critical
Publication of CN104899189B publication Critical patent/CN104899189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于信息熵的对象名称匹配方法。该方法包括:步骤10、收集所有待识别对象名称;步骤20、计算每个字符的信息熵;步骤30、将第一对象名称和第二对象名称分别转换为第一和第二Q‑Gram字符串序列;步骤40、计算该第一和第二Q‑Gram字符串序列的并集内每个Q‑Gram字符串的信息熵;步骤50、求该第一和第二Q‑Gram字符串序列内所有Q‑Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0;步骤60、对于该并集内每个q‑Gram字符串token及其信息熵entropy,计算token对应的信息熵差,并加到总信息熵差difference上;步骤70、计算该第一对象名称和第二对象名称的相似度。本发明基于信息熵的对象名称匹配方法能够有效识别两个对象名称之间的相似度。

Description

基于信息熵的对象名称匹配方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于信息熵的对象名称匹配方法。
背景技术
对象识别又称记录匹配,其目的是从(不可靠的)各种数据源中识别出表示同一现实对象的记录。对象识别在数据清洗、数据集成、数据分析等应用中具有重要作用。对象识别所用的数据中,一类普遍遇到且非常重要的数据是名称类数据,如机构名称、药品名称、建筑物名称等。如何有效的计算出两个名称之间的相似度对对象识别至关重要。
名称匹配的结果通常通过比较字符串相似度来得出。现有的字符串相似度计算方法包括编辑距离、向量空间、Q-Gram等。但是,现有的字符串相似度计算方法不能很好的识别两个对象名称之间内在的相似度。例如,传统的Q-Gram计算方法判断“深圳市华傲数据技术有限公司”与“华傲数据技术有限公司”的相似度较低为0.74,但人们很容易判别出这两个名字实际上代表同一家企业;传统的Q-Gram计算方法判断“天津市南开区宏业汽车配件经营部”与“天津市南开区久晟汽车配件经营部”之间的相似度为0.76,但人们知道它们代表的是两家企业。因此,用户利用传统的Q-Gram计算方法进行对象名称匹配时,会得出一些不正确的结论,无法有效识别两个对象名称之间的相似度。
发明内容
本发明的目的在于提供一种基于信息熵的对象名称匹配方法,改进两个对象名称之间相似度的识别。
为实现上述目的,本发明提供一种基于信息熵的对象名称匹配方法,包括:
步骤10、收集所有待识别对象名称,统计每个字符出现的次数freq以及对象名称的总数totalNum,如果字符在一对象名称中出现多次按一次计算;
步骤20、对每个字符,根据对象名称的总数totalNum及字符出现的次数freq之间的比值计算字符的信息熵;
步骤30、将第一对象名称和第二对象名称分别转换为第一和第二Q-Gram字符串序列;
步骤40、计算该第一和第二Q-Gram字符串序列的并集内每个Q-Gram字符串的信息熵,Q-Gram字符串的信息熵为Q-Gram字符串中每个字符的信息熵之和;
步骤50、求该第一和第二Q-Gram字符串序列内所有Q-Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0;
步骤60、对于该并集内每个Q-Gram字符串token及其信息熵entropy,将token在该第一Q-Gram字符串序列中出现的次数记为num1,将token在该第二Q-Gram字符串序列中出现的次数记为num2,如果没有出现则相应的次数为0;计算token对应的信息熵差为:|num1-num2|×entropy,并加到总信息熵差difference上;
步骤70、计算得出该第一对象名称和第二对象名称的相似度为:(totalEntropy-difference)/totalEntropy。
其中,所述Q-Gram为2-Gram。
其中,所述Q-Gram为3-Gram。
其中,字符的信息熵=log(totalNum/freq)。
其中,所述对象名称为机构名称、药品名称或建筑物名称。
其中,所述对象名称包含中文字符或英文字符。
为实现上述目的,本发明还提供了一种基于信息熵的对象名称匹配方法,包括:
步骤1、收集所有待识别对象名称,统计每个字符出现的次数freq以及对象名称的总数totalNum,如果字符在一对象名称中出现多次按一次计算;
步骤2、对每个字符,根据对象名称的总数totalNum及字符出现的次数freq之间的比值计算字符的信息熵;
步骤3、将第一对象名称和第二对象名称分别转换为第一和第二Q-Gram字符串序列;
步骤4、计算该第一和第二Q-Gram字符串序列的并集内每个Q-Gram字符串的信息熵,Q-Gram字符串的信息熵为Q-Gram字符串中每个字符的信息熵之和;
步骤5、求该并集内所有Q-Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0;
步骤6、对于该并集内每个Q-Gram字符串token及其信息熵entropy,将token在该第一Q-Gram字符串序列中出现的次数记为num1,将token在该第二Q-Gram字符串序列中出现的次数记为num2,如果没有出现则相应的次数为0;计算token对应的信息熵差为:|num1-num2|×entropy,并加到总信息熵差difference上;
步骤7、计算得出该第一对象名称和第二对象名称的相似度为:(totalEntropy-difference)/totalEntropy。
其中,所述Q-Gram为2-Gram或3-Gram。
其中,字符的信息熵=log(totalNum/freq)。
其中,所述对象名称为机构名称、药品名称或建筑物名称。
其中,所述对象名称包含中文字符或英文字符。
综上所述,本发明基于信息熵的对象名称匹配方法能够有效识别两个对象名称之间的相似度,处理名称类数据匹配问题效果更佳。
附图说明
图1为本发明基于信息熵的对象名称匹配方法的流程图。
具体实施方式
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
参见图1,其为本发明基于信息熵的对象名称匹配方法的流程图。
主要包括:
步骤10、收集所有待识别对象名称,统计每个字符出现的次数freq以及对象名称的总数totalNum,如果字符在一对象名称中出现多次按一次计算。
步骤20、对每个字符,根据对象名称的总数totalNum及字符出现的次数freq之间的比值计算字符的信息熵。
本发明考虑到名称每个字符在整个名称中的权重是不一样的,有些字符是很关键的,而有些字符在某些场合些通常会忽略,如机构名称“深圳市华傲数据技术有限公司”中,“深圳市”3个字符代表企业所处区域,当在某个特定区域内计算一批机构名之间的相似度时(如识别所有广东省内的企业),这个3个字符通常是无关紧要的;“华傲”是名称中最关键的部分;“数据技术”代表企业的类别,有一定的参考意义;“有限公司”代表企业的性质,通常在比较时也是无关紧要的。因此比较名称时需要区分每个字符的权重。本发明的方案是基于Q-Gram计算相似度的方法,同时利用了每个字符的信息熵。
字符的信息熵可以用公式log(totalNum/freq)来计算,log可以取2、e或其它任意适合的常数为底。在本发明中,字符的信息熵的计算公式可以根据如下条件选定:如果某个字符出现的越频繁,其信息含量越低;反之,说明其信息含量高,对对象的区分更有价值。
通过步骤10和20计算得出所有字符的信息熵,用于接下来计算两个对象名称的相似度。
步骤30、将第一对象名称和第二对象名称分别转换为第一和第二Q-Gram字符串序列。
假设对象名称1为str1,对象名称2为str2。
在第一较佳实施例中,分别将str1、str2转换成2-Gram字符串序列str1Tokens、str2Tokens,即每连续的2个字符组成一个新字符串,如“南开区天诚医药保健品研究所”对应的2-Gram字符串序列:
[南开,开区,区天,天诚,诚医,医药,药保,保健,健品,品研,研究,究所]。
或者,在第二较佳实施例中,分别将str1、str2转换成3-Gram字符串序列str1Tokens、str2Tokens,即每连续的3个字符组成一个新字符串,如“南开区天诚医药保健品研究所”对应的3-Gram字符串序列:
[南开区,开区天,区天诚,天诚医,诚医药,医药保,药保健,保健品,健品研,品研究,研究所]。
步骤40、计算该第一和第二Q-Gram字符串序列的并集内每个Q-Gram字符串的信息熵,Q-Gram字符串的信息熵为Q-Gram字符串中每个字符的信息熵之和。
在第一较佳实施例中,计算每个2-Gram字符串的信息熵。
或者,在第二较佳实施例中,计算每个3-Gram字符串的信息熵。
步骤50、求该第一和第二Q-Gram字符串序列内所有Q-Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0。
也就是求str1Tokens、str2Tokens内每个字符串信息熵的总和,记为totalEntropy,并且初始化2个名称的总信息熵差difference为0。
步骤60、对于该并集内每个Q-Gram字符串token及其信息熵entropy,将token在该第一Q-Gram字符串序列中出现的次数记为num1,将token在该第二Q-Gram字符串序列中出现的次数记为num2,如果没有出现则相应的次数为0;计算token对应的信息熵差为:|num1-num2|×entropy,并加到总信息熵差difference上。也就是difference+=|num1-num2|×entropy。
步骤70、计算得出该第一对象名称和第二对象名称的相似度为:(totalEntropy-difference)/totalEntropy。
至此,2个对象名称之间的相似度计算完毕。
本发明基于信息熵的对象名称匹配方法可以适合于各类对象名称,特别是机构名称、药品名称或建筑物名称,而且优选适用于同一类待识别对象名称的匹配,例如,待识别数据均为机构名称,均为药品名称或均为建筑物名称。对象名称中可以包含中文字符或英文字符,其它语言的字符,或其它符号。
实验表明,相比于原始的Q-Gram计算相似度的方法,本发明的计算效果有明显的改善,例如:
在第一较佳实施例中采用2-Gram时,
1.对于“天津市南开区宏业汽车配件经营部”与“天津市南开区久晟汽车配件经营部”,原始Q-Gram相似度为0.765,本方法计算出的值为0.656,本方法更能区分它们属于不同的企业;
2.对于“天津市南开区星辰计算机耗材经营部”和“天津市南开区顺惟计算机耗材经营部”,原始Q-Gram相似度为0.778,本方法计算出的值为0.654,同样更具有区分度;
3.对于“南开区天诚医药保健品研究所”和“天津市南开区天诚医药保健品研究所”,原始Q-Gram相似度为0.788,本方法计算出的值为0.986,本方法更能揭示它们代表同一家企业;
在第二较佳实施例中采用3-Gram时,
1.对于“天津市南开区宏业汽车配件经营部”与“天津市南开区久晟汽车配件经营部”,原始Q-Gram相似度为0.765,本方法计算出的值为0.571,本方法更能区分它们属于不同的企业;
2.对于“天津市南开区星辰计算机耗材经营部”和“天津市南开区顺惟计算机耗材经营部”,原始Q-Gram相似度为0.778,本方法计算出的值为0.586,同样更具有区分度;
3.对于“南开区天诚医药保健品研究所”和“天津市南开区天诚医药保健品研究所”,原始Q-Gram相似度为0.788,本方法计算出的值为0.977,本方法更能揭示它们代表同一家企业。
在第三较佳实施例中,本发明还提供了一种基于信息熵的对象名称匹配方法,包括:
步骤1、收集所有待识别对象名称,统计每个字符出现的次数freq以及对象名称的总数totalNum,如果字符在一对象名称中出现多次按一次计算;
步骤2、对每个字符,根据对象名称的总数totalNum及字符出现的次数freq之间的比值计算字符的信息熵;
步骤3、将第一对象名称和第二对象名称分别转换为第一和第二Q-Gram字符串序列;
步骤4、计算该第一和第二Q-Gram字符串序列的并集内每个Q-Gram字符串的信息熵,Q-Gram字符串的信息熵为Q-Gram字符串中每个字符的信息熵之和;
步骤5、求该并集内所有Q-Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0;
步骤6、对于该并集内每个Q-Gram字符串token及其信息熵entropy,将token在该第一Q-Gram字符串序列中出现的次数记为num1,将token在该第二Q-Gram字符串序列中出现的次数记为num2,如果没有出现则相应的次数为0;计算token对应的信息熵差为:|num1-num2|×entropy,并加到总信息熵差difference上;
步骤7、计算得出该第一对象名称和第二对象名称的相似度为:(totalEntropy-difference)/totalEntropy。
该第三较佳实施例与第一或第二较佳实施例的区别在于步骤5中是求并集内所有Q-Gram字符串的信息熵的总和totalEntropy,相对减小了totalEntropy,放大了difference对相似度的影响,相比于原始的Q-Gram计算相似度的方法,计算效果同样有明显的改善。
综上所述,本发明基于信息熵的对象名称匹配方法能够有效识别两个对象名称之间的相似度,处理名称类数据匹配问题效果更佳。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于信息熵的对象名称匹配方法,其特征在于,包括:
步骤10、收集所有待识别对象名称,统计每个字符出现的次数freq以及对象名称的总数totalNum,如果字符在一对象名称中出现多次按一次计算;
步骤20、对每个字符,根据对象名称的总数totalNum及字符出现的次数freq之间的比值计算字符的信息熵;
步骤30、将第一对象名称和第二对象名称分别转换为第一和第二Q-Gram字符串序列;
步骤40、计算该第一和第二Q-Gram字符串序列的并集内每个Q-Gram字符串的信息熵,Q-Gram字符串的信息熵为Q-Gram字符串中每个字符的信息熵之和;
步骤50、求该第一和第二Q-Gram字符串序列内所有Q-Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0;
步骤60、对于该并集内每个Q-Gram字符串token及其信息熵entropy,将token在该第一Q-Gram字符串序列中出现的次数记为num1,将token在该第二Q-Gram字符串序列中出现的次数记为num2,如果没有出现则相应的次数为0;计算token对应的信息熵差为:|num1-num2|×entropy,并加到总信息熵差difference上;
步骤70、计算得出该第一对象名称和第二对象名称的相似度为:(totalEntropy-difference)/totalEntropy。
2.根据权利要求1所述的基于信息熵的对象名称匹配方法,其特征在于,所述Q-Gram为2-Gram。
3.根据权利要求1所述的基于信息熵的对象名称匹配方法,其特征在于,所述Q-Gram为3-Gram。
4.根据权利要求1所述的基于信息熵的对象名称匹配方法,其特征在于,字符的信息熵=log(totalNum/freq)。
5.根据权利要求1所述的基于信息熵的对象名称匹配方法,其特征在于,所述对象名称为机构名称、药品名称或建筑物名称。
6.根据权利要求1所述的基于信息熵的对象名称匹配方法,其特征在于,所述对象名称包含中文字符或英文字符。
7.一种基于信息熵的对象名称匹配方法,其特征在于,包括:
步骤1、收集所有待识别对象名称,统计每个字符出现的次数freq以及对象名称的总数totalNum,如果字符在一对象名称中出现多次按一次计算;
步骤2、对每个字符,根据对象名称的总数totalNum及字符出现的次数freq之间的比值计算字符的信息熵;
步骤3、将第一对象名称和第二对象名称分别转换为第一和第二Q-Gram字符串序列;
步骤4、计算该第一和第二Q-Gram字符串序列的并集内每个Q-Gram字符串的信息熵,Q-Gram字符串的信息熵为Q-Gram字符串中每个字符的信息熵之和;
步骤5、求该并集内所有Q-Gram字符串的信息熵的总和totalEntropy,初始化该第一对象名称和第二对象名称的总信息熵差difference为0;
步骤6、对于该并集内每个Q-Gram字符串token及其信息熵entropy,将token在该第一Q-Gram字符串序列中出现的次数记为num1,将token在该第二Q-Gram字符串序列中出现的次数记为num2,如果没有出现则相应的次数为0;计算token对应的信息熵差为:|num1-num2|×entropy,并加到总信息熵差difference上;
步骤7、计算得出该第一对象名称和第二对象名称的相似度为:(totalEntropy-difference)/totalEntropy。
8.根据权利要求7所述的基于信息熵的对象名称匹配方法,其特征在于,所述Q-Gram为2-Gram或3-Gram。
9.根据权利要求7所述的基于信息熵的对象名称匹配方法,其特征在于,字符的信息熵=log(totalNum/freq)。
10.根据权利要求7所述的基于信息熵的对象名称匹配方法,其特征在于,所述对象名称为机构名称、药品名称或建筑物名称。
CN201510280012.9A 2015-05-27 2015-05-27 基于信息熵的对象名称匹配方法 Active CN104899189B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510280012.9A CN104899189B (zh) 2015-05-27 2015-05-27 基于信息熵的对象名称匹配方法
PCT/CN2015/094379 WO2016188051A1 (zh) 2015-05-27 2015-11-12 基于信息熵的对象名称匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510280012.9A CN104899189B (zh) 2015-05-27 2015-05-27 基于信息熵的对象名称匹配方法

Publications (2)

Publication Number Publication Date
CN104899189A CN104899189A (zh) 2015-09-09
CN104899189B true CN104899189B (zh) 2017-11-28

Family

ID=54031858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510280012.9A Active CN104899189B (zh) 2015-05-27 2015-05-27 基于信息熵的对象名称匹配方法

Country Status (2)

Country Link
CN (1) CN104899189B (zh)
WO (1) WO2016188051A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899189B (zh) * 2015-05-27 2017-11-28 深圳市华傲数据技术有限公司 基于信息熵的对象名称匹配方法
ES2712483A1 (es) * 2017-11-13 2019-05-13 Shengmin Li Una membrana de ultrafiltración y su procedimiento de preparación
CN110929111B (zh) * 2019-11-19 2023-03-31 支付宝(杭州)信息技术有限公司 用于匹配私有数据的匹配模式自动生成方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789467A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 一种数据融合的方法、装置及数据处理系统
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN104572627A (zh) * 2015-01-30 2015-04-29 深圳市华傲数据技术有限公司 基于信息熵的对象名称编辑距离计算方法及匹配方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
EP1866808A2 (en) * 2005-03-19 2007-12-19 ActivePrime, Inc. Systems and methods for manipulation of inexact semi-structured data
CN102768659B (zh) * 2011-05-03 2015-06-24 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
CN104899189B (zh) * 2015-05-27 2017-11-28 深圳市华傲数据技术有限公司 基于信息熵的对象名称匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789467A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 一种数据融合的方法、装置及数据处理系统
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN104572627A (zh) * 2015-01-30 2015-04-29 深圳市华傲数据技术有限公司 基于信息熵的对象名称编辑距离计算方法及匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于字符熵的JavaScript代码混淆自动检测方法;宣以广,周华;《计算机应用与软件》;20150115;第32卷(第1期);309-312 *

Also Published As

Publication number Publication date
CN104899189A (zh) 2015-09-09
WO2016188051A1 (zh) 2016-12-01

Similar Documents

Publication Publication Date Title
Chou et al. Pattern-based near-duplicate video retrieval and localization on web-scale videos
Miao et al. Extracting data records from the web using tag path clustering
CN104572627B (zh) 基于信息熵的对象名称编辑距离计算方法及匹配方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
Yeung et al. Videoset: Video summary evaluation through text
Zaiane et al. Mining multimedia data.
US10282616B2 (en) Visual data mining
US8620930B2 (en) Method and system for determining similarity score
US8798400B2 (en) Using near-duplicate video frames to analyze, classify, track, and visualize evolution and fitness of videos
CN104899189B (zh) 基于信息熵的对象名称匹配方法
JP2005063277A (ja) 多頻度パターン抽出装置、多頻度パターン抽出方法、及びそのプログラムと記録媒体
CN106407180A (zh) 一种实体消歧方法及装置
Cao et al. Scaling up cosine interesting pattern discovery: A depth-first method
WO2017092574A1 (zh) 一种基于混合数据类型数据的挖掘方法
Seidl et al. Automated classification of petroglyphs
Kender et al. Video genetics: A case study from youtube
CN105678244B (zh) 一种基于改进编辑距离的近似视频检索方法
Zhou et al. Organizer team at ImageCLEFlifelog 2017: baseline approaches for lifelog retrieval and summarization
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
Guo et al. A general approach for partitioning web page content based on geometric and style information
Tehsin et al. Text localization and detection method for born-digital images
Li et al. Cleaning web pages for effective web content mining
Kang et al. Detecting informative web page blocks for efficient information extraction using visual block segmentation
CN114492425A (zh) 采用一套领域标签体系将多维度数据打通的方法
Tang et al. Finding repetitive patterns in 3D human motion captured data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.