CN104572938B - 一种以查询驱动的Web实体识别方法和系统 - Google Patents

一种以查询驱动的Web实体识别方法和系统 Download PDF

Info

Publication number
CN104572938B
CN104572938B CN201410841948.XA CN201410841948A CN104572938B CN 104572938 B CN104572938 B CN 104572938B CN 201410841948 A CN201410841948 A CN 201410841948A CN 104572938 B CN104572938 B CN 104572938B
Authority
CN
China
Prior art keywords
attribute
msub
mrow
entity
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410841948.XA
Other languages
English (en)
Other versions
CN104572938A (zh
Inventor
姜芳艽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinyi Shuju Technology Co., Ltd
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN201410841948.XA priority Critical patent/CN104572938B/zh
Publication of CN104572938A publication Critical patent/CN104572938A/zh
Application granted granted Critical
Publication of CN104572938B publication Critical patent/CN104572938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种以查询驱动的Web实体识别方法和系统,系统包括:Web用户查询模块,用于在Web数据库查询接口提交查询;Web数据库模块,用于接受用户提交的查询,并返回相应的结果;随机样本数据库,用于采集并保存从Web数据库返回的随机样本数据,将数据发送给实体识别器;实体识别器,用于计算属性的区分能力、动态权重以及实体相似度。采用的方法是:分析Web数据库中各属性之间的相关性,获取Web数据库数据的近似随机样本,计算各属性在实体识别中的区分能力,分析用户提交的查询调整各属性权重大小,计算实体之间的相似度,进行实体识别。

Description

一种以查询驱动的Web实体识别方法和系统
技术领域
本发明涉及Web实体识别技术领域,具体是一种以查询驱动的Web实体识别方法。
背景技术
实体中各属性的区分能力是计算实体之间相似程度的重要因素,如果已知数据库中的全部数据,从属性值的分布特点才有可能推测属性在区分实体方面的能力,但对于Web数据库的数据,只能通过在查询接口提交查询的方式,获取部分数据,这些部分数据能否反映整个数据的全貌,是我们要研究的问题。从数据库中选择随机样本有一些方法,Goodman的估计法是一种无偏的随机样本估计方法,但是由于其产生的方差很高,所以在实际中并不能很好地应用。其他方法的前提均为已知数据库的全部数据,而在Web数据库环境中,这一前提条件在Web数据集成环境中显然是不成立的,因此不再适用。随机漫步的方法通过提交随机查询对Web数据库进行采样,取得了较好的随机样本,但是其得到的样本是数据库级样本,提交的查询多,获取的数据量大,相对于我们方法中的获取属性级随机样本而言,其复杂度很高。获取某一属性随机样本的基本方法是通过在其他属性上提交查询收集该属性上的数据。但是由于属性间存在各种各样的相关性,因此很难保证得到的样本是随机的。由此产生的第一个问题:属性级随机样本难获取。
各属性的属性值分布特点不同,各属性的数据类型也不同,因此,各属性在区分实体方面的能力存在很大的差异。由此产生了第二个问题:属性在区分实体方面的能力难计算。
用户提交查询是不同的,在某一或某属性组上提交查询条件,将直接影响到返回结果在这些属性或属性组合上的属性值分布,且进一步影响与其具有相关性属性的值分布,从而影响到属性在区分实体方面的能力。由此产生了第三个问题:属性在区分实体方面的能力在动态变化,需要动态调整各属性在实体识别中的区分权重。
发明内容
本发明提供了一种以查询驱动的Web实体识别方法,用于Web数据库实体识别,具有查询次数少,结果准确的优点。
本发明采用的技术方案:一种以查询驱动的Web实体识别方法,包括以下步骤:
A:通过Web数据库查询接口提交查询,获取Web数据库中返回的部分数据,分析Web数据库中各属性之间的相关性,得到Aj的弱相关性属性Ai
B:得到弱相关性属性Ai后,在该属性上向Web数据库提交探测查询,将从属性Aj上收集到的返回结果作为属性Aj的属性级随机样本;
C:分析Web数据库的近似随机样本,计算各属性在实体识别中的区分能力,即权重;
D:分析用户提交的查询,分析查询条件涉及的属性对返回结果各属性的值分布的影响,调整各属性的权重大小;
E:依据属性的权重和数据类型,选择相似度计算函数,计算实体之间的相似度,进行实体识别。
一种执行如权利要求1所述方法的以查询驱动的Web实体识别系统,包括:
Web用户查询模块,用于在Web数据库查询接口提交查询;
Web数据库模块,用于接受用户提交的查询,并返回相应的结果;
随机样本数据库,用于采集并保存从Web数据库返回的随机样本数据,将数据发送给实体识别器;
实体识别器,用于计算属性的区分能力、动态权重以及实体相似度。
本发明的有益效果:能够方便地获取某一属性的属性级随机样本,准确计算该属性在区分实体方面的区分能力,并且可以动态调整各属性在实体识别中的区分权重。
附图说明
图1是本发明的以查询驱动的Web实体识别系统的结构图;
图2是本发明的以查询驱动的Web实体识别方法的流程图;
图3是本发明的属性值词频分布示意图;
图4是本发明的属性相关性的例子;
图5是本发明的基于查询的属性权重的动态调整方法的流程图。
具体实施方式
以下是本发明的一个具体实施例,现结合附图作进一步说明。
首先结合图1对本发明的系统进行说明。本发明提供一种以查询驱动的Web实体识别系统,包括:Web用户查询模块、Web数据库模块、随机样本数据库和实体识别器。
通过Web数据库查询接口提交查询,获取Web数据库中的部分数据,分析Web数据库中各属性之间的相关性,属性的相关性表示了不同属性的数据在数量和质量上的相互依赖性,可以通过在属性Ai上提交探测查询,然后用属性Aj上返回词频分布的差异性进行衡量。属性词分布的差异性越大,属性Aj越依赖于属性Ai,属性Aj和Ai之间的属性相关性越强。根据对属性之间的相关性进行排序,得到最不相关的属性Ai后,在该属性上向Web数据库提交一些探测查询,将在属性Aj上收集到的返回结果作为属性Aj的属性级随机样本,并将其存入随机样本数据库。
属性级随机样本是相对于数据库级或表级随机样本而言的,不考虑表中其他属性,只考虑单个属性上的值的分布情况,属性级随机样本是指能够正确反映单个属性上的值的总体分布情况的一部分属性值的集合。之所以通过弱相关性属性Ai来获得属性级随机样本,是因为如果属性Ai是Aj的弱相关性属性,那么在属性Ai上提交查询,得到的在属性Aj上的属性值的分布规律变化很小,近似可以看做Aj属性值的随机样本。反之,如果是强相关性,那么在属性Ai上提交查询,得到的在属性Aj上的属性值的分布变化,将随着查询条件的不同产生很大的差异,不能看做是Aj属性值的随机样本。
实体识别器包括属性的属性区分能力计算、属性的动态权重计算以及实体相似度计算三个部分。属性在实体识别中的区分能力,又叫静态权重,指当具有相同的属性值时,依据这个属性值区分两个实体是否是同一实体的能力。每个属性在实体识别中的区分能力是不同的,比如:如果两本书的“出版社”属性值都是“清华大学出版社”,很难因此确定它们是同一本书;但是如果两本书的“书名”属性值都是“追风筝的人”,那么它们是同一本书的可能性就很大,所以属性“书名”的区分能力要大于属性“出版社”的区分能力。属性区分能力采用信息检索中的信息文档频率的思想来表示,将每个实体视为一个短文本,一个属性值视为一个短语,包含一个属性值的实体越多,则此属性在实体识别中的区分能力越弱。
属性的动态权重是针对某一用户查询,根据其与提交查询条件涉及的属性或属性组的相关性,调整后得到的各属性在实体识别中的区分能力。
实体相似度则依据的动态权重及属性的数据类型,选择合适的相似度函数,计算实体之间的相似度,进行实体识别,用于比较购物或者对查询结果进行去重合并。
结合图1、图2对本发明提供的一种以查询驱动的Web实体识别方法进行说明。
一种以查询驱动的Web实体识别方法,该方法包括以下步骤:
给定一个Web数据库,其查询接口包含n个属性,假设需要获取其中某个属性Aj的属性级随机样本,和属性Aj在实体识别方面的区分能力以及动态调整该属性在实体识别中的区分权重,首先要得到Aj的弱相关性属性Ai
A:通过Web数据库查询接口提交查询,获取Web数据库中返回的部分数据,分析Web数据库中各属性之间的相关性,得到Aj的弱相关性属性Ai
B:得到弱相关性属性Ai后,在属性Ai上向Web数据库提交探测查询,将从属性Aj上收集到的返回结果作为属性Aj的属性级随机样本;
C:分析Web数据库的近似随机样本,计算各属性在实体识别中的区分能力,即权重;
D:分析用户提交的查询,分析查询条件涉及的属性对返回结果各属性的值分布的影响,调整各属性的权重大小;
E:依据属性的权重和数据类型,选择相似度计算函数,计算实体之间的相似度,进行实体识别。
其中,步骤A包括以下步骤:
A1:从查询接口选择属性Aj之外的某一属性A,在属性A上向Web数据库提交探测查询,收集和抽取在属性Aj上返回的结果保存在本地;
A2:分析每次返回结果中每个词的出现概率,计算属性Aj与属性A之间的相关性;
A3:重复步骤A1、A2,已经选择过的属性不再选择,直到除了属性Aj之外的所有属性都已经选择过为止;
A4:选择与属性Aj相关性最小的值Ai,即为Aj的弱相关性属性。
步骤A2分析每次返回结果中每个词出现的概率,计算属性Aj与属性Ai之间的相关性,该步骤进一步包括:
A21:统计属性Aj的词频分布,对于给定数据库D,假设属性Aj的属性值所包含的词为w1,w2,…,wm,则Aj上的词频分布为一个矢量如图3所示其每个分量是该词的词频,在每个属性值中任意词只出现一次的假设前提下,wi的词频σA D(A=wi)是指从Web数据库中选择满足属性A包含关键词wi的结果数量,其中,wi∈(w1,w2,…,wm);
其中,D是指数据库,σ是查询选择符号,A=wi是属性A满足的条件;公式σA D(A=wi)是指从Web数据库中选择满足属性A包含关键词wi的结果。计算词出现的概率,该词出现的次数占所有出现的词出现次数的比例;在属性Ai上提交不同的查询时,比较在属性Aj上词出现概率的差异,差异越小,属性Aj与属性Ai之间的相关性越弱;
A22:测量矢量之间的分布差异,如果在属性Ai上提交不同的查询Q1,Q2,…,Qs,则得到属性Aj上不同结果集S1,S2,…,Ss,设S为结果集的并集,S由词w1,w2,…,wk组成,则属性Aj上S与Sj之间的分布差异为:
其中,wl是Sj中包含的词,prob(Aj=wl|S)是Aj=wl在S中的概率,prob(Aj=wl|Sj)是Aj=wl在Sj中的概率,Sj未包含的词wl则被忽略,词分布的差异性可以由Sj中包含的词wl反映出来;
A23:计算属性相关性,属性相关性是分布差异的平均值:
差异性越小,属性Aj越不依赖Ai,属性Aj越与Ai越不相关。反之,则属性Aj与Ai越相关。如图4所示的属性相关性例子,属性Title与属性Author最相关,而与属性Year最不相关。
步骤C计算各属性在实体识别中的区分能力的方法为:
各属性在实体识别中的区分能力采用信息检索中的信息文档频率的思想来表示,将每个实体视为一个短文本,一个属性值视为一个短语;包含一个属性值的实体越多,则此属性在实体识别中的区分能力越弱,计算区分能力的公式为:
wi=log(N/rf)
其中,N是Web数据库中所有记录的数量,rf是某个属性中不同属性值的数量,由于无法获取Web数据库的全部数据,这里的N和rf取随机样本数据库中的属性级随机样本进行计算,即N为属性级随机样本中记录的个数,rf为该属性不同属性值的个数。
步骤D调整各属性的权重大小的方法为:
用户查询在某一或某属性组上提交查询条件,将直接影响到返回结果在这些属性或属性组合上的属性值分布,例如,如果用户查询是在Price属性上提交查询条件,返回结果在该属性上的值都一样。不仅如此,查询涉及的属性会进一步影响与其具有相关性属性的值分布,相关性越大的属性,其值分布受到的影响越大,从而影响到在具体查询返回结果中,属性在区分实体方面的能力。因此针对某一用户查询,根据其与提交查询条件涉及的属性或属性组的相关性,用下列公式调整各属性在实体识别中的权重:
wi=wiij(1-AC(Aj,Ai))
其中,wii是原始权重,Aj是查询涉及的属性或属性组,AC(Aj,Ai)是非查询属性Ai与每个查询属性Aj之间的相关性。非查询属性Ai与每个查询属性Aj之间的相关性越大,查询结果中属性Ai的属性值分布越偏离原有的属性值分布,属性的权重则在原来的基础上调整得越小;非查询属性Ai与每个查询属性Aj之间的相关性越小,查询结果中属性Ai的属性值分布越靠近原有的属性值分布,属性的权重则在原来的基础上调整得越大,从而动态调整各属性在实体识别中的权重。
步骤E则是依据步骤C和步骤D得出的属性权重,依据属性的数据类型,选择合适的相似度函数,计算实体之间的相似度,进行实体识别,用于比较购物或者对查询结果进行去重合并。
用以下公式计算实体之间的相似度:
其中,wi是属性Ai的在实体识别中的权重,S(rj,rk)是实体rj与实体rk之间的相似度,s(Ai)是实体rj与实体rk之间在属性Ai上的相似度。计算s(Ai)的相似度函数可以根据属性的类型,如字符型、数值型、范围型等,在已有的成熟的相似度函数,比如,编辑距离、Q-gram距离、单字符串距离等相似度函数中加以选择。
本方法的意义在于,我们无法看到整个Web数据库的全部数据,只能从一定的查询返回结果合理地推测数据库的分布特征;而且来自不同Web数据库的数据在形式上大相径庭;由于提交的查询涉及的属性不同,返回结果的分布特征也会有较大的变化,上述情况都给实体识别带来相当大的困难。通过此方法,可以通过获取小部分数据,对Web数据库中数据的分布特征进行准确的把握,可以及时调整由于查询涉及属性的不同给属性的实体区分能力带来的影响,从而可以更加准确地对来自不同Web数据库的查询结果进行实体识别,能够应用在集成Web数据库时,进行有效去重和比较购物。

Claims (6)

1.一种以查询驱动的Web实体识别方法,其特征在于,该方法包括以下步骤:
给定一个Web数据库,其查询接口包含n个属性,假设需要获取其中某个属性Aj的属性级随机样本,和属性Aj在实体识别方面的区分能力以及动态调整该属性在实体识别中的区分权重,首先要得到Aj的弱相关性属性Ai
A:通过Web数据库查询接口提交查询,获取Web数据库中返回的部分数据,分析Web数据库中各属性之间的相关性,得到Aj的弱相关性属性Ai
B:得到弱相关性属性Ai后,在属性Ai上向Web数据库提交探测查询,将从属性Aj上收集到的返回结果作为属性Aj的属性级随机样本;
C:分析Web数据库的近似随机样本,计算各属性在实体识别中的区分能力,即权重;计算各属性在实体识别中的区分能力的方法为:
各属性在实体识别中的区分能力采用信息检索中的信息文档频率的思想来表示,即:将每个实体视为一个短文本,一个属性值视为一个短语;包含一个属性值的实体越多,则此属性在实体识别中的区分能力越弱,计算区分能力的公式为:
wi=log(N/rf)
其中,N为属性级随机样本中记录的个数,rf为该属性不同属性值的个数;
D:分析用户提交的查询,分析查询条件涉及的属性对返回结果各属性的值分布的影响,调整各属性的权重大小;
E:依据属性的权重和数据类型,选择相似度计算函数,计算实体之间的相似度,进行实体识别。
2.根据权利要求1所述的一种以查询驱动的Web实体识别方法,其特征在于:步骤A包括以下步骤:
A1:从查询接口选择属性Aj之外的某一属性A,在属性A上向Web数据库提交探测查询,收集和抽取在属性Aj上返回的结果保存在本地;
A2:分析每次返回结果中每个词的出现概率,计算属性Aj与属性A之间的相关性;
A3:重复步骤A1、A2,已经选择过的属性不再选择,直到除了属性Aj之外的所有属性都已经选择过为止;
A4:选择与属性Aj相关性最小的值Ai,即为Aj的弱相关性属性。
3.根据权利要求2所述的一种以查询驱动的Web实体识别方法,其特征在于:步骤A2进一步包括:
A21:统计属性Aj的词频分布,对于给定数据库D,假设Aj的属性值所包含的词为:w1,w2,…,wm,则Aj上的词频分布为一个矢量其每个分量是该词的词频,在每个属性值中任意词只出现一次的假设前提下,wi的词频是指从Web数据库中选择满足属性A包含关键词wi的结果数量,其中,wi∈(w1,w2,…,wm);
A22:测量矢量之间的分布差异,如果在属性Ai上提交不同的查询Q1,Q2,…,Qs,则得到属性Aj上不同结果集S1,S2,…,Sj,…Ss,设S为结果集的并集,S由词w1,w2,…,wk组成,则属性Aj上S与Sj之间的分布差异为:
<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>w</mi> <mi>l</mi> </msub> <mo>|</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>w</mi> <mi>l</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow>
其中,wl是Sj中包含的词,prob(Aj=wl|S)是Aj=wl在S中的概率,prob(Aj=wl|Sj)是Aj=wl在Sj中的概率,Sj未包含的词则被忽略,词分布的差异性由Sj中包含的词wl反映出来;
A23:计算属性相关性,属性相关性是分布差异的平均值
<mrow> <mi>C</mi> <mi>o</mi> <mi>r</mi> <mi>r</mi> <mi>e</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>s</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mi>D</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
4.根据权利要求1所述的一种以查询驱动的Web实体识别方法,其特征在于:步骤D调整各属性的权重大小的方法为:
针对用户提交查询条件涉及的属性或属性组的相关性,用下列公式调整各属性在实体识别中的权重:
wi=wiij(1-AC(Aj,Ai))
其中,wii是原始权重,Aj是查询涉及的属性或属性组,AC(Aj,Ai)是非查询属性Ai与每个查询属性Aj之间的相关性。
5.根据权利要求1所述的一种以查询驱动的Web实体识别方法,其特征在于:步骤E选择相似度计算函数,计算实体之间的相似度,进行实体识别的方法为:
<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>r</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,wi是属性Ai依据步骤C或步骤D得出的在实体识别中的权重,S(rj,rk)是实体rj与实体rk之间的相似度,s(Ai)是实体rj与实体rk之间在属性Ai上的相似度;计算s(Ai)的相似度函数根据属性的类型在已有的成熟的相似度函数中加以选择。
6.一种执行如权利要求1所述方法的以查询驱动的Web实体识别系统,其特征在于,包括:
Web用户查询模块,用于在Web数据库查询接口提交查询;
Web数据库模块,用于接受用户提交的查询,并返回相应的结果;
随机样本数据库,用于采集并保存从Web数据库返回的随机样本数据,将数据发送给实体识别器;
实体识别器,用于计算属性的区分能力、动态权重以及实体相似度。
CN201410841948.XA 2014-12-30 2014-12-30 一种以查询驱动的Web实体识别方法和系统 Active CN104572938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410841948.XA CN104572938B (zh) 2014-12-30 2014-12-30 一种以查询驱动的Web实体识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410841948.XA CN104572938B (zh) 2014-12-30 2014-12-30 一种以查询驱动的Web实体识别方法和系统

Publications (2)

Publication Number Publication Date
CN104572938A CN104572938A (zh) 2015-04-29
CN104572938B true CN104572938B (zh) 2018-02-16

Family

ID=53089000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410841948.XA Active CN104572938B (zh) 2014-12-30 2014-12-30 一种以查询驱动的Web实体识别方法和系统

Country Status (1)

Country Link
CN (1) CN104572938B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228120B (zh) * 2016-07-14 2019-08-02 南京航空航天大学 查询驱动的大规模人脸数据标注方法
CN106777070B (zh) * 2016-12-12 2020-06-26 江苏师范大学 一种基于分块的Web记录链接的系统及方法
CN107341220B (zh) * 2017-06-28 2020-05-12 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN110532368B (zh) * 2019-09-04 2023-03-14 达闼机器人股份有限公司 问答方法、电子设备及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576888A (zh) * 2008-05-07 2009-11-11 香港理工大学 中文信息检索中基于结构约束的索引词权重计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130110830A1 (en) * 2011-10-31 2013-05-02 Microsoft Corporation Ranking of entity properties and relationships

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576888A (zh) * 2008-05-07 2009-11-11 香港理工大学 中文信息检索中基于结构约束的索引词权重计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multi-objective optimization integration of query interfaces for the Deep Web based on attribute constraints;Yanni Li 等;《Data & Knowledge Engineering》;20131231;第38页-60页 *
基于Zipf分布与属性相关性的选择性的估计;姜芳艽;《计算机科学》;20101130;第37卷(第11期);第184页-189页 *
基于探测查询的Deep Web实体识别;李石生 等;《江西师范大学学报(自然科学版)》;20080430;第32卷(第2期);第166页-170页 *

Also Published As

Publication number Publication date
CN104572938A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN103810299B (zh) 基于多特征融合的图像检索方法
CN105760495B (zh) 一种基于知识图谱针对bug问题进行探索性搜索方法
JP5537649B2 (ja) データ検索およびインデクシングの方法および装置
CN104572938B (zh) 一种以查询驱动的Web实体识别方法和系统
KR102109995B1 (ko) 검색 결과를 랭킹하는 방법과 시스템 및 검색 결과 랭킹을 최적화하는 방법과 시스템
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN104143005B (zh) 一种相关搜索系统及方法
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107273517A (zh) 基于图嵌入学习的图文跨模态检索方法
Ege et al. Image-based food calorie estimation using recipe information
CN107291699A (zh) 一种句子语义相似度计算方法
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
TW511010B (en) A database search system and method for resemblance comparison of image data
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
CN102129477B (zh) 一种多模态联合的图像重排序方法
CN104636407B (zh) 参数取值训练及搜索请求处理方法和装置
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
US20220122343A1 (en) Image feature extraction and network training method, apparatus, and device
CN103207901B (zh) 一种基于搜索引擎获取ip地址归属地的方法和装置
WO2010096986A1 (zh) 移动搜索方法及装置
CN104516980B (zh) 搜索结果的输出方法以及服务器系统
Bansal et al. User tweets based genre prediction and movie recommendation using LSI and SVD
CN103984746A (zh) 基于半监督分类与区域距离测度的sar图像识别方法
CN107064177A (zh) 基于自适应模糊推理的超宽带土壤信号含水量识别方法
CN107092621A (zh) 信息搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200424

Address after: 221416 Shenshan e-commerce Incubation Park, Beigou street, Xinyi City, Xuzhou City, Jiangsu Province

Patentee after: Xinyi Shuju Technology Co., Ltd

Address before: 221116 Shanghai Road, Copper Mt. New District, Jiangsu, No. 101, No.

Patentee before: Jiangsu Normal UNIVERSITY

TR01 Transfer of patent right