CN102135974A - 一种数据源的选择方法及系统 - Google Patents

一种数据源的选择方法及系统 Download PDF

Info

Publication number
CN102135974A
CN102135974A CN2010102521217A CN201010252121A CN102135974A CN 102135974 A CN102135974 A CN 102135974A CN 2010102521217 A CN2010102521217 A CN 2010102521217A CN 201010252121 A CN201010252121 A CN 201010252121A CN 102135974 A CN102135974 A CN 102135974A
Authority
CN
China
Prior art keywords
attribute
keyword
data source
similarity
property value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102521217A
Other languages
English (en)
Inventor
贾江涛
胡汉强
顾翀
孟卫一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Huawei Software Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2010102521217A priority Critical patent/CN102135974A/zh
Priority to PCT/CN2011/073648 priority patent/WO2012016457A1/zh
Publication of CN102135974A publication Critical patent/CN102135974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据源的选择方法及系统。一种数据源的选择方法,所述方法包括:接收查询请求并获取请求中的关键词;确定所述关键词在所述属性索引项中的对应属性,其中,所述属性索引项为数据源中结构化数据的属性索引项;计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据查询关键词和对应属性获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。

Description

一种数据源的选择方法及系统
技术领域
本发明涉及信息检索技术领域,尤其涉及一种数据源的选择方法及系统。
背景技术
随着互联网的迅速发展和壮大,网络上可利用的信息资源的数量越来越大,类型也越来越丰富,面对数量庞大且无组织的信息资源,如何更好的帮助用户快速准确的查询到所需要的信息就成为信息检索领域一个非常重要的研究课题。搜索引擎的出现极大地提高了人们定位和收集信息的能力,搜索引擎通过收集众多网络站点的页面来提供全局性网络资源控制与检索机制,以帮助用户方便快捷地找到所需的信息资源。
随着信息资源的急剧膨胀,传统的信息资源无法提供某一关键词对应的更深入更专业的信息。包含结构化数据的数据源的出现缓解了上述问题,它可以针对某一领域或某一主题等提供更专业、更深入更全面的信息数据,例如餐饮信息“湘江老厨,**大街*号,电话***,剁椒鱼头......”等。
然而,发明人在实现本发明的过程中发现,在一个整合的搜索平台接入多个数据源,当搜索平台接收到用户输入的查询信息时,由于接入的数据源众多,而无法判断哪个数据源能向用户提供更匹配的信息资源。
发明内容
本发明实施例提供一种数据源的选择方法及系统,能够为用户选择可以提供更匹配信息资源的数据源。
为了解决上述技术问题,本发明实施例的技术方案如下:
本发明实施例提供一种数据源的选择方法,所述方法包括:
接收查询请求并获取请求中的关键词;
确定所述关键词在所述属性索引项中的对应属性,其中,所述属性索引项为数据源中结构化数据的属性索引项;
计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;
选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
本发明实施例还提供一种数据源的选择系统,其特征在于,包括:
属性创建单元,用于建立数据源中结构化数据的属性索引项;
请求接收单元,用于接收查询请求并获取请求中的关键词;
属性确定单元,用于确定所述关键词在所述属性索引项中的对应属性;
计算单元,用于计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;
选择单元,用于选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据查询关键词和对应属性获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
附图说明
图1是本发明实施例一种数据源的选择方法流程图;
图2是本发明实施例一的方法流程图;
图3是本发明实施例二的方法流程图;
图4是本发明实施例三的方法流程图;
图5是本发明实施例四的方法流程图;
图6是本发明实施例一种数据源的选择系统的结构示意图;
图7是本发明实施例另一种数据源的选择系统的结构示意图;
图8是本发明实施例另一种数据源的选择系统的结构示意图。
具体实施方式
为了使本领域技术人员能进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,附图仅提供参考与说明,并非用来限制本发明。
下面结合附图和实施例,对本发明的技术方案进行描述。
参照图1,为本发明实施例一种数据源的选择方法流程图。
该选择方法可以包括:
步骤101,建立数据源中结构化数据的属性索引项。
在本实施例中,对于各数据源中的结构化数据按照属性分别根据属性值构建索引,按属性建立属性值的文档频率(df)和词频(tf)值,并把与各属性对应的各数据源中的属性值作为索引信息存在结构化索引库中。
例如,建立餐馆信息的结构化数据包括餐馆名称、地址、联系电话、菜谱、菜系等属性项。各属性索引项中除了包括各数据源中对应各属性的属性值之外,还包括属性值对应的tf和df,如:餐馆名称——“湘江老厨(tf1,df1)、麦当劳(tf2,df2)......”其中,“餐馆名称”为属性,“湘江老厨”、“麦当劳”为该数据源中的对应属性值,(tf1,df1)、(tf2,df2)分别为属性值“湘江老厨”、“麦当劳”的词频值和文档频率值。
本步骤首先创建各数据源中结构化数据的属性索引项,以便于后续可以根据查询关键词和属性、属性值对数据源进行选择,从而可以为用户提供更加匹配的信息。该步骤可以预先建立完成,在每次选择数据源时使用,而无需每次选择时都重复该建立步骤。
步骤102,接收查询请求并获取请求中的关键词。
该查询请求中包含用户指定的关键词,该关键词可能为一个也可能为至少两个,另外该请求中也还可以包含其它信息例如用户指定的该关键词对应的属性等,也还可以包括关键词的逻辑关系。
步骤103,确定所述关键词在所述属性索引项中的对应属性。
该确定过程可以根据预存在选择系统中的关键词与对应属性的列表进行确定等方式,系统中可以预先存储一个领域知识库或分类词库,可以根据该知识库确定关键词对属的属性,当然也可以直接根据用户的指定信息进行,例如,用户在查询请求中直接指定了关键词的属性或相关属性。其中,一个关键词可能对应多种属性,多个关键词也有可能对应相同的属性,例如“剁椒鱼头”属于招牌菜和菜单两个属性。
步骤104,计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
该综合相似度的确定可以根据属性值与关键词之间最相似值的相似度计算,也可以根据属性值中包含关键词的记录数进行计算,或结合上述两参数进行计算等。具体计算方法请参照后续实施例的描述。
步骤105,选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
在获得综合相似度后,可以根据该值对属性值对应数据源进行排序,然后根据预先设定的条件进行选择,如根据用户的查询精度要求进行选择等。该数据源可以包括垂直搜索引擎,Deep Web和Web Database数据库等。
本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据查询关键词和对应属性获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
下面通过具体实施例对本发明方法进行详细说明,以下实施例仍以餐饮信息的查询为例进行说明。首先,在系统接收查询请求之前,先就餐饮信息的结构化数据建立属性索引项,用T1表示餐馆名称属性、T2表示电话号码属性、T3表示地址属性、T4表示菜系属性、T5表示人均消费属性、T6表示招牌菜属性、T7表示菜单属性、T8表示基本介绍属性和T9表示标签属性,属性索引项中,还包含各属性值的df和tf值。
参照图2,为本发明实施例一的方法流程图。
对于单关键词单属性情况的数据源选择,该方法可以包括以下步骤:
步骤201,接收查询请求并获取请求中的关键词“湘江老厨”。
在本实施例中,用户提交的关键词为单关键词。
步骤202,确定关键词“湘江老厨”在属性索引项中的对应属性。
系统确定关键词“湘江老厨”对应的属性为餐馆名称属性T1,也即需要在餐馆名称属性T1的索引项中查询,本实施例中可以采用向量空间查询。
步骤203,计算关键词“湘江老厨”与各个数据源中餐馆名称T1的属性值之间的相似度。
本实施例中可以根据向量空间查询对应的计算方法将各数据源中关键词对应属性的属性值与关键词的最相似值的相似度作为综合相似度。
步骤204,选择综合相似度满足预置条件的属性值对应的数据源作为满足查询请求的数据源。
本实施例中,根据相似度的结果,从多个数据源中选择相似度最高的数据源。
本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据单关键词和对应单属性的属性值获得相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
参照图3,为本发明实施例二的方法流程图。
对于多个关键词单属性情况的数据源选择,该方法可以包括以下步骤:
步骤301,接收查询请求并获取请求中的关键词“湘江老厨AND万科”。
在本实施例中,用户提交的关键词为两个——“湘江老厨”和“万科”。
步骤302,确定关键词间的逻辑关系。
当查询关键词为至少两个时,在确定关键词在属性索引项中的对应属性之前,可以先确定关键词间的逻辑关系,该逻辑关系的确定可以依据系统中预设或默认的规则,例如系统中默认的关键词之间的逻辑关系为AND查询。其中,关键词之间的逻辑关系还可以有多种,例如向量空间查询、OR查询、NOT查询、精确匹配、子串匹配、近似查询等。
向量空间查询,是指结果是基于他们和查询的相似度来评价的,返回的结果中至少包括一个查询关键词,但是包括关键词多的结果相似度高。
AND查询,是指返回的结果中同时包括所有的关键词。
OR查询,指的是返回的结果中包含部分关键词。
NOT查询,就是布尔NOT查询,不包括制定的关键词。
精确匹配,指的是完全匹配,多个关键词有序且情况,如“华为技术”做为关键词的精确匹配的结果,而不是结果中只包括“华为”或“技术”或者两者分开的情况。
子串匹配,类似于SQL查询中的”*”,”?”或”%”操作,通过特定的字符指定子串匹配。
近似查询,指的是查询关键词和每个文本属性都相关。
根据上步骤可知,“湘江老厨”和“万科”之间的逻辑关系为AND查询,也即返回的结果中同时包括所有的关键词。
步骤303,确定关键词“湘江老厨”和“万科”在属性索引项中的对应属性。
系统确定关键词“湘江老厨”和“万科”对应的属性为餐馆名称属性T1,也即需要在餐馆名称属性T1的索引项中进行AND查询。
步骤304,计算对应属性的属性值中包含关键词“湘江老厨”和“万科”的记录数作为综合相似度。
对于AND查询的计算方法,是指对于满足查询条件的属性A,使用关键词T出现在属性A中概率使用df(T)/N来表示,其中N为数据源的中记录数。对于相互独立的查询关键词T1,...,Tm,同时包含在属性值A的概率可以使用df(T1)*...*df(Tm)/Nm估计。
对于OR查询的计算方法,是指对于关键词T查询在属性值A中的概率P(T),使用P(T)=df(T)/N来估计。对于相互独立的查询关键词T1,...,Tm,至少一个关键词包含在属性值A中的概率使用
P ( T 1 ∪ . . . ∪ T m ) = P ( T 1 ) + . . . + P ( T m ) - P ( T 1 T 2 ) - . . . - P ( T m - 1 T m )
+ P ( T 1 T 2 T 3 ) + . . . + P ( T m - 2 T m - 1 T m ) . . . . . . ( - 1 ) m - 1 P ( T 1 . . . T m ) = Σ i = 1 m ( - 1 ) i - 1 Σ C i P ( C i )
来估计。其中每一个Ci表示一个i属性的在{T1,...,Tm}中的不同组合,P(Ti,...,Tj)表示属性值A包含所有关键词{Ti,...,Tj}的概率。当所有的查询词T1,...,Tm相互独立时,P(Ti,...,Tj)可以使用P(Ti)*...*P(Tj)来估计。数据源中满足条件的记录数可以使用N*P(T1∪...∪Tm)来估计。
对于NOT查询的计算方法,是指假设查询词T1,...,Tm,NOT查询可以认为不包括这些查询词的所有记录数表示,我们可以首先通过OR查询,获取数据源中满足条件的记录数为K,数据源中的所有记录数为N,那么满足NOT查询的记录数为N-K。
对于精确匹配的计算方法,是指对于完全值匹配,假设K表示满足条件的属性的包括不同的值,那么可以通过使用N/K来估计数据源中满足条件的记录数,其中N为数据源中的所有记录数。
在本实施例中,采用AND查询的计算方法,也即满足条件的记录数可以使用df(T1)*...*df(Tm)/Nm-1来估计。通过AND查询的计算方法,获取数据源中满足条件的记录数,通过df(“湘江老厨”)*df(“万科”)/N来估计每个数据源中满足条件的记录数。
步骤305,选择综合相似度满足预置条件的属性值对应的数据源作为满足查询请求的数据源。
根据估计满足条件的记录数的结果,从多个数据源中选择记录条数最多的作为满足查询条件的数据源。
本实施例中通过创建各数据源中结构化数据的属性索引项,然后根据多个关键词和对应单属性的属性值获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
对于单属性的数据源选择其他情况的例子,可以根据前述的类型,可以通过计算相似度或满足最大的记录数来实现数据源的选择,我们这里不再赘述。
参照图4,为本发明实施例三的方法流程图。
对于单个关键词多属性情况的数据源选择,该方法可以包括以下步骤:
步骤401,接收查询请求并获取请求中的关键词“剁椒鱼头”。
在本实施例中,用户提交的关键词为一个——“剁椒鱼头”。
步骤402,确定关键词“剁椒鱼头”在属性索引项中的对应属性。
系统确定关键词“剁椒鱼头”对应的属性为招牌菜属性T6和菜单属性T7,也即需要在招牌菜属性T6和菜单属性T7两个属性索引项中查询。
步骤403,确定各属性之间的关系。
在本实施例中,关键词“剁椒鱼头”对应两个属性,为了方便综合相似度的计算,本实施例中需要确定两属性之间的关系。两属性Ta和Tb的关系类型可以包括:
两个属性相互独立但属于不同的主题;两个属性属于不同的主题但是不相互独立;两个属性互不包含但是属同一主题;其中一个属性是另一属性的一部分。
以上属性间的关系可以根据预置在系统中的规则进行确定,该规则可以在创建属性索引项的同时设定。本实施例中,两属性属于相同主题。
步骤404,根据各属性之间的关系和关键词确定组合类型。
属性间的关系与某属性在各数据源中对应的属性值包含关键词的记录数和属性值与关键词的最相似值的相似度,这三个参数之间存在多种组合关系,本实施例中可以简化组合的种类以方便计算。具体的,可以设定上述三个参数的标准、阈值或范围,具体操作时,可以根据不同情况下的三个参数确定出符合预定标准、阈值或范围的对应组合类型。
简化后的类型组合可以包括下面的12种情况:
Case 1.number(Ta),number(Tb),independent(Ta,Tb)
Case 2.number(Ta),similarity(Tb),independent(Ta,Tb)
Case 3.number(Ta),num-sim(Tb),independent(Ta,Tb)
Case 4.similarity(Ta),similarity(Tb),independent(Ta,Tb)
Case 5.similarity(Ta),num-sim(Tb),independent(Ta,Tb)
Case 6.num-sim(Ta),num-sim(Tb),independent(Ta,Tb)
Case 7.number(Ta),number(Tb),same-topic(Ta,Tb)
Case 8.number(Ta),similarity(Tb),same-topic(Ta,Tb)
Case 9.number(Ta),num-sim(Tb),same-topic(Ta,Tb)
Case 10.similarity(Ta),similarity(Tb),same-topic(Ta,Tb)
Case 11.similarity(Ta),num-sim(Tb),same-topic(Ta,Tb)
Case 12.num-sim(Ta),num-sim(Tb),same-topic(Ta,Tb)
其中,number(T)表示在属性T上满足查询条件的记录的条数,similarity(T)表示在属性T上和查询条件最相似的相似度,num-sim(T)表示在属性T上满足查询条件的number(T)和similarity(T),same-topic(Ta,Tb)表示属性Ta和属性Tb属同一主题,independent(Ta,Tb)表示属性Ta和属性Tb不相关,属不同主题。
本实施例中,对于关键词“剁椒鱼头”对应的两属性招牌菜属性T6和菜单属性T7,根据两属性间的关系情况,可以确定其组合类型属于Case7number(Ta),number(Tb),same-topic(Ta,Tb)。
步骤405,根据确定的组合类型计算两属性在各数据源中对应的属性值与关键词的综合相似度。
上述各组合类型中分别有对应的综合相似度的计算方法:
Case 1.number(T1),number(T2),independent(T1,T2)
对于这种情况,通过number(T1)*number(T2)/N来评估满足查询条件的记录数,然后可以根据记录数计算各数据源的rank值,作为各数据源对应的综合相似度。
Case 2.number(T1),similarity(T2),independent(T1,T2)
对于这种情况,我们首先估计概率,是指一个满足条件T1的记录,这条记录在T2上的similarity(T2),此概率可以用P=number(T1)/N来估计,然后使用P*similarity(T2)来评估满足条件T1的记录中条件T2上最相似值的相似度,然后根据该相似度计算各数据源的rank值,作为各数据源对应的综合相似度。
Case 3.number(T1),num-sim(T2),independent(T1,T2)
对于这种情况,首先估计一条记录同时两个属性的概率P=(number(T1)/N)*(number(T2)/N),然后使用P*similarity(T2)来估计满足属性T1和T2的查询条件的记录中和属性T2最相似值的相似度,并使用这个相似度评价各数据源。
Case 4.similarity(T1),similarity(T2),independent(T1,T2)
对于这种情况,两个文本属性和查询关键词间存在如下三种情况,根据不同的情况计算各数据源的rank值:
4.1、对于数据源S,对于T1属性值最相似记录R1,相似度使用msim(S,Q,T1)表示;对于T2属性值最相似记录R2,相似度使用msim(S,Q,T2)表示;通过相似度的平均或最小值的方法来合并相似度,即通过average(msim(S,Q,T1),msim(S,Q,T2))或Min(msim(S,Q,T1),msim(S,Q,T2))来计算综合相似度;
4.2、对于概念相关的两个属性T1和T2,首先把属性合并为一个新的属性T,那么msim(S,Q,T)通过
Figure BSA00000227369500101
来计算综合相似度,通过该值表示该数据源的rank值,其中gidfi表示关键词ti的全局反向文档频率,mnwi表示最大归一化权重;如对论文结构化数据,包括title属性和abstract属性,就可以通过合并title属性和abstract属性,通过上述方法计算相似度;
4.3、假设在数据源S中存在一个记录R有基于属性T1和T2的组合最大相似性csim(S,Q,(T1,T2)),且最大相似性的获取需要基于属性T1或属性T2。当R=R1是,对R的csim可以通过w1*msim(S,Q,T1)+w2*sim(S,Q,R1(T2))获取,其中w1和W2为两个权重值,sim(S,Q,R1(T2))表示在记录R1中查询Q作用在属性T2上,且和T2属性值间的相似性。对于R=R2的情况,同上述。通过下面的方法计算csim:
csim(S,Q,(T1,T2))=max{w1*msim(S,Q,T1)+w2*sim(S,Q,R1(T2)),
w1*msim(S,Q,T2)+w2*sim(S,Q,R2(T1))}
msim(S,Q,T1)的计算方法是用第一种情况来计算。对于sim(S,Q,R1(T2))的值,假设基于T2的查询Q包括多个关键词t1,...,tk.,每个关键词在数据源中对应T2属性的平均归一化权重为anw,通过下面的公式计算sim(S,Q,R1(T2))
sim ( S , Q , R 1 ( T 2 ) ) = Σ i = 1 k gidf i * anw i
其中gidfi表示关键词ti的全局反向文档频率;
通常使用4.3情况来计算两者的相似度。
Case 5.similarity(T1),num-sim(T2),independent(T1,T2)
对于这种情况,首先计算csim,计算方法同Case4中的算法一致,然后使用csim*number(T2)/N来获得各数据源的rank值,作为各数据源对应的综合相似度。。
Case 6.num-sim(T1),num-sim(T2),independent(T1,T2)
对于这种情况,首先计算csim,计算方法同Case4中的算法一致,然后使用csim*(number(T1)/N)*(number(T2)/N)来rank或基于该结果来获得各数据源的rank值,作为各数据源对应的综合相似度。。
Case 7.number(T1),number(T2),same-topic(T1,T2)
对于这种情况,我们可以理解为类似OR关系,就是满足T1或T2的记录数,可以使用number(T1)+number(T2)-number(T1)*number(T2)/N来估计,然后基于该估计值获得各数据源的rank值,作为各数据源对应的综合相似度。。
Case 8.number(T1),similarity(T2),same-topic(T1,T2)
对于这种情况,我们通过类似于最大值的方法来评估,如果rank(number(T1))≥rank(similarity(T2))满足,则我们取(number(T1);如果rank(similarity(T2))>rank(number(T1))成立,我们取similarity(T2)。
Case 9.number(T1),num-sim(T2),same-topic(T1,T2)
对于这种情况,我们可以理解为类似OR关系,通过Num(T1,T2)=number(T1)+number(T2)-number(T1)*number(T2)/N来估计满足条件T1或T2的记录数,如果rank(Num(T1,T2))≥rank(similarity(T2))满足,则我们通过Num(T1,T2)来作为number(T1)和num-sim(T2)合并输出;如果rank(similarity(T2))>rank(Num(T1,T2))成立,我们取similarity(T2)做为合并输出。
Case 10.similarity(T1),similarity(T2),same-topic(T1,T2)
对于这种情况,我们可以理解为类似OR关系,使用max{similarity(T1),similarity(T2)}或similarity(T1)+similarity(T2)做为输出来评估数据源。
Case 11.similarity(T1),num-sim(T2),same-topic(T1,T2)
对于这种情况,我们首先使用max{similarity(T1),similarity(T2)}或similarity(T1)+similarity(T2)来计算组合相似度Sim(T1,T2),如果rank(Sim(T1,T2))≥rank(number(T2))满足,则Sim(T1,T2)来作为输出;如果rank(number(T2))>rank(Sim(T1,T2))成立,则number(T2)来作为输出。
Case 12.num-sim(T1),num-sim(T2),same-topic(T1,T2)
对于这种情况,我们使用Num(T1,T2)=number(T1)+number(T2)-number(T1)*number(T2)/N来合并number(T1)+nmber(T2),使用max{similarity(T1),similarity(T2)}or similarity(T1)+similarity(T2)来合并相似度Sim(T1,T2),如果rank(Sim(T1,T2))≥rank(Num(T1,T2))满足,则Sim(T1,T2)来作为输出;如果rank(Num(T1,T2)))>rank(Sim(T1,T2))成立,则Num(T1,T2)来作为输出。
其中Case 4中的情况属于基于计算向量空间查询相似度的方法,可以扩充到多于两个属性的情况。
对于三个属性的数据源选择和三个以上的文本属性的数据源选择的方法,组合情况也非常多,首先通过合并同类组合,然后对同一类的组合使用相同的相似度算法,实现对数据源相似度的计算,这里不再赘述。
在本实施例中,根据Case7对应的计算方法,通过T6中满足“剁椒鱼头”的记录条数number(T6),T7中满足“剁椒鱼头”的记录条数number(T7),估计number(T6)+number(T7)-number(T6)*number(T7)/N来评估满足的记录数,然后根据记录数获得各数据源的rank值,作为各数据源对应的综合相似度。
步骤406,选择综合相似度满足预置条件的属性值对应的数据源作为满足查询请求的数据源。
在本实施例中,可以根据记录数也可以进一步根据由记录数计算获得的Rank值的结果,从多个数据源中选择Rank值高的作为满足查询条件的数据源。
本实施例中通过创建各数据源中结构化数据的属性索引项,然后根据单关键词和对应的多个属性的属性值获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
参照图5,为本发明实施例四的方法流程图。
对于多个关键词多属性情况的数据源的选择,该方法可以包括以下步骤:
步骤501,接收查询请求并获取请求中的关键词“福田60元”。
在本实施例中,用户提交的关键词为两个——“福田”和“60元”。
步骤502,确定关键词之间的逻辑关系。
该过程与前述实施例类似,此处不再赘述。
步骤503,确定关键词“福田”和“60元”在属性索引项中的对应属性。
系统确定关键词“福田”和“60元”对应的属性为地址属性T3和人均消费属性T5,也即需要在地址属性T3和人均消费属性T5两个属性索引项中查询。
步骤504,确定各属性之间的关系。
地址属性T3和人均消费属性T5相互独立但属于不同的主题。
步骤505,根据各属性之间的关系确定组合类型。
本实施例中,对于关键词“福田”和“60元”对应的两属性地址属性T3和人均消费属性T5,根据两属性间的关系可以确定其组合类型属于Case 4情况similarity(Ta),similarity(Tb),independent(Ta,Tb)。
步骤506,根据确定的组合类型以及关键词之间的逻辑关系计算两属性在各数据源中对应的属性值与关键词的综合相似度。
根据确定的组合类型,由于T3和T5属性相互独立,需要从T3属性和T5属性中估计相似度,系统通过Case 4情况来计算,其中一个数据源S1的第一相似度由csim(S1,“福田60元”,(T3,T5))=max{w1*msim(S1,“福田60元”,T3)+w2*sim(S1,“福田60元”,R3(T5)),w1*msim(S1,“福田60元”,T5)+w2*sim(S1,“福田60元”,R5(T3))}计算获得。
根据关键词之间的逻辑关系可以确定对应的计算相似度的方法,计算的结果称为第二相似度。
具体的可以根据第一相似度和第二相似度的比重综合确定最终的综合相似度,该比重关系可以根据系统默认的设定规则确定,也可以根据用户的具体要求设定。
步骤507,选择综合相似度满足预置条件的属性值对应的数据源作为满足查询请求的数据源。
根据csim值,从多个数据源中选择csim值高的作为满足查询需求的数据源。
本实施例中通过创建各数据源中结构化数据的属性索引项,然后根据多个关键词和对应的多个属性的属性值获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
以上是对本发明实施例方法的详细说明,下面对实现上述方法的系统进行介绍。
参见图6,为本发明实施例一种数据源的选择系统的结构示意图。
该选择系统可以包括:
属性创建单元601,用于建立数据源中结构化数据的属性索引项。
请求接收单元602,用于接收查询请求并获取请求中的关键词。
属性确定单元603,用于确定所述关键词在所述属性索引项中的对应属性。
计算单元604,用于计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
选择单元605,用于选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
在本实施例中,该选择系统首先通过属性创建单元601对于各数据源中的结构化数据按照属性分别根据属性值构建索引,按属性建立属性值的文档频率(df)和词频(tf)值,并把与各属性对应的各数据源中的属性值作为索引信息存在结构化索引库中。在请求接收单元602接收到查询请求后获取其中的关键词,该关键词可能为一个也可能为至少两个,另外该请求中也还可以包含其它信息例如用户指定的该关键词对应的属性等。然后,属性确定单元603根据预存在选择系统中的关键词与对应属性的列表或根据用户的指定信息等确定出关键词在属性索引项中的对应属性,其中,一个关键词可能对应多种属性,多个关键词也有可能对应相同的属性。计算单元604可以根据属性值与关键词之间最相似值的相似度,也可以根据属性值中包含关键词的记录数,或结合上述两参数进行计算获得综合相似度,最后由选择单元605选择综合相似度满足预置条件的属性值对应的数据源作为满足查询请求的数据源。
本实施例中的选择系统通过上述各单元创建各数据源中结构化数据的属性索引项,然后根据查询关键词和对应属性获得综合相似度,实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
参见图7,为本发明实施例另一种数据源的选择系统的结构示意图。
该选择系统除了可以包括:属性创建单元701、请求接收单元702、属性确定单元703、计算单元704、选择单元705之外,还可以包括关系确定单元706。
其中,属性创建单元701、请求接收单元702、属性确定单元703和选择单元705与前述实施例类似,此处不再赘述。
关系确定单元706,用于当所述关键词至少为两个时,在所述属性确定单元确定所述关键词在所述属性索引项中的对应属性之前,确定所述关键词间的逻辑关系。
计算单元704,具体用于根据与所述逻辑关系对应的计算公式计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
在计算单元704具体计算时,可以当所述关键词在所述属性索引项中的对应属性为单属性时,计算所述属性值中包含所述关键词的记录数,作为综合相似度;或者,当所述关键词在所述属性索引项中的对应属性为单属性时,计算所述属性值与所述关键词的最相似值的相似度,作为所述综合相似度。
本实施例中的选择系统通过上述各单元创建各数据源中结构化数据的属性索引项,然后根据多个关键词和对应的单属性获得综合相似度,实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
参照图8,为本发明实施例另一种数据源的选择系统的结构示意图。
该选择系统可以包括属性创建单元801、请求接收单元802、属性确定单元803、计算单元804、选择单元805。
其中,属性创建单元801、请求接收单元802、属性确定单元803、选择单元805与前述实施例类似,此处不再赘述。
本实施例中,当关键词在属性索引项中的对应属性为至少两个属性时,计算单元804可以进一步包括:
第一子单元8041,用于确定所述各属性之间的关系。
第二子单元8042,用于根据所述各属性之间的关系确定组合类型。
计算子单元8043,用于根据所述组合类型计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
本实施例中的选择系统通过上述各单元创建各数据源中结构化数据的属性索引项,然后根据多个关键词和对应的多属性获得综合相似度,实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
以上系统中各单元的具体实现方式请参照前述方法实施例中的对应描述,此处不再赘述。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (10)

1.一种数据源的选择方法,其特征在于,建立数据源中结构化数据的属性索引项,所述方法包括:
接收查询请求并获取请求中的关键词;
确定所述关键词在属性索引项中的对应属性,其中,所述属性索引项为数据源中结构化数据的属性索引项;
计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;
选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
2.根据权利要求1所述的方法,其特征在于,若所述关键词至少为两个,则在所述确定所述关键词在所述属性索引项中的对应属性之前,还包括:
确定所述关键词间的逻辑关系;
所述计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度,具体为:
根据与所述逻辑关系对应的计算方法计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
3.根据权利要求2所述的方法,其特征在于,所述关键词间的逻辑关系包括:
向量空间查询、AND查询、OR查询、NOT查询、精确匹配、子串匹配、近似查询。
4.根据权利要求1所述的方法,其特征在于,若所述关键词在所述属性索引项中的对应属性为单属性,则所述计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度,包括:
计算所述属性值中包含所述关键词的记录数,作为所述综合相似度;或,
计算所述属性值与所述关键词的最相似值的相似度,作为所述综合相似度。
5.根据权利要求1所述的方法,其特征在于,若所述关键词在所述属性索引项中的对应属性为至少两个属性,则所述计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度,包括:
确定所述各属性之间的关系;
根据所述各属性之间的关系确定组合类型;
根据所述组合类型对应的计算方法计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
6.根据权利要求5所述的方法,其特征在于,若所述关键词在所述属性索引项中的对应属性为两个,则所述各属性之间的关系包括:
两个属性相互独立但属于不同的主题;两个属性属于不同的主题但是不相互独立;两个属性互不包含但是属同一主题;其中一个属性是另一属性的一部分。
7.一种数据源的选择系统,其特征在于,包括:
属性创建单元,用于建立数据源中结构化数据的属性索引项;
请求接收单元,用于接收查询请求并获取请求中的关键词;
属性确定单元,用于确定所述关键词在所述属性索引项中的对应属性;
计算单元,用于计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;
选择单元,用于选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
8.根据权利要求7所述的系统,其特征在于,
关系确定单元,用于当所述关键词至少为两个时,在所述属性确定单元确定所述关键词在所述属性索引项中的对应属性之前,确定所述关键词间的逻辑关系;
所述计算单元,具体用于根据与所述逻辑关系对应的计算公式计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
9.根据权利要求7所述的系统,其特征在于,
所述计算单元,具体用于当所述关键词在所述属性索引项中的对应属性为单属性时,计算所述属性值中包含所述关键词的记录数,作为所述综合相似度;或者,计算所述属性值与所述关键词的最相似值的相似度,作为所述综合相似度。
10.根据权利要求7所述的系统,其特征在于,当所述关键词在所述属性索引项中的对应属性为至少两个属性时,所述计算单元包括:
第一子单元,用于确定所述各属性之间的关系;
第二子单元,用于根据所述各属性之间的关系确定组合类型;
计算子单元,用于根据所述组合类型对应的计算方法计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度。
CN2010102521217A 2010-08-06 2010-08-06 一种数据源的选择方法及系统 Pending CN102135974A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010102521217A CN102135974A (zh) 2010-08-06 2010-08-06 一种数据源的选择方法及系统
PCT/CN2011/073648 WO2012016457A1 (zh) 2010-08-06 2011-05-04 一种数据源的选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102521217A CN102135974A (zh) 2010-08-06 2010-08-06 一种数据源的选择方法及系统

Publications (1)

Publication Number Publication Date
CN102135974A true CN102135974A (zh) 2011-07-27

Family

ID=44295762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102521217A Pending CN102135974A (zh) 2010-08-06 2010-08-06 一种数据源的选择方法及系统

Country Status (2)

Country Link
CN (1) CN102135974A (zh)
WO (1) WO2012016457A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968309A (zh) * 2012-11-30 2013-03-13 亚信联创科技(中国)有限公司 一种实现基于规则引擎的规则匹配方法和装置
CN103064990A (zh) * 2013-02-04 2013-04-24 广州太平洋电脑信息咨询有限公司 一种利用索引数据文件查询方法
CN103365903A (zh) * 2012-04-05 2013-10-23 北京百度网讯科技有限公司 一种为搜索引擎获取结构化数据的方法、装置与系统
CN104462104A (zh) * 2013-09-16 2015-03-25 华为软件技术有限公司 过滤方法和服务器
CN105847403A (zh) * 2016-04-26 2016-08-10 乐视控股(北京)有限公司 调度方法及系统
CN107526781A (zh) * 2017-07-25 2017-12-29 无锡天脉聚源传媒科技有限公司 一种信息搜索方法及装置
CN107544979A (zh) * 2016-06-24 2018-01-05 上海壹账通金融科技有限公司 用户数据的可信性分析方法及系统
CN107704628A (zh) * 2017-10-31 2018-02-16 福建中金在线信息科技有限公司 数据检索方法、索引关系建立方法以及服务器
CN108038113A (zh) * 2017-10-16 2018-05-15 武汉楚鼎信息技术有限公司 基于互联网金融智能问答的检索方法及系统
CN108846014A (zh) * 2018-05-04 2018-11-20 中国信息安全研究院有限公司 一种数据需求满足方法
CN109657145A (zh) * 2018-12-20 2019-04-19 拉扎斯网络科技(上海)有限公司 商户搜索方法及装置、电子设备及计算机可读存储介质
CN111309755A (zh) * 2020-02-13 2020-06-19 哈尔滨工业大学 面向多源异构数据融合的数据源选择方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109937417A (zh) 2016-08-09 2019-06-25 瑞普科德公司 用于电子记录的上下文检索的系统和方法
CN110659422A (zh) * 2019-09-27 2020-01-07 百度在线网络技术(北京)有限公司 检索方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1249479A (zh) * 1998-09-29 2000-04-05 英业达股份有限公司 自动查询系统及方法
CN101697170A (zh) * 2009-10-27 2010-04-21 用友软件股份有限公司 一种动态选择数据库的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060199A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体
CN101320370B (zh) * 2008-05-16 2011-06-01 苏州普达新信息技术有限公司 基于查询接口连接图的深层网页数据源分类管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1249479A (zh) * 1998-09-29 2000-04-05 英业达股份有限公司 自动查询系统及方法
CN101697170A (zh) * 2009-10-27 2010-04-21 用友软件股份有限公司 一种动态选择数据库的方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365903A (zh) * 2012-04-05 2013-10-23 北京百度网讯科技有限公司 一种为搜索引擎获取结构化数据的方法、装置与系统
CN103365903B (zh) * 2012-04-05 2019-03-26 北京百度网讯科技有限公司 一种为搜索引擎获取结构化数据的方法、装置与系统
CN102968309A (zh) * 2012-11-30 2013-03-13 亚信联创科技(中国)有限公司 一种实现基于规则引擎的规则匹配方法和装置
CN102968309B (zh) * 2012-11-30 2016-01-20 亚信科技(中国)有限公司 一种实现基于规则引擎的规则匹配方法和装置
CN103064990A (zh) * 2013-02-04 2013-04-24 广州太平洋电脑信息咨询有限公司 一种利用索引数据文件查询方法
CN103064990B (zh) * 2013-02-04 2014-03-26 广州太平洋电脑信息咨询有限公司 一种利用索引数据文件查询方法
CN104462104B (zh) * 2013-09-16 2019-03-19 华为软件技术有限公司 过滤方法和服务器
CN104462104A (zh) * 2013-09-16 2015-03-25 华为软件技术有限公司 过滤方法和服务器
CN105847403A (zh) * 2016-04-26 2016-08-10 乐视控股(北京)有限公司 调度方法及系统
CN107544979A (zh) * 2016-06-24 2018-01-05 上海壹账通金融科技有限公司 用户数据的可信性分析方法及系统
CN107526781A (zh) * 2017-07-25 2017-12-29 无锡天脉聚源传媒科技有限公司 一种信息搜索方法及装置
CN108038113A (zh) * 2017-10-16 2018-05-15 武汉楚鼎信息技术有限公司 基于互联网金融智能问答的检索方法及系统
CN107704628A (zh) * 2017-10-31 2018-02-16 福建中金在线信息科技有限公司 数据检索方法、索引关系建立方法以及服务器
CN108846014A (zh) * 2018-05-04 2018-11-20 中国信息安全研究院有限公司 一种数据需求满足方法
CN108846014B (zh) * 2018-05-04 2023-07-25 中国信息安全研究院有限公司 一种数据需求满足方法
CN109657145A (zh) * 2018-12-20 2019-04-19 拉扎斯网络科技(上海)有限公司 商户搜索方法及装置、电子设备及计算机可读存储介质
CN111309755A (zh) * 2020-02-13 2020-06-19 哈尔滨工业大学 面向多源异构数据融合的数据源选择方法
CN111309755B (zh) * 2020-02-13 2021-10-01 哈尔滨工业大学 面向多源异构数据融合的数据源选择方法

Also Published As

Publication number Publication date
WO2012016457A1 (zh) 2012-02-09

Similar Documents

Publication Publication Date Title
CN102135974A (zh) 一种数据源的选择方法及系统
TWI525458B (zh) Recommended methods and devices for searching for keywords
Meliou et al. Tracing data errors with view-conditioned causality
CN103678672A (zh) 一种信息推荐方法
CN100461159C (zh) 用于信息检索的分层数据驱动导航系统及方法
CN101124081A (zh) 基于信誉的搜索
CN101222446B (zh) 一种即时通信系统查找、添加好友的方法及系统
CN103020049A (zh) 搜索方法及搜索系统
CN101216837A (zh) 基于匹配用户个性化配置来显示搜索结果的方法和系统
CN101369277A (zh) 处理电子邮件的装置和方法、以及搜索电子邮件的装置
CN103294692A (zh) 一种信息推荐方法及系统
CN109190036A (zh) 推荐方法、装置、电子设备及存储介质
US11550792B2 (en) Systems and methods for joining datasets
CN101388025A (zh) 一种基于Pagerank的语义网对象排序方法
CN104361109A (zh) 确定图片筛选结果的方法和装置
CN108197187A (zh) 查询语句的优化方法、装置、存储介质和计算机设备
TW201324213A (zh) 關聯賦予裝置、關聯賦予方法、關聯賦予程式產品及記錄媒體
CN104156431A (zh) 一种基于实体图社团结构的rdf关键词查询方法
CN108446296A (zh) 一种信息处理方法及装置
Adeleye et al. A fitness-based evolving network for web-apis discovery
CN101639856B (zh) 检测互联网信息传播的网页关联评价装置
TWI673661B (zh) 自動建立智慧助理的方法及系統
CN109471969A (zh) 一种应用搜索方法、装置及设备
CN105138574A (zh) 用于推荐旅游休闲出行地的基于人机交互的混合推荐系统
JP2007213564A5 (zh)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110727