CN104598613A - 一种用于垂直领域的概念关系构建方法和装置 - Google Patents
一种用于垂直领域的概念关系构建方法和装置 Download PDFInfo
- Publication number
- CN104598613A CN104598613A CN201510050050.5A CN201510050050A CN104598613A CN 104598613 A CN104598613 A CN 104598613A CN 201510050050 A CN201510050050 A CN 201510050050A CN 104598613 A CN104598613 A CN 104598613A
- Authority
- CN
- China
- Prior art keywords
- concept
- user
- concepts
- sentence
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 230000006399 behavior Effects 0.000 claims abstract description 169
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000000875 corresponding effect Effects 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 229930182555 Penicillin Natural products 0.000 description 1
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229940049954 penicillin Drugs 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于垂直领域的概念关系构建方法和装置。该方法可包括:根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。实施上述方法和装置,能够从用户需求角度刻画同一属性下两个概念之间的相关性,扩展了垂直领域内对概念之间关系的描述方式。
Description
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种用于垂直领域的概念关系构建方法和装置。
背景技术
垂直领域是相对于通用领域而言的,主要指非综合的、对某一特定领域的专业、深入的细分,诸如教育、特卖、医疗之类的非标准化消费品领域都属于垂直领域。各个垂直领域包括其对应的概念集合,例如,医疗垂直领域可包括糖尿病、内科、盘尼西林、人民医院等概念。概念作为构成垂直领域的基本元素,是表述用户在该领域需求的基础。
对于垂直领域内数据检索,现有技术大多数利用知识图谱描述垂直领域中概念和概念之间的定性关系,以语言培训为例,语言培训下一层包括描述它的属性,例如,培训机构、培训地址、培训语种等属性,在属性的下一层包括该属性下的概念,例如,培训机构包括机构A、机构B、机构C等概念,培训地址包括朝阳、海淀、北京、天津等概念,培训语种包括英语、小语种等概念。然而,现有的对概念之间的关系描述较为固定,在概念关系的刻画描述方面存在不足。
发明内容
为解决上述技术问题,本发明提供了一种用于垂直领域的概念关系构建方法和装置,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,能够从用户需求角度刻画同一属性下两个概念之间的相关性,扩展了垂直领域内对概念之间关系的描述方式。
根据本发明实施方式的第一方法,提供了一种用于垂直领域的概念关系构建方法,该方法可包括:
根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。
在本发明的一些实施方式中,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系可包括:通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述所述概念层级关系,进一步确定出与所述概念层级关系正相关的概念层级维度上的紧密性关系的取值,其中,对于无转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis,对于带转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis与路径转折惩罚t_penalty的乘积,单边距离e_dis为概念细化距离g_dis与概念层级惩罚g_penalty的乘积或概念泛化距离r_dis与概念层级惩罚g_penalty的乘积,其中,单边距离e_dis为一个属性层级关系树中两个直接相连的概念之间的路径距离,概念细化距离g_dis为按方向的上层概念到下层概念的路径距离,概念泛化距离r_dis为下层概念到上层概念的路径距离,概念层级惩罚g_penalty用于表征单边距离的概念细化和概念泛化程度,根据层级关系树中每层的概念数n确定,路径转折惩罚t_penalty用于表征概念间的转意程度,根据层级关系树深度H和路径最高层级节点深度h确定。
在本发明的一些实施方式中,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系可包括:根据领域文本中同一属性下的概念a和概念b的并列共现频次cparallel(a,b)通过下述公式计算概念同位维度上的紧密性关系的取值:
p_score(a,b)为概念a和概念b在概念同位维度的紧密性关系的取值,c(a)为概念a在领域文本中的出现次数,N为置性度惩罚因子。
在本发明的一些实施方式中,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系可包括:获取单个用户搜索行为的先后查询序列,形成一个或一个以上第一类二元组<查询1,查询2>,并将所述一个或一个以上第一类二元组合并形成第二类二元组<句子1,句子2>,确定所述第二类二元组中句子1包含概念a且不包含与a同一属性的其他概念、句子2包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户搜索行为维度的紧密共现频次cp(a,b),并根据所述单用户搜索行为维度的紧密共现频次确定单用户搜索行为维度的紧密性关系的取值;和/或,获取多个用户搜索行为中多用户点击到同一检索结果的查询集合,将所述查询集合中的两两查询形成一个或一个以上的第三类二元组<查询3,查询4>,并将所述一个或一个以上第三类二元组合并形成第四类二元组<句子3,句子4>,确定所述第四类二元组中句子3包含概念a且不包含与a同一属性的其他概念、句子4包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户搜索行为维度的紧密共现频次cp(a,b),并根据所述多用户搜索行为维度的紧密共现频次cp(a,b)计算多用户搜索行为维度的紧密性关系的取值。
在本发明的一些实施方式中,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系可包括:获取单个用户的点击行为的搜索查询和该搜索查询对应的点击文本标题形成一个或一个以上第五类二元组<查询5,标题1>,并将所述一个或一个以上第五类二元组合并形成第六类二元组<句子5,句子6>,确定所述第六类二元组中句子5包含概念a且不包含与a同一属性的其他概念、句子6包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户点击行为维度的紧密共现频次cp(a,b),并根据所述单用户点击行为维度的紧密共现频次cp(a,b)计算单用户点击行为维度的紧密性关系的取值;和/或,获取多个用户的点击行为的同一查询点击的不同文本标题集合,将所述集合中的标题两两形成一个或一个以上第七类二元组<标题2,标题3>,并将所述一个或一个以上第七类二元组合并形成第八类二元组<句子7,句子8>,确定所述第八类二元组中句子7包含概念a且不包含与a同一属性的其他概念、句子8包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户点击行为维度的紧密共现频次cp(a,b),并根据所述多用户点击行为维度的紧密共现频次cp(a,b)计算多用户点击行为维度的紧密性关系的取值。
根据本发明实施方式的第二方面,提供了一种用于垂直领域的概念关系构建装置,该装置可包括:
构建模块,用于根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。
在本发明的一些实施方式中,所述构建模块,可用于:通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述所述概念层级关系,进一步确定出与所述概念层级关系正相关的概念层级维度上的紧密性关系的取值,其中,对于无转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis,对于带转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis与路径转折惩罚t_penalty的乘积,单边距离e_dis为概念细化距离g_dis与概念层级惩罚g_penalty的乘积或概念泛化距离r_dis与概念层级惩罚g_penalty的乘积,其中,单边距离e_dis为一个属性层级关系树中两个直接相连的概念之间的路径距离,概念细化距离g_dis为按方向的上层概念到下层概念的路径距离,概念泛化距离r_dis为下层概念到上层概念的路径距离,概念层级惩罚g_penalty用于表征单边距离的概念细化和概念泛化程度,根据层级关系树中每层的概念数n确定,路径转折惩罚t_penalty用于表征概念间的转意程度,根据层级关系树深度H和路径最高层级节点深度h确定。
在本发明的一些实施方式中,所述构建模块,可用于:根据领域文本中同一属性下的概念a和概念b的并列共现频次cparallel(a,b)通过下述公式计算概念同位维度上的紧密性关系的取值:
p_score(a,b)为概念a和概念b在概念同位维度的紧密性关系的取值,c(a)为概念a在领域文本中的出现次数,N为置性度惩罚因子。
在本发明的一些实施方式中,所述构建模块,可用于:获取单个用户搜索行为的先后查询序列,形成一个或一个以上第一类二元组<查询1,查询2>,并将所述一个或一个以上第一类二元组合并形成第二类二元组<句子1,句子2>,确定所述第二类二元组中句子1包含概念a且不包含与a同一属性的其他概念、句子2包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户搜索行为维度的紧密共现频次cp(a,b),并根据所述单用户搜索行为维度的紧密共现频次确定单用户搜索行为维度的紧密性关系的取值;和/或,获取多个用户搜索行为中多用户点击到同一检索结果的查询集合,将所述查询集合中的两两查询形成一个或一个以上的第三类二元组<查询3,查询4>,并将所述一个或一个以上第三类二元组合并形成第四类二元组<句子3,句子4>,确定所述第四类二元组中句子3包含概念a且不包含与a同一属性的其他概念、句子4包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户搜索行为维度的紧密共现频次cp(a,b),并根据所述多用户搜索行为维度的紧密共现频次cp(a,b)计算多用户搜索行为维度的紧密性关系的取值。
在本发明的一些实施方式中,所述构建模块,可用于:获取单个用户的点击行为的搜索查询和该搜索查询对应的点击文本标题形成一个或一个以上第五类二元组<查询5,标题1>,并将所述一个或一个以上第五类二元组合并形成第六类二元组<句子5,句子6>,确定所述第六类二元组中句子5包含概念a且不包含与a同一属性的其他概念、句子6包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户点击行为维度的紧密共现频次cp(a,b),并根据所述单用户点击行为维度的紧密共现频次cp(a,b)计算单用户点击行为维度的紧密性关系的取值;和/或,获取多个用户的点击行为的同一查询点击的不同文本标题集合,将所述集合中的标题两两形成一个或一个以上第七类二元组<标题2,标题3>,并将所述一个或一个以上第七类二元组合并形成第八类二元组<句子7,句子8>,确定所述第八类二元组中句子7包含概念a且不包含与a同一属性的其他概念、句子8包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户点击行为维度的紧密共现频次cp(a,b),并根据所述多用户点击行为维度的紧密共现频次cp(a,b)计算多用户点击行为维度的紧密性关系的取值。
本发明实施方式提供的用于垂直领域的概念关系构建方法和装置,能够从垂直领域中的概念层级知识、概念同位知识和用户的搜索和点击行为数据中的一个或多个方面刻画概念的紧密性关系,扩展了垂直领域内概念描述的方式;而且,将概念层级关系、领域文本中概念并现频次、用户的搜索和点击行为数据在满足用户需求方面的紧密性上定量化,提供了准确度较高的概念紧密性计算方式。
附图说明
图1图示了根据本发明一种实施方式的用于垂直领域的概念关系构建方法的流程示意图;
图2图示了根据本发明一种实施方式的垂直领域概念层级关系树的结构示意图;
图3图示了根据本发明一种实施方式的概念紧密性关系确定的示意图;
图4图示了根据本发明一种实施方式的概念紧密性关系应用的示意图;
图5图示了根据本发明一种实施方式的用于垂直领域的概念关系构建装置的结构示意图。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明的用于垂直领域的概念关系构建方法可包括:根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,其中,概念的紧密性关系用于描述垂直领域内同一属性下的两两概念(例如,可以将这样的两个概念称为一个概念对)之间在满足用户需求方面的关联度。例如,可根据两个概念a和概念b(例如,概念对(a,b))之间的概念层级关系构建概念a和b在层级关系维度上的紧密性关系,也可以根据概念a和b的概念同位关系(例如,可通过同一属性下的两个概念在领域文本中的并列共现频次表征概念同位关系)构建概念同位维度上的紧密性关系,还可以根据用户的搜索行为和/或用户的点击行为构建概念a和b在用户的搜索行为维度和/或用户的点击行为维度上的紧密性关系。又例如,还可以根据上述三方面数据资源中的任意两个方面或三方面的数据资源构建同一属性下的两两概念之间在相应维度上的紧密性关系。
下面以根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为三方面数据资源进行概念紧密性关系构建为例,说明紧密性关系构建的方法。需要指出的是,在不脱离本发明权利要求书的范围内,还可以对本说明书描述的实施方式进行各种组合和变形。本领域技术人员根据下面将要描述的基于三方面数据资源进行概念关系构建的方法可以相应地确定根据上述两方面数据资源或一方面数据资源进行概念关系构建的方法。
参见图1,图1图示了根据本发明一种实施方式的用于垂直领域的概念关系构建方法的流程示意图。在图1所示的实施方式中,可以根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为和用户的点击行为三方面数据资源确定同一属性下的两两概念之间在满足用户需求方面的潜在关联度,即,概念的紧密性。其中,用户的搜索行为可包括单个用户的搜索行为和/或多个用户的搜索行为,用户的点击行为可包括单个用户的点击行为和/或多个用户的点击行为。在图1所示的实施方式中,用户的搜索行为包括单个用户的搜索行为和多个用户的搜索行为,用户的点击行为包括单个用户的点击行为和多个用户的点击行为。
垂直领域内的概念层级关系是基于垂直领域中概念的一种包含、被包含、并列关系建立的,图2示出了垂直领域内“语言教育”的属性以及该属性下的概念关系树,本发明将一个属性内的概念关系树称为层级关系。两个概念在层级关系中的距离体现了概念间含义的远近程度。两个概念之间距离越小,则这两个概念在层级维度上越紧密,即,紧密性关系的取值越大。本发明通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述概念a和概念b之间的概念层级关系d_score(a,b),例如,公式(2),根据概念a和概念b之间的概念层级关系d_score(a,b)可以进一步确定出与概念层级关系正相关的概念层级维度上的紧密性关系的取值p_score(a,b),例如,通过公式(1),其中,
p_score(a,b)=ω*d_score(a,b),ω>0 (1)
其中,ω为取值大于0的相关系数,表示概念层级关系与概念紧密性关系的取值正相关。概念路径距离route_dis为概念a和概念b在层级关系树中的路径距离,可分为2种类型,一种是带转折的路径距离,另一种是无转折的路径距离。如图2所示,概念“英语”到概念“日语”间的路径上有“英语→语种”的子到父和“语种→小语种”的父到子转折,这样的路径称为带转折路径;概念“语种”到“日语”的路径称为无转折路径。对于有转折的路径,需要增加路径转折惩罚t_penalty,t_penalty为用于表征概念之间的转意程度,根据层级关系树深度H和路径最高层级节点深度h通过公式(4)确定。对于无转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis,对于带转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis与路径转折惩罚t_penalty的乘积,例如,路径距离route_dis通过下述公式(3)计算:
其中,
t_penalty=βH-h,β>1,H是层级树深度,h为路径最高层级节点深度(4)
g_penalty=αln(n)α>1,n是下层概念数 (6)
单边距离e_dis为层级关系树中两个直接相连的概念之间的路径距离,可以是概念细化距离g_dis与概念层级惩罚g_penalty的乘积或概念泛化距离r_dis与概念层级惩罚g_penalty的乘积,例如,可通过公式(5)进行计算。例如,图2所示的概念“小语种”到概念“日语”的路径距离,概念细化距离g_dis为按方向的上层概念到下层概念的路径距离,例如图2所示的概念“小语种”到概念“日语”的路径距离,概念泛化距离r_dis为下层概念到上层概念的路径距离,例如图2所示的概念“日语”到概念“小语种”的路径距离,概念层级惩罚g_penalty用于表征单边距离的概念细化和概念泛化程度,根据层级关系树中每层的概念数n通过公式(6)确定。其中,带转折的路径为路径中同时包含概念泛化距离和概念细化距离的路径。
本发明实施方式中的领域文本可包括领域内的网页文本,还可包括从搜索引擎上获取的描述垂直领域内概念的查询或标题信息。领域文本中概念并列出现的关系,体现出概念之间的同位相关性,也就是说,这一系列同属性概念在满足用户需求方面具有等价性或同时被需求的程度。同一属性下的概念a和概念b在领域文本中的并列共现体现了用户在这一属性维度对概念a和概念b同时需求的程度。领域文本中同一属性下的a和概念b的并列共现频次cparallel(a,b)与概念同位维度上的概念紧密性关系的取值p_score(a,b)可通过公式(7)进行计算。
p_score(a,b)为概念a和概念b在概念同位维度的紧密性关系的取值,c(a)为概念a在领域文本中的出现次数,N为置性度惩罚因子,对c(a)的置信进行惩罚的因子。例如,用于在c(a)值很小不够置信的情况下的一种惩罚,可以取大于1的数值。N的取值根据不同的领域进行相应的选定。
本发明实施方式的单用户搜索行为可包括一个用户在一个搜索会话session中留下的查询query序列,可以按时间先后划分。一般而言,用户会多次变换查询以获取自己需要的某个信息,因此用户搜索行为中的概念变化体现了概念在满足用户需求上的一种紧密性,也可以称为在单用户搜索行为维度上的概念紧密性关系。多用户搜索行为可包括多个用户输入不同的查询query都点击到同一标题title的搜索行为。这样的query集合表示某一种共同的需求,因此query集合中出现的同一领域的概念间存在一种紧密关系,也可以称为概念在多用户搜索行为维度上的紧密性关系。单用户点击行为可包括一个用户搜索查询query到点击一个标题title的检索行为,该title是能够满足用户当前query的需求,因此query和title间的概念存在紧密性,也可称为在单用户点击行为维度上的紧密性关系。多用户点击行为可包括被多个用户的同一个query点击的title的集合,集合里的title都能满足同一个query的需求,因此title集合中出现的概念存在紧密性,也可称为在多用户点击行为维度上的紧密性。
单个用户搜索行为的查询query序列根据query的先后顺序可以形成涉及两个概念a和概念b的一个或多个二元组<查询1,查询2>,并将上述一个或多个第一类二元组合并形成第二类二元组<句子1,句子2>,确定所述第二类二元组中句子1包含概念a且不包含与a同一属性的其他概念、句子2包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户搜索行为维度的紧密共现频次cp(a,b),该单用户搜索行为维度的紧密共现频次cp(a,b)体现了单用户对概念a和概念b的一种需求替换,并根据该单用户搜索行为维度的紧密共现频次cp(a,b)通过公式(8)确定单用户搜索行为维度的紧密性关系的取值:
其中,p_score(a,b)为概念a和概念b在单用户搜索行为维度的紧密性关系的取值,c1(a)为概念a的在全部的二元组的句子中的出现次数,N为置性度惩罚因子,对c1(a)的置信进行惩罚的因子,N的取值根据不同的领域进行相应的选定。
本发明实施方式的多用户搜索行为包括多个用户点击同一检索结果的查询结合,获取多个用户搜索行为中多用户点击到同一检索结果的查询集合,将查询集合中的两两查询形成一个或一个以上的第三类二元组<查询3,查询4>,并将所述一个或一个以上第三类二元组合并形成第四类二元组<句子3,句子4>,确定第四类二元组中句子3包含概念a且不包含与a同一属性的其他概念、句子4包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户搜索行为维度的紧密共现频次cp(a,b),体现了概念a和概念b满足多用户某类需求相近程度,并根据多用户搜索行为维度的紧密共现频次cp(a,b)通过公式(8)相应地计算多用户搜索行为维度的紧密性关系的取值。
本发明实施方式的单用户点击行为可包括单个用户的搜索查询和与该搜索查询对应的点击文本标题,获取单个用户的点击行为的搜索查询和该搜索查询对应的点击文本标题形成一个或一个以上第五类二元组<查询5,标题1>,并将一个或一个以上第五类二元组合并形成第六类二元组<句子5,句子6>,确定第六类二元组中句子5包含概念a且不包含与a同一属性的其他概念、句子6包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户点击行为维度的紧密共现频次cp(a,b),该单用户点击行为维度的紧密共现频次cp(a,b)体现了概念a和概念b满足单用户某类需求相近程度,并根据单用户点击行为维度的紧密共现频次cp(a,b)通过公式(8)相应地计算单用户点击行为维度的紧密性关系的取值。
本发明实施方式的多用户点击行为可包括多个用户对于同一查询点击的不同文本标题集合,获取多个用户的点击行为的同一查询点击的不同文本标题集合,将标题集合中的标题两两形成一个或一个以上第七类二元组<标题2,标题3>,并将一个或一个以上第七类二元组合并形成第八类二元组<句子7,句子8>,确定第八类二元组中句子7包含概念a且不包含与a同一属性的其他概念、句子8包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户点击行为维度的紧密共现频次cp(a,b),多用户点击行为维度的紧密共现频次cp(a,b)体现了概念a和概念b在满足多用户某一种需求的相近程度,并根据多用户点击行为维度的紧密共现频次cp(a,b)通过公式(8)相应地计算多用户点击行为维度的紧密性关系的取值。
例如,如图3所示,以一个用户的两个查询为例,形成一个二元组<query1:朝阳区英语写作阅读培训机构,query2:东城区英语听力阅读培训机构>,该二元组是一个会话session中用户先后搜索的query形成的二元组。首先,识别出查询query所属垂直领域内的概念以及概念对应的属性<query1:地域属性:朝阳区,语种属性:英语,单项能力属性:写作、阅读>和<query2:地域属性:东城区,语种属性:英语,单项能力属性:听力、阅读>,然后判断概念之间是否构成紧密共现,其中概念对<朝阳区、东城区>是满足所述要求的一次紧密共现,并获取概念紧密性共现频次,并根据公式(8)相应地计算概念在单用户搜索行为维度上的紧密性。
通过上面描述的概念紧密性确定方式,可以计算出两个概念在概念层级维度、概念同位维度、单用户搜索行为维度、多用户搜索行为维度、单用户点击行为维度、多用户点击行为维度上的紧密性关系的取值,依据具体领域以及应用的不同,每个维度上的紧密性贡献也有所不同。可以将两个概念在上述六个维度的紧密性关系的取值进行融合,例如,公式(9)描述的线性融合,将经融合后的紧密性关系的取值作为该两个概念的紧密性关系取值的第七个维度。
可以将上述七个维度的紧密性关系的取值作为两个概念的紧密性关系取值矢量,用于指导检索或推荐任务等。
此外,根据具体的应用需要,还以仅计算在上述的一个、二个、三个、四个、五个维度的紧密性关系的取值,并将其中两个、三个、四个、五个维度的紧密性关系的取值进行融合,获取附加的另一维度的紧密性关系的取值,并将这一附加的融合维度与在先维度的取值作为概念紧密性的综合取值。
垂直领域的概念紧密性关系可用于指导检索、检索结果排序或检索推荐任务等。以语言培训领域中用户查询“北京学习小语种”为例,检索任务可以将和小语种紧密性很高的概念(如:日语、法语、韩语)作为可检索对象,然后利用小语种与这些概念的紧密性指导排序;同时,如果服务器数据库没有足够的关于“北京学习小语种”的数据结果返回给用户,还可以利用概念紧密性结果为用户推荐天津、河北、上海等地的相关培训信息。如图4描述的是利用概念紧密性关系在检索上的检索查询扩展和排序任务,以及在推荐中的推荐候选提供和排序任务的一种例子。利用概念“小语种”到“日语”、“韩语”、“法语”的紧密性扩展查询和排序。利用概念“北京”到“天津”、“石家庄”的紧密性推荐北京以外的培训。
以上结合具体实施方式描述了用于垂直领域的概念关系构建方法,下面将结合具体实施方式描述用于垂直领域的概念关系构建装置。
参见图5,图5图示了根据本发明一种实施方式的用于垂直领域的概念关系构建装置的结构示意图,该装置500可包括:
构建模块501,用于根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,
其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。
本发明实施方式的构建模型501可根据应用需要设置于检索服务器设备上,用于检索、排序、推荐任务等。构建模块501可根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,其中,概念的紧密性关系用于描述垂直领域内同一属性下的两两概念(例如,可以将这样的两个概念称为一个概念对)之间在满足用户需求方面的关联度。例如,可根据两个概念a和概念b(例如,概念对(a,b))之间的概念层级关系构建概念a和b在层级关系维度上的紧密性关系,也可以根据概念a和b的概念同位关系(例如,可通过同一属性下的两个概念在领域文本中的并列共现频次表征概念同位关系)构建概念同位维度上的紧密性关系,还可以根据用户的搜索行为和/或用户的点击行为构建概念a和b在用户的搜索行为维度和/或用户的点击行为维度上的紧密性关系。又例如,还可以根据上述三方面数据资源中的任意两个方面或三方面的数据资源构建同一属性下的两两概念之间在相应维度上的紧密性关系。
下面以根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为和用户的点击行为三方面数据资源进行概念关系构建为例,描述构建模块501。
在本发明的一些实施方式中,构建模块501可以通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述概念a和概念b之间的概念层级关系d_score(a,b),例如,公式(2),根据概念a和概念b之间的概念层级关系d_score(a,b)可以进一步确定出与概念层级关系正相关的概念层级维度上的紧密性关系的取值p_score(a,b),例如,通过公式(1)。具体的计算与上述方法的描述类似,在此不在赘述。
本发明实施方式中的领域文本可包括领域内的网页文本,还可包括从搜索引擎上获取的描述垂直领域内概念的查询或标题信息。领域文本中概念并列出现的关系,体现出概念之间的同位相关性,也就是说,这一系列同属性概念在满足用户需求方面具有等价性或同时被需求的程度。同一属性下的概念a和概念b在领域文本中的并列共现体现了用户在这一属性维度对概念a和概念b同时需求的程度。构建模块501可根据领域文本中同一属性下的a和概念b的并列共现频次cparallel(a,b)通过公式(7)计算概念同位维度上的概念紧密性关系的取值p_score(a,b)。
本发明实施方式的单用户搜索行为可包括一个用户在一个搜索会话session中留下的查询query序列,可以按时间先后划分。一般而言,用户会多次变换查询以获取自己需要的某个信息,因此用户搜索行为中的概念变化体现了概念在满足用户需求上的一种紧密性,也可以称为在单用户搜索行为维度上的概念紧密性关系。多用户搜索行为可包括多个用户输入不同的查询query都点击到同一标题title的搜索行为。这样的query集合表示某一种共同的需求,因此query集合中出现的同一领域的概念间存在一种紧密关系,也可以称为概念在多用户搜索行为维度上的紧密性关系。单用户点击行为可包括一个用户搜索查询query到点击一个标题title的检索行为,该title是能够满足用户当前query的需求,因此query和title间的概念存在紧密性,也可称为在单用户点击行为维度上的紧密性关系。多用户点击行为可包括被多个用户的同一个query点击的title的集合,集合里的title都能满足同一个query的需求,因此title集合中出现的概念存在紧密性,也可称为在多用户点击行为维度上的紧密性。
构建模块501获取单个用户搜索行为的查询query序列根据query的先后顺序可以形成涉及两个概念a和概念b的一个或多个二元组<查询1,查询2>,并将上述一个或多个第一类二元组合并形成第二类二元组<句子1,句子2>,确定所述第二类二元组中句子1包含概念a且不包含与a同一属性的其他概念、句子2包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户搜索行为维度的紧密共现频次cp(a,b),该单用户搜索行为维度的紧密共现频次cp(a,b)体现了单用户对概念a和概念b的一种需求替换,并根据该单用户搜索行为维度的紧密共现频次cp(a,b)通过公式(8)确定单用户搜索行为维度的紧密性关系的取值。
本发明实施方式的多用户搜索行为包括多个用户点击同一检索结果的查询结合,构建模块501获取多个用户搜索行为中多用户点击到同一检索结果的查询集合,将查询集合中的两两查询形成一个或一个以上的第三类二元组<查询3,查询4>,并将所述一个或一个以上第三类二元组合并形成第四类二元组<句子3,句子4>,确定第四类二元组中句子3包含概念a且不包含与a同一属性的其他概念、句子4包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户搜索行为维度的紧密共现频次cp(a,b),体现了概念a和概念b满足多用户某类需求相近程度,并根据多用户搜索行为维度的紧密共现频次cp(a,b)通过公式(8)相应地计算多用户搜索行为维度的紧密性关系的取值。
本发明实施方式的单用户点击行为可包括单个用户的搜索查询和与该搜索查询对应的点击文本标题,构建模块501获取单个用户的点击行为的搜索查询和该搜索查询对应的点击文本标题形成一个或一个以上第五类二元组<查询5,标题1>,并将一个或一个以上第五类二元组合并形成第六类二元组<句子5,句子6>,确定第六类二元组中句子5包含概念a且不包含与a同一属性的其他概念、句子6包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户点击行为维度的紧密共现频次cp(a,b),该单用户点击行为维度的紧密共现频次cp(a,b)体现了概念a和概念b满足单用户某类需求相近程度,并根据单用户点击行为维度的紧密共现频次cp(a,b)通过公式(8)相应地计算单用户点击行为维度的紧密性关系的取值。
本发明实施方式的多用户点击行为可包括多个用户对于同一查询点击的不同文本标题集合,构建模块501获取多个用户的点击行为的同一查询点击的不同文本标题集合,将标题集合中的标题两两形成一个或一个以上第七类二元组<标题2,标题3>,并将一个或一个以上第七类二元组合并形成第八类二元组<句子7,句子8>,确定第八类二元组中句子7包含概念a且不包含与a同一属性的其他概念、句子8包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户点击行为维度的紧密共现频次cp(a,b),多用户点击行为维度的紧密共现频次cp(a,b)体现了概念a和概念b在满足多用户某一种需求的相近程度,并根据多用户点击行为维度的紧密共现频次cp(a,b)通过公式(8)相应地计算多用户点击行为维度的紧密性关系的取值。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。
Claims (10)
1.一种用于垂直领域的概念关系构建方法,其特征在于,包括:
根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,
其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。
2.根据权利要求1所述的方法,其特征在于,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系包括:
通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述所述概念层级关系,进一步确定出与所述概念层级关系正相关的概念层级维度上的紧密性关系的取值,
其中,对于无转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis,对于带转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis与路径转折惩罚t_penalty的乘积,单边距离e_dis为概念细化距离g_dis与概念层级惩罚g_penalty的乘积或概念泛化距离r_dis与概念层级惩罚g_penalty的乘积,
其中,单边距离e_dis为一个属性层级关系树中两个直接相连的概念之间的路径距离,概念细化距离g_dis为按方向的上层概念到下层概念的路径距离,概念泛化距离r_dis为下层概念到上层概念的路径距离,概念层级惩罚g_penalty用于表征单边距离的概念细化和概念泛化程度,根据层级关系树中每层的概念数n确定,路径转折惩罚t_penalty用于表征概念间的转意程度,根据层级关系树深度H和路径最高层级节点深度h确定。
3.根据权利要求1所述的方法,其特征在于,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系包括:
根据领域文本中同一属性下的概念a和概念b的并列共现频次cparallel(a,b)通过下述公式计算概念同位维度上的紧密性关系的取值:
p_score(a,b)为概念a和概念b在概念同位维度的紧密性关系的取值,c(a)为概念a在领域文本中的出现次数,N为置性度惩罚因子。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系包括:
获取单个用户搜索行为的先后查询序列,形成一个或一个以上第一类二元组<查询1,查询2>,并将所述一个或一个以上第一类二元组合并形成第二类二元组<句子1,句子2>,确定所述第二类二元组中句子1包含概念a且不包含与a同一属性的其他概念、句子2包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户搜索行为维度的紧密共现频次cp(a,b),并根据所述单用户搜索行为维度的紧密共现频次确定单用户搜索行为维度的紧密性关系的取值;和/或
获取多个用户搜索行为中多用户点击到同一检索结果的查询集合,将所述查询集合中的两两查询形成一个或一个以上的第三类二元组<查询3,查询4>,并将所述一个或一个以上第三类二元组合并形成第四类二元组<句子3,句子4>,确定所述第四类二元组中句子3包含概念a且不包含与a同一属性的其他概念、句子4包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户搜索行为维度的紧密共现频次cp(a,b),并根据所述多用户搜索行为维度的紧密共现频次cp(a,b)计算多用户搜索行为维度的紧密性关系的取值。
5.根据权利要求4所述的方法,其特征在于,根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系包括:
获取单个用户的点击行为的搜索查询和该搜索查询对应的点击文本标题形成一个或一个以上第五类二元组<查询5,标题1>,并将所述一个或一个以上第五类二元组合并形成第六类二元组<句子5,句子6>,确定所述第六类二元组中句子5包含概念a且不包含与a同一属性的其他概念、句子6包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户点击行为维度的紧密共现频次cp(a,b),并根据所述单用户点击行为维度的紧密共现频次cp(a,b)计算单用户点击行为维度的紧密性关系的取值;和/或
获取多个用户的点击行为的同一查询点击的不同文本标题集合,将所述集合中的标题两两形成一个或一个以上第七类二元组<标题2,标题3>,并将所述一个或一个以上第七类二元组合并形成第八类二元组<句子7,句子8>,确定所述第八类二元组中句子7包含概念a且不包含与a同一属性的其他概念、句子8包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户点击行为维度的紧密共现频次cp(a,b),并根据所述多用户点击行为维度的紧密共现频次cp(a,b)计算多用户点击行为维度的紧密性关系的取值。
6.一种用于垂直领域的概念关系构建装置,其特征在于,包括:
构建模块,用于根据垂直领域知识中的概念层级关系和概念同位关系、用户的搜索行为、用户的点击行为中的一者或一者以上确定概念的紧密性关系,
其中,所述概念的紧密性关系用于描述垂直领域内同一属性下的两两概念之间在满足用户需求方面的关联度。
7.根据权利要求6所述的装置,其特征在于,所述构建模块,用于:
通过概念a和概念b之间的概念路径距离route_dis倒数的自然对数表述所述概念层级关系,进一步确定出与所述概念层级关系正相关的概念层级维度上的紧密性关系的取值,
其中,对于无转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis,对于带转折路径,概念路径距离route_dis为单边距离e_dis的累加Σe_dis与路径转折惩罚t_penalty的乘积,单边距离e_dis为概念细化距离g_dis与概念层级惩罚g_penalty的乘积或概念泛化距离r_dis与概念层级惩罚g_penalty的乘积,
其中,单边距离e_dis为一个属性层级关系树中两个直接相连的概念之间的路径距离,概念细化距离g_dis为按方向的上层概念到下层概念的路径距离,概念泛化距离r_dis为下层概念到上层概念的路径距离,概念层级惩罚g_penalty用于表征单边距离的概念细化和概念泛化程度,根据层级关系树中每层的概念数n确定,路径转折惩罚t_penalty用于表征概念间的转意程度,根据层级关系树深度H和路径最高层级节点深度h确定。
8.根据权利要求6所述的装置,其特征在于,所述构建模块,用于:
根据领域文本中同一属性下的概念a和概念b的并列共现频次cparallel(a,b)通过下述公式计算概念同位维度上的紧密性关系的取值:
p_score(a,b)为概念a和概念b在概念同位维度的紧密性关系的取值,c(a)为概念a在领域文本中的出现次数,N为置性度惩罚因子。
9.根据权利要求6至8中任意一项所述的装置,其特征在于,所述构建模块,用于:
获取单个用户搜索行为的先后查询序列,形成一个或一个以上第一类二元组<查询1,查询2>,并将所述一个或一个以上第一类二元组合并形成第二类二元组<句子1,句子2>,确定所述第二类二元组中句子1包含概念a且不包含与a同一属性的其他概念、句子2包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户搜索行为维度的紧密共现频次cp(a,b),并根据所述单用户搜索行为维度的紧密共现频次确定单用户搜索行为维度的紧密性关系的取值;和/或
获取多个用户搜索行为中多用户点击到同一检索结果的查询集合,将所述查询集合中的两两查询形成一个或一个以上的第三类二元组<查询3,查询4>,并将所述一个或一个以上第三类二元组合并形成第四类二元组<句子3,句子4>,确定所述第四类二元组中句子3包含概念a且不包含与a同一属性的其他概念、句子4包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户搜索行为维度的紧密共现频次cp(a,b),并根据所述多用户搜索行为维度的紧密共现频次cp(a,b)计算多用户搜索行为维度的紧密性关系的取值。
10.根据权利要求9所述的装置,其特征在于,所述构建模块,用于:
获取单个用户的点击行为的搜索查询和该搜索查询对应的点击文本标题形成一个或一个以上第五类二元组<查询5,标题1>,并将所述一个或一个以上第五类二元组合并形成第六类二元组<句子5,句子6>,确定所述第六类二元组中句子5包含概念a且不包含与a同一属性的其他概念、句子6包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在单用户点击行为维度的紧密共现频次cp(a,b),并根据所述单用户点击行为维度的紧密共现频次cp(a,b)计算单用户点击行为维度的紧密性关系的取值;和/或
获取多个用户的点击行为的同一查询点击的不同文本标题集合,将所述集合中的标题两两形成一个或一个以上第七类二元组<标题2,标题3>,并将所述一个或一个以上第七类二元组合并形成第八类二元组<句子7,句子8>,确定所述第八类二元组中句子7包含概念a且不包含与a同一属性的其他概念、句子8包含概念b且不包含与b同一属性的其他概念的次数,作为概念a和概念b的在多用户点击行为维度的紧密共现频次cp(a,b),并根据所述多用户点击行为维度的紧密共现频次cp(a,b)计算多用户点击行为维度的紧密性关系的取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510050050.5A CN104598613B (zh) | 2015-01-30 | 2015-01-30 | 一种用于垂直领域的概念关系构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510050050.5A CN104598613B (zh) | 2015-01-30 | 2015-01-30 | 一种用于垂直领域的概念关系构建方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598613A true CN104598613A (zh) | 2015-05-06 |
CN104598613B CN104598613B (zh) | 2017-11-03 |
Family
ID=53124398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510050050.5A Active CN104598613B (zh) | 2015-01-30 | 2015-01-30 | 一种用于垂直领域的概念关系构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598613B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153754A (zh) * | 2016-12-02 | 2018-06-12 | 中国移动通信有限公司研究院 | 一种数据处理方法及其装置 |
CN109948073A (zh) * | 2017-09-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
JPWO2021166231A1 (zh) * | 2020-02-21 | 2021-08-26 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5953726A (en) * | 1997-11-24 | 1999-09-14 | International Business Machines Corporation | Method and apparatus for maintaining multiple inheritance concept hierarchies |
US20050027729A1 (en) * | 2002-05-22 | 2005-02-03 | Allan Kuchinsky | System and methods for visualizing and manipulating multiple data values with graphical views of biological relationships |
CN1669029A (zh) * | 2002-05-17 | 2005-09-14 | 威乐提公司 | 自文件集合中自动搜寻概念层次结构的方法及系统 |
CN103136262A (zh) * | 2011-11-30 | 2013-06-05 | 阿里巴巴集团控股有限公司 | 信息检索方法及装置 |
CN104008301A (zh) * | 2014-06-09 | 2014-08-27 | 华东师范大学 | 一种领域概念层次结构自动构建方法 |
-
2015
- 2015-01-30 CN CN201510050050.5A patent/CN104598613B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5953726A (en) * | 1997-11-24 | 1999-09-14 | International Business Machines Corporation | Method and apparatus for maintaining multiple inheritance concept hierarchies |
CN1669029A (zh) * | 2002-05-17 | 2005-09-14 | 威乐提公司 | 自文件集合中自动搜寻概念层次结构的方法及系统 |
US20050027729A1 (en) * | 2002-05-22 | 2005-02-03 | Allan Kuchinsky | System and methods for visualizing and manipulating multiple data values with graphical views of biological relationships |
CN103136262A (zh) * | 2011-11-30 | 2013-06-05 | 阿里巴巴集团控股有限公司 | 信息检索方法及装置 |
CN104008301A (zh) * | 2014-06-09 | 2014-08-27 | 华东师范大学 | 一种领域概念层次结构自动构建方法 |
Non-Patent Citations (1)
Title |
---|
文必龙等: "基于概念关系的文本特征提取方法", 《计算机与数字工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153754A (zh) * | 2016-12-02 | 2018-06-12 | 中国移动通信有限公司研究院 | 一种数据处理方法及其装置 |
CN108153754B (zh) * | 2016-12-02 | 2021-09-14 | 中国移动通信有限公司研究院 | 一种数据处理方法及其装置 |
CN109948073A (zh) * | 2017-09-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
JPWO2021166231A1 (zh) * | 2020-02-21 | 2021-08-26 | ||
US20230053344A1 (en) * | 2020-02-21 | 2023-02-23 | Nec Corporation | Scenario generation apparatus, scenario generation method, and computer-readablerecording medium |
US12039253B2 (en) * | 2020-02-21 | 2024-07-16 | Nec Corporation | Scenario generation apparatus, scenario generation method, and computer-readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
CN104598613B (zh) | 2017-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | A deep look into neural ranking models for information retrieval | |
US10956461B2 (en) | System for searching, recommending, and exploring documents through conceptual associations | |
US10572521B2 (en) | Automatic new concept definition | |
US10162882B2 (en) | Automatically linking text to concepts in a knowledge base | |
US9734196B2 (en) | User interface for summarizing the relevance of a document to a query | |
Kanwal et al. | A review of text-based recommendation systems | |
US9805139B2 (en) | Computing the relevance of a document to concepts not specified in the document | |
US9703858B2 (en) | Inverted table for storing and querying conceptual indices | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
Garg et al. | The structure of word co-occurrence network for microblogs | |
WO2015028616A1 (en) | Method and system for identifying and evaluating semantic patterns in written language | |
Deepak et al. | Operators for similarity search: Semantics, techniques and usage scenarios | |
CN104598613B (zh) | 一种用于垂直领域的概念关系构建方法和装置 | |
WO2016009321A1 (en) | System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices | |
Li et al. | Unsupervised keyword extraction from microblog posts via hashtags | |
Bussolon | Card sorting, category validity, and contextual navigation | |
Asfari | Personalized access to contextual information by using an assistant for query reformulation | |
Kadam et al. | Big data analytics-recommendation system with Hadoop Framework | |
Liu | Personalized Recommendation Algorithm for Movie Data Combining Rating Matrix and User Subjective Preference | |
Gaou et al. | RECOMMENDATION of A LIST of ITEMS of SEARCH RETRIEVAL for USER’S INTENT | |
Mohajeri et al. | BubbleNet: An innovative exploratory search and summarization interface with applicability in health social media | |
Ruggero | Entity search: How to build virtual documents leveraging on graph embeddings | |
Mauro | Suggestion Models to Support Personalized Information Filtering | |
Gaou et al. | A New Approach of a List of Items for Search Retrieval Systems | |
Meng et al. | Top-k approximate selection for typicality query results over spatio-textual data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180116 Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2 Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |