CN102737039B - 索引建立方法、搜索方法和搜索结果排序方法及对应装置 - Google Patents

索引建立方法、搜索方法和搜索结果排序方法及对应装置 Download PDF

Info

Publication number
CN102737039B
CN102737039B CN201110086824.1A CN201110086824A CN102737039B CN 102737039 B CN102737039 B CN 102737039B CN 201110086824 A CN201110086824 A CN 201110086824A CN 102737039 B CN102737039 B CN 102737039B
Authority
CN
China
Prior art keywords
word
attribute
entity
query
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110086824.1A
Other languages
English (en)
Other versions
CN102737039A (zh
Inventor
喻宏勇
石远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110086824.1A priority Critical patent/CN102737039B/zh
Publication of CN102737039A publication Critical patent/CN102737039A/zh
Application granted granted Critical
Publication of CN102737039B publication Critical patent/CN102737039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种索引建立方法、搜索方法和搜索结果排序方法及对应装置,其中建立索引的方法包括:对页面进行分词和词性标注;基于语义分析或页面中的视觉特征中的至少一种,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。在对query进行搜索时同时匹配词语的实体词或属性词标注,或者在对query的搜索结果进行排序时,提高与query中各词语及各词语的实体词或属性词标注相匹配的索引对应的页面的排序权值。通过本发明能够提高搜索准确性,改善搜索效果。

Description

索引建立方法、搜索方法和搜索结果排序方法及对应装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种索引建立方法、搜索方法和搜索结果排序方法及对应装置。
【背景技术】
随着计算机技术中搜索技术的迅速发展,搜索引擎已经成为人们获取信息的主要手段。当用户输入搜索请求(query)后,搜索引擎能够将与query匹配的搜索结果返回给用户,即将包含query中各词语的页面包含在搜索结果。
在现有的搜索技术中,召回的搜索结果中,可能有的页面与用户输入的query的相关度较低,因此,在对搜索结果进行排序时,主要基于搜索结果中页面的特征向量与query的相关度进行,将特征向量与query的相关度高的搜索结果排在前面。然而,现有的排序方式仍然会存在搜索准确性低的问题,例如,用户输入的query为“刘德华出生日期”,搜索引擎在召回页面时,可能存在一些页面中虽然包含“刘德华”和“出生日期”,但两者之间是毫无关系的,而显然用户需求的页面是“出生日期”作为“刘德华”的属性的,这在现有的搜索方法中并无法识别和满足,搜索准确性很低,搜索效果较差。
【发明内容】
有鉴于此,本发明提供了一种索引建立方法、搜索方法和搜索结果排序方法及对应装置,以便于提高搜索准确性,改善搜索效果。
具体技术方案如下:
一种索引建立方法,该方法包括:
A、对页面进行分词和词性标注;
B、基于语义分析或页面中的视觉特征中的至少一种,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
其中,所述页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;
步骤B中基于页面中的视觉特征,从分词处理后得到的各词语中确定实体词以及实体词对应的属性词具体包括:将页面中具有预设视觉特征的词语确定为实体词或属性词。
更优地,添加入所述索引中的还包括以下标注中的至少一种:
实体词与属性词之间对应关系的标注;以及,
属性词的属性类型标注;
实体词具有突出的视觉特征标注;以及,
属性词具有突出的视觉特征标注。
一种搜索方法,该方法包括:
A、对接收到的搜索请求query进行分词和词性标注;
B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,其中各词语的标注为各词语的实体词或属性词标注,所述索引采用上述索引建立方法建立;
D、将查找到的页面包含在所述query的搜索结果中。
较优地,在所述步骤A和步骤B之间还包括:
基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
具体地,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词包括:
将作为query中心词的名词或者query中的命名实体确定为实体词。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
更优地,在所述步骤B和所述步骤C之间还包括:
E、对所述query进行需求明确度分析,如果确定所述query需求明确,则继续执行所述步骤C;否则,执行步骤F;
F、查找与分词处理后得到的各词语相匹配的索引对应的页面,转至所述步骤D。
步骤E中对所述query进行需求明确度分析具体包括:
如果所述query中含有动词,则确定所述query具有明确的需求;或者,
如果所述query中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工或数据挖掘的方式形成且包含具有明确需求的词语。
较优地,步骤C中所述各词语的标注中还包括:
实体词与属性词的对应关系,或者,属性词的属性类型。
一种搜索结果排序方法,该方法包括:
A、对接收到的搜索请求query进行分词和词性标注;
B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、在对所述query对应的搜索结果进行排序时,提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;所述各词语的标注为各词语的实体词或属性词标注,所述索引采用上述索引建立方法建立。
较优地,在所述步骤A和步骤B之间还包括:
基于预设的停用词表对分词处理后的query进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
具体地,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词包括:
将作为query中心词的名词或者query中的命名实体确定为实体词。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
较优地,在所述步骤B和所述步骤C之间还包括:
E、对所述query进行需求明确度分析,如果确定所述query需求明确,则在所述步骤C中提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;否则,在所述步骤C中不提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值。
其中,步骤E中对所述query进行需求明确度分析具体包括:
如果所述query中含有动词,则确定所述query具有明确的需求;或者,
如果所述query中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工或数据挖掘的方式形成且包含具有明确需求的词语。
更优地,步骤C中所述各词语的标注中还包括:
实体词与属性词的对应关系,或者,属性词的属性类型。
另外,在确定所述query的需求明确后,进一步确定所述query的需求明确度等级;
在步骤C中提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值时,针对需求明确度等级越高的query,对页面在搜索结果中排序权值的提高幅度越大。
其中,确定所述query的需求明确度等级具体包括:
根据预设的各需求明确度分级对应的词语位置,确定所述query中需求明确的词语在所述query中的位置所对应的需求明确度分级;或者,
如果所述query包含有预设的需求词表中的词语,则依据所述query中需求明确的词语在所述需求词表中的明确度确定所述query的需求明确度等级;所述需求词表中各词语的明确度由人工设定或者在数据挖掘过程中基于统计概率设定。
更优地,该方法还包括:将与所述分词处理后得到的各词语以及各词语的标注相匹配的索引中,包含实体词具体突出的视觉特征标识或者属性词具有突出的视觉特征标识的索引所对应的页面更进一步提高在所述搜索结果中的排序权值。
一种索引建立的装置,该装置包括:文本处理单元、属性标注单元以及索引建立单元;
所述文本处理单元,用于对页面进行分词和词性标注;
所述属性标注单元,用于基于语义分析或页面中的视觉特征中的至少一种,从所述文本处理单元分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
所述索引建立单元,用于在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。
具体地,所述属性标注单元将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。
所述属性标注单元具体依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
在所述步骤C中,将对所述query进行分词处理后得到的各词语相匹配的页面作为所述query对应的搜索结果。
其中,所述页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;
所述属性标注单元具体将页面中具有预设视觉特征的词语确定为实体词或属性词。
更优地,所述索引建立单元,还将实体词与属性词之间对应关系的标注、属性词的属性类型标注、实体词具有突出的视觉标注以及属性词具有突出的视觉特征标注中的至少一种添加入所述索引。
一种搜索装置,该装置包括:文本分析单元、属性标注单元和搜索处理单元;
所述文本分析单元,用于对接收到的搜索请求query进行分词和词性标注;
所述属性标注单元,用于基于语义分析,从所述文本分析单元分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
所述搜索处理单元,用于查找与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,并将查找到的页面包含在所述query的搜索结果中;其中各词语的标注为各词语的实体词或属性词标注,所述索引由上述索引建立装置建立。
其中,所述文本分析单元具体包括:分词处理子单元、词性标注子单元和过滤处理子单元;
所述分词处理子单元,用于对接收到的query进行分词处理;
所述词性标注子单元,用于对所述分词处理后的词语进行词性标注;
所述过滤处理子单元,用于基于预设的停用词表对所述分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
具体地,所述属性标注单元将作为query中心词的名词或者query中的命名实体确定为实体词。
所述属性标注单元具体依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
较优地,该装置还包括:需求分析单元,用于对所述query进行需求明确度分析,如果确定所述query需求明确,则触发所述搜索处理单元查找与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,并将查找到的页面包含在所述query的搜索结果中;否则,触发所述搜索处理单元查找与分词处理后得到的各词语相匹配的索引对应的页面,并将查找到的页面包含在所述query的搜索结果中。
所述需求分析单元如果确定所述分词处理后得到的词语中含有动词,则确定所述query具有明确的需求;或者,如果确定所述分词处理后得到的词语中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工方式或数据挖掘方式形成且包含具有明确需求的词语。
更优地,所述属性标注单元进行的标注还包括:实体词与属性词的对应关系标注、属性词的属性类型标注、实体词具有突出的视觉特征标注或者属性词具有突出的视觉特征标注。
一种搜索结果排序装置,该装置包括:文本分析单元、属性标注单元、搜索处理单元和排序处理单元;
所述文本分析单元,用于对接收到的搜索请求query进行分词和词性标注;
所述属性标注单元,用于基于语义分析,从所述文本分析单元分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
所述搜索处理单元,用于搜索所述query对应的搜索结果;
所述排序处理单元,用于在对所述搜索结果进行排序时,提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;其中所述各词语的标注为各词语的实体词或属性词标注,所述索引由上述搜索装置建立的。
其中,所述文本分析单元具体包括:分词处理子单元、词性标注子单元和过滤处理子单元;
所述分词处理子单元,用于对接收到的query进行分词处理;
所述词性标注子单元,用于对所述分词处理后的词语进行词性标注;
所述过滤处理子单元,用于基于预设的停用词表对所述分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
具体地,所述属性标注单元将作为query中心词的名词或者query中的命名实体确定为实体词。
所述属性标注单元具体依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
所述搜索处理单元将对所述query进行分词处理后得到的各词语相匹配的页面作为所述query对应的搜索结果。
更进一步地,该装置还包括:需求分析单元,用于对所述query进行需求明确度分析,如果确定所述query需求明确,则触发所述排序处理单元提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;否则,禁止所述排序处理单元提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值。
其中,所述需求分析单元如果确定所述分词处理后得到的词语中含有动词,则确定所述query具有明确的需求;或者,如果确定所述分词处理后得到的词语中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工方式或数据挖掘方式形成且包含具有明确需求的词语。
更优地,所述属性标注单元进行的标注还包括:实体词与属性词的对应关系标注,或者,属性词的属性类型标注。
更优地,所述需求分析单元在确定所述query的需求明确后,还进一步确定所述query的需求明确度等级;
所述排序处理单元在提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值时,针对需求明确度等级越高的query,对页面在搜索结果中排序权值的提高幅度越大。
具体地,所述需求分析单元根据预设的各需求明确度分级对应的词语位置,确定所述query中需求明确的词语在所述query中的位置所对应的需求明确度分级;或者,
如果所述query包含有预设的需求词表中的词语,则依据所述query中需求明确的词语在所述需求词表中的明确度确定所述query的需求明确度等级;所述需求词表中各词语的明确度由人工设定或者在数据挖掘过程中基于统计概率设定。
更优地,所述排序处理单元,还用于将与所述分词处理后得到的各词语以及各词语的标注相匹配的索引中,包含实体词具有突出的视觉特征标识或者属性词具有突出的视觉特征标识的索引所对应的页面更进一步提高在搜索结果中的排序权值。
由以上技术方案可以看出,本发明在建立页面的索引时,引入词语的实体词和属性词标注,使得在对query进行搜索或排序时,在将query中各词语与索引进行匹配的同时也匹配各词语的实体词或属性词标注,从而使得召回的页面或页面排序能够体现出query中词语的实体和属性关系,从而提高了召回的页面或排序靠前的页面与query的相关度,提高了搜索准确性,改善了搜索效果。
【附图说明】
图1为本发明实施例一提供的索引建立方法流程图;
图2为本发明实施例二提供的对query进行分析的方法流程图;
图3为本发明实施例五提供的索引建立装置的结构示意图;
图4为本发明实施例六提供的搜索装置的结构示意图;
图5为本发明实施例七提供的搜索结果排序装置的结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
为了在搜索过程中达到更高的准确性,首先需要对搜索引擎抓取到的页面采用一种特殊的索引建立方式,下面通过实施例一对索引建立的方法进行详细描述。
实施例一、
图1为本发明实施例一提供的索引建立方法流程图,如图1所示,对抓取到的各页面分别执行以下步骤:
步骤101:对页面进行分词和词性标注。
另外,在对页面进行分词处理和词性标注后,可以基于停用词表对分词处理后的query进行过滤处理,停用词表中可以包括:副词、虚词、助词、疑问词、语气词等。将页面中那些出现频率很高但表意能力很低的词语过滤掉。
步骤102:基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注。
在本发明中可以将满足预设实体词条件的名词确定为实体词,其中预设实体词条件可以包括但不限于:页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面中出现的频次在预设范围内的名词、或页面中的命名实体。
在确定属性词时,可以利用上下文关系或预设的语义模板中的一种或组合,确定实体词对应的属性词。
其中,可以依据上下文关系,将与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词,其中各词语之间的属性关系概率可以基于预先的统计得到。例如:“刘德华的出生日期”中,“出生日期”与作为人名的实体词“刘德华”之间的属性关系概率达到90%,如果预设属性概率阈值为60%,则可以确定“出生日期”为实体词“刘德华”的属性词。
也可以预先定义具有属性关系的语义模板,利用该预先定义的语义模板识别实体词对应的属性词,语义模板中包含实体词与属性词构成的各种句式结构。
例如,在语义模板中预先建立偏正结构的识别方式,将两个名词构成的偏正结构中的中心词识别为属性词,该中心词的修饰词识别为实体词。诸如“刘德华的出生日期”中“刘德华”首先被识别出为命名实体(人名),利用语义模板识别出“出生日期”作为实体词“刘德华”的属性词;“中国的首都是北京”中“中国”被识别出命名实体(国家名),“首都”作为实体词“中国”的属性词,“北京”是对应的属性值。
也可以在语义模板中预先建立基于距离的识别形式,将实体词之后距离最近的名词识别为该实体词的属性词,诸如在页面中存在这样一个句子“刘德华演唱了爱你一万年”,在进行分词和词性标注后,将实体词“刘德华”之后距离最近的名词“爱你一万年”作为该实体词的属性词。
步骤103:基于页面中的视觉特征,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注。
其中,页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号、表格等,在本步骤中可以将具有预设视觉特征的词语确定并标注为实体词或属性词。
例如:将处于标题中的中心词(例如主语、命名实体等)确定并标注为实体词,将页面中黑体的名词确定并标注为实体词,将页面中突出显示为大号字体的名词确定并标注为实体词,将页面中下划线标注的名词确定并标注为实体词,等等。
再例如:将冒号之前的名词确定并标注为属性词,诸如“国籍:中国”中冒号之前的“国籍”为属性词,“中国”为属性值;将某些特殊逻辑块中的名词确定并标注为属性词,诸如目录逻辑块中包含的名词“个人简介、影视作品、个人创作”为属性词;将距离实体词在一定范围内采用黑体的或下划线标注的词语确定并标注为该实体的属性词,诸如“刘德华,香港四大天 之一”中,“刘德华”被确定并标注为实体词后,离该实体词很近且用下划线标注的“四大天王”是“刘德华”的属性词。
需要说明的是,上述步骤102实际上是根据句法结构特征分析出实体词和实体词对应的属性词,步骤103是根据页面的视觉特征分析出实体词和实体词对应的属性词,步骤102和步骤103可以择一执行,也可以都执行。如果步骤102和步骤103都执行,则两步骤可以以任意的顺序先后执行或同时执行。
另外,在页面中通过上述步骤102和步骤103识别出的某些实体词可能同时作为其他实体词的属性词,某些属性词也可能同时作为其他属性词的实体词。例如“刘德华”和“爱你一万年”两个词,“刘德华”可以是属性词“爱你一万年”的实体词,“爱你一万年”是刘德华的作品属性;“刘德华”也可以是实体词“爱你一万年”的属性词,此时“刘德华”作为“爱你一万年”的作者属性。
步骤104:在建立页面的索引时,将词语具有的实体词或属性词标注同时添加入索引中。
在建立索引时,可以仅仅将被确定为实体词或属性词的词语连同标注都添加入索引中。更优地,还可以进一步采用以下三种索引方式中的一种或组合:
第一种索引方式,除了在索引中的词语中标注实体词或属性词之外,将实体词与属性词之间的关系在索引中标注,即标注出词语是哪个或哪些实体词的属性词,或者是哪个或哪些属性词的实体词。
第二种索引方式,除了在索引中的词语中标注实体词或属性词之外,进一步标注属性词的属性类型。当采用这种方式时需要在步骤102或步骤103中确定出词语为属性词时,进一步识别该词语的属性类型。例如,识别出“爱你一万年”的属性类型为歌名,属性类型的识别方式可以预先通过数据挖掘的方式统计得到。
第三种索引方式,除了在索引中的词语中标注实体词或属性词之外,如果页面中实体词或者属性词具有突出的视觉特征,则将实体词具有突出的视觉特征标注或者属性词具有突出的视觉特征标注也添加入该页面对应的索引中。该种标注可以用于后续对搜索结果排序时使用,将在实施例四中描述。
其中突出视觉特征可以包括但不限于:突出的字体颜色和大小、突出的背景颜色、突出的逻辑块等。
在利用图1所示方法建立了索引后,如果接收到用户输入的query,则首先对query进行分析,分析其中是否包含实体词及该实体词对应的属性词。如果含有实体词及该实体词对应的属性词,则可以在搜索时采用以下两种方式:
第一种方式:在将query中分析出的实体词和属性词与索引进行匹配时,除了保证词语匹配之外,还需要保证与索引中词语的标注匹配,利用匹配到的索引对应的页面产生搜索结果。该方式将在实施例三中具体描述。
第二种方式:在将query中分析出的实体词和属性词与索引进行匹配时,仅与索引中的词语进行匹配,利用匹配到的索引对应的页面产生搜索结果,并对索引中词语的标注也匹配的页面提高在搜索结果中的排序权值。该方式将在实施例四中具体描述。
下面通过实施例二对query的分析过程进行详细描述。
实施例二、
图2为本发明实施例二提供的对query进行分析的方法流程图,如图2所示,该方法包括以下步骤:
步骤201:对接收到的query进行分词。
步骤202:对分词处理后得到的各词语进行词性标注。
例如,接收到“刘德华出生日期”的query后,将该query进行分词处理后,得到“刘德华”和“出生日期”两个词语,并都标注为名词。以上两步骤为现有技术中的成熟技术,不再详细描述。
另外,在对query进行分词处理和词性标注后,可以基于预设的停用词表对分词处理后的query进行过滤处理,过滤掉停用词表中包含的词语,停用词表中可以包括:副词、虚词、助词、疑问词、语气词、代词等。将query中那些出现频率很高但表意能力很低的词语过滤掉。
步骤203:基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词。
在本步骤中,确定实体词具体可以包括但不限于:将作为query中心词的名词或者query中的命名实体。其中,query的中心词可以包括但不限于:句子的主语、偏正结构中作为修饰词的名词、首个出现的名词等。
例如,对于“刘德华有哪些歌曲”的query,可以将该句子中的主语“刘德华”作为实体词。对于“刘德华的出生日期”的query,可以将该偏正结构中作为修饰词的名词“刘德华”作为实体词。对于“手机价格”的query,可以将首个出现的名词“手机”作为实体词。对于“美国首都”的query,可以将其中的命名实体“美国”作为实体词。
确定实体词对应的属性词的方式可以包括但不限于以下两种:
第一种方式:依据上下文关系,将分词处理后得到的词语中与实体词的属性关系概率达到预设的属性概率阈值的词语作为该实体词的属性词。
例如,对于“刘德华的出生日期”中,“出生日期”与作为人名的实体词“刘德华”之间的属性关系概率达到90%超过预设的属性概率阈值,则可以确定“出生日期”为实体词“刘德华”的属性词。
第二种方式:依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
例如,在语义模板中预先建立偏正结构的识别方式,将两个名词构成的偏正结构中的中心词识别为属性词,该中心词的修饰词识别为实体词。诸如“刘德华的出生日期”中“刘德华”首先被识别出为命名实体(人名),利用语义模板识别出“出生日期”作为实体词“刘德华”的属性词。
也可以在语义模板中预先建立基于距离的识别形式,将实体词之后距离最近的名词识别为该实体词的属性词,诸如“刘德华爱你一万年下载”的query中,将实体词“刘德华”之后距离最近的名词“爱你一万年”作为该实体词的属性词。
还可以具有其他形式的语义模板,在此不再具体赘述。
步骤204:对query进行需求明确度分析。
在对query进行需求明确度分析时,可以分析该query是否具有明确的需求,例如“刘德华出生日期”中属性词“出生日期”就具有明确的需求,可以确定出用户需求的就是刘德华的出生日期信息,而“刘德华爱你一万年”中属性词“爱你一万年”的需求就不明确,不能确定用户需求的是对“爱你一万年”这首歌曲的下载、还是歌词、还是视频等。
在分析query是否具有明确的需求时,可以采用以下方式中的一种或组合的方式:
第一种方式:根据词性进行需求明确度分析,如果query中含有动词,可以认为该query具有明确的需求。例如:“刘德华爱你一万年下载”的query中包含动词“下载”,则认为该query具有明确的需求。
第二种方式:利用预设的需求词表进行需求明确度分析,预先通过手工或者数据挖掘的方式将具有明确需求的词语加入需求词表中,如果query中包含该需求词表中的词语,则可以认为该query具有明确的需求。例如:可以将“地址”、“出生日期”、“视频”、“歌词”等等具有明确需求的词语预先加入需求词表中,“刘德华出生日期”的query中包含需求词表中的“出生日期”,则认为该query具有明确的需求,“刘德华爱你一万年视频”的query中包含需求词表中的“视频”,则认为该query具有明确的需求。
如果query具有明确的需求,则针对该query执行实施例三或实施例四;否则不对该query执行特殊的搜索处理,采用现有方式进行搜索或排序。需要说明的是,步骤204为可选步骤,也可以不执行该步骤,直接针对该query执行实施例三或实施例四。
另外,还可以在确定出query具有明确的需求时,进一步对query的需求明确度进行分级,例如分成高级需求明确度和中级需求明确度。
对具有明确需求的query进行的进一步分级可以依据以下方式中的至少一种确定:
第一种方式:依据需求明确的词语在query中的位置对具有明确需求的query进一步分级。具体可以预先设定各分级对应的词语位置,依据需求明确的词语在query中的位置确定对应的分级。
例如,预先设定高级需求明确度对应的词语位置为query中的最后一个词,则对于“刘德华爱你一万年下载”中需求明确的词语“下载”在query中的最后一个词,可以确定该query具有高级需求明确度,对于“刘德华下载爱你一万年”中需求明确的词语“下载”不在query中的最后一个词,则可以确定该query具有中级需求明确度。
第二种方式:如果query中含有需求词表中的词语,则可以依据需求明确的词语在需求词表中的明确度确定。在预先建立需求词表时,可以在需求词表中记录具有明确需求的各词语对应的明确度,该明确度可以人工设定,也可以在数据挖掘过程中基于统计概率设定。
例如,如果query中需求明确的词语在需求词表中的明确度大于设定明确度阈值,则可以认为该query具有高级需求明确度。对于“刘德华出生日期”的query中需求明确的词语“出生日期”在需求词表中的明确度大于设定明确度阈值,则可以认为该query具有高级需求明确度;否则认为该query具有中级需求明确度。
实施例三、
在对query进行实施例二所示的分析后,可以在执行搜索召回页面时,仅召回与该query中词语以及词语的标注(实体词或属性词标注)相匹配的索引对应的页面。
即在搜索时,对分词处理后得到的各词语分别查找索引,查找与各词语以及该词语的标注匹配的索引对应的页面,再将利用各词语查找到的页面取交集。
例如,对于“刘德华出生日期”的query,针对分词处理后得到的词语“刘德华”和“出生日期”,由于已分析出“刘德华”为实体词,“出生日期”为属性词,在进行搜索时,查找“刘德华”具有实体词标注的索引对应的页面,以及“出生日期”具有属性词标注的索引对应的页面,将得到的页面取交集就是该query对应的搜索结果。
更优地,在进行上述搜索时可以进一步加入以下两种搜索方式中的一种或组合:
第一种:在对分词处理后得到的各词语分别查找索引时,匹配索引中各词语的标注时,需要进一步匹配实体词与属性词的对应关系,只有满足该对应关系的页面才作为搜索结果。
仍以“刘德华出生日期”的query为例,在利用“出生日期”进行搜索时,在查找“刘德华”作为实体词且“出生日期”作为属性词的页面时,需要进一步筛选出其中“出生日期”作为实体词“刘德华”的属性词的索引对应的页面,得到该query对应的搜索结果。具体可以是:将“刘德华”作为实体词的索引对应的页面和“出生日期”作为属性词的索引对应的页面求交集后,从求交集得到的页面中筛选出“出生日期”作为实体词“刘德华”的属性词的索引对应的页面。
第二种:在对分词处理后得到的各词语分别查找索引时,匹配索引中各词语的标注时,需要进一步匹配属性词的属性类型,只有同时满足属性词的属性类型的页面才作为搜索结果。
以“刘德华爱你一万年”的query为例,如果识别出“爱你一万年”为歌名的概率值满足预设的而搜索概率值要求,则在利用“爱你一万年”进行搜索时,需要查找“爱你一万年”具有属性词标注且属性词类型为歌名的索引对应的页面,然后将利用“刘德华”搜索到的页面和利用“爱你一万年”搜索到的页面取交集得到该query对应的搜索结果。
实施例四、
在对query进行实施例二所示的分析后,在执行搜索召回页面时,按照现有的搜索方式召回页面,具体地,召回所有与分词处理后得到的各词语匹配的页面,但在对搜索结果中的页面进行排序时,将索引中词语的标注也与query中各词语的标注相匹配的页面提高在搜索结果中的排序权值。
通常,在对搜索结果中的页面进行排序时,会结合多种特征,其中会包括:主题相关度(即页面主题与query的相关度)、距离匹配结果(即query中各词语在页面中的距离)或者其他特征。在本发明实施例中提高页面在搜索结果中的排序权值时,具体可以提高页面中主题相关度和距离匹配结果这两个特征中的一种或组合在排序中所占的排序权值。
提高排序权值的方式可以包括但不限于:将排序权值提高到一个预设的排序权值,或者,将排序权值提高预设的幅度。
仍以“刘德华出生日期”的query为例,在进行搜索时,分别查找具有“刘德华”的页面以及具有“出生日期”的页面,将各词语得到的页面取交集就是该query对应的搜索结果。在进行排序时,可以对“刘德华”作为实体词且“出生日期”作为属性词的索引对应的页面提高在搜索结果中的排序权值,使这些页面能够尽量排在搜索结果中靠前的位置。
另外,在进行提高排序权值的处理时,可以进一步考虑实体词与属性词的对应关系,即对满足该对应关系的页面提高在搜索结果中的排序权值。
仍以“刘德华出生日期”的query为例,将“出生日期”作为实体词“刘德华”的属性词的页面提高在搜索结果中的排序权值。
也可以在进行提高排序权值的处理时,进一步考虑属性词的属性类型,即提高与query中实体词以及属性词匹配且同时与属性词的属性类型匹配的索引对应的页面在搜索结果中的排序权值。
以“刘德华爱你一万年”的query为例,将“刘德华”作为实体词,“爱你一万年”作为属性词且属性类型为歌名的页面在搜索结果中提高排序权值。
更优地,在提高匹配到的页面在搜索结果中的排序权值时,可以进一步结合query的明确度等级,使得针对明确度等级越高的query,对页面在搜索结果中排序权值的提高幅度越大。其中,每个明确度等级对应的排序权值提高幅度可以预先设定。
更进一步地,在实施例一中建立索引的过程中,对于在页面中具有突出视觉特征的实体词或属性词也可以进行标注,在进行排序时,可以将与query中实体词和属性词匹配且具有突出视觉特征标注的索引所对应的页面更进一步提高在搜索结果中的排序权值。其中突出视觉特征可以包括但不限于:突出的字体颜色和大小、突出的背景颜色、突出的逻辑块等。
例如,对于“刘德华出生日期”的query,如果匹配到的以“出生日期”作为属性词、“刘德华”作为实体词的索引中,“出生日期”或“刘德华”具有突出视觉特征的标注,则将搜索结果中该索引对应的页面更进一步提高排序权值。
以上是对本发明所提供方法进行的详细描述,下面分别通过实施例五、实施例六和实施例七对本发明所提供的装置进行详细描述。
实施例五、
图3为本发明实施例五提供的索引建立装置的结构示意图,如图3所示,该装置可以包括:文本处理单元300、属性标注单元310以及索引建立单元320。
文本处理单元300,用于对页面进行分词和词性标注。
属性标注单元310,用于基于语义分析或页面中的视觉特征中的至少一种,从文本处理单元300分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注。
索引建立单元320,用于在建立页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。
其中,属性标注单元310基于语义分析时确定实体词时,具体将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体等确定为实体词。
属性标注单元310在基于语义分析确定实体词对应的属性词时,可以基于上下文关系或语义模板,即:具体依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,语义模板中包含实体词与属性词构成的各种句式结构。
上述页面中的视觉特征可以包括但不限于:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格。
属性标注单元310可以具体将页面中具有预设视觉特征的词语确定为实体词或属性词。
更进一步地,索引建立单元320还可以将实体词与属性词之间对应关系的标注、属性词的属性类型标注、实体词具有突出的视觉特征标注以及属性词具有突出的视觉特征标注中的至少一种添加入索引,以便在后续进行索引匹配时实现更精确的匹配,从而进一步提高页面召回的准确性或者排序的准确性。
实施例六、
图4为本发明实施例六提供的搜索装置的结构示意图,如图4所示,该装置可以包括:文本分析单元400、属性标注单元410和搜索处理单元420。
文本分析单元400,用于对接收到的query进行分词和词性标注。
属性标注单元410,用于基于语义分析,从文本分析单元400分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注。
搜索处理单元420,用于查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,并将查找到的页面包含在query的搜索结果中;其中各词语的标注为各词语的实体词或属性词标注,索引由实施例五所述的装置建立。
其中,上述的文本分析单元400可以具体包括:分词处理子单元401、词性标注子单元402和过滤处理子单元403。
分词处理子单元401,用于对接收到的query进行分词处理。
词性标注子单元402,用于对分词处理子单元401分词处理后的词语进行词性标注。
过滤处理子单元403,用于基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉停用词表中包含的词语;停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
过滤处理子单元403可以设置在分词处理子单元401和词性标注子单元402之间,即过滤处理子单元403对分词处理子单元401进行分词处理后得到的各词语进行过滤后,词性标注子单元402再对过滤处理后得到的各词语进行词性标注。或者,过滤处理子单元403也可以设置在词性标注子单元402之后,即词性标注子单元402对分词处理子单元401进行分词处理后得到的各词语进行词性标注后,再由过滤处理子单元403进行过滤。图4中所示为后一种结构。
在确定query的实体词和属性词时,属性标注单元410可以将作为query中心词的名词或者query中的命名实体确定为实体词。依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,语义模板中包含实体词与属性词构成的各种句式结构。
另外,该装置还可以包括:需求分析单元430,用于对query进行需求明确度分析,如果确定query需求明确,则触发搜索处理单元420查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,并将查找到的页面包含在query的搜索结果中;否则,触发搜索处理单元420仅查找与分词处理后得到的各词语相匹配的索引对应的页面,并将查找到的页面包含在query的搜索结果中。
具体地,需求分析单元430如果确定分词处理后得到的词语中含有动词,则确定query具有明确的需求;或者,如果确定分词处理后得到的词语中包含预设的需求词表中的词语,则确定query具有明确的需求,需求词表通过手工方式或数据挖掘方式形成且包含具有明确需求的词语。
为了更进一步提高页面召回的准确性,属性标注单元410进行的标注还包括:实体词与属性词的对应关系标注,或者,属性词的属性类型标注。
即当标注还包括实体词与属性词的对应关系标注时,就意味着搜索处理单元420在查找页面时,除了将词语及词语的实体词或属性词标注与索引进行匹配之外,还需要进一步匹配query中实体词与属性词之间的对应关系。
当标注还包括属性词的属性类型标注时,就意味着搜索处理单元420在查找页面时,除了将词语及词语的实体词或属性词标注与索引进行匹配之外,还需要进一步匹配索引与query中属性词的属性类型。
实施例七、
图5为本发明实施例七提供的搜索结果排序装置的结构示意图,如图5所示,该装置包括:文本分析单元500、属性标注单元510、搜索处理单元520和排序处理单元530。
文本分析单元500,用于对接收到的query进行分词和词性标注。
属性标注单元510,用于基于语义分析,从文本分析单元500分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注。
搜索处理单元520,用于搜索query对应的搜索结果。具体地,可以对query进行分词处理后得到的各词语相匹配的页面作为query对应的搜索结果,即采用现有搜索方式进行页面召回。
排序处理单元530,用于在对搜索结果进行排序时,提高与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在搜索结果中的排序权值;其中各词语的标注为各词语的实体词或属性词标注,上述索引由实施例五所述的装置建立。
提高排序权值的方式可以包括但不限于:将排序权值提高到一个预设的排序权值,或者,将排序权值提高预设的幅度。
具体地,文本分析单元500可以包括:分词处理子单元501、词性标注子单元502和过滤处理子单元503。
分词处理子单元501,用于对接收到的query进行分词处理。
词性标注子单元502,用于对分词处理后的词语进行词性标注。
过滤处理子单元503,用于基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉停用词表中包含的词语。停用词表中可以包含但不限于:副词、虚词、助词、疑问词、语气词、代词。
过滤处理子单元503可以设置在分词处理子单元501和词性标注子单元502之间,即过滤处理子单元503对分词处理子单元501进行分词处理后得到的各词语进行过滤后,词性标注子单元502再对过滤处理后得到的各词语进行词性标注。或者,过滤处理子单元503也可以设置在词性标注子单元502之后,即词性标注子单元502对分词处理子单元501进行分词处理后得到的各词语进行词性标注后,再由过滤处理子单元503进行过滤。图5中所示为后一种结构。
在确定query的实体词和属性词时,属性标注单元510可以将作为query中心词的名词或者query中的命名实体确定为实体词。依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,语义模板中包含实体词与属性词构成的各种句式结构。
另外,该装置还可以包括:需求分析单元540,用于对query进行需求明确度分析,如果确定query需求明确,则触发排序处理单元530提高与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在搜索结果中的排序权值;否则,禁止排序处理单元530提高与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在搜索结果中的排序权值。
具体地,需求分析单元540如果确定分词处理后得到的词语中含有动词,则确定query具有明确的需求;或者,如果确定分词处理后得到的词语中包含预设的需求词表中的词语,则确定query具有明确的需求,需求词表通过手工方式或数据挖掘方式形成且包含具有明确需求的词语。
为了更进一步提高搜索结果排序的准确性,属性标注单元510进行的标注还包括:实体词与属性词的对应关系标注,或者,属性词的属性类型标注。
即当标注还包括实体词与属性词的对应关系标注时,就意味着排序处理单元530在进行页面排序时,除了将词语与词语的实体词或属性词标注与索引进行匹配之外,还需要进一步匹配query中实体词与属性词之间的对应关系。
当标注还包括属性词的属性类型标注时,就意味着排序处理单元530在进行页面排序时,除了将词语及词语的实体词或属性词标注与索引进行匹配之外,还需要进一步匹配索引与query中属性词的属性类型。
更优地,需求分析单元540在确定query的需求明确后,还可以进一步确定query的需求明确度等级。
排序处理单元530在提高与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在搜索结果中的排序权值时,针对需求明确度等级越高的query,对页面在搜索结果中排序权值的提高幅度越大。
确定需求明确度等级的方式可以为:需求分析单元540根据预设的各需求明确度分级对应的词语位置,确定query中需求明确的词语在query中的位置所对应的需求明确度分级;或者,如果query包含有预设的需求词表中的词语,则依据query中需求明确的词语在需求词表中的明确度确定query的需求明确度等级;需求词表中各词语的明确度由人工设定或者在数据挖掘过程中基于统计概率设定。
更优地,在实施例五所述的索引建立装置中,在针对页面建立索引时,还可以将页面中实体词具有突出的视觉特征标注或者属性词具有突出的视觉特征标注添加入该页面对应的索引中,那么在对搜索结果进行排序时,也可以将这些页面更进一步提高排序权值。即排序处理单元530还可以用于将与分词处理后得到的各词语以及各词语的标注相匹配的索引中,包含实体词具有突出的视觉特征标识或者属性词具有突出的视觉特征标识的索引所对应的页面更进一步提高在搜索结果中的排序权值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (38)

1.一种索引建立方法,其特征在于,该方法包括:
A、对页面进行分词和词性标注;
B、基于语义分析或页面中的视觉特征中的至少一种,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中,添加入所述索引中的还包括以下标注中的至少一种:
实体词与属性词之间对应关系的标注;
属性词的属性类型标注;
实体词具有突出的视觉特征标注;以及,
属性词具有突出的视觉特征标注;
所述页面的索引中的标注用于在进行页面搜索时保证从query中分析出的实体词或属性词与所述索引中的标注匹配,或者在进行搜索结果的排序时,对从query中分析出的实体词或属性词与所述索引中的标注匹配的页面提高在搜索结果中的排序权值。
2.根据权利要求1所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。
3.根据权利要求1所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
4.根据权利要求1所述的方法,其特征在于,所述页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;
步骤B中基于页面中的视觉特征,从分词处理后得到的各词语中确定实体词以及实体词对应的属性词具体包括:将页面中具有预设视觉特征的词语确定为实体词或属性词。
5.一种搜索方法,其特征在于,该方法包括:
A、对接收到的搜索请求query进行分词和词性标注;
B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,其中各词语的标注为各词语的实体词或属性词标注,还包括实体词与属性词的对应关系,或者,属性词的属性类型,所述索引采用如权利要求1所述的方法建立;
D、将查找到的页面包含在所述query的搜索结果中。
6.根据权利要求5所述的方法,其特征在于,在所述步骤A和步骤B之间还包括:
基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
7.根据权利要求5或6所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将作为query中心词的名词或者query中的命名实体确定为实体词。
8.根据权利要求5或6所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
9.根据权利要求5或6所述的方法,其特征在于,在所述步骤B和所述步骤C之间还包括:
E、对所述query进行需求明确度分析,如果确定所述query需求明确,则继续执行所述步骤C;否则,执行步骤F;
F、查找与所述分词处理后得到的各词语相匹配的索引对应的页面,转至所述步骤D。
10.根据权利要求9所述的方法,其特征在于,步骤E中对所述query进行需求明确度分析具体包括:
如果所述query中含有动词,则确定所述query具有明确的需求;或者,
如果所述query中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工或数据挖掘的方式形成且包含具有明确需求的词语。
11.一种搜索结果排序方法,其特征在于,该方法包括:
A、对接收到的搜索请求query进行分词和词性标注;
B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、查找与分词处理后得到的各词语相匹配的页面,将查找到的页面作为所述query对应的搜索结果;
其中,在对所述搜索结果进行排序时,提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;所述各词语的标注为各词语的实体词或属性词标注,还包括实体词与属性词的对应关系,或者,属性词的属性类型,所述索引采用如权利要求1所述的方法建立。
12.根据权利要求11所述的方法,其特征在于,在所述步骤A和步骤B之间还包括:
基于预设的停用词表对分词处理后的query进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
13.根据权利要求11或12所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将作为query中心词的名词或者query中的命名实体确定为实体词。
14.根据权利要求11或12所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
15.根据权利要求11或12所述的方法,其特征在于,在所述步骤B和所述步骤C之间还包括:
E、对所述query进行需求明确度分析,如果确定所述query需求明确,则在所述步骤C中提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;否则,在所述步骤C中不提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值。
16.根据权利要求15所述的方法,其特征在于,步骤E中对所述query进行需求明确度分析具体包括:
如果所述query中含有动词,则确定所述query具有明确的需求;或者,
如果所述query中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工或数据挖掘的方式形成且包含具有明确需求的词语。
17.根据权利要求15所述的方法,其特征在于,在确定所述query的需求明确后,进一步确定所述query的需求明确度等级;
在步骤C中提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值时,针对需求明确度等级越高的query,对页面在搜索结果中排序权值的提高幅度越大。
18.根据权利要求17所述的方法,其特征在于,确定所述query的需求明确度等级具体包括:
根据预设的各需求明确度分级对应的词语位置,确定所述query中需求明确的词语在所述query中的位置所对应的需求明确度分级;或者,
如果所述query包含有预设的需求词表中的词语,则依据所述query中需求明确的词语在所述需求词表中的明确度确定所述query的需求明确度等级;所述需求词表中各词语的明确度由人工设定或者在数据挖掘过程中基于统计概率设定。
19.根据权利要求11或12所述的方法,其特征在于,该方法还包括:将与所述分词处理后得到的各词语以及各词语的标注相匹配的索引中,包含实体词具体突出的视觉特征标识或者属性词具有突出的视觉特征标识的索引所对应的页面更进一步提高在所述搜索结果中的排序权值。
20.一种索引建立的装置,其特征在于,该装置包括:文本处理单元、属性标注单元以及索引建立单元;
所述文本处理单元,用于对页面进行分词和词性标注;
所述属性标注单元,用于基于语义分析或页面中的视觉特征中的至少一种,从所述文本处理单元分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
所述索引建立单元,用于在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中,还将实体词与属性词之间对应关系的标注、属性词的属性类型标注、实体词具有突出的视觉标注以及属性词具有突出的视觉特征标注中的至少一种添加入所述索引;
所述页面的索引中的标注用于在进行页面搜索时保证从query中分析出的实体词或属性词与所述索引中的标注匹配,或者在进行搜索结果的排序时,对从query中分析出的实体词或属性词与所述索引中的标注匹配的页面提高在搜索结果中的排序权值。
21.根据权利要求20所述的装置,其特征在于,所述属性标注单元具体将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。
22.根据权利要求20所述的装置,其特征在于,所述属性标注单元具体依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
23.根据权利要求20所述的装置,其特征在于,所述页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;
所述属性标注单元具体将页面中具有预设视觉特征的词语确定为实体词或属性词。
24.一种搜索装置,其特征在于,该装置包括:文本分析单元、属性标注单元和搜索处理单元;
所述文本分析单元,用于对接收到的搜索请求query进行分词和词性标注;
所述属性标注单元,用于基于语义分析,从所述文本分析单元分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注,所述标注还包括实体词与属性词的对应关系标注,或者,属性词的属性类型标注;
所述搜索处理单元,用于查找与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,并将查找到的页面包含在所述query的搜索结果中;其中各词语的标注为各词语的实体词或属性词标注,所述索引由权利要求20所述的装置建立。
25.根据权利要求24所述的装置,其特征在于,所述文本分析单元具体包括:分词处理子单元、词性标注子单元和过滤处理子单元;
所述分词处理子单元,用于对接收到的query进行分词处理;
所述词性标注子单元,用于对所述分词处理后的词语进行词性标注;
所述过滤处理子单元,用于基于预设的停用词表对所述分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
26.根据权利要求24或25所述的装置,其特征在于,所述属性标注单元具体将作为query中心词的名词或者query中的命名实体确定为实体词。
27.根据权利要求24或25所述的装置,其特征在于,所述属性标注单元具体依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
28.根据权利要求24或25所述的装置,其特征在于,该装置还包括:需求分析单元,用于对所述query进行需求明确度分析,如果确定所述query需求明确,则触发所述搜索处理单元查找与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,并将查找到的页面包含在所述query的搜索结果中;否则,触发所述搜索处理单元查找与所述分词处理后得到的各词语相匹配的索引对应的页面,并将查找到的页面包含在所述query的搜索结果中。
29.根据权利要求28所述的装置,其特征在于,所述需求分析单元如果确定所述分词处理后得到的词语中含有动词,则确定所述query具有明确的需求;或者,如果确定所述分词处理后得到的词语中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工方式或数据挖掘方式形成且包含具有明确需求的词语。
30.一种搜索结果排序装置,其特征在于,该装置包括:文本分析单元、属性标注单元、搜索处理单元和排序处理单元;
所述文本分析单元,用于对接收到的搜索请求query进行分词和词性标注;
所述属性标注单元,用于基于语义分析,从所述文本分析单元分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
所述搜索处理单元,用于查找与所述分词处理后得到的各词语相匹配的页面,将查找到的页面作为所述query对应的搜索结果;
所述排序处理单元,用于在对所述搜索结果进行排序时,提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;其中所述各词语的标注为各词语的实体词或属性词标注,还包括实体词与属性词的对应关系标注,或者,属性词的属性类型标注,所述索引由权利要求20所述的装置建立。
31.根据权利要求30所述的装置,其特征在于,所述文本分析单元具体包括:分词处理子单元、词性标注子单元和过滤处理子单元;
所述分词处理子单元,用于对接收到的query进行分词处理;
所述词性标注子单元,用于对所述分词处理后的词语进行词性标注;
所述过滤处理子单元,用于基于预设的停用词表对所述分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
32.根据权利要求30或31所述的装置,其特征在于,所述属性标注单元具体将作为query中心词的名词或者query中的命名实体确定为实体词。
33.根据权利要求30或31所述的装置,其特征在于,所述属性标注单元具体依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
34.根据权利要求30或31所述的装置,其特征在于,该装置还包括:需求分析单元,用于对所述query进行需求明确度分析,如果确定所述query需求明确,则触发所述排序处理单元提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值;否则,禁止所述排序处理单元提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值。
35.根据权利要求34所述的装置,其特征在于,所述需求分析单元如果确定所述分词处理后得到的词语中含有动词,则确定所述query具有明确的需求;或者,如果确定所述分词处理后得到的词语中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工方式或数据挖掘方式形成且包含具有明确需求的词语。
36.根据权利要求34所述的装置,其特征在于,所述需求分析单元在确定所述query的需求明确后,还进一步确定所述query的需求明确度等级;
所述排序处理单元在提高与所述分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面在所述搜索结果中的排序权值时,针对需求明确度等级越高的query,对页面在搜索结果中排序权值的提高幅度越大。
37.根据权利要求36所述的装置,其特征在于,所述需求分析单元根据预设的各需求明确度分级对应的词语位置,确定所述query中需求明确的词语在所述query中的位置所对应的需求明确度分级;或者,
如果所述query包含有预设的需求词表中的词语,则依据所述query中需求明确的词语在所述需求词表中的明确度确定所述query的需求明确度等级;所述需求词表中各词语的明确度由人工设定或者在数据挖掘过程中基于统计概率设定。
38.根据权利要求30或31所述的装置,其特征在于,所述排序处理单元,还用于将与所述分词处理后得到的各词语以及各词语的标注相匹配的索引中,包含实体词具有突出的视觉特征标识或者属性词具有突出的视觉特征标识的索引所对应的页面更进一步提高在搜索结果中的排序权值。
CN201110086824.1A 2011-04-07 2011-04-07 索引建立方法、搜索方法和搜索结果排序方法及对应装置 Active CN102737039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110086824.1A CN102737039B (zh) 2011-04-07 2011-04-07 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110086824.1A CN102737039B (zh) 2011-04-07 2011-04-07 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Publications (2)

Publication Number Publication Date
CN102737039A CN102737039A (zh) 2012-10-17
CN102737039B true CN102737039B (zh) 2014-11-12

Family

ID=46992559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110086824.1A Active CN102737039B (zh) 2011-04-07 2011-04-07 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Country Status (1)

Country Link
CN (1) CN102737039B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077164B (zh) * 2012-12-27 2016-05-11 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103176953B (zh) * 2013-03-20 2016-02-24 新浪网技术(中国)有限公司 一种文本处理方法及系统
CN103324678B (zh) * 2013-05-27 2016-06-01 俞声 信息检索方法和装置
CN103399879B (zh) * 2013-07-16 2017-06-06 百度在线网络技术(北京)有限公司 基于用户搜索日志的兴趣实体获得方法及装置
CN103593336B (zh) * 2013-10-30 2017-05-10 中国运载火箭技术研究院 一种基于语义分析的知识推送系统及方法
US20150324339A1 (en) * 2014-05-12 2015-11-12 Google Inc. Providing factual suggestions within a document
CN104699828A (zh) * 2015-03-31 2015-06-10 佛山市金蓝领教育科技有限公司 一种原子词知识管理的方法
CN104699831A (zh) * 2015-03-31 2015-06-10 佛山市金蓝领教育科技有限公司 原子词知识管理系统
CN106202105A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及装置
CN107203526B (zh) * 2016-03-16 2020-11-24 阿里巴巴(中国)有限公司 一种查询串语义需求分析方法及装置
CN106294875B (zh) * 2016-08-25 2019-05-17 中国国防科技信息中心 一种命名实体模糊检索方法与系统
CN107944025A (zh) * 2017-12-12 2018-04-20 北京百度网讯科技有限公司 信息推送方法和装置
CN110738033B (zh) * 2018-07-03 2023-09-19 百度在线网络技术(北京)有限公司 报告模板生成方法、装置及存储介质
CN109325121B (zh) * 2018-09-14 2021-04-02 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
CN112132710B (zh) * 2020-09-23 2023-02-03 平安国际智慧城市科技股份有限公司 法律要素处理方法、装置、电子设备及存储介质
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN101369275A (zh) * 2008-09-10 2009-02-18 浙江大学 一种非结构化文本中的产品属性挖掘方法
CN101937433A (zh) * 2009-06-29 2011-01-05 天津一度搜索网络科技有限公司 一种产品实时搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN101369275A (zh) * 2008-09-10 2009-02-18 浙江大学 一种非结构化文本中的产品属性挖掘方法
CN101937433A (zh) * 2009-06-29 2011-01-05 天津一度搜索网络科技有限公司 一种产品实时搜索方法

Also Published As

Publication number Publication date
CN102737039A (zh) 2012-10-17

Similar Documents

Publication Publication Date Title
CN102737039B (zh) 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN110399457B (zh) 一种智能问答方法和系统
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
US8577882B2 (en) Method and system for searching multilingual documents
EP2546763A1 (en) System and method of sentiment data generation
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN105868177A (zh) 一种通用公式搜索方法
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
WO2022068543A1 (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN105930362A (zh) 搜索目标识别方法、装置及终端
CN110516259B (zh) 一种技术关键词的识别方法、装置、计算机设备和存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
US20150331953A1 (en) Method and device for providing search engine label
CN105630975A (zh) 一种信息处理方法和电子设备
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN105653547A (zh) 一种提取文本关键词的方法和装置
CN102737045B (zh) 一种相关度计算方法和装置
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN113992944A (zh) 视频编目方法、装置、设备、系统及介质
CN102982029B (zh) 一种搜索需求识别方法及装置
CN114298058B (zh) 文章替换词推荐方法、系统、计算机可读介质
CN111191413A (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant