CN111091006B - 一种实体意图体系的建立方法、装置、设备和介质 - Google Patents
一种实体意图体系的建立方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111091006B CN111091006B CN201911328292.0A CN201911328292A CN111091006B CN 111091006 B CN111091006 B CN 111091006B CN 201911328292 A CN201911328292 A CN 201911328292A CN 111091006 B CN111091006 B CN 111091006B
- Authority
- CN
- China
- Prior art keywords
- intention
- entity
- word
- words
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000010276 construction Methods 0.000 claims abstract description 19
- 238000002372 labelling Methods 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 14
- 230000008901 benefit Effects 0.000 description 31
- 241000219095 Vitis Species 0.000 description 14
- 235000009754 Vitis X bourquina Nutrition 0.000 description 14
- 235000012333 Vitis X labruscana Nutrition 0.000 description 14
- 235000014787 Vitis vinifera Nutrition 0.000 description 14
- 241000227653 Lycopersicon Species 0.000 description 7
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 7
- 230000001149 cognitive effect Effects 0.000 description 7
- 230000019771 cognition Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 235000013601 eggs Nutrition 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- HVCNNTAUBZIYCG-UHFFFAOYSA-N ethyl 2-[4-[(6-chloro-1,3-benzothiazol-2-yl)oxy]phenoxy]propanoate Chemical compound C1=CC(OC(C)C(=O)OCC)=CC=C1OC1=NC2=CC=C(Cl)C=C2S1 HVCNNTAUBZIYCG-UHFFFAOYSA-N 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种实体意图体系的建立方法、装置、设备和介质,涉及计算机技术领域,尤其涉及知识图谱、智能搜索技术领域。具体实现方案为:对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,领域意图体系包括至少两层意图词及层次关联关系;针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。本申请实施例的技术方案,能够实现对实体意图体系的准确构建,提高对用户实际检索情况的预判断的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及知识图谱、智能搜索技术。
背景技术
目前人们的生活和工作中,会大量使用搜索引擎,通过搜索来获得想要获得的信息。在搜索中,有大约10%的检索词是与实体相关。在这类实体搜索中,用户关注某个实体的认知类需求。为了便捷、精准地匹配用户对实体的认知类需求,将搜索实体时所采用的意图词汇,进行总结,汇集成为意图词汇体系,再辅助搜索,这是符合用户的认知需求的。
现有技术对实体意图体系的构建,是通过人工标注的方式来实现的。这显然需要消耗大量人力资源,且多人操作时标准尺度不统一。
发明内容
本申请实施例提供一种实体意图体系的建立方法、装置、设备和介质,以提高实体意图体系构建效率,以及与搜索真实意图的契合度。
第一方面,本申请实施例公开了一种实体意图体系的建立方法,所述方法包括:
对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;
针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;
根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。
上述申请中的一个实施例具有如下优点或有益效果:通过根据预先建立的领域意图体系中的意图词间的层次关联关系,确定待标注实体的意图词的层次关联关系,进而构建待标注实体的意图体系。由于通过对设定领域进行意图词以及层次关联关系的标注,所以克服了对待标注实体的意图词识别以及层次关联关系的确定不符合用户搜索情况的技术问题,进而达到提高构建的待标注实体的意图体系的准确性的技术效果,并且提高与用户认知和实际检索情况的契合度。
可选的,对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系包括:
从所述设定领域的多个实体中选择设定数量的代表性实体;
获取各所述代表性实体的历史检索式;
对各所述代表性实体的历史检索式进行意图词标注和各意图词的层次关联关系标注;
基于标注结果,构建各所述代表性实体的意图体系,作为领域意图体系。
上述申请中的一个实施例具有如下优点或有益效果:由于通过在设定领域中选择代表性实体,进而通过对代表性实体的相关意图词进行标注构建对应领域意图体系,实现在保证领域意图体系构建准确性的同时,也提高标注效率和标注标准的一致性。
可选的,针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词包括:
获取所述待标注实体的历史检索式;
对所述待标注实体的历史检索式进行意图词识别;
对识别到的意图词进行筛选过滤。
上述申请中的一个实施例具有如下优点或有益效果:通过根据对识别出的待标注实体的意图词进行筛选过滤,使得过滤后的意图词更能准确表示用户对待标注实体的搜索意图,提高实体意图体系中的意图词的正确性。
可选的,获取各所述代表性实体或所述待标注实体的历史检索式包括:
根据检索日志,从所述代表性实体或所述待标注实体对应的多个检索词中确定热门检索词,作为所述代表性实体的实体词;
获取与各所述实体词属于相同主题且处于相同会话中的所有检索式,作为历史检索式。
上述申请中的一个实施例具有如下优点或有益效果:通过对热门检索词的确定,获取代表性实体的实体词的检索式作为历史检索式,既保证检索式获取量减少,进而减少工作量;同时用热门检索词的检索式代表实体的所有实体词的检索式,包括了该实体的全部检索意图,保证意图词确定的覆盖范围。
可选的,对识别到的意图词进行筛选过滤包括下述至少一项:
按照词汇黑名单对识别到的意图词进行筛选过滤;
根据实体知识图谱中记录的实体属性,对所述实体词和意图词进行识别,将对应至非所述待标注实体的实体词和意图词过滤掉。
上述申请中的一个实施例具有如下优点或有益效果:通过词汇黑名单以及实体知识图谱中的实体属性对意图词进行筛选过滤,保证构建意图体系中的意图词的准确性,进而提高意图体系的准确性。
可选的,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系包括:
将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配;
将实体的意图词与所匹配的领域的意图词之间建立映射关系;
基于所述映射关系,将所匹配的领域的意图词之间的层次关联关系,继承为所述实体的意图词之间的层次关联关系。
上述申请中的一个实施例具有如下优点或有益效果:通过对待标注实体的意图词与领域意图词进行匹配,从而待标注实体的意图词可以继承匹配的领域意图词的层次关联关系,保证了待标注实体的意图词的层次关联关系确定依据的准确性,符合用户的检索要求。
可选的,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
针对所述待标注实体的实体词和意图词的实体意图二元组,获取检索结果点击集合;
针对所述待标注实体的实体词和待匹配的所述领域意图体系中意图词的领域意图二元组,获取检索结果点击集合;
比对两个所述检索结果点击集合的相似度;
根据所述相似度确定所述实体的意图词和待匹配的领域的意图词之间的匹配结果。
上述申请中的一个实施例具有如下优点或有益效果:通过建立实体意图二元组,提高对匹配的效率和准确性;并且通过对检索结果点击集合的相似度的比对实现对匹配结果的确定,提高对意图词的含义确定的准确性,进而提高匹配结果的准确性。
可选的,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
对所述实体的意图词进行文本概念标注和概念上位扩展,以确定所述实体的意图词所对应的概念词;
将所述概念词在概念词汇图谱中进行匹配,以获取匹配的目标概念词;
以所述目标概念词替换所述实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配。
上述申请中的一个实施例具有如下优点或有益效果:通过对进行概念上位扩展的意图词执行匹配操作,提高实体意图词与领域意图词的匹配成功率,进而提高实体意图体系的意图的覆盖率。
可选的,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
将所述待标注实体的意图词,与预设意图模板进行匹配;
确定匹配的意图模板,在所述待标注实体所属领域的领域意图体系中对应的意图词,作为所述待标注实体的意图词的匹配结果。
上述申请中的一个实施例具有如下优点或有益效果:通过预设意图模板的建立,保证了特定意图词与领域意图词之间的匹配,提高实体意图词与领域意图词的匹配成功率,避免对实体意图词的遗漏,进而提高实体意图体系的意图的覆盖率。
可选的,所述预设意图模板表征至少两个意图词之间的设定关系。
上述申请中的一个实施例具有如下优点或有益效果:通过对意图词之间的关系进行预先设定,提高对预设意图模板对意图词含义的表述,进而为与领域意图词的匹配提供准确的依据。
可选的,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系之后,还包括:
针对所述待标注实体所构建的意图体系,根据其中各意图词的被搜索频次确定各意图词的权重,并将所述权重标注在所述意图体系中。
上述申请中的一个实施例具有如下优点或有益效果:用各意图词的被搜索频次对意图词的权重进行表示,便于意图体系根据权重对意图词进行排序,使得实体意图体系对用户搜索倾向的判断更加准确。
第二方面,本申请实施例公开了一种基于实体意图体系的信息推荐方法,所述实体意图体系基于本申请任一实施例所述的实体意图体系的建立方法而构建,所述信息推荐方法包括:
在信息推荐界面中展示至少一个实体对应的实体词;
在用户选择所述实体时,从所述实体意图体系中获取所述实体对应的意图词;
根据所述意图词,在所述信息推荐界面中展示所述意图词的关联内容。
本申请实施例提供的技术方案,实现了在用户进行相关实体搜索时,根据构建好的实体意图体系中的意图词以及层级关系进行推荐,更好的向用户展示关于该实体相关的意图词,以及通过层级关系可以对推荐内容进行推进,更加符合用户的搜索情况,提高用户的搜索体验感。
第三方面,本申请实施例公开了一种实体意图体系的建立装置,所述装置包括:
领域意图体系构建模块,用于对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;
实体意图词识别模块,用于针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;
实体意图体系构建模块,用于根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。
第四方面,本申请实施例公开了一种基于实体意图体系的信息推荐装置,所述实体意图体系基于本申请任一实施例所述的实体意图体系的建立方法而构建,所述信息推荐装置包括:
实体词展示模块,用于在信息推荐界面中展示至少一个实体对应的实体词;
实体意图词获取模块,用于在用户选择所述实体时,从所述实体意图体系中获取所述实体对应的意图词;
关联内容展示模块,用于根据所述意图词,在所述信息推荐界面中展示所述意图词的关联内容。
第五方面,本申请实施例公开了一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请任一实施例所述的方法。
第六方面,本申请实施例公开了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请任一实施例所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:通过根据预先建立的领域意图体系中的意图词间的层次关联关系,确定待标注实体的意图词的层次关联关系,进而构建待标注实体的意图体系。由于通过对设定领域进行意图词以及层次关联关系的标注,所以克服了对待标注实体的意图词识别以及层次关联关系的确定不符合用户实际搜索情况的技术问题,进而达到提高构建的待标注实体的意图体系的准确性的技术效果,并且提高与用户认知和实际检索情况的契合度。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例提供的一种实体意图体系的建立方法的流程示意图;
图2是根据本申请第二实施例提供的一种实体意图体系的建立方法的流程示意图;
图3是根据本申请第三实施例提供的一种基于实体意图体系的信息推荐方法的流程示意图;
图4是根据本申请第四实施例提供的一种实体意图体系的建立装置的结构示意图;
图5是根据本申请第五实施例提供的一种基于实体意图体系的信息推荐装置的结构示意图;
图6是用来实现本申请实施例的实体意图体系的建立方法或基于实体意图体系的信息推荐方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
第一实施例
图1是根据本申请第一实施例提供的一种实体意图体系的建立方法的流程示意图,本实施例用于通过将待标注实体的意图词与目标设定领域的领域意图体系中的意图词建立映射关系,实现对待标注实体的意图体系的构建。通过本申请实施例所构建的实体意图体系,能够表达意图词之间的层次关联关系,可用于搜索引擎的检索、实体信息的推荐场景中,在检索结果展示和推荐结果展示时,能够更精准的展示有层次关联关系的意图信息,改善用户的使用体验。
该方法可以由实体意图体系的建立装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于电子设备中。如图1所示,本实施例提供的实体意图体系的建立方法可以包括:
S110、对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系。
其中,设定领域是指某类实体的集合,例如,植物实体集合、动物实体集合、美食实体集合等。实体集合的分类粒度可根据实际检索情况以及实体意图词的相似性来确定。通常,一个领域内的所有实体具有一定共性,其经常被检索的意图词也具有大量共性。设定领域的范围可以根据需求不同进行设置,在本申请中对设定领域的范围不作限定。
历史检索式来源于用户基于该设定领域进行相关搜索的内容,例如,确定在一个月内用户进行的关于植物领域内的搜索记录,从中确定历史检索式。历史检索式包括表达了搜索内容的简短词,例如,某用户搜索吃葡萄的好处,则对这条搜索内容可以用葡萄的功效这一检索式进行表示。意图词是指用户对搜索的目标实体想要了解的认知类需求词,可以根据检索式的内容进行确定。例如,检索式的内容为葡萄的功效,则功效属于用户对葡萄这一目标实体想要了解的内容,即为意图词。可以获取该领域中多个实体的历史搜索式来确定领域意图体系。
领域意图体系中包括用户对该设定领域下实体所关注的意图词以及意图词之间的层级关联关系。层级关联关系用于表示意图词之间的上下位关系、时序关系、或因果关系等任意关系,满足用户对目标实体的搜索需求。由于领域意图体系可以由人工进行准确标注,因此,意图词的确定以及层级关联关系的确定,可以由人工按照需求进行控制。
具体的,获取在设定时间内用户基于该设定领域进行相关搜索的搜索内容,确定该设定领域的历史检索式;并对该历史检索式中用户的认知需求词进行标注,得到标注的意图词。示例性的,对历史检索式中意图词的标注可以通过人工进行确定,保证确定的意图词符合用户的搜索情况。基于标注出的意图词,对其中各意图词之间的上下位以及同级关系进行确定,根据确定好的关系构建该设定领域的意图词体系。示例性的,对于意图词之间关系的确定可以通过人工或者基于知识图谱中节点间的属性关系进行确定,保证对意图词之间层级关系确定的准确性。构建好的领域意图体系是一个多层树状结构,对意图词之间的层级关系进行准确描述。
可选的,对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系包括:
从所述设定领域的多个实体中选择设定数量的代表性实体;
获取各所述代表性实体的历史检索式;
对各所述代表性实体的历史检索式进行意图词标注和各意图词的层次关联关系标注;
基于标注结果,构建各所述代表性实体的意图体系,作为领域意图体系。
其中,代表性实体是指可以代表设定领域中所有实体的共性的对象,可以通过对设定领域中的实体进行随机抽样进行确定,也可以确定热门检索的实体。
具体的,确定需要进行构建领域意图体系的目标设定领域,获取实体知识图谱中该领域内的实体,并基于这些实体进行随机抽样,抽样得到的实体为代表性实体。代表性实体的抽样数量可以根据需求进行设置。并获取用户在设定时间内对代表性实体进行相关搜索的内容,进而确定代表性实体的历史检索式。可选的,对于代表性实体,可以选择热门检索词作为代表性实体的实体词,历史检索式可以从实体词的相关搜索内容进行确定。由于实体会有多个别称或者简称,选择热门检索词作为实体词既可以确定关于该实体的所有代表性历史检索式,也可以缩小检索范围,避免重复性搜索。示例性的,对于诸葛亮这一实体而言,有卧龙、孔明、诸葛孔明等别称,因此在用户的历史检索中确定出现频率最高的词诸葛亮作为该实体的实体词,则用户基于诸葛亮这一实体词进行的相关搜索可以代表该实体下的所有搜索内容,保证了历史检索式的覆盖完整性,以及避免其他实体词的重复性搜索内容对意图体系的工作量带来负担。
对确定的历史检索式中包括的意图词进行标注,并确定标注出的意图词之间的层次关联关系。示例性的,可以通过人工对历史检索式进行标注,保证标注出的意图词以及层级关联关系符合用户的搜索情况以及保证层次关联关系的准确性。将标注出的意图词以及之间层级关联关系组合,构建出各代表性实体的意图体系,并将其作为该设定领域的意图体系。例如,对于三国人物这一设定领域,确定诸葛亮、刘备以及曹操作为代表性实体,获取的历史检索式有:诸葛亮的简介,刘备的历史故事以及曹操的儿子等,则确定的意图词包括简介、历史故事、亲属关系等,确定的意图词之间的层级关联关系包括:简介是历史故事的上位关系,历史故事与亲属关系属于同级关系等,依据这些意图词和层级关联关系构建树状的领域意图体系,用领域意图体系中的意图词表示用户对该领域内所有实体的搜索认知意图。
对于用代表性实体对该设定领域的意图进行确定,避免了对该领域内所有实体进行意图标注,减少了工作量;并且对于所有实体进行标注需要多个人力,对于一个设定领域的代表性实体只需要一个人力,保证了一个领域内意图标注的标准的一致性,提高意图词确定的准确性。并且基于人工对意图词进行确定可以更精准的反应用户的认知需求,提高意图词确定的准确性。
S120、针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词。
其中,待标注实体是指需要构建实体意图体系的对象,可以根据用户的搜索热度以及需求进行确定。
具体的,确定待标注实体后,获取在设定短时间内用户基于该待标注实体进行相关搜索的内容,基于相关搜索内容确定待标注实体的检索式,作为历史检索式。示例性的,待标注实体为葡萄时,获取用户在一次检索会话过程中对葡萄进行相关搜索的内容,一次搜索会话是指用户发生的连续检索行为,中间没有明显中断。这样的一组历史检索式可称为共现检索式,共现检索式一般是关于同一主题的所有检索式。
检索式如葡萄的英文怎么说、吃葡萄能美白吗以及葡萄的吃法等。基于上述确定的关于待标注实体的历史检索式,识别检索式中关于待标注实体的意图词。例如,对于上述葡萄的检索式中,意图词为英文、美白以及吃法等。从检索式中识别意图词可以是自动完成的,例如基于词性来提取名词、形容词或动词等设定词汇。
可选的,针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词包括:
获取所述待标注实体的历史检索式;
对所述待标注实体的历史检索式进行意图词识别;
对识别到的意图词进行筛选过滤。
具体的,从历史检索式中自动提取的词汇,可能是正确的意图词,也可能不是,所以需要进行一些筛选,过滤掉不符合要求的词汇,来提高准确性。如黑名单词汇、词义表达不完整的词汇以及黄色暴力敏感词汇等。保证筛选后的意图词中不包括明显不正常的结果,提高构建的实体意图体系中意图词的准确性。
可选的,对识别到的意图词进行筛选过滤包括下述至少一项:
按照词汇黑名单对识别到的意图词进行筛选过滤;
根据实体知识图谱中记录的实体属性,对所述实体词和意图词进行识别,将对应至非所述待标注实体的实体词和意图词过滤掉。
其中,词汇黑名单是指违反法律以及道德的词汇名单,可以根据用户的历史搜索进行标注的结果进行确定,或者根据其他来源提供获取。示例性的,词汇黑名单中包括黄色暴力以及政治敏感词汇等。具体的,在对意图词进行筛选过滤时可以通过预先设置的词汇黑名单进行筛选,将在黑名单中的待标注实体的意图词过滤。
实体知识图谱是指已经建立的实体之间的关联关系的结构网络。实体属性是实体的相关内容,可收集记录该实体各方面的资料,例如对于诸葛亮这一实体而言,其实体属性是与真实人物相关的内容。可以是结构化的字段属性,也可以是相关的文档资料。
根据实体知识图谱中记录的实体属性进行过滤,是在进行消岐处理。在前述确定历史检索式时,可能会根据检索词将不同实体的检索式汇聚在一起进行处理,则提取的意图词可能针对的不是待标注实体,而是具有相同实体名称的其他实体,需要将这样的意图词过滤掉。例如,对于历史检索式中“诸葛亮的王者荣耀出装”以及“诸葛亮的历史故事”,确定的意图词有“王者荣耀出装”以及“历史故事”。待标注实体是三国人物诸葛亮,那么,将“王者荣耀出装”与实体知识图谱中三国人物诸葛亮的属性内容进行比对,可确定相似度很低,则说明该意图词对应的实体与待标注实体不是同一实体,对其进行过滤操作。“王者荣耀出装”对应的是实体知识图谱中的游戏人物诸葛亮。在实体知识图谱中,实体的ID是唯一的,但是不同ID的实体有可能是实体名称是相同的。对于历史故事这一意图词,与实体知识图谱中“三国人物诸葛亮”的属性内容进行比对,确定相似度很高,则确定该意图词属于“三国人物诸葛亮”这一待标注实体的意图词。
除了实体名称相同的意图词需要过滤之外,还可能出现属于相同主题的实体的意图词,也可以进行过滤。例如,按照相同主题可确定针对诸葛亮与司马懿的检索式是共现的历史检索式,则它们也作为待标注实体“三国人物诸葛亮”的检索式进行了意图词提取。可通过意图词与实体属性的比对,确定相似度较低,对于司马懿相关的意图词进行过滤操作。执行这一操作的原因是:在获取历史检索式时,是根据与待标注实体相关的历史搜索记录进行确定的,因此可能会出现同一主题但是不是相同实体词的历史检索式,则需要对其进行过滤,保证获取到的意图词与待标注实体之间的对应准确性,提高该待标注实体意图体现的构建准确度。
可选的,获取各所述代表性实体或所述待标注实体的历史检索式包括:
根据检索日志,从所述代表性实体或所述待标注实体对应的多个检索词中确定热门检索词,作为所述代表性实体的实体词;
获取与各所述实体词属于相同主题且处于相同会话中的所有检索式,作为历史检索式。
其中,检索日志是指用户在预设时间内关于待搜索实体进行的相关搜索记录。示例性的,检索日志可以根据历史搜索记录进行确定。
具体的,历史检索式可以根据如下操作进行确定:获取与代表性实体或待标注实体相关的在预定时间范围内的用户搜索内容,并确定用户关于该代表性实体进行搜索时的多个检索词,确定搜索记录中出现频率最高的检索词作为该代表性实体的实体词。并获取与该实体词属于相同主题且处于同一搜索界面中的所有检索式,作为历史检索式。频率最高的检索词的检索式已经包括了该实体的各种检索意图,满足构建实体意图体系的需求,避免对所有检索词的检索式进行意图词确定,避免重复性的操作。
S130、根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。
具体的,根据确定的待标注实体的意图词与构建的领域意图体系中的意图词之间的相似度进行匹配,并根据匹配结果依据领域意图体系中的层次关联关系对待标注实体的意图词层次关联关系进行确定,根据匹配成功的意图词以及层次关联关系,构建该待标注实体的意图体系。通过上述过程自动识别的待标注实体的意图词,其间的层次关联关系尚无法确定,因此需要将自动识别的意图词与领域意图体系中的意图词建立映射关系,由此,继承领域意图体系中的层级关联关系。
可选的,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系包括:
将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配;
将实体的意图词与所匹配的领域的意图词之间建立映射关系;
基于所述映射关系,将所匹配的领域的意图词之间的层次关联关系,继承为所述实体的意图词之间的层次关联关系。
具体的,将待标注实体的意图词依次与所属领域的领域意图体系中的意图词进行匹配操作,示例性的,按照意图词的词义进行相似度计算,存在相似度最高且达到预设阈值的意图词即为匹配成功。将匹配成功的意图词之间建立映射关系,以便对层级关系进行确定。按照领域的意图词之间的层次关联关系,将存在映射关系的待标注实体的意图词也按照同样的层次关联关系进行连接,最后确定待标注实体的匹配成功的意图词之间的所有层次关联关系。当然,建立映射关系的匹配方式不限于此。
示例性的,待标注实体为诸葛亮时,确定的意图词有历史故事、草船借箭以及生平等,则对应的在领域意图体系中匹配成功的意图词为历史典故、草船借箭以及生平等,在领域意图体系中意图词之间的对应关系为历史典故是草船借箭的上位关系,生平是历史典故的上位关系,则对应待标注实体的意图词之间的层次关联关系为历史故事是草船借箭的上位关系,生平是历史故事的上位关系,则依据已经建立的领域意图体系可以将待标注实体的意图词之间的层次关联关系进行确定,由于领域意图体系中层级关系确定的准确性,保证了待标注实体的意图体系建立的准确性。
可选的,在对待标注实体的意图词进行匹配操作之前,可以按照意图词的字面意思对领域意图体系中的意图词进行排序操作,按照与意图词的字面意思的相似度从高到低进行排序,在进行匹配操作时按照排序结果进行匹配,进而提高匹配的效率。
本申请实施例提供的技术方案,通过根据设定领域代表性实体的意图词进行标注预先建立领域意图体系,提高领域意图体系构建的效率和准确性;通过领域意图体系中的意图词与实体意图词的匹配,实现根据领域意图词的层次关联关系,确定待标注实体的意图词的层次关联关系,进而构建待标注实体的意图体系。由于通过对设定领域进行意图词以及层次关联关系的标注,所以克服了对待标注实体的意图词识别以及层次关联关系的确定不符合用户搜索情况的技术问题,进而达到提高构建的待标注实体的意图体系的准确性的技术效果,并且提高与用户认知和实际检索情况的契合度。
第二实施例
图2是根据本申请第二实施例提供的一种实体意图体系的建立方法的流程示意图。该方法可以由实体意图体系的建立装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于电子设备中。如图3所示,本实施例提供的实体意图体系的建立方法可以包括:
S210、对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系。
S220、针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词。
S230、将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配。
可选的,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
针对所述待标注实体的实体词和意图词的实体意图二元组,获取检索结果点击集合;
针对所述待标注实体的实体词和待匹配的所述领域意图体系中意图词的领域意图二元组,获取检索结果点击集合;
比对两个所述检索结果点击集合的相似度;
根据所述相似度确定所述实体的意图词和待匹配的领域的意图词之间的匹配结果。
其中,实体意图二元组即(实体词,意图词)的组合。检索结果点击集合是指基于用户对于目标实体意图二元组所检索得到的网页结果中进行的网页点击集合。例如,对于(诸葛亮,历史故事)这一实体意图二元组,确定用户关于这一二元组进行的相关历史搜索记录,并获得用户在检索结果中进行点击的记录,可以从检索日志中进行确定,形成检索结果点击集合。
如果待标注实体的意图词A,与领域意图体系中的意图词B,各自组成的二元组(待标注实体词,意图词A)和(待标注实体词,意图词B)的搜索点击结果相似,说明意图词A和意图词B的实际语义可能是相同的。
可选的另一种匹配方式为,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
对所述实体的意图词进行文本概念标注和概念上位扩展,以确定所述实体的意图词所对应的概念词;
将所述概念词在概念词汇图谱中进行匹配,以获取匹配的目标概念词;
以所述目标概念词替换所述实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配。
其中,文本概念标注是指对意图词的含义用概念词进行表示,概念词可以通过概念图谱中的概念点进行获取,概念词一般是对意图词的上位或扩展,对意图词进行文本概念标注可以使识别出的意图词不局限于对实体意图的细微差别的描述,提高对实体的意图本质上的理解程度。概念上位扩展是指对文本概念标注的结果进行上位描述,扩大意图词的表述范围。概念词用于对意图词的另外一种表示方式,例如对于西红柿这一待标注实体而言,确定的意图词有西红柿炒鸡蛋,对于其并没有在领域意图体系中匹配到意图词,则将该意图词在已有的概念图谱进行匹配,确定的概念词为西红柿的做法属于概念词“菜品”。概念图谱是已有的概念词之间的层级关系,但概念图谱并非基于检索情况构建,其反映的是一些已知概念词汇之间的关系。
具体的,对于本实施例中,对实体意图二元组获取的检索结果点击集合匹配不成功的意图词使用文本概念标注和概念上位扩展获取概念词的方式进行匹配。基于检索结果点击集合的方式进行匹配,是直接将自动识别的意图词与领域意图体系的意图词进行文本匹配和检索情况匹配。如果不能匹配,则可以将意图词表达为更上位的概念词,再将概念词与领域意图体系的意图词进行匹配。
在本申请的另外一个实施例中,可以同时对实体意图词采用这两种方式进行匹配,选择匹配度最高的领域意图词作为匹配结果。
进行文本概念标注和概念上位扩展获得的与实体意图词对应的概念词是针对于该意图词的语义进行上位描述的词汇;而目标概念词则是针对已经进行上位描述的概念词,进行准确性的表述,使得其表述方式与领域意图体系中的意图词的表述方式一致或相近,便于对上位概念词匹配到领域意图体系中。
对于在概念图谱中匹配得到的目标概念词,采用上述实施例中的检索结果点击集合的相似度确定的方法对目标概念词到领域意图体系中的意图词进行匹配,得到匹配结果。示例性的,对于上述示例中的意图词西红柿炒鸡蛋,确定的与实体意图词对应的概念词为西红柿的做法,针对这一概念词,在预先设置的概念图谱中进行匹配,确定语义最接近的目标概念词为菜品,用食谱代替原来的实体意图词西红柿炒鸡蛋,并和领域意图体系中的意图词进行匹配,最后确定领域意图体系中的意图词做法,即完成将实体意图词西红柿炒鸡蛋与领域意图体系中的意图词做法的匹配。
通过文本概念标注和概念上位扩展可以对点击集合相似度不能解决的匹配问题进行扩展解决,提高对实体意图词匹配的成功率,进而提高该待标注实体的意图体系的完整程度。
可选的再一种匹配方式是,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
将所述待标注实体的意图词,与预设意图模板进行匹配;
确定匹配的意图模板,在所述待标注实体所属领域的领域意图体系中对应的意图词,作为所述待标注实体的意图词的匹配结果。
其中,预设意图模板是指预先设置的与领域意图相匹配的检索式的模板,用于对特定结构的检索式进行领域意图词匹配,提高实体意图的完整度。例如预设意图模板包括X和X的区别以及X和X哪个+形容词,如“葡萄和提子的区别”,“葡萄和提子哪个酸”等。并预先确定预设意图模板与领域意图体系中对应的意图词,例如,X和X的区别与领域意图词植物区别相对应,X和X哪个+形容词和植物对比相对应。
可选的,所述预设意图模板表征至少两个意图词之间的设定关系。设定关系可以用形容词来表示,不同形容词的词义代表了不同的意图。
具体的,在本实施例中,对于采用上述实施例的匹配方法均未获得匹配结果的意图词,对其对应的检索式进行确定,并与预设意图模板进行匹配,若检索式的结构符合预设意图模板中的任一结构,则确定该意图模板为与该实体意图词匹配的结果,并确定与该意图模板对应的待标注实体所属领域的领域意图体系中的意图词,并建立该意图词与对应实体意图词之间的匹配关系。
可选的,对于采用上述实施例中的匹配方法均未确定匹配结果的实体意图词,采取过滤操作,保证匹配成功的意图词可以根据领域意图体系的层次关联关系建立该实体的意图体系,避免实体意图体系中存在无法确定层级关系的意图词。
S240、将实体的意图词与所匹配的领域的意图词之间建立映射关系。
具体的,建立匹配成功的实体意图词和领域意图词之间的映射关系,示例性的,建立实体意图词西红柿炒鸡蛋与领域意图词做法之间的映射关系。
S250、基于所述映射关系,将所匹配的领域的意图词之间的层次关联关系,继承为所述实体的意图词之间的层次关联关系,作为所述待标注实体的意图体系。
具体的,确定与实体意图词有映射关系的领域意图词,并根据领域意图词之间的层次关联关系,确定对应的实体意图词之间为与之相同的映射关系,即为继承层次关联关系。通过领域意图词之间的层次关联关系对实体意图词之间的层次关联关系进行确定,确保了确定的实体意图词之间的关系更加符合实际检索情况,避免受限于概念体系的约束。
可选的,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系之后,还包括:
针对所述待标注实体所构建的意图体系,根据其中各意图词的被搜索频次确定各意图词的权重,并将所述权重标注在所述意图体系中。
其中,权重可以用目标意图词被搜索的频次来表示,用于对用户的搜索倾向进行表示。权重可作为对同级意图词之间的先后排序的依据。示例性的,对于同级意图词历史典故、足迹、死因以及作品,在检索日志中各意图词的出现频次从高到低的顺序分别为:历史典故、死因、足迹以及作品,则其权重按照频次的顺序进行排序。可选的,权重可以用数值进行表示,示例性的,权重可以用该意图词的被搜索次数表示,例如,某意图词的权重包括其被搜索次数以及其下位意图词的被搜索次数之和。
具体的,确定实体意图词的层次关联关系后,分别计算每个实体意图词的被搜索次数,每个实体意图词的权重值为该实体意图词的被搜索次数和其下位意图词的被搜索次数之和。确定各实体意图词的权重后,将同级实体意图词按照权重值从大到小依次排序,并将权重值标注在实体意图体系中的对应意图词中。
本申请实施例提供的技术方案,根据对领域意图体系中的意图词与实体意图词的匹配方式进行确定,实现了对意图词间匹配准确性的提高以及实体意图词匹配成功率的提高,进而实现对实体意图体系构建的准确性。并且通过用权重对实体意图词进行标注,表征了意图词被用户搜索倾向,提高与用户认知和实际检索情况的契合度。
第三实施例
图3是根据本申请第三实施例提供的一种基于实体意图体系的信息推荐方法的流程示意图,本实施例用于基于上述实施例确定实体意图体系对与该实体的相关信息按照层级关系进行推荐。所述实体意图体系基于本申请任一实施例所述的实体意图体系的建立方法而构建,该方法可以由基于实体意图体系的信息推荐装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于电子设备中。如图3所示,本实施例提供的基于实体意图体系的信息推荐方法可以包括:
S310、在信息推荐界面中展示至少一个实体对应的实体词。
其中,信息推荐界面是指对实体的相关信息以及实体意图词的相关信息进行展示的画面。
具体的,在信息推荐界面上显示与多个实体对应的实体词,这些实体词可以来源于同一领域或者不同领域。信息推荐界面上展示的实体类型可以根据用户的历史搜索记录进行确定。示例性的,某用户的历史搜索记录中关于三国人物这一领域搜索频次最高,则可在信息推荐界面上显示与该领域相关的一个或多个实体,如显示诸葛亮、司马懿或者刘备等实体词,以供用户搜索选择。在本申请的另一实施例中,信息推荐界面可以根据用户的搜索内容对相关的实体词进行展示。例如,用户在信息推荐界面上搜索诸葛,则展示与诸葛相关的实体词,如诸葛亮、诸葛孔明等。
S320、在用户选择所述实体时,从所述实体意图体系中获取所述实体对应的意图词。
具体的,在用户对信息推荐界面上展示的实体词进行选择后,从对应的实体意图体系中获取对应的意图词以及意图词之间的层级关系,可选的,意图词的显示先后顺序按照权重值大小进行排序。示例性的,用户选择实体诸葛亮后,获取诸葛亮的实体意图体系,其中包括与诸葛亮对应的意图词以及意图词之间的层级关系。例如,获取在诸葛亮的实体词下的第一层意图词,如历史典故、足迹、死因以及作品等,并在对应的第一层意图词下获取第二层意图词,如在历史典故下的第二层意图词借东风、挥泪斩马谡以及空城计等。
S330、根据所述意图词,在所述信息推荐界面中展示所述意图词的关联内容。
具体的,将获取到意图词以及对应的层级关系展示在信息推荐界面中。例如,在主界面显示用户当前选择的意图词的相关内容,在辅界面显示与该意图词同一层级的意图词以及该意图词的下一层级的意图词,以供用户选择。
本申请实施例提供的技术方案,实现了在用户进行相关实体搜索时,根据构建好的实体意图体系中的意图词以及层级关系进行推荐,更好的向用户展示关于该实体相关的意图词,以及通过层级关系可以对推荐内容进行推进,更加符合用户的搜索情况,提高用户的搜索体验感。
第四实施例
图4是根据本申请第四实施例提供的一种实体意图体系的建立装置的结构示意图,可执行本申请实施例所提供的实体意图体系的建立方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置可以包括:
领域意图体系构建模块410,用于对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;
实体意图词识别模块420,用于针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;
实体意图体系构建模块430,用于根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。
上述申请中的一个实施例具有如下优点或有益效果:通过根据预先建立的领域意图体系中的意图词间的层次关联关系,确定待标注实体的意图词的层次关联关系,进而构建待标注实体的意图体系。由于通过对设定领域进行意图词以及层次关联关系的标注,所以克服了对待标注实体的意图词识别以及层次关联关系的确定不符合用户搜索情况的技术问题,进而达到提高构建的待标注实体的意图体系的准确性的技术效果,并且提高与用户认知和实际检索情况的契合度。
可选的,领域意图体系构建模块410具体用于:
从所述设定领域的多个实体中选择设定数量的代表性实体;
获取各所述代表性实体的历史检索式;
对各所述代表性实体的历史检索式进行意图词标注和各意图词的层次关联关系标注;
基于标注结果,构建各所述代表性实体的意图体系,作为领域意图体系。
可选的,实体意图词识别模块420包括:
历史检索式获取单元,用于获取所述待标注实体的历史检索式;
意图词识别单元,用于对所述待标注实体的历史检索式进行意图词识别;
意图词筛选单元,用于对识别到的意图词进行筛选过滤。
可选的,所述装置还包括:
根据检索日志,从所述代表性实体或所述待标注实体对应的多个检索词中确定热门检索词,作为所述代表性实体的实体词;
获取与各所述实体词属于相同主题且处于相同会话中的所有检索式,作为历史检索式。
可选的,意图词筛选单元包括下述至少一个子单元:
黑名单筛选子单元,用于按照词汇黑名单对识别到的意图词进行筛选过滤;
实体属性过滤子单元,用于根据实体知识图谱中记录的实体属性,对所述实体词和意图词进行识别,将对应至非所述待标注实体的实体词和意图词过滤掉。
可选的,实体意图体系构建模块430,包括:
意图词匹配单元,用于将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配;
意图词映射单元,用于将实体的意图词与所匹配的领域的意图词之间建立映射关系;
层级关系确定单元,用于基于所述映射关系,将所匹配的领域的意图词之间的层次关联关系,继承为所述实体的意图词之间的层次关联关系。
可选的,意图词匹配单元具体用于:
针对所述待标注实体的实体词和意图词的实体意图二元组,获取检索结果点击集合;
针对所述待标注实体的实体词和待匹配的所述领域意图体系中意图词的领域意图二元组,获取检索结果点击集合;
比对两个所述检索结果点击集合的相似度;
根据所述相似度确定所述实体的意图词和待匹配的领域的意图词之间的匹配结果。
可选的,意图词匹配单元具体用于:
对所述实体的意图词进行文本概念标注和概念上位扩展,以确定所述实体的意图词所对应的概念词;
将所述概念词在概念词汇图谱中进行匹配,以获取匹配的目标概念词;
以所述目标概念词替换所述实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配。
可选的,意图词匹配单元具体用于:
将所述待标注实体的意图词,与预设意图模板进行匹配;
确定匹配的意图模板,在所述待标注实体所属领域的领域意图体系中对应的意图词,作为所述待标注实体的意图词的匹配结果。
可选的,所述预设意图模板表征至少两个意图词之间的设定关系。
可选的,所述装置还包括:
权重标注模块,用于针对所述待标注实体所构建的意图体系,根据其中各意图词的被搜索频次确定各意图词的权重,并将所述权重标注在所述意图体系中。
第五实施例
图5是根据本申请第五实施例提供的一种基于实体意图体系的信息推荐装置的结构示意图,可执行本申请实施例所提供的基于实体意图体系的信息推荐方法,实体意图体系基于本申请任一实施例所述的实体意图体系的建立方法而构建,具备执行方法相应的功能模块和有益效果。如图5所示,该装置可以包括:
实体词展示模块510,用于在信息推荐界面中展示至少一个实体对应的实体词;
实体意图词获取模块520,用于在用户选择所述实体时,从所述实体意图体系中获取所述实体对应的意图词;
关联内容展示模块530,用于根据所述意图词,在所述信息推荐界面中展示所述意图词的关联内容。
第六实施例
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的实体意图体系的建立方法或基于实体意图体系的信息推荐方法的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的实体意图体系的建立方法或基于实体意图体系的信息推荐方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的实体意图体系的建立方法或基于实体意图体系的信息推荐方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的实体意图体系的建立方法或基于实体意图体系的信息推荐方法对应的程序指令/模块(例如,附图4所示的领域意图体系构建模块401、实体意图词识别模块402和实体意图体系构建模块403或附图5所示的实体词展示模块501、实体意图词获取模块502和关联内容展示模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的实体意图体系的建立方法或基于实体意图体系的信息推荐方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实体意图体系的建立方法或基于实体意图体系的信息推荐方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至实体意图体系的建立方法或基于实体意图体系的信息推荐方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实体意图体系的建立方法或基于实体意图体系的信息推荐方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与实体意图体系的建立方法或基于实体意图体系的信息推荐方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过根据设定领域代表性实体的意图词进行标注预先建立领域意图体系,提高领域意图体系构建的效率和准确性;通过领域意图体系中的意图词与实体意图词的匹配,实现根据领域意图词的层次关联关系,确定待标注实体的意图词的层次关联关系,进而构建待标注实体的意图体系。由于通过对设定领域进行意图词以及层次关联关系的标注,所以克服了对待标注实体的意图词识别以及层次关联关系的确定不符合用户搜索情况的技术问题,进而达到提高构建的待标注实体的意图体系的准确性的技术效果,并且提高与用户认知和实际检索情况的契合度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (15)
1.一种实体意图体系的建立方法,其特征在于,包括:
对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;
针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;
根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系;
其中,对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系包括:
从所述设定领域的多个实体中选择设定数量的代表性实体;所述代表性实体是指代表设定领域中所有实体的共性的对象;
获取各所述代表性实体的历史检索式;
对各所述代表性实体的历史检索式进行意图词标注和各意图词的层次关联关系标注;
基于标注结果,构建各所述代表性实体的意图体系,作为领域意图体系。
2.根据权利要求1所述的方法,其特征在于,针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词包括:
获取所述待标注实体的历史检索式;
对所述待标注实体的历史检索式进行意图词识别;
对识别到的意图词进行筛选过滤。
3.根据权利要求1或2所述的方法,其特征在于,获取各所述代表性实体或所述待标注实体的历史检索式包括:
根据检索日志,从所述代表性实体或所述待标注实体对应的多个检索词中确定热门检索词,作为所述代表性实体的实体词;
获取与各所述实体词属于相同主题且处于相同会话中的所有检索式,作为历史检索式。
4.根据权利要求3所述的方法,其特征在于,对识别到的意图词进行筛选过滤包括下述至少一项:
按照词汇黑名单对识别到的意图词进行筛选过滤;
根据实体知识图谱中记录的实体属性,对所述实体词和意图词进行识别,将对应至非所述待标注实体的实体词和意图词过滤掉。
5.根据权利要求1所述的方法,其特征在于,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系包括:
将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配;
将实体的意图词与所匹配的领域的意图词之间建立映射关系;
基于所述映射关系,将所匹配的领域的意图词之间的层次关联关系,继承为所述实体的意图词之间的层次关联关系。
6.根据权利要求5所述的方法,其特征在于,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
针对所述待标注实体的实体词和意图词的实体意图二元组,获取检索结果点击集合;
针对所述待标注实体的实体词和待匹配的所述领域意图体系中意图词的领域意图二元组,获取检索结果点击集合;
比对两个所述检索结果点击集合的相似度;
根据所述相似度确定所述实体的意图词和待匹配的领域的意图词之间的匹配结果。
7.根据权利要求5或6所述的方法,其特征在于,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
对所述实体的意图词进行文本概念标注和概念上位扩展,以确定所述实体的意图词所对应的概念词;
将所述概念词在概念词汇图谱中进行匹配,以获取匹配的目标概念词;
以所述目标概念词替换所述实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配。
8.根据权利要求5或6所述的方法,其特征在于,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
将所述待标注实体的意图词,与预设意图模板进行匹配;
确定匹配的意图模板,在所述待标注实体所属领域的领域意图体系中对应的意图词,作为所述待标注实体的意图词的匹配结果。
9.根据权利要求8所述的方法,其特征在于,所述预设意图模板表征至少两个意图词之间的设定关系。
10.根据权利要求1所述的方法,其特征在于,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系之后,还包括:
针对所述待标注实体所构建的意图体系,根据其中各意图词的被搜索频次确定各意图词的权重,并将所述权重标注在所述意图体系中。
11.一种基于实体意图体系的信息推荐方法,其特征在于,所述实体意图体系基于权利要求1-10任一所述的实体意图体系的建立方法而构建,所述信息推荐方法包括:
在信息推荐界面中展示至少一个实体对应的实体词;
在用户选择所述实体时,从所述实体意图体系中获取所述实体对应的意图词;
根据所述意图词,在所述信息推荐界面中展示所述意图词的关联内容。
12.一种实体意图体系的建立装置,其特征在于,包括:
领域意图体系构建模块,用于对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;
实体意图词识别模块,用于针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;
实体意图体系构建模块,用于根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系;
其中,所述领域意图体系构建模块具体用于:
从所述设定领域的多个实体中选择设定数量的代表性实体;所述代表性实体是指代表设定领域中所有实体的共性的对象;
获取各所述代表性实体的历史检索式;
对各所述代表性实体的历史检索式进行意图词标注和各意图词的层次关联关系标注;
基于标注结果,构建各所述代表性实体的意图体系,作为领域意图体系。
13.一种基于实体意图体系的信息推荐装置,其特征在于,所述实体意图体系基于权利要求1-10任一所述的实体意图体系的建立方法而构建,所述信息推荐装置包括:
实体词展示模块,用于在信息推荐界面中展示至少一个实体对应的实体词;
实体意图词获取模块,用于在用户选择所述实体时,从所述实体意图体系中获取所述实体对应的意图词;
关联内容展示模块,用于根据所述意图词,在所述信息推荐界面中展示所述意图词的关联内容。
14.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10或11中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-10或11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328292.0A CN111091006B (zh) | 2019-12-20 | 2019-12-20 | 一种实体意图体系的建立方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328292.0A CN111091006B (zh) | 2019-12-20 | 2019-12-20 | 一种实体意图体系的建立方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091006A CN111091006A (zh) | 2020-05-01 |
CN111091006B true CN111091006B (zh) | 2023-08-29 |
Family
ID=70396451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911328292.0A Active CN111091006B (zh) | 2019-12-20 | 2019-12-20 | 一种实体意图体系的建立方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091006B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813828B (zh) * | 2020-06-30 | 2024-02-27 | 北京百度网讯科技有限公司 | 一种实体关系挖掘方法、装置、电子设备及存储介质 |
CN112328766B (zh) * | 2020-11-10 | 2022-05-03 | 四川长虹电器股份有限公司 | 一种基于路径搜索的知识图谱问答方法和装置 |
CN113609370B (zh) * | 2021-08-06 | 2023-12-12 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN114141384A (zh) * | 2022-01-30 | 2022-03-04 | 北京欧应信息技术有限公司 | 用于检索医学数据的方法、设备和介质 |
CN114661910A (zh) * | 2022-03-25 | 2022-06-24 | 平安科技(深圳)有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
CN114676691B (zh) * | 2022-05-27 | 2022-09-09 | 深圳市人马互动科技有限公司 | 一种识别方法、系统、设备以及计算机可读存储介质 |
CN116383367B (zh) * | 2023-06-06 | 2023-08-11 | 北京啄木鸟云健康科技有限公司 | 对话系统冷启动阶段的数据处理方法、装置、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106874261A (zh) * | 2017-03-17 | 2017-06-20 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱及查询方法 |
CN107807957A (zh) * | 2017-09-30 | 2018-03-16 | 北京奇虎科技有限公司 | 实体库生成方法及装置 |
CN107894884A (zh) * | 2016-09-30 | 2018-04-10 | 中国电子科技集团公司信息科学研究院 | 物体描述装置及其描述方法 |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
CN108717405A (zh) * | 2018-04-18 | 2018-10-30 | 西安理工大学 | 基于思维导图的楼梯设计规范缺省主语的补全方法 |
US10339420B1 (en) * | 2018-08-30 | 2019-07-02 | Accenture Global Solutions Limited | Entity recognition using multiple data streams to supplement missing information associated with an entity |
CN110263180A (zh) * | 2019-06-13 | 2019-09-20 | 北京百度网讯科技有限公司 | 意图知识图谱生成方法、意图识别方法及装置 |
CN110309287A (zh) * | 2019-07-08 | 2019-10-08 | 北京邮电大学 | 建模对话轮次信息的检索式闲聊对话打分方法 |
CN110362692A (zh) * | 2019-07-23 | 2019-10-22 | 中南大学 | 一种基于知识图谱的学术圈构建方法 |
CN110543592A (zh) * | 2019-08-27 | 2019-12-06 | 北京百度网讯科技有限公司 | 信息搜索方法、装置以及计算机设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095319A1 (en) * | 2013-06-10 | 2015-04-02 | Microsoft Corporation | Query Expansion, Filtering and Ranking for Improved Semantic Search Results Utilizing Knowledge Graphs |
CN104102713B (zh) * | 2014-07-16 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 推荐结果的展现方法和装置 |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
-
2019
- 2019-12-20 CN CN201911328292.0A patent/CN111091006B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN107894884A (zh) * | 2016-09-30 | 2018-04-10 | 中国电子科技集团公司信息科学研究院 | 物体描述装置及其描述方法 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106874261A (zh) * | 2017-03-17 | 2017-06-20 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱及查询方法 |
CN107807957A (zh) * | 2017-09-30 | 2018-03-16 | 北京奇虎科技有限公司 | 实体库生成方法及装置 |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
CN108717405A (zh) * | 2018-04-18 | 2018-10-30 | 西安理工大学 | 基于思维导图的楼梯设计规范缺省主语的补全方法 |
US10339420B1 (en) * | 2018-08-30 | 2019-07-02 | Accenture Global Solutions Limited | Entity recognition using multiple data streams to supplement missing information associated with an entity |
CN110263180A (zh) * | 2019-06-13 | 2019-09-20 | 北京百度网讯科技有限公司 | 意图知识图谱生成方法、意图识别方法及装置 |
CN110309287A (zh) * | 2019-07-08 | 2019-10-08 | 北京邮电大学 | 建模对话轮次信息的检索式闲聊对话打分方法 |
CN110362692A (zh) * | 2019-07-23 | 2019-10-22 | 中南大学 | 一种基于知识图谱的学术圈构建方法 |
CN110543592A (zh) * | 2019-08-27 | 2019-12-06 | 北京百度网讯科技有限公司 | 信息搜索方法、装置以及计算机设备 |
Non-Patent Citations (1)
Title |
---|
KnowMore – knowledge base augmentation with structured web markup;Ran Yu;《 Semantic Web》;第9卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111091006A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091006B (zh) | 一种实体意图体系的建立方法、装置、设备和介质 | |
CN111984689B (zh) | 信息检索的方法、装置、设备以及存储介质 | |
CN111428049B (zh) | 一种事件专题的生成方法、装置、设备和存储介质 | |
CN111967262B (zh) | 实体标签的确定方法和装置 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
JP7283067B2 (ja) | 通信プラットフォームにおける割り込み会話のデタングル化システムと方法、非構造化メッセージを解析する方法、プログラム、及びコンピュータ装置 | |
US20210365515A1 (en) | Method for Recommending a Search Term, Method for Training a Target Model and Electronic Device | |
CN111522967B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
US10713291B2 (en) | Electronic document generation using data from disparate sources | |
US9785671B2 (en) | Template-driven structured query generation | |
US10242320B1 (en) | Machine assisted learning of entities | |
CN111814077B (zh) | 信息点查询方法、装置、设备和介质 | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
JP2021131528A (ja) | ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
US20110184946A1 (en) | Applying synonyms to unify text search with faceted browsing classification | |
CN112000763B (zh) | 兴趣点竞争关系确定方法、装置、设备和介质 | |
WO2021139209A1 (zh) | 查询自动补全的方法、装置、设备和计算机存储介质 | |
CN110765348B (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
CN111858905B (zh) | 模型训练方法、信息识别方法、装置、电子设备及存储介质 | |
CN113032673B (zh) | 资源的获取方法、装置、计算机设备及存储介质 | |
CN111767334A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111984774B (zh) | 搜索方法、装置、设备以及存储介质 | |
CN111563198B (zh) | 一种物料召回方法、装置、设备及存储介质 | |
CN111666417A (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN111753195B (zh) | 标签体系构建方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |