CN111046271B - 用于搜索的挖掘方法、装置、存储介质及电子设备 - Google Patents

用于搜索的挖掘方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111046271B
CN111046271B CN201811194956.4A CN201811194956A CN111046271B CN 111046271 B CN111046271 B CN 111046271B CN 201811194956 A CN201811194956 A CN 201811194956A CN 111046271 B CN111046271 B CN 111046271B
Authority
CN
China
Prior art keywords
documents
similarity
document
determining
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811194956.4A
Other languages
English (en)
Other versions
CN111046271A (zh
Inventor
孙连生
马镇新
熊逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811194956.4A priority Critical patent/CN111046271B/zh
Priority to TW108128882A priority patent/TW202016762A/zh
Priority to US16/601,103 priority patent/US20200117691A1/en
Priority to PCT/US2019/056111 priority patent/WO2020081449A1/en
Publication of CN111046271A publication Critical patent/CN111046271A/zh
Application granted granted Critical
Publication of CN111046271B publication Critical patent/CN111046271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种用于搜索的挖掘方法、装置、存储介质及电子设备。其中,所述用于搜索的挖掘方法包括:响应于对输入的实体名称的搜索操作,确定与实体名称关联的多个文档;对多个文档执行聚类操作,确定多个文档分别所属的第一事件;对第一事件执行筛选操作,确定与实体名称关联的第二事件。通过本申请实施例,能够挖掘出与实体名称关联的事件,以形成与实体名称关联的结构化知识,从而提高用户的搜索体验。

Description

用于搜索的挖掘方法、装置、存储介质及电子设备
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种用于搜索的挖掘方法、装置、存储介质及电子设备。
背景技术
在搜索引擎中,当用户进行搜索时,如搜索人物、影视音乐等,可称之为实体,用户期望能够看到与这些实体关联的重要发生历史事件及相关介绍,以了解人物或者某部影视音乐作品的来龙去脉。
在目前主流搜索引擎的搜索结果中,可以看到,当搜索如人物、影视音乐等实体时,只能搜索到与这些实体相关的大量文字介绍和相关的网页结果,用户需要自己进行寻找挖掘相关的知识。对于用户来说,消耗了大量的时间,甚至某些情况下,挖掘结果中还没有用户期望的结果,从而大大地降低了用户的搜索体验。例如,当用户搜索“马云”时,按照当前主流搜索引擎的搜索结果,会出现“马云”的百科和相关的其他结果。然而,这些搜索结果对于“马云”的介绍知识是非常零散的,需要用户自己进行寻找挖掘,没有形成结构化的知识,从而使得用户的搜索体验较差。
发明内容
本申请实施例的目的在于提供一种用于搜索的挖掘方法、装置、存储介质及电子设备,以解决现有技术中存在的搜索结果不能形成与实体名称关联的结构化知识造成的用户搜索体验较差的问题。
根据本申请实施例的第一方面,提供了一种用于搜索的挖掘方法。所述方法包括:响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
根据本申请实施例的第二方面,提供了一种用于搜索的挖掘装置。所述装置包括:第一确定模块,用于响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;聚类模块,用于对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;筛选模块,用于对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
根据本申请实施例的第三方面,提供了一种存储介质,所述存储介质上存储有计算机可执行指令,所述计算机可执行指令在被处理器处理时执行如下步骤:响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
根据本申请实施例的第四方面,提供了一种电子设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请实施例第一方面所述的用于搜索的挖掘方法。
通过本申请实施例提供的技术方案,响应于对输入的实体名称的搜索操作,确定与实体名称关联的多个文档;对多个文档执行聚类操作,确定多个文档分别所属的第一事件;对第一事件执行筛选操作,确定与实体名称关联的第二事件,与现有的其它方式相比,能够挖掘出与实体名称关联的事件,以形成与实体名称关联的结构化知识,从而提高用户的搜索体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例一的一种用于搜索的挖掘方法的步骤流程图;
图2是根据本申请实施例二的一种用于搜索的挖掘方法的步骤流程图;
图3是根据本申请实施例二的搜索结果展示界面的示意图;
图4是根据本申请实施例三的一种用于搜索的挖掘装置的结构框图;
图5是根据本申请实施例四的一种用于搜索的挖掘装置的结构框图;
图6是根据本申请实施例五的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
实施例一
参照图1,示出了本申请实施例一的一种用于搜索的挖掘方法的步骤流程图。
本实施例的用于搜索的挖掘方法包括以下步骤:
在步骤S101中,响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档。
在本申请实施例中,所述实体名称包括人物名称、地点名称、机构名称、歌曲名称、电影名称、医药名称、小说名称、文学作品名称等,所述文档可理解为与实体名称关联的动态网页。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,用户在浏览器的对话框中输入需要搜索的实体名称,然后点击相关的搜索按钮,响应于用户对实体名称的搜索操作,搜索引擎确定与实体名称关联的多个文档。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定与所述实体名称关联的多个文档时,基于所述实体名称在文档的标题和正文中出现的次数,对搜索引擎爬取到的文档进行排序,获得所述搜索引擎爬取到的文档的排序结果;基于所述排序结果,确定与所述实体名称关联的多个文档。籍此,能够确定与实体名称关联的多个文档。可以理解的是,任何确定与所述实体名称关联的多个文档的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,在对搜索引擎爬取到的文档进行排序时,基于所述实体名称在文档的标题和正文中出现的次数,确定搜索引擎爬取到的文档的排序分数;基于所述搜索引擎爬取到的文档的排序分数,对搜索引擎爬取到的文档进行排序,获得所述搜索引擎爬取到的文档的排序结果。具体地,可通过以下公式一确定搜索引擎爬取到的文档的排序分数:
W=w1*Sum(t)+w2*Sum(c)    公式一
其中,W表示搜索引擎爬取到的某个文档的排序分数,Sum(t)表示所述实体名称在搜索引擎爬取到的某个文档的标题中出现的次数,Sum(c)表示所述实体名称在搜索引擎爬取到的某个文档的正文中出现的次数,w1和w2分别为人工指定的权重系数。在确定搜索引擎爬取到的文档的排序分数之后,按照搜索引擎爬取到的文档的排序分数的高低,对搜索引擎爬取到的文档进行排序。在确定搜索引擎爬取到的文档的排序结果之后,选取排序在前的N个文档作为与实体名称关联的多个文档。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S102中,对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件。
在一些可选实施例中,在对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件时,针对所述多个文档中的每两个文档,确定两个文档之间的相似度;如果所述两个文档之间的相似度大于预设的相似度阈值,则确定所述两个文档属于同一事件。其中,所述预设的相似度阈值可由本领域技术人员根据经验值进行设定,本申请实施例对此不做任何限定。可以理解的是,任何对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,针对多个文档中的每两个文档,如果两个文档之间的相似度大于预设的相似度阈值,则确定所述两个文档属于同一聚类集合。籍此,多个文档被聚类成多个聚类集合。在此,可将每个聚类集合称为一个事件,属于该事件的文档为与该事件对应的聚类集合中的相似文档。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定两个文档之间的相似度时,确定所述两个文档的正文内容之间的第一相似度、正文所包括的实体名称之间的第二相似度、标题内容之间的第三相似度以及标题所包括的实体名称之间的第四相似度;基于所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度,确定所述两个文档之间的相似度。籍此,可准确地确定两个文档之间的相似度。可以理解的是,任何确定两个文档之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,可通过以下公式二,确定所述两个文档之间的相似度:
S=w1*SC(c)+w2*SC(e)+w3*ST(c)+w4*ST(e)    公式二
其中,S表示所述两个文档之间的相似度,SC(c)表示所述第一相似度,SC(e)表示所述第二相似度,ST(c)表示所述第三相似度,ST(e)表示所述第四相似度,w1、w2、w3、w4分别表示人工指定的权重系数。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定所述两个文档的正文内容之间的第一相似度时,针对所述两个文档中的第一文档,生成所述第一文档的正文内容的字向量和词向量;针对所述两个文档中的第二文档,生成所述第二文档的正文内容的字向量和词向量;确定所述第一文档的正文内容的字向量与所述第二文档的正文内容的字向量之间的第五相似度,以及所述第一文档的正文内容的词向量与所述第二文档的正文内容的词向量之间的第六相似度;基于所述第五相似度和所述第六相似度,确定所述两个文档的正文内容之间的第一相似度。籍此,能够准确地确定两个文档的正文内容之间的相似度。可以理解的是,任何确定两个文档的正文内容之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,所述字向量中的每个维度可使用字标识和字在文档的正文内容中出现的次数进行表征,所述词向量中的每个维度可使用词标识和词在文档的正文内容中出现的次数进行表征,所述第五相似度、所述第六相似度以及所述第一相似度可分别使用余弦相似度进行表征。可选地,可将所述第五相似度与所述第六相似度相加,获得两个文档的正文内容之间的第一相似度。可替换地,可通过求取所述第五相似度与所述第六相似度的平均值,获得两个文档的正文内容之间的第一相似度。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定所述两个文档的正文所包括的实体名称之间的第二相似度时,针对所述两个文档中的第一文档,生成所述第一文档的正文所包括的实体名称的第一向量;针对所述两个文档中的第二文档,生成所述第二文档的正文所包括的实体名称的第二向量;基于所述第一向量和所述第二向量,确定所述两个文档的正文所包括的实体名称之间的第二相似度。籍此,能够准确地确定两个文档的正文所包括的实体名称之间的相似度。可以理解的是,任何确定两个文档的正文所包括的实体名称之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,文档的正文所包括的实体名称的向量中的每个维度可使用实体名称标识和实体名称在文档正文中出现的次数进行表征,所述第二相似度可使用余弦相似度进行表征。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定所述两个文档的标题内容之间的第三相似度时,针对所述两个文档中的第一文档,生成所述第一文档的标题内容的字向量和词向量;针对所述两个文档中的第二文档,生成所述第二文档的标题内容的字向量和词向量;确定所述第一文档的标题内容的字向量与所述第二文档的标题内容的字向量之间的第七相似度,以及所述第一文档的标题内容的词向量与所述第二文档的标题内容的词向量之间的第八相似度;基于所述第七相似度和所述第八相似度,确定所述两个文档的标题内容之间的第三相似度。籍此,能够准确地确定两个文档的标题内容之间的相似度。可以理解的是,任何确定两个文档的标题内容之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,所述字向量中的每个维度可使用字标识和字在文档的标题内容中出现的次数进行表征,所述词向量中的每个维度可使用词标识和词在文档的标题内容中出现的次数进行表征,所述第七相似度、所述第八相似度以及所述第三相似度可分别使用余弦相似度进行表征。可选地,可将所述第七相似度与所述第八相似度相加,获得两个文档的标题内容之间的第三相似度。可替换地,可通过求取所述第七相似度与所述第八相似度的平均值,获得两个文档的标题内容之间的第三相似度。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定所述两个文档的标题所包括的实体名称之间的第四相似度时,针对所述两个文档中的第一文档,生成所述第一文档的标题所包括的实体名称的第三向量;针对所述两个文档中的第二文档,生成所述第二文档的标题所包括的实体名称的第四向量;基于所述第三向量和所述第四向量,确定所述两个文档的标题所包括的实体名称之间的第四相似度。籍此,能够准确地确定两个文档的标题所包括的实体名称之间的相似度。可以理解的是,任何确定两个文档的标题所包括的实体名称之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,文档的标题所包括的实体名称的向量中的每个维度可使用实体名称标识和实体名称在文档标题中出现的次数进行表征,所述第四相似度可使用余弦相似度进行表征。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,可通过搜索引擎中的网络爬虫对爬取到的文档进行解析,可获得文档的标题、正文、标题中的字和词、正文中的字和词、标题所包括的实体名称,以及正文所包括的实体名称。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定两个文档之间的相似度时,确定所述两个文档的正文内容之间的第一相似度以及正文所包括的实体名称之间的第二相似度;基于所述第一相似度以及所述第二相似度,确定所述两个文档之间的相似度。籍此,可准确地确定两个文档之间的相似度。可以理解的是,任何确定两个文档之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一些可选实施例中,在确定两个文档之间的相似度时,确定所述两个文档的标题内容之间的第三相似度以及标题所包括的实体名称之间的第四相似度;基于所述第三相似度以及所述第四相似度,确定所述两个文档之间的相似度。籍此,可准确地确定两个文档之间的相似度。可以理解的是,任何确定两个文档之间的相似度的实施方式均可适用于此,本申请实施例对此不做任何限定。
在步骤S103中,对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
通过本申请实施例提供的技术方案,响应于对输入的实体名称的搜索操作,确定与实体名称关联的多个文档;对多个文档执行聚类操作,确定多个文档分别所属的第一事件;对第一事件执行筛选操作,确定与实体名称关联的第二事件,与现有的其它方式相比,能够挖掘出与实体名称关联的事件,以形成与实体名称关联的结构化知识,从而提高用户的搜索体验。
本实施例的用于搜索的挖掘方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例二
参照图2,示出了本申请实施例二的一种用于搜索的挖掘方法的步骤流程图。
本实施例的用于搜索的挖掘方法包括以下步骤:
在步骤S201中,响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档。
由于该步骤S201与上述步骤S101类似,在此不再赘述。
在步骤S202中,对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件。
由于该步骤S202与上述步骤S102类似,在此不再赘述。
在步骤S203中,基于属于所述第一事件的文档的数量,确定所述第一事件的热度,如果所述第一事件的热度大于预设的热度阈值,则确定所述第一事件为所述第二事件。
在本申请实施例中,可通过以下公式三,确定所述第一事件的热度:
H=Count(e)     公式三
其中,H表示所述第一事件的热度,e表示属于所述第一事件的文档,Count(e)表示属于所述第一事件的文档的数量。此外,所述预设的热度阈值可由本领域技术人员根据经验值进行设定,本申请实施例对此不做任何限定。
在一个具体的例子中,如果所述多个文档分别所属的第一事件的热度小于或等于预设的热度阈值,则确定第一事件不为与实体名称关联的第二事件。如果所述多个文档分别所属的第一事件的热度大于预设的热度阈值,则确定第一事件为与实体名称关联的第二事件。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:基于所述实体名称在文档的标题和正文中出现的次数,确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档;确定与所述实体名称的相关性最大的文档为所述第二事件的代表文档。籍此,方便用户及时地了解第二事件的内容。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,在确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档时,统计所述实体名称在属于所述第二事件的每个文档的标题和正文中出现的次数;确定实体名称在标题中出现的次数与实体名称在正文中出现的次数的和为最大的文档为与所述实体名称的相关性最大的文档。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:确定所述代表文档的发布时间为所述第二事件的发生时间;基于所述第二事件的发生时间,确定所述第二事件的展示顺序。籍此,不仅能够准确地确定事件的发生时间,而且还能够准确地确定事件的展示顺序。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:基于所述第二事件的热度,确定所述第二事件的展示顺序。籍此,能够准确地确定事件的展示顺序。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,当用户使用实体名称在搜索引擎中进行搜索时,搜索引擎根据本申请实施例提供的用于搜索的挖掘方法,确定与实体名称关联的事件的集合,并展示与实体名称关联的事件的集合,以供用户查询交互。此外,还在属于事件的文档中选择与实体名称关联性最大的文档作为事件的代表文档,并展示代表文档,以供用户查询交互。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
图3是根据本申请实施例二的搜索结果展示界面的示意图。如图3所示,当用户搜索“马云”时,按照本申请的技术方案从文档中选出具有代表性的事件的集合,事件按照发生时间的先后顺序进行排序,并展示,以供用户进行查询交互。
实施例三
参照图4,示出了根据本申请实施例三的一种用于搜索的挖掘装置的结构框图。
本实施例的用于搜索的挖掘装置包括:第一确定模块301,用于响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;聚类模块302,用于对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;筛选模块303,用于对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
本实施例的用于搜索的挖掘装置用于实现前述多个方法实施例中相应的用于搜索的挖掘方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例四
参照图5,示出了根据本申请实施例四的一种用于搜索的挖掘装置的结构框图。
本实施例的用于搜索的挖掘装置包括:第一确定模块401,用于响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;聚类模块402,用于对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;筛选模块403,用于对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
可选地,所述第一确定模块401,具体用于:基于所述实体名称在文档的标题和正文中出现的次数,对搜索引擎爬取到的文档进行排序,获得所述搜索引擎爬取到的文档的排序结果;基于所述排序结果,确定与所述实体名称关联的多个文档。
可选地,所述聚类模块402,包括:第二确定模块4021,用于针对所述多个文档中的每两个文档,确定两个文档之间的相似度;第三确定模块4024,用于如果所述两个文档之间的相似度大于预设的相似度阈值,则确定所述两个文档属于同一事件。
可选地,所述第二确定模块4021,包括:第四确定模块4022,用于确定所述两个文档的正文内容之间的第一相似度、正文所包括的实体名称之间的第二相似度、标题内容之间的第三相似度以及标题所包括的实体名称之间的第四相似度;第五确定模块4023,用于基于所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度,确定所述两个文档之间的相似度。
可选地,所述第四确定模块4022,具体用于:针对所述两个文档中的第一文档,生成所述第一文档的正文内容的字向量和词向量;针对所述两个文档中的第二文档,生成所述第二文档的正文内容的字向量和词向量;确定所述第一文档的正文内容的字向量与所述第二文档的正文内容的字向量之间的第五相似度,以及所述第一文档的正文内容的词向量与所述第二文档的正文内容的词向量之间的第六相似度;基于所述第五相似度和所述第六相似度,确定所述两个文档的正文内容之间的第一相似度。
可选地,所述第四确定模块4022,具体用于:针对所述两个文档中的第一文档,生成所述第一文档的正文所包括的实体名称的第一向量;针对所述两个文档中的第二文档,生成所述第二文档的正文所包括的实体名称的第二向量;基于所述第一向量和所述第二向量,确定所述两个文档的正文所包括的实体名称之间的第二相似度。
可选地,所述第四确定模块4022,具体用于:针对所述两个文档中的第一文档,生成所述第一文档的标题内容的字向量和词向量;针对所述两个文档中的第二文档,生成所述第二文档的标题内容的字向量和词向量;确定所述第一文档的标题内容的字向量与所述第二文档的标题内容的字向量之间的第七相似度,以及所述第一文档的标题内容的词向量与所述第二文档的标题内容的词向量之间的第八相似度;基于所述第七相似度和所述第八相似度,确定所述两个文档的标题内容之间的第三相似度。
可选地,所述第四确定模块4022,具体用于:针对所述两个文档中的第一文档,生成所述第一文档的标题所包括的实体名称的第三向量;针对所述两个文档中的第二文档,生成所述第二文档的标题所包括的实体名称的第四向量;基于所述第三向量和所述第四向量,确定所述两个文档的标题所包括的实体名称之间的第四相似度。
可选地,所述筛选模块403,具体用于:基于属于所述第一事件的文档的数量,确定所述第一事件的热度;如果所述第一事件的热度大于预设的热度阈值,则确定所述第一事件为所述第二事件。
可选地,所述装置还包括:第六确定模块404,用于基于所述实体名称在文档的标题和正文中出现的次数,确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档,并确定与所述实体名称的相关性最大的文档为所述第二事件的代表文档。
可选地,所述装置还包括:第七确定模块405,用于确定所述代表文档的发布时间为所述第二事件的发生时间,并基于所述第二事件的发生时间,确定所述第二事件的展示顺序。
本实施例的用于搜索的挖掘装置用于实现前述多个方法实施例中相应的用于搜索的挖掘方法,并具有相应的方法实施例的有益效果,在此不再赘述。
本申请另一实施例还提供一种存储介质,其上存储有计算机可执行指令,所述计算机可执行指令在被处理器处理时执行如下步骤:响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;对所述第一事件执行筛选操作,确定与所述实体名称关联的第二事件。
本申请另一实施例还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的用于搜索的挖掘方法。
实施例五
图6是根据本申请实施例五的一种电子设备的结构示意图。如图6所示,该设备包括:一个或多个处理器81以及存储器82,图6中以一个处理器81为例。执行上述方法的设备还可以包括:输入装置83和输出装置84。处理器81、存储器82、输入装置83和输出装置84可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器82作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的上述方法对应的程序指令/模块。处理器81通过运行存储在存储器82中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中上述方法。
存储器82可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储与实体名称关联的事件等。此外,存储器82可以包括高速随机存取存储器82,还可以包括非易失性存储器82,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器82可选包括相对于处理器81远程设置的存储器82,这些远程存储器82可以通过网络连接至客户端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置83可接收输入的数字或字符信息,以及产生与客户端的用户设置以及功能控制有关的键信号输入。输入装置83可包括按压模组等设备。
所述一个或者多个模块存储在所述存储器82中,当被所述一个或者多个处理器81执行时,执行上述任意方法实施例中的上述方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器71、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如,机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)等,该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本领域的技术人员应明白,本申请实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本申请实施例的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (18)

1.一种用于搜索的挖掘方法,其特征在于,所述方法包括:
响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;
对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;
基于属于所述第一事件的文档的数量,确定所述第一事件的热度;如果所述第一事件的热度大于预设的热度阈值,则确定所述第一事件为第二事件;
基于所述实体名称在文档的标题和正文中出现的次数,确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档;确定与所述实体名称的相关性最大的文档为所述第二事件的代表文档;
确定所述代表文档的发布时间为所述第二事件的发生时间;基于所述第二事件的发生时间,确定所述第二事件的展示顺序。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述实体名称关联的多个文档,包括:
基于所述实体名称在文档的标题和正文中出现的次数,对搜索引擎爬取到的文档进行排序,获得所述搜索引擎爬取到的文档的排序结果;
基于所述排序结果,确定与所述实体名称关联的多个文档。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件,包括:
针对所述多个文档中的每两个文档,确定两个文档之间的相似度;
如果所述两个文档之间的相似度大于预设的相似度阈值,则确定所述两个文档属于同一事件。
4.根据权利要求3所述的方法,其特征在于,所述确定两个文档之间的相似度,包括:
确定所述两个文档的正文内容之间的第一相似度、正文所包括的实体名称之间的第二相似度、标题内容之间的第三相似度以及标题所包括的实体名称之间的第四相似度;
基于所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度,确定所述两个文档之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的正文内容之间的第一相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的正文内容的字向量和词向量;
针对所述两个文档中的第二文档,生成所述第二文档的正文内容的字向量和词向量;
确定所述第一文档的正文内容的字向量与所述第二文档的正文内容的字向量之间的第五相似度,以及所述第一文档的正文内容的词向量与所述第二文档的正文内容的词向量之间的第六相似度;
基于所述第五相似度和所述第六相似度,确定所述两个文档的正文内容之间的第一相似度。
6.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的正文所包括的实体名称之间的第二相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的正文所包括的实体名称的第一向量;
针对所述两个文档中的第二文档,生成所述第二文档的正文所包括的实体名称的第二向量;
基于所述第一向量和所述第二向量,确定所述两个文档的正文所包括的实体名称之间的第二相似度。
7.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的标题内容之间的第三相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的标题内容的字向量和词向量;
针对所述两个文档中的第二文档,生成所述第二文档的标题内容的字向量和词向量;
确定所述第一文档的标题内容的字向量与所述第二文档的标题内容的字向量之间的第七相似度,以及所述第一文档的标题内容的词向量与所述第二文档的标题内容的词向量之间的第八相似度;
基于所述第七相似度和所述第八相似度,确定所述两个文档的标题内容之间的第三相似度。
8.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的标题所包括的实体名称之间的第四相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的标题所包括的实体名称的第三向量;
针对所述两个文档中的第二文档,生成所述第二文档的标题所包括的实体名称的第四向量;
基于所述第三向量和所述第四向量,确定所述两个文档的标题所包括的实体名称之间的第四相似度。
9.一种用于搜索的挖掘装置,其特征在于,所述装置包括:
第一确定模块,用于响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;
聚类模块,用于对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;
筛选模块,用于基于属于所述第一事件的文档的数量,确定所述第一事件的热度;如果所述第一事件的热度大于预设的热度阈值,则确定所述第一事件为第二事件;
第六确定模块,用于基于所述实体名称在文档的标题和正文中出现的次数,确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档,并确定与所述实体名称的相关性最大的文档为所述第二事件的代表文档;
第七确定模块,用于确定所述代表文档的发布时间为所述第二事件的发生时间,并基于所述第二事件的发生时间,确定所述第二事件的展示顺序。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于:
基于所述实体名称在文档的标题和正文中出现的次数,对搜索引擎爬取到的文档进行排序,获得所述搜索引擎爬取到的文档的排序结果;
基于所述排序结果,确定与所述实体名称关联的多个文档。
11.根据权利要求9所述的装置,其特征在于,所述聚类模块,包括:
第二确定模块,用于针对所述多个文档中的每两个文档,确定两个文档之间的相似度;
第三确定模块,用于如果所述两个文档之间的相似度大于预设的相似度阈值,则确定所述两个文档属于同一事件。
12.根据权利要求11所述的装置,其特征在于,所述第二确定模块,包括:
第四确定模块,用于确定所述两个文档的正文内容之间的第一相似度、正文所包括的实体名称之间的第二相似度、标题内容之间的第三相似度以及标题所包括的实体名称之间的第四相似度;
第五确定模块,用于基于所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度,确定所述两个文档之间的相似度。
13.根据权利要求12所述的装置,其特征在于,所述第四确定模块,具体用于:
针对所述两个文档中的第一文档,生成所述第一文档的正文内容的字向量和词向量;
针对所述两个文档中的第二文档,生成所述第二文档的正文内容的字向量和词向量;
确定所述第一文档的正文内容的字向量与所述第二文档的正文内容的字向量之间的第五相似度,以及所述第一文档的正文内容的词向量与所述第二文档的正文内容的词向量之间的第六相似度;
基于所述第五相似度和所述第六相似度,确定所述两个文档的正文内容之间的第一相似度。
14.根据权利要求12所述的装置,其特征在于,所述第四确定模块,具体用于:
针对所述两个文档中的第一文档,生成所述第一文档的正文所包括的实体名称的第一向量;
针对所述两个文档中的第二文档,生成所述第二文档的正文所包括的实体名称的第二向量;
基于所述第一向量和所述第二向量,确定所述两个文档的正文所包括的实体名称之间的第二相似度。
15.根据权利要求12所述的装置,其特征在于,所述第四确定模块,具体用于:
针对所述两个文档中的第一文档,生成所述第一文档的标题内容的字向量和词向量;
针对所述两个文档中的第二文档,生成所述第二文档的标题内容的字向量和词向量;
确定所述第一文档的标题内容的字向量与所述第二文档的标题内容的字向量之间的第七相似度,以及所述第一文档的标题内容的词向量与所述第二文档的标题内容的词向量之间的第八相似度;
基于所述第七相似度和所述第八相似度,确定所述两个文档的标题内容之间的第三相似度。
16.根据权利要求12所述的装置,其特征在于,所述第四确定模块,具体用于:
针对所述两个文档中的第一文档,生成所述第一文档的标题所包括的实体名称的第三向量;
针对所述两个文档中的第二文档,生成所述第二文档的标题所包括的实体名称的第四向量;
基于所述第三向量和所述第四向量,确定所述两个文档的标题所包括的实体名称之间的第四相似度。
17.一种存储介质,其特征在于,其上存储有计算机可执行指令,所述计算机可执行指令在被处理器处理时执行如下步骤:
响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;
对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;
基于属于所述第一事件的文档的数量,确定所述第一事件的热度;如果所述第一事件的热度大于预设的热度阈值,则确定所述第一事件为第二事件;
基于所述实体名称在文档的标题和正文中出现的次数,确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档;确定与所述实体名称的相关性最大的文档为所述第二事件的代表文档;
确定所述代表文档的发布时间为所述第二事件的发生时间;基于所述第二事件的发生时间,确定所述第二事件的展示顺序。
18.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任意一项权利要求所述的用于搜索的挖掘方法。
CN201811194956.4A 2018-10-15 2018-10-15 用于搜索的挖掘方法、装置、存储介质及电子设备 Active CN111046271B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201811194956.4A CN111046271B (zh) 2018-10-15 2018-10-15 用于搜索的挖掘方法、装置、存储介质及电子设备
TW108128882A TW202016762A (zh) 2018-10-15 2019-08-14 用於搜索的挖掘方法、裝置、儲存媒體及電子設備
US16/601,103 US20200117691A1 (en) 2018-10-15 2019-10-14 Search mining method, apparatus, storage medium, and electronic device
PCT/US2019/056111 WO2020081449A1 (en) 2018-10-15 2019-10-14 Search mining method, apparatus, storage medium, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811194956.4A CN111046271B (zh) 2018-10-15 2018-10-15 用于搜索的挖掘方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111046271A CN111046271A (zh) 2020-04-21
CN111046271B true CN111046271B (zh) 2023-04-25

Family

ID=70162325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811194956.4A Active CN111046271B (zh) 2018-10-15 2018-10-15 用于搜索的挖掘方法、装置、存储介质及电子设备

Country Status (4)

Country Link
US (1) US20200117691A1 (zh)
CN (1) CN111046271B (zh)
TW (1) TW202016762A (zh)
WO (1) WO2020081449A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069405A (zh) * 2020-08-31 2020-12-11 北京搜狗科技发展有限公司 周期性事件的处理方法和装置
CN114398534B (zh) * 2021-01-05 2023-09-12 上海邮电设计咨询研究院有限公司 事件聚类文本检索系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462282A (zh) * 2014-11-26 2015-03-25 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN104598617A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN107480127A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 舆情分析方法及装置
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763362B2 (en) * 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
US7010526B2 (en) * 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US7962466B2 (en) * 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
US8150822B2 (en) * 2007-01-09 2012-04-03 Favoweb Ltd. On-line iterative multistage search engine with text categorization and supervised learning
US9152692B2 (en) * 2012-06-28 2015-10-06 Google Inc. Generating n-gram clusters associated with events
US9639818B2 (en) * 2013-08-30 2017-05-02 Sap Se Creation of event types for news mining for enterprise resource planning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462282A (zh) * 2014-11-26 2015-03-25 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN104598617A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN107480127A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 舆情分析方法及装置
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质

Also Published As

Publication number Publication date
US20200117691A1 (en) 2020-04-16
WO2020081449A1 (en) 2020-04-23
CN111046271A (zh) 2020-04-21
TW202016762A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
US10210243B2 (en) Method and system for enhanced query term suggestion
CN108804532B (zh) 一种查询意图的挖掘和查询意图的识别方法、装置
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN107683471B (zh) 索引具有深度链接的网页
US11580168B2 (en) Method and system for providing context based query suggestions
US8700594B2 (en) Enabling multidimensional search on non-PC devices
US10621189B2 (en) In-application history search
WO2014152989A2 (en) Social entity previews in query formulation
CN107491465B (zh) 用于搜索内容的方法和装置以及数据处理系统
US10289642B2 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
CN112632285A (zh) 一种文本聚类方法、装置、电子设备及存储介质
CN111046271B (zh) 用于搜索的挖掘方法、装置、存储介质及电子设备
US9514198B1 (en) Suggesting a tag to promote a discussion topic
CN109190116B (zh) 语义解析方法、系统、电子设备及存储介质
WO2020117694A1 (en) New media information displaying method, device, electronic device, and computer readable medium
CN114064929A (zh) 搜索排序方法及装置
US20140059070A1 (en) Non-transitory computer readable medium, information search apparatus, and information search method
US11003672B2 (en) Re-ranking search results using blended learning models
CN108133168B (zh) 一种文本识别中的公式搜索方法及其装置
US10592572B2 (en) Application view index and search
US20230066149A1 (en) Method and system for data mining
KR102227741B1 (ko) 타이틀 매칭 점수를 기반으로 한 장소 검색 방법 및 시스템
KR102206289B1 (ko) 장소 검색 커버리지를 통합하는 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant