CN110245357B - 主实体识别方法和装置 - Google Patents

主实体识别方法和装置 Download PDF

Info

Publication number
CN110245357B
CN110245357B CN201910561161.0A CN201910561161A CN110245357B CN 110245357 B CN110245357 B CN 110245357B CN 201910561161 A CN201910561161 A CN 201910561161A CN 110245357 B CN110245357 B CN 110245357B
Authority
CN
China
Prior art keywords
search
history
occurrence
entity
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910561161.0A
Other languages
English (en)
Other versions
CN110245357A (zh
Inventor
朱嘉琪
许超
尤冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910561161.0A priority Critical patent/CN110245357B/zh
Publication of CN110245357A publication Critical patent/CN110245357A/zh
Application granted granted Critical
Publication of CN110245357B publication Critical patent/CN110245357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请实施例公开了主实体识别方法和装置。该方法的一具体实施方式包括:从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;基于搜索时间和搜索用户,确定该目标搜索语句的共现搜索语句,其中,该共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;基于该共现搜索语句对应的历史展现结果,确定该目标搜索语句的主实体;根据该目标搜索语句的主实体,确定该目标短文本的目标主实体。该实施方式提供了新的主实体识别方式。

Description

主实体识别方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及实体识别方法和装置。
背景技术
文本可以是对陈述对象的描述,或对陈述对象的相关属性、实物的问询。单纯的文本,需要通过知识抽取的环节,识别出文本中的陈述对象(关键知识),存储到计算机中的特定的数据结构中,才能够被程序所使用,进而被计算机所理解。
短文本通常是指长度比较短、一般不超过160(具体数字可以在在实际情况中灵活调整)个字符的文本形式,如社交发布信息、搜索查询语句、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。
相对于长文本,短文本通常内容较短,只包含几个到十几个有实际意义的词语,难以抽取有效的特征词;短文本表述简洁,简称、不规范用语以及网络流行用语被广泛使用,使文本噪音较大。由于短文本与长文本的不同的特点,因此,短文本的主实体识别方式,与长文本的主体识别方式,可能不同。
发明内容
本申请实施例提出了主实体识别方法和装置。
第一方面,本申请实施例提供了一种主实体识别方法,该方法包括:从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;基于搜索时间和搜索用户,确定上述目标搜索语句的共现搜索语句,其中,上述共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;基于上述共现搜索语句对应的历史展现结果,确定上述目标搜索语句的主实体;根据上述目标搜索语句的主实体,确定上述目标短文本的目标主实体。
第二方面,本申请实施例提供了一种主实体识别装置,该装置包括:目标搜索语句确定单元,被配置成从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;共现搜索语句确定单元,被配置成基于搜索时间和搜索用户,确定上述目标搜索语句的共现搜索语句,其中,上述共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;第一主实体确定单元,被配置成基于上述共现搜索语句对应的历史展现结果,确定上述目标搜索语句的主实体;第二主实体确定单元,被配置成根据上述目标搜索语句的主实体,确定上述目标短文本的目标主实体。
第三方面,本申请实施例提供了一种主实体识别电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述主实体识别方法中任一实施例的方法。
第四方面,本申请实施例提供了一种主实体识别计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述主实体识别方法中任一实施例的方法。
本申请实施例提供的主实体识别方法和装置,通过首先从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句;然后,确定目标搜索语句的共现搜索语句;再基于共现搜索语句的历史展现结果,确定上述目标搜索语句的主实体;最后,根据目标搜索语句的主实体,确定目标短文本的目标主实体,技术效果至少可以包括:提供了新的识别主实体的方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的主实体识别方法的一个实施例的流程图;
图3是根据本申请的主实体识别方法的一个应用场景的示意图;
图4是根据本申请的步骤203的一种实现方式的示意图;
图5是根据本申请的步骤2031的一种实现方式的示意图;
图6是根据本申请的一个示例的示意图;
图7是根据本申请的一个示例性展现情况信息的示意图;
图8是根据本申请的另一个示例性展现情况信息的示意图;
图9是根据本申请的主实体识别装置的一个实施例的结构示意图;
图10是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的主实体识别方法或主实体识别装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104可以是用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如搜索类应用、购物类应用、图像处理类应用、即时通信工具等。
终端设备101、102、103可以是硬件,可以是具有显示屏的电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的搜索类应用提供支持的后台服务器。后台服务器可以对接收到的查询语句等数据进行分析等处理,然后确定查询结构,再将查询语句对应的查询结果返回给终端设备。
需要说明的是,本申请实施例所提供的主实体识别方法可以由服务器105执行,相应地,主实体识别装置可以设置于服务器105。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当主实体识别方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括主实体识别方法运行于其上的电子设备。
继续参考图2,其示出了根据本申请的主实体识别方法的一个实施例的流程200。该主实体识别方法,包括以下步骤:
步骤201,从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句。
在本实施例中,主实体识别方法的执行主体(例如图1所示的服务器)可以从历史搜索语句记录中,确定与目标端文本匹配的历史搜索语句为目标搜索语句。
在这里,上述历史搜索语句记录中的历史搜索语句与历史展现结果对应。历史搜索语句记录,可以用于记录历史搜索语句。历史搜索语句可以是用户输入的搜索语句(query)。历史展现结果,可以记录用户输入历史搜索语句之后,给用户返回的展现结果。历史展现结果,可以包括一个或者多个历史搜索结果。如果历史搜索结果较多,可以对历史搜索结果分页展示。
在这里,上述历史搜索语句记录中的历史搜索语句,与搜索时间和搜索用户相关联。搜索时间可以是用户利用历史搜索语句进行搜索的时间,搜索用户可以是输入搜索语句的用户。
在本实施例中,目标短文本可以的来源不做限定,用途不做限定。目标短文本可以是搜索引擎接收的搜索用语句,也可以是用于意图识别的文本。
在本实施例中,与目标短文本匹配的历史搜索语句,可以是与目标短文本一致的历史搜索语句,也可以是与上述目标短文本的相似度大于预设相似度阈值的历史搜索语句。在这里,上述相似度的计算方式,可以根据实际情况具体设置,在此不做限定。
可选的,目标搜索语句,可以是一个,也可以是多个。
步骤202,基于搜索时间和搜索用户,确定目标搜索语句的共现搜索语句。
在本实施例中,上述执行主体可以基于搜索时间和搜索用户,确定上述目标搜索语句的共现搜索语句。
在这里,上述搜索语句与目标搜索语句由同一用户在预设时间间隔内输入。
在一些实施例中,上述步骤202,可以包括:从上述历史搜索语句记录中,查找上述目标搜索语句的搜索用户所发出的、与上述目标搜索语句的搜索时间在预设时间间隔内的历史搜索语句;对查找出的历史搜索语句去重,以及将去重后的结果确定为上述目标搜索语句的共现搜索语句。
在一些实施例中,可以预先建立历史共现语句数据库,历史共现语句数据库包括多个历史共现语句组。各个历史共现语句组中的历史共现语句,由同一用户在预设时间间隔内输入。上述步骤202,可以包括:在历史共现语句数据库中,查找包括上述目标搜索语句的历史共现语句组,将查找出的历史共现语句组中的其它历史共现语句,确定为上述目标搜索语句的共现搜索语句;对查找出的历史搜索语句去重,以及将去重后的结果确定为上述目标搜索语句的共现搜索语句。
需要说明的是,预先建立历史共现语句数据库,可以提高确定共现搜索语句的速度。
步骤203,基于共现搜索语句对应的历史展现结果,确定目标搜索语句的主实体。
在本实施例中,上述执行主体可以基于上述共现搜索语句对应的历史展示结果,确定上述目标搜索语句的主实体。
可选的,可以对共现搜索语句对应的历史展示结果中的历史搜索结果,进行语义解析,确定历史搜索结果对应的关键词。统计所确定的一个或多个关键词中的各个关键词,对应的历史搜索结果在历史展示结果中出现次数;将出现次数最高的关键词,确定为目标搜索语句的主实体。
步骤204,根据目标搜索语句的主实体,确定目标短文本的目标主实体。
在本实施例中,上述执行主体可以根据上述目标搜索语句的主实体,确定上述目标短文本的目标主实体。
可选的,如果目标搜索语句的数量为一个,可以将目标搜索语句的主实体,确定为目标短文本的主实体。
可选的,如果目标搜索语句的数量为至少两个,可以从各个目标搜索语句的主实体中,按照预设规则,选取出主实体作为目标短文本的主实体。
文本的陈述对象,即文本的主实体。由于实体存在同名的情况,例如“太平鸟”可能是一种鸟类,也可能是一个服装品牌,因此仅仅字符串层面的实体识别是不够的,还需要通过实体消歧将实体名称挂接到知识库中,获得唯一的id标识,这个过程叫做实体链指。
可选的,识别出文本的主实体,可以包括:识别确定文本的陈述对象,以及对陈述对象进行主实体链指。
可选的,识别出文本的主实体,可以包括:识别确定文本的陈述对象。
继续参见图3,图3是根据本实施例的主实体识别方法的一个应用场景的示意图。如图3所示:
首先,服务器可以获取目标短文本301。
然后,服务器可以从历史搜索语句记录302中,确定与目标短文本301匹配的历史搜索语句为目标搜索语句303。作为示例,历史搜索语句记录可以包括历史搜索语句3021和历史搜索语句3022。再后,服务器基于搜索时间和搜索用户,确定目标搜索语句303的共现搜索语句304和共现搜索语句305。
再后,服务器可以基于共现搜索语句304对应的历史展现结果305,确定目标搜索语句303的主实体306。
最后,服务器可以根据目标搜索语句303的主实体,确定目标短文本301的目标主实体307。
本实施例示出的方法,通过首先从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句;然后,确定目标搜索语句的共现搜索语句;再基于共现搜索语句的历史展现结果,确定上述目标搜索语句的主实体;最后,根据目标搜索语句的主实体,确定目标短文本的目标主实体,技术效果至少可以包括:
第一,提供了新的识别主实体的方式。
第二,适用于各种短文本的主实体识别,解决了短文本信息量少的局限性。将目标短文本的主实体识别,转换为目标搜索语句的主实体识别。由此,可以对于各种短文本,实现主实体识别。并且,可以弥补单个短文本的语义不足,避免语义难以提取的问题。
第三,提高了主实体识别的准确度。
首先,本申请利用了用户的行为信息的规律性,即同一用户预设时间间隔内输入的搜索语句具有语义关联性。以用户的行为信息作为强特征,确定共现搜索语句。以共现搜索语句的搜索结果作为辅助识别目标搜索语句的主实体,可以避免使用单个短文本的解析结果作为主实体所导致的准确性问题。
其次,本申请使用了非语义匹配的、与传统方法完全不相同的主实体识别方式。间接利用了用户与搜索引擎长期交互的信息。由于搜索引擎的点击调整策略,搜索展示页面的历史展现结果准确率较高。对历史展现结果中历史搜索结果进行分析,可以直接将大量语义完全不相符的同名实体排除在候选的主实体之外,减小了消除歧义实体的范围,提高识别准确度。点击调整策略可以理解为,用户点击多的搜索结果通常会在展现页面的第一页前几条,通常更符合用户的意图。而不符合用户的意图的搜索结果会在历史点击信息的作用下,被调整到越来越靠后,甚至不出现在搜索结果首页;这种点击调整的蹭了是通过用户的行为反馈的,而不仅仅是算法策略结果,因此点击调整策略的可靠性是可以保证的。
第四,开发本申请的主实体识别方法的人工和时间消耗,相比于标注和训练方法,显著减少。
在一些实现方式中,上述步骤203,可以包括:根据共现搜索语句对应的历史展现结果,生成候选实体集合;根据共现搜索语句对应的历史展现结果,生成上述候选实体集合中的候选实体的展现统计信息,其中,上述展现统计信息用于指示候选实体集合中的候选实体的历史展现情况;根据上述候选实体集合中的候选实体的展现统计信息,对上述候选实体集合中的候选实体进行排序和/或分类,生成排序结果和/或分类结果;根据上述排序结果和/或分类结果,确定上述目标搜索语句的主实体。
在一些实现方式中,上述步骤203,可以通过图4所示的流程203实现:
步骤2031,将目标搜索语句与共现搜索语句确定为历史共现语句集合,以及根据历史共现语句对应的历史展现结果,生成候选实体集合。
步骤2032,根据历史共现语句对应的历史展现结果,生成候选实体集合中的候选实体的展现统计信息。
在这里,上述展现统计信息用于指示候选实体集合中的候选实体的历史展现情况。
步骤2033,根据候选实体集合中的候选实体的展现统计信息,对候选实体集合中的候选实体进行排序/或分类,生成排序结果和/或分类结果。
步骤2034,根据排序结果和/或分类结果,确定目标搜索语句的主实体。
在一些实施例中,步骤2031,可以通过图5所示流程2031实现,流程2031可以包括:
步骤20311,解析历史共现语句对应的历史展现结果中的统一资源定位符,确定所解析的统一资源定位符是否指示预设知识库中的实体标识。
在这里,历史展现结果包括历史搜索结果以及对应的统一资源定位符。
请参考图6,在这里,以“龙舌兰的寓意”作为目标搜索语句为例,进行示例性说明。
“龙舌兰的寓意”的共现搜索语句可以为“龙舌兰”“龙舌兰花”“龙舌兰酒”“龙舌兰适合室内养吗”。在历史搜索语句记录中,“龙舌兰”与“龙舌兰的寓意”的共现次数为36次;“龙舌兰花”与“龙舌兰的寓意”的共现次数为8次;“龙舌兰酒”与“龙舌兰的寓意”的共现次数为4次;“龙舌兰适宜室内养吗”与“龙舌兰的寓意”的共现次数为2次。
步骤20312,响应于所解析的统一资源定位符指示预设知识库中的实体标识,获取所指示的实体标识。
请参考图6,共现搜索语句“龙舌兰”对应的历史展现结果中,解析出实体标识“1039龙舌兰”和“10391龙舌兰酒”。共现搜索语句“龙舌兰花”对应的历史展现结果中,解析出实体标识“1039龙舌兰”和“10392龙舌兰花”。共现搜索语句“龙舌兰酒”对应的历史展现结果中,解析出实体标识“10391龙舌兰酒”。共现搜索语句“龙舌兰适宜室内养吗”对应的历史展现结果中,没有解析出实体标识。目标搜索语句对应的历史展现结果中,解析出实体标识“1039龙舌兰”和实体标识“10393龙舌兰属”。
步骤20313,利用所获取的实体标识,生成候选实体集合。
在这里,可以将所获取的实体标识指示的实体,作为集合元素,生成上述候选实体集合。
需要说明的是,上述采用解析统一资源标识符是否指向预设知识库的实体标识的方式,避免了使用知识库内容与搜索语句进行匹配来。本申请提供的方式不需要提取知识库中与搜索语句相关的部分,从而减少了语义匹配或者主题模型的模型设计所导致的资源损耗。
需要说明的是,利用图5提供的方式,可以实体链指的方式,将实体名称与知识库中的实体标识唯一对应。实现对相同实体名称消除歧义,得到唯一对应的实体标识。
请参考图6,候选实体集合可以包括:“龙舌兰(1039)”“龙舌兰花(10391)”“龙舌兰酒(10392)”“龙舌兰属(10393)”。
在一些实施例中,上述步骤2032,可以包括:对于上述候选实体集合中的候选实体,将历史展示结果中包括该候选实体对应的历史搜索结果的历史共现语句,确定为可跳转至该候选实体的历史共现语句,将上述历史共现语句集合中的、可跳转至该候选实体的历史共现语句的数量,确定为该候选实体对应的第一数量;将上述历史共现语句集合的共现历史语句的总数量,确定该候选实体对应的第二数量;根据上述第一数量和上述第二数量,确定该候选实体对应的对应归一化共现语句数量。
请参考图6,目标搜索语句“龙舌兰的寓意”与它的四个共现搜索语句,可以组成历史共现语句集合。历史共现语句集合中,有三个历史共现语句可以解析出候选实体“龙舌兰(1039)”,这三个历史共现语句分别为“龙舌兰的寓意”“龙舌兰”“龙舌兰花”,则候选实体“龙舌兰(1039)”对应的第一数量为3。历史共现语句集合中的共现历史语句的总数量为5,则候选实体“龙舌兰(1039)”对应的第二数量为5。将第一数量3与第二数量5的比值,确定为候选实体“1039龙舌兰”对应的对应归一化共现语句数量0.6。
在一些实施例中,上述步骤2032,可以包括:对于所述候选实体集合中的每个候选实体,将目标共现语句与目标搜索语句的共现次数,确定为该候选实体的第三数量,其中,目标共现语句对应的历史展现结果包括该候选实体对应的历史搜索结果;将共现搜索语句与目标搜索语句共现的总数量,确定为该候选实体对应的第四数量;根据上述第三数量和上述第四数量,确定该候选实体对应归一化的展现频次。
请参考图6,候选实体“龙舌兰(1039)”对应的三个历史共现语句中,一个是目标搜索语句“龙舌兰的寓意”,另外两个为共现搜索语句“龙舌兰”和“龙舌兰花”;其中,共现搜索语句“龙舌兰”与“龙舌兰的寓意”的共现次数为36次;“龙舌兰花”与“龙舌兰的寓意”的共现次数为8次。候选实体“1039龙舌兰”对应的第三数量为36+8=44次。第四数量为36+8+4+2=50次。可以将第三数量44与第四数量50的比值,作为候选实体“龙舌兰(1039)”对应的归一化的展现频次,为0.88。
在一些实施例中,上述步骤2032,可以包括:对于上述候选实体集合中的候选实体,根据上述候选实体对应的历史搜索结果对应的展现位置信息,确定该候选实体对应的展示位置信息。
可选的,展示位置信息可以指示历史搜索结果在展示也的第几条。第一条可以为1,在第二条可以为2,假如页面最多有10条结果,位置特征值(一种展现位置信息)最大可以为10。
作为示例,候选实体“龙舌兰(1039)”,对应的三个历史共现语句“龙舌兰的寓意”“龙舌兰”和“龙舌兰花”;在历史共现语句“龙舌兰花的寓意”的历史展示结果中,候选实体“龙舌兰(1039)”对应的搜索结果排在第一条,位置特征值为1。在历史共现语句“龙舌兰”的历史展示结果中,候选实体“龙舌兰(1039)”对应的搜索结果排在第二条,位置特征值为2。在历史共现语句“龙舌兰花”的历史展示结果中,候选实体“龙舌兰(1039)”对应的搜索结果排在第一条,位置特征值为1。
在一些实施例中,上述步骤2032,可以包括:对于上述候选实体集合中的候选实体,确定该候选实体对应的搜索结果是否在上述目标搜索语句的历史展现结果和/当前展现结果中;如果是,生成该候选实体对应的第一指示信息。
在这里,当前展示结果可以是,在步骤2032执行的时刻,将目标搜索语句输入到预设的搜索引擎,该搜索引擎给出的展现结果。
作为示例,候选实体“龙舌兰(1039)”对应的搜索结果在目标搜索语句的历史展现结果中,候选实体“龙舌兰(1039)”对应的第一指示信息可以为1。
在一些实施例中,上述步骤2032,可以包括:对于上述候选实体集合中的候选实体,确定该候选实体是否与上述目标搜索语句一致;如果是,生成该候选实体的第二指示信息。
在这里,候选实体“龙舌兰(1039)”与目标搜索语句“龙舌兰的寓意”不一致,因此,候选实体“龙舌兰(1039)”对应的第二指示信息可以为0。
在一些实施例中,候选实体对应的展现统计信息包括以下至少一种:对应归一化共现语句数量、展现频次、展现位置信息、第一指示信息和第二指示信息。
请参考图7,其示出了根据图六所示“龙舌兰(1039)”对应的对应归一化共现语句数量、展现频次、展现位置信息、第一指示信息和第二指示信息,确定的图6所示的候选实体“1039龙舌兰”的特征向量。
请参考图8,其示出了根据图六所示“龙舌兰酒(10392)”对应的对应归一化共现语句数量(0.4)、展现频次(0.8)、展现位置信息、第一指示信息和第二指示信息,确定的图6所示的候选实体“龙舌兰酒(10392)”的特征向量。作为示例,展现位置信息为1是因为在历史共现语句“龙舌兰”的历史展示结果中,候选实体“龙舌兰酒(10392)”对应的搜索结果排在第一条。第一指示信息是0,是因为候选实体龙舌兰酒(10392)”对应的搜索结果不在目标搜索语句的历史展现结果中。第二指示信息是0,是因为候选实体“龙舌兰(1039)”与目标搜索语句“龙舌兰的寓意”不一致。
在一些实施例中,上述步骤2033,可以包括:对于上述候选实体集合中的候选实体,针对该候选实体的展现统计信息中的每种展现统计信息,获取针对该种展现统计信息预先设置的权重;利用所获取的权重对该种展现统计信息进行加权;根据上述展现统计信息中的各种展现统计信息对应的加权结果,生成该候选实体的评分;根据上述候选实体集合中的各个候选实体的评分,对上述候选实体集合中的候选实体进行排序。
在一些实施例中,上述步骤2033,可以包括:对于上述候选实体集合中的候选实体的展现统计信息,导入预先建立的排序模型,生成上述候选实体集合中的候选实体的排序结果。
作为示例,以基于Pairwise算法的RankSVM模型为例,训练集中的训练样本,可以训练用目标搜索语句、训练用目标搜索语句的主实体和候选实体的展现统计信息(例如图8所示的结构)。将各个统计信息以RankSVM的输入格式输入,以训练用目标搜索语句的主实体作为目标输出对初始排序模型进行参数调整,以建立排序模型。
在一些实施例中,上述步骤2034,可以包括:根据上述排序结果,从候选实体集合中,确定候选主实体;确定候选主实体的实体名称和/或同义名称,是否出现在上述目标搜索语句中;响应于确定实体名称和/或同义名称出现在上述目标搜索语句中,将出现在上述目标搜索语句中的主实体名称或者同义名称,确定为上述目标搜索语句的主实体。
从候选实体集合中,按照排序结果从前到后的运行,确定当前候选主实体,如果确定的当前候选主实体的实体名称(同义名称)出现在上述目标搜索语句中,将出现在上述目标搜索语句中的主实体名称(同义名称),确定为上述目标搜索语句的主实体;如果确定的当前候选主实体的实体名称(同义名称)没有出现在上述目标搜索语句中,以搜索结果中下一位的候选主实体为当前主实体,继续执行确定当前候选主实体的实体名称和/或同义名称,是否出现在上述目标搜索语句中的步骤。
在一些实施例中,上述步骤2033,可以包括:对于上述候选实体集合中的候选实体的展现统计信息,导入预先建立的分类模型,生成上述候选实体集合中的候选实体的分类结果,其中,分类结果用于指示候选实体是否是上述目标搜索语句的主实体。
在一些实施例中,上述步骤2034,可以包括:根据分类结果,确定上述目标搜索语句的主实体。
在一些实施例中,上述步骤201,可以包括:响应于确定上述历史搜索语句记录中存在与上述目标短文本一致的历史搜索语句,将与上述目标短文本一致的历史搜索语句确定为上述目标搜索语句。
在一些实施例中,上述步骤201,可以包括:响应于确定上述历史搜索语句记录中不存在与上述目标短文本一致的历史搜索语句,从上述历史搜索语句记录中,根据与上述目标短文本的相似度,选取预定数目个历史搜索语句作为目标搜索语句。
需要说明的是,根据相似度,为目标短文本选取目标搜索语句,可以实现将目标短文本转换为目标搜索语句,然后进行主实体识别。
在一些实施例中,上述步骤204,可以包括:响应于确定目标搜索语句为至少两个,从至少两个目标搜索语句的主实体中,选取出现次数最多的主实体;响应于确定出现次数最多的主实体的出现次数在主实体总数量中的比例大于预设比例阈值,确定上述出现次数最多的主实体为上述目标短文本的目标主实体。
作为示例,目标短文本为“龙舌兰的寓意是什么”。目标搜索语句可以包括“龙舌兰的寓意”“龙舌兰寓意”和“龙舌兰有什么寓意”。目标搜索语句“龙舌兰的寓意”的主实体可以是“龙舌兰花”。目标搜索语句“龙舌兰寓意”的主实体可以是“龙舌兰花”。目标搜索语句“龙舌兰有什么寓意”的主实体可以是“龙舌兰属”。出现次数最多的主实体为“龙舌兰花”。预设比例阈值可以为60%,主实体“龙舌兰花”的出现次数2在主实体总数量3中的比例为67%。因此,可以确定出现次数最多的主实体“龙舌兰花”为目标短文本“龙舌兰的寓意是什么”的主实体。
进一步参考图9,作为对上述各图所示方法的实现,本申请提供了一种主实体识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征。该装置具体可以应用于各种电子设备中。
如图9所示,本实施例的主实体识别装置900包括:目标搜索语句确定单元901、共现搜索语句确定单元902、第一主实体确定单元903和第二主实体确定单元904。其中,目标搜索语句确定单元,被配置成从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;共现搜索语句确定单元,被配置成基于搜索时间和搜索用户,确定上述目标搜索语句的共现搜索语句,其中,上述共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;第一主实体确定单元,被配置成基于上述共现搜索语句对应的历史展现结果,确定上述目标搜索语句的主实体;第二主实体确定单元,被配置成根据上述目标搜索语句的主实体,确定上述目标短文本的目标主实体。
在本实施例中,主实体识别装置900的目标搜索语句确定单元901、共现搜索语句确定单元902、第一主实体确定单元903和第二主实体确定单元904的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在一些实施例中,上述第一主实体确定单元,还被配置成:将上述目标搜索语句与上述共现搜索语句确定为历史共现语句集合,以及根据历史共现语句对应的历史展现结果,生成候选实体集合;根据历史共现语句对应的历史展现结果,生成上述候选实体集合中的候选实体的展现统计信息,其中,上述展现统计信息用于指示候选实体集合中的候选实体的历史展现情况;根据上述候选实体集合中的候选实体的展现统计信息,对上述候选实体集合中的候选实体进行排序和/或分类,生成排序结果和/或分类结果;根据上述排序结果和/或分类结果,确定上述目标搜索语句的主实体。
在一些实施例中,历史展现结果包括历史搜索结果以及对应的统一资源定位符;以及上述第一主实体确定单元,还被配置成:解析上述历史共现语句对应的历史展现结果中的统一资源定位符,确定所解析的统一资源定位符是否指示预设知识库中的实体标识;响应于所解析的统一资源定位符指示预设知识库中的实体标识,获取所指示的实体标识;利用所获取的实体标识,生成候选实体集合。
在一些实施例中,上述第一主实体确定单元,还被配置成:对于上述候选实体集合中的候选实体,将历史展示结果中包括该候选实体对应的历史搜索结果的历史共现语句,确定为可跳转至该候选实体的历史共现语句,将上述历史共现语句集合中的、可跳转至该候选实体的历史共现语句的数量,确定为该候选实体对应的第一数量;将上述历史共现语句集合的共现历史语句的总数量,确定该候选实体对应的第二数量;根据上述第一数量和上述第二数量,确定该候选实体对应的对应归一化共现语句数量。
在一些实施例中,上述第一主实体确定单元,还被配置成:于上述候选实体集合中的每个候选实体,将包括该候选实体对应的历史搜索结果的历史展示结果对应的共现搜索语句,与目标搜索语句的共现次数,确定为该候选实体的第三数量;将共现搜索语句对应的历史展现结果的总数量,确定为该候选实体对应的第四数量;根据上述第三数量和上述第四数量,确定该候选实体对应归一化的展现频次。
在一些实施例中,历史展现结果包括与历史搜索结果对应的展示位置信息,其中,展示位置信息用于指示历史搜索结果在历史展现结果中的展示位置;以及
上述第一主实体确定单元,还被配置成:对于上述候选实体集合中的候选实体,根据上述候选实体对应的历史搜索结果对应的展现位置信息,确定该候选实体对应的展示位置信息。
在一些实施例中,上述第一主实体确定单元,还被配置成:对于上述候选实体集合中的候选实体,确定该候选实体对应的搜索结果是否在上述目标搜索语句的历史展现结果和/或当前展现结果中;如果是,生成该候选实体对应的第一指示信息。
在一些实施例中,上述第一主实体确定单元,还被配置成:对于上述候选实体集合中的候选实体,确定该候选实体是否与上述目标搜索语句一致;如果是,生成该候选实体的第二指示信息。
在一些实施例中,候选实体对应的展现统计信息包括以下至少一种:对应归一化共现语句数量、展现频次、展现位置信息、第一指示信息和第二指示信息;以及
上述第一主实体确定单元,还被配置成:对于上述候选实体集合中的候选实体,针对该候选实体的展现统计信息中的每种展现统计信息,获取针对该种展现统计信息预先设置的权重;利用所获取的权重对该种展现统计信息进行加权;根据上述展现统计信息中的各种展现统计信息对应的加权结果,生成该候选实体的评分;根据上述候选实体集合中的各个候选实体的评分,对上述候选实体集合中的候选实体进行排序。
在一些实施例中,候选实体对应的展现统计信息包括以下至少一种:对应归一化共现语句数量、展现频次、展现位置信息、第一指示信息和第二指示信息;以及对于上述候选实体集合中的候选实体的展现统计信息,导入预先建立的排序模型,生成上述候选实体集合中的候选实体的排序结果。
在一些实施例中,候选实体对应的展现统计信息包括以下至少一种:对应归一化共现语句数量、展现频次、展现位置信息、第一指示信息和第二指示信息;以及对于上述候选实体集合中的候选实体的展现统计信息,导入预先建立的分类模型,生成上述候选实体集合中的候选实体的分类结果,其中,分类结果用于指示候选实体是否是上述目标搜索语句的主实体。
在一些实施例中,根据上述排序结果,从候选实体集合中,确定候选主实体;确定候选主实体的实体名称和/或同义名称,是否出现在上述目标搜索语句中;响应于确定实体名称和/或同义名称出现在上述目标搜索语句中,将出现在上述目标搜索语句中的主实体名称或者同义名称,确定为上述目标搜索语句的主实体。
在一些实施例中,上述目标搜索语句确定单元,还被配置成:响应于确定上述历史搜索语句记录中存在与上述目标短文本一致的历史搜索语句,将与上述目标短文本一致的历史搜索语句确定为上述目标搜索语句。
在一些实施例中,上述目标搜索语句确定单元,还被配置成:响应于确定上述历史搜索语句记录中不存在与上述目标短文本一致的历史搜索语句,从上述历史搜索语句记录中,根据与上述目标短文本的相似度,选取预定数目个历史搜索语句作为目标搜索语句。
在一些实施例中,上述第二主实体确定单元,还被配置成:响应于确定目标搜索语句为至少两个,从至少两个目标搜索语句的主实体中,选取出现次数最多的主实体;响应于确定出现次数最多的主实体的出现次数在主实体总数量中的比例大于预设比例阈值,确定上述出现次数最多的主实体为上述目标短文本的目标主实体。
在一些实施例中,上述共现搜索语句确定单元,还被配置成:从上述历史搜索语句记录中,查找上述目标搜索语句的发出用户所发出的、与上述目标搜索语句的搜索时间在预设时间间隔内的历史搜索语句;对查找出的历史搜索语句去重,以及将去重后的结果确定为上述目标搜索语句的共现搜索语句。
在一些实施例中,历史共现语句数据库包括多个历史共现语句组,各个历史共现语句组中的历史共现语句由同一用户在预设时间间隔内输入;以及上述目标搜索语句确定单元,还被配置成:在历史共现语句数据库中,查找包括上述目标搜索语句的历史共现语句组;将查找出的历史共现语句组中的其它历史共现语句,确定为上述目标搜索语句的共现搜索语句;对查找出的历史搜索语句去重,以及将去重后的结果确定为上述目标搜索语句的共现搜索语句。
下面参考图10,其示出了适于用来实现本申请实施例的电子设备的计算机系统1000的结构示意图。图10示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU,Central ProcessingUnit)1001,其可以根据存储在只读存储器(ROM,Read Only Memory)1002中的程序或者从存储部分1006加载到随机访问存储器(RAM,Random Access Memory)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O,Input/Output)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括硬盘等的存储部分1006;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分1007。通信部分1007经由诸如因特网的网络执行通信处理。驱动器1008也根据需要连接至I/O接口1005。可拆卸介质1009,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1008上,以便于从其上读出的计算机程序根据需要被安装入存储部分1006。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1007从网络上被下载和安装,和/或从可拆卸介质1009被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括目标搜索语句确定单元、共现搜索语句确定单元、第一主实体确定单元3和第二主实体确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,目标搜索语句确定单元还可以被描述为“确定目标搜索语句的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;基于搜索时间和搜索用户,确定上述目标搜索语句的共现搜索语句,其中,上述共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;基于上述共现搜索语句对应的历史展现结果,确定上述目标搜索语句的主实体;根据上述目标搜索语句的主实体,确定上述目标短文本的目标主实体。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种主实体识别方法,包括:
从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;
基于搜索时间和搜索用户,确定所述目标搜索语句的共现搜索语句,其中,所述共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;
基于所述共现搜索语句对应的历史展现结果,确定所述目标搜索语句的主实体;
根据所述目标搜索语句的主实体,确定所述目标短文本的目标主实体。
2.根据权利要求1所述的方法,其中,所述基于所述共现搜索语句对应的历史展现结果,确定所述目标搜索语句的主实体,包括:
将所述目标搜索语句与所述共现搜索语句确定为历史共现语句集合,以及根据历史共现语句对应的历史展现结果,生成候选实体集合;
根据历史共现语句对应的历史展现结果,生成所述候选实体集合中的候选实体的展现统计信息,其中,所述展现统计信息用于指示候选实体集合中的候选实体的历史展现情况;
根据所述候选实体集合中的候选实体的展现统计信息,对所述候选实体集合中的候选实体进行排序和/或分类,生成排序结果和/或分类结果;
根据所述排序结果和/或分类结果,确定所述目标搜索语句的主实体。
3.根据权利要求2所述的方法,其中,历史展现结果包括历史搜索结果以及对应的统一资源定位符;以及
所述将所述目标搜索语句与所述共现搜索语句确定为历史共现语句集合,以及根据历史共现语句对应的历史展现结果,生成候选实体集合,包括:
解析历史共现语句对应的历史展现结果中的统一资源定位符,确定所解析的统一资源定位符是否指示预设知识库中的实体标识;
响应于所解析的统一资源定位符指示预设知识库中的实体标识,获取所指示的实体标识;
利用所获取的实体标识,生成候选实体集合。
4.根据权利要求3所述的方法,其中,所述根据历史共现语句对应的历史展现结果,生成所述候选实体集合中的候选实体的展现统计信息,包括:
对于所述候选实体集合中的候选实体,将历史展示结果中包括该候选实体对应的历史搜索结果的历史共现语句,确定为可跳转至该候选实体的历史共现语句,将所述历史共现语句集合中的、可跳转至该候选实体的历史共现语句的数量,确定为该候选实体对应的第一数量;将所述历史共现语句集合的共现历史语句的总数量,确定该候选实体对应的第二数量;根据所述第一数量和所述第二数量,确定该候选实体的对应归一化共现语句数量。
5.根据权利要求4所述的方法,其中,所述根据历史共现语句对应的历史展现结果,生成所述候选实体集合中的候选实体的展现统计信息,包括:
对于所述候选实体集合中的每个候选实体,将目标共现语句与目标搜索语句的共现次数,确定为该候选实体的第三数量,其中,目标共现语句对应的历史展现结果包括该候选实体对应的历史搜索结果;将共现搜索语句与目标搜索语句共现的总数量,确定为该候选实体对应的第四数量;根据所述第三数量和所述第四数量,确定该候选实体对应归一化的展现频次。
6.根据权利要求5所述的方法,其中,历史展现结果包括与历史搜索结果对应的展示位置信息,其中,展示位置信息用于指示历史搜索结果在历史展现结果中的展示位置;以及
所述根据历史共现语句对应的历史展现结果,生成所述候选实体集合中的候选实体的展现统计信息,包括:
对于所述候选实体集合中的候选实体,根据所述候选实体对应的历史搜索结果对应的展现位置信息,确定该候选实体对应的展示位置信息。
7.根据权利要求6所述的方法,其中,所述根据历史共现语句对应的历史展现结果,生成所述候选实体集合中的候选实体的展现统计信息,包括:
对于所述候选实体集合中的候选实体,确定该候选实体对应的搜索结果是否在所述目标搜索语句的历史展现结果和/或当前展现结果中;如果是,生成该候选实体对应的第一指示信息。
8.根据权利要求7所述的方法,其中,所述根据历史共现语句对应的历史展现结果,生成所述候选实体集合中的候选实体的展现统计信息,包括:
对于所述候选实体集合中的候选实体,确定该候选实体的候选实体名称是否与所述目标搜索语句一致;如果是,生成该候选实体的第二指示信息。
9.根据权利要求8所述的方法,其中,候选实体对应的展现统计信息包括以下至少一种:对应归一化共现语句数量、展现频次、展现位置信息、第一指示信息和第二指示信息;以及
所述根据所述候选实体集合中的候选实体的展现统计信息,对所述候选实体集合中的候选实体进行排序和/或分类,生成排序结果和/或分类结果,包括:
对于所述候选实体集合中的候选实体,针对该候选实体的展现统计信息中的每种展现统计信息,获取针对该种展现统计信息预先设置的权重;利用所获取的权重对该种展现统计信息进行加权;根据所述展现统计信息中的各种展现统计信息对应的加权结果,生成该候选实体的评分;
根据所述候选实体集合中的各个候选实体的评分,对所述候选实体集合中的候选实体进行排序。
10.根据权利要求8所述的方法,其中,所述根据所述候选实体集合中的候选实体的展现统计信息,对所述候选实体集合中的候选实体进行排序和/或分类,生成排序结果和/或分类结果,包括:
对于所述候选实体集合中的候选实体的展现统计信息,导入预先建立的排序模型,生成所述候选实体集合中的候选实体的排序结果。
11.根据权利要求8所述的方法,其中,所述根据所述候选实体集合中的候选实体的展现统计信息,对所述候选实体集合中的候选实体进行排序和/或分类,生成排序结果和/或分类结果,包括:
对于所述候选实体集合中的候选实体的展现统计信息,导入预先建立的分类模型,生成所述候选实体集合中的候选实体的分类结果,其中,分类结果用于指示候选实体是否是所述目标搜索语句的主实体。
12.根据权利要求2所述的方法,其中,所述根据所述排序结果和/或分类结果,确定所述目标搜索语句的主实体,包括:
根据所述排序结果,从候选实体集合中,确定候选主实体;
确定候选主实体的实体名称和/或同义名称,是否出现在所述目标搜索语句中;响应于确定实体名称和/或同义名称出现在所述目标搜索语句中,将出现在所述目标搜索语句中的主实体名称或者同义名称,确定为所述目标搜索语句的主实体。
13.根据权利要求1-12中任一项所述的方法,其中,所述从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,包括:
响应于确定所述历史搜索语句记录中存在与所述目标短文本一致的历史搜索语句,将与所述目标短文本一致的历史搜索语句确定为所述目标搜索语句。
14.根据权利要求1-12中任一项所述的方法,其中,所述从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,包括:
响应于确定所述历史搜索语句记录中不存在与所述目标短文本一致的历史搜索语句,从所述历史搜索语句记录中,根据与所述目标短文本的相似度,选取预定数目个历史搜索语句作为目标搜索语句。
15.根据权利要求14所述的方法,其中,所述根据所述目标搜索语句的主实体,确定所述目标短文本的目标主实体,包括:
响应于确定目标搜索语句为至少两个,从至少两个目标搜索语句的主实体中,选取出现次数最多的主实体;
响应于确定出现次数最多的主实体的出现次数在主实体总数量中的比例大于预设比例阈值,确定所述出现次数最多的主实体为所述目标短文本的目标主实体。
16.根据权利要求1-12中任一项所述的方法,其中,所述基于搜索时间和搜索用户,确定所述目标搜索语句的共现搜索语句,包括:
从所述历史搜索语句记录中,查找所述目标搜索语句的发出用户所发出的、与所述目标搜索语句的搜索时间在预设时间间隔内的历史搜索语句;
对查找出的历史搜索语句去重,以及将去重后的结果确定为所述目标搜索语句的共现搜索语句。
17.根据权利要求1-12中任一项所述的方法,其中,历史共现语句数据库包括多个历史共现语句组,各个历史共现语句组中的历史共现语句由同一用户在预设时间间隔内输入;以及
所述基于搜索时间和搜索用户,确定所述目标搜索语句的共现搜索语句,包括:
在历史共现语句数据库中,查找包括所述目标搜索语句的历史共现语句组;
将查找出的历史共现语句组中的其它历史共现语句,确定为所述目标搜索语句的共现搜索语句;
对查找出的历史搜索语句去重,以及将去重后的结果确定为所述目标搜索语句的共现搜索语句。
18.一种主实体识别装置,包括:
目标搜索语句确定单元,被配置成从历史搜索语句记录中,确定与目标短文本匹配的历史搜索语句为目标搜索语句,其中,历史搜索语句记录中的历史搜索语句与历史展现结果对应,并且历史搜索语句记录中的历史搜索语句与搜索时间和搜索用户相关联;
共现搜索语句确定单元,被配置成基于搜索时间和搜索用户,确定所述目标搜索语句的共现搜索语句,其中,所述共现搜索语句与目标搜索语句由同一用户在预设时间间隔内输入;
第一主实体确定单元,被配置成基于所述共现搜索语句对应的历史展现结果,确定所述目标搜索语句的主实体;
第二主实体确定单元,被配置成根据所述目标搜索语句的主实体,确定所述目标短文本的目标主实体。
19.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-17中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-17中任一所述的方法。
CN201910561161.0A 2019-06-26 2019-06-26 主实体识别方法和装置 Active CN110245357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910561161.0A CN110245357B (zh) 2019-06-26 2019-06-26 主实体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910561161.0A CN110245357B (zh) 2019-06-26 2019-06-26 主实体识别方法和装置

Publications (2)

Publication Number Publication Date
CN110245357A CN110245357A (zh) 2019-09-17
CN110245357B true CN110245357B (zh) 2023-05-02

Family

ID=67889491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910561161.0A Active CN110245357B (zh) 2019-06-26 2019-06-26 主实体识别方法和装置

Country Status (1)

Country Link
CN (1) CN110245357B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475725B (zh) * 2020-04-01 2023-11-07 百度在线网络技术(北京)有限公司 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN112115342A (zh) * 2020-09-22 2020-12-22 深圳市欢太科技有限公司 搜索方法、装置、存储介质以及终端
US20230342544A1 (en) * 2022-04-25 2023-10-26 Lemon Inc. Semantic parsing for short text

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及系统
CN103268348A (zh) * 2013-05-28 2013-08-28 中国科学院计算技术研究所 一种用户查询意图识别方法
CN103678668A (zh) * 2013-12-24 2014-03-26 乐视网信息技术(北京)股份有限公司 相关搜索结果的提示方法、服务器及系统
CN105095433A (zh) * 2015-07-22 2015-11-25 百度在线网络技术(北京)有限公司 实体推荐方法及装置
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN105159938A (zh) * 2015-08-03 2015-12-16 百度在线网络技术(北京)有限公司 检索方法和装置
CN106164889A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于内存数据库搜索的系统和方法
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN108256070A (zh) * 2018-01-17 2018-07-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108415902A (zh) * 2018-02-10 2018-08-17 合肥工业大学 一种基于搜索引擎的命名实体链接方法
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201931B2 (en) * 2013-12-02 2015-12-01 Qbase, LLC Method for obtaining search suggestions from fuzzy score matching and population frequencies

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及系统
CN103268348A (zh) * 2013-05-28 2013-08-28 中国科学院计算技术研究所 一种用户查询意图识别方法
CN106164889A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于内存数据库搜索的系统和方法
CN103678668A (zh) * 2013-12-24 2014-03-26 乐视网信息技术(北京)股份有限公司 相关搜索结果的提示方法、服务器及系统
US10198491B1 (en) * 2015-07-06 2019-02-05 Google Llc Computerized systems and methods for extracting and storing information regarding entities
CN105095433A (zh) * 2015-07-22 2015-11-25 百度在线网络技术(北京)有限公司 实体推荐方法及装置
CN105159938A (zh) * 2015-08-03 2015-12-16 百度在线网络技术(北京)有限公司 检索方法和装置
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN108256070A (zh) * 2018-01-17 2018-07-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108415902A (zh) * 2018-02-10 2018-08-17 合肥工业大学 一种基于搜索引擎的命名实体链接方法
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Entity Recommendations in Web Search";Roi Blanco et al;《ISWC 2013》;20131231;第33-48页 *
"Entity-Based Qury Recommendation for Long-Tail Quries";ZHIPENG HUANG et al;《ACM Transactions on Knowledge Discovery from Data》;20180822;第1-24页 *
"When Entities Meet Quer y Recommender Systems:Semantic Search Shor tcuts";Diego Ceccarelli et al;《SAC"13:Proceedings of the 28th Annual ACM Symposium on Applied Computing》;20130322;第933-938页 *
"基于文本表示学习的实体消歧研究";孙雅铭;《中国博士学位论文全文数据库 信息科技辑》;20190115;I138-267 *

Also Published As

Publication number Publication date
CN110245357A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN107256267B (zh) 查询方法和装置
CN108153901B (zh) 基于知识图谱的信息推送方法和装置
CN107491547B (zh) 基于人工智能的搜索方法和装置
CN107172151B (zh) 用于推送信息的方法和装置
CN107220386B (zh) 信息推送方法和装置
US10210243B2 (en) Method and system for enhanced query term suggestion
CN106874467B (zh) 用于提供搜索结果的方法和装置
US9471874B2 (en) Mining forums for solutions to questions and scoring candidate answers
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN107241260B (zh) 基于人工智能的新闻推送的方法和装置
CN108572990B (zh) 信息推送方法和装置
CN110069698B (zh) 信息推送方法和装置
US20230177360A1 (en) Surfacing unique facts for entities
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN110245357B (zh) 主实体识别方法和装置
CN107798622B (zh) 一种识别用户意图的方法和装置
US20190163828A1 (en) Method and apparatus for outputting information
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN116186198A (zh) 信息检索方法、装置、计算机设备及存储介质
WO2010132062A1 (en) System and methods for sentiment analysis
CN111368036B (zh) 用于搜索信息的方法和装置
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
CN114491232A (zh) 信息查询方法、装置、电子设备和存储介质
CN112016017A (zh) 确定特征数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant