CN105677931B - 信息搜索方法和装置 - Google Patents

信息搜索方法和装置 Download PDF

Info

Publication number
CN105677931B
CN105677931B CN201610214064.0A CN201610214064A CN105677931B CN 105677931 B CN105677931 B CN 105677931B CN 201610214064 A CN201610214064 A CN 201610214064A CN 105677931 B CN105677931 B CN 105677931B
Authority
CN
China
Prior art keywords
demand
knowledge entity
entity
initial
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610214064.0A
Other languages
English (en)
Other versions
CN105677931A (zh
Inventor
秦首科
黄飞
陈志扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610214064.0A priority Critical patent/CN105677931B/zh
Publication of CN105677931A publication Critical patent/CN105677931A/zh
Priority to PCT/CN2016/097291 priority patent/WO2017173773A1/zh
Priority to KR1020187032155A priority patent/KR102148691B1/ko
Priority to JP2018552167A priority patent/JP6732938B2/ja
Application granted granted Critical
Publication of CN105677931B publication Critical patent/CN105677931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了信息搜索方法和装置。所述信息搜索方法的一具体实施方式包括:接收搜索请求,所述搜索请求包括用户输入的搜索语句;获取所述用户的用户信息,并基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,其中,所述搜索需求包括:知识实体、与所述知识实体关联的至少一个需求;在预存的知识实体信息集合中获取所述知识实体的至少一个属性信息,其中,所述至少一个属性信息与所述至少一个需求一一对应;将获取到的属性信息合并为一条搜索结果加入搜索结果页面。该实施方式展示出了用户需要的内容,并丰富了搜索结果的展示内容。

Description

信息搜索方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及搜索技术领域,尤其涉及信息搜索方法和装置。
背景技术
目前,现有的信息检索技术通常是根据用户输入的搜索语句检索含有与搜索语句相关内容的网页,并提取网页中与检索语句相关的内容摘要,然后将该摘要显示在搜索结果中。
然而,通过现有技术所展示的搜索结果的内容较为单一,通常不能展示出用户需要的内容。
发明内容
本申请的目的在于提出一种信息搜索方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种信息搜索方法,所述方法包括:接收搜索请求,所述搜索请求包括用户输入的搜索语句;获取所述用户的用户信息,并基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,其中,所述搜索需求包括:知识实体、与所述知识实体关联的至少一个需求;在预存的知识实体信息集合中获取所述知识实体的至少一个属性信息,其中,所述至少一个属性信息与所述至少一个需求一一对应;将获取到的属性信息合并为一条搜索结果加入搜索结果页面。
在一些实施例中,所述基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,包括:基于所述搜索语句和所述用户信息,通过预先训练的知识实体分类模型,得到所述知识实体;基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求。
在一些实施例中,所述方法还包括:在接收搜索请求之后,通过多模式匹配算法,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与所述搜索语句匹配的初始知识实体和初始需求;以及所述基于所述搜索语句和所述用户信息,通过预先训练的知识实体分类模型,得到所述知识实体,包括:基于所述搜索语句、所述用户信息、所述初始知识实体和所述初始需求,通过预先训练的知识实体分类模型,得到所述知识实体。
在一些实施例中,所述基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求,包括:基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体和所述初始需求,通过预先训练的需求分类模型,得到所述至少一个需求。
在一些实施例中,所述方法还包括:在接收搜索请求之后,基于所述搜索语句,通过命名实体识别算法,得到所述搜索语句中的实体词和需求词;以及所述基于所述搜索语句、所述用户信息、所述初始知识实体和所述初始需求,通过预先训练的知识实体分类模型,得到所述知识实体,包括:基于所述搜索语句、所述用户信息、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的知识实体分类模型,得到所述知识实体。
在一些实施例中,所述基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求,包括:基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的需求分类模型,得到所述至少一个需求。
在一些实施例中,所述获取到的属性信息包括以下至少一种:图片信息、文字信息。
第二方面,本申请提供了一种信息搜索装置,所述装置包括:搜索请求接收单元,用于接收搜索请求,所述搜索请求包括用户输入的搜索语句;搜索需求获取单元,用于获取所述用户的用户信息,并基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,其中,所述搜索需求包括:知识实体、与所述知识实体关联的至少一个需求;属性信息获取单元,用于在预存的知识实体信息集合中获取所述知识实体的至少一个属性信息,其中,所述至少一个属性信息与所述至少一个需求一一对应;页面生成单元,用于将获取到的属性信息合并为一条搜索结果加入搜索结果页面。
在一些实施例中,所述搜索需求获取单元包括:知识实体获取子单元,用于基于所述搜索语句和所述用户信息,通过预先训练的知识实体分类模型,得到所述知识实体;需求获取子单元,用于基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求。
在一些实施例中,所述装置还包括:多模式匹配单元,用于在接收搜索请求之后,通过多模式匹配算法,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与所述搜索语句匹配的初始知识实体和初始需求;以及所述知识实体获取子单元还用于基于所述搜索语句、所述用户信息、所述初始知识实体和所述初始需求,通过预先训练的知识实体分类模型,得到所述知识实体。
在一些实施例中,所述需求获取子单元还用于基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体和所述初始需求,通过预先训练的需求分类模型,得到所述至少一个需求。
在一些实施例中,所述装置还包括:命名实体识别单元,用于在接收搜索请求之后,基于所述搜索语句,通过命名实体识别算法,得到所述搜索语句中的实体词和需求词;以及所述知识实体获取子单元还用于基于所述搜索语句、所述用户信息、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的知识实体分类模型,得到所述知识实体。
在一些实施例中,所述需求获取子单元还用于基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的需求分类模型,得到所述至少一个需求。
在一些实施例中,所述属性信息获取单元获取到的属性信息包括以下至少一种:图片信息、文字信息。
本申请提供的信息搜索方法和装置,通过基于搜索语句和用户信息,通过预先训练的分类模型,得到用户的搜索需求中的知识实体和至少一个需求,并在预存的知识实体信息集合中获取所述知识实体的与所述需求一一对应的至少一个属性信息,并将获取到的属性信息合并为一条搜索结果加入搜索结果页面,展示出了用户需要的内容,并丰富了搜索结果的展示内容。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息搜索方法的一个实施例的流程图;
图3是根据本申请的信息搜索方法的一个应用场景的示例性示意图;
图4是根据本申请的信息搜索方法的另一个实施例的流程图;
图5是根据本申请的信息搜索装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息搜索方法或信息搜索装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如浏览器应用、搜索类应用、购物类应用等。
终端设备101、102、103可以是支持浏览器应用或搜索类应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的浏览器应用、搜索类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的数据进行分析、检索等处理,并将处理结果(例如搜索结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息搜索方法通常由服务器105执行。相应地,信息搜索装置通常设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本申请的信息搜索方法的一个实施例的流程200。
如图2所示,本实施例的信息搜索方法包括以下步骤:
步骤201,接收搜索请求。
其中,上述搜索请求包括用户输入的搜索语句。
在本实施例中,信息搜索方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线或无线的方式从终端(例如提1所示的终端设备)接收上述搜索请求。其中,上述搜索语句可以是用户在浏览器搜索页面或搜索类应用中的搜索文本框输入的文本。
步骤202,获取上述用户的用户信息,并基于上述搜索语句和上述用户信息,通过预先训练的分类模型,得到上述用户的搜索需求。其中,上述搜索需求包括:知识实体、与上述知识实体关联的至少一个需求。
在本实施例中,电子设备可以首先从终端的Cookie信息中获取用户的用户信息,还可以从预先建立的用户画像数据中获取用户的用户信息。其中,用户信息可以包括但不限于以下信息中的一个或多个:历史搜索记录、性别、年龄、职业、兴趣等。然后将上述搜索语句和获取到的用户信息输入预先训练的分类模型(例如逻辑回归模型),通过分类算法(例如逻辑回归算法),得到各个知识实体对应的概率,取对应的概率最大的知识实体作为上述搜索需求中的知识实体;并根据预定的各个知识实体所关联的需求,得到上述搜索需求中的与知识实体关联的至少一个需求。其中,上述知识实体可以是知识点/专有名词(例如“九寨沟”、“关节炎”)对应的对象。上述预定的各个知识实体所关联的需求可以是由人工根据领域知识预设的,也可以是通过机器学习的方法获得的。例如,知识实体“关节炎”所关联的需求可以包括:“治疗”、“询价”、“了解”。
上述分类模型可以是通过对大量带有实体标注的训练数据进行学习训练得到的。其中,上述训练数据可以包括以下信息:检索词、用户信息、知识实体、标注,其中,标注用于表示检索词是否与该训练数据的知识实体相关。上述训练数据可以通过用户点击搜索结果所进入的页面内容以及本次搜索所用的搜索词来收集。例如,假设用户点击某条搜索结果所进入的页面是关于九寨沟的内容,那么就可以生成一条训练数据,该训练数据的搜索词为用户使用的搜索词,知识实体为“九寨沟”,标注为1。
步骤203,在预存的知识实体信息集合中获取上述知识实体的至少一个属性信息。
其中,上述至少一个属性信息与上述至少一个需求一一对应。
在本实施例中,上述知识实体信息集合中包括各个知识实体的多个属性信息,例如可以包括知识实体“九寨沟”的攻略、介绍、历史、旅行路线等属性信息。电子设备可以在上述知识实体信息集合中查找与在步骤202中得到的搜索需求中的知识实体匹配的知识实体信息,然后在该知识实体信息中获取与上述搜索需求中的至少一个需求对应的至少一个属性信息。
其中,上述知识实体信息集合可以预先通过从第三方站点(例如百科类站点、医疗类站点)爬取已编辑好的结构化的信息获得。例如,对于知识实体“面瘫”,可以从预定的医疗类站点的面瘫相关页面中爬取信息,得到如介绍、症状、病因等属性信息。
在本实施例的一些可选的实现方式中,上述获取到的属性信息可以包括以下至少一种:图片信息、文字信息。从而更加丰富了搜索结果的展示内容
步骤204,将获取到的属性信息合并为一条搜索结果加入搜索结果页面。
在本实施例中,电子设备可以将步骤203得到的至少一个属性信息组合在一起作为一条搜索结果,并将该搜索结果加入搜索结果页面,以使终端可以展示包括多个属性信息的搜索结果。
在本实施例的一些可选的实现方式中,步骤202可以包括:基于上述搜索语句和上述用户信息,通过预先训练的知识实体分类模型,得到上述知识实体;基于上述搜索语句、上述用户信息和上述知识实体,通过预先训练的需求分类模型,得到上述至少一个需求。
其中,电子设备可以将上述搜索语句和获取到的用户信息输入预先训练的知识实体分类模型,通过分类算法,得到各个知识实体对应的概率,取对应的概率最大的知识实体作为上述搜索需求中的知识实体。其中,知识实体分类模型的训练方法可以参考步骤202中分类模型的训练方法,在此不再赘述。之后,电子设备可以将上述搜索语句、上述用户信息和上述搜索需求中的知识实体输入预先训练的需求分类模型,得到各个需求对应的概率,按照对应的概率从大到小的顺序依次选取预定个数的需求,作为上述搜索需求中的至少一个需求。其中,上述需求分类模型可以是通过对大量带有需求标注的训练数据进行学习训练得到的。其中,上述训练数据可以包括以下信息:检索词、用户信息、知识实体、需求、标注,其中,标注用于表示检索词是否与该训练数据的知识实体和需求相关。上述训练数据可以通过用户点击搜索结果所进入的页面内容以及本次搜索所用的搜索词来收集。例如,假设用户点击某条搜索结果所进入的页面是关于九寨沟的旅游攻略的内容,那么就可以生成一条训练数据,该训练数据的搜索词为用户使用的搜索词,知识实体为“九寨沟”,需求为“旅游攻略”,标注为1。
通过该实现方式,使得获得的用户的检索需求中的与知识实体关联的至少一个需求更加准确,从而可以更准确地展示出用户需要的内容。
下面参见图3,图3示出了本实施例的信息搜索方法的一个应用场景的示例性示意图。在图3的应用场景中,用户首先在搜索输入框中输入检索词“面瘫”,并点击搜索按钮。之后,服务器接收到该搜索请求,并获取到搜索请求中的搜索语句“面瘫”,通过本实施例提供的信息搜索方法获取到用户的搜索需求:知识实体“面瘫”以及知识实体“面瘫”所关联的“病因”、“介绍”、“症状”;然后在知识实体信息集合中获取“面瘫”的与“病因”、“介绍”、“症状”一一对应的属性信息,并将这些属性信息组合在一条搜索结果中加入搜索结果页面,然后将该搜索结果页面发送到终端,终端界面就会如图3所示,展示出关于“面瘫”的病因、介绍、症状的图文信息。
本实施例提供的信息搜索方法,通过基于搜索语句和用户信息,通过预先训练的分类模型,得到用户的搜索需求中的知识实体和至少一个需求,并在预存的知识实体信息集合中获取上述知识实体的与上述需求一一对应的至少一个属性信息,并将获取到的属性信息合并为一条搜索结果加入搜索结果页面,展示出了用户需要的内容,并丰富了搜索结果的展示内容。
继续参考图4,图4示出了根据本申请的信息搜索方法的另一个实施例的流程400。
如图4所示,本实施例的信息搜索方法包括以下步骤:
步骤401,接收搜索请求。
其中,上述搜索请求包括用户输入的搜索语句。
在本实施例中,步骤401的具体处理可参考图2对应实施例中步骤201的相关说明,在此不再赘述。
步骤402,通过多模式匹配算法,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与上述搜索语句匹配的初始知识实体和初始需求。
在本实施例中,上述多模式匹配算法可以是通过正则表达式、或通过后缀树等进行匹配的算法。电子设备可以通过多模式匹配算法获取与搜索语句匹配的模式串(表达式),作为匹配结果,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与上述搜索语句匹配的初始知识实体和初始需求。其中,预定的匹配结果与初始知识实体和初始需求的对应关系可以是由人工根据领域知识预设的,也可以是通过机器学习的方法获取的。
例如,以通过正则表达式进行匹配为例,假设搜索语句为“北京的长城好玩吗”,则匹配到的正则表达式可以为“北京*(怎么样|好玩吗)”。假设预设的与该表达式对应的初始知识实体为“北京旅游”,初始需求为“介绍”和“攻略”,则可以获得与搜索语句“北京的长城好玩吗”匹配的初始知识实体为“北京旅游”、初始需求为“介绍”和“攻略”。
步骤403,获取上述用户的用户信息,并基于上述搜索语句、上述用户信息、上述初始知识实体和上述初始需求,通过预先训练的知识实体分类模型,得到用户的搜索需求中的知识实体。
在本实施例中,获取上述用户的用户信息的具体处理可参考图2对应实施例中步骤202的相关说明,在此不再赘述。电子设备可以在获取到上述用户信息之后,将上述搜索语句、上述用户信息、上述初始知识实体和上述初始需求输入预先训练的知识实体分类模型,通过分类算法,得到各个知识实体对应的概率,取对应的概率最大的知识实体作为用户的搜索需求中的知识实体。
其中,本实施例的知识实体分类模型可以是通过对大量带有实体标注的训练数据进行学习训练得到的。其中,上述训练数据可以包括以下信息:检索词、用户信息、初始知识实体、初始需求、知识实体、标注,其中,标注用于表示检索词是否与该训练数据的知识实体相关。
步骤404,基于上述搜索语句、上述用户信息和上述知识实体,通过预先训练的需求分类模型,得到上述至少一个需求。
在本实施例中,步骤404的具体处理可参考图2对应实施例中相关可选实现方式的相关说明,在此不再赘述。
步骤405,在预存的知识实体信息集合中获取上述知识实体的至少一个属性信息。
其中,上述至少一个属性信息与上述至少一个需求一一对应。
在本实施例中,步骤405的具体处理可参考图2对应实施例中步骤203的相关说明,在此不再赘述。
步骤406,将获取到的属性信息合并为一条搜索结果加入搜索结果页面。
在本实施例中,步骤406的具体处理可参考图2对应实施例中步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,步骤404可以包括:基于上述搜索语句、上述用户信息、上述知识实体、上述初始知识实体和上述初始需求,通过预先训练的需求分类模型,得到上述至少一个需求。其中,电子设备可以将上述搜索语句、上述用户信息、步骤403获取到的搜索需求中的知识实体、上述初始知识实体和上述初始需求输入预先训练的需求分类模型,得到各个需求对应的概率,按照对应的概率从大到小的顺序依次选取预定个数的需求,作为上述搜索需求中的至少一个需求。其中,上述需求分类模型可以是通过对大量带有需求标注的训练数据进行学习训练得到的。其中,上述训练数据可以包括以下信息:检索词、用户信息、知识实体、初始知识实体、初始需求、需求、标注,其中,标注用于表示检索词是否与该训练数据的知识实体和需求相关。
通过该实现方式,使得获得的用户的检索需求中的与知识实体关联的至少一个需求更加准确、科学,从而可以更准确地展示出用户需要的内容。
在本实施例的一些可选的实现方式中,本实施例的信息检索方法还可以包括:在接收搜索请求之后,基于上述搜索语句,通过命名实体识别算法,得到上述搜索语句中的实体词和需求词。其中,上述命名实体识别算法可以是CRF(Conditional Random Field,条件随机场)算法。
以及,步骤403可以包括:基于上述搜索语句、上述用户信息、上述初始知识实体、上述初始需求、上述实体词和上述需求词,通过预先训练的知识实体分类模型,得到上述知识实体。其中,本实现方式的知识实体分类模型可以是通过对大量带有实体标注的训练数据进行学习训练得到的。其中,本实现方式的上述训练数据可以包括以下信息:检索词、用户信息、初始知识实体、初始需求、实体词、需求词、知识实体、标注,其中,标注用于表示检索词是否与该训练数据的知识实体相关。
该实现方式通过将通过命名实体识别算法得到的上述搜索语句中的实体词和需求词加入知识实体分类的参考因素,从而使获得的知识实体更加科学,以更准确地展示出用户需要的内容。
此外,基于上一实现方式,在本实施例的一些可选的实现方式中,步骤404可以包括:基于上述搜索语句、上述用户信息、上述知识实体、上述初始知识实体、上述初始需求、上述实体词和上述需求词,通过预先训练的需求分类模型,得到上述至少一个需求。其中,电子设备可以将上述搜索语句、上述用户信息、步骤403获取到的搜索需求中的知识实体、上述初始知识实体、上述初始需求、上述实体词和上述需求词输入预先训练的需求分类模型,得到各个需求对应的概率,按照对应的概率从大到小的顺序依次选取预定个数的需求,作为上述搜索需求中的至少一个需求。其中,上述需求分类模型可以是通过对大量带有需求标注的训练数据进行学习训练得到的。其中,上述训练数据可以包括以下信息:检索词、用户信息、知识实体、初始知识实体、初始需求、实体词、需求词、需求、标注,其中,标注用于表示检索词是否与该训练数据的知识实体和需求相关。
该实现方式通过将通过命名实体识别算法得到的上述搜索语句中的实体词和需求词加入需求分类的参考因素,使得获得的用户的检索需求中的与知识实体关联的至少一个需求更加准确、科学,从而可以更准确地展示出用户需要的内容。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息搜索方法的流程400增加了通过多模式匹配算法获得与搜索语句匹配的初始知识实体和初始需求的步骤,并将该初始知识实体和初始需求加入知识实体分类的参考因素。由此,本实施例描述的方案可以使获得的知识实体更加科学,从而更准确地展示出用户需要的内容。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息搜索装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于服务器中。
如图5所示,本实施例上述的信息搜索装置500包括:搜索请求接收单元501、搜索需求获取单元502、属性信息获取单元503以及页面生成单元504。其中,搜索请求接收单元501用于接收搜索请求,上述搜索请求包括用户输入的搜索语句;搜索需求获取单元502用于获取上述用户的用户信息,并基于上述搜索语句和上述用户信息,通过预先训练的分类模型,得到上述用户的搜索需求,其中,上述搜索需求包括:知识实体、与上述知识实体关联的至少一个需求;属性信息获取单元503用于在预存的知识实体信息集合中获取上述知识实体的至少一个属性信息,其中,上述至少一个属性信息与上述至少一个需求一一对应;页面生成单元504用于将获取到的属性信息合并为一条搜索结果加入搜索结果页面。
在本实施例中,搜索请求接收单元501、搜索需求获取单元502、属性信息获取单元503以及页面生成单元504的具体处理可分别参考图2对应实施例中步骤201、步骤202、步骤203以及步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,搜索需求获取单元502可以包括:知识实体获取子单元5021,用于基于上述搜索语句和上述用户信息,通过预先训练的知识实体分类模型,得到上述知识实体;需求获取子单元5022,用于基于上述搜索语句、上述用户信息和上述知识实体,通过预先训练的需求分类模型,得到上述至少一个需求。其中,实体获取子单元5021和需求获取子单元5022的具体处理及其所代理的技术效果可参考图2对应实施例中相应实现方式的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例的信息搜索装置500还可以包括:多模式匹配单元505,用于在接收搜索请求之后,通过多模式匹配算法,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与上述搜索语句匹配的初始知识实体和初始需求。以及,知识实体获取子单元5021还可以用于基于上述搜索语句、上述用户信息、上述初始知识实体和上述初始需求,通过预先训练的知识实体分类模型,得到上述知识实体。其中,多模式匹配单元505的具体处理可参考图4对应实施例中步骤402的相关说明,在此不再赘述。该实现方式的知识实体获取子单元5021的具体处理可参考图4对应实施例中步骤403的相关说明,在此不再赘述。
基于上一实现方式,在本实施例的一些可选的实现方式中,需求获取子单元5022还可以用于基于上述搜索语句、上述用户信息、上述知识实体、上述初始知识实体和上述初始需求,通过预先训练的需求分类模型,得到上述至少一个需求。该实现方式的具体处理及其所代理的技术效果可参考图4对应实施例中相应实现方式的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例的信息搜索装置500还可以包括:命名实体识别单元506,用于在接收搜索请求之后,基于上述搜索语句,通过命名实体识别算法,得到上述搜索语句中的实体词和需求词。以及,知识实体获取子单元5021还可以用于基于上述搜索语句、上述用户信息、上述初始知识实体、上述初始需求、上述实体词和上述需求词,通过预先训练的知识实体分类模型,得到上述知识实体。该实现方式的具体处理及其所代理的技术效果可参考图4对应实施例中相应实现方式的相关说明,在此不再赘述。
基于上一实现方式,在本实施例的一些可选的实现方式中,需求获取子单元5022还可以用于基于上述搜索语句、上述用户信息、上述知识实体、上述初始知识实体、上述初始需求、上述实体词和上述需求词,通过预先训练的需求分类模型,得到上述至少一个需求。该实现方式的具体处理及其所代理的技术效果可参考图4对应实施例中相应实现方式的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,属性信息获取单元503获取到的属性信息包括以下至少一种:图片信息、文字信息。该实现方式的具体处理及其所代理的技术效果可参考图2对应实施例中步骤203的可选实现方式的相关说明,在此不再赘述。
本实施例提供的信息搜索装置,通过搜索需求获取单元502基于搜索语句和用户信息,通过预先训练的分类模型,得到用户的搜索需求中的知识实体和至少一个需求,并通过属性信息获取单元503在预存的知识实体信息集合中获取上述知识实体的与上述需求一一对应的至少一个属性信息,然后通过页面生成单元504将获取到的属性信息合并为一条搜索结果加入搜索结果页面,展示出了用户需要的内容,并丰富了搜索结果的展示内容。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分606加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括硬盘等的存储部分606;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分607。通信部分607经由诸如因特网的网络执行通信处理。驱动器608也根据需要连接至I/O接口605。可拆卸介质609,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器608上,以便于从其上读出的计算机程序根据需要被安装入存储部分606。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分607从网络上被下载和安装,和/或从可拆卸介质609被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括搜索请求接收单元、搜索需求获取单元、属性信息获取单元以及页面生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,搜索请求接收单元还可以被描述为“接收搜索请求的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收搜索请求,所述搜索请求包括用户输入的搜索语句;获取所述用户的用户信息,并基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,其中,所述搜索需求包括:知识实体、与所述知识实体关联的至少一个需求;在预存的知识实体信息集合中获取所述知识实体的至少一个属性信息,其中,所述至少一个属性信息与所述至少一个需求一一对应;将获取到的属性信息合并为一条搜索结果加入搜索结果页面。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种信息搜索方法,其特征在于,所述方法包括:
接收搜索请求,所述搜索请求包括用户输入的搜索语句;
获取所述用户的用户信息,并基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,其中,所述搜索需求包括:知识实体、与所述知识实体关联的至少一个需求;
在预存的知识实体信息集合中获取所述知识实体的至少一个属性信息,其中,所述至少一个属性信息与所述至少一个需求一一对应;
将获取到的属性信息合并为一条搜索结果加入搜索结果页面;
所述基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,包括:
基于所述搜索语句和所述用户信息,通过预先训练的知识实体分类模型,得到所述知识实体;
基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收搜索请求之后,通过多模式匹配算法,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与所述搜索语句匹配的初始知识实体和初始需求;以及
所述基于所述搜索语句和所述用户信息,通过预先训练的知识实体分类模型,得到所述知识实体,包括:
基于所述搜索语句、所述用户信息、所述初始知识实体和所述初始需求,通过预先训练的知识实体分类模型,得到所述知识实体。
3.根据权利要求2所述的方法,其特征在于,所述基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求,包括:
基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体和所述初始需求,通过预先训练的需求分类模型,得到所述至少一个需求。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在接收搜索请求之后,基于所述搜索语句,通过命名实体识别算法,得到所述搜索语句中的实体词和需求词;以及
所述基于所述搜索语句、所述用户信息、所述初始知识实体和所述初始需求,通过预先训练的知识实体分类模型,得到所述知识实体,包括:
基于所述搜索语句、所述用户信息、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的知识实体分类模型,得到所述知识实体。
5.根据权利要求4所述的方法,其特征在于,所述基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求,包括:
基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的需求分类模型,得到所述至少一个需求。
6.根据权利要求1-5任一所述的方法,其特征在于,所述获取到的属性信息包括以下至少一种:图片信息、文字信息。
7.一种信息搜索装置,其特征在于,所述装置包括:
搜索请求接收单元,用于接收搜索请求,所述搜索请求包括用户输入的搜索语句;
搜索需求获取单元,用于获取所述用户的用户信息,并基于所述搜索语句和所述用户信息,通过预先训练的分类模型,得到所述用户的搜索需求,其中,所述搜索需求包括:知识实体、与所述知识实体关联的至少一个需求;
属性信息获取单元,用于在预存的知识实体信息集合中获取所述知识实体的至少一个属性信息,其中,所述至少一个属性信息与所述至少一个需求一一对应;
页面生成单元,用于将获取到的属性信息合并为一条搜索结果加入搜索结果页面;
所述搜索需求获取单元包括:
知识实体获取子单元,用于基于所述搜索语句和所述用户信息,通过预先训练的知识实体分类模型,得到所述知识实体;
需求获取子单元,用于基于所述搜索语句、所述用户信息和所述知识实体,通过预先训练的需求分类模型,得到所述至少一个需求。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
多模式匹配单元,用于在接收搜索请求之后,通过多模式匹配算法,并根据预定的匹配结果与初始知识实体和初始需求的对应关系,获得与所述搜索语句匹配的初始知识实体和初始需求;以及
所述知识实体获取子单元还用于基于所述搜索语句、所述用户信息、所述初始知识实体和所述初始需求,通过预先训练的知识实体分类模型,得到所述知识实体。
9.根据权利要求8所述的装置,其特征在于,所述需求获取子单元还用于基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体和所述初始需求,通过预先训练的需求分类模型,得到所述至少一个需求。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
命名实体识别单元,用于在接收搜索请求之后,基于所述搜索语句,通过命名实体识别算法,得到所述搜索语句中的实体词和需求词;以及
所述知识实体获取子单元还用于基于所述搜索语句、所述用户信息、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的知识实体分类模型,得到所述知识实体。
11.根据权利要求10所述的装置,其特征在于,所述需求获取子单元还用于基于所述搜索语句、所述用户信息、所述知识实体、所述初始知识实体、所述初始需求、所述实体词和所述需求词,通过预先训练的需求分类模型,得到所述至少一个需求。
12.根据权利要求7-11任一所述的装置,其特征在于,所述属性信息获取单元获取到的属性信息包括以下至少一种:图片信息、文字信息。
CN201610214064.0A 2016-04-07 2016-04-07 信息搜索方法和装置 Active CN105677931B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610214064.0A CN105677931B (zh) 2016-04-07 2016-04-07 信息搜索方法和装置
PCT/CN2016/097291 WO2017173773A1 (zh) 2016-04-07 2016-08-30 信息搜索方法和装置
KR1020187032155A KR102148691B1 (ko) 2016-04-07 2016-08-30 정보 검색 방법 및 장치
JP2018552167A JP6732938B2 (ja) 2016-04-07 2016-08-30 情報検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610214064.0A CN105677931B (zh) 2016-04-07 2016-04-07 信息搜索方法和装置

Publications (2)

Publication Number Publication Date
CN105677931A CN105677931A (zh) 2016-06-15
CN105677931B true CN105677931B (zh) 2018-06-19

Family

ID=56308607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610214064.0A Active CN105677931B (zh) 2016-04-07 2016-04-07 信息搜索方法和装置

Country Status (4)

Country Link
JP (1) JP6732938B2 (zh)
KR (1) KR102148691B1 (zh)
CN (1) CN105677931B (zh)
WO (1) WO2017173773A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677931B (zh) * 2016-04-07 2018-06-19 北京百度网讯科技有限公司 信息搜索方法和装置
CN108052613B (zh) * 2017-12-14 2021-12-31 北京百度网讯科技有限公司 用于生成页面的方法和装置
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110516226A (zh) * 2018-05-22 2019-11-29 广东神马搜索科技有限公司 搜索语句处理方法、装置及服务器
CN110134860B (zh) * 2019-04-12 2023-04-07 创新先进技术有限公司 用户画像生成方法、装置和设备
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111241400B (zh) * 2020-01-14 2023-04-25 北京字节跳动网络技术有限公司 一种信息搜索方法及装置
CN111708943B (zh) * 2020-06-12 2024-03-01 北京搜狗科技发展有限公司 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN111915366B (zh) * 2020-07-20 2024-01-12 上海燕汐软件信息科技有限公司 一种用户画像构建方法、装置、计算机设备及存储介质
CN111949793B (zh) * 2020-08-13 2024-02-27 深圳市欢太科技有限公司 用户意图识别方法、装置及终端设备
CN112925883B (zh) * 2021-02-19 2024-01-19 北京百度网讯科技有限公司 搜索请求处理方法、装置、电子设备及可读存储介质
CN113221572B (zh) * 2021-05-31 2024-05-07 抖音视界有限公司 一种信息处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN104462505A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 搜索方法和装置
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体
JP2003256466A (ja) * 2002-03-04 2003-09-12 Denso Corp 適応的情報検索システム
US7584177B2 (en) * 2005-06-29 2009-09-01 Google Inc. Determination of a desired repository
JP5013701B2 (ja) * 2005-10-26 2012-08-29 ヤフー株式会社 検索装置及び検索方法
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
JP2009282903A (ja) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> 知識抽出・検索装置およびその方法
CN102073729B (zh) * 2011-01-14 2013-03-06 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
US9665643B2 (en) * 2011-12-30 2017-05-30 Microsoft Technology Licensing, Llc Knowledge-based entity detection and disambiguation
JP5250709B1 (ja) * 2012-03-12 2013-07-31 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和系统
KR101553848B1 (ko) * 2014-02-17 2015-09-17 네이버 주식회사 검색 결과를 제공하는 방법 및 상기 방법을 수행하는 시스템
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置
CN103914566A (zh) * 2014-04-22 2014-07-09 百度在线网络技术(北京)有限公司 搜索结果的展现方法和装置
CN104199855B (zh) * 2014-08-13 2017-07-28 王和平 一种针对中医药学信息的检索系统和方法
CN105677931B (zh) * 2016-04-07 2018-06-19 北京百度网讯科技有限公司 信息搜索方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN103425741A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种信息展示方法和装置
CN104462505A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 搜索方法和装置
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置

Also Published As

Publication number Publication date
KR20180126589A (ko) 2018-11-27
CN105677931A (zh) 2016-06-15
WO2017173773A1 (zh) 2017-10-12
KR102148691B1 (ko) 2020-08-27
JP2019511065A (ja) 2019-04-18
JP6732938B2 (ja) 2020-07-29

Similar Documents

Publication Publication Date Title
CN105677931B (zh) 信息搜索方法和装置
CN107491534B (zh) 信息处理方法和装置
US20190377788A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN107908789A (zh) 用于生成信息的方法和装置
CN107273503A (zh) 用于生成同语言平行文本的方法和装置
CN107105031A (zh) 信息推送方法和装置
CN107729319A (zh) 用于输出信息的方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN107679217B (zh) 基于数据挖掘的关联内容提取方法和装置
CN110275935A (zh) 政策信息的处理方法、装置、及存储介质、电子装置
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN109145280A (zh) 信息推送的方法和装置
CN106845999A (zh) 风险用户识别方法、装置和服务器
US11443231B2 (en) Automated software selection using a vector-trained deep learning model
CN104715063B (zh) 搜索排序方法和装置
US11651015B2 (en) Method and apparatus for presenting information
CN108628830A (zh) 一种语义识别的方法和装置
CN108287927A (zh) 用于获取信息的方法及装置
CN109740167A (zh) 用于生成信息的方法和装置
CN106649661A (zh) 知识库构建方法和装置
CN110457476A (zh) 用于生成分类模型的方法和装置
CN107145497A (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
CN111914159A (zh) 一种信息推荐方法及终端
CN114817746A (zh) 保险产品推荐方法、装置、设备及存储介质
CN116821299A (zh) 智能问答方法、智能问答装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant