CN104035955B - 搜索方法和装置 - Google Patents

搜索方法和装置 Download PDF

Info

Publication number
CN104035955B
CN104035955B CN201410100928.7A CN201410100928A CN104035955B CN 104035955 B CN104035955 B CN 104035955B CN 201410100928 A CN201410100928 A CN 201410100928A CN 104035955 B CN104035955 B CN 104035955B
Authority
CN
China
Prior art keywords
information
numerical
search result
value
described search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410100928.7A
Other languages
English (en)
Other versions
CN104035955A (zh
Inventor
陈洪亮
呼大为
张卫星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410100928.7A priority Critical patent/CN104035955B/zh
Publication of CN104035955A publication Critical patent/CN104035955A/zh
Application granted granted Critical
Publication of CN104035955B publication Critical patent/CN104035955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种搜索方法和装置。其中该方法包括:接收搜索词;对搜索词进行分析以提取搜索词中的数值类需求信息;根据搜索词获取搜索结果,并根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要;以及提供搜索结果以及搜索结果对应的摘要。本发明实施例方法,能够在语义上满足用户的搜索需求,同时能够从文本上保证与搜索词的相关性。

Description

搜索方法和装置
技术领域
本发明涉及搜索技术领域,尤其涉及一种搜索方法和装置。
背景技术
随着计算机技术和网络技术的发展,国际互联网已成为人们发布信息、获取信息和交流信息的主要媒体之一。大量的信息资源存在于国际互联网中,用户可以通过国际互联网获取需要的信息,为了提高信息的获取效率,可通过搜索引擎进行搜索以获取需要的信息。为了使用户在很短时间内了解每个搜索结果的内容,可以提供搜索结果的摘要给用户,摘要是能够全面准确地反映某个搜索结果的短文。
目前,摘要主要包括:静态摘要、结构化摘要和动态摘要。其中,静态摘要可以在线下获取,每个信息资源的摘要固定,存在的问题是,不会因为用户输入搜索词的变化而变化;结构化摘要主要根据搜索词的分词结果,为搜索词的每个分词生成相应的摘要,存储的问题是,覆盖面小,仅针对特定网页;动态摘要主要根据用户的当前输入在线生成,例如,可根据搜索词在网页中出现的位置,提取出该位置周围的相关内容作为摘要,存在的问题是,无法直接将用户真正需要查找的内容提供给用户。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种搜索方法。该方法能够在语义上满足用户的搜索需求,同时能够从文本上保证与搜索词的相关性。
本发明的第二个目的在于提出一种搜索装置。
为了实现上述目的,本发明第一方面实施例的搜索方法,包括:接收搜索词;对所述搜索词进行分析以提取所述搜索词中的数值类需求信息;根据所述搜索词获取搜索结果,并根据所述数值类需求信息对所述搜索结果进行摘要提取以生成所述搜索结果对应的摘要;以及提供所述搜索结果以及所述搜索结果对应的摘要。
本发明实施例的搜索方法,对搜索词进行分析以提取数值类需求信息,并根据搜索词获取搜索结果,及根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要,并将搜索结果以及摘要提供给用户,由于直接根据搜索词的数值类需求信息提取摘要,该摘要能够直接展现用户所需求的内容,能够在语义上满足用户的搜索需求,同时提取的摘要和搜索结果同时展现,所以能够从文本上保证与搜索词的相关性,从而大大提升了用户体验。
为了实现上述目的,本发明第二方面实施例的搜索装置,包括:接收模块,用于接收搜索词;数值类需求信息提取模块,用于对所述搜索词进行分析以提取所述搜索词中的数值类需求信息;摘要生成模块,用于根据所述搜索词获取搜索结果,并根据所述数值类需求信息对所述搜索结果进行摘要提取以生成所述搜索结果对应的摘要;以及提供模块,用于提供所述搜索结果以及所述搜索结果对应的摘要。
本发明实施例的搜索装置,对搜索词进行分析以提取数值类需求信息,并根据搜索词获取搜索结果,及根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要,并将搜索结果以及摘要提供给用户,由于直接根据搜索词的数值类需求信息提取摘要,该摘要能够直接展现用户所需求的内容,能够在语义上满足用户的搜索需求,同时提取的摘要和搜索结果同时展现,所以能够从文本上保证与搜索词的相关性,从而大大提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的搜索方法的流程图;
图2(a)是根据本发明一个实施例的一个效果示意图;
图2(b)是根据本发明一个实施例的另一个效果示意图;
图3是根据本发明一个实施例的S103的具体实施过程的流程图;
图4是根据本发明一个实施例的S1031的具体实施过程的流程图;
图5是根据本发明一个实施例的搜索装置的结构示意图;
图6是根据本发明另一个实施例的搜索装置的结构示意图;
图7是根据本发明一个实施例的需求数值信息提取单元的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
目前,最常用的摘要为结构化摘要和动态摘要,但是都没有从语义的角度出发,例如,用户搜索“姚明的身高”,该用户最希望得到的结果是姚明的具体身高,例如“2.26米”等,而现有的摘要主要是基于搜索词的文本特征而提取的,主要是姚明的相关信息,为了解决现有的摘要无法满足用户的真实需要即根据语义提取的缺陷,本发明提出一种搜索方法和装置。
下面参考附图描述根据本发明实施例的搜索方法和装置。
图1是根据本发明一个实施例的搜索方法的流程图。
如图1所示,搜索方法包括:
S101,接收搜索词。
具体地,在本发明的实施例中,用户可在搜索引擎提供的输入框中输入搜索词,搜索引擎接收到用户输入的搜索词,本方法的实施例对输入框不进行限定。举例来说,用户在搜索引擎的输入框中输入“姚明的身高”。
S102,对搜索词进行分析以提取搜索词中的数值类需求信息。
举例来说,用户输入的搜索词是“姚明的身高”,对该搜索词进行分析,可以获知该用户需求信息是姚明的具体身高,所以提取搜索词中的数值类需求信息为“身高”。
S103,根据搜索词获取搜索结果,并根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要。
举例来说,根据搜索词“姚明的身高”获取搜索结果,该搜索结果可包括多个,分别为与“姚明”有关的网页,然后根据“身高”对每个搜索结果进行摘要提取,例如,在相应的搜索结果中提取的摘要中包含“姚明的身高”的具体数值“226cm”等。
S104,提供搜索结果以及搜索结果对应的摘要。
举例来说,如图2(a)所示的为本发明实施例的搜索方法的一个效果示例图,如图2(b)所示的为本发明实施例的搜索方法的另一个效果示例图。
本发明实施例的搜索方法,对搜索词进行分析以提取数值类需求信息,并根据搜索词获取搜索结果,及根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要,并将搜索结果以及摘要提供给用户,由于直接根据搜索词的数值类需求信息提取摘要,该摘要能够直接展现用户所需求的内容,能够在语义上满足用户的搜索需求,同时提取的摘要和搜索结果同时展现,所以能够从文本上保证与搜索词的相关性,从而大大提升了用户体验。
结合上述实施例,下面具体介绍S102中对搜索词进行分析以提取搜索词中的数值类需求信息的实施过程。具体地,在本发明的实施例中,数值类需求信息包括数值类型。例如,数值类型可以为重量(WEIGHT)、速度(SPEED)、年龄(AGE)、温度(TEMPERATURE)、体积(CAPACITY)、面积(AREA)、百分比(PERCENT)、价格(PRICE)、尺寸(SIZE)、长度/高度/距离(LENGTH)、电话(PHONE)和数值(VALUE)等,应理解的是,数值类型不仅限于此,本发明的实施例不对数值类型进行限定。
在本发明的实施例中,S102具体包括:在预设疑问词表中查询搜索词,其中预设疑问词表包括多个预设疑问词及每个预设疑问词的类型,并将查询到的预设疑问词的类型作为数值类需求信息的数值类型。
举例来说,如果搜索词是疑问句的形式,则可预设疑问词表中查询获取该搜索词对应的数值类型。其中,预设疑问词表包括多个预设疑问词及每个预设疑问词的类型,例如,预设疑问词表中的预设疑问词为“身高是多少”,该预设疑问词的类型为“高度”;又如,预设疑问词为“年龄是多少”,该预设疑问词的类型为“年龄”。当用户搜索“姚明的身高是多少”时,将查询到的预设疑问词的类型“高度”作为数值类需求信息的数值类型。
在本发明的另一实施例中,S102具体包括:在实体-属性表中查询搜索词,并在查询到搜索词的匹配实体时,将匹配实体对应的类型作为数值类需求信息的数值类型。
举例来说,还可以在在实体-属性表中查询搜索词以获取数值类型。例如,搜索词为“姚明的身高”,则在实体-属性表中查询搜索词,并在查询到搜索词的匹配实体(如,“人的身高”)时,将匹配实体对应的类型(“高度”)作为数值类需求信息的数值类型。
应理解的是,还可以根据现有的任何语义分析技术对搜索词进行分析以提取搜索词中的数值类需求信息,上述实施例仅为举例说明,本发明对此不进行限定。
结合上述实施例,下面具体介绍S103中根据数值类需求信息对搜索结果进行摘要提取的具体实施过程。
图3是根据本发明一个实施例的S103的具体实施过程的流程图。
在本发明的实施例中,如图3所示,S103具体包括:
S1031,根据数值类型提取搜索结果中的需求数值信息。
具体地,以搜索词为“姚明的身高”为例,则数值类型为“高度”,那么根据“高度”提取搜索结果中的需求数值信息“226cm”。
S1032,将需求数值信息作为强特征信息以生成搜索结果对应的摘要。
具体地,将需求数值信息(如,“226cm”)作为强特征信息以生成搜索结果对应的摘要,例如,生成的摘要为“姚明的身高为226cm”或“226cm”,或者生成的摘要中除了包含“226cm”还包括其它有关姚明的信息。
结合上述实施例,下面具体介绍S1031中根据数值类需求信息对搜索结果进行摘要提取的具体实施过程。
图4是根据本发明一个实施例的S1031的具体实施过程的流程图。
在本发明的实施例中,如图4所示,S1031具体包括:
S201,根据数值类型判断是否进行第一匹配。
在本发明的实施例中,第一匹配为纯数值匹配。例如,搜索词为“姚明的身高”时,可以确定具体的领域,则可以先进行指定领域的第二匹配(将在后续实施例中介绍),之后再进行第一匹配。又如,搜索词为“一共多少人参加会议”时,不能够确定具体的领域,则可以直接进行第一匹配。
S202,如果否,则根据数值类型确定具有前后缀的匹配模板,并根据匹配模板在搜索结果中进行第二匹配以获取第一数值信息,并继续执行步骤S203以进行第一匹配。
在本发明的实施例中,第二匹配为具有前后缀的匹配(即指定领域的匹配)。例如,搜索词为“姚明的身高”时,根据数值类型“身高”确定具有前后缀的匹配模板,例如匹配模板中的前缀为“姚明”,后缀为“cm或m”等,根据匹配模板在搜索结果中进行匹配以获取第一数值信息(如“2.26m”、“226cm”等)。
S203,如果是,则提取搜索结果中的多个待选数值信息,并判断每个待选数值信息是否是以词典元素为前驱或后继。
具体地,如果进行第一匹配,即纯数值匹配,则提取搜索结果中的多个待选数值信息,其中,多个待选数值信息中可能包括召回的覆盖其他领域的数值信息,例如,输入“汽车时速80km/h”,如果想识别与“重量”相关的数值信息则会误召回“80”,所以需要根据数值类型对多个待选数值信息进行筛选。可通过词典匹配进行前驱后继验证来解决上述问题,首先需要判断每个待选数值信息是否是以词典元素为前驱或后继,例如,词典元素为“时速”或“km/h”,则需要判断待选数值信息“80”是否以“时速”或“km/h”为前驱或后继。
S204,如果待选数值信息是以词典元素为前驱或后继,则剔除对应的待选数值信息,以获取第二数值信息。
具体地,如S203中的举例,待选数值信息“80”以“时速”为前驱,以“km/h”为后继,则将待选数值信息“80”剔除。
S205,如果待选数值信息不是以词典元素为前驱或后继,则对每个待选数值信息所在句子进行分词,或对每个待选数值信息的后继词进行词性标注。
具体地,在进行纯数值匹配时,尤其是对中文数值匹配时会误召回一些单个汉字的结果,但是在上下文中这个汉字并不是用于表示数量的,例如,“一共多少人参加会议”,则会召回“一”。那么,则对每个待选数值信息所在句子进行分词,在分词结果中“一共”是一个切词单元。
又如,在进行纯数值匹配时,会召回其他领域的数值信息,例如,“现在的网速是100兆的,试一下你就知道”,在这句中实际上没有我们想召回的数值信息,但是会召回“100”和“一”。对此,可以对每个待选数值信息的后继词进行词性标注。例如,对“100”的后继词“兆”进行词性标注,标注为量词。
S206,判断每个待选数值信息是否跨越分词边界,或以未知量词为后继词。
具体地,判断每个待选数值信息是否跨越分词边界,或以未知量词为后继词。例如,在S205的举例中,由于“一共”是一个切词单元,那么待选数值信息“一”跨越了分词边界;而待选数值信息“100”的后继词“兆”为搜索词所在领域之外的未知量词。
S207,如果待选数值信息跨越分词边界,或待选数值信息以未知量词为后继词,则剔除对应的待选数值信息,以获取第二数值信息。
具体地,在S206的举例中,由于“一共”是一个切词单元,那么待选数值信息“一”跨越了分词边界,则剔除待选数值信息“一”;待选数值信息“100”以未知量词为后继词,则剔除待选数值信息“100”。
S208,根据第一匹配和第二匹配的置信度在第一数值信息和第二数值信息中确定需求数值信息,其中第一匹配的置信度小于第二匹配的置信度。
在本发明的实施例中,第二匹配属于精准匹配,置信度可以设置为1,第一匹配由于不能确定领域,置信度可以设置为0.5。那么在确定需求数值信息时,可以根据置信度进行筛选。
在本发明的实施例中,S208在S204之后执行,或者在S207之后执行。
本发明实施例的搜索方法,通过纯数值匹配和/或具有前后缀的匹配对待选数值信息进行筛选,提高了筛选的准确度,进一步提升了用户体验。
为了实现上述实施例,本发明还提出一种搜索装置。
图5是根据本发明一个实施例的搜索装置的结构示意图。
如图5所示,根据本发明实施例的搜索装置包括:接收模块100、数值类需求信息提取模块200、摘要生成模块300和提供模块400。
具体地,接收模块100用于接收搜索词。其中,在本发明的实施例中,用户可在搜索引擎提供的输入框中输入搜索词,接收模块100接收到用户输入的搜索词,本方法的实施例对输入框不进行限定。举例来说,用户在搜索引擎的输入框中输入“姚明的身高”。
数值类需求信息提取模块200用于对搜索词进行分析以提取搜索词中的数值类需求信息。举例来说,用户输入的搜索词是“姚明的身高”,数值类需求信息提取模块200对该搜索词进行分析,可以获知该用户需求信息是姚明的具体身高,所以提取搜索词中的数值类需求信息为“身高”。
摘要生成模块300用于根据搜索词获取搜索结果,并根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要。举例来说,根据搜索词“姚明的身高”获取搜索结果,该搜索结果可包括多个,分别为与“姚明”有关的网页,然后根据“身高”对每个搜索结果进行摘要提取,例如,在相应的搜索结果中提取的摘要中包含“姚明的身高”的具体数值“226cm”等。
提供模块400用于提供搜索结果以及搜索结果对应的摘要。
举例来说,如图2(a)所示的为本发明实施例的搜索方法的一个效果示例图,如图2(b)所示的为本发明实施例的搜索方法的另一个效果示例图。
本发明实施例的搜索装置,对搜索词进行分析以提取数值类需求信息,并根据搜索词获取搜索结果,及根据数值类需求信息对搜索结果进行摘要提取以生成搜索结果对应的摘要,并将搜索结果以及摘要提供给用户,由于直接根据搜索词的数值类需求信息提取摘要,该摘要能够直接展现用户所需求的内容,能够在语义上满足用户的搜索需求,同时提取的摘要和搜索结果同时展现,所以能够从文本上保证与搜索词的相关性,从而大大提升了用户体验。
在本发明的实施例中,数值类需求信息包括数值类型。例如,数值类型可以为重量(WEIGHT)、速度(SPEED)、年龄(AGE)、温度(TEMPERATURE)、体积(CAPACITY)、面积(AREA)、百分比(PERCENT)、价格(PRICE)、尺寸(SIZE)、长度/高度/距离(LENGTH)、电话(PHONE)和数值(VALUE)等,应理解的是,数值类型不仅限于此,本发明的实施例不对数值类型进行限定。
在本发明的实施例中,数值类需求信息提取模块200具体用于在预设疑问词表中查询搜索词,其中预设疑问词表包括多个预设疑问词及每个预设疑问词的类型,并将查询到的预设疑问词的类型作为数值类需求信息的数值类型。
举例来说,如果搜索词是疑问句的形式,则可预设疑问词表中查询获取该搜索词对应的数值类型。其中,预设疑问词表包括多个预设疑问词及每个预设疑问词的类型,例如,预设疑问词表中的预设疑问词为“身高是多少”,该预设疑问词的类型为“高度”;又如,预设疑问词为“年龄是多少”,该预设疑问词的类型为“年龄”。当用户搜索“姚明的身高是多少”时,将查询到的预设疑问词的类型“高度”作为数值类需求信息的数值类型。
在本发明的另一实施例中,数值类需求信息提取模块200具体用于在实体-属性表中查询搜索词,并在查询到搜索词的匹配实体时,将匹配实体对应的类型作为数值类需求信息的数值类型。
举例来说,还可以在在实体-属性表中查询搜索词以获取数值类型。例如,搜索词为“姚明的身高”,则在实体-属性表中查询搜索词,并在查询到搜索词的匹配实体(如,“人的身高”)时,将匹配实体对应的类型(“高度”)作为数值类需求信息的数值类型。
应理解的是,还可以根据现有的任何语义分析技术对搜索词进行分析以提取搜索词中的数值类需求信息,上述实施例仅为举例说明,本发明对此不进行限定。
图6是根据本发明另一个实施例的搜索装置的结构示意图。
如图6所示,根据本发明实施例的搜索装置包括:接收模块100、数值类需求信息提取模块200、摘要生成模块300和提供模块400,其中,摘要生成模块300包括需求数值信息提取单元310和摘要生成单元320。
具体地,需求数值信息提取单元310用于根据数值类型提取搜索结果中的需求数值信息。更具体地,以搜索词为“姚明的身高”为例,则数值类型为“高度”,那么根据“高度”提取搜索结果中的需求数值信息“226cm”。
摘要生成单元320用于将需求数值信息作为强特征信息以生成搜索结果对应的摘要。更具体地,将需求数值信息(如,“226cm”)作为强特征信息以生成搜索结果对应的摘要,例如,生成的摘要为“姚明的身高为226cm”或“226cm”,或者生成的摘要中除了包含“226cm”还包括其它有关姚明的信息。
结合上述实施例,下面具体介绍需求数值信息提取单元310。
图7是根据本发明一个实施例的需求数值信息提取单元的结构示意图。
在本发明的实施例中,如图7所示,需求数值信息提取单元310包括:判断子单元311、第一数值信息获取子单元312、第二数值信息获取子单元313和选择子单元314。
具体地,判断子单元311用于根据数值类型判断是否进行第一匹配。
在本发明的实施例中,第一匹配为纯数值匹配。例如,搜索词为“姚明的身高”时,可以确定具体的领域,则可以先进行指定领域的第二匹配(将在后续实施例中介绍),之后再进行第一匹配。又如,搜索词为“一共多少人参加会议”时,不能够确定具体的领域,则可以直接进行第一匹配。
第一数值信息获取子单元312用于在判断子单元311判断不进行第一匹配时,根据数值类型确定具有前后缀的匹配模板,并根据匹配模板在搜索结果中进行第二匹配以获取第一数值信息。
在本发明的实施例中,在本发明的实施例中,第二匹配为具有前后缀的匹配(即指定领域的匹配)。例如,搜索词为“姚明的身高”时,根据数值类型“身高”确定具有前后缀的匹配模板,例如匹配模板中的前缀为“姚明”,后缀为“cm或m”等,根据匹配模板在搜索结果中进行匹配以获取第一数值信息(如“2.26m”、“226cm”等)。
第二数值信息获取子单元313用于在判断子单元311判断进行第一匹配时,提取搜索结果中的多个待选数值信息,并根据数值类型对多个待选数值信息进行筛选以获取第二数值信息。
具体地,如果进行第一匹配,即纯数值匹配,则提取搜索结果中的多个待选数值信息,其中,多个待选数值信息中可能包括召回的覆盖其他领域的数值信息,例如,输入“汽车时速80km/h”,如果想识别与“重量”相关的数值信息则会误召回“80”,所以需要根据数值类型对多个待选数值信息进行筛选以获取第二数值信息。
选择子单元314用于根据第一匹配和第二匹配的置信度在第一数值信息和第二数值信息中确定需求数值信息,其中第一匹配的置信度小于第二匹配的置信度。
在本发明的实施例中,第二匹配属于精准匹配,置信度可以设置为1,第一匹配由于不能确定领域,置信度可以设置为0.5。那么在确定需求数值信息时,可以根据置信度进行筛选。
结合上述实施例,下面具体介绍第二数值信息获取子单元313的功能。
在本发明的实施例中,第二数值信息获取子单元313具体用于判断每个待选数值信息是否是以词典元素为前驱或后继;如果是,则剔除对应的待选数值信息;如果否,则对每个待选数值信息所在句子进行分词,或对每个待选数值信息的后继词进行词性标注;判断每个待选数值信息是否跨越分词边界,或以未知量词为后继词;如果是,则剔除对应的待选数值信息。
具体地,举例来说,在进行纯数值匹配时,会召回其他领域的数值信息,例如,输入“汽车时速80km/h”,如果想识别与“重量”相关的数值信息则会误召回“80”。那么可通过词典匹配进行前驱后继验证来解决。首先需要判断每个待选数值信息是否是以词典元素为前驱或后继,例如,词典元素为“时速”或“km/h”,则需要判断待选数值信息“80”是否以“时速”或“km/h”为前驱或后继,待选数值信息“80”以“时速”为前驱,以“km/h”为后继,则将待选数值信息“80”剔除。
具体地,在进行纯数值匹配时,尤其是对中文数值匹配时会误召回一些单个汉字的结果,但是在上下文中这个汉字并不是用于表示数量的,例如,“一共多少人参加会议”,则会召回“一”。那么,则对每个待选数值信息所在句子进行分词,在分词结果中“一共”是一个切词单元,那么待选数值信息“一”跨越了分词边界。
又如,在进行纯数值匹配时,会召回其他领域的数值信息,例如,“现在的网速是100兆的,试一下你就知道”,在这句中实际上没有我们想召回的数值信息,但是会召回“100”和“一”。对此,可以对每个待选数值信息的后继词进行词性标注。例如,对“100”的后继词“兆”进行词性标注,标注为量词。而待选数值信息“100”的后继词“兆”为搜索词所在领域之外的未知量词,所以剔除待选数值信息“100”。
本发明实施例的搜索装置,通过纯数值匹配和/或具有前后缀的匹配对待选数值信息进行筛选,提高了筛选的准确度,进一步提升了用户体验。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种搜索方法,其特征在于,包括:
接收搜索词;
对所述搜索词进行分析以提取所述搜索词中的数值类需求信息;其中,所述数值类需求信息包括数值类型;
根据所述搜索词获取搜索结果,并根据所述数值类需求信息对所述搜索结果进行摘要提取以生成所述搜索结果对应的摘要;以及
提供所述搜索结果以及所述搜索结果对应的摘要;
其中,所述根据所述数值类需求信息对所述搜索结果进行摘要提取具体过程包括:
根据所述数值类型提取所述搜索结果中的需求数值信息;以及
将所述需求数值信息作为强特征信息以生成所述搜索结果对应的摘要;
其中,所述根据数值类型提取所述搜索结果中的需求数值信息具体包括:
S1:根据所述数值类型判断是否进行第一匹配;
S2:如果否,则根据所述数值类型确定具有前后缀的匹配模板,并根据所述匹配模板在所述搜索结果中进行第二匹配以获取第一数值信息,并继续执行步骤S3以进行所述第一匹配;
S3:如果是,则提取所述搜索结果中的多个待选数值信息,并根据所述数值类型对所述多个待选数值信息进行筛选以获取第二数值信息;
S4:根据所述第一匹配和所述第二匹配的置信度在所述第一数值信息和所述第二数值信息中确定所述需求数值信息,其中所述第一匹配的置信度小于所述第二匹配的置信度。
2.根据权利要求1所述的方法,其特征在于,所述对搜索词进行分析以提取所述搜索词中的数值类需求信息具体包括:
在预设疑问词表中查询所述搜索词,其中所述预设疑问词表包括多个预设疑问词及每个预设疑问词的类型,并将查询到的所述预设疑问词的类型作为所述数值类需求信息的所述数值类型;或
在实体-属性表中查询所述搜索词,并在查询到所述搜索词的匹配实体时,将所述匹配实体对应的类型作为所述数值类需求信息的所述数值类型。
3.根据权利要求1所述的方法,其特征在于,所述根据数值类型对所述多个待选数值信息进行筛选以获取第二数值信息具体包括:
判断每个待选数值信息是否是以词典元素为前驱或后继;
如果是,则剔除对应的所述待选数值信息;
如果否,则对所述每个待选数值信息所在句子进行分词,或对所述每个待选数值信息的后继词进行词性标注;
判断所述每个待选数值信息是否跨越分词边界,或以未知量词为所述后继词;
如果是,则剔除对应的所述待选数值信息。
4.一种搜索装置,其特征在于,包括:
接收模块,用于接收搜索词;
数值类需求信息提取模块,用于对所述搜索词进行分析以提取所述搜索词中的数值类需求信息;其中,所述数值类需求信息包括数值类型;
摘要生成模块,用于根据所述搜索词获取搜索结果,并根据所述数值类需求信息对所述搜索结果进行摘要提取以生成所述搜索结果对应的摘要;以及
提供模块,用于提供所述搜索结果以及所述搜索结果对应的摘要;
所述摘要生成模块包括:
需求数值信息提取单元,用于根据所述数值类型提取所述搜索结果中的需求数值信息;以及
摘要生成单元,用于将所述需求数值信息作为强特征信息以生成所述搜索结果对应的摘要;
所述需求数值信息提取单元包括:
判断子单元,用于根据所述数值类型判断是否进行第一匹配;
第一数值信息获取子单元,用于在所述判断子单元判断不进行第一匹配时,根据所述数值类型确定具有前后缀的匹配模板,并根据所述匹配模板在所述搜索结果中进行第二匹配以获取第一数值信息;
第二数值信息获取子单元,用于在所述判断子单元判断进行第一匹配时,提取所述搜索结果中的多个待选数值信息,并根据所述数值类型对所述多个待选数值信息进行筛选以获取第二数值信息;以及
选择子单元,用于根据所述第一匹配和所述第二匹配的置信度在所述第一数值信息和所述第二数值信息中确定所述需求数值信息,其中所述第一匹配的置信度小于所述第二匹配的置信度。
5.根据权利要求4所述的装置,其特征在于,所述数值类需求信息提取模块具体用于,
在预设疑问词表中查询所述搜索词,其中所述预设疑问词表包括多个预设疑问词及每个预设疑问词的类型,并将查询到的所述预设疑问词的类型作为所述数值类需求信息的所述数值类型;或
在实体-属性表中查询所述搜索词,并在查询到所述搜索词的匹配实体时,将所述匹配实体对应的类型作为所述数值类需求信息的所述数值类型。
6.根据权利要求4所述的装置,其特征在于,所述第二数值信息获取子单元具体用于,
判断每个待选数值信息是否是以词典元素为前驱或后继;
如果是,则剔除对应的所述待选数值信息;
如果否,则对所述每个待选数值信息所在句子进行分词,或对所述每个待选数值信息的后继词进行词性标注;
判断所述每个待选数值信息是否跨越分词边界,或以未知量词为所述后继词;
如果是,则剔除对应的所述待选数值信息。
CN201410100928.7A 2014-03-18 2014-03-18 搜索方法和装置 Active CN104035955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410100928.7A CN104035955B (zh) 2014-03-18 2014-03-18 搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410100928.7A CN104035955B (zh) 2014-03-18 2014-03-18 搜索方法和装置

Publications (2)

Publication Number Publication Date
CN104035955A CN104035955A (zh) 2014-09-10
CN104035955B true CN104035955B (zh) 2018-07-10

Family

ID=51466725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410100928.7A Active CN104035955B (zh) 2014-03-18 2014-03-18 搜索方法和装置

Country Status (1)

Country Link
CN (1) CN104035955B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227774B (zh) * 2016-07-15 2019-09-20 海信集团有限公司 信息搜索方法及装置
CN106503056B (zh) * 2016-09-27 2019-08-27 北京百度网讯科技有限公司 基于人工智能的搜索结果摘要的生成方法及装置
CN106777273A (zh) * 2016-12-29 2017-05-31 杭州泰指尚科技有限公司 一种地图围栏匹配方法
CN107832414B (zh) * 2017-11-07 2021-10-22 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN109446399A (zh) * 2018-10-16 2019-03-08 北京信息科技大学 一种影视实体搜索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101373486A (zh) * 2008-10-16 2009-02-25 北京航空航天大学 一种基于用户兴趣模型的个性化摘要系统
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法
CN103425744A (zh) * 2013-07-17 2013-12-04 百度在线网络技术(北京)有限公司 一种用于识别用户的查询序列中的寻址需求的方法与设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336116B1 (en) * 1998-08-06 2002-01-01 Ryan Brown Search and index hosting system
US6931397B1 (en) * 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
CN101458718B (zh) * 2009-01-05 2010-12-08 北京大学 一种搜索引擎动态摘要提取方法
CN102073725B (zh) * 2011-01-11 2013-05-08 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN103377226B (zh) * 2012-04-25 2016-08-03 中国移动通信集团公司 一种智能检索方法及其系统
CN104820685B (zh) * 2012-06-28 2019-02-22 北京奇虎科技有限公司 一种社交类网络搜索方法及社交类网络搜索系统
CN103530299B (zh) * 2012-07-05 2017-04-12 阿里巴巴集团控股有限公司 一种搜索结果的生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101373486A (zh) * 2008-10-16 2009-02-25 北京航空航天大学 一种基于用户兴趣模型的个性化摘要系统
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法
CN103425744A (zh) * 2013-07-17 2013-12-04 百度在线网络技术(北京)有限公司 一种用于识别用户的查询序列中的寻址需求的方法与设备

Also Published As

Publication number Publication date
CN104035955A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104035955B (zh) 搜索方法和装置
WO2020253591A1 (zh) 运用标签知识网络的搜索方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106156204B (zh) 文本标签的提取方法和装置
CN105975558B (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN106815192B (zh) 模型训练方法及装置和语句情感识别方法及装置
CN104794212B (zh) 基于用户评论文本的上下文情感分类方法及分类系统
CN111191022B (zh) 商品短标题生成方法及装置
CN109376251A (zh) 一种基于词向量学习模型的微博中文情感词典构建方法
CN108829893A (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104537341B (zh) 人脸图片信息获取方法和装置
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN102279890A (zh) 基于微博的情感词提取收集方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN106897290B (zh) 一种建立关键词模型的方法及装置
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN104850537B (zh) 对文本内容进行筛选的方法及装置
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant