CN104462272A - 搜索需求分析方法和装置 - Google Patents

搜索需求分析方法和装置 Download PDF

Info

Publication number
CN104462272A
CN104462272A CN201410687222.5A CN201410687222A CN104462272A CN 104462272 A CN104462272 A CN 104462272A CN 201410687222 A CN201410687222 A CN 201410687222A CN 104462272 A CN104462272 A CN 104462272A
Authority
CN
China
Prior art keywords
search
word
feature
conjunctive
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410687222.5A
Other languages
English (en)
Other versions
CN104462272B (zh
Inventor
付志宏
周古月
贺旭
何径舟
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410687222.5A priority Critical patent/CN104462272B/zh
Publication of CN104462272A publication Critical patent/CN104462272A/zh
Application granted granted Critical
Publication of CN104462272B publication Critical patent/CN104462272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种搜索需求分析方法和装置,其中,该搜索需求分析方法包括以下步骤:获取搜索词,并获取搜索词对应的多个关联词;抽取搜索词的特征并作为原始特征,并抽取多个关联词的特征并作为关联特征;以及根据原始特征和关联特征获取搜索需求。本发明的搜索需求分析方法,能够准确地获取用户的搜索需求,从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果,进而在提高了搜索的准确率的同时,还提高了搜索的召回率。此外,搜索需求的分析过程与语言无关,因此可方便地在多个不同语种之间进行迁移,更加方便。

Description

搜索需求分析方法和装置
技术领域
本发明涉及搜索技术领域,特别涉及一种搜索需求分析方法和装置。
背景技术
传统的关键词匹配搜索引擎,由于只是对搜索词query进行分词,利用得到的关键词到索引数据中进行检索,并不真正完全理解用户的检索意图,导致检索出的结果仅是包含搜索词中的关键词的结果,并不一定能够满足用户的检索需求。例如Query“刘德华的图片”,在传统的搜索引擎中将分别用“刘德华”和“图片”两个关键词在索引数据中进行检索,检索结果只是包含关键词“刘德华”或者包含关键词“图片”的数据,而非用户真正想获得的“刘德华图片”的数据资源。
因此可进行搜索需求分析的搜索引擎,在现代搜索引擎中扮演着越来越重要的作用。搜索需求分析即分析搜索词的结构与成分,从语义上理解搜索词的检索需求,从而识别出用户的检索意图,从语义上理解query的检索需求,除了能够提供更精准的检索结果之外,还能够针对用户的检索需求,提供更灵活的产品形态。例如Query“刘德华的图片”进行需求识别之后,可以直接提供用户需要的刘德华图片资源。
搜索需求分析目前大多采用模板匹配或者利用Query的检索结果训练机器学习模型的方法。其中模板匹配虽然准确率很高,但是检索结果不够全面,召回率很低,并且模板挖掘依赖于大量人力工作,需要针对每一类需求进行模板挖掘,工作量大,而且语种之间无法迁移;而利用Query检索结果训练机器学习模型的方法完全依赖于检索结果的准确性,准确率很难获得保证,从而导致根据训练的及其学习模型进行搜索得到的结果的准确率也无法保证。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种搜索需求分析方法,在提高了搜索的准确率的同时,还提高了搜索的召回率,可方便地在多个不同语种之间进行迁移,更加方便。
本发明的第二个目的在于提出一种搜索需求分析装置。
为达上述目的,根据本发明第一方面实施例提出了一种搜索需求分析方法,包括以下步骤:获取搜索词,并获取所述搜索词对应的多个关联词;抽取所述搜索词的特征并作为原始特征,并抽取所述多个关联词的特征并作为关联特征;以及根据所述原始特征和所述关联特征获取搜索需求。
本发明实施例的搜索需求分析方法,通过获取搜索词对应的多个关联词,并分别抽取搜索词的特征和多个关联词的特征,根据搜索词的特征和关联词的特征获取搜索需求,能够准确地获取用户的搜索需求,从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果,进而在提高了搜索的准确率的同时,还提高了搜索的召回率。此外,搜索需求的分析过程与语言无关,因此可方便地在多个不同语种之间进行迁移,更加方便。
本发明第二方面实施例提供了一种搜索需求分析装置,包括:第一获取模块,用于获取搜索词,并获取所述搜索词对应的多个关联词;抽取模块,用于抽取所述搜索词的特征并作为原始特征,并抽取所述多个关联词的特征并作为关联特征;以及第二获取模块,用于根据所述原始特征和所述关联特征获取搜索需求。
本发明实施例的搜索需求分析装置,通过获取搜索词对应的多个关联词,并分别抽取搜索词的特征和多个关联词的特征,根据搜索词的特征和关联词的特征获取搜索需求,能够准确地获取用户的搜索需求,从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果,进而在提高了搜索的准确率的同时,还提高了搜索的召回率。此外,搜索需求的分析过程与语言无关,因此可方便地在多个不同语种之间进行迁移,更加方便。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的搜索需求分析方法的流程图;
图2为根据本发明一个实施例的抽取搜索词的特征并作为原始特征的流程图;
图3a为根据本发明实施例的中文的搜索结果示意图;
图3b为根据本发明实施例的葡萄牙语的搜索结果示意图;
图3c为根据本发明实施例的阿拉伯语的搜索结果示意图;
图4为根据本发明一个实施例的搜索需求分析装置的结构示意图;
图5为根据本发明一个具体实施例的搜索需求分析装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的搜索需求分析方法和装置。
为了提高搜索需求分析中搜索结果的准确率和召回率,本发明提出了一种搜索需求分析方法,包括以下步骤:获取搜索词,并获取搜索词对应的多个关联词;抽取搜索词的特征并作为原始特征,并抽取多个关联词的特征并作为关联特征;以及根据原始特征和关联特征获取搜索需求。
图1为根据本发明一个实施例的搜索需求分析方法的流程图。如图1所示,根据本发明实施例的搜索需求分析方法,包括:
S101,获取搜索词,并获取搜索词对应的多个关联词。
其中,搜索词为用户进行搜索时输入的,可以是一个词语或者多个词语的组合。关联词是与搜索词字面相近或者语义相近的词语。举例来说,对于搜索词“刘德华的图片”,对应的关联词可为“刘德华头像”、“刘德华图片版”、“刘德华写真”、“精选华仔图片”和“刘德华壁纸”等。
具体地,在本发明的实施例中,获取搜索词对应的多个关联词具体包括:
以搜索词为中心将与搜索词之间的编辑距离小于预设距离的词作为关联词;和/或对搜索词进行语义分析,并将与搜索词语义近似的词作为关联词。
其中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,可用于表示词串之间的相似度。因此,可通过编辑距离从搜索词的组成结构上挖掘出与搜索词字面相关联的关联词。
通过对搜索词进行语义分析,可从语义上挖掘出与搜索词相关联的关联词。
此外,为了能够全面地获取搜索词对应的关联词,可同时从字面以及语义两方面挖掘搜索词的关联词。
S102,抽取搜索词的特征并作为原始特征,并抽取多个关联词的特征并作为关联特征。
在本发明的实施例中,抽取搜索词的特征并作为原始特征可通过如图2所示的方法实现,具体地,如图2所示,抽取搜索词的特征并作为原始特征,包括:
S201,提取搜索词中的专名、专名类别以及各个成分的语义TAG信息。
其中,专名是用于指称实体的词或词组,举例来说,可以分为人名、地名、朝代名、种族名、国名、机构名等不同的专名类别。
语义TAG信息为搜索词中各个成分的语义标签。举例来说对于搜索词中的一个成分“刘德华”的语义标签可以是“电影演员”、“歌手”、“港台明星”、“华仔”等。
S202,提取搜索词的组成结构。
S203,根据搜索词中的专名、专名类别、各个成分的语义TAG信息以及组成结构生成搜索词的描述模板,并将描述模板作为原始特征。
在本发明的实施例中,一方面可通过对关联词本身进行分析以抽取搜索词的特征。具体地,可对关联词进行分词以抽取与搜索词相关且不包含搜索词的多个关键词,然后,从多个关键词中选择与搜索词需求相关的特征词,并将特征词作为多个关联词的特征。举例来说,如果对关联词进行分词后得到一个不包含搜索词的关键词有“壁纸”、“写真”、“精选”等,则可得到与搜索词需求相关的特征词“壁纸”和“写真”,并作为关联特征。
另一方面,还可通过对根据关联词获取的搜索结果或通过对用户点击日志进行分析以抽取搜索词的特征。具体地,可获取多个关联词的多个搜索结果或用户点击日志,然后,从多个关联词的多个搜索结果或用户点击日志中抽取关联词的Title特征、搜索特征和点击特征中的一种或多种,并将Title特征、搜索特征和点击特征中的一种或多种作为关联特征。
S103,根据原始特征和关联特征获取搜索需求。
在本发明的一个实施例中,具体地,可根据原始特征和关联特征查询搜索需求识别模型以获取搜索需求。
从而,搜索引擎可根据得到的搜索需求获取更符合用户需要的结果。因此,更能符合用户需求,提高了搜索的准确率更高,另外,能够比较全面地获取与搜索词相关的搜索结果,提高了搜索的召回率。
具体地,搜索效果可如图3所示,图3a、图3b和图3c分别为根据本发明实施例的中文、葡萄牙语、阿拉伯语的搜索结果示意图。
如图3a所示,对于搜索词“刘德华的图片”,搜索结果主要是关于刘德华的图片类或相关结果,而不再是传统的包含“刘德华”、“图片”字眼的结果。
图3b和图3c分别是对于搜索词葡萄牙语“a vassoura da bruxa”(巫师的扫把)和阿拉伯语(美丽的阿巴利亚晚礼服)得到的搜索结果。
本发明实施例的搜索需求分析方法,通过获取搜索词对应的多个关联词,并分别抽取搜索词的特征和多个关联词的特征,根据搜索词的特征和关联词的特征获取搜索需求,能够准确地获取用户的搜索需求,从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果,进而在提高了搜索的准确率的同时,还提高了搜索的召回率。此外,搜索需求的分析过程与语言无关,因此可方便地在多个不同语种之间进行迁移,更加方便。
为了实现上述实施例,本发明还提出一种搜索需求分析装置。
一种搜索需求分析装置,包括:第一获取模块,用于获取搜索词,并获取搜索词对应的多个关联词;抽取模块,用于抽取搜索词的特征并作为原始特征,并抽取多个关联词的特征并作为关联特征;以及第二获取模块,用于根据原始特征和关联特征获取搜索需求。
图4为根据本发明一个实施例的搜索需求分析装置的结构示意图。
如图4所示,根据本发明实施例的搜索需求分析装置,包括:第一获取模块10、抽取模块20和第二获取模块30。
具体地,第一获取模块10用于获取搜索词,并获取搜索词对应的多个关联词。
其中,搜索词为用户进行搜索时输入的,可以是一个词语或者多个词语的组合。关联词是与搜索词字面相近或者语义相近的词语。举例来说,对于搜索词“刘德华的图片”,对应的关联词可为“刘德华头像”、“刘德华图片版”、“刘德华写真”、“精选华仔图片”和“刘德华壁纸”等。
更具体地,在本发明的实施例中,第一获取模块10具体用于:以搜索词为中心将与搜索词之间的编辑距离小于预设距离的词作为关联词;和/或对搜索词进行语义分析,并将与搜索词语义近似的词作为关联词。
其中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,可用于表示词串之间的相似度。因此,第一获取模块10可通过编辑距离从搜索词的组成结构上挖掘出与搜索词字面相关联的关联词。
通过对搜索词进行语义分析,第一获取模块10可从语义上挖掘出与搜索词相关联的关联词。
此外,为了能够全面地获取搜索词对应的关联词,第一获取模块10可同时从字面以及语义两方面挖掘搜索词的关联词。
抽取模块20用于抽取搜索词的特征并作为原始特征,并抽取多个关联词的特征并作为关联特征。
更具体地,在本发明的实施例中,如图5所示,抽取模块20可具体包括:第一提取单元21、第二提取单元22和生成单元23,并通过第一提取单元21、第二提取单元22和生成单元23抽取搜索词的特征并作为原始特征。其中:
第一提取单元21用于提取搜索词中的专名、专名类别以及各个成分的语义TAG标签信息;其中,专名是用于指称实体的词或词组,举例来说,可以分为人名、地名、朝代名、种族名、国名、机构名等不同的专名类别。
语义TAG信息为搜索词中各个成分的语义标签。举例来说对于搜索词中的一个成分“刘德华”的语义标签可以是“电影演员”、“歌手”、“港台明星”、“华仔”等。
第二提取单元22用于提取搜索词的组成结构;
生成单元23用于根据搜索词中的专名、专名类别、各个成分的语义TAG信息以及组成结构生成搜索词的描述模板,并将描述模板作为原始特征。
在本发明的实施例中,如图5所示,一方面抽取模块20可通过分词单元24和选择单元25对关联词本身进行分析以抽取搜索词的特征,其中:
分词单元24用于对关联词进行分词以抽取与搜索词相关且不包含搜索词的多个关键词;
选择单元25用于从多个关键词中选择与搜索词需求相关的特征词,并将特征词作为多个关联词的特征。
举例来说,如果对关联词进行分词后得到一个不包含搜索词的关键词有“壁纸”、“写真”、“精选”等,则可得到与搜索词需求相关的特征词“壁纸”和“写真”,并作为关联特征。
另一方面,抽取模块20还可通过获取单元26和抽取单元27对根据关联词获取的搜索结果或通过对用户点击日志进行分析以抽取搜索词的特征,其中:
获取单元26用于获取多个关联词的多个搜索结果或用户点击日志;
抽取单元27用于从多个关联词的多个搜索结果或用户点击日志中抽取关联词的Title特征、搜索特征和点击特征中的一种或多种,并将Title特征、搜索特征和点击特征中的一种或多种作为关联特征。
第二获取模块30用于根据原始特征和关联特征获取搜索需求。
在本发明的一个实施例中,第二获取模块30具体用于:根据原始特征和关联特征查询搜索需求识别模型以获取搜索需求。
从而,搜索引擎可根据得到的搜索需求获取更符合用户需要的结果。因此,更能符合用户需求,提高了搜索的准确率更高,另外,能够比较全面地获取与搜索词相关的搜索结果,提高了搜索的召回率。
具体地,搜索效果可如图3所示,图3a、图3b和图3c分别为根据本发明实施例的中文、葡萄牙语、阿拉伯语的搜索结果示意图。
如图3a所示,对于搜索词“刘德华的图片”,搜索结果主要是关于刘德华的图片类或相关结果,而不再是传统的包含“刘德华”、“图片”字眼的结果。
图3b和图3c分别是对于搜索词葡萄牙语“a vassoura da bruxa”(巫师的扫把)和阿拉伯语(美丽的阿巴利亚晚礼服)得到的搜索结果。
本发明实施例的搜索需求分析装置,通过获取搜索词对应的多个关联词,并分别抽取搜索词的特征和多个关联词的特征,根据搜索词的特征和关联词的特征获取搜索需求,能够准确地获取用户的搜索需求,从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果,进而在提高了搜索的准确率的同时,还提高了搜索的召回率。此外,搜索需求的分析过程与语言无关,因此可方便地在多个不同语种之间进行迁移,更加方便。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (12)

1.一种搜索需求分析方法,其特征在于,包括以下步骤:
获取搜索词,并获取所述搜索词对应的多个关联词;
抽取所述搜索词的特征并作为原始特征,并抽取所述多个关联词的特征并作为关联特征;以及
根据所述原始特征和所述关联特征获取搜索需求。
2.如权利要求1所述的搜索需求分析方法,其特征在于,所述根据所述原始特征和所述关联特征获取搜索需求具体包括:
根据所述原始特征和所述关联特征查询搜索需求识别模型以获取所述搜索需求。
3.如权利要求1所述的搜索需求分析方法,其特征在于,所述获取所述搜索词对应的多个关联词具体包括:
以所述搜索词为中心将与所述搜索词之间的编辑距离小于预设距离的词作为所述关联词;和/或
对所述搜索词进行语义分析,并将与所述搜索词语义近似的词作为所述关联词。
4.如权利要求1所述的搜索需求分析方法,其特征在于,所述抽取所述搜索词的特征并作为原始特征具体包括:
提取所述搜索词中的专名、专名类别以及各个成分的语义TAG标签信息;
提取所述搜索词的组成结构;
根据所述搜索词中的专名、所述专名类别、所述各个成分的语义TAG信息以及所述组成结构生成所述搜索词的描述模板,并将所述描述模板作为所述原始特征。
5.如权利要求1所述的搜索需求分析方法,其特征在于,所述抽取所述多个关联词的特征并作为关联特征具体包括:
对所述关联词进行分词以抽取与所述搜索词相关且不包含所述搜索词的多个关键词;
从所述多个关键词中选择与所述搜索词需求相关的特征词,并将所述特征词作为所述多个关联词的特征。
6.如权利要求1所述的搜索需求分析方法,其特征在于,所述抽取所述多个关联词的特征并作为关联特征具体包括:
获取所述多个关联词的多个搜索结果或用户点击日志;以及
从所述多个关联词的多个搜索结果或用户点击日志中抽取所述关联词的Title特征、搜索特征和点击特征中的一种或多种,并将所述Title特征、搜索特征和点击特征中的一种或多种作为所述关联特征。
7.一种搜索需求分析装置,其特征在于,包括:
第一获取模块,用于获取搜索词,并获取所述搜索词对应的多个关联词;
抽取模块,用于抽取所述搜索词的特征并作为原始特征,并抽取所述多个关联词的特征并作为关联特征;以及
第二获取模块,用于根据所述原始特征和所述关联特征获取搜索需求。
8.如权利要求7所述的搜索需求分析装置,其特征在于,所述第二获取模块具体用于:
根据所述原始特征和所述关联特征查询搜索需求识别模型以获取所述搜索需求。
9.如权利要求7所述的搜索需求分析装置,其特征在于,所述第一获取模块具体用于:
以所述搜索词为中心将与所述搜索词之间的编辑距离小于预设距离的词作为所述关联词;和/或
对所述搜索词进行语义分析,并将与所述搜索词语义近似的词作为所述关联词。
10.如权利要求7所述的搜索需求分析装置,其特征在于,所述抽取模块具体包括:
第一提取单元,用于提取所述搜索词中的专名、专名类别以及各个成分的语义TAG标签信息;
第二提取单元,用于提取所述搜索词的组成结构;
生成单元,用于根据所述搜索词中的专名、所述专名类别、所述各个成分的语义TAG信息以及所述组成结构生成所述搜索词的描述模板,并将所述描述模板作为所述原始特征。
11.如权利要求7所述的搜索需求分析装置,其特征在于,所述抽取模块具体包括:
分词单元,用于对所述关联词进行分词以抽取与所述搜索词相关且不包含所述搜索词的多个关键词;
选择单元,用于从所述多个关键词中选择与所述搜索词需求相关的特征词,并将所述特征词作为所述多个关联词的特征。
12.如权利要求7所述的搜索需求分析装置,其特征在于,所述抽取模块具体包括:
获取单元,用于获取所述多个关联词的多个搜索结果或用户点击日志;以及
抽取单元,用于从所述多个关联词的多个搜索结果或用户点击日志中抽取所述关联词的Title特征、搜索特征和点击特征中的一种或多种,并将所述Title特征、搜索特征和点击特征中的一种或多种作为所述关联特征。
CN201410687222.5A 2014-11-25 2014-11-25 搜索需求分析方法和装置 Active CN104462272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410687222.5A CN104462272B (zh) 2014-11-25 2014-11-25 搜索需求分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410687222.5A CN104462272B (zh) 2014-11-25 2014-11-25 搜索需求分析方法和装置

Publications (2)

Publication Number Publication Date
CN104462272A true CN104462272A (zh) 2015-03-25
CN104462272B CN104462272B (zh) 2018-05-04

Family

ID=52908308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410687222.5A Active CN104462272B (zh) 2014-11-25 2014-11-25 搜索需求分析方法和装置

Country Status (1)

Country Link
CN (1) CN104462272B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN106681598A (zh) * 2017-01-13 2017-05-17 北京百度网讯科技有限公司 信息输入方法和装置
CN107480162A (zh) * 2017-06-15 2017-12-15 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
WO2017219696A1 (zh) * 2016-06-24 2017-12-28 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN107832468A (zh) * 2017-11-29 2018-03-23 百度在线网络技术(北京)有限公司 需求识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2093767A2 (en) * 2005-01-07 2009-08-26 Samsung Electronics Co., Ltd. Storage medium storing metadata for providing enhanced search function
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102194006A (zh) * 2011-05-30 2011-09-21 李郁文 一种集合团队个性化特征的搜索系统和方法
US8315998B1 (en) * 2003-04-28 2012-11-20 Verizon Corporate Services Group Inc. Methods and apparatus for focusing search results on the semantic web
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN103514299A (zh) * 2013-10-18 2014-01-15 北京奇虎科技有限公司 信息搜索方法和装置
US20140019452A1 (en) * 2011-02-18 2014-01-16 Tencent Technology (Shenzhen) Company Limited Method and apparatus for clustering search terms
CN103970891A (zh) * 2014-05-23 2014-08-06 三星电子(中国)研发中心 一种基于情境的用户兴趣信息查询方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315998B1 (en) * 2003-04-28 2012-11-20 Verizon Corporate Services Group Inc. Methods and apparatus for focusing search results on the semantic web
EP2093767A2 (en) * 2005-01-07 2009-08-26 Samsung Electronics Co., Ltd. Storage medium storing metadata for providing enhanced search function
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
US20140019452A1 (en) * 2011-02-18 2014-01-16 Tencent Technology (Shenzhen) Company Limited Method and apparatus for clustering search terms
CN102194006A (zh) * 2011-05-30 2011-09-21 李郁文 一种集合团队个性化特征的搜索系统和方法
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN103514299A (zh) * 2013-10-18 2014-01-15 北京奇虎科技有限公司 信息搜索方法和装置
CN103970891A (zh) * 2014-05-23 2014-08-06 三星电子(中国)研发中心 一种基于情境的用户兴趣信息查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伍大勇: ""搜索引擎中命名实体查询处理相关技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN105589972B (zh) * 2016-01-08 2019-03-15 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
WO2017219696A1 (zh) * 2016-06-24 2017-12-28 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN106681598A (zh) * 2017-01-13 2017-05-17 北京百度网讯科技有限公司 信息输入方法和装置
CN107480162A (zh) * 2017-06-15 2017-12-15 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
CN107832468A (zh) * 2017-11-29 2018-03-23 百度在线网络技术(北京)有限公司 需求识别方法和装置
CN107832468B (zh) * 2017-11-29 2019-05-10 百度在线网络技术(北京)有限公司 需求识别方法和装置

Also Published As

Publication number Publication date
CN104462272B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
CN104252533B (zh) 搜索方法和搜索装置
US10984031B2 (en) Text analyzing method and device, server and computer-readable storage medium
CN106372060B (zh) 搜索文本的标注方法和装置
US20200210468A1 (en) Document recommendation method and device based on semantic tag
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
Calzolari et al. The LRE Map. Harmonising Community Descriptions of Resources.
US20130060769A1 (en) System and method for identifying social media interactions
CN104462272A (zh) 搜索需求分析方法和装置
US9182947B2 (en) Program source code navigation
CN105975499A (zh) 一种文本主题检测方法及系统
CN104484057A (zh) 联想结果的提供方法和装置
CN103995885A (zh) 实体名的识别方法和装置
US8572062B2 (en) Indexing documents using internal index sets
Barbaresi Ad hoc and general-purpose corpus construction from web sources
CN104281716A (zh) 平行语料的对齐方法及装置
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN108170661B (zh) 一种规则文本的管理方法及系统
CN105488113A (zh) 论文的搜索方法、装置及搜索引擎
Kuc Apache solr 3.1 cookbook
CN105447073A (zh) 标签赋予装置及方法
US9703547B2 (en) Computing program equivalence based on a hierarchy of program semantics and related canonical representations
Scrivner et al. Interactive Text Mining Suite: Data Visualization for Literary Studies.
CN105843661B (zh) 一种面向主机系统的代码重定位方法及其系统
US8239362B1 (en) Using metadata fragments as authoritative manufacturing work instructions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant