CN104252533B - 搜索方法和搜索装置 - Google Patents

搜索方法和搜索装置 Download PDF

Info

Publication number
CN104252533B
CN104252533B CN201410466232.6A CN201410466232A CN104252533B CN 104252533 B CN104252533 B CN 104252533B CN 201410466232 A CN201410466232 A CN 201410466232A CN 104252533 B CN104252533 B CN 104252533B
Authority
CN
China
Prior art keywords
word
described search
label
search
structuralized query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410466232.6A
Other languages
English (en)
Other versions
CN104252533A (zh
Inventor
徐文智
刘占
刘占一
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410466232.6A priority Critical patent/CN104252533B/zh
Publication of CN104252533A publication Critical patent/CN104252533A/zh
Application granted granted Critical
Publication of CN104252533B publication Critical patent/CN104252533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索方法,包括:S1、搜索引擎获取搜索语句;S2、搜索引擎将搜索语句转化为结构化查询词;以及S3、搜索引擎根据结构化查询词进行查询以获取搜索结果。本发明实施例的搜索方法,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。本发明还公开了一种搜索装置。

Description

搜索方法和搜索装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种搜索方法和搜索装置。
背景技术
目前,互联网上的搜索引擎主要通过提供和用户Query(查询词)相关的网页信息来满足获取信息的需求。如果用户的Query是一个特定信息的请求,如“谢霆锋是谁的儿子”,那么用户期望得到该Query对应的答案“谢贤”,而不是相关的网页。
相关技术中,有一些搜索引擎已经实现了上述功能,但是这些搜索引擎只能为简单Query提供答案,而无法处理复杂Query,这里提到的复杂Query包括:(1)表达相似但语义不同的Query,如“谢霆锋是谁的儿子?”,“谢霆锋的儿子是谁”,“谁是谢霆锋的儿子”等;(2)内容复杂的Query,如“刘德华和那些女演员演过电影?”、“演过还珠格格的女演员演过的电视剧”等。这样,当用户输入的Query较为复杂时,搜索引擎就无法为用户提供其期望的答案,导致准确率降低,用户体验变差。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的一个目的在于提出一种搜索方法。该方法实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率。
本发明的另一个目的在于提出一种搜索装置。
为了实现上述目的,本发明一方面实施例的搜索方法,包括:S1、搜索引擎获取搜索语句;S2、所述搜索引擎将所述搜索语句转化为结构化查询词;以及S3、所述搜索引擎根据所述结构化查询词进行查询以获取搜索结果。
本发明实施例的搜索方法,通过将搜索语句转化为结构化查询词,并根据结构化查询词在结构化数据库中进行查询以获取对应的搜索结果,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。
为了实现上述目的,本发明另一方面实施例的搜索装置,包括:获取模块,用于获取搜索语句;转化模块,用于将所述搜索语句转化为结构化查询词;以及查询模块,用于根据所述结构化查询词进行查询以获取搜索结果。
本发明实施例的搜索装置,通过获取模块获取搜索语句,转化模块将搜索语句转化为结构化查询词,查询模块根据结构化查询词在结构化数据库中进行查询以获取对应的搜索结果,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的搜索方法的流程图;
图2是根据本发明另一个实施例的搜索方法的流程图;
图3是根据本发明一个实施例的依存关系标签的示意图;
图4是根据本发明一个实施例的搜索语句中各个词之间的语义关系的示意图;
图5是根据本发明一个实施例的结构化查询词以二叉树的形式进行表示的示意图;
图6是根据本发明一个实施例的语义分析过程的示意图;
图7是根据本发明一个实施例的搜索装置的结构示意图;以及
图8是根据本发明另一个实施例的搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述根据本发明实施例的搜索方法和搜索装置。
本发明提出了一种搜索方法,包括:搜索引擎获取搜索语句;搜索引擎将搜索语句转化为结构化查询词;以及搜索引擎根据结构化查询词进行查询以获取搜索结果。
图1是根据本发明一个实施例的搜索方法的流程图。如图1所示,该搜索方法可以包括:
S101,搜索引擎获取搜索语句。
其中,在本发明的实施例中,搜索语句可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
例如,搜索引擎可获取用户在浏览器提供的输入框中输入的搜索语句。
S102,搜索引擎将搜索语句转化为结构化查询词。
具体地,搜索引擎可对搜索语句进行解析,将解析之后的搜索语句进行排序或重组等操作以生成结构化查询词。具体的实现方式可参照后续实施例。其中,在本发明的实施例中,结构化查询词可理解是可以直接用来查询结构化数据(例如知识库)的逻辑表达式,类似于SQL语言(Structured Query Language,结构化查询语言)、SPARQL(SimpleProtocol and RDF Query Language,为RDF开发的一种查询语言和数据获取协议)语言等。这种逻辑表达式具有很强的结构化特点,所以计算机可以直接解析该表达式来查询结构化数据从而获得答案。
S103,搜索引擎根据结构化查询词进行查询以获取搜索结果。
具体而言,在本发明的实施例中,可根据结构化查询词进行查询结构化数据库以获取搜索结果。其中,在本发明的实施例中,结构化数据库可为三元组数据库或SQL数据库等。
其中,在本发明的实施例中,当结构化数据库为三元组数据库时,可根据结构化查询词直接在三元组数据库中进行查询以查询出对应的搜索结果;当结构化数据库为SQL数据库时,可先将结构化查询词转化为与其对应的SQL查询语句,之后可根据该SQL查询语句在SQL数据库进行查询以得到对应的搜索结果。
本发明实施例的搜索方法,通过将搜索语句转化为结构化查询词,并根据结构化查询词在结构化数据库中进行查询以获取对应的搜索结果,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。
图2是根据本发明的另一个实施例的搜索方法的流程图。如图2所示,该搜索方法可以包括:
S201,搜索引擎获取搜索语句。
其中,在本发明的实施例中,搜索语句可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
例如,搜索引擎可获取用户在浏览器提供的输入框中输入的搜索语句。
S202,搜索引擎对搜索语句进行分词以生成多个词。
例如,以搜索语句为“刘德华和哪些女演员演过电影”为例,可通过现有的分词技术对该搜索语句进行分词,可得到多个词,即“刘德华”、“和”、“哪些”“女”“演员”、“演过”、“电影”。应当理解,现有的分词技术可包括字符串匹配的分词技术等。
S203,搜索引擎对搜索语句进行词法分析以获取搜索语句中每个词对应的词性标注标签。
其中,应当理解,词性标注是指根据句子中的上下文信息给句中的每个词确定一个最为合适的词性标记。可通过字符对每个词性进行标记,即如下面表1所示为词性标注语料库中的一部分:
a 形容词 d 副词 b 区别词 c 连词
f 方位词 m 数次 n 名词 nr 人名
ns 地名 nt 机构 nz 其他专名 p 介词
q 量词 r 代词 s 处所词 t 时间词
u 助词 v 动词 w 标点
表1
例如,以搜索语句为“刘德华和哪些女演员演过电影”为例,可对该搜索语句进行词法分析,分析出搜索语句中每个词(“刘德华”、“和”、“哪些”“女”“演员”、“演过”、“电影”)所对应的词性,之后可根据词性在词性标注语料库进行查询以获取每个词(“刘德华”、“和”、“哪些”“女”“演员”、“演过”、“电影”)对应的词性标注标签,如:依次为“nr”、“c”、“r”、“b”、“n”、“v”、“u”、“n”,同时还可对搜索语句中的每个词进行NE(Named Entity,命名实体)识别处理以获取搜索语句中的命名实体“刘德华”。
S204,搜索引擎对搜索语句进行句法分析以获取搜索语句中各个词之间的依存关系标签。
其中,应当理解,依存关系是指各个词之间在句法上的搭配关系。可通过字符对各个词之间的依存关系进行标记以成为依存关系标签,如下面表2所示为依存关系标签库中的一部分:
SBV 主谓关系 VOB 动宾关系 ATT 定中关系 ADV 状中关系
CMP 动补结构 DEI “得”字结构 DE “的”字结构 DI “地”字结构
MT 语态结构 QUN 数量关系 COO 并列关系 CNJ 关联结构
APP 同位关系 POB 介宾关系 SIM 比拟关系 LAD 前附加关系
HED 核心关系 CSB 从句主语 FOB 前置宾语
表2
需要说明的是,句法分析结果可包括多种形式,在本发明的实施例中,以依存句法分析为例,以说明句法分析结果的作用。句法分析的目标是分析搜索语句的句法结构,将一个词汇化的序列转化为树状的依存结构。例如,如图3所示,以搜索语句为“刘德华和哪些女演员演过电影”为例,在依存句法结果中,各个词之间的依存关系使用“依存弧”来表示,依存弧上的标签表示具体的预存类型,如SBV表示“演员”和“演”两个词是“主谓关系”,VOB表示“演”和“电影”两个词是“动宾关系”等。
S205,搜索引擎根据词性标注标签和依存关系标签生成结构化查询词。
具体而言,在本发明的实施例中,可分别对词性标注标签所对应的词和依存关系标签所对应的词进行语义分析,以生成搜索语句中各个词之间的语义关系。之后,可根据语义关系生成结构化查询词。也就是说,可先分别对词性标注标签所对应的词和依存关系标签所对应的词进行语义分析,得到搜索语句中每个词的语义标签,之后可根据每个词的语义标签生成各个词之间的语义关系。其中,语义标签可通过字符对词的语义来进行表示,如:S表示“实体”、P表示“属性”、O表示“属性值”,C表示S的“类别”,语义关系的形式可包括SP、PS、CP、PC、OP、PO、PC、CP、OC、CO、SC、CS。
举例而言,以搜索语句为“刘德华和哪些女演员演过电影”为例,可分别对词性标注标签所对应的词和依存关系标签所对应的词进行语义分析,将连词或代词等不重要的词去掉,得到“刘德华”、“演过”、“电影”、“女”“演员”之间的语义关系分别为:“OP”、“PC”、“SP”、“OC”,如图4所示。之后,可根据这些语义关系可得到结构化查询词,基于这些语义关系可用表达式来表示结构化查询词,即具有结构化的查询表达式,可用二叉树的形式进行表示,如图5所示,这样搜索语句“刘德华和哪些女演员演过电影”对应的查询表达式可为“<<O=女,C={演员?}>&<S={<O=刘德华,P=演,C={电影?}},P={演员},O=?>>”。
需要说明的是,在本发明的实施例中,比如语义关系PS和SP是同一类表达式,其顺序是由词在原搜索语句中的顺序决定的,如PS表达式中,P在原搜索语句中是在S的前面的。其他表达式类似。其中,由于树的结构是两个词之间的关系,因此可将OPC类这种类似的表达式进行拆解,如可拆解成OP、OC两个表达式。
还需要说明的是,本发明的语义分析主要是通过自左向右、自底向上的语义分析过程,预测出搜索语句中的词与词之间的语义关系。首先,从初始状态开始,根据当前状态(包括已经分析完成的分析结果和剩下的待分析部分)预测下一个最优状态,最终形成完整的语义分析结果。该语义分析方法的特点是:(1)可以融合各种特征;(2)分析速度快。下面可详细说明语义分析的实现过程。
首先,可先定义一个具有12个语义关系的语义关系集合relationSet={SP PS CPPC OP PO PC CP OC CO SC CS},并定义了在分析过程可能会使用到的状态动作集合:由于分析的过程是在两个数据结构上进行,分别是队列(queue)和栈(stack)中进行。同时使用一个数组(relation)记录所有词之间的标签。为了便于进行描述,可先进行下列定义:root表示树的根节点;w1,w2,…,wn表示一个query,由词语w1,w2,…,wn组成;relation中的元素为r:(wi,wj),表示两个词之间的语义标签为r,r∈relationSet。令初始状态为:stack={},queue={root,w1,w2,…,wn},relation={};接受状态为:stack={},queue={root},relation={r1:(w1,w2),…,r2:(wn-1,wn)}。定义动作1:right-reduce-r:
栈中的元素出栈,与队列头部的元素得到一个语义关系标签,队列头部的元素不变“动作前:stack={root,w1},queue={w2,…,wn},relation={…}”,“动作后:stack={root},queue={w2,…,wn},relation={r:(w1,w2),…}”;动作2:left-reduce-r:队列头部的元素出队列,与栈头部的元素得到一个语义关系标签,队列头部的元素换成栈头部的元素“动作前:stack={root,w1},queue={w2,…,wn},relation={…}”,“动作后:stack={root},queue={w1,…,wn},relation={r:(w1,w2),…}”;动作3:shift:将queue头部的元素压入栈stack“动作前:stack={root},queue={w1,w2,…,wn},relation={…}”,“动作后:stack={root,w1},queue={w2,…,wn},relation={…}”。最后,可根据当前状态提取特征,使用分类的方法决策出应该采取的动作,根据上述对各个动作的定义,进行解码,最终形成一颗树。其中,具体的解码过程可通过如下表3中的代码进行表示:
表3
举例而言,如图6所示,以搜索语句为“演过还珠格格的女演员演电视剧”为例,首先可先得到对应的多个词“演过”、“还珠格格”、“的”、“女”、“演员”、“演”、“电视剧”,之后可初始化stack queue以及relation,然后可判断当前状态(右上部分为待分析序列,左下部分为分析完成的部分结构)是否为终止状态,若不是,则从抽取stack queue中抽取特征(如词性标注标签、命名实体、依存关系标签、语义关系等),之后,可根据分类方法对这些特征进行分类以决策出下一步将要采取的动作,最后,可根据预先的动作定义对下一步将要采取的动作进行执行(即改变状态),直至当前状态变为终止状态为止,从而得到了词之间的语义关系。
S206,搜索引擎根据结构化查询词进行查询以获取搜索结果。
具体而言,在本发明的实施例中,可根据结构化查询词进行查询结构化数据库以获取搜索结果。其中,在本发明的实施例中,结构化数据库可为三元组数据库或结构化查询语言SQL数据库等。
其中,在本发明的实施例中,当结构化数据库为三元组数据库时,可根据结构化查询词直接在三元组数据库中进行查询以查询出对应的搜索结果,例如,对于SP查询,<S=刘德华,P=年龄,O=?>,可直接在三元组数据库中查询匹配的S和P,即可以得到O:172CM;当结构化数据库为SQL数据库时,可先将结构化查询词转化为与其对应的SQL查询语句,之后可根据该SQL查询语句在SQL数据库进行查询以得到对应的搜索结果,例如,对于SP查询,可以转换为SQL查询语句如下:<S=刘德华,P=年龄,O=?>,Select年龄from明星where name=刘德华,这样通过该SQL语句即可在SQL数据库查找到对应的结果。
可选的,在本发明的实施例中,S203和S204可不区分先后顺序被执行。
本发明实施例的搜索方法,可对搜索语句进行词法分析以获取搜索语句中每个词对应的词性标注标签,并对搜索语句进行句法分析以获取搜索语句中各个词之间的依存关系标签,以及根据词性标注标签和依存关系标签生成结构化查询词,通过充分融合了句法信息、语法信息等多种信息,使得搜索语句的分析结果更加的准确。
为了实现上述实施例,本发明还提出了一种搜索装置,包括:获取模块,用于获取搜索语句;转化模块,用于将搜索语句转化为结构化查询词;以及查询模块,用于根据结构化查询词进行查询以获取搜索结果。
图7是根据本发明一个实施例的搜索装置的结构示意图。如图7所示,该搜索装置可以包括:获取模块10、转化模块20和查询模块30。
具体地,获取模块10可用于获取搜索语句。其中,在本发明的实施例中,搜索语句可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。例如,获取模块10可获取用户在浏览器提供的输入框中输入的搜索语句。
转化模块20可用于将搜索语句转化为结构化查询词。更具体地,转化模块20可对搜索语句进行解析,将解析之后的搜索语句进行排序或重组等操作以生成结构化查询词。具体的实现方式可参照后续实施例。其中,在本发明的实施例中,结构化查询词可理解是可以直接用来查询结构化数据(例如知识库)的逻辑表达式,类似于SQL语言、SPARQL语言等。这种逻辑表达式具有很强的结构化特点,所以计算机可以直接解析该表达式来查询结构化数据从而获得答案。
查询模块30可用于根据结构化查询词进行查询以获取搜索结果。具体而言,在本发明的实施例中,查询模块30可具体用于根据结构化查询词进行查询结构化数据库以获取搜索结果。其中,在本发明的实施例中,结构化数据库可为三元组数据库或结构化查询语言SQL数据库。
其中,在本发明的实施例中,当结构化数据库为三元组数据库时,查询模块30可根据结构化查询词直接在三元组数据库中进行查询以查询出对应的搜索结果;当结构化数据库为SQL数据库时,查询模块30可先将结构化查询词转化为与其对应的SQL查询语句,之后可根据该SQL查询语句在SQL数据库进行查询以得到对应的搜索结果。
进一步的,在本发明的一个实施例中,如图8所示,该转化模块20可包括分词单元21、第一获取单元22、第二获取单元23和生成单元24。具体地,分词单元21可用于对搜索语句进行分词以生成多个词。例如,以搜索语句为“刘德华和哪些女演员演过电影”为例,分词单元21可通过现有的分词技术对该搜索语句进行分词,可得到多个词,即“刘德华”、“和”、“哪些”“女”“演员”、“演过”、“电影”。应当理解,现有的分词技术可包括字符串匹配的分词技术等。
第一获取单元22可用于对搜索语句进行词法分析以获取搜索语句中每个词对应的词性标注标签。其中,应当理解,词性标注是指根据句子中的上下文信息给句中的每个词确定一个最为合适的词性标记。可通过字符对每个词性进行标记,即如上面表1所示为词性标注语料库中的一部分。
例如,以搜索语句为“刘德华和哪些女演员演过电影”为例,第一获取单元22可对该搜索语句进行词法分析,分析出搜索语句中每个词(“刘德华”、“和”、“哪些”“女”“演员”、“演过”、“电影”)所对应的词性,之后可根据词性在词性标注语料库进行查询以获取每个词(“刘德华”、“和”、“哪些”“女”“演员”、“演过”、“电影”)对应的词性标注标签,如:依次为“nr”、“c”、“r”、“b”、“n”、“v”、“u”、“n”,同时还可对搜索语句中的每个词进行NE(NamedEntity,命名实体)识别处理以获取搜索语句中的命名实体“刘德华”。
第二获取单元23可用于对搜索语句进行句法分析以获取搜索语句中各个词之间的依存关系标签。其中,应当理解,依存关系是指各个词之间在句法上的搭配关系。可通过字符对各个词之间的依存关系进行标记以成为依存关系标签,如上面表2所示为依存关系标签库中的一部分。
需要说明的是,句法分析结果可包括多种形式,在本发明的实施例中,以依存句法分析为例,以说明句法分析结果的作用。句法分析的目标是分析搜索语句的句法结构,将一个词汇化的序列转化为树状的依存结构。例如,如图3所示,以搜索语句为“刘德华和哪些女演员演过电影”为例,在依存句法结果中,各个词之间的依存关系使用“依存弧”来表示,依存弧上的标签表示具体的预存类型,如SBV表示“演员”和“演”两个词是“主谓关系”,VOB表示“演”和“电影”两个词是“动宾关系”等。
生成单元24可用于根据词性标注标签和依存关系标签生成结构化查询词。具体而言,在本发明的实施例中,生成单元24可先分别对词性标注标签所对应的词和依存关系标签所对应的词进行语义分析,以生成搜索语句中各个词之间的语义关系;之后,根据语义关系生成结构化查询词。也就是说,生成单元24可先分别对词性标注标签所对应的词和依存关系标签所对应的词进行语义分析,得到搜索语句中每个词的语义标签,之后可根据每个词的语义标签生成各个词之间的语义关系。其中,语义标签可通过字符对词的语义来进行表示,如:S表示“实体”、P表示“属性”、O表示“属性值”,C表示S的“类别”,语义关系的形式可包括SP、PS、CP、PC、OP、PO、PC、CP、OC、CO、SC、CS。
举例而言,以搜索语句为“刘德华和哪些女演员演过电影”为例,生成单元24可分别对词性标注标签所对应的词和依存关系标签所对应的词进行语义分析,将连词或代词等不重要的词去掉,得到“刘德华”、“演过”、“电影”、“女”“演员”之间的语义关系分别为:“OP”、“PC”、“SP”、“OC”,如图4所示。之后,可根据这些语义关系可得到结构化查询词,基于这些语义关系可用表达式来表示结构化查询词,即具有结构化的查询表达式,可用二叉树的形式进行表示,如图5所示,这样搜索语句“刘德华和哪些女演员演过电影”对应的查询表达式可为“<<O=女,C={演员?}>&<S={<O=刘德华,P=演,C={电影?}},P={演员},O=?>>”。
由此,根据上述实施例通过充分融合了句法信息、语法信息等多种信息,使得搜索语句的分析结果更加的准确。
本发明实施例的搜索装置,通过获取模块获取搜索语句,转化模块将搜索语句转化为结构化查询词,查询模块根据结构化查询词在结构化数据库中进行查询以获取对应的搜索结果,实现了不管搜索语句的复杂程度均可将其转化为结构化查询词,并结合数据库信息进行知识推理以自动产生搜索语句对应的答案,提高了准确率,对于用户来说,得到了更为精确的搜索结果,提升了用户体验。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种搜索方法,其特征在于,包括以下步骤:
S1、搜索引擎获取搜索语句;
S2、所述搜索引擎将所述搜索语句转化为结构化查询词,所述步骤S2具体包括:
S21、对所述搜索语句进行分词以生成多个词;
S22、对所述搜索语句进行词法分析以获取所述搜索语句中每个词对应的词性标注标签;
S23、对所述搜索语句进行句法分析以获取所述搜索语句中各个词之间的依存关系标签;
S24、根据所述词性标注标签和所述依存关系标签生成所述结构化查询词,所述步骤S24具体包括:
分别对所述词性标注标签所对应的词和所述依存关系标签所对应的词进行语义分析,以生成所述搜索语句中各个词之间的语义关系;
根据所述语义关系生成所述结构化查询词;以及
S3、所述搜索引擎根据所述结构化查询词进行查询以获取搜索结果。
2.如权利要求1所述的搜索方法,其特征在于,所述步骤S3具体包括:
根据所述结构化查询词进行查询结构化数据库以获取所述搜索结果。
3.如权利要求2所述的搜索方法,其特征在于,所述结构化数据库为三元组数据库或结构化查询语言SQL数据库。
4.一种搜索装置,其特征在于,包括:
获取模块,用于获取搜索语句;
转化模块,用于将所述搜索语句转化为结构化查询词,所述转化模块包括:
分词单元,用于对所述搜索语句进行分词以生成多个词;
第一获取单元,用于对所述搜索语句进行词法分析以获取所述搜索语句中每个词对应的词性标注标签;
第二获取单元,用于对所述搜索语句进行句法分析以获取所述搜索语句中各个词之间的依存关系标签;
生成单元,用于根据所述词性标注标签和所述依存关系标签生成所述结构化查询词,所述生成单元具体用于:
分别对所述词性标注标签所对应的词和所述依存关系标签所对应的词进行语义分析,以生成所述搜索语句中各个词之间的语义关系;
根据所述语义关系生成所述结构化查询词;以及
查询模块,用于根据所述结构化查询词进行查询以获取搜索结果。
5.如权利要求4所述的搜索装置,其特征在于,所述查询模块具体用于:
根据所述结构化查询词进行查询结构化数据库以获取所述搜索结果。
6.如权利要求5所述的搜索装置,其特征在于,所述结构化数据库为三元组数据库或结构化查询语言SQL数据库。
CN201410466232.6A 2014-09-12 2014-09-12 搜索方法和搜索装置 Active CN104252533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410466232.6A CN104252533B (zh) 2014-09-12 2014-09-12 搜索方法和搜索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410466232.6A CN104252533B (zh) 2014-09-12 2014-09-12 搜索方法和搜索装置

Publications (2)

Publication Number Publication Date
CN104252533A CN104252533A (zh) 2014-12-31
CN104252533B true CN104252533B (zh) 2018-04-13

Family

ID=52187423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410466232.6A Active CN104252533B (zh) 2014-09-12 2014-09-12 搜索方法和搜索装置

Country Status (1)

Country Link
CN (1) CN104252533B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573028B (zh) 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN106033466A (zh) * 2015-03-20 2016-10-19 华为技术有限公司 数据库查询的方法和设备
CN104699845B (zh) * 2015-03-31 2016-10-12 北京奇虎科技有限公司 基于提问类搜索词的搜索结果提供方法及装置
CN106156110B (zh) * 2015-04-03 2019-07-30 科大讯飞股份有限公司 文本语义理解方法及系统
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN105095195B (zh) * 2015-07-03 2018-09-18 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
US10282444B2 (en) * 2015-09-11 2019-05-07 Google Llc Disambiguating join paths for natural language queries
EP3142028A3 (en) * 2015-09-11 2017-07-12 Google, Inc. Handling failures in processing natural language queries through user interactions
CN106844327B (zh) * 2015-12-07 2020-11-17 科大讯飞股份有限公司 文本编码方法及系统
CN105843849B (zh) * 2016-03-15 2019-11-26 北京百度网讯科技有限公司 搜索方法及装置
CN107305568A (zh) * 2016-04-21 2017-10-31 北京智能管家科技有限公司 分布式的级联裂变查询方法及装置
CN105975610A (zh) * 2016-05-18 2016-09-28 北京百度网讯科技有限公司 场景识别方法及装置
CN106126545A (zh) * 2016-06-15 2016-11-16 北京智能管家科技有限公司 分布式的裂变查询方法及装置
CN106126546A (zh) * 2016-06-15 2016-11-16 北京智能管家科技有限公司 级联裂变查询方法及装置
CN106095956A (zh) * 2016-06-15 2016-11-09 北京智能管家科技有限公司 支持信息裂变查询方法及装置
CN106202451B (zh) * 2016-07-11 2019-11-19 浙江大华技术股份有限公司 一种数据查询方法及装置
CN106776888A (zh) * 2016-11-30 2017-05-31 北京赛迈特锐医疗科技有限公司 智能结构化搜索系统及其搜索方法
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索系统及其搜索方法
CN108345608A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种搜索方法、装置及设备
CN107783962A (zh) * 2017-11-23 2018-03-09 百度在线网络技术(北京)有限公司 用于查询指令的方法及装置
CN108388650B (zh) * 2018-02-28 2022-11-04 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108875000B (zh) * 2018-06-14 2021-12-28 广东工业大学 一种融合多句法结构的语义关系分类方法
CN109063046A (zh) * 2018-07-17 2018-12-21 广州资宝科技有限公司 搜索方法、装置及智能终端
CN109299289B (zh) * 2018-11-30 2021-04-06 国信优易数据股份有限公司 一种查询图构建方法、装置、电子设备及计算机存储介质
CN110276080B (zh) * 2019-06-28 2023-10-17 第四范式(北京)技术有限公司 一种语义处理方法和系统
CN110851484A (zh) * 2019-11-13 2020-02-28 北京香侬慧语科技有限责任公司 一种获取多指标问题答案的方法及装置
CN110825864A (zh) * 2019-11-13 2020-02-21 北京香侬慧语科技有限责任公司 一种获取问题答案的方法及装置
CN111104423B (zh) * 2019-12-18 2023-01-31 北京百度网讯科技有限公司 Sql语句生成方法、装置、电子设备和存储介质
CN111523062B (zh) * 2020-04-24 2024-02-27 浙江口碑网络技术有限公司 多维度信息展示方法及装置
CN115080603B (zh) * 2022-08-16 2023-01-17 广东省科技基础条件平台中心 一种数据库查询语言转换方法、装置、设备及存储介质
CN116991969B (zh) * 2023-05-23 2024-03-19 暨南大学 可配置语法关系的检索方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334784A (zh) * 2008-07-30 2008-12-31 施章祖 计算机辅助报告与知识库产生的方法
US7698323B1 (en) * 2004-04-26 2010-04-13 Centric Software, Inc. Method and system for accessing and managing information
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698323B1 (en) * 2004-04-26 2010-04-13 Centric Software, Inc. Method and system for accessing and managing information
CN101334784A (zh) * 2008-07-30 2008-12-31 施章祖 计算机辅助报告与知识库产生的方法
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于本体的非结构化文本查询方法研究及应用;刘琼等;《第二十二届全国计算机信息管理学术研讨会论文集》;20091023;第123-129页 *

Also Published As

Publication number Publication date
CN104252533A (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
CN104252533B (zh) 搜索方法和搜索装置
Gupta et al. Abstractive summarization: An overview of the state of the art
CN111680173B (zh) 统一检索跨媒体信息的cmr模型
US11475319B2 (en) Extracting facts from unstructured information
Kolomiyets et al. A survey on question answering technology from an information retrieval perspective
Ferrández et al. The QALL-ME Framework: A specifiable-domain multilingual Question Answering architecture
US9740685B2 (en) Generation of natural language processing model for an information domain
JP4857333B2 (ja) 諸文書にわたる文脈要約情報の決定方法
CN106663117B (zh) 构造支持提供探索性建议的图
US20140280314A1 (en) Dimensional Articulation and Cognium Organization for Information Retrieval Systems
US20120036130A1 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
US20130060769A1 (en) System and method for identifying social media interactions
CN101681348A (zh) 用于文档分析的基于语义的方法和装置
Diefenbach et al. QAnswer KG: designing a portable question answering system over RDF data
CN104298658B (zh) 获取搜索结果的方法和装置
CN110647618A (zh) 对话查询应答系统
CN109726274A (zh) 问题生成方法、装置及存储介质
WO2010051966A1 (en) Method for semantic processing of natural language using graphical interlingua
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
Sirsat et al. Mining knowledge from text repositories using information extraction: A review
JP2011129006A (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
Al-Sayed et al. Mapping lexical gaps in cloud ontology using BabelNet and FP-growth
Umber et al. A Step Towards Ambiguity Less Natural Language Software Requirements Specifications.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant