CN110633407B - 信息检索方法、装置、设备及计算机可读介质 - Google Patents
信息检索方法、装置、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN110633407B CN110633407B CN201810635964.1A CN201810635964A CN110633407B CN 110633407 B CN110633407 B CN 110633407B CN 201810635964 A CN201810635964 A CN 201810635964A CN 110633407 B CN110633407 B CN 110633407B
- Authority
- CN
- China
- Prior art keywords
- query request
- text
- similarity
- information retrieval
- retrieved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种信息检索方法,包括:通过搜索引擎检索与查询请求相关的网页;从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本;在所述拼接文本中截取文本片段;将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段。本发明实施例给搜索引擎在用户体验和交互方面带来极大的优势,能够满足用户对智能问答这一功能的需求。通过本发明实施例,能够直接为用户展示与检索请求相关性较强的简短文本,节省用户的信息筛选时间。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于机器阅读的信息检索方法及装置、设备和计算机可读介质。
背景技术
当前搜索引擎的核心是信息检索技术。早期的检索是基于目录的手工检索;而目前的检索则是基于计算机的数据库检索,包括音乐检索、购物检索、视频检索、图片检索等。
搜索引擎现有的信息检索一般分为两步:第一步是信息的储存,把所有能够为用户所用的信息(如各个门类的百科知识,各个领域的时事新闻等)以某种合适的方式组织并储存起来;第二步是狭义的检索,根据用户输入的关键词或者关键特征从储存的所有信息中检索出最满足用户要求的一些条目。
随着用户需求的多样性和逐渐个性化的发展趋势,如今的搜索引擎面临着一个非常大的交互革新的机会:在很多情况下,用户并不是想要全面具体地了解某件事物的各个方面,而是希望搜索引擎能够准确地反馈查询意图,不求相关资料丰富与否,只求反馈的资料尽量简洁、精准。例如,在百度搜索引擎中我们搜索“今天百度的股票怎么样”,我们希望搜索引擎能够反馈百度这支股票的涨跌情况,或者收盘价、换手率情况等。只要查询的反馈足够精准,一句话甚至一个数字即可满足用户的需求。目前搜索引擎得到搜索结果为关于股票的讨论、百度股价的网页、新闻等链接和部分与查询意图无关的摘要。
再比如,在搜索引擎中搜索“XX公司在2016年赚了多少钱”,我们想要的只是一个准确的数字,然而搜到的前几条结果都是对XX公司的介绍、官网和有关Tesla的新闻报道,并没有一条准确地回应了我们的查询。
在信息检索方面,现有的主流方法包括:基于布尔检索模型的直接检索方法,基于概率或向量空间模型的相似度方法与朴素贝叶斯算法,基于网页链接的重要性分析法。
(1)基于布尔检索模型的直接检索方法,根据用户的需求来构造一个布尔条件,布尔条件由and、if、not来组成。例如如果想要从所有的文本中挑选所有带有词条“自动驾驶”,但不带有“撞车”两个字的文本,输入一个布尔条件:“自动驾驶”and(not“撞车”)即可。
(2)基于概率或向量空间模型的相似度方法与朴素贝叶斯算法,通过建立向量模型或概率模型,计算用户输入的查询与数据库中所有文本的相似度或关联概率,然后将它们按照从高到低的顺序进行排序,呈现在用户的面前。
(3)基于网页链接的重要性分析法,尤其是著名的PageRank算法可以计算出每一个网页的相对重要性,作为检索结果排序的重要指标,大幅度提高了搜索引擎的用户体验。
上述信息检索技术的优缺点如下:
(1)基于布尔检索模型的直接检索方法,具备容易操作的优点,但是其检索结果文档是没有任何办法进行排序的,只有匹配与不匹配之分,而且其检索结果往往过多或者过少。
(2)基于概率或向量空间模型的相似度方法与朴素贝叶斯算法,以词频作为核心的参考因素,并没有考虑到词之间和字之间的顺序,也并没有完整地理解任何文本的真实含义,仅仅是比对不同字、不同词出现的频率,因此经常出现检索结果的不准确。
(3)基于网页链接的重要性分析法,由于最重要的网页往往是一些官网,或者政府的网站,而在大多数情况下,这些网页并不是我们所需要的,因此可能无法满足用户需求。
发明内容
本发明实施例提供一种信息检索方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种信息检索方法,包括:
通过搜索引擎检索与查询请求相关的网页;
从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本;
在所述拼接文本中截取文本片段;
将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段。
结合第一方面,本发明实施例在第一方面的第一种实施方式中,所述通过搜索引擎检索与查询请求相关的网页的步骤,包括:
根据所检索到的网页中文章与所述查询请求的相关度,对各文章进行降序排序;
从排序结果中选取与查询请求相关度最高的N篇文章,N为预设的整数。
结合第一方面,本发明实施例在第一方面的第二种实施方式中,所述从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本的步骤中,包括:
计算检索到的各文章的每个段落与所述查询请求的相似度;
从每篇文章中选取相似度最高的段落;
将所选取的多个段落拼接得到所述拼接文本。
结合第一方面的第二种实施方式,本发明实施例在第一方面的第三种实施方式中,所述计算检索到的各文章的每个段落与所述查询请求的相似度的步骤中,包括:
构建查询请求与段落的相似度计算模型;
通过所述相似度计算模型计算检索到的文章的每个段落与所述查询请求的相似度。
结合第一方面,本发明实施例在第一方面的第四种实施方式中,所述在所述拼接文本中截取文本片段的步骤中,包括:
构建机器阅读理解模型;
通过所述机器阅读理解模型从所述拼接文本中截取与所述查询请求相关的连续文本片段。
第二方面,本发明实施例提供了一种信息检索装置,包括:
检索模块,用于通过搜索引擎检索与查询请求相关的网页;
提取模块,用于从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本;
读取模块,用于在所述拼接文本中截取文本片段;
反馈模块,用于将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段。
结合第二方面,本发明实施例在第二方面的第一种实施方式中,所述检索模块包括:
排序子模块,用于根据所检索到的网页中文章与所述查询请求的相关度,对各文章进行降序排序;
第一选取子模块,用于从排序结果中选取与查询请求相关度最高的N篇文章,N为预设的整数。
结合第二方面,本发明实施例在第二方面的第二种实施方式中,所述提取模块包括:
相似度计算子模块,用于计算检索到的各文章的每个段落与所述查询请求的相似度;
第二选取子模块,用于从每篇文章中选取相似度最高的段落;
凭借子模块,用于将所选取的多个段落拼接得到所述拼接文本。
结合第二方面的第二种实施方式,本发明实施例在第二方面的第三种实施方式中,所述相似度计算子模块包括:
相似度模型构建单元,用于构建查询请求与段落的相似度计算模型;
计算单元,用于通过所述相似度计算模型计算检索到的文章的每个段落与所述查询请求的相似度。
结合第二方面,本发明实施例在第一方面的第四种实施方式中,所述读取模块包括:
模型构建子模块,用于构建机器阅读理解模型;
截取子模块通过所述机器阅读理解模型从所述拼接文本中截取与所述查询请求相关的连续文本片段。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
第三方面,在一个可能的设计中,信息检索装置的结构中包括处理器和存储器,所述存储器用于存储支持信息检索装置执行上述第一方面中信息检索方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述信息检索装置还可以包括通信接口,用于信息检索装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读介质,用于存储信息检索装置所用的计算机软件指令,其包括用于执行上述第一方面的信息检索方法所涉及的程序。
本发明实施例从检索到的网页中提取与所述查询请求相关的文本,然后进行拼接和截取,从而在搜索引擎在信息检索结果中显示所截取的文本片段,有利于直接为用户展示与检索请求相关性较强的简短文本,节省用户的信息筛选时间,满足用户在例如智能问答等场景的智能检索结果需求。例如,当用户在搜索引擎进行提问时,可以直接反馈答案给用户,反馈的检索结果更加准确、简单,节省用户的时间。
另外,本发明实施例通过相似度的判断,可以是检索结果与查询请求更加匹配。同时,本发明实施例中通过采用构建深度神经网络模型进行相似度计算,可以避免现有中仅仅通过词频进行相似度计算的缺陷。同时,本发明实施例通过构建机器阅读理解模型,可以进一步对网页或文章的整体信息进行理解,以获得更加精确的信息。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明一实施例的信息检索方法的流程图;
图2为本发明一实施例的步骤S110的流程图;
图3为本发明一实施例的步骤S120的流程图;
图4为本发明一实施例的步骤S121的流程图;
图5为本发明一实施例的步骤S130的流程图;
图6为本发明另一实施例的信息检索装置的框图;
图7为本发明另一实施例的检索模块的连接框图;
图8为本发明另一实施例的提取模块的连接框图;
图9为本发明另一实施例的相似度计算子模块的连接框图;
图10为本发明另一实施例的读取模块的链接框图;
图11为本发明另一实施例的信息检索装置的应用示例的示意图;
图12为本发明另一实施例的信息检索设备框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本发明实施例主要提供了一种通信息检索的方法及装置,下面分别通过以下实施例进行技术方案的展开描述。
本发明提供了一种信息检索方法和装置,以下详细介绍本发明实施例的信息检索方法和装置的具体处理流程和原理。
如图1所示,其为本发明实施例的信息检索方法的流程图。本发明实施例的信息检索方法可以包括以下步骤:
S110:通过搜索引擎检索与查询请求相关的网页。
首先,通过搜索引擎获取用户发送的查询请求。用户可以在搜索引擎中输入一个文本查询,比如:“今天百度的股票怎么样”。然后,搜索引擎可以根据该文本检索相关的网页。其中,相关的网页包括:常规的网站网页、各种数据库的文章、文档等。
如图2所示,在一种实施方式中,在进行检索时,所述步骤S110中可以包括:
S111:根据所检索到的网页中文章与所述查询请求的相关度,对各文章进行降序排序。例如,进行检索时,可以采用百度的搜索引擎进行检索,其可以完成对相关网页或文章的自动排序。
S112:从排序结果中选取与查询请求相关度最高的N篇文章,N为预设的整数。比如,将N预设为5,可以从排序结果中选取排在前面的5篇文章。
S120:从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本。比如,若选取相关度最高的5篇文章,则可以在这5篇文章中分别选取与查询请求相关度最高的某些段落,然后将这些段落按照一定顺序拼接为一个拼接文本。
如图3所示,其中,在一种实施方式中,在进行段落挑选时,所述步骤S120可以包括:
S121:计算检索到的各文章的每个段落与所述查询请求的相似度。
比如,在挑选相关度最高的5篇文章中,将每篇文章的各个段落都与查询请求进行相似度的计算,分别获得相似度的得分。如图4所示,其中在一种实施方式中,可以采用相似度计算模型进行相似度计算,包括:
S121a:构建查询请求与段落的相似度计算模型。
其中,本步骤主要利用机器学习算法,训练用于计算用户查询文本Q和文章中段落相似度的模型。其中进行训练数据可以包括:中文语料(例如DuReader)和英文语料(比如MS-MARCO)。这两种语料可以采用以下示例性方式获得:分别在百度等搜索引擎环境下,收集大量用户查询Q和对应返回的网页或文章。同时,通过大量的专业标注从这些文章或网页的某些段落中选取一个或者多个文本片段作为对查询Q的反馈。该模块的机器学习算法,主要利用上述中文或者英文语料,构建可以自动判定查询Q和段落文本相似度数值的模型。
S121b:通过所述相似度计算模型计算检索到的文章的每个段落与所述查询请求的相似度。
S122:从每篇文章中选取相似度最高的段落。
例如:在完成相似度计算后,可以分别在上述5篇文章中分别挑选与查询请求“今天百度的股票怎么样”相似度最大的一个段落,获得5个段落。
S123:将所选取的多个段落拼接得到所述拼接文本。
例如,将挑选的5个段落进行拼接,最终形成一个大的段落。针对“今天百度的股票怎么样”的这样一个查询,可以通过整合构建得到一个类似如下的候选段落:“昨晚,百度股价终于超过了历史最高点。上一个美股交易日,百度股票收盘收涨1.83%,报252.22美元,盘中最高触及254.28美元,超越自上市以来的历史峰值251.99美元,创历史新高。在刚过去的十一假期,百度距离自己的巅峰时刻,只差一点点。10月2日迎来最高点250.57美元,而距离上市以来的历史最高纪录:251.99美元,仅一步之遥。这次上涨并没有让人失望,它终于在昨天晚上,重回巅峰。”
S130:在所述拼接文本中截取文本片段。
在上述拼接整合的段落中,信息量过多,显得过于冗长。因此,需要再进一步进行精简,以更针对性的提供相应的信息。如图5所示,在一种实施方式中,在进行片段的截取是,可以包括以下步骤:
S131:构建机器阅读理解模型。
其中,所述阅读理解模型主要利用深度人工神经网络算法,训练一个模拟人阅读一个段落,并且根据用户查询截取段落中最简洁、最精准的连续文本片段的模型。其中,采用的训练数据可以包括:中文语料WebQA和英文语料SQuAD。这两份语料的共同特点是:给定一些百科文章,根据大量专业标注,针对这些文章提出相关问题,并且利用文章中的原始文本片段作答。这些问题,对应的答案以及答案来源的文本都会被收集。训练机器阅读理解器模型的时候,查询对应于训练数据中的问题,被阅读的段落是这些答案来源的文本,而答案就是这些文本中的原始片段。
S132:通过所述机器阅读理解模型从所述拼接文本中截取与所述查询请求相关的连续文本片段。
例如,经过机器阅读理解模型的截取后,获得的片段文本为“上一个美股交易日,百度股票收盘收涨1.83%,报252.22美元,盘中最高触及254.28美元”。
S140:将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段。
在本发明的另一个实施例中,提供了一种信息检索装置。如图6所示,其为本发明另一实施例的信息检索装置的框图。本实施例的一种信息检索装置,包括:
检索模块110,用于通过搜索引擎检索与查询请求相关的网页。
提取模块120,用于从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本。
读取模块130,用于在所述拼接文本中截取文本片段。
反馈模块140,用于将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段。
如图7所示,在一种实施方式中,所述检索模块110包括:
排序子模块111,用于根据所检索到的网页中文章与所述查询请求的相关度,对各文章进行降序排序;
第一选取子模块112,用于从排序结果中选取与查询请求相关度最高的N篇文章,N为预设的整数。
如图8所示,在一种实施方式中,所述提取模块120包括:
相似度计算子模块121,用于计算检索到的各文章的每个段落与所述查询请求的相似度。
第二选取子模块122,用于从每篇文章中选取相似度最高的段落。
凭借子模块123,用于将所选取的多个段落拼接得到所述拼接文本。
如图9所示,其中,所述相似度计算子模块121可以包括:
相似度模型构建单元121a,用于构建查询请求与段落的相似度计算模型;
计算单元121b,用于通过所述相似度计算模型计算检索到的文章的每个段落与所述查询请求的相似度。
如图10所示,在一种实施方式中,所述读取模块130包括:
模型构建子模块131,用于构建机器阅读理解模型;
截取子模块132,通过所述机器阅读理解模型从所述拼接文本中截取与所述查询请求相关的连续文本片段。
本实施例装置的各模块的功能与上述实施例的信息检索方法的原理类似,故不再赘述。
如图11所示,本实施例的信息检索装置可以采用以下组件和模块来实现。下面分别介绍各组件和模块的输入输出数据与功能:
组件1.用户查询接收器,用于接收用户输入的查询请求。
输入:用户向搜索引擎提出一个文本查询Q。
输出:字符串形式的文本查询Q。
功能:作为整个系统的输入,这一组件输入的文本查询Q在后续的检索、文本相似度计算、机器阅读理解组件都可以用到。
检索模块,其包含组件2和组件3,具体如下:
组件2.搜索引擎,用于检索网页文章。
输入:用户所提出的查询Q。
输出:利用搜索引擎从后台索引库海量的网页文章中查找和用户查询Q相关的网页文章。
功能:搜索引擎提供了后台索引库中的海量文本和检索功能。
组件3.网页文章选取组件
输入:搜索引擎给出的和用户查询Q所有相关的网页文章。
输出:根据这些网页文章的相关度进行降序排列,选出和用户查询Q最为相关的N篇网页文章。
功能:通过检索算法,选出与该问题最为相关的N篇文章。这N篇文章的文本长度不一,每一篇文章至少有一个段落。可以通过一个文本相似度计算器从这N篇文章中筛选段落,进一步的确定需要反馈的内容。
模块4.文本相似度计算模块:
输入:训练文本相似度计算器所需要的数据(4.1)、一个用于计算查询和段落文本相似度的机器学习算法(4.2)。
输出:一个训练好的计算查询与段落相似度的模型(4.3)。
功能:利用机器学习算法,训练一个用于计算用户查询Q和文章中段落相似度的模型。训练数据包括:中文语料和英文语料等。
段落提取模块,其包含组件5和组件6,具体如下:
组件5.相似度得分计算组件:
输入:由搜索引擎选出的与用户查询的最相关的N篇文章和查询Q,以及组件4所提供的文本相似度计算模型。
输出:N篇文章的每一个段落与用户查询Q的相似度得分。
功能:使用文本相似度计算模块输出的模型,计算用户查询Q与N篇文章中每个段落的相似度。这些相似度得分能对N篇文章中的每个段落存在最终所需要反馈信息(文本片段)的可能性进行估计。
组件6.构建候选段落组件:
输入:与用户查询最相关的N篇文章的所有段落,与组件5输出的所有对应段落相似度的得分。
输出:一个文本段落,作为选取最终反馈信息片段的候选段落。
功能:对N篇文章中的每一篇文章,选取其中与用户查询Q的文本相似度最高的一个段落,这样总共得到了N个段落(每篇文章出一个),然后将这N个段落拼接成为一个大段落(作为候选段落)。
模块7.机器阅读理解模块
输入:训练机器阅读理解器所需要的数据(7.1)、一个用于机器阅读理解的人工神经网络算法(7.2)。
输出:一个训练好的机器阅读理解模型(7.3)。
功能:利用深度人工神经网络算法,训练一个模拟人阅读一个段落,并且根据用户查询Q截取段落中最简洁、最精准的连续文本片段的模型。
组件8.选取最终需要反馈的简洁、精准的信息,即连续文本片段。
输入:用户的查询Q,组件6输出的选取最终反馈的候选段落,以及模块7输出的机器阅读理解模型。
输出:最终反馈给用户的连续文本片段。
功能:向模块7训练好的机器阅读理解模型中,输入用户的查询Q和组件6中得到的候选段落。机器阅读理解模型输出这个候选段落中的一个连续文本片段,作为最符合用户查询的反馈。最后将反馈信息片段回传给搜索引擎(即组件2),以展示给用户。
本发明实施例,可以从检索到的网页中提取与所述查询请求相关的文本,然后进行拼接和截取,从而在搜索引擎在信息检索结果中显示所截取的文本片段,有利于直接为用户展示与检索请求相关性较强的简短文本,节省用户的信息筛选时间,满足用户在例如智能问答等场景的智能检索结果需求。
在另一个实施例中,本发明还提供一种信息检索设备,如图12所示,该设备包括:存储器510和处理器520,存储器510内存储有可在处理器520上运行的计算机程序。所述处理器520执行所述计算机程序时实现上述实施例中的信息检索方法。所述存储器510和处理器520的数量可以为一个或多个。
该设备还包括:
通信接口530,用于与外界设备进行通信,进行数据交互传输。
存储器510可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器510、处理器520和通信接口530独立实现,则存储器510、处理器520和通信接口530可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器510、处理器520及通信接口530集成在一块芯片上,则存储器510、处理器520及通信接口530可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例能够给搜索引擎在用户体验和交互方面带来极大的优势,能够满足用户对智能问答这一功能的需求。在大多数情况下,搜索引擎的用户在查询时并不想了解关于被查询对象的所有信息,而只是想对自己想要了解的问题得到一个准确的答案,比如一个段落,一句话,甚至两三个字就能很好地满足用户的需求。
另外,本发明实施例通过相似度的判断,可以是检索结果与查询请求更加匹配。同时,本发明实施例中通过采用构建深度神经网络模型进行相似度计算,可以避免现有中仅仅通过词频进行相似度计算的缺陷。同时,本发明实施例通过构建机器阅读理解模型,可以进一步对网页或文章的整体信息进行理解,以获得更加精确的信息。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种信息检索方法,其特征在于,包括:
通过搜索引擎检索与查询请求相关的网页;
从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本;
从所述拼接文本中截取与所述查询请求相关的文本片段;
将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段;
其中,所述从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本的步骤中,包括:
计算检索到的各文章的每个段落与所述查询请求的相似度;所述检索到的网页包括所述检索到的各文章;
从每篇文章中选取相似度最高的段落;
将所选取的多个段落拼接得到所述拼接文本;
所述从所述拼接文本中截取与所述查询请求相关的文本片段,包括:
构建机器阅读理解模型;其中,所述机器阅读理解模型是利用深度人工神经网络算法构建的用于模拟人阅读段落的模型,训练所述机器阅读理解模型包括:从训练数据中查询对应于训练数据的问题,得到的答案为所述训练数据中最简洁的连续文本片段;所述训练数据包括中文语料和英文语料;
通过所述机器阅读理解模型从所述拼接文本中截取与所述查询请求相关的连续文本片段。
2.根据权利要求1所述的信息检索方法,其特征在于,所述通过搜索引擎检索与查询请求相关的网页的步骤,包括:
根据所检索到的网页中文章与所述查询请求的相关度,对各文章进行降序排序;
从排序结果中选取与查询请求相关度最高的N篇文章,N为预设的整数。
3.根据权利要求1所述的信息检索方法,其特征在于,所述计算检索到的各文章的每个段落与所述查询请求的相似度的步骤中,包括:
构建查询请求与段落的相似度计算模型;
通过所述相似度计算模型计算检索到的文章的每个段落与所述查询请求的相似度。
4.一种信息检索装置,其特征在于,包括:
检索模块,用于通过搜索引擎检索与查询请求相关的网页;
提取模块,用于从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本;
读取模块,用于从所述拼接文本中截取与所述查询请求相关的文本片段;
反馈模块,用于将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段;
其中,所述提取模块包括:
相似度计算子模块,用于计算检索到的各文章的每个段落与所述查询请求的相似度;所述检索到的网页包括所述检索到的各文章;
第二选取子模块,用于从每篇文章中选取相似度最高的段落;
凭借子模块,用于将所选取的多个段落拼接得到所述拼接文本;
所述读取模块包括:
模型构建子模块,用于构建机器阅读理解模型;其中,所述机器阅读理解模型是利用深度人工神经网络算法构建的用于模拟人阅读段落的模型,训练所述机器阅读理解模型包括:从训练数据中查询对应于训练数据的问题,得到的答案为所述训练数据中最简洁的连续文本片段;所述训练数据包括中文语料和英文语料;
截取子模块通过所述机器阅读理解模型从所述拼接文本中截取与所述查询请求相关的连续文本片段。
5.根据权利要求4所述的信息检索装置,其特征在于,所述检索模块包括:
排序子模块,用于根据所检索到的网页中文章与所述查询请求的相关度,对各文章进行降序排序;
第一选取子模块,用于从排序结果中选取与查询请求相关度最高的N篇文章,N为预设的整数。
6.根据权利要求4所述的信息检索装置,其特征在于,所述相似度计算子模块包括:
相似度模型构建单元,用于构建查询请求与段落的相似度计算模型;
计算单元,用于通过所述相似度计算模型计算检索到的文章的每个段落与所述查询请求的相似度。
7.一种信息检索设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-3中任一所述的信息检索方法。
8.一种计算机可读介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的信息检索方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635964.1A CN110633407B (zh) | 2018-06-20 | 2018-06-20 | 信息检索方法、装置、设备及计算机可读介质 |
PCT/CN2019/077068 WO2019242328A1 (zh) | 2018-06-20 | 2019-03-06 | 信息检索方法、装置、设备及计算机可读介质 |
US15/733,467 US11977589B2 (en) | 2018-06-20 | 2019-03-06 | Information search method, device, apparatus and computer-readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635964.1A CN110633407B (zh) | 2018-06-20 | 2018-06-20 | 信息检索方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633407A CN110633407A (zh) | 2019-12-31 |
CN110633407B true CN110633407B (zh) | 2022-05-24 |
Family
ID=68967529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810635964.1A Active CN110633407B (zh) | 2018-06-20 | 2018-06-20 | 信息检索方法、装置、设备及计算机可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11977589B2 (zh) |
CN (1) | CN110633407B (zh) |
WO (1) | WO2019242328A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11244205B2 (en) * | 2019-03-29 | 2022-02-08 | Microsoft Technology Licensing, Llc | Generating multi modal image representation for an image |
CN113139119A (zh) * | 2020-01-20 | 2021-07-20 | 微软技术许可有限责任公司 | 用于问题回答(qa)的对仗学习 |
CN112860848B (zh) * | 2021-01-20 | 2022-03-25 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及介质 |
CN113139048B (zh) * | 2021-04-19 | 2022-11-04 | 中国人民解放军91054部队 | 一种检索结果提供方法及系统 |
CN114912017A (zh) * | 2022-04-11 | 2022-08-16 | 深圳买个宝科技有限公司 | 一种基于大数据的智能销售平台及其数据处理方法 |
CN114925174A (zh) * | 2022-06-07 | 2022-08-19 | 来也科技(北京)有限公司 | 文档检索方法、装置及电子设备 |
CN115119050B (zh) * | 2022-06-30 | 2023-12-15 | 北京奇艺世纪科技有限公司 | 一种视频剪辑方法和装置、电子设备和存储介质 |
CN115827990B (zh) * | 2023-02-10 | 2023-11-21 | 北京中电普华信息技术有限公司 | 搜索方法及装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
JP4344508B2 (ja) * | 2002-06-21 | 2009-10-14 | 株式会社ピートゥピーエー | 文生成システム、文生成方法、プログラム |
CN1609845A (zh) * | 2003-10-22 | 2005-04-27 | 国际商业机器公司 | 用于改善由机器自动生成的摘要的可读性的方法和装置 |
CN100504866C (zh) * | 2006-06-30 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种综合搜索结果的排序系统及方法 |
US8239358B1 (en) * | 2007-02-06 | 2012-08-07 | Dmitri Soubbotin | System, method, and user interface for a search engine based on multi-document summarization |
CN100476830C (zh) * | 2007-06-07 | 2009-04-08 | 北京金山软件有限公司 | 一种网络资源检索方法及系统 |
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN101625680B (zh) * | 2008-07-09 | 2012-08-29 | 东北大学 | 面向专利领域的文档检索方法 |
CN101576872B (zh) * | 2009-06-16 | 2014-05-28 | 北京系统工程研究所 | 一种中文文本处理方法及装置 |
CN102081642A (zh) | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN103955529B (zh) * | 2014-05-12 | 2018-05-01 | 中国科学院计算机网络信息中心 | 一种互联网信息搜索聚合呈现方法 |
CN105183801B (zh) * | 2015-08-25 | 2018-07-06 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN105912631B (zh) * | 2016-04-07 | 2019-07-05 | 北京百度网讯科技有限公司 | 检索处理方法和装置 |
CN106095983B (zh) * | 2016-06-20 | 2019-11-26 | 北京百度网讯科技有限公司 | 一种基于个性化深度神经网络的相似度确定方法及装置 |
CN107145482B (zh) | 2017-03-28 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章生成方法及装置、设备与可读介质 |
US10255273B2 (en) * | 2017-06-15 | 2019-04-09 | Microsoft Technology Licensing, Llc | Method and system for ranking and summarizing natural language passages |
US10909331B2 (en) * | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
-
2018
- 2018-06-20 CN CN201810635964.1A patent/CN110633407B/zh active Active
-
2019
- 2019-03-06 US US15/733,467 patent/US11977589B2/en active Active
- 2019-03-06 WO PCT/CN2019/077068 patent/WO2019242328A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN110633407A (zh) | 2019-12-31 |
US20210103622A1 (en) | 2021-04-08 |
US11977589B2 (en) | 2024-05-07 |
WO2019242328A1 (zh) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633407B (zh) | 信息检索方法、装置、设备及计算机可读介质 | |
US11481422B2 (en) | Method and system for sentiment analysis of information | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
Sood et al. | TagAssist: Automatic Tag Suggestion for Blog Posts. | |
US7421418B2 (en) | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently | |
US9589277B2 (en) | Search service advertisement selection | |
CN106649786A (zh) | 基于深度问答的答案检索方法及装置 | |
CN104834729A (zh) | 题目推荐方法和题目推荐装置 | |
US20090132515A1 (en) | Method and Apparatus for Performing Multi-Phase Ranking of Web Search Results by Re-Ranking Results Using Feature and Label Calibration | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN103870973A (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
US20220180317A1 (en) | Linguistic analysis of seed documents and peer groups | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
WO2020123689A1 (en) | Suggesting text in an electronic document | |
US20050138079A1 (en) | Processing, browsing and classifying an electronic document | |
CN110737756B (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN112052297A (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
CN113269477B (zh) | 一种科研项目查询评分模型训练方法、查询方法及装置 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN111831885B (zh) | 一种互联网信息检索系统与方法 | |
CN114416914A (zh) | 一种基于图片问答的处理方法 | |
CN112214511A (zh) | 一种基于wtp-wcd算法的api推荐方法 | |
CN116578693B (zh) | 一种文本检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |