CN112100326B - 一种抗干扰的融合检索和机器阅读理解的问答方法及系统 - Google Patents

一种抗干扰的融合检索和机器阅读理解的问答方法及系统 Download PDF

Info

Publication number
CN112100326B
CN112100326B CN202010884873.9A CN202010884873A CN112100326B CN 112100326 B CN112100326 B CN 112100326B CN 202010884873 A CN202010884873 A CN 202010884873A CN 112100326 B CN112100326 B CN 112100326B
Authority
CN
China
Prior art keywords
preset
candidate documents
paragraphs
query
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010884873.9A
Other languages
English (en)
Other versions
CN112100326A (zh
Inventor
陈开冉
黎展
谢智权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tungee Technology Co ltd
Original Assignee
Guangzhou Tungee Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tungee Technology Co ltd filed Critical Guangzhou Tungee Technology Co ltd
Priority to CN202010884873.9A priority Critical patent/CN112100326B/zh
Publication of CN112100326A publication Critical patent/CN112100326A/zh
Application granted granted Critical
Publication of CN112100326B publication Critical patent/CN112100326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种融合检索和机器阅读理解的文本查询方法、装置、可读存储介质及计算设备,实现了高精度的搜索,以及,从搜索结果中直接抽取答案返回给用户。方法包括:接收用户的查询请求;所述查询请求包括查询文本;根据所述查询文本进行搜索,获取预设第一个数的候选文档;将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,从所述预设第一个数的候选文档中选取预设第二个数的候选文档;将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,从所述预设第二个数的候选文档中选取预设第三个数的段落或句子;将所述预设第三个数的所述段落或句子返回给所述用户。

Description

一种抗干扰的融合检索和机器阅读理解的问答方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种融合检索和机器阅读理解的文本查询方法、装置、可读存储介质及计算设备。
背景技术
ElasticSearch的BM25算法,是TF-IDF算法的一个升级改良版本,但本质还是基于词的词频、逆文档频率等与词出现次数相关的特征来做匹配搜索,是一种基于关键字匹配的搜索算法。然而在实际应用中,用户输入的关键字可能会与搜索内容语义相关,未必与搜索内容里的关键字完全匹配。如“请假流程”与“请假步骤”只是语义相关。知识库某一知识是“请假步骤”,但用户输入的是“请假流程”,这类要求语义匹配的情况BM25算法是无法解决的。
PageRank搜索排名算法本质上是一种以网页之间的超链接个数和质量作为主要因素来分析网页的重要性的算法。意在显示搜索结果的时候,过滤掉一些超链接个数少的非重要结果。与企业知识库实际不符。因为一般能录进企业知识库的都是一些企业认为重要的资料数据。所以PageRank算法并不适用于大部分的知识库场景。
基于以上算法实现的搜索引擎,返回内容是文档级别。部分优秀的互联网搜索引擎,如百度和Google,则利用知识图谱方法,直接返回查询问题的结果。然而,知识图谱的构建是一项花费巨大人力物力的工程,并不是普通企业所能承担的。
综上,目前并没有一套比较经济的支持语义匹配的搜索算法。主流的算法流程不是全文搜索,而且知识图谱、研究文档搜索、机器阅读理解落地的不多(阅读理解模型鲁棒性不高),没有一套综合成熟的文档搜索算法流程。
发明内容
为此,本发明提供了一种融合检索和机器阅读理解的文本查询方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明实施例的一个方面,提供了一种融合检索和机器阅读理解的文本查询方法,包括:
接收用户的查询请求;所述查询请求包括查询文本;
根据所述查询文本进行搜索,获取预设第一个数的候选文档;
将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,根据所述二分类模型输出的置信度,从所述预设第一个数的候选文档中选取预设第二个数的候选文档;
将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,根据所述段落抽取阅读理解模型输出的所述候选文档中与所述查询文本对应的段落或句子,以及所述段落或句子的上标、下标的置信度,从所述预设第二个数的候选文档中选取预设第三个数的所述段落或句子;
将所述预设第三个数的所述段落或句子返回给所述用户。
可选地,所述预设第一个数的候选文档,包括:全体搜索结果中,搜索结果置信度最高的预设第一个数的候选文档;
所述预设第二个数的候选文档,包括:所述预设第一个数的候选文档中,所述二分类模型输出的置信度最高的预设第二个数的候选文档;
所述预设第三个数的段落或句子,包括:所述预设第二个数的候选文档的所述段落或句子中,上标、下标的置信度的乘积最高的预设第三个数的所述段落或句子。
可选地,将所述预设第三个数的所述段落或句子返回给所述用户,包括:
根据所述搜索结果置信度、所述二分类模型输出的置信度和所述上标、下标的置信度的乘积的综合结果,对所述预设第三个数的段落或句子进行排序;
将排序结果返回给所述用户。
可选地,根据所述查询文本进行搜索,获取预设第一个数的候选文档,包括:
根据所述查询文本,使用BM25算法和RM3算法进行搜索,获取预设第一个数的候选文档。
可选地,训练所述二分类模型,包括:
获取若干第一查询文本训练数据,以及,标记包含所述第一查询文本训练数据对应答案的第一文档;
为每个第一查询文本训练数据随机生成若干不相关的第二文档;
将所述第一查询文本训练数据、所述第一文档和所述第二文档经过Bert编码后输入全连接神经网络,得到训练好的二分类模型。
可选地,训练所述段落抽取阅读理解模型,包括:
获取若干第二查询文本训练数据,以及,标记所述第二查询文本训练数据对应的段落或句子,其中包括文档中的上标和下标;
预训练一个段落抽取阅读理解模型;
根据所述第二查询文本训练数据和所述第二查询文本训练数据对应的段落或句子的标记,对预训练的所述段落抽取阅读理解模型进行训练。
可选地,所述预训练一个段落抽取阅读理解模型,包括:
利用双向注意力流模型BiDAF预训练一个段落抽取阅读理解模型;
根据所述第二查询文本训练数据和所述第二查询文本训练数据对应的段落或句子的标记,对预训练的所述段落抽取阅读理解模型进行训练,包括:
固定预训练的所述段落抽取阅读理解模型的参数权重,随机生成一个标准化处理的Embedding词表权重向量,得到一个干扰句子向量;
将所述第二查询文本训练数据经过Embedding编码后加上所述干扰句子向量,以最大化预测错误率为目标,利用梯度下降法训练干扰词表权重;
利用束搜索将所述干扰词表权重解码成干扰词;
将所述干扰词的幂集加入所述查询文本,训练出一个基于Roberta和指针网络的段落抽取阅读理解模型。
根据本发明的又一方面,提供一种融合检索和机器阅读理解的文本查询装置,包括:
请求接收单元,用于接收用户的查询请求;所述查询请求包括查询文本;
搜索单元,用于根据所述查询文本进行搜索,获取预设第一个数的候选文档;
二分类模型处理单元,用于将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,根据所述二分类模型输出的置信度,从所述预设第一个数的候选文档中选取预设第二个数的候选文档;
段落抽取阅读理解模型处理单元,用于将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,根据所述段落抽取阅读理解模型输出的所述候选文档中与所述查询文本对应的段落或句子,以及所述段落或句子的上标、下标的置信度,从所述预设第二个数的候选文档中选取预设第三个数的所述段落或句子;
查询结果返回单元,用于将所述预设第三个数的所述段落或句子返回给所述用户。
根据本发明的又一方面,提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行上述的融合检索和机器阅读理解的文本查询方法。
根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行上述的融合检索和机器阅读理解的文本查询方法。
本发明提供的技术方案,接收用户的查询请求;所述查询请求包括查询文本,根据所述查询文本进行搜索,获取预设第一个数的候选文档,将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,根据所述二分类模型输出的置信度,从所述预设第一个数的候选文档中选取预设第二个数的候选文档,将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,根据所述段落抽取阅读理解模型输出的所述候选文档中与所述查询文本对应的段落或句子,以及所述段落或句子的上标、下标的置信度,从所述预设第二个数的候选文档中选取预设第三个数的所述段落或句子,将所述预设第三个数的所述段落或句子返回给所述用户;上述技术方案综合了搜索算法、二分类模型筛选和机器阅读理解模型,能够自动从文档中抽取答案并作为搜索结果返回,提高了用户的搜索效率,改善了用户体验。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是示例性的计算设备的结构框图;
图2是根据本发明实施例的融合检索和机器阅读理解的文本查询方法的流程示意图;
图3是根据本发明实施例的融合检索和机器阅读理解的文本查询装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是布置为实现根据本发明的融合检索和机器阅读理解的文本查询方法的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示终端或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机、服务器、由多台计算机组成的集群中的虚拟计算设备。
其中,计算设备100的一个或多个程序122包括用于执行根据本发明的一种融合检索和机器阅读理解的文本查询方法的指令。
图1示例性示出根据本发明的一种融合检索和机器阅读理解的文本查询方法的流程图,方法始于步骤S210。
在步骤S210中,接收用户的查询请求;查询请求包括查询文本。
例如,查询文本可以是用户搜索的词、句,搜索的对象可以是包含海量文档或网页的分布式数据库。
随后,在步骤S220中,根据查询文本进行搜索,获取预设第一个数的候选文档。
本步骤可以采用成熟的搜索算法实现。进一步地,使用BM25算法和RM3算法进行搜索。其中,BM25算法可以评价搜索词和文档之间相关性,RM3算法则是一种查询扩展技术,用于实现搜索词的同义词扩展搜索。
可选地,预设第一个数的候选文档,包括:全体搜索结果中,搜索结果置信度最高的预设第一个数的候选文档。例如,通过对全体搜索结果按照BM25得分进行排序,选取排序前第一个数的搜索结果并返回。
随后,在步骤S230中,将预设第一个数的候选文档和查询文本输入预设的二分类模型,根据二分类模型输出的置信度,从预设第一个数的候选文档中选取预设第二个数的候选文档。
可选地,预设第二个数的候选文档,包括:预设第一个数的候选文档中,二分类模型评价的置信度最高的预设第二个数的候选文档。具体地,将预设第一个数的候选文档输入二分类模型,二分类模型输出包含置信度的分类结果,按照置信度排序后,选取排序前第二个数的候选文档。
可选地,训练二分类模型的过程包括:
获取若干第一查询文本训练数据,以及,标记包含第一查询文本训练数据对应答案的第一文档;
为每个第一查询文本训练数据随机生成若干不相关的第二文档;
将第一查询文本训练数据、第一文档和第二文档经过Bert编码后输入全连接神经网络,得到训练好的二分类模型。
随后,在步骤S240中,将预设第二个数的候选文档和查询文本输入预设的段落抽取阅读理解模型,根据段落抽取阅读理解模型输出的候选文档中与查询文本对应的段落或句子,以及段落或句子的上标、下标的置信度,从预设第二个数的候选文档中选取预设第三个数的所述段落或句子。
可选地,预设第三个数的段落或句子,包括:预设第二个数的候选文档提取的段落或句子中,上标、下标的置信度的乘积最高的预设第三个数的段落或句子。段落抽取阅读理解模型在从文档中抽取段落或句子时,会在文档中生成上、下标,同时输出上、下标的置信度,根据上、下标的置信度对第二个数的候选文档中抽取的段落或句子进行排序,从而获取排序前第三个数的段落或句子。
可选地,训练段落抽取阅读理解模型,包括:
获取若干第二查询文本训练数据,以及,标记第二查询文本训练数据对应的段落或句子,其中包括文档中的上标和下标;
预训练一个段落抽取阅读理解模型;
根据第二查询文本训练数据和第二查询文本训练数据对应的段落或句子的标记,对预训练的段落抽取阅读理解模型进行训练。
进一步地,预训练一个段落抽取阅读理解模型,包括:利用双向注意力流模型BiDAF预训练一个段落抽取阅读理解模型;
根据第二查询文本训练数据和第二查询文本训练数据对应的段落或句子的标记,对预训练的所述段落抽取阅读理解模型进行训练,包括:
固定预训练的段落抽取阅读理解模型的参数权重,随机生成一个标准化处理的Embedding词表权重向量,得到一个干扰句子向量;
将第二查询文本训练数据经过Embedding编码后加上干扰句子向量,以最大化预测错误率为目标,利用梯度下降法训练干扰词表权重;
利用束搜索将干扰词表权重解码成干扰词;
将干扰词的幂集加入查询文本,训练出一个基于Roberta和指针网络的段落抽取阅读理解模型。
本发明实施例通过段落抽取阅读理解模型对搜索结果文档进行段落或句子抽取,提高了用户的搜索效率,改善了用户体验。以及,通过具备抗干扰性能的段落抽取阅读理解模型,提高了系统的鲁棒性。
显然,预设第一个数大于预设第二个数,预设第二个数大于预设第三个数。
随后,在步骤S250中,将预设第三个数的段落或句子返回给用户。
进一步地,S250包括:
根据搜索结果置信度、二分类模型输出的置信度和上标、下标的置信度的乘积的综合结果,对预设第三个数的段落或句子进行排序;
将排序结果返回给所述用户。
本步骤中,对第三个数的段落或句子进行了再一次的排序,由于本次排序是综合了前面三次的排序结果,可以提高排序的准确性,提高用户的搜索效率。
下面给出本发明的具体实施例,包括如下步骤:
步骤1、文档的倒排索引建立以及入库存储,采用开源框架ElasticSearch。另外利用百度百科、中文维基百科、搜狗新闻、人民日报、知乎问答、微博、文学作品、四库全书等公开语料,训练词向量作为同义词扩展数据。
步骤2、捕获用户的查询文本Q。
步骤3、全文搜索+同义词扩展召回TOP-K1(1000)个候选文档:根据用户查询的query,利用BM25算法,和RM3查询扩展技术,从分布式ElasticSearch数据库中返回TOP-K1篇候选的知识文档。并以BM25得分作为置信度。
步骤4、粗排序模型训练以及预测选出TOP-K2(50)篇相关文档:
步骤4.1、自生产10000个查询文本,并标记目标答案所属的文档。
步骤4.2、对于每个查询文本,随机在文档集合里选出999篇不含查询答案的文档作为负采样。
步骤4.3、综合a、b得到10000000条训练数据。每条数据是一个(查询文本、候选文档,是否相关)的三元组。
步骤4.4、用中文Bert作为编码器,拼接一个样本的查询文本和候选问的那个作为输入,Bert编码后接一个全连接神经网络,输出0或1,表示是否相关。
步骤4.5、d过程遍历所有训练样本,则得到一个二分类模型M1,输入查询文本和一篇文档,输出是否相关(答案是不是在文档里)的置信度
步骤4.6、利用M1,基于Q对所有TOP-K1篇文档进行相关置信度计算并排序,选出TOP-K2(50)个。
步骤5、抗扰动的机器阅读理解,输出TOP-K3(10)个可能包含答案的文档句子。
步骤5.1、自生产10000条查询文本,并标记包含答案的句子所在文档的上下标。作为阅读理解训练数据。
步骤5.2、利用双向注意力流模型BiDAF训练一个段落抽取式的阅读理解模型M2。
步骤5.3、对于训练样本里的每个查询文本q,固定M2的所有参数权重,随机化一个标准化后的Embedding词表权重向量,从而得到一个干扰句子向量g。将q经过Embedding编码后加上g,以最大化预测错误率为目标,利用梯度下降法训练干扰词表权重。利用束搜索讲词表权重解码成若干个干扰词。对每个q加入这些干扰词的幂集,训练一个Roberta+指针网络的段落抽取阅读理解模型,得到模型M3。
步骤5.4、将TOP-K2篇文章分别和Q放进M3,得到TOP-K2个句子,并把答案句子上下标的置信度相乘作为答案置信度。并选出TOP-K3个答案句子。
步骤6、答案精排序:将步骤3、4.e、5.d的置信度加权平均后得到最终置信度。根据最终置信度排序,重排TOP-K3个可能包含答案的句子作为输出。
本发明具体实施例实现了一种基于亿级文档数量级别的大规模知识库的分布式语义搜索引擎。一方面解决用户查询的问题与知识点语义匹配但关键字不匹配导致查询低效的问题,大大提高搜索召回的精度和搜索排序的准确性;同时,搜索返回形式并非传统的文档返回形式,而是基于机器阅读理解算法对文档进行答案抽取,大大提高用户的搜索效率。另一方面,面对企业知识库海量知识点的场景,本发明实现一套高精度召回排序的算法流程,确保在知识文档数量多,混淆度高时,系统仍然能保持良好的性能指标。
参见图3,本发明实施例还提供了一种融合检索和机器阅读理解的文本查询装置,包括:
请求接收单元310,用于接收用户的查询请求;所述查询请求包括查询文本;
搜索单元320,用于根据所述查询文本进行搜索,获取预设第一个数的候选文档;
二分类模型处理单元330,用于将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,根据所述二分类模型输出的置信度,从所述预设第一个数的候选文档中选取预设第二个数的候选文档;
段落抽取阅读理解模型处理单元340,用于将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,根据所述段落抽取阅读理解模型输出的所述候选文档中与所述查询文本对应的段落或句子,以及所述段落或句子的上标、下标的置信度,从所述预设第二个数的候选文档中选取预设第三个数的所述段落或句子;
查询结果返回单元350,用于将所述预设第三个数的所述段落或句子返回给所述用户。
可选地,查询结果返回单元350具体用于:
根据搜索结果置信度、二分类模型评价的置信度和上标、下标的置信度的乘积的综合结果,对预设第三个数的段落或句子进行排序;
将排序结果返回给所述用户。
可选地,搜索单元320具体用于:
根据所述查询文本,使用BM25算法和RM3算法进行搜索,获取预设第一个数的候选文档。
可选地,二分类模型处理单元330还用于训练所述二分类模型,过程包括:
获取若干第一查询文本训练数据,以及,标记包含所述第一查询文本训练数据对应答案的第一文档;
为每个第一查询文本训练数据随机生成若干不相关的第二文档;
将所述第一查询文本训练数据、所述第一文档和所述第二文档经过Bert编码后输入全连接神经网络,得到训练好的二分类模型。
可选地,段落抽取阅读理解模型处理单元340还用于训练所述段落抽取阅读理解模型,训练过程包括:
获取若干第二查询文本训练数据,以及,标记所述第二查询文本训练数据对应的段落或句子,其中包括文档中的上标和下标;
预训练一个段落抽取阅读理解模型;
根据所述第二查询文本训练数据和所述第二查询文本训练数据对应的段落或句子的标记,对预训练的所述段落抽取阅读理解模型进行训练。
可选地,段落抽取阅读理解模型处理单元340具体用于:
利用双向注意力流模型BiDAF预训练一个段落抽取阅读理解模型;以及,
固定预训练的所述段落抽取阅读理解模型的参数权重,随机生成一个标准化处理的Embedding词表权重向量,得到一个干扰句子向量;
将所述第二查询文本训练数据经过Embedding编码后加上所述干扰句子向量,以最大化预测错误率为目标,利用梯度下降法训练干扰词表权重;
利用束搜索将所述干扰词表权重解码成干扰词;
将所述干扰词的幂集加入所述查询文本,训练出一个基于Roberta和指针网络的段落抽取阅读理解模型。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面发明的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的发明是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (8)

1.一种融合检索和机器阅读理解的文本查询方法,其特征在于,包括:
接收用户的查询请求;所述查询请求包括查询文本;
根据所述查询文本进行搜索,获取预设第一个数的候选文档;
将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,根据所述二分类模型输出的置信度,从所述预设第一个数的候选文档中选取预设第二个数的候选文档;
将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,根据所述段落抽取阅读理解模型输出的所述候选文档中与所述查询文本对应的段落或句子,以及所述段落或句子的上标、下标的置信度,从所述预设第二个数的候选文档中选取预设第三个数的所述段落或句子;
将所述预设第三个数的所述段落或句子返回给所述用户;
其中,训练所述段落抽取阅读理解模型,包括:
获取若干第二查询文本训练数据,以及,标记所述第二查询文本训练数据对应的段落或句子,其中包括文档中的上标和下标;
利用双向注意力流模型BiDAF预训练一个段落抽取阅读理解模型;
固定预训练的所述段落抽取阅读理解模型的参数权重,随机生成一个标准化处理的Embedding词表权重向量,得到一个干扰句子向量;
将所述第二查询文本训练数据经过Embedding编码后加上所述干扰句子向量,以最大化预测错误率为目标,利用梯度下降法训练干扰词表权重;
利用束搜索将所述干扰词表权重解码成干扰词;
将所述干扰词的幂集加入所述查询文本,训练出一个基于Roberta和指针网络的段落抽取阅读理解模型。
2.如权利要求1所述的方法,其特征在于,
所述预设第一个数的候选文档,包括:全体搜索结果中,搜索结果置信度最高的预设第一个数的候选文档;
所述预设第二个数的候选文档,包括:所述预设第一个数的候选文档中,所述二分类模型输出的置信度最高的预设第二个数的候选文档;
所述预设第三个数的段落或句子,包括:所述预设第二个数的候选文档的所述段落或句子中,上标、下标的置信度的乘积最高的预设第三个数的所述段落或句子。
3.如权利要求2所述的方法,其特征在于,将所述预设第三个数的所述段落或句子返回给所述用户,包括:
根据所述搜索结果置信度、所述二分类模型输出的置信度和所述上标、下标的置信度的乘积的综合结果,对所述预设第三个数的段落或句子进行排序;
将排序结果返回给所述用户。
4.如权利要求1所述的方法,其特征在于,根据所述查询文本进行搜索,获取预设第一个数的候选文档,包括:
根据所述查询文本,使用BM25算法和RM3算法进行搜索,获取预设第一个数的候选文档。
5.如权利要求1所述的方法,其特征在于,训练所述二分类模型,包括:
获取若干第一查询文本训练数据,以及,标记包含所述第一查询文本训练数据对应答案的第一文档;
为每个第一查询文本训练数据随机生成若干不相关的第二文档;
将所述第一查询文本训练数据、所述第一文档和所述第二文档经过Bert编码后输入全连接神经网络,得到训练好的二分类模型。
6.一种融合检索和机器阅读理解的文本查询装置,其特征在于,包括:
请求接收单元,用于接收用户的查询请求;所述查询请求包括查询文本;
搜索单元,用于根据所述查询文本进行搜索,获取预设第一个数的候选文档;
二分类模型处理单元,用于将所述预设第一个数的候选文档和所述查询文本输入预设的二分类模型,根据所述二分类模型输出的置信度,从所述预设第一个数的候选文档中选取预设第二个数的候选文档;
段落抽取阅读理解模型处理单元,用于将所述预设第二个数的候选文档和所述查询文本输入预设的段落抽取阅读理解模型,根据所述段落抽取阅读理解模型输出的所述候选文档中与所述查询文本对应的段落或句子,以及所述段落或句子的上标、下标的置信度,从所述预设第二个数的候选文档中选取预设第三个数的所述段落或句子;
所述段落抽取阅读理解模型处理单元,还用于训练所述段落抽取阅读理解模型,训练过程包括:
获取若干第二查询文本训练数据,以及,标记所述第二查询文本训练数据对应的段落或句子,其中包括文档中的上标和下标;
利用双向注意力流模型BiDAF预训练一个段落抽取阅读理解模型;以及,
固定预训练的所述段落抽取阅读理解模型的参数权重,随机生成一个标准化处理的Embedding词表权重向量,得到一个干扰句子向量;
将所述第二查询文本训练数据经过Embedding编码后加上所述干扰句子向量,以最大化预测错误率为目标,利用梯度下降法训练干扰词表权重;
利用束搜索将所述干扰词表权重解码成干扰词;
将所述干扰词的幂集加入所述查询文本,训练出一个基于Roberta和指针网络的段落抽取阅读理解模型;
查询结果返回单元,用于将所述预设第三个数的所述段落或句子返回给所述用户。
7.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-5中的任一项所述的方法。
8.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-5中的任一项所述的方法。
CN202010884873.9A 2020-08-28 2020-08-28 一种抗干扰的融合检索和机器阅读理解的问答方法及系统 Active CN112100326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010884873.9A CN112100326B (zh) 2020-08-28 2020-08-28 一种抗干扰的融合检索和机器阅读理解的问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884873.9A CN112100326B (zh) 2020-08-28 2020-08-28 一种抗干扰的融合检索和机器阅读理解的问答方法及系统

Publications (2)

Publication Number Publication Date
CN112100326A CN112100326A (zh) 2020-12-18
CN112100326B true CN112100326B (zh) 2023-04-18

Family

ID=73758283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884873.9A Active CN112100326B (zh) 2020-08-28 2020-08-28 一种抗干扰的融合检索和机器阅读理解的问答方法及系统

Country Status (1)

Country Link
CN (1) CN112100326B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860863A (zh) * 2021-01-30 2021-05-28 云知声智能科技股份有限公司 一种机器阅读理解方法及装置
CN113342982B (zh) * 2021-06-24 2023-07-25 长三角信息智能创新研究院 融合RoBERTa和外部知识库的企业行业分类方法
CN114757184B (zh) * 2022-04-11 2023-11-10 中国航空综合技术研究所 实现航空领域知识问答的方法和系统
CN114925174A (zh) * 2022-06-07 2022-08-19 来也科技(北京)有限公司 文档检索方法、装置及电子设备
CN116340467B (zh) * 2023-05-11 2023-11-17 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备、及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347355A1 (en) * 2014-05-29 2015-12-03 Laura Marie Kasbar Assistive Reading Tool
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN111190997B (zh) * 2018-10-26 2024-01-05 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN111368042A (zh) * 2020-02-13 2020-07-03 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及计算机存储介质
CN111460089B (zh) * 2020-02-18 2023-08-25 北京邮电大学 一种多段落阅读理解候选答案排序方法和装置

Also Published As

Publication number Publication date
CN112100326A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112100326B (zh) 一种抗干扰的融合检索和机器阅读理解的问答方法及系统
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107451126B (zh) 一种近义词筛选方法及系统
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN107977347B (zh) 一种题目去重方法和计算设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110795628B (zh) 一种基于相关性的搜索词处理方法、装置及计算设备
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN112948562A (zh) 问答处理方法、装置、计算机设备及可读存储介质
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN114090776A (zh) 文档解析方法、系统及装置
CN112905768A (zh) 一种数据交互方法、装置及存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN117539990A (zh) 一种问题处理方法、装置、电子设备和存储介质
CN114077655A (zh) 一种答案抽取模型的训练方法及装置
CN114385819B (zh) 环境司法领域本体构建方法、装置及相关设备
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114818727A (zh) 关键句抽取方法及装置
CN113961686A (zh) 问答模型的训练方法及装置、问答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant