CN112632216A - 一种基于深度学习的长文本检索系统及方法 - Google Patents

一种基于深度学习的长文本检索系统及方法 Download PDF

Info

Publication number
CN112632216A
CN112632216A CN202011435229.XA CN202011435229A CN112632216A CN 112632216 A CN112632216 A CN 112632216A CN 202011435229 A CN202011435229 A CN 202011435229A CN 112632216 A CN112632216 A CN 112632216A
Authority
CN
China
Prior art keywords
text
text segment
interactive
interactive features
request data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011435229.XA
Other languages
English (en)
Other versions
CN112632216B (zh
Inventor
李杰坷
杨敏
李成明
贺倩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202011435229.XA priority Critical patent/CN112632216B/zh
Publication of CN112632216A publication Critical patent/CN112632216A/zh
Application granted granted Critical
Publication of CN112632216B publication Critical patent/CN112632216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于深度学习的长文本检索系统及方法,包括交互特征提取模块,用于对长文本文档进行分段,将得到的文本片段与用户输入的搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征;交互特征聚合模块,用于对文本片段交互特征进行聚合,得到聚合文本片段交互特征;输出模块,用于将聚合文本片段交互特征输入至匹配得分计算器中,计算搜索请求数据和长文本文档的匹配得分。本申请通过加入基于匹配字符的特殊掩膜机制,使得检索系统能对分散到长文本中的问题的关键点进行更精准地匹配;并通过先对长文本进行分段,再使用循环神经网络和注意力机制进行聚合的结构,降低随着文本长度增加所带来的检索系统计算时间的增长。

Description

一种基于深度学习的长文本检索系统及方法
技术领域
本申请涉及长文本检索技术领域,尤其涉及一种基于深度学习的长文本检索系统及方法。
背景技术
文献检索是检索对象为文献的一种信息检索技术,是根据学习和工作的需要通过检索来获取文献的过程。随着现代网络技术的发展,文献检索的更多是通过计算机技术来完成。文献的检索语言可分为分类语言(以数字、字母或字母与数字结合作为基本字符,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言)、主题语言(以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言)等。使用规范的文献检索语言可以快速准确的检索出所需的文献资料,但规范的文献检索语言使用门槛较高,普通用户由于不了解分类规则或检索关键字表达不准确等原因不能较好的使用规范的文献检索语言。因此,需要通过分析用户输入的自然语言,直接检索到其最需要的文献的检索系统。
现有技术中,一方面提出了基于交互的文本匹配系统,该系统首先将用户输入的问题和文本文档的每个词转化为词向量,然后基于词向量计算用户输入的问题和文本文档的交互矩阵,使用卷积神经网络(CNN)提取交互特征,最后通过全连接层输出相关性得分。
现有技术中,另一方面提出了基于交互的基于注意力的双向编码器(BERT)的检索系统,将用户输入的问题和文本文档字符拼接并输入该检索系统,使用检索系统输出的分类表征向量作为交互向量,再通过全连接层输出相关性得分。
但是上述两种检索系统都是基于用户输入的问题和文本文档进行交互,即将用户输入的问题和文本文档同时输入同一个检索系统中,然后计算他们的交互特征,最后根据交互特征,计算用户输入的问题和文本文档的相关性得分,并且上述两种检索系统仅适合输入文本文档较短的场景,当输入的文本长度变长时,计算用户输入的问题和文本文档相关性得分所需要的时间会急剧增长。
现有技术中,第三方面提出了将长文本进行分段,分别进行计算相关性得分,然后对这些分段文本的相关性得分通过某种方法进行聚合,例如取平均等,得到最终的得分的检索系统;虽然这种检索系统可以缓解随着输入文档的增长,计算时间急剧增长的问题,但是由于用户输入的问题长度相对于长文本文档非常短,当用户需要检索的关键点在整个长文本文档中并非集中分布时,将会严重影响检索系统的检索效果。
发明内容
本申请提供了一种基于深度学习的长文本检索系统及方法,以解决现有技术中存在的由于计算时间的限制导致对输入的文本长度有所限制的问题,以及对于长文本文档,由于用户输入的问题中的关键点在长文本文档中分布不集中,影响检索系统的检索效果的问题。
本申请一方面,本申请提供一种基于深度学习的长文本检索系统,所述长文本检索系统包括:
交互特征提取模块,用于对长文本文档进行分段,将得到的文本片段与用户输入的搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征,其中,所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征;
交互特征聚合模块,用于对所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;
输出模块,用于将所述聚合文本片段交互特征输入至匹配得分计算器中,计算所述搜索请求数据和所述长文本文档的匹配得分。
在本申请的较佳实施例中,所述交互特征提取模块具体用于实现如下操作:
对长文本文档进行分段,并获取得到的文本片段的字符向量序列;
获取用户输入的搜索请求数据,及搜索请求数据的字符向量序列;
将所述文本片段的字符向量序列与所述搜索请求数据的字符向量序列进行拼接,得到输入字符向量序列;
对所述输入字符向量序列采用预设的掩膜机制进行处理,得到掩膜向量,其中,所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制,所述掩膜向量包括普通掩膜向量和基于匹配字符的掩膜向量;
将所述输入字符向量序列和所述普通掩膜向量以及所述基于匹配字符的掩膜向量同时输入至所述基本特征提取器中,提取所述文本片段交互特征。
在本申请的较佳实施例中,所述基本特征提取器具体为基于注意力的双向编码器,通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合,查询所述搜索请求数据的字符向量序列与所述文本片段的字符向量序列中完全匹配的字符,准确提取所述文本片段交互特征。
在本申请的较佳实施例中,提取所述文本片段交互特征采用的公式具体如下
vi=BERT([Q;Pi],M1,M2),
其中,i的取值范围为1,2,3,...,n,vi表示文本片段交互特征,Q表示搜索请求数据的字符向量序列,Pi表示文本片段的字符向量序列,M1表示普通掩膜向量,M2表示基于匹配字符的掩膜向量。
在本申请的较佳实施例中,所述交互特征聚合模块的具体用于实现如下操作:
将所述文本片段交互特征进行拼接,得到第一文本片段交互特征序列;
将所述第一文本片段交互特征序列输入至循环神经网络进行处理,得到第二文本片段交互特征序列;
对所述第二文本片段交互特征序列进行平均,得到平均文本片段交互特征;
采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算,得到聚合文本片段交互特征。
在本申请的较佳实施例中,采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算,得到聚合文本片段交互特征,具体公式如下:
A=softmax(V*Vmean T),
Vagg=sum(V*A),
其中,A表示注意力向量,Vagg表示聚合文本片段交互特征,V表示第一文本片段交互特征序列,Vmean表示平均文本片段交互特征。
在本申请的较佳实施例中,所述匹配得分计算器具体为全连接神经网络。
另一方面,本申请提供一种基于深度学习的长文本检索方法,具体包括以下步骤:
S101,获取长文本文档和用户的搜索请求数据,对所述长文本文档进行分段,将得到的文本片段与所述搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征;
S102,将所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;
S103,将所述聚合文本片段交互特征输入至全连接神经网络中,计算所述搜索请求数据和所述长文本文档的匹配得分。
在本申请的较佳实施例中,所述基本特征提取器具体为采用基于匹配字符的掩膜机制准确提取所述文本片段交互特征的基于注意力的双向编码器。
在本申请的较佳实施例中,将所述文本片段交互特征进行聚合,得到聚合文本片段交互特征,具体通过采用循环神经网络和注意力机制的结构,聚合所述搜索请求数据和所述文本片段交互特征。
本申请的一种基于深度学习的长文本检索系统及方法,相较于现有技术而言,具有以下有益效果:
(1)本申请通过采用基于注意力的双向编码器中融入了基于字符匹配的掩膜机制,改善了基于注意力的双向编码器的性能,从而使得双向编码器能够更准确地捕获长文本文档的文本片段与用户输入的搜索请求数据的文本片段交互特征,即对长文本文档的文本片段与用户输入的搜索请求数据的匹配计算更加准确,并且采用此种模式进行文本交互特征的提取,不论用户输入的搜索请求数据在整个长文本文档中的分布是否集中,均可以有效提取出含有用户输入的搜索请求数据的关键点,从而使得长文本检索系统的检索准确性更高。
(2)本申请在分段匹配方法的基础上,采用了将循环神经网络和注意力机制结合的结构,对文本片段交互特征进行融合,在最终计算用户输入的搜索请求数据和长文本文档的匹配得分,而不是分别计算每一划分的文本片段与搜索请求数据的匹配得分,能够有效减少随着文本长度的增加所需要的计算时间,从而提高长文本检索系统的检索效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于深度学习的长文本检索系统的原理示意框图;
图2为一种基于深度学习的长文本检索方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
基于注意力的双向编码器:BERT。
卷积神经网络:CNN。
循环神经网络:RNN。
全连接网络:FCN。
掩膜操作:通过输入一个与输入字符向量序列长度相同的二值向量M,该二值向量M的每一位对应了输入字符向量序列的每一位,在特征提取器中,代表是否对该输入字符进行特征提取。
实施例1
参见图1,为本申请一种基于深度学习的长文本检索系统的原理示意框图。
如图1所示,本申请提供的一种基于深度学习的长文本检索系统,所述长文本检索系统包括:
交互特征提取模块,用于对长文本文档P进行分段,将得到的文本片段Pi与用户输入的搜索请求数据Q进行拼接,并输入至基本特征提取器中,提取文本片段交互特征,其中,所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征vi
交互特征聚合模块,用于对所述文本片段交互特征vi进行聚合,得到聚合文本片段交互特征Vagg
输出模块,用于将所述聚合文本片段交互特征Vagg输入至匹配得分计算器中,计算所述搜索请求数据Q和所述长文本文档P的匹配得分s。
如图1所示,在本实施例1中,进一步地,所述交互特征提取模块具体用于实现如下操作:
对长文本文档P进行分段,并获取得到的文本片段Pi的字符向量序列[d1,d2,d3,d4,d5,d6];
获取用户输入的搜索请求数据Q,及搜索请求数据的字符向量序列[q1,q2,q3,q4,q5];
将所述文本片段Pi的字符向量序列[d1,d2,d3,d4,d5,d6]与所述搜索请求数据Q的字符向量序列[q1,q2,q3,q4,q5]进行拼接,得到输入字符向量序列[Q;Pi],即[q1,q2,q3,q4,q5,d1,d2,d3,d4,d5,d6];
对所述输入字符向量序列采用预设的掩膜机制进行处理,得到掩膜向量,其中,所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制,所述掩膜向量包括普通掩膜向量M1和基于匹配字符的掩膜向量M2
将所述输入字符向量序列[Q;Pi]和所述普通掩膜向量M1以及所述基于匹配字符的掩膜向量M2同时输入至所述基本特征提取器中,提取所述文本片段交互特征vi。
需要特别说明的是,在本实施例1中,如图1所示,普通的掩膜向量M1对于输入字符向量序列的所有的非填充(pad)字符对应的掩膜向量位置均为1,即M1为[1,1,1,1,1,1,1,1,1,1,1];基于匹配字符的掩膜向量M2则通过寻找搜索请求数据Q的字符向量序列与文本片段Pi的字符向量序列中完全匹配的字符,将其对应的掩膜向量位置设为1,其余输入字符对应的掩膜向量位置设为0,即得到M2为[0,1,0,1,0,0,1,0,1,0,0]。
在本实施例1中,进一步地,所述基本特征提取器具体为基于注意力的双向编码器,通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合,查询所述搜索请求数据的字符向量序列[q1,q2,q3,q4,q5]与所述文本片段的字符向量序列[d1,d2,d3,d4,d5,d6]中完全匹配的字符,准确提取所述文本片段交互特征vi
在本实施例1中,进一步地,提取所述文本片段交互特征采用的公式具体如下
vi=BERT([Q;Pi],M1,M2),
其中,i的取值范围为1,2,3,...,n,vi表示文本片段交互特征,Q表示搜索请求数据的字符向量序列,Pi表示文本片段的字符向量序列,M1表示普通掩膜向量,M2表示基于匹配字符的掩膜向量。
在本实施例1中,进一步地,所述交互特征聚合模块的具体用于实现如下操作:
将所述文本片段交互特征vi进行拼接,得到第一文本片段交互特征序列V,即[v1,v2,v3,v4,v5,v6];
将所述第一文本片段交互特征序列V输入至循环神经网络进行处理,得到第二文本片段交互特征序列V2
对所述第二文本片段交互特征序列V2进行平均,得到平均文本片段交互特征Vmean
采用所述平均文本片段交互特征Vmean对所述第一文本片段交互特征序列V进行注意力机制的计算,得到聚合文本片段交互特征Vagg
在本实施例1中,进一步地,采用所述平均文本片段交互特征Vmean对所述第一文本片段交互特征序列V进行注意力机制的计算,得到聚合文本片段交互特征Vagg,具体公式如下:
A=soft max(V*Vmean T),
Vagg=sum(V*A),
其中,A表示注意力向量,A=[a1,a2,a3,a4,a5,a6],Vagg表示聚合文本片段交互特征,V表示第一文本片段交互特征序列,Vmean表示平均文本片段交互特征。
在本实施例1中,进一步地,所述匹配得分计算器具体为全连接神经网络(FullyConnected Network)。
实施例2
如图2所示,本申请提供一种基于深度学习的长文本检索方法,具体包括以下步骤:
S101,获取长文本文档P和用户的搜索请求数据Q,对所述长文本文档进行分段,将得到的文本片段Pi与所述搜索请求数据Q进行拼接,并输入至基本特征提取器中,提取文本片段交互特征vi
S102,将所述文本片段交互特征vi进行聚合,得到聚合文本片段交互特征Vagg
S103,将所述聚合文本片段交互特征Vagg输入至全连接神经网络中,计算所述搜索请求数据Q和所述长文本文档P的匹配得分s。
在本实施例2中,进一步地,所述步骤S101中的所述基本特征提取器具体为采用基于匹配字符的掩膜机制准确提取所述文本片段交互特征vi的基于注意力的双向编码器。
在本实施例2中,进一步地,所述步骤S102中具体通过采用循环神经网络和注意力机制的结构,聚合所述搜索请求数据Q和所述文本片段交互特征vi。
需要说明的是,采用本实施例2中的方法进行检索,得到的匹配得分在平均精度均值(MAP)和平均互惠等级(MRR)均高于现有的长文本检索方法,并且能够有效识别定位出用户输入的搜索请求数据中的关键术语,并得到匹配得分较高的相关案例检索结果。
需要特别说明的是,在本申请的实施例中的序列的长短以及向量的的个数均只是为了说明本申请的技术方案,实际中,i的取值为大于0的整数即可。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (10)

1.一种基于深度学习的长文本检索系统,其特征在于,所述长文本检索系统包括:
交互特征提取模块,用于对长文本文档进行分段,将得到的文本片段与用户输入的搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征,其中,所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征;
交互特征聚合模块,用于对所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;
输出模块,用于将所述聚合文本片段交互特征输入至匹配得分计算器中,计算所述搜索请求数据和所述长文本文档的匹配得分。
2.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,所述交互特征提取模块具体用于实现如下操作:
对长文本文档进行分段,并获取得到的文本片段的字符向量序列;
获取用户输入的搜索请求数据,及搜索请求数据的字符向量序列;
将所述文本片段的字符向量序列与所述搜索请求数据的字符向量序列进行拼接,得到输入字符向量序列;
对所述输入字符向量序列采用预设的掩膜机制进行处理,得到掩膜向量,其中,所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制,所述掩膜向量包括普通掩膜向量和基于匹配字符的掩膜向量;
将所述输入字符向量序列和所述普通掩膜向量以及所述基于匹配字符的掩膜向量同时输入至所述基本特征提取器中,提取所述文本片段交互特征。
3.根据权利要求2所述的一种基于深度学习的长文本检索系统,其特征在于,所述基本特征提取器具体为基于注意力的双向编码器,通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合,查询所述搜索请求数据的字符向量序列与所述文本片段的字符向量序列中完全匹配的字符,准确提取所述文本片段交互特征。
4.根据权利要求2所述的一种基于深度学习的长文本检索系统,其特征在于,提取所述文本片段交互特征采用的公式具体如下
vi=BERT([Q;Pi],M1,M2),
其中,i的取值范围为1,2,3,...,n,vi表示文本片段交互特征,Q表示搜索请求数据的字符向量序列,Pi表示文本片段的字符向量序列,M1表示普通掩膜向量,M2表示基于匹配字符的掩膜向量。
5.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,所述交互特征聚合模块的具体用于实现如下操作:
将所述文本片段交互特征进行拼接,得到第一文本片段交互特征序列;
将所述第一文本片段交互特征序列输入至循环神经网络进行处理,得到第二文本片段交互特征序列;
对所述第二文本片段交互特征序列进行平均,得到平均文本片段交互特征;
采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算,得到聚合文本片段交互特征。
6.根据权利要求5所述的一种基于深度学习的长文本检索系统,其特征在于,采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算,得到聚合文本片段交互特征,具体公式如下:
A=softmax(V*Vmean T),
Vagg=sum(V*A),
其中,A表示注意力向量,Vagg表示聚合文本片段交互特征,V表示第一文本片段交互特征序列,Vmean表示平均文本片段交互特征。
7.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,所述匹配得分计算器具体为全连接神经网络。
8.一种基于深度学习的长文本检索方法,其特征在于,应用于如权利要求1-7任意一项所述的一种基于深度学习的长文本检索系统,具体包括以下步骤:
S101,获取长文本文档和用户的搜索请求数据,对所述长文本文档进行分段,将得到的文本片段与所述搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征;
S102,将所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;
S103,将所述聚合文本片段交互特征输入至全连接神经网络中,计算所述搜索请求数据和所述长文本文档的匹配得分。
9.根据权利要求8所述的一种基于深度学习的长文本检索方法,其特征在于,所述基本特征提取器具体为采用基于匹配字符的掩膜机制准确提取所述文本片段交互特征的基于注意力的双向编码器。
10.根据权利要求8所述的一种基于深度学习的长文本检索方法,其特征在于,将所述文本片段交互特征进行聚合,得到聚合文本片段交互特征,具体通过采用循环神经网络和注意力机制的结构,聚合所述搜索请求数据和所述文本片段交互特征。
CN202011435229.XA 2020-12-10 2020-12-10 一种基于深度学习的长文本检索系统及方法 Active CN112632216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435229.XA CN112632216B (zh) 2020-12-10 2020-12-10 一种基于深度学习的长文本检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435229.XA CN112632216B (zh) 2020-12-10 2020-12-10 一种基于深度学习的长文本检索系统及方法

Publications (2)

Publication Number Publication Date
CN112632216A true CN112632216A (zh) 2021-04-09
CN112632216B CN112632216B (zh) 2021-07-30

Family

ID=75309339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435229.XA Active CN112632216B (zh) 2020-12-10 2020-12-10 一种基于深度学习的长文本检索系统及方法

Country Status (1)

Country Link
CN (1) CN112632216B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158492A1 (en) * 2010-12-16 2012-06-21 Yahoo! Inc. Method and system for attention based advertisement insertion
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN109885723A (zh) * 2019-02-20 2019-06-14 腾讯科技(深圳)有限公司 一种视频动态缩略图的生成方法、模型训练的方法及装置
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110442777A (zh) * 2019-06-24 2019-11-12 华中师范大学 基于bert的伪相关反馈模型信息检索方法及系统
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN111046661A (zh) * 2019-12-13 2020-04-21 浙江大学 基于图卷积网络的阅读理解方法
US10637853B2 (en) * 2016-08-05 2020-04-28 Nok Nok Labs, Inc. Authentication techniques including speech and/or lip movement analysis
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158492A1 (en) * 2010-12-16 2012-06-21 Yahoo! Inc. Method and system for attention based advertisement insertion
US10637853B2 (en) * 2016-08-05 2020-04-28 Nok Nok Labs, Inc. Authentication techniques including speech and/or lip movement analysis
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN109885723A (zh) * 2019-02-20 2019-06-14 腾讯科技(深圳)有限公司 一种视频动态缩略图的生成方法、模型训练的方法及装置
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110442777A (zh) * 2019-06-24 2019-11-12 华中师范大学 基于bert的伪相关反馈模型信息检索方法及系统
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN111046661A (zh) * 2019-12-13 2020-04-21 浙江大学 基于图卷积网络的阅读理解方法
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HANIEH KHORASHADIZADEH 等: "Attention-based Convolutional Neural Network for Answer Selection using BERT", 《2020 8TH IRANIAN JOINT CONGRESS ON FUZZY AND INTELLIGENT SYSTEMS(CFIS)》 *
MINGFENG FANG 等: "Using bidirectional LSTM with BERT for Chinese punctuation prediction", 《2019 IEEE INTERNATIONAL CONFERENCE ON SIGNAL, INFORMATION AND DATA PROCESSING (ICSIDP)》 *
李童俊: "基于深度学习的开放领域自动问答系统的研究和应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陆亚男: "基于深度学习的摘要生成模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114003698B (zh) * 2021-12-27 2022-04-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN112632216B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN111563208B (zh) 一种意图识别的方法、装置及计算机可读存储介质
WO2022088672A1 (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN112036167B (zh) 数据处理方法、装置、服务器及存储介质
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
Zhou et al. Resolving surface forms to wikipedia topics
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN111858843B (zh) 一种文本分类方法及装置
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN110134965B (zh) 用于信息处理的方法、装置、设备和计算机可读存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
CN111459977A (zh) 自然语言查询的转换
CN111666766A (zh) 数据处理方法、装置和设备
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
Das et al. Sentence embedding models for similarity detection of software requirements
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN112632216B (zh) 一种基于深度学习的长文本检索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant