CN111159331A - 文本的查询方法、文本查询装置以及计算机存储介质 - Google Patents
文本的查询方法、文本查询装置以及计算机存储介质 Download PDFInfo
- Publication number
- CN111159331A CN111159331A CN201911114274.2A CN201911114274A CN111159331A CN 111159331 A CN111159331 A CN 111159331A CN 201911114274 A CN201911114274 A CN 201911114274A CN 111159331 A CN111159331 A CN 111159331A
- Authority
- CN
- China
- Prior art keywords
- statement
- query
- document
- vector
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 136
- 239000011159 matrix material Substances 0.000 claims description 74
- 230000014509 gene expression Effects 0.000 claims description 49
- 238000011176 pooling Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本的查询方法、文本查询装置以及计算机存储介质,其中,该文本的查询方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据查询语句和文档语句的相关性,得到第三查询结果;确定基于查询语句的最终查询结果。通过上述方式,能够提高文本查询的精确度和效率。
Description
技术领域
本申请涉及文本查询技术领域,特别是涉及一种文本的查询方法、文本查询装置以及计算机存储介质。
背景技术
在文献检索时,用户给定一个专业领域相关的问题,检索系统要从数据库中找出与该问题最相关的若干篇文献返回给用户,用户即可快速获得所需的相关文献资料,能够节省大量的时间。
随着现代互联网技术的发展,越来越多的文献资料可从互联网中直接获取到,如何做到快速精准的文献检索也成为了自然语言处理领域研究的一个热点方向。而在文献检索时,常常涉及到专业领域,例如法律领域,法律领域中文献的检索问题有其区别于其他领域文献检索的特点,首先,法律领域有较多的专业术语是以短语的形式出现的,这些短语在文献检索时,可能会被分成单独的词语来处理。其次,法律领域的文献其案由和关键词的关联性较强,如果能够利用好案由和关键字的关系,就能够较好的提升检索效果。
发明内容
为解决上述问题,本申请提供了一种文本的查询方法、文本查询装置以及计算机存储介质,能够提高文本查询的精确度和效率。
本申请采用的一个技术方案是:提供一种文本的查询方法,该方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
其中,基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果包括:确定查询语句和文档语句的向量表达;计算查询语句和文档语句的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
其中,确定查询语句和文档语句的向量表达,包括:对查询语句和文档语句进行分词和词嵌入处理,以得到查询语句的向量表达Qn*k和文档语句的向量表达Dm*k,其中, 其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,表示查询语句序列中第i个词语的向量表达,表示文档中第i个词语的向量表达。
其中,计算查询语句和文档语句的词语级别的相关性矩阵,包括:计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:其中,表示查询语句序列中的第i个词语对应的向量,表示文档语句中第j个词语对应的向量。
其中,基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制,包括:采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达:其中,表示查询语句序列中的第i个词语引入注意力机制后的向量,表示文档中第j个词语引入注意力机制后的的向量。
其中,根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果,包括:计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积;对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接,形成拼接向量;计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵;对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
其中,对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果,包括:对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一中间向量采用以下公式计算第一评分:其中,idfi为查询语句中第i个词语的逆文本频率指数值,其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
其中,根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果,包括:对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵;对第一矩阵进行行方向上的最大池化操作,以得到第二中间向量采用以下公式计算第二评分:其中,idfi为查询语句中第i个词语的逆文本频率指数值,其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
其中,基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果,包括:确定专业领域词汇的向量表达;将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达;计算查询语句和专业领域词汇的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
本申请采用的一个技术方案是:提供一种文本查询装置,该文本查询装置包括处理器和存储器,存储器中存储有程序数据,处理器用于执行程序数据以实现如上述的方法。
本申请采用的一个技术方案是:提供一种计算机存储介质,该计算机存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现如上述的方法。
本申请提供的文本的查询方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。通过上述方式,第一方面通过词语和短语两个层面进行比较,能够对专业领域的文献具有较好的识别能力,第二方面通过对专业词汇添加到识别中去,有效的解决了现有的检索网络对专业知识背景缺乏的问题,通过上述的方式,能够提高文献的检索准确性,提高检索效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的文本的查询方法一实施例的流程示意图;
图2是图1中步骤11的流程示意图;
图3是图2中步骤114的流程示意图;
图4是图1中步骤12的流程示意图;
图5是图1中步骤13的流程示意图;
图6是本申请提供的文本查询装置一实施例的结构示意图;
图7是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1是本申请提供的文本的查询方法一实施例的流程示意图,该方法包括:
步骤11:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
本步骤中首先通过向量内积得到词语级别的相关性矩阵,在相关性矩阵的基础上使用注意力机制得到每个词语的向量表达。然后通过最大池化操作得到查询语句中每个词语的向量表达。最后使用逆文本频率指数进行加权和,得到最终的评分。其中,使用注意力机制可使得词语对与其相关的词语更加敏感,有利于提升文献检索的结果。
在一可选的实施例中,如图2所示,步骤11可以具体包括以下步骤:
步骤111:确定查询语句和文档语句的向量表达。
步骤112:计算查询语句和文档语句的词语级别的相关性矩阵。
计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:
步骤113:基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制。
采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达:
步骤114:根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
在一可选的实施例中,如图3所示,步骤114可以具体包括以下步骤:
步骤1141:计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积。
其中,“·”表示两数值相乘。
步骤1142:对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接,形成拼接向量。
步骤1143:计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵。
步骤1144:对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
采用以下公式计算第一评分:
步骤12:根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果。
本步骤中,将通过向量内积得到的词语级别的相关性矩阵进行滑动窗口为2*2的平均池化操作,然后进行最大池化操作得到短语级别的向量表达,最后同样使用逆文本频率指数进行加权和得到短语级别的最终评分。
在一可选的实施例中,如图4所示,步骤12可以具体包括:
步骤121:对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵。
wi=(1,2,3,…,n-2,n-1);
wj=(1,2,3,…,m-2,m-1)。
步骤123:采用以下公式计算第二评分:
步骤13:基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果。
在本步骤中,首先通过构造法律领域的知识词典,使用TransE算法将词典中的词语转换为向量表示。找出查询语句和待检索文档中包含在知识词典中的词语,构成向量表达,然后同样通过向量内积得到相关性矩阵,基于相关性矩阵使用注意力机制得到对应的的向量表达。最后通过平均池化和最大池化得到最终的评分。
在一可选的实施例中,如图5所示,步骤13可以具体包括:
步骤131:确定专业领域词汇的向量表达。
在本实施例中,以法律方面的专业词汇为例。
首先,我们分刑事、民事和行政三部分构建了法律领域的知识词典,上图给出了一个构建的样例。然后通过TransE算法构建的知识词典中实体和关系映射到低维连续的向量空间。TransE算法会将知识词典里面的每一条边当做一个三元组(实体1、关系、实体2),用向量表示记为TransE算法会把实体向量和用关系向量联系起来,使得
步骤132:将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达。
其中,k表示专业词汇中的元素经过TransE进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语在专业领域词汇中的个数,m表示文档语句中分词后词语在专业领域词汇中的个数,表示查询语句序列中专业词汇第i个词语的向量表达,表示文档中专业词汇第i个词语的向量表达。
步骤133:计算查询语句和专业领域词汇的词语级别的相关性矩阵。
步骤134:基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制。
步骤135:根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
步骤14:根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
其中,可以将第一评分、第二评分和第三评分进行平均值计算以得到最终得分,以确定查询语句与文档语句是否具有关联性,或者也可以对第一评分、第二评分和第三评分按照一定的权重求和得到最终得分,这里不作限制。
区别于现有技术,本实施例提供的文本的查询方法包括:基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。通过上述方式,第一方面通过词语和短语两个层面进行比较,能够对专业领域的文献具有较好的识别能力,第二方面通过对专业词汇添加到识别中去,有效的解决了现有的检索网络对专业知识背景缺乏的问题,通过上述的方式,能够提高文献的检索准确性,提高检索效率。
参阅图6,图6是本申请提供的文本查询装置一实施例的结构示意图,该文本查询装置60包括处理器61和存储器62,其中,存储器62中存储有程序数据,该处理器61用于执行该程序数据以实现如下的方法步骤:
基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
参阅图7,图7是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质70中存储有程序数据71,该程序数据71在被处理器执行时,用于实现如下的方法步骤:
基于查询语句和文档语句的第一词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果;根据第一词语级别的相关性,得到查询语句和文档语句的短语级别的相关性,并根据短语级别的相关性得到第二查询结果;基于查询语句中的专业领域词汇和文档语句中的专业领域词汇的第二词语级别的相关性,对查询语句和文档语句引入注意力机制,并根据引入注意力机制后的查询语句和文档语句的相关性,得到第三查询结果;根据第一查询结果、第二查询结果和第三查询结果,确定基于查询语句的最终查询结果。
可选地,在上述的查询装置60或计算机存储介质70的实施例中,程序数据在被执行时,还用于实现:确定查询语句和文档语句的向量表达;计算查询语句和文档语句的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
其中,确定查询语句和文档语句的向量表达,包括:对查询语句和文档语句进行分词和词嵌入处理,以得到查询语句的向量表达Qn*k和文档语句的向量表达Dm*k,其中, 其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,表示查询语句序列中第i个词语的向量表达,表示文档中第i个词语的向量表达。
其中,计算查询语句和文档语句的词语级别的相关性矩阵,包括:计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:其中,表示查询语句序列中的第i个词语对应的向量,表示文档语句中第j个词语对应的向量。
其中,基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制,包括:采用以下公式计算引入注意力机制后的查询语句和文档语句的向量表达:其中,表示查询语句序列中的第i个词语引入注意力机制后的向量,表示文档中第j个词语引入注意力机制后的的向量。
其中,根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果,包括:计算查询语句和文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积;对查询语句和文档语句中每个词语引入注意力机制前后的两个向量和哈达玛积进行拼接,形成拼接向量;计算查询语句的拼接向量和文档语句的拼接向量的相关性矩阵;对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
其中,对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果,包括:对查询语句的拼接向量和文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一中间向量采用以下公式计算第一评分:其中,idfi为查询语句中第i个词语的逆文本频率指数值,其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
可选地,在上述的查询装置60或计算机存储介质70的实施例中,程序数据在被执行时,还用于实现:对第一词语级别的相关性矩阵进行活动窗口大小为2*2的平均池化操作,以得到第一矩阵;对第一矩阵进行行方向上的最大池化操作,以得到第二中间向量采用以下公式计算第二评分:其中,idfi为查询语句中第i个词语的逆文本频率指数值,其中,|D|表示语料库中的文件总数,dfi表示语料库中包含第i个词语的文档的数目。
可选地,在上述的查询装置60或计算机存储介质70的实施例中,程序数据在被执行时,还用于实现:确定专业领域词汇的向量表达;将查询语句和文档语句中的专业领域词汇抽取出来形成新的向量表达;计算查询语句和专业领域词汇的词语级别的相关性矩阵;基于查询语句和文档语句的词语级别的相关性矩阵,对查询语句和文档语句的向量表达引入注意力机制;根据引入注意力机制后的查询语句和文档语句的相关性,得到第一查询结果。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种文本的查询方法,其特征在于,所述方法包括:
基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果;
根据所述第一词语级别的相关性,得到所述查询语句和所述文档语句的短语级别的相关性,并根据所述短语级别的相关性得到第二查询结果;
基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第三查询结果;
根据所述第一查询结果、所述第二查询结果和所述第三查询结果,确定基于所述查询语句的最终查询结果。
2.根据权利要求1所述的方法,其特征在于,
所述基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果包括:
确定所述查询语句和文档语句的向量表达;
计算所述查询语句和所述文档语句的词语级别的相关性矩阵;
基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制;
根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果。
6.根据权利要求5所述的方法,其特征在于,
所述根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果,包括:
计算所述查询语句和所述文档语句中每个词语引入注意力机制前后的两个向量的哈达玛积;
对所述查询语句和所述文档语句中每个词语引入注意力机制前后的两个向量和所述哈达玛积进行拼接,形成拼接向量;
计算所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵;
对所述查询语句的拼接向量和所述文档语句的拼接向量的相关性矩阵进行池化操作,以得到第一查询结果。
9.根据权利要求1所述的方法,其特征在于,
所述基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第三查询结果,包括:
确定专业领域词汇的向量表达;
将所述查询语句和所述文档语句中的专业领域词汇抽取出来形成新的向量表达;
计算所述查询语句和所述专业领域词汇的词语级别的相关性矩阵;
基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制;
根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果。
10.一种文本查询装置,其特征在于,所述文本查询装置包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-9任一项所述的方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-9任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114274.2A CN111159331B (zh) | 2019-11-14 | 2019-11-14 | 文本的查询方法、文本查询装置以及计算机存储介质 |
PCT/CN2020/128801 WO2021093871A1 (zh) | 2019-11-14 | 2020-11-13 | 文本的查询方法、文本查询装置以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114274.2A CN111159331B (zh) | 2019-11-14 | 2019-11-14 | 文本的查询方法、文本查询装置以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159331A true CN111159331A (zh) | 2020-05-15 |
CN111159331B CN111159331B (zh) | 2021-11-23 |
Family
ID=70555994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911114274.2A Active CN111159331B (zh) | 2019-11-14 | 2019-11-14 | 文本的查询方法、文本查询装置以及计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111159331B (zh) |
WO (1) | WO2021093871A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093871A1 (zh) * | 2019-11-14 | 2021-05-20 | 中国科学院深圳先进技术研究院 | 文本的查询方法、文本查询装置以及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US20150310005A1 (en) * | 2014-03-29 | 2015-10-29 | Thomson Reuters Global Resources | Method, system and software for searching, identifying, retrieving and presenting electronic documents |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN110347790A (zh) * | 2019-06-18 | 2019-10-18 | 广州杰赛科技股份有限公司 | 基于注意力机制的文本查重方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160004725A (ko) * | 2014-07-04 | 2016-01-13 | 삼성전자주식회사 | 연관 정보 제공 방법 및 이를 제공하는 전자 장치 |
CN107844469B (zh) * | 2017-10-26 | 2020-06-26 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN108491433B (zh) * | 2018-02-09 | 2022-05-03 | 平安科技(深圳)有限公司 | 聊天应答方法、电子装置及存储介质 |
CN109063174B (zh) * | 2018-08-21 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 查询答案的生成方法及装置、计算机存储介质、电子设备 |
CN111159331B (zh) * | 2019-11-14 | 2021-11-23 | 中国科学院深圳先进技术研究院 | 文本的查询方法、文本查询装置以及计算机存储介质 |
-
2019
- 2019-11-14 CN CN201911114274.2A patent/CN111159331B/zh active Active
-
2020
- 2020-11-13 WO PCT/CN2020/128801 patent/WO2021093871A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US20150310005A1 (en) * | 2014-03-29 | 2015-10-29 | Thomson Reuters Global Resources | Method, system and software for searching, identifying, retrieving and presenting electronic documents |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN110347790A (zh) * | 2019-06-18 | 2019-10-18 | 广州杰赛科技股份有限公司 | 基于注意力机制的文本查重方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093871A1 (zh) * | 2019-11-14 | 2021-05-20 | 中国科学院深圳先进技术研究院 | 文本的查询方法、文本查询装置以及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111159331B (zh) | 2021-11-23 |
WO2021093871A1 (zh) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN101079026B (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
Wang et al. | Common sense knowledge for handwritten chinese text recognition | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
CN108268439B (zh) | 文本情感的处理方法及装置 | |
CN110929498A (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN112800205B (zh) | 基于语义变化流形分析获取问答相关段落的方法、装置 | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
CN112836039A (zh) | 基于深度学习的语音数据处理方法和装置 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 | |
CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
Gogoi et al. | Improving stemming for Assamese information retrieval | |
CN111159331B (zh) | 文本的查询方法、文本查询装置以及计算机存储介质 | |
CN111859066B (zh) | 一种运维工单的查询推荐方法及装置 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN110309278B (zh) | 关键词检索方法、装置、介质及电子设备 | |
Forsati et al. | Novel harmony search-based algorithms for part-of-speech tagging | |
CN111460177A (zh) | 影视类表情搜索方法、装置、存储介质、计算机设备 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN115757680A (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
JPH117447A (ja) | 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |