CN113254586A - 一种基于深度学习的无监督文本检索方法 - Google Patents

一种基于深度学习的无监督文本检索方法 Download PDF

Info

Publication number
CN113254586A
CN113254586A CN202110597764.3A CN202110597764A CN113254586A CN 113254586 A CN113254586 A CN 113254586A CN 202110597764 A CN202110597764 A CN 202110597764A CN 113254586 A CN113254586 A CN 113254586A
Authority
CN
China
Prior art keywords
text
vector
word
words
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110597764.3A
Other languages
English (en)
Other versions
CN113254586B (zh
Inventor
杨敏
贺倩明
方正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202110597764.3A priority Critical patent/CN113254586B/zh
Publication of CN113254586A publication Critical patent/CN113254586A/zh
Application granted granted Critical
Publication of CN113254586B publication Critical patent/CN113254586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的无监督文本检索方法。该方法包括:对于待查询文本,根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果,其中,被匹配文本的文本向量根据以下步骤生成:对于输入文本,基于注意力机制的预训练模型挖掘词语间的语义联系,将文本序列转换成词向量序列;对于得到的词向量序列,结合领域内词汇的平滑逆频率对词向量进行加权,生成第一文本向量,其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数;获取领域内文本向量的主成分,并从所述第一文本向量中减去对应的主成分,获得第二文本向量,作为文本向量存储。利用本发明能够提升检索的准确性和效率。

Description

一种基于深度学习的无监督文本检索方法
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种基于深度学习的无监督文本检索方法。
背景技术
文献检索是检索对象为文献的一种信息检索技术,是根据学习和工作的需要通过检索来获取文献的过程。随着现代网络技术的发展,文献检索通常通过计算机技术来实现。文献的检索语言包括分类语言(以数字、字母或字母与数字结合作为基本字符,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言)、主题语言(以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言)等。使用规范的文献检索语言可以快速准确地检索出所需的文献资料,但规范的文献检索语言使用门槛较高,普通用户由于不了解分类规则或检索关键字表达不准确等原因不能较好的使用规范的文献检索语言。如何通过分析用户输入的自然语言,直接检索到最需要的文献一直是学术界和工业界关注的问题,相关学者也提出许多方案来尝试解决该问题。
例如,在一项研究成果中,提出了基于词频和逆文本频率指数两个指标的检索方法(TF-IDF)。词频是一个词条在待检索文档中出现的频率。逆文本频率指数是衡量一个词条区分性优劣的指标,若在待检索文中包含一个词条的文档数目越少,则该词条的逆文本频率指数越大,代表其有较好的类别区分能力。该方法通过对检索内容分词后进行词条的匹配来返回检索结果。
在另一项研究成果中,提出了基于词条权重和检索文档长度惩罚的检索方法(BM25)。对于词条权重的处理类似于逆文本频率指数的处理,可以得到一个词条对检索结果的重要性大小。文档长度惩罚是为了解决由于待检索的文档长度过长,包含的信息量较大,从而可以匹配到很多关键词的情况。由于这种文档包含的信息过多,并不是检索结果的最优目标。该方法会计算待检索文档的平均长度,根据文档平均长度来确定某一文档的惩罚因子。文档的长度越长,惩罚因子越大,该文档与检索语句的相似度就会越低,越不容易成为检索结果。
在另一项研究成果中,提出了基于训练领域文本模型生成词向量计算相似度从而进行检索的方法(Word2Vec)。该方法通过将词生成为词向量,把文档的排序问题转换成为了比较文档对
Figure 400341DEST_PATH_IMAGE001
词向量间相关性的问题。该方法通过领域文本训练一个词向量生成模型,通过无监督的CBOW方法、Skip-grams方法来让模型预测上下文的单词关系,使得最终模型学会单词的向量表达,从而产生区分度明显的词向量来得到较好的检索结果。
以上三种方法是传统检索模型、无监督神经网络方法的代表。传统检索模型通过词条的统计特征信息来进行检索,不需要有标注的数据,训练成本较低,但是检索的效果不是很理想。传统的检索模型是通过词语的一些统计特征,如词频和逆文本频率指数,来进行相似度计算,进而进行文献检索。这种方法的主要缺点是忽略了词语间语义的联系,孤立的使用每个词语的特征来进行检索,这严重影响了模型检索性能。无监督神经网络方法首先需要使用领域内的语料进行训练,其次对于模型的架构、超参数等均需要反复调试。这种方法比较复杂,虽然无需标注数据,但检索效果也不是非常理想。
在最近的一项研究成果中,提出了基于平滑倒频率的词向量加权平均匹配检索方法(SIF)。先将检索文本和文献中的语句转换为词向量表示,然后对句子中所有的词向量进行加权平均,得到平均向量,接着对平均句向量减去所有句向量组成矩阵的第一个主成分。该方法是一种无监督的方法,在词向量方法的基础上进一步研究了如何从词向量得到更好的句向量表示。这种方法也衍生出了一些这方面进一步的研究(uSIF),主要改进体现在权重的设定和主成分的获取上。这种无监督的深度学习方法是先将文本转换成为词向量的形式,然后通过一系列的算法根据词向量生成文本向量,最后基于文本向量求出文本对之间的相似度。这种方法的主要缺点是模型生成的词向量的好坏决定了检索性能,较差的词向量生成模型所产出的文本向量在检索任务中的表现往往较差。另外一个缺点是词向量生成文本向量的过程中往往不能兼顾领域词语统计信息和文本向量间的区分度,从而导致文本向量的区分程度不高。此外,在分词过程中,通用的分词器往往会产生错误的分词结果,这也对检索结果产生了一定的影响。
随着现代互联网技术的发展,越来越多的文献资料可从互联网中直接获取,如何做到快速精准的文献检索成为自然语言处理领域研究的一个热点方向。以专利领域中文献检索为例,用户给定一篇专利文本,检索系统要从数据库中找出与该文本最相关的若干篇文献返回给用户,用户即可快速获得所需的相关文献资料,能够节省大量的时间。专利领域中文献的检索问题具有区别于其他领域文献检索的特点,首先,专利领域有较多的专业术语是以短语的形式出现的,这些短语在文献检索时,可能会被分成单独的词语来处理,因此,分词问题可能导致文本理解上的歧义,这也使传统的词细粒度的模型需要解决分词的问题。此外,专利文本领域的标注数据少,而且由于专利涉及范围广、涉及知识深入,人工标注困难大、耗时久、花费高,因此在条件有限的情况下,如何使用无监督算法得到更好的检索效果是一个亟待解决的问题。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于深度学习的无监督文本检索方法。
本发明的技术方案是提供一种基于深度学习的无监督文本检索方法。该方法对于待查询文本,根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果,其中,被匹配文本的文本向量根据以下步骤生成:
步骤S1:对于输入文本,基于注意力机制的预训练模型挖掘词语间的语义联系,将文本序列转换成词向量序列;
步骤S2:对于得到的词向量序列,结合领域内词汇的平滑逆频率对词向量进行加权,生成第一文本向量,其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数;
步骤S3:获取领域内文本向量的主成分,并从所述第一文本向量中减去对应的主成分,获得第二文本向量,作为文本向量存储。
与现有技术相比,本发明的优点在于,等方法提出了一种无监督的深度检索模型,该模型从词向量、字信息量等角度考虑了文献检索的结果,可以通过字细粒度的信息量学习到例如专利领域的文本分布,同时基于无监督的方法训练模型,从而准确的检索出用户所需的文献。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基于深度学习的无监督文本检索方法的流程图;
图2是根据本发明一个实施例的基于深度学习的无监督文本检索模型示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明提出一种基于深度学习的无监督文本检索方法或文本检索模型。为清楚起见,下文以专利文献检索为例进行说明。但应理解的是,该模型同样适用于其他领域的文献检索。所提供的模型结合领域文献的特点,进行了针对性的优化,并结合了领域内词语信息来决定文献检索的结果,从而准确的检索出用户所需的相关文献。
具体地,结合图1和图2所示,所提供的基于深度学习的无监督文本检索方法包括以下步骤。
步骤S110,使用基于注意力机制的预训练模型将文本序列转换成词向量序列。
首先,对于输入的专利文本D,可以得到文本的字符向量,表示为
Figure 491050DEST_PATH_IMAGE002
,同时,将其转换成适合输入的格式,例如在序列首位添加[CLS]符号,从而得到了输入字符向量序列Q。
接下来,对于输入字符向量,对其进行掩膜操作,掩膜操作即通过输入一个与输入字符向量序列长度相同的二值向量,该二值向量的每一位对应输入字符的每一位,在特征提取器中,代表是否对该字符进行特征提取。例如,根据基于注意力的双向编码器(BERT)中的自注意力(self-attention)结构的特点,输出掩膜M,该掩膜向量对于输入字符向量序列所有的非填充(pad)字符对应的位都为1,如
Figure 67525DEST_PATH_IMAGE003
最终,将掩膜M与输入字符向量Q同时输入特征提取器,提取词向量
Figure 259472DEST_PATH_IMAGE004
,表示为:
Figure 401740DEST_PATH_IMAGE005
(1)
其中对于词向量
Figure 787985DEST_PATH_IMAGE004
,其长度与输入的字符向量Q相同。
需说明的是,预训练模型可采用BERT模型、RoBERTa模型或其他类型的语言模型。在词向量生成时使用基于注意力机制的预训练模型,能够对文本的语义信息进行提取,使得词语对与其相关的词语更加敏感,有利于提升文献检索的精确性。
步骤S120,对于获得的词向量序列,通过结合领域内词汇的平滑逆频率对词向量进行加权,生成文本向量,其中领域内词汇的平滑逆频率来自于词语在领域文献中的出现次数。
例如,对于词向量
Figure 851756DEST_PATH_IMAGE006
,通过如下方法将其转换成文本向量
Figure 112973DEST_PATH_IMAGE007
首先,计算
Figure 47431DEST_PATH_IMAGE008
Figure 103111DEST_PATH_IMAGE008
表示词库中的单词的出现概率大于某一阈值(门槛)的概率,而该阈值指的是随机一个单词在n步内能够出现的概率。
Figure 388599DEST_PATH_IMAGE009
(2)
接着,计算由词向量
Figure 417954DEST_PATH_IMAGE004
转换成文本向量
Figure 206919DEST_PATH_IMAGE010
时对每个词所附加的权重。权重部分即称为光滑逆频率(或光滑倒频率),这种方式,相较于传统方法会对高频的单词施加更光滑、较低的权值。通过计算得到的
Figure 167921DEST_PATH_IMAGE011
相较于其他需要微调的方法更加直接、明确。
Figure 940705DEST_PATH_IMAGE012
(3)
其中,
Figure 12567DEST_PATH_IMAGE013
表示词汇表大小,Z与词表数量有关,表示词表中单词与句向量的期望总 距离;
Figure 187196DEST_PATH_IMAGE014
表示某一单词
Figure 53521DEST_PATH_IMAGE015
偶然产生的概率,由人工给定,用来调节Z与
Figure 80645DEST_PATH_IMAGE016
之间的关系,
Figure 690618DEST_PATH_IMAGE015
表示句子S中的单词,
Figure 719754DEST_PATH_IMAGE017
表示单词
Figure 22559DEST_PATH_IMAGE018
的向量,
Figure 504356DEST_PATH_IMAGE019
表示单词
Figure 918020DEST_PATH_IMAGE020
在词汇表V中出现的 概率。
在该步骤中,在文本向量生成时结合领域内词汇的平滑倒频率对词向量进行加权,使得生成的文本向量能够带有背景领域的信息。
步骤S130,通过领域主成分去除,得到完整的文本向量表达。
例如,通过构造专利领域的领域文本,使用步骤S110和S120生成领域内文本的文本向量,并将它们结合成为一个矩阵。通过对该矩阵进行奇异值分解求得领域内文本向量的主成分。
具体地,领域主成分去除过程包括:
对语料库中的所有文本,获取他们的文本向量
Figure 801662DEST_PATH_IMAGE021
,并排成文本向量矩阵
Figure 275369DEST_PATH_IMAGE022
对得到的文本向量矩阵进行奇异值分解,得到矩阵的前m个主成分。由此,得到完整的文本向量表达
Figure 745927DEST_PATH_IMAGE023
,公式表示如下。其中,对于每个主成分对应的权重,也由奇异向量的值计算得来。
Figure 697702DEST_PATH_IMAGE024
(4)
Figure 435851DEST_PATH_IMAGE025
(5)
其中,
Figure 80459DEST_PATH_IMAGE026
表示第i个主成分的权重,
Figure 536848DEST_PATH_IMAGE027
表示第i个主成分,
Figure 26735DEST_PATH_IMAGE028
表示,前m个主成分,对其中第j个主成分
Figure 619391DEST_PATH_IMAGE029
,平方运算后将得到的m个数值求和,
Figure 434900DEST_PATH_IMAGE030
表示的是
Figure 378585DEST_PATH_IMAGE031
文本向量
Figure 672163DEST_PATH_IMAGE032
上的投影,其中
Figure 886369DEST_PATH_IMAGE031
在此处即表示第i个主成分,模型使用主成分来表征语料库中的常用语篇向量。
由公式(5)可知,最终模型产生的文本向量是由步骤S120产生的文本向量减去领域主成分向量所得。
在此步骤中,在文本向量生成时减去了领域内文本向量的主成分,从而使得向量间的距离更大,在向量空间中的分布更均匀,计算相似度时的结果更准确。这种减去语料库中文本的共性表达的方式,提高句子的语义表达能力。
步骤S140,针对待查询文本,根据与数据库内的被匹配文本的相似度获得检索结果。
上述步骤S110至S130是将一个文本转换成文本向量的过程。具体到检索过程中,当有文本查询需求时,首先将被匹配的专利的文本全部转换为文本向量(即步骤S130的文本向量),并存入到数据库中。接着,当待匹配(即待查询)专利文本进入时,将其转换成文本向量,再与数据库中的专利文本向量计算余弦相似度,得到的值作为排序的依据。相似度值越高,对应被匹配专利的检索排序结果越靠前,进而获得检索结果。
为了进一步验证本发明的有效性和先进性,基于千万量级的线上专利数据库,使用多种无监督算法,利用1000个专利摘要进行了检索,并对检索结果请专利行业从业人士手工标注了数据。结果表明,本发明在归一化折损累计增益(NDCG)和平均互惠等级(MRR)均达到了无监督模型中的最好结果。经过专利行业从业人士的人工审核,本发明得到的检索结果对于专利检索的检索结果可靠,能够准确返回数据库中的相似专利文献,同时对返回结果中的专利文献做出较为可靠的相似性排序,有效解决了专利背景下专业领域无监督文献检索精准率不高的问题。本发明既可帮助专利行业从业人员进行文献调研,资料查询等,也可帮助非专利行业从业人员了解专利相关情况时进行的文献检索,具有广泛的应用场景。
综上所述,相对于现有技术,本发明至少具有以下优势:
1)、针对传统检索模型忽略了词语间语义联系的缺点,本发明采用了基于注意力机制的预训练模型,优化了词向量的生成机制,使其能够注意到文本的语义信息,较好的发掘词语间的语义联系,生成含有语义信息的词向量,有效地提升检索模型的检索效果。
2)、针对有监督的深度学习方法缺乏专业背景知识的缺点,本发明通过结合领域内词汇的平滑倒频率对词向量进行加权,生成文本向量,有利于检索结果的提升。
3)、针对当前深度学习网络需要大规模训练数据获取难的问题,本发明提出了一种无监督深度模型,从模型层面直接避免了当前深度网络训练时获取数据难的问题。
4)、针对无监督的深度学习方法可能生成向量间区分度不大的问题,本发明通过生成领域文本主成分向量,并在检索时减去这一向量的方法,增大生成向量的区分度,提升了检索效果。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种基于深度学习的无监督文本检索方法,包括:对于待查询文本,根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果,其中,被匹配文本的文本向量根据以下步骤生成:
步骤S1:对于输入文本,基于注意力机制的预训练模型挖掘词语间的语义联系,将文本序列转换成词向量序列;
步骤S2:对于得到的词向量序列,结合领域内词汇的平滑逆频率对词向量进行加权,生成第一文本向量,其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数;
步骤S3:获取领域内文本向量的主成分,并从所述第一文本向量中减去对应的主成分,获得第二文本向量,作为文本向量存储。
2.根据权利要求1所述的方法,其中,步骤S1包括:
对输入文本D,获取文本的字符向量并通过在序列首位添加[CLS]符号转换为字符向量序列Q;
对于输入字符向量序列Q,根据基于注意力的双向编码器,输出掩膜M;
将掩膜M与输入字符向量序列Q同时输入特征提取器,提取词向量,从而将文本序列转换成词向量序列。
3.根据权利要求1所述的方法,其中,在步骤S2中,对于词向量序列
Figure 896859DEST_PATH_IMAGE001
,通过以下步骤转换为第一文本向量
Figure 56445DEST_PATH_IMAGE002
计算词库中的单词的出现概率大于设定阈值的概率
Figure 154851DEST_PATH_IMAGE003
,该阈值表示随机一个单词在n步内能够出现的概率;
计算由词向量序列
Figure 843321DEST_PATH_IMAGE001
转换成第一文本向量
Figure 292757DEST_PATH_IMAGE004
时,对每个词所附加的光滑逆频率作为权重;
基于所计算的各词对应的光滑逆频率,将词向量序列
Figure 724875DEST_PATH_IMAGE005
转换成第一文本向量
Figure 943367DEST_PATH_IMAGE004
4.根据权利要求3所述的方法,其中,步骤S3包括:
对于语料库中的所有文本对应的第一文本向量
Figure 943684DEST_PATH_IMAGE006
,排成文本向量矩阵;
对得到的文本向量矩阵进行奇异值分解,得到矩阵的前m个主成分;
对于每个主成分对应的权重,根据奇异向量的值计算每个主成分对应的权重,表示为:
Figure 880416DEST_PATH_IMAGE007
通过去除主成分,获得第二文本向量表达
Figure 381804DEST_PATH_IMAGE008
,表示为:
Figure 720382DEST_PATH_IMAGE009
其中,
Figure 750655DEST_PATH_IMAGE010
表示第i个主成分的权重,
Figure 649384DEST_PATH_IMAGE012
表示第i个主成分,
Figure 423305DEST_PATH_IMAGE013
表示,对于前m个主成分,对其中第j个主成分
Figure 22913DEST_PATH_IMAGE014
平方运算后得到的m个数值求和,
Figure 489667DEST_PATH_IMAGE015
表示的是
Figure 400991DEST_PATH_IMAGE016
文本向量
Figure 119548DEST_PATH_IMAGE017
上的投影,
Figure 432718DEST_PATH_IMAGE016
表示第i个主成分。
5.根据权利要求3所述的方法,其中,词库中的单词的出现概率大于设定阈值的概率
Figure 211318DEST_PATH_IMAGE018
表示为:
Figure 344359DEST_PATH_IMAGE019
其中,
Figure 991241DEST_PATH_IMAGE020
表示词汇表大小,表示句子S中的单词,表示单词在词汇表V中 出现的概率。
6.根据权利要求1所述的方法,其中,待查询文本的文本向量与数据库中存储的被匹配文本的文本向量的相似度是余弦相似度。
7.根据权利要求1所述的方法,其中,所述预训练模型是Roberta模型。
8.根据权利要求5所述的方法,其中,所述第一文本向量的计算过程表示为:
Figure 710487DEST_PATH_IMAGE024
其中,
Figure 873615DEST_PATH_IMAGE020
表示词汇表大小,Z与词表数量有关,表示词表中单词与句向量的期望总距 离,表示某一单词偶然产生的概率;表示句子S中的单词,表示单词的向 量,表示单词在词汇表V中出现的概率。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202110597764.3A 2021-05-31 2021-05-31 一种基于深度学习的无监督文本检索方法 Active CN113254586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110597764.3A CN113254586B (zh) 2021-05-31 2021-05-31 一种基于深度学习的无监督文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110597764.3A CN113254586B (zh) 2021-05-31 2021-05-31 一种基于深度学习的无监督文本检索方法

Publications (2)

Publication Number Publication Date
CN113254586A true CN113254586A (zh) 2021-08-13
CN113254586B CN113254586B (zh) 2021-11-05

Family

ID=77185396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110597764.3A Active CN113254586B (zh) 2021-05-31 2021-05-31 一种基于深度学习的无监督文本检索方法

Country Status (1)

Country Link
CN (1) CN113254586B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269810A (zh) * 2022-09-27 2022-11-01 北京云迹科技股份有限公司 对话语料的检索方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190100506A1 (en) * 2016-04-06 2019-04-04 Hua Medicine (Shanghai) Ltd. Pyrrole Derivatives
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN110688452A (zh) * 2019-08-23 2020-01-14 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN111159343A (zh) * 2019-12-26 2020-05-15 上海科技发展有限公司 基于文本嵌入的文本相似性搜索方法、装置、设备和介质
CN111460088A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 相似文本的检索方法、装置和系统
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质
CN112347223A (zh) * 2020-11-03 2021-02-09 平安科技(深圳)有限公司 文档检索方法、设备及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190100506A1 (en) * 2016-04-06 2019-04-04 Hua Medicine (Shanghai) Ltd. Pyrrole Derivatives
CN111460088A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 相似文本的检索方法、装置和系统
CN110688452A (zh) * 2019-08-23 2020-01-14 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN111159343A (zh) * 2019-12-26 2020-05-15 上海科技发展有限公司 基于文本嵌入的文本相似性搜索方法、装置、设备和介质
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN112347223A (zh) * 2020-11-03 2021-02-09 平安科技(深圳)有限公司 文档检索方法、设备及计算机可读存储介质
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANJEEV ARORA ET AL.: "A Simple But Tough-To-Beat Baseline For Sentence Embeddings", 《ICLR 2017》 *
YINHAN LIU ET AL.: "RoBERTa: A Robustly Optimized BERT Pretraining Approach", 《ARXIV.ORG》 *
李枫林 等: "基于深度学习的文本表示方法", 《情报科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269810A (zh) * 2022-09-27 2022-11-01 北京云迹科技股份有限公司 对话语料的检索方法及装置

Also Published As

Publication number Publication date
CN113254586B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
CN110737758A (zh) 用于生成模型的方法和装置
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN113743099B (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
Helwe et al. A semi-supervised BERT approach for Arabic named entity recognition
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN113590827B (zh) 一种基于多角度的科研项目文本分类装置和方法
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
CN112528653B (zh) 短文本实体识别方法和系统
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN113705207A (zh) 语法错误识别方法及装置
Wang et al. Image captioning based on deep learning methods: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant