CN113407738B - 一种相似文本检索方法、装置、电子设备和存储介质 - Google Patents

一种相似文本检索方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113407738B
CN113407738B CN202110784994.0A CN202110784994A CN113407738B CN 113407738 B CN113407738 B CN 113407738B CN 202110784994 A CN202110784994 A CN 202110784994A CN 113407738 B CN113407738 B CN 113407738B
Authority
CN
China
Prior art keywords
text
index
target
vector
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110784994.0A
Other languages
English (en)
Other versions
CN113407738A (zh
Inventor
常永炷
毛晓曦
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110784994.0A priority Critical patent/CN113407738B/zh
Publication of CN113407738A publication Critical patent/CN113407738A/zh
Application granted granted Critical
Publication of CN113407738B publication Critical patent/CN113407738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种相似文本检索方法、装置、电子设备和存储介质,可对待检索的目标文本进行语义分析,得到目标文本的目标语义向量;基于目标语义向量,确定参考文本的语义向量中目标语义向量的相似语义向量,参考文本为目标类型文本;获取相似语义向量对应的参考文本,作为候选相似文本;获取目标语义向量与相似语义向量的相似度,及获取候选相似文本的预设指标;根据该相似度和预设指标,对候选相似文本的进行处理得到目标文本的相似检索结果,由此,本实施例在检索与目标文本相似的目标类型文本时,是基于目标文本的语义向量进行的检索,避免了相关技术中检索出的文本仅包含与输入文本某个词相关的情况,有利于提升检索结果的可靠性。

Description

一种相似文本检索方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,具体涉及相似文本检索方法、装置、电子设备和存储介质。
背景技术
目前,搜索引擎为用户提供了关于各种信息的搜索功能,例如,由用户输入词语或一个句子等,搜索引擎会反馈给用户与该词语或句子关联的内容。
在相关技术中,搜索引擎一般是基于词语的词向量进行关联内容的搜索,所以搜索结果与用户输入信息的关联性得不到保证,搜索结果的可靠性不高。
发明内容
本发明实施例提供一种相似文本检索方法、装置、电子设备和存储介质,有利于提升特定类型文本的相似性检索结果的可靠性。
本发明实施例提供一种相似文本检索方法,该方法包括:
对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;
获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;
根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
本发明实施例提供一种相似文本检索装置,该装置包括:
输入数据处理单元,用于对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
检索单元,用于基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;
文本获取单元,用于获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
信息获取单元,用于获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率
数据处理单元,用于根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
可选的,本实施例中,检索单元,用于:
获取参考文本对应的索引图,所述索引图包括多个索引节点,其中,一个索引节点对应一个参考文本的语义向量的向量索引,在所述索引图中一个索引节点与至少k个其他的索引节点之间存在连接关系,存在所述连接关系的索引节点对应的语义向量,满足预设的相似向量判定条件;
基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量。
可选的,本实施例中,检索单元,用于:
从所述索引图中选择一个第一索引节点;
计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度,以及计算与所述第一索引节点存在连接关系的第二索引节点对应的语义向量,与所述目标语义向量的第二相似度;
若每一个第二相似度均低于所述第一相似度,从所述第一索引节点以及所述第二索引节点对应的语义向量中选择出所述目标语义向量的相似语义向量;
若存在至少一个第二相似度高于所述第一相似度,选择第二相似度最高的第二索引节点作为新的第一索引节点,返回执行所述计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度的步骤,直到确定出相似语义向量为止。
可选的,本实施例中,装置还包括索引图构建单元,用于:
获取参考文本的语义向量,为每个所述语义向量生成对应的向量索引;
将k个向量索引作为K个索引节点加入索引图中,为k个向量索引两两之间进行连线;
选择一个向量索引作为新索引节点加入所述索引图中,计算新索引节点和所述索引图中已有索引节点对应的语义向量的第三相似度,基于所述第三相似度从所述已有索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线;
返回执行所述选择一个向量索引作为新索引节点加入索引图中的步骤,直到所述参考文本的语义向量对应的向量索引全部作为索引节点添加到所述索引图中为止。
可选的,本实施例中,文本获取单元,用于:
从所述索引图中获取所述相似语义向量所属的目标索引节点对应的向量索引;
基于获取的所述向量索引,以及对应于相同语义向量的向量索引和参考文本之间的第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
可选的,本实施例中,所述预设检索信息存储在离线数据库中。
可选的,本实施例中,所述检索单元,用于:
从预设检索信息中获取参考文本对应的索引图,所述预设检索信息包括所述向量索引与参考文本的第一对应关系以及所述索引图,预设检索信息由所述索引图和所述第一对应关系通过所述向量索引连接得到;
所述文本获取单元,用于:
基于获取的所述向量索引,以及所述预设检索信息中的所述第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
可选的,本实施例中,所述候选相似文本为目标类型文本的概率,由训练完成的文本分类模型得到;
所述输入数据处理单元,用于通过预训练模型,对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
所述装置还包括分类器训练单元,用于:
获取预训练模型、和待训练的文本分类模型和样本文本,所述预训练模型基于语料进行预训练,所述样本文本具有标签,所述标签包括所述样本文本为目标类型文本的实际概率;
基于所述预训练模型对所述样本文本进行语义分析,得到所述样本文本的语义向量;
通过待训练的文本分类模型,基于所述样本文本的语义向量进行文本分类,得到所述样本文本为所述目标类型文本的预测概率;
基于所述预测概率和所述实际概率,确定所述待训练的文本分类模型的分类损失;
基于所述分类损失调整所述待训练的文本分类模型的参数,得到训练完成的文本分类模型。
可选的,本实施例中,装置还包括:参考文本获取单元,用于:
通过所述预训练模型对候选文本进行语义分析,得到所述候选文本的语义向量;
通过训练完成的文本分类模型,基于候选文本的语义向量对候选文本进行文本分类,确定所述候选文本为目标类型文本的概率;
将所述概率不低于预设概率阈值的候选文本,确定为参考文本,基于参考文本的所述概率确定所述参考文本的所述预设指标。
本发明实施例还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
本发明实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明实施例提供了一种相似文本检索方法、装置、电子设备和存储介质,通过对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果,由此,本实施例在检索与目标文本相似的特定类型如目标类型的文本时,是基于目标文本的语义向量进行的检索,避免了相关技术中检索出的文本仅包含与输入文本某个词相关的情况,有利于提升检索结果的可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的相似文本检索系统的示意图;
图2是本发明实施例提供的一种相似文本检索方法的流程图;
图3a是本发明实施例提供的一种相似文本检索装置的结构示意图
图3b是本发明实施例提供的一种相似文本检索装置的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种相似文本检索方法、装置、电子设备和存储介质。具体地,本实施例提供适用于相似文本检索装置的相似文本检索方法,该相似文本检索装置可以集成在电子设备中。该电子设备可以为终端等设备,例如可以为手机、平板电脑、笔记本电脑、台式电脑等。也可以为服务器等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
本实施例的相似文本检索方法,可以由服务器实现,或可以由终端实现,或者可以由终端和服务器共同实现。
本实施例终端和服务器共同实现相似文本检索方法为例进行示例说明。
参考图1,本发明实施例提供的相似文本检索系统包括终端10和服务器20等;终端10和服务器20之间通过网络连接,比如,通过有线或无线网络连接等。
其中,终端10,可以用于获取用户输入的待检索的目标文本,将待检索的目标文本发送给服务器20。
服务器20可以用于对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本发明实施例的一个方面提供了一种相似文本检索方法,如图2所示,本实施例的相似文本检索方法的流程可以如下:
201、对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
本实施例中,目标文本的文本长度不限,例如目标文本包括但不限于词语、语句、段落以及文章等。
其中,目标文本的目标语义向量以及参考文本的语义向量是相同语义空间中的向量。
本实施例中,可以通过神经网络模型来对待检索的目标文本进行分析,得到目标文本在目标语义空间中的语义向量。
一个示例中,该神经网络模型可以是预训练模型。步骤“所述对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量”,包括:
通过预训练模型,对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
可选的,预训练模型是基于语料训练的语言模型,其具有良好的迁移能力使得一个在大规模语料库中进行训练的预训练语言模型,可以无缝衔接到任意一个领域中,从而很好的规避掉模型跨领域的风险。
本实施例中,预训练模型基于自然语言处理(Natural Language Processing,NLP)技术实现。预训练模型的类型不限,可以是任意可用于语义分析的模型,例如BERT(Bidirectional Encoder Representation Transformers)模型。
本实施例中,对预训练模型进行预训练,主要是通过模型对预训练任务的学习,从常见的语料中学习到文本的特征表示,该特征表示可以把文本映射到语义空间,从而得到文本的语义向量。预训练模型的一个好处是,当需要在不同领域进行文本相似检索时,不用每次进行领域迁移进而重新训练模型,即多个领域可以共享该预训练模型。
其中,预训练模型的预训练过程至少包括:
步骤21、获取用于训练预训练模型的语料;
其中,可以通过网络从各个内容平台上获取文本作为语料。内容平台为可以向用户提供内容的平台。可选的,内容平台包括但不限于各种社交媒体网站、电子商务网站、各种新闻平台如XX日报、科普平台等,预料可以从内容平台中发布出来的内容,以及针对内容的互动信息中获取。
步骤22、对收集的语料进行数据处理,得到预训练模型可以解析的格式的语料;
其中,步骤22中,数据处理包括但不限于:数据清洗和数据格式转换。
数据清洗包括:过滤掉语料上链接的附加信息,例如网页链接以及标签信息等,得到清洗后的语料。
数据格式转换包括:对清洗后的语料,处理成预训练模型可以解析的格式。
例如,数据格式转换包括但不限于:将清洗后的语料以窗口大小为2划分为多个句子组合,每个句子组合中有且只有两个句子,同时对句子中的至少一个词进行遮蔽。遮蔽的方式包括但不限于利用特定字符替代被遮蔽的词,或者利用空格替代被遮蔽的词等等。
其中,上述窗口大小为2仅为示例说明,并不对本实施例实际的窗口大小进行限定。例如,清洗后的语料可以以k个句子为单位进行划分,得到多个句子组合,其中,k为不小于1的整数值。
步骤23、通过预训练模型的向量提取模块提取步骤22处理后的语料的语义向量;
步骤24、通过预训练模型的任务模块基于语义向量执行对应的任务,得到任务结果,基于任务结果调整预训练模型的参数,得到训练完成的预训练模型。
其中,预训练模型的任务模块的数量不限,一个示例中,任务模型可以有两个,分别对应两个预训练任务。例如,一个训练任务为MLM(Mask Language Model),即判断当前语句是否是上一语句的下一语句,另一个训练任务为NSP(Next Sentence Prediction),即通过被遮蔽的词的上文来预测被遮蔽的词,训练过程中将两个任务的损失加起来得到最终的损失,从而基于该最终的损失调整预训练模型的参数。
例如,在句子组包括两个句子的示例中,预训练模型包括两个任务模块共享的向量提取模块,以及两个任务模型,两个任务模型与向量提取模块连接。可选的,步骤22中,进行数据格式转换后,可以为语料设置两个标签-第一标签和第二标签。
第一标签中包括顺序指示值,顺序指示值用于指示句子组中前一个句子在原本的语料中是否为后一个句子相邻的前一句。顺序指示值的取值包括0和1,分别指示句子组中前一个句子在原本的语料中不是后一个句子相邻的前一句,以及句子组中前一个句子在原本的语料中是后一个句子相邻的前一句。
第二标签中包括句子组中被遮蔽的词(或该词的编码值)。
通过预训练模型的向量提取模块对句子组中的两个句子提取语义向量,将语义向量分别输入两个任务模型,一个任务模型基于语义向量预测句子组中前一个句子在原本的语料中为后一个句子的第一概率,一个任务模块基于语义向量预测被遮蔽的词(为区分,记为预测词)。
基于相同句子组的第一概率和第一标签的顺序指示值计算第一损失值,基于第二标签和预测词计算第二损失值,对第一损失值和第二损失值进行加权求和,得到最终损失,基于该最终损失调整预训练模型的参数,直到训练结束为止。
完成此训练之后就得到了一个预训练好的文本表征模型。将一段文本输入该模型,就可以得到模型的向量提取模块输出的语义向量。
本实施例的一个示例中,BERT的网络结构包括了12层的Tranfromers结构,初始化词向量的维度有768维,有12个注意力层,其中词典大小为21128。
本实施例中,可以通过预训练模型的特征提取模块对文本(如目标文本)进行语义分析,得到对应的语义向量。
202、基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;
本实施例中,目标语义向量的相似语义向量与目标语义向量的相似度不低于第一相似度阈值,可选的,第一相似度阈值可以根据实际需要设置,例如,可以设置为0.5等数值,一个示例中,可以试试计算出目标语义向量与参考文本的语义向量的相似度,基于该相似度与第一相似度阈值,选择出相似语义向量。
本实施例中,目标类型文本可以根据用户的需要设置,例如设置为优美文本,语义准确文本等等,基于不同领域对文本的需要,文本的目标类型可以不同,例如,在文学创作领域,目标类型文本为优美文本,在新闻领域,目标类型文本为语义准确文本等等。
在各个领域中,相似度的测量具有非常重要的意义。比如,在当前的检索系统中(X度、X歌等)就运用了相似度的测量。当我们在检索框中输入文本后,系统返回的结果与输入内容的相似程度往往是评判一个检索系统的好坏。一个良好的检索系统,能有效并且快速的检索出想要的内容。
相关技术中,并未提供一种专门检索相似句子的检索系统,并且相关技术中利用检索系统检索出来的句子在进行写作以及创作过程中难以用到,有着非常大的噪声,给创作用户带来极大的不便。基于此,本实施例着重在于构建一个针对特定类型文本的检索系统,专门服务于需要特定类型文本的用户,例如优美语句检索系统服务于创作人员进行创作,并且给创作人员带来灵感,提高创作效率,让用户创作出非常优美的作品。
可选的,本实施例中,步骤“基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量”,包括:
获取参考文本对应的索引图,所述索引图包括多个索引节点,其中,一个索引节点对应一个参考文本的语义向量的向量索引,在所述索引图中一个索引节点与至少k个其他的索引节点之间存在连接关系,存在所述连接关系的索引节点对应的语义向量,满足预设的相似向量判定条件;
基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量。
可选的,相似向量判定条件,是判断两个语义向量是否相似的条件,具体的,相似向量判定条件可以包括语义向量间的相似度不低于相似度阈值,可选的,相似度阈值可以根据实际需要设置,例如设置为0.5等数值,或者,若对相似度要求更高,相似度阈值可以设置为0.6、0.7等大于0.5的数值。
其中,语义向量之间的相似度可以通过欧氏距离等计算,本实施例对此没有限定。
一个示例中,向量索引可以包括为语义向量设置的索引和/或为向量分配的id。其中,索引可以指向语义向量的存储地址,终端或服务器根据该索引,可以从对应的存储地址中读取出语义向量。
其中,确定所述索引节点中的所述目标语义向量的相似语义向量,实际上述确定索引节点对应的语义向量中所述目标语义向量的相似语义向量。
本实施例中,索引图的创建需要先获取参考文本的语义向量。而参考文本属于目标类型文本的概率,以及候选相似文本为目标类型文本的概率,由训练完成的文本分类模型得到。
本实施例中,在对预训练模型进行预训练之后,还可以包括:
获取预训练模型、待训练的文本分类模型和样本文本,所述预训练模型基于语料进行预训练,所述样本文本具有标签,所述标签包括所述样本文本为目标类型文本的实际概率;
基于所述预训练模型对所述样本文本进行语义分析,得到所述样本文本的语义向量;
通过待训练的文本分类模型,基于所述样本文本的语义向量进行文本分类,得到所述样本文本为所述目标类型文本的预测概率;
基于所述预测概率和所述实际概率,确定所述待训练的文本分类模型的分类损失;
基于所述分类损失调整所述待训练的文本分类模型的参数,得到训练完成的文本分类模型。
其中,分类损失的计算方式不限,例如分类损失包括但不限于:0-1损失、logisticLoss,指数损失(Exponential loss)等等。基于分类损失对文本分类模型的参数的调整方式不限。
其中,样本文本的标签,可以通过人工标注实现,例如基于五个标注人员对样本文本进行标注。处理标注结果时,采用投票的处理方式,确定最终的句子标签,例如,针对五个标注人员的标注,若同一文本的五个标注相同,则标注的得票数为5,采用该标注,若不同,则统计每个标注的得票数,选得票数最高的标注作为样本文本的标注。
其中,以样本文本为优美句子为例,列举样本文本的获取过程包括但不限于:
步骤a、从网络中一些特定的网站进行收集优美句子;
其中,优美句子包括但不限于励志语句,名言警句等等。
步骤b、获取到预设数量的优美句子之后进行数据清洗;
数据清洗包括但不限于:去除HTML标签、去除非中文字符等等。
步骤c、步骤b所处理的句子进行格式化,将格式化后的句子发送至人工标注平台进行人工标注。
该格式化的目的主要是为了适配众包平台(即人工标注平台)进行人工标注,通过在众包平台招募标注人员进行数据的标注,标注的目的是判别该句子是否是优美句子。其中,格式化的方式参见前述示例的相关描述,在此不再赘述。
在训练好文本分类模型后,可以进行参考文本的选择,可选的,本实施例还包括:
通过所述预训练模型对候选文本进行语义分析,得到所述候选文本的语义向量;
通过训练完成的文本分类模型,基于候选文本的语义向量对候选文本进行文本分类,确定所述候选文本为目标类型文本的概率;
将所述概率不低于预设概率阈值的候选文本,确定为参考文本,基于参考文本的所述概率确定所述参考文本的所述预设指标。
其中,预设概率阈值可以任意设置,例如设置为不低于0.5的值,或者,若要求更高,可以设置预设概率阈值为大于0.5的值,例如设置为0.6,0.8等等。
一个示例中,预设指标可以是以概率的形式表示的,即某文本的预设指标即为该文本为目标类型文本的概率,或者预设指标可以是基于概率转换得到分值,例如基于概率转换得到的百分制的分值。
本实施例中,参考文本为目标类型文本,意味着参考文本为目标类型文本的概率不低于预设概率阈值。
得到参考文本后,可以通过预训练模型获取参考文本的语义向量,之后建立索引图。
可选的,本实施例中,还可以包括:
获取参考文本的语义向量,为每个所述语义向量生成对应的向量索引;
将k个向量索引作为K个索引节点加入索引图中,为k个向量索引两两之间进行连线;
选择一个向量索引作为新索引节点加入所述索引图中,计算新索引节点和所述索引图中已有索引节点对应的语义向量的第三相似度,基于所述第三相似度从所述已有索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线;
返回执行所述选择一个向量索引作为新索引节点加入索引图中的步骤,直到所述参考文本的语义向量对应的向量索引全部作为索引节点添加到所述索引图中为止。
其中,将k个向量索引作为K个索引节点加入索引图中,为k个向量索引两两之间进行连线;具体可以包括:
选择一个向量索引作为索引节点加入索引图;
若索引图中已有索引节点的数量不高于k,选择新的向量索引作为新索引节点加入索引图中,将新索引节点与已有索引节点分别进行连线,直到索引图中已有索引节点的数量等于k为止。
可选的,本实施例中,还可以根据参考文本的语义向量的向量索引,建立对应于相同语义向量的向量索引和参考文本之间的第一对应关系。该第一对应关系可以存储在服务器或终端中,例如,可选的,第一对应关系和索引图可以存储在相同的存储设备中。
可选的,一个示例中,步骤“基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量”
从所述索引图中选择一个第一索引节点;
计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度,以及计算与所述第一索引节点存在连接关系的第二索引节点对应的语义向量,与所述目标语义向量的第二相似度;
若每一个第二相似度均低于所述第一相似度,从所述第一索引节点以及所述第二索引节点对应的语义向量中选择出所述目标语义向量的相似语义向量;
若存在至少一个第二相似度高于所述第一相似度,选择第二相似度最高的第二索引节点作为新的第一索引节点,返回执行所述计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度的步骤,直到确定出相似语义向量为止。
可选的,从所述第一索引节点以及所述第二索引节点对应的语义向量中选择出所述目标语义向量的相似语义向量,具体可以包括:从所述第一索引节点以及所述第二索引节点对应的语义向量中选择出n个语义向量,作为所述目标语义向量的相似语义向量。
其中,n为不低于1的整数,可选的,可以选择第一索引节点,以及第二相似度排列在前的n-1个第二索引节点,所对应的语义向量为目标语义向量的相似语义向量。可选的,一个示例中,n=k。
一个示例中,步骤“计算新索引节点和所述索引图中已有索引节点对应的语义向量的第三相似度,基于所述第三相似度从所述已有索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线”,包括:
从已有索引图中选择一个第三索引节点;
计算所述第三索引节点对应的语义向量,与新索引节点的语义向量的第三相似度,以及计算与所述第三索引节点存在连接关系的第四索引节点对应的语义向量,与新索引节点的语义向量的第四相似度;
若每一个第四相似度均低于所述第三相似度,从所述第三索引节点以及所述第四索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线;
若存在至少一个第四相似度高于所述第三相似度,选择最高的第四相似度对应的第四索引节点作为新的第三索引节点,返回执行所述计算所述第三索引节点对应的语义向量,与新索引节点的语义向量的第三相似度的步骤,直到成功建立新索引节点与k个索引节点之间的连线为止。
可选的,若每一个第四相似度均低于所述第三相似度,从所述第三索引节点以及所述第四索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线,可以包括:选择第三索引节点,以及第四索引节点中第四相似度最高的k-1个索引节点,分别建立新索引节点与所选的第三索引节点以及k-1个索引节点的连线。
203、获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
一个示例中,步骤“所述获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本”,可以包括:
从所述索引图中获取所述相似语义向量所属的目标索引节点对应的向量索引;
基于获取的所述向量索引,以及对应于相同语义向量的向量索引和参考文本之间的第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
可选的,基于该第一对应关系,本实施例的向量索引,也可以用来查找参考文本。
在一个实施例中,所述获取参考文本对应的索引图,包括:
从预设检索信息中获取参考文本对应的索引图,所述预设检索信息包括所述向量索引与参考文本的第一对应关系以及所述索引图,预设检索信息由所述索引图和所述第一对应关系通过所述向量索引连接得到;
所述基于获取的所述向量索引,以及对应于相同语义向量的向量索引和参考文本之间的第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本,包括:
基于获取的所述向量索引,以及所述预设检索信息中的所述第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
其中,预设检索信息,可以在生成第一对应关系和索引图之后基于向量索引生成。
204、获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;
205、根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
可选的,一个示例中,可以获取相似度对应的第一权重和预设指标对应的第二权重,对于同一候选相似文本的相似度和预设指标,分别基于第一权重和第二权重进行加权后再求和,得到加权求和值。
之后,根据加权求和值,可以对候选相似文本进行排序,得到排序后的候选相似文本,作为相似检索结果。可选地,服务器可以将该相似检索结果发送给终端。由终端按照相似检索结果中的排序显示候选相似文本。
一个示例中,若一次需要反馈至终端的相似文本为m个,则候选相似文本的数量可以为大于m的数值,在得到候选相似文本的加权求和值后,可以对候选相似文本进行排序,从排序后的候选相似文本中选择排列在前的m个文本作为检索结果。
其中,可以理解的是,若相似检索结果中候选相似文本的数量不足,可以采用本实施的方案再选择一定数量的候选相似文本。
在一个实施例中,所述预设检索信息存储在离线数据库中。基于本实施例中预设检索信息的获取方案,可以定期更新离线数据库中的预设检索信息,便于保持预设检索信息的时效性和数据全面性。
采用本实施例,可对待检索的目标文本进行语义分析,得到目标文本的目标语义向量;基于目标语义向量,确定参考文本的语义向量中目标语义向量的相似语义向量,参考文本为目标类型文本;获取相似语义向量对应的参考文本,作为候选相似文本;获取目标语义向量与相似语义向量的相似度,及获取候选相似文本的预设指标;根据该相似度和预设指标,对候选相似文本的进行处理得到目标文本的相似检索结果,由此,本实施例在检索与目标文本相似的目标类型文本时,是基于目标文本的语义向量进行的检索,避免了相关技术中检索出的文本仅包含与输入文本某个词相关的情况,有利于提升检索结果的可靠性。
为了更好地实施以上方法,相应的,本发明实施例还提供一种相似文本检索装置。参考图3a,该相似文本检索装置包括:
输入数据处理单元301,用于对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
检索单元302,用于基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;
文本获取单元303,用于获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
信息获取单元304,用于获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;
数据处理单元305,用于根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
可选的,本实施例中,检索单元,用于:
获取参考文本对应的索引图,所述索引图包括多个索引节点,其中,一个索引节点对应一个参考文本的语义向量的向量索引,在所述索引图中一个索引节点与至少k个其他的索引节点之间存在连接关系,存在所述连接关系的索引节点对应的语义向量,满足预设的相似向量判定条件;
基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量。
可选的,本实施例中,检索单元,用于:
从所述索引图中选择一个第一索引节点;
计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度,以及计算与所述第一索引节点存在连接关系的第二索引节点对应的语义向量,与所述目标语义向量的第二相似度;
若每一个第二相似度均低于所述第一相似度,从所述第一索引节点以及所述第二索引节点对应的语义向量中选择出所述目标语义向量的相似语义向量;
若存在至少一个第二相似度高于所述第一相似度,选择第二相似度最高的第二索引节点作为新的第一索引节点,返回执行所述计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度的步骤,直到确定出相似语义向量为止。
可选的,本实施例中,参见图3b,装置还包括索引图构建单元306,用于:
获取参考文本的语义向量,为每个所述语义向量生成对应的向量索引;
将k个向量索引作为K个索引节点加入索引图中,为k个向量索引两两之间进行连线;
选择一个向量索引作为新索引节点加入所述索引图中,计算新索引节点和所述索引图中已有索引节点对应的语义向量的第三相似度,基于所述第三相似度从所述已有索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线;
返回执行所述选择一个向量索引作为新索引节点加入索引图中的步骤,直到所述参考文本的语义向量对应的向量索引全部作为索引节点添加到所述索引图中为止。
可选的,本实施例中,文本获取单元,用于:
从所述索引图中获取所述相似语义向量所属的目标索引节点对应的向量索引;
基于获取的所述向量索引,以及对应于相同语义向量的向量索引和参考文本之间的第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
可选的,本实施例中,所述检索单元,用于:
从预设检索信息中获取参考文本对应的索引图,所述预设检索信息包括所述向量索引与参考文本的第一对应关系以及所述索引图,预设检索信息由所述索引图和所述第一对应关系通过所述向量索引连接得到;
所述文本获取单元,用于:
基于获取的所述向量索引,以及所述预设检索信息中的所述第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
可选的,本实施例中,所述预设检索信息存储在离线数据库中。
可选的,本实施例中,所述候选相似文本为目标类型文本的概率,由训练完成的文本分类模型得到;
所述输入数据处理单元,用于通过预训练模型,对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
参见图3b,所述装置还包括分类器训练单元307,用于:
获取预训练模型、和待训练的文本分类模型和样本文本,所述预训练模型基于语料进行预训练,所述样本文本具有标签,所述标签包括所述样本文本为目标类型文本的实际概率;
基于所述预训练模型对所述样本文本进行语义分析,得到所述样本文本的语义向量;
通过待训练的文本分类模型,基于所述样本文本的语义向量进行文本分类,得到所述样本文本为所述目标类型文本的预测概率;
基于所述预测概率和所述实际概率,确定所述待训练的文本分类模型的分类损失;
基于所述分类损失调整所述待训练的文本分类模型的参数,得到训练完成的文本分类模型。
可选的,本实施例中,装置还包括:参考文本获取单元308,用于:
通过所述预训练模型对候选文本进行语义分析,得到所述候选文本的语义向量;
通过训练完成的文本分类模型,基于候选文本的语义向量对候选文本进行文本分类,确定所述候选文本为目标类型文本的概率;
将所述概率不低于预设概率阈值的候选文本,确定为参考文本,基于参考文本的所述概率确定所述参考文本的所述预设指标。
采用本实施例的装置,可以对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果,由此,本实施例在检索与目标文本相似的特定类型如目标类型的文本时,是基于目标文本的语义向量进行的检索,避免了相关技术中检索出的文本仅包含与输入文本某个词相关的情况,有利于提升检索结果的可靠性。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,PersonalComputer)、个人数字助理(Personal Digital Assistant,PDA)等终端设备。如图4所示,图4为本申请实施例提供的电子设备的结构示意图。该电子设备1000包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中,处理器401与存储器402电性连接。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器401是电子设备1000的控制中心,利用各种接口和线路连接整个电子设备1000的各个部分,通过运行或加载存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备1000的各种功能和处理数据,从而对电子设备1000进行整体监控。
在本申请实施例中,电子设备1000中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:
对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;
获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;
根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图4所示,电子设备1000还包括:触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中,处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中,可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。
在本申请实施例中,通过处理器401在触控显示屏403上生成用户界面,用户可以在该用户界面上进行操作,进行待检索的目标文本的输入。
射频电路404可用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
音频电路405可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路405接收后转换为音频数据,再将音频数据输出处理器401处理后,经射频电路404以发送给比如另一电子设备,或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源407用于给电子设备1000的各个部件供电。可选的,电源407可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图4中未示出,电子设备1000还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种相似文本检索方法中的步骤。例如,该计算机程序可以执行如下步骤:
对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
基于所述目标语义向量,以及参考文本的语义向量,确定所述语义向量中所述目标语义向量的相似语义向量,其中,所述参考文本为目标类型文本;
获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;
根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种相似文本检索方法中的步骤,因此,可以实现本申请实施例所提供的任一种相似文本检索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种相似文本检索方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种相似文本检索方法,其特征在于,包括:
对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
获取参考文本对应的索引图,所述索引图包括多个索引节点,其中,一个索引节点对应一个参考文本的语义向量的向量索引,在所述索引图中每一个索引节点与至少k个其他的索引节点之间存在连接关系,存在所述连接关系的索引节点对应的语义向量,满足预设的相似向量判定条件,其中,所述参考文本为目标类型文本;
基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量;
获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率;
根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
2.根据权利要求1所述的相似文本检索方法,其特征在于,所述基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量,包括:
从所述索引图中选择一个第一索引节点;
计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度,以及计算与所述第一索引节点存在连接关系的第二索引节点对应的语义向量,与所述目标语义向量的第二相似度;
若每一个第二相似度均低于所述第一相似度,从所述第一索引节点以及所述第二索引节点对应的语义向量中选择出所述目标语义向量的相似语义向量;
若存在至少一个第二相似度高于所述第一相似度,选择第二相似度最高的第二索引节点作为新的第一索引节点,返回执行所述计算所述第一索引节点对应的语义向量,与所述目标语义向量的第一相似度的步骤,直到确定出相似语义向量为止。
3.根据权利要求1所述的相似文本检索方法,其特征在于,还包括:
获取参考文本的语义向量,为每个所述语义向量生成对应的向量索引;
将k个向量索引作为K个索引节点加入索引图中,为k个向量索引两两之间进行连线;
选择一个向量索引作为新索引节点加入所述索引图中,计算新索引节点和所述索引图中已有索引节点对应的语义向量的第三相似度,基于所述第三相似度从所述已有索引节点中选择k个索引节点,分别建立所述新索引节点与所选的k个索引节点之间的连线;
返回执行所述选择一个向量索引作为新索引节点加入索引图中的步骤,直到所述参考文本的语义向量对应的向量索引全部作为索引节点添加到所述索引图中为止。
4.根据权利要求1所述的相似文本检索方法,其特征在于,所述获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本,包括:
从所述索引图中获取所述相似语义向量所属的目标索引节点对应的向量索引;
基于获取的所述向量索引,以及对应于相同语义向量的向量索引和参考文本之间的第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
5.根据权利要求4所述的相似文本检索方法,其特征在于,所述获取参考文本对应的索引图,包括:
从预设检索信息中获取参考文本对应的索引图,所述预设检索信息包括所述向量索引与参考文本的第一对应关系以及所述索引图,预设检索信息由所述索引图和所述第一对应关系通过所述向量索引连接得到;
所述基于获取的所述向量索引,以及对应于相同语义向量的向量索引和参考文本之间的第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本,包括:
基于获取的所述向量索引,以及所述预设检索信息中的所述第一对应关系,确定获取的所述向量索引对应的参考文本作为候选相似文本。
6.根据权利要求5所述的相似文本检索方法,其特征在于,所述预设检索信息存储在离线数据库中。
7.根据权利要求1-6任一项所述的相似文本检索方法,其特征在于,所述候选相似文本为目标类型文本的概率,由训练完成的文本分类模型得到;
所述对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量,包括:
通过预训练模型,对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
所述方法还包括:
获取预训练模型、和待训练的文本分类模型和样本文本,所述预训练模型基于语料进行预训练,所述样本文本具有标签,所述标签包括所述样本文本为目标类型文本的实际概率;
基于所述预训练模型对所述样本文本进行语义分析,得到所述样本文本的语义向量;
通过待训练的文本分类模型,基于所述样本文本的语义向量进行文本分类,得到所述样本文本为所述目标类型文本的预测概率;
基于所述预测概率和所述实际概率,确定所述待训练的文本分类模型的分类损失;
基于所述分类损失调整所述待训练的文本分类模型的参数,得到训练完成的文本分类模型。
8.根据权利要求7所述的相似文本检索方法,其特征在于,还包括:
通过所述预训练模型对候选文本进行语义分析,得到所述候选文本的语义向量;
通过训练完成的文本分类模型,基于候选文本的语义向量对候选文本进行文本分类,确定所述候选文本为目标类型文本的概率;
将所述概率不低于预设概率阈值的候选文本,确定为参考文本,基于参考文本的所述概率确定所述参考文本的所述预设指标。
9.一种相似文本检索装置,其特征在于,包括:
输入数据处理单元,用于对待检索的目标文本进行语义分析,得到所述目标文本的目标语义向量;
检索单元,用于获取参考文本对应的索引图,所述索引图包括多个索引节点,其中,一个索引节点对应一个参考文本的语义向量的向量索引,在所述索引图中每一个索引节点与至少k个其他的索引节点之间存在连接关系,存在所述连接关系的索引节点对应的语义向量,满足预设的相似向量判定条件,其中,所述参考文本为目标类型文本;
所述检索单元,还用于基于所述索引节点之间的连接关系、所述索引节点对应的语义向量、以及所述目标语义向量,确定所述索引节点中的所述目标语义向量的相似语义向量;
文本获取单元,用于获取所述相似语义向量对应的参考文本,作为针对所述目标文本检索到的候选相似文本;
信息获取单元,用于获取所述目标语义向量与所述相似语义向量的相似度,以及获取所述候选相似文本的预设指标,所述预设指标用于指示对应的文本为目标类型文本的概率
数据处理单元,用于根据所述相似度和所述预设指标,对所述候选相似文本进行处理得到所述目标文本的相似检索结果。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述方法的步骤。
CN202110784994.0A 2021-07-12 2021-07-12 一种相似文本检索方法、装置、电子设备和存储介质 Active CN113407738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110784994.0A CN113407738B (zh) 2021-07-12 2021-07-12 一种相似文本检索方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110784994.0A CN113407738B (zh) 2021-07-12 2021-07-12 一种相似文本检索方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113407738A CN113407738A (zh) 2021-09-17
CN113407738B true CN113407738B (zh) 2022-12-13

Family

ID=77686012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110784994.0A Active CN113407738B (zh) 2021-07-12 2021-07-12 一种相似文本检索方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113407738B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780710A (zh) * 2022-04-07 2022-07-22 青岛海尔科技有限公司 文本匹配方法和装置、存储介质及电子设备
CN115203378B (zh) * 2022-09-09 2023-01-24 北京澜舟科技有限公司 基于预训练语言模型的检索增强方法、系统及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2693346A1 (en) * 2012-07-30 2014-02-05 ExB Asset Management GmbH Resource efficient document search
CN110019665A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 文本检索方法及装置
CN109408616A (zh) * 2018-10-10 2019-03-01 中南民族大学 内容相似性短文本查询方法、设备、系统及存储介质
CN110737839A (zh) * 2019-10-22 2020-01-31 京东数字科技控股有限公司 短文本的推荐方法、装置、介质及电子设备
CN111309984B (zh) * 2020-03-10 2023-09-05 支付宝(杭州)信息技术有限公司 利用索引从数据库中进行节点向量检索的方法及装置
CN111444320B (zh) * 2020-06-16 2020-09-08 太平金融科技服务(上海)有限公司 文本检索方法、装置、计算机设备和存储介质
CN111753060B (zh) * 2020-07-29 2023-09-26 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113407738A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
WO2020125445A1 (zh) 分类模型训练方法、分类方法、设备及介质
CN111553162B (zh) 一种意图识别的方法以及相关装置
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN106095845B (zh) 文本分类方法和装置
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN113407738B (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN111026840A (zh) 文本处理方法、装置、服务器和存储介质
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
CN115878750A (zh) 信息处理方法、装置、设备及计算机可读存储介质
CN114357278A (zh) 一种话题推荐方法、装置及设备
CN114357951A (zh) 生成标准报告的方法、装置、设备及存储介质
CN117688946A (zh) 基于大模型的意图识别方法、装置、电子设备和存储介质
CN116798417B (zh) 语音意图识别方法、装置、电子设备及存储介质
CN113505293B (zh) 信息推送方法、装置、电子设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN112445907B (zh) 文本情感分类方法、装置、设备、及存储介质
CN113505596A (zh) 话题切换标记方法、装置及计算机设备
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN112784046A (zh) 文本聚簇的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant