CN115878759A - 一种文本查找方法、装置及存储介质 - Google Patents

一种文本查找方法、装置及存储介质 Download PDF

Info

Publication number
CN115878759A
CN115878759A CN202310009565.5A CN202310009565A CN115878759A CN 115878759 A CN115878759 A CN 115878759A CN 202310009565 A CN202310009565 A CN 202310009565A CN 115878759 A CN115878759 A CN 115878759A
Authority
CN
China
Prior art keywords
text
word
searched
similarity
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310009565.5A
Other languages
English (en)
Other versions
CN115878759B (zh
Inventor
谢小能
李思伟
池沐霖
纪绿彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellence Information Technology Co ltd
Original Assignee
Excellence Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excellence Information Technology Co ltd filed Critical Excellence Information Technology Co ltd
Priority to CN202310009565.5A priority Critical patent/CN115878759B/zh
Publication of CN115878759A publication Critical patent/CN115878759A/zh
Application granted granted Critical
Publication of CN115878759B publication Critical patent/CN115878759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本查找方法、装置及存储介质,方法包括:获取待查找文本并对所述待查找文本进行分割处理并作为待查找词集;在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集;计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集;依次计算出所述字面相似文本集分别与所述字意相似文本集的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果。

Description

一种文本查找方法、装置及存储介质
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种文本查找方法、装置及存储介质。
背景技术
在数据分析和数据挖掘以及搜索引擎中,需要知道每个文本个体间差异的大小,进而评价个体的相似性和类别,从而来搜索得到对应的个体文本数据信息。
目前,对于中文等象形文字,通过判断语句的字符是否相同来进行文本查找或检索,但在某些句子中虽然字面相似,但其实际的意思可能存在巨大的差异,并且现有的语义相似度计算的过程中,语义距离的长度在理论上缺乏客观、严谨的定义,而且基于语义的方法忽略了节点深度和节点密度的影响,因此在实际应用中,对语义和语句之间没有很完美的解决方案,导致在进行文本查找过程中存在较大的误差,查找文本的精确度较低。
因此,目前亟需一种能够提高文本查找或检索精确度的方法。
发明内容
本发明提供了一种文本查找方法、装置、设备及存储介质,以解决现有技术中语义与语句之间的关联性低、文本查找精确度低的技术问题。
为了解决上述技术问题,本发明实施例提供了一种文本查找方法,包括:
获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集;
在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,作为第一篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度;
根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集;
计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度;
根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集;
依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果;其中,每个文本相似度均对应有一个字面相似文本集中的篇幅文本以及一个字意相似文本集中的篇幅文本。
作为优选方案,所述获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集,具体为:
获取待查找文本,并将待查找文本以词汇作为分割节点进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为初始词集;
根据预设的停用词识别算法,对所述初始词集进行停用词过滤,从而得到待查找词集。
作为优选方案,所述计算出所述待查找词集分别和所述第一篇幅文本的第一相似度,具体为:
分别将各第一篇幅文本进行词汇分割处理,依次得到各第一篇幅文本对应的第一词汇集;其中,每一个第一篇幅文本均有对应的第一词汇集;
依次对各第一词汇集分别与待查找词集进行词频计算,以使每一个第一词汇集均与待查找词集之间计算得到对应的第一词频关系,并根据所述第一词频关系,计算出各第一词汇集分别和待查找词集的第一相似度;其中,每一个第一词汇集与待查找词集之间均存在有一个第一相似度。
作为优选方案,所述依次对各第一词汇集分别与待查找词集进行词频计算,具体为:
依次求出每个第一词汇集和待查找词集的并集,作为词集并集;其中,每个第一词汇集均与所述待查找词集存在有一个词集并集;
根据每个第一词汇集与所述待查找词集对应的词集并集,计算出各自第一词汇集的词频以及所述待查找词集的词频,并将所有词频向量化,从而得到每一个第一词汇集均与待查找词集之间的第一词频关系。
作为优选方案,所述根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集,具体为:
根据每一个第一词汇集与待查找词集之间的第一相似度,将大于或等于第一预设值的第一相似度对应的第一词汇集进行提取,进而提取得到对应第一词汇集的第一篇幅文本,并将提取得到的第一篇幅文本作为字面相似文本集,从而完成对所述第一篇幅文本进行筛选剔除操作。
作为优选方案,所述计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度,具体为:
分别将各第二篇幅文本进行词汇分割处理,依次得到各第二篇幅文本对应的第二词汇集;其中,所述第二篇幅文本为预设资料库中的所有篇幅文本,每一个第二篇幅文本均有对应的第二词汇集;
将第二词汇集和待查找词集分别映射到低语义空间中的特征向量,分别得到第二词汇集和待查找词集的词向量,并根据预设语义模型,利用余弦相似度来度量第二词汇集和待查找词集之间的第二相似度。
作为优选方案,所述根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集,具体为:
通过每一个第二词汇集和待查找词集之间的第二相似度进行判断;
若第二词汇集和待查找词集之间的第二相似度大于或等于预设值,则提取对应第二词汇集的第二篇幅文本,并将提取得到的第二篇幅文本作为字意相似文本集;
若第二词汇集和待查找词集之间的第二相似度小于预设值,则将对应第二词汇集的第二篇幅文本进行剔除,并将所剔除的第二篇幅文本和待查找词集的词向量作为训练集,对所述预设语义模型进行更新训练。
作为优选方案,所述依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果,具体为:
对所述字面相似文本集中的篇幅文本分别进行词向量计算,从而分别得到字面相 似文本集中每个篇幅文本对应的第一词向量;其中,所述字面相似文本集对应所有的第一 词向量为
Figure 100002_DEST_PATH_IMAGE002A
Figure 100002_DEST_PATH_IMAGE004A
分别为每个篇幅文本对应的第一词向 量;
对所述字意相似文本集中的篇幅文本分别进行词向量计算,从而得到字意相似文 本集中每个篇幅文本对应的第二词向量;其中,所述字意相似文本集对应所有的第二词向 量为
Figure 100002_DEST_PATH_IMAGE006A
Figure 100002_DEST_PATH_IMAGE008A
分别为每个篇幅文本对应的第二词向量;
将所有所述第一词向量和所有所述第二词向量依次对应输入至预设相似度模型 中,从而得到文本相似度矩阵
Figure 100002_DEST_PATH_IMAGE010A
;对所述文本相似度矩阵中 的元素进行比较,将大于预设值的元素进行选取,从而将选取的元素对应的篇幅文本进行 提取,作为文本查找结果;其中,每个元素存在有一个字面相似文本集的篇幅文本和一个字 意相似文本集的篇幅文本。
相应地,本发明还提供一种文本查找装置,包括:分割处理模块、第一相似度模块、字面相似模块、第二相似度模块、字意相似模块和文本查找模块;
所述分割处理模块,用于获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集;
所述第一相似度模块,用于在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,作为第一篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度;
所述字面相似模块,用于根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集;
所述第二相似度模块,用于计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度;
所述字意相似模块,用于根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集;
所述文本查找模块,用于依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果;其中,每个文本相似度均对应有一个字面相似文本集中的篇幅文本以及一个字意相似文本集中的篇幅文本。
作为优选方案,所述获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集,具体为:
获取待查找文本,并将待查找文本以词汇作为分割节点进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为初始词集;
根据预设的停用词识别算法,对所述初始词集进行停用词过滤,从而得到待查找词集。
作为优选方案,所述计算出所述待查找词集分别和所述第一篇幅文本的第一相似度,具体为:
分别将各第一篇幅文本进行词汇分割处理,依次得到各第一篇幅文本对应的第一词汇集;其中,每一个第一篇幅文本均有对应的第一词汇集;
依次对各第一词汇集分别与待查找词集进行词频计算,以使每一个第一词汇集均与待查找词集之间计算得到对应的第一词频关系,并根据所述第一词频关系,计算出各第一词汇集分别和待查找词集的第一相似度;其中,每一个第一词汇集与待查找词集之间均存在有一个第一相似度。
作为优选方案,所述依次对各第一词汇集分别与待查找词集进行词频计算,具体为:
依次求出每个第一词汇集和待查找词集的并集,作为词集并集;其中,每个第一词汇集均与所述待查找词集存在有一个词集并集;
根据每个第一词汇集与所述待查找词集对应的词集并集,计算出各自第一词汇集的词频以及所述待查找词集的词频,并将所有词频向量化,从而得到每一个第一词汇集均与待查找词集之间的第一词频关系。
作为优选方案,所述根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集,具体为:
根据每一个第一词汇集与待查找词集之间的第一相似度,将大于或等于第一预设值的第一相似度对应的第一词汇集进行提取,进而提取得到对应第一词汇集的第一篇幅文本,并将提取得到的第一篇幅文本作为字面相似文本集,从而完成对所述第一篇幅文本进行筛选剔除操作。
作为优选方案,所述计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度,具体为:
分别将各第二篇幅文本进行词汇分割处理,依次得到各第二篇幅文本对应的第二词汇集;其中,所述第二篇幅文本为预设资料库中的所有篇幅文本,每一个第二篇幅文本均有对应的第二词汇集;
将第二词汇集和待查找词集分别映射到低语义空间中的特征向量,分别得到第二词汇集和待查找词集的词向量,并根据预设语义模型,利用余弦相似度来度量第二词汇集和待查找词集之间的第二相似度。
作为优选方案,所述根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集,具体为:
通过每一个第二词汇集和待查找词集之间的第二相似度进行判断;
若第二词汇集和待查找词集之间的第二相似度大于或等于预设值,则提取对应第二词汇集的第二篇幅文本,并将提取得到的第二篇幅文本作为字意相似文本集;
若第二词汇集和待查找词集之间的第二相似度小于预设值,则将对应第二词汇集的第二篇幅文本进行剔除,并将所剔除的第二篇幅文本和待查找词集的词向量作为训练集,对所述预设语义模型进行更新训练。
作为优选方案,所述依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果,具体为:
对所述字面相似文本集中的篇幅文本分别进行词向量计算,从而分别得到字面相 似文本集中每个篇幅文本对应的第一词向量;其中,所述字面相似文本集对应所有的第一 词向量为
Figure DEST_PATH_IMAGE002AA
Figure DEST_PATH_IMAGE004AA
分别为每个篇幅文本对应的第一词向 量;
对所述字意相似文本集中的篇幅文本分别进行词向量计算,从而得到字意相似文 本集中每个篇幅文本对应的第二词向量;其中,所述字意相似文本集对应所有的第二词向 量为
Figure DEST_PATH_IMAGE006AA
Figure DEST_PATH_IMAGE008AA
分别为每个篇幅文本对应的第二词向量;
将所有所述第一词向量和所有所述第二词向量依次对应输入至预设相似度模型 中,从而得到文本相似度矩阵
Figure DEST_PATH_IMAGE010AA
;对所述文本相似度矩阵中 的元素进行比较,将大于预设值的元素进行选取,从而将选取的元素对应的篇幅文本进行 提取,作为文本查找结果;其中,每个元素存在有一个字面相似文本集的篇幅文本和一个字 意相似文本集的篇幅文本。
相应地,本发明还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的文本查找方法。
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的文本查找方法。
相比于现有技术,本发明实施例具有如下有益效果:
本发明的技术方案通过获取并对待查找文本进行分割处理,进而分割成若干次会后作为待查找词集,来进行第一相似度的计算和字面相似文本集的查找,以及进行第二相似度的计算和字意相似文本集的查找,从而确保了所要查找的文本均能够符合所要查找文本的字面和字意,提高了文本查找的维度,并通过对字面相似文本集和字意相似文本之间进行文本相似度的计算,从而确保了语义与语句之间的关联性,同时避免了复杂的数学模型构建与训练,提高了所要查找文本的准确性和效率,兼顾准确性和运算效率更加符合文本查找的实际应用。
附图说明
图1:为本发明实施例所提供的一种文本查找方法的步骤流程图;
图2:为本发明实施例所提供的一种文本查找装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,为本发明实施例提供的一种文本查找方法,包括以下步骤S101-S106:
步骤S101:获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集。
作为本实施例的优选方案,所述获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集,具体为:
获取待查找文本,并将待查找文本以词汇作为分割节点进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为初始词集;根据预设的停用词识别算法,对所述初始词集进行停用词过滤,从而得到待查找词集。
在本实施例中,可以通过构建文本分割处理模型来对待查找文本来进行分割,通过对自定义词典进行设定与加载,以及大量的文本分割训练数据对文本分割处理模型进行训练,并设置学习率等,从而实现对文本的词汇分割。
在本实施例中,优选地,由于待查找文本包括但不限于文章文本、段落文本等包含大量文字信息的文本,也包括句子文本等较少量的文字信息的文本,可以通过将将文章文本依次分割成段落文本后,再对段落文本进行分割成若干个句子文本,从而对句子文本在进行以词汇作为分割节点的分割处理,从而能够准确地对包含大量文字信息的文章文本、段落文本等,进行准确且相对应的分割处理,并对分割出来的词汇进行停用词的过滤,进而在过滤后将出现频次最高的预设个数的词汇作为分割处理后的待查找词集,该待查找词集可以理解为所要进行分割处理文本的中心关键词,进而确保了在进行包含大量文字信息文本的处理时,减少大量词汇所导致的运算量过大的问题。
进一步地,作为本实施例的优选方案,在进行待查找词集生成的过程中,对于段落文本或文章文本等包含大量文字信息的文本,可以通过先进行简单的分词以及去掉停用词之后,对分词后的词汇构建有向加权图,并设置共现窗口,将共现窗口内的词进行有边相连;从而对每个分词后的词汇进行迭代计算,并设置初值,从而对每条边进行文本等级值的计算:
Figure DEST_PATH_IMAGE012A
其中,
Figure DEST_PATH_IMAGE014A
为分词后词汇
Figure DEST_PATH_IMAGE016A
的重要性(文本等级值);
Figure DEST_PATH_IMAGE018A
为阻尼系数,优选地, 阻尼系数为0.85;
Figure DEST_PATH_IMAGE020A
为概率系数,优选地,概率系数
Figure DEST_PATH_IMAGE022A
为2,概率系数
Figure DEST_PATH_IMAGE024A
为1.5;
Figure DEST_PATH_IMAGE026A
为整个文本中所存在的有指向词汇
Figure DEST_PATH_IMAGE016AA
的词汇集合;
Figure DEST_PATH_IMAGE028A
为是词汇
Figure DEST_PATH_IMAGE030A
中存在的指向所 有外部词汇的集合;
Figure DEST_PATH_IMAGE032A
Figure DEST_PATH_IMAGE034A
Figure DEST_PATH_IMAGE036A
两个顶点之间连接的一个顶点权值,
Figure DEST_PATH_IMAGE038A
Figure DEST_PATH_IMAGE040A
分别 是
Figure DEST_PATH_IMAGE034AA
转移到
Figure DEST_PATH_IMAGE036AA
Figure DEST_PATH_IMAGE036AAA
转移到
Figure DEST_PATH_IMAGE034AAA
的概率;
Figure DEST_PATH_IMAGE042A
Figure DEST_PATH_IMAGE036AAAA
Figure DEST_PATH_IMAGE044A
两个顶点之间连接的一个顶点 权值,
Figure DEST_PATH_IMAGE038AA
Figure DEST_PATH_IMAGE046A
分别是
Figure DEST_PATH_IMAGE036_5A
转移到
Figure DEST_PATH_IMAGE044AA
Figure DEST_PATH_IMAGE048A
转移到
Figure DEST_PATH_IMAGE036_6A
的概率。可以理解的是,通过加权 后的文本等级值计算相比于未经过加权的文本等级值存在显著的差异,同时加权后的文本 等级值通过节点转移概率的计算,收敛的迭代次数明显少于未经过加权和节点转移概率计 算的,显著提高了迭代计算的效率。
进一步地,通过对每个分词后的词汇进行迭代计算后,记录每次所有词做一遍迭代后的最大误差,作为迭代稳定的标志,并对迭代计算后的结果进行倒序排列,进而提取出最大误差较小的预设个数的关键词,作为待查找词集。其中,预设个数可根据实际的需求以及文本查找精度进行设置。
步骤S102:在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,作为第一篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度。
作为本实施例的优选方案,所述计算出所述待查找词集分别和所述第一篇幅文本的第一相似度,具体为:
分别将各第一篇幅文本进行词汇分割处理,依次得到各第一篇幅文本对应的第一词汇集;其中,每一个第一篇幅文本均有对应的第一词汇集;依次对各第一词汇集分别与待查找词集进行词频计算,以使每一个第一词汇集均与待查找词集之间计算得到对应的第一词频关系,并根据所述第一词频关系,计算出各第一词汇集分别和待查找词集的第一相似度;其中,每一个第一词汇集与待查找词集之间均存在有一个第一相似度。
需要说明的是,通过待查找词集,直接在预设资料库中检索出包含待查找词集中所有词汇的篇幅文本,即该篇幅文本即为均包含待查找词集的篇幅文本(第一篇幅文本),从而在后续进行词频和词频关系的计算中,减少了对其他不包含待查找词集的篇幅文本的计算量,从而提高算力,在确保文本查找准确率的同时,提高了文本查找的效率。
在本实施例中,通过对第一篇幅文本进行词汇分割处理,从而得到每个第一篇幅文本对应的一个第一词汇集,进而对第一词汇集进行词频计算,从而每一个第一词汇集均与待查找词集之间计算得到对应的第一词频关系,进而计算出各第一词汇集分别和待查找词集的第一相似度。
作为本实施例的优选方案,所述依次对各第一词汇集分别与待查找词集进行词频计算,具体为:
依次求出每个第一词汇集和待查找词集的并集,作为词集并集;其中,每个第一词汇集均与所述待查找词集存在有一个词集并集;根据每个第一词汇集与所述待查找词集对应的词集并集,计算出各自第一词汇集的词频以及所述待查找词集的词频,并将所有词频向量化,从而得到每一个第一词汇集均与待查找词集之间的第一词频关系。
在本实施例中,依次将每个第一词汇集和待查找词集进行并集的求解,从而得到词集并集,并通过计算出各自第一词汇集的词频以及所述待查找词集的词频,从而将所有的词频向量化,例如:第一词汇集包括“A、B、C、D、E”的五个词,待查找词集包括“B、C、E”的三个词,即词集并集为“A、B、C、D、E”,从而对第一词汇集计算词频:“A1,B2,C2,D1,E2”,对待查找词集计算词频:“B2、C2、E2”,则第一词汇集词频向量化后:[1,2,2,1,2],第二词汇集词频向量化后:[0,2,2,0,2],即[1,2,2,1,2]和[0,2,2,0,2]为该第一词汇集和待查找词集的第一词频关系。
进一步地,通过第一词汇集和待查找词集的第一词频关系,即可计算出第一词汇集和待查找词集的第一相似度:
Figure DEST_PATH_IMAGE050A
其中,
Figure DEST_PATH_IMAGE052A
为第一相似度,
Figure DEST_PATH_IMAGE054A
为该第一词汇集,
Figure DEST_PATH_IMAGE056A
为待查找词集,
Figure DEST_PATH_IMAGE058A
为该第一词 汇集向量化后的边长,
Figure DEST_PATH_IMAGE060A
为待查找词集向量化后的边长。
步骤S103:根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集。
作为本实施例的优选方案,所述根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集,具体为:
根据每一个第一词汇集与待查找词集之间的第一相似度,将大于或等于第一预设值的第一相似度对应的第一词汇集进行提取,进而提取得到对应第一词汇集的第一篇幅文本,并将提取得到的第一篇幅文本作为字面相似文本集,从而完成对所述第一篇幅文本进行筛选剔除操作。
可以理解的是,通过对每一个第一词汇集与待查找词集之间的第一相似度进行比较后,从而将大于或等于第一预设值的第一相似度对应的第一词汇集进行提取,即说明所提取的第一词汇集与待查找词集之间的第一相似度是高于预设精度的,确保了第一词汇集和待查找词集之间的相似精度,从而对该第一词汇集对应的第一篇幅文本进行提取,从而得到了与待查找文本存在高字面相似度的篇幅文本。其中,第一预设值可根据实际的文本查找精度进行设置。
步骤S104:计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度。
作为本实施例的优选方案,所述计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度,具体为:
分别将各第二篇幅文本进行词汇分割处理,依次得到各第二篇幅文本对应的第二词汇集;其中,所述第二篇幅文本为预设资料库中的所有篇幅文本,每一个第二篇幅文本均有对应的第二词汇集;将第二词汇集和待查找词集分别映射到低语义空间中的特征向量,分别得到第二词汇集和待查找词集的词向量,并根据预设语义模型,利用余弦相似度来度量第二词汇集和待查找词集之间的第二相似度。
需要说明的是,为了减少对文本查找所进行的计算量,将各第二篇幅文本进行词汇分割处理后,以关键词等作为各第二篇幅文本对应的第二词汇集来进行相应的语义相似文本的查找,能够显著提高文本查找的效率和计算速率。
进一步地,为了呈现自然语料库这个语料库,从而形成一个高维语义空间,而原始语料库对应的矩阵太大,且存在较大噪音,同时原始矩阵过于稀疏,降维后的新矩阵则是原矩阵的近似,因此对原始矩阵的降维可以解决一部分同义词与二义性的问题,因此将第二词汇集和待查找词集分别映射到低语义空间中,进而得到其分别对应的特征向量后,从而分别得到第二词汇集和待查找词集的词向量,进而根据预设语义模型,对计算出第二词汇集和待查找词集之间的余弦相似度,最后将余弦相似度来度量第二词汇集和待查找词集之间的第二相似度。
步骤S105:根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集。
作为本实施例的优选方案,所述根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集,具体为:
通过每一个第二词汇集和待查找词集之间的第二相似度进行判断;若第二词汇集和待查找词集之间的第二相似度大于或等于预设值,则提取对应第二词汇集的第二篇幅文本,并将提取得到的第二篇幅文本作为字意相似文本集;若第二词汇集和待查找词集之间的第二相似度小于预设值,则将对应第二词汇集的第二篇幅文本进行剔除,并将所剔除的第二篇幅文本和待查找词集的词向量作为训练集,对所述预设语义模型进行更新训练。
在本实施例中,通过计算出第二词汇集和待查找词集之间的第二相似度后,依次对每个第二词汇集分别和待查找词集之间的第二相似度进行比较,若第二词汇集和待查找词集之间的第二相似度大于或等于预设值,则提取对应第二词汇集的第二篇幅文本,进而得到与待查找词集相似度较高的第二词汇集及其对应的第二篇幅文本,而第二相似度小于预设值的第二词汇集则是与所待查找词集存在较大误差的,因此将将所剔除的第二篇幅文本和待查找词集的词向量作为训练集,来进一步完善预设语义模型的误差和相似度计算的精确度,从而确保了涉及模型训练与学习的效率与精度,同时对于日新月异的词汇集(新词汇、网络新词等)能够实现自适应和自更新的功能,确保了文本查找的准确性和效率,便于用户对模型的维护等,提高用户的进行文本查找的使用体验。
步骤S106:依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果;其中,每个文本相似度均对应有一个字面相似文本集中的篇幅文本以及一个字意相似文本集中的篇幅文本。
作为本实施例的优选方案,所述依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果,具体为:
对所述字面相似文本集中的篇幅文本分别进行词向量计算,从而分别得到字面相 似文本集中每个篇幅文本对应的第一词向量;其中,所述字面相似文本集对应所有的第一 词向量为
Figure DEST_PATH_IMAGE002AAA
Figure DEST_PATH_IMAGE004AAA
分别为每个篇幅文本对应的第一词向 量;对所述字意相似文本集中的篇幅文本分别进行词向量计算,从而得到字意相似文本集 中每个篇幅文本对应的第二词向量;其中,所述字意相似文本集对应所有的第二词向量为
Figure DEST_PATH_IMAGE062A
Figure DEST_PATH_IMAGE008AAA
分别为每个篇幅文本对应的第二词向量;将 所有所述第一词向量和所有所述第二词向量依次对应输入至预设相似度模型中,从而得到 文本相似度矩阵
Figure DEST_PATH_IMAGE010AAA
;对所述文本相似度矩阵中的元素进行比 较,将大于预设值的元素进行选取,从而将选取的元素对应的篇幅文本进行提取,作为文本 查找结果;其中,每个元素存在有一个字面相似文本集的篇幅文本和一个字意相似文本集 的篇幅文本。
需要说明的是,通过计算获取得到的字面相似文本集和字意相似文本集,二者分别代表了文本相似的两个不同的维度,字面相似文本集即为包含相同字词的文本,字意相似文本集即为包含相同字意的文本。在实际的应用过程中,特别地,对于中文文本,由于会存在字词相同但是字词所表达的意思本身完全不同的情况,也可能存在字词意思相同但完全是不同的字词的情况,因此通过字面和字意两个维度对文本进行文本集的查找后,再对两个维度的文本集进行联立,从而求解出既具备高相似的字面,也具备高相似的字意的文本集。
在本实施例中,通过对字面相似文本集中每一篇幅文本进行词向量的计算,从而 可以得到每一篇幅文本所对应的第一词向量
Figure DEST_PATH_IMAGE004AAAA
Figure DEST_PATH_IMAGE063
为字面相似文本集中篇幅文 本的数量,字面相似文本集对应所有的第一词向量为
Figure DEST_PATH_IMAGE002AAAA
,可示例性 地,
Figure DEST_PATH_IMAGE004_5A
等第一词向量可以通过第一篇幅文本输入语言模型从而生成词向量, 即通过训练神经网络语言模型NNLM(neural network language model),使得第一词向量 做为语言模型的附带输出。
同理,为了确保字意相似文本集和字面相似文本集之间能够实现联立,通过对字 意相似文本集中每一篇幅文本进行词向量的计算,从而可以得到每一篇幅文本所对应的第 二词向量
Figure DEST_PATH_IMAGE008AAAA
Figure 639546DEST_PATH_IMAGE064
为字意相似文本集中篇幅文本的数量,字意相似文本集对应所 有的第二词向量为
Figure DEST_PATH_IMAGE065
进一步地,在得到字面相似文本集和字意相似文本集的词向量后,进而通过二者 的词向量来计算出字面相似文本集和字意相似文本集之间,每个篇幅文本之间的相似度, 可示例性地,若字面相似文本集有4篇文本,字面相似文本集有3篇文本,则通过预设相似度 模型进行每篇文本之间的相似度计算,即可得到对应的12个相似度,文本相似度矩阵
Figure DEST_PATH_IMAGE067
。通过对文本相似度矩阵中的元素进行比较,从而 将大于预设值的元素再次进行提取,从而将所提取的元素对应的篇幅文本作为文本查找结 果,即该文本查找结果为既符合字面相似,又符合字意相似的篇幅文本,相比于仅考虑字意 和字面的单一维度,所查找的文本能够更加准确。
作为本实施例的另一优选方案,在得到文本查找结果后,还可以通过神经网络语 言模型NNLM,直接对待查找文本和整个预设资料库中的篇幅文本进行词向量的计算,从而 计算出第三词向量,计算得到待查找文本和预设资料库中每篇文本的第三相似度,进而挑 选出大于预设值的第三相似度对应的篇幅文本,得到对应的第三篇幅文本,即可将第三篇 幅文本对应的第三词向量
Figure DEST_PATH_IMAGE069
,并与第一词向量
Figure DEST_PATH_IMAGE071
、第二词向量
Figure DEST_PATH_IMAGE073
联立,构建三维文本相似度矩阵
Figure DEST_PATH_IMAGE075
,从而得到字面、字意和模型输出三个维度对所查找的 文本进行修正,进一步提高仅通过字面、字意两个维度进行文本查找的准确度。
可以理解的是,由于对于论文、期刊等,包含大量数字、字母字符、化学式、计算公式等篇幅文本文章,由于其存在个人习惯书写的差异性,可能对于不同的字符但是所表达的意思或其公式含义是相同的,因此仅凭借字面、字意这两个维度进行文本的查找,可能在对一串数字进行查找时,会出现识别不出结果的情况,因此需要增加数学模型维度,来对数字、字母字符等特征明显的字符进行学习训练与识别,能够相比于字面和字意获取对应的文本具备更加高的精确度,通过数学训练模型输出得到对应的文本联立字面、字意两个维度,进而得到包含字面、字意和模型三个维度相似度最高的文本,从而大幅提高文本查找的准确性。
实施以上实施例,具有如下效果:
本发明的技术方案通过获取并对待查找文本进行分割处理,进而分割成若干次会后作为待查找词集,来进行第一相似度的计算和字面相似文本集的查找,以及进行第二相似度的计算和字意相似文本集的查找,从而确保了所要查找的文本均能够符合所要查找文本的字面和字意,提高了文本查找的维度,并通过对字面相似文本集和字意相似文本之间进行文本相似度的计算,从而确保了语义与语句之间的关联性,同时避免了复杂的数学模型构建与训练,提高了所要查找文本的准确性和效率,兼顾准确性和运算效率更加符合文本查找的实际应用。
实施例二
请参阅图2,其为本发明实施例的一种文本查找装置,包括:分割处理模块201、第一相似度模块202、字面相似模块203、第二相似度模块204、字意相似模块205和文本查找模块206。
所述分割处理模块201,用于获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集。
所述第一相似度模块202,用于在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,作为第一篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度。
所述字面相似模块203,用于根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集。
所述第二相似度模块204,用于计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度。
所述字意相似模块205,用于根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集。
所述文本查找模块206,用于依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果;其中,每个文本相似度均对应有一个字面相似文本集中的篇幅文本以及一个字意相似文本集中的篇幅文本。
作为本实施例的优选方案,所述获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集,具体为:
获取待查找文本,并将待查找文本以词汇作为分割节点进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为初始词集;根据预设的停用词识别算法,对所述初始词集进行停用词过滤,从而得到待查找词集。
作为本实施例的优选方案,所述计算出所述待查找词集分别和所述第一篇幅文本的第一相似度,具体为:
分别将各第一篇幅文本进行词汇分割处理,依次得到各第一篇幅文本对应的第一词汇集;其中,每一个第一篇幅文本均有对应的第一词汇集;依次对各第一词汇集分别与待查找词集进行词频计算,以使每一个第一词汇集均与待查找词集之间计算得到对应的第一词频关系,并根据所述第一词频关系,计算出各第一词汇集分别和待查找词集的第一相似度;其中,每一个第一词汇集与待查找词集之间均存在有一个第一相似度。
作为本实施例的优选方案,所述依次对各第一词汇集分别与待查找词集进行词频计算,具体为:
依次求出每个第一词汇集和待查找词集的并集,作为词集并集;其中,每个第一词汇集均与所述待查找词集存在有一个词集并集;根据每个第一词汇集与所述待查找词集对应的词集并集,计算出各自第一词汇集的词频以及所述待查找词集的词频,并将所有词频向量化,从而得到每一个第一词汇集均与待查找词集之间的第一词频关系。
作为本实施例的优选方案,所述根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集,具体为:
根据每一个第一词汇集与待查找词集之间的第一相似度,将大于或等于第一预设值的第一相似度对应的第一词汇集进行提取,进而提取得到对应第一词汇集的第一篇幅文本,并将提取得到的第一篇幅文本作为字面相似文本集,从而完成对所述第一篇幅文本进行筛选剔除操作。
作为本实施例的优选方案,所述计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度,具体为:
分别将各第二篇幅文本进行词汇分割处理,依次得到各第二篇幅文本对应的第二词汇集;其中,所述第二篇幅文本为预设资料库中的所有篇幅文本,每一个第二篇幅文本均有对应的第二词汇集;将第二词汇集和待查找词集分别映射到低语义空间中的特征向量,分别得到第二词汇集和待查找词集的词向量,并根据预设语义模型,利用余弦相似度来度量第二词汇集和待查找词集之间的第二相似度。
作为本实施例的优选方案,所述根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集,具体为:
通过每一个第二词汇集和待查找词集之间的第二相似度进行判断;若第二词汇集和待查找词集之间的第二相似度大于或等于预设值,则提取对应第二词汇集的第二篇幅文本,并将提取得到的第二篇幅文本作为字意相似文本集;若第二词汇集和待查找词集之间的第二相似度小于预设值,则将对应第二词汇集的第二篇幅文本进行剔除,并将所剔除的第二篇幅文本和待查找词集的词向量作为训练集,对所述预设语义模型进行更新训练。
作为本实施例的优选方案,所述依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果,具体为:
对所述字面相似文本集中的篇幅文本分别进行词向量计算,从而分别得到字面相 似文本集中每个篇幅文本对应的第一词向量;其中,所述字面相似文本集对应所有的第一 词向量为
Figure DEST_PATH_IMAGE002_5A
Figure DEST_PATH_IMAGE004_6A
分别为每个篇幅文本对应的第一词向 量;对所述字意相似文本集中的篇幅文本分别进行词向量计算,从而得到字意相似文本集 中每个篇幅文本对应的第二词向量;其中,所述字意相似文本集对应所有的第二词向量为
Figure DEST_PATH_IMAGE062AA
Figure DEST_PATH_IMAGE008_5A
分别为每个篇幅文本对应的第二词向量;将 所有所述第一词向量和所有所述第二词向量依次对应输入至预设相似度模型中,从而得到 文本相似度矩阵
Figure DEST_PATH_IMAGE010AAAA
;对所述文本相似度矩阵中的元素进行比 较,将大于预设值的元素进行选取,从而将选取的元素对应的篇幅文本进行提取,作为文本 查找结果;其中,每个元素存在有一个字面相似文本集的篇幅文本和一个字意相似文本集 的篇幅文本。
所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施本发明实施例,具有如下效果:
本发明的技术方案通过获取并对待查找文本进行分割处理,进而分割成若干次会后作为待查找词集,来进行第一相似度的计算和字面相似文本集的查找,以及进行第二相似度的计算和字意相似文本集的查找,从而确保了所要查找的文本均能够符合所要查找文本的字面和字意,提高了文本查找的维度,并通过对字面相似文本集和字意相似文本之间进行文本相似度的计算,从而确保了语义与语句之间的关联性,同时避免了复杂的数学模型构建与训练,提高了所要查找文本的准确性和效率,兼顾准确性和运算效率更加符合文本查找的实际应用。
实施例三
相应地,本发明还提供一种终端设备,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项实施例所述的文本查找方法。
该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序、计算机指令。所述处理器执行所述计算机程序时实现上述实施例一中的各个步骤,例如图1所示的步骤S101至S106。或者,所述处理器执行所述计算机程序时实现上述装置实施例中各模块/单元的功能,例如文本查找模块206。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如,所述文本查找模块206,用于依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据移动终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
实施例四
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的文本查找方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本查找方法,其特征在于,包括:
获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集;
在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,作为第一篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度;
根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集;
计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度;
根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集;
依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果;其中,每个文本相似度均对应有一个字面相似文本集中的篇幅文本以及一个字意相似文本集中的篇幅文本。
2.如权利要求1所述的一种文本查找方法,其特征在于,所述获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集,具体为:
获取待查找文本,并将待查找文本以词汇作为分割节点进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为初始词集;
根据预设的停用词识别算法,对所述初始词集进行停用词过滤,从而得到待查找词集。
3.如权利要求1所述的一种文本查找方法,其特征在于,所述计算出所述待查找词集分别和所述第一篇幅文本的第一相似度,具体为:
分别将各第一篇幅文本进行词汇分割处理,依次得到各第一篇幅文本对应的第一词汇集;其中,每一个第一篇幅文本均有对应的第一词汇集;
依次对各第一词汇集分别与待查找词集进行词频计算,以使每一个第一词汇集均与待查找词集之间计算得到对应的第一词频关系,并根据所述第一词频关系,计算出各第一词汇集分别和待查找词集的第一相似度;其中,每一个第一词汇集与待查找词集之间均存在有一个第一相似度。
4.如权利要求3所述的一种文本查找方法,其特征在于,所述依次对各第一词汇集分别与待查找词集进行词频计算,具体为:
依次求出每个第一词汇集和待查找词集的并集,作为词集并集;其中,每个第一词汇集均与所述待查找词集存在有一个词集并集;
根据每个第一词汇集与所述待查找词集对应的词集并集,计算出各自第一词汇集的词频以及所述待查找词集的词频,并将所有词频向量化,从而得到每一个第一词汇集均与待查找词集之间的第一词频关系。
5.如权利要求3所述的一种文本查找方法,其特征在于,所述根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集,具体为:
根据每一个第一词汇集与待查找词集之间的第一相似度,将大于或等于第一预设值的第一相似度对应的第一词汇集进行提取,进而提取得到对应第一词汇集的第一篇幅文本,并将提取得到的第一篇幅文本作为字面相似文本集,从而完成对所述第一篇幅文本进行筛选剔除操作。
6.如权利要求1所述的一种文本查找方法,其特征在于,所述计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度,具体为:
分别将各第二篇幅文本进行词汇分割处理,依次得到各第二篇幅文本对应的第二词汇集;其中,所述第二篇幅文本为预设资料库中的所有篇幅文本,每一个第二篇幅文本均有对应的第二词汇集;
将第二词汇集和待查找词集分别映射到低语义空间中的特征向量,分别得到第二词汇集和待查找词集的词向量,并根据预设语义模型,利用余弦相似度来度量第二词汇集和待查找词集之间的第二相似度。
7.如权利要求6所述的一种文本查找方法,其特征在于,所述根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集,具体为:
通过每一个第二词汇集和待查找词集之间的第二相似度进行判断;
若第二词汇集和待查找词集之间的第二相似度大于或等于预设值,则提取对应第二词汇集的第二篇幅文本,并将提取得到的第二篇幅文本作为字意相似文本集;
若第二词汇集和待查找词集之间的第二相似度小于预设值,则将对应第二词汇集的第二篇幅文本进行剔除,并将所剔除的第二篇幅文本和待查找词集的词向量作为训练集,对所述预设语义模型进行更新训练。
8.如权利要求1所述的一种文本查找方法,其特征在于,所述依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果,具体为:
对所述字面相似文本集中的篇幅文本分别进行词向量计算,从而分别得到字面相似文 本集中每个篇幅文本对应的第一词向量;其中,所述字面相似文本集对应所有的第一词向 量为
Figure DEST_PATH_IMAGE002A
Figure DEST_PATH_IMAGE004A
分别为每个篇幅文本对应的第一词向量;
对所述字意相似文本集中的篇幅文本分别进行词向量计算,从而得到字意相似文本集 中每个篇幅文本对应的第二词向量;其中,所述字意相似文本集对应所有的第二词向量为
Figure DEST_PATH_IMAGE006A
Figure DEST_PATH_IMAGE008A
分别为每个篇幅文本对应的第二词向量;
将所有所述第一词向量和所有所述第二词向量依次对应输入至预设相似度模型中,从 而得到文本相似度矩阵
Figure DEST_PATH_IMAGE010A
;对所述文本相似度矩阵中的元素进 行比较,将大于预设值的元素进行选取,从而将选取的元素对应的篇幅文本进行提取,作为 文本查找结果;其中,每个元素存在有一个字面相似文本集的篇幅文本和一个字意相似文 本集的篇幅文本。
9.一种文本查找装置,其特征在于,包括:分割处理模块、第一相似度模块、字面相似模块、第二相似度模块、字意相似模块和文本查找模块;
所述分割处理模块,用于获取待查找文本并对所述待查找文本进行分割处理,以使得所述待查找文本被分割成若干个词汇,作为待查找词集;
所述第一相似度模块,用于在预设资料库中检索出所有包含所述待查找词集中所有词汇的篇幅文本,作为第一篇幅文本,并计算出所述待查找词集分别和所述第一篇幅文本的第一相似度;
所述字面相似模块,用于根据所述第一相似度,对所述第一篇幅文本进行筛选剔除操作,从而得到字面相似文本集;
所述第二相似度模块,用于计算出所述待查找词集的词向量,并根据预设语义模型,计算出所述词向量和预设资料库中所有篇幅文本的第二相似度;
所述字意相似模块,用于根据所述第二相似度,对所有篇幅文本进行筛选剔除操作,从而得到字意相似文本集;
所述文本查找模块,用于依次计算出所述字面相似文本集的各篇幅文本分别与所述字意相似文本集的各篇幅文本的文本相似度,并提取出大于预设值的文本相似度对应的篇幅文本,作为文本查找结果;其中,每个文本相似度均对应有一个字面相似文本集中的篇幅文本以及一个字意相似文本集中的篇幅文本。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至8中任意一项所述的文本查找方法。
CN202310009565.5A 2023-01-05 2023-01-05 一种文本查找方法、装置及存储介质 Active CN115878759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310009565.5A CN115878759B (zh) 2023-01-05 2023-01-05 一种文本查找方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310009565.5A CN115878759B (zh) 2023-01-05 2023-01-05 一种文本查找方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115878759A true CN115878759A (zh) 2023-03-31
CN115878759B CN115878759B (zh) 2023-05-26

Family

ID=85758072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310009565.5A Active CN115878759B (zh) 2023-01-05 2023-01-05 一种文本查找方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115878759B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112307048A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN112364647A (zh) * 2020-11-24 2021-02-12 南方电网海南数字电网研究院有限公司 一种基于余弦相似度算法的查重方法
CN113239666A (zh) * 2021-05-13 2021-08-10 深圳市智灵时代科技有限公司 一种文本相似度计算方法及系统
WO2021175005A1 (zh) * 2020-03-04 2021-09-10 深圳壹账通智能科技有限公司 基于向量的文档检索方法、装置、计算机设备及存储介质
CN113377927A (zh) * 2021-06-28 2021-09-10 成都卫士通信息产业股份有限公司 一种相似文档检测方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法
WO2021175005A1 (zh) * 2020-03-04 2021-09-10 深圳壹账通智能科技有限公司 基于向量的文档检索方法、装置、计算机设备及存储介质
CN112307048A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112364647A (zh) * 2020-11-24 2021-02-12 南方电网海南数字电网研究院有限公司 一种基于余弦相似度算法的查重方法
CN113239666A (zh) * 2021-05-13 2021-08-10 深圳市智灵时代科技有限公司 一种文本相似度计算方法及系统
CN113377927A (zh) * 2021-06-28 2021-09-10 成都卫士通信息产业股份有限公司 一种相似文档检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王春柳;杨永辉;邓霏;赖辉源: "文本相似度计算方法研究综述", 情报科学 *
陈二静;姜恩波;: "文本相似度计算方法研究综述", 数据分析与知识发现 *
韩程程;李磊;刘婷婷;高明;: "语义文本相似度计算方法", 华东师范大学学报(自然科学版) *

Also Published As

Publication number Publication date
CN115878759B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN107085581B (zh) 短文本分类方法和装置
US9176949B2 (en) Systems and methods for sentence comparison and sentence-based search
CN105095204B (zh) 同义词的获取方法及装置
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
US11016997B1 (en) Generating query results based on domain-specific dynamic word embeddings
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN106599072B (zh) 一种文本聚类方法及装置
CN110990532A (zh) 一种处理文本的方法和装置
CN110569503A (zh) 一种基于词统计与WordNet的义项表示与消歧方法
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN111680264A (zh) 一种多文档阅读理解方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN112417147A (zh) 训练样本的选取方法与装置
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
US11989526B2 (en) Systems and methods for short text similarity based clustering
CN115878759B (zh) 一种文本查找方法、装置及存储介质
CN115114420A (zh) 一种知识图谱问答方法、终端设备及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN112417131A (zh) 信息推荐方法和装置
CN111881689A (zh) 一种多义词向量的处理方法、系统、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant