CN112632956A - 文本匹配方法、装置、终端和存储介质 - Google Patents

文本匹配方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN112632956A
CN112632956A CN202011610621.3A CN202011610621A CN112632956A CN 112632956 A CN112632956 A CN 112632956A CN 202011610621 A CN202011610621 A CN 202011610621A CN 112632956 A CN112632956 A CN 112632956A
Authority
CN
China
Prior art keywords
text
target
similarity
matching
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011610621.3A
Other languages
English (en)
Inventor
张桂荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Financial Assets Exchange Co ltd
Original Assignee
Chongqing Financial Assets Exchange Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Financial Assets Exchange Co ltd filed Critical Chongqing Financial Assets Exchange Co ltd
Priority to CN202011610621.3A priority Critical patent/CN112632956A/zh
Publication of CN112632956A publication Critical patent/CN112632956A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本匹配方法、装置、终端和存储介质,应用于数据处理技术领域,其中,方法包括,获取目标文本、目标文本对应的目标释义信息和在目标领域下与目标文本相匹配的目标匹配文本,获取参考文本、参考文本对应的参考释义信息和在目标领域下与参考文本相匹配的参考匹配文本;确定目标文本与参考文本之间的相似度,目标释义信息与参考释义信息之间的相似度,以及目标匹配文本与参考匹配文本之间的相似度;基于上述得到的三个相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。

Description

文本匹配方法、装置、终端和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本匹配方法、装置、终端和存储介质。
背景技术
随着计算机技术的发展,文本匹配成为研究的热点之一,即通过对文本中字词的匹配,确定不同文本之间的相似度,其在数据检索、数据匹配等领域有着巨大的用途,如用户可以在检索栏中输入一个文本,则可以通过文本间的匹配度计算,从数据库中检索得到与输入文本匹配的其他文本,以供用户进行浏览。
当前,对文本进行匹配通常是确定文本中相同字符的数量,并根据相同字符数量确定文本间的匹配度,上述方式可以较好地实现字符层面的文本匹配,然而,实际过程中,不同字符表示的语义可能是相同的,单纯以字符是否相同来判定文本是否匹配,则无法实现语义层面的文本匹配,如针对一篇文言文,其对应的白话文翻译应与其是匹配的,但两者间相同的字符却较少,基于字符进行匹配会导致匹配结果不准确,即匹配准确率较低。
发明内容
本发明实施例提供了一种文本匹配方法、装置、终端和存储介质,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。
获取目标文本,并对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。
一方面,本发明实施例提供了一种文本匹配装置,所述装置包括:
获取模块,用于获取目标文本;
处理模块,用于对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
确定模块,用于确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
所述获取模块,还用于获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
所述确定模块,还用于确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
所述确定模块,还用于基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。
一方面,本发明实施例提供了一种终端,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述基于数据分析的问卷数据处理方法。
一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述文本匹配方法。
本发明实施例中,终端获取目标文本,并对目标文本进行释义处理,得到目标文本对应的目标释义信息;确定在目标领域下与目标文本相匹配的目标匹配文本,获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本;确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度;基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本匹配方法的流程示意图;
图2是本发明实施例提供的另一种文本匹配方法的流程示意图;
图3是本发明实施例提供的一种文本匹配装置的结构示意图;
图4是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本匹配方法实现于终端,终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器或车载电子设备等电子设备。
图1是本发明实施例中一种文本匹配方法的流程示意图,如图1所示,本实施例中的文本匹配方法的流程可以包括:
S101、获取目标文本,并对目标文本进行释义处理,得到目标文本对应的目标释义信息。
本发明实施例中,目标文本可以是任意的文本,文本是指书面语言的表现形式,具体可以为由多个字符组成的词组、句子、段落等。具体实现中,文本根据包括的内容不同,可以分为不同的类型,如古文类型、白话文类型、诗歌类型、英文类型、中文类型、中英文结合类型等。
进一步的,终端获取到目标文本之后,可以对目标文本进行释义处理,得到目标文本对应的目标释义信息。在一个实施例中,释义信息具体可以为文本的解释,如针对文本“风萧萧兮易水寒”,其对应的释义为“风萧萧的吹着,易水寒气袭人”,或者,释义信息也可以为文本的其他语种表达,如针对文本“学校”,其对应的释义信息为文本的英语表达为“school”,或者,释义信息也可以为文本的注解,如文本为针对程序代码“printf c”,其对应的释义信息为程序代码的注解“显示参数c”。
在一种实现方式中,终端可以调用语义识别模型对目标文本进行释义处理,得到目标文本对应的释义信息。其中,语义识别模型的训练方式可以为,获取样本文本集合以及样本释义文本集合,调用语义识别模型对样本文本进行处理,得到其对应的预测释义文本,校验预测释义文本与样本释义文本是否匹配,以此方式对样本文本集合中各个样本文本进行处理,得到语义识别模型对于样本文本的释义准确率,当释义准确率高于预设准确率时,确定对于语义识别模型的训练完成。并后续调用训练完成的语义识别模型对目标文本进行处理,得到目标释义信息。
在一种实现方式中,也可以调用互联网中的百科工具对目标文本进行释义处理,得到目标释义信息。如调用百科工具对目标文本进行处理,即可查询得到目标文本对应的目标释义信息。
S102、确定在目标领域下与目标文本相匹配的目标匹配文本。
本发明实施例中,终端得到目标文本对应的目标释义信息之后,可以确定在目标领域下与目标文本相匹配的目标匹配文本,其中,目标匹配文本由至少一个标准词组组成,标准词组为符合目标领域下的形式规范的词组,领域具体可以基于文本类型进行划分,如划分为诗词领域、文言文领域、论文领域、分析报告领域、英文领域等,目标领域可以为任意一种或多种领域,具体可以由目标文本的文本类型确定,包括基于预先建立的文本类型与领域的对应关系,确定目标文本对应的目标领域,如当目标文本的文本类型为论文时,对应的目标领域为论文领域,或者,终端接收用户输入的领域选择操作,将用户选择的领域确定为目标领域。在目标领域下,对文本有相应的形式规范,如文本中的用词需符合目标领域下的用词规范,文本中的语言类型需为预设语言类型(如中文、英文)等。
在一种实现方式,终端确定在目标领域下与目标文本相匹配的目标匹配文本的具体方式可以为,终端对目标文本进行分词处理,得到至少一个目标词组,获取目标领域下的形式规范,并从符合形式规范的标准词组中筛选出各个目标词组对应的目标标准词组,目标词组与对应的目标标准词组具有相同的语义;基于各个目标标准词组对目标文本中的目标词组进行词组替换,得到在目标领域下与目标文本相匹配的目标匹配文本。其中,目标领域下的形式规范具体指示了在目标领域下具有相同语义的词组的标准形式,例如,针对3个具有相同语义的词组“老师”、“教师”和“teacher”,当目标领域为教学领域时,词组的标准形式为“老师”,当目标领域为论文领域时,词组的标准形式为“教师”,当领域为英文领域是,词组的标准形式为“teacher”。
在一个实施例中,终端从符合形式规范的标准词组中筛选出各个目标词组对应的目标标准词组的具体方式可以为,终端获取符合目标领域下形式规范的标准词组集合,针对每个目标词组,从标准词组集合中找到与目标词组具有相同语义的目标标准词组,得到各个目标词组对应的目标标准词组。具体实现中,可以预先构建一个目标领域下的标准数据库,数据库中存储了多个词组集合,每个词组集合中包括至少一个具有相同语义的词组,以及词组集合对应的标准词组,该标准词组即集合中各个词组的标准形式。则针对任意一个目标词组,找到该目标词组对应的标准词组的具体方式可以为,从数据库中找到目标词组所在的词组集合,并将词组集合对应的标准词组确定为目标词组对应的目标标准词组。例如,词组集合中包括{“老师”、“教师”、“teacher”},词组集合中的标准词组为“教师”,则当目标词组为“老师”或“teacher”时,可以确定目标词组对应的目标标准词组为“教师”。需要说明的是,词组集合对应的标准词组可以由人为进行筛选得到,或者,将词组集合中在目标领域下出现频次最高的词组确定为标准词组。通过上述方式,可以将目标文本中的各个词组替换为目标领域下标准形式的词组,得到在目标领域下与目标文本相匹配的目标匹配文本。
在一种实现方式,终端确定在目标领域下与目标文本相匹配的目标匹配文本的具体方式可以为,终端获取目标领域下的形式规范,并基于形式规范从数据库中获取N个待选文本,每个待选文本由符合形式规范的至少一个标准词组组成,对目标文本和N个待选文本进行向量化处理,得到目标文本对应的目标文本向量,以及N个待选文本对应的N个待选文本向量;从N个待选文本向量中筛选出与目标文本向量之间距离最近的第一待选文本向量;将第一待选文本向量对应的待选文本确定为在目标领域下与目标文本相匹配的目标匹配文本。其中,N为正整数,具体可以为数据库中所有符合形式规范的文本的数量,距离可以为欧式距离、汉明距离等。
在一个实施例中,终端对目标文本和N个待选文本中任意一个文本进行向量化处理的具体方式可以为,终端对文本进行分词处理,得到至少一个词组,并基于预先构建的字典查询到每个词组对应的词向量,得到至少一个词向量,将该至少一个词向量进行组合,得到文本对应的文本向量。终端可以预先建立字典,字典中存储了词向量与词组之间的对应关系,需要说明的是,字典中词组的词义相近,则词组的词向量之间的距离也是相近的,词组相同时,字典的建立方式可以为,预先获取目标领域下的K个词组,并基于K个词组建立K维向量字典,其中,词义相近的词组距离相近,K具体可以为网络中所有词组的数量。例如,针对3个词组“学校”、“学院”、“书院”,“学校”和“学院”词义较近,“学院”和“书院”较近,则终端可以基于上述3个词组得到字典,其中“学校”对应的词向量为“100”,“学院”对应的词向量为“010”,“书院”对应的词向量为“001”。终端获取到词组之后,将基于字典查询到词组对应的词向量。距离具体可以为欧式距离、汉明距离等,在此不做限定。或者,终端也可以基于词向量模型确定每个词组对应的词向量,其中,可以预先构建词向量模型,并对词向量模型进行训练,使得训练后的词向量模型可以输出每个词组对应的词向量,且词义越相近的词组对应的词向量距离越近,终端将分词处理得到的至少一个词组输入至词向量模型中,得到每个词组的词向量。
通过实施上述方法,可以使得目标文本转化为目标领域下标准形式的文本,使得文本中各个词组的用词规范得到统一,便于后续与参考匹配文本进行匹配过程中因用词不规范而导致的匹配准确率较低的情况。
S103、获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本。
本发明实施例中,终端还将获取用于与目标文本进行匹配的参考文本,以及参考文本对应的参考释义信息,和在目标领域下与参考文本相匹配的参考匹配文本。其中,参考文本可以是任意的文本。
在一种实现方式中,参考文本为用户输入的文本,则终端可以对参考文本进行释义处理,得到参考文本对应的参考释义信息。具体的,终端可以调用语义识别模型对参考文本进行释义处理,得到参考文本对应的释义信息。或者,调用互联网中的百科工具对参考文本进行释义处理,得到参考释义信息。可选的,参考文本为数据库中预先存储的文本,则数据库中也预先存储的参考文本对应的参考释义信息,终端可以直接从数据库中获取到参考文本对应的参考释义信息。
在一种实现方式中,参考文本为用户输入的文本,则终端可以基于词组替换或向量匹配的方式得到参考文本对应的参考匹配文本。在一个实施例中,终端基于词组替换的方式得到参考匹配文本,具体为,终端对参考文本进行分词处理,得到至少一个参考词组,获取目标领域下的形式规范,并从符合形式规范的标准词组中筛选出各个参考词组对应的参考标准词组,参考词组与对应的参考标准词组具有相同的语义;基于各个参考标准词组对参考文本中的参考词组进行词组替换,得到在目标领域下与参考文本相匹配的参考匹配文本。在一个实施例中,终端基于向量匹配的方式参考匹配文本,具体为,获取目标领域下的形式规范,并基于形式规范从数据库中获取N个待选文本,每个待选文本由符合形式规范的至少一个标准词组组成,对参考文本和N个待选文本进行向量化处理,得到参考文本对应的参考文本向量,以及N个待选文本对应的N个待选文本向量;从N个待选文本向量中筛选出与参考文本向量之间距离最近的第二待选文本向量;将第二待选文本向量对应的待选文本确定为在目标领域下与参考文本相匹配的参考匹配文本。可选的,参考文本为数据库中预先存储的文本,则数据库中也预先存储的参考文本对应的参考匹配文本,终端可以直接从数据库中获取到参考文本对应的参考匹配文本。
S104、确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度。
本发明实施例中,终端确定目标文本、参考文本、目标释义信息、参考释义信息、目标匹配文本和参考匹配文本之后,可以确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度。
在一种实现方式中,终端确定目标文本与参考文本之间的第一相似度的具体方式可以为,终端对目标文本进行分词处理,得到至少一个目标词组;对至少一个目标词组进行向量化处理,得到至少一个词向量;基于每个目标词组在目标文本中的位置,确定每个目标词组的权重;基于至少一个词向量和每个目标词组的权重构建目标文本对应的目标特征矩阵;通过匹配模型对目标特征矩阵和参考文本对应的参考特征矩阵进行处理,得到目标文本与参考文本之间的第一相似度。其中,参考特征矩阵的具体确定方式可以为,对参考文本进行分词处理,得到至少一个参考词组;对至少一个参考词组进行向量化处理,得到至少一个参考词向量;基于每个参考词组在参考文本中的位置,确定每个参考词组的权重;基于至少一个参考词向量和每个参考词组的权重构建参考文本对应的参考特征矩阵。
在一个实施例中,终端基于字符匹配的方式实现对目标文本的分词处理,或者,终端通过字与字相邻共现的频率或概率来确定是否将各个文字组成为目标词组,得到至少一个目标词组。或者,终端通过基于大量已经分词的文本,利用机器学习模型学习词语切分的规律来实现对目标文本的分词处理,得到至少一个目标词组。终端可以调用训练完成的向量化模型对至少一个目标词组进行向量化处理,或者基于预先构建的字典查询到每个词组对应的词向量,得到至少一个词向量。
在一个实施例中,终端基于每个目标词组在目标文本中的位置,确定每个目标词组的权重的具体方式可以为,终端获取每个目标词组在目标文本中的位置,并根据位置与权重的对应关系,确定每个目标词组的权重,例如,当目标词组的位置为第一位置时,目标词组的权重为2,当目标词组的位置为第二位置时,目标词组的权重为1,通过上述方式,可以基于目标词组出现的位置的不同,确定目标词组的权重。因不同位置的目标词组对于文本的重要性不同,针对文本中不同位置处的词组赋予不同的权重,可以使得后续匹配过程中更能结合不同词组的重要性特征,使得匹配更为准确。
在一个实施例中,终端基于至少一个词向量和每个目标词组的权重构建目标文本对应的目标特征矩阵的具体方式可以为,终端基于每个目标词组的权重,对至少一个词向量中对应的词向量进行加权处理,得到至少一个加权词向量;将至少一个加权词向量进行组合,得到目标文本对应的目标特征矩阵。例如,目标词组的权重为2,在目标词组对应的词向量为(0.5、0.5、2、1),则采用权重对词向量进行加权处理后即可得到加权词向量(1、1、4、2),进一步的,将各个加权词向量进行组合,即可得到目标文本对应的目标特征矩阵。
在一个实施例中,匹配模型具体可以为深度学习模型,终端对匹配模型进行训练的具体方式可以为,终端获取样本集合,样本集合中包括K个由目标样本矩阵、参考样本矩阵和预设相似度构成的样本组;通过样本文本集合对初始匹配模型进行训练,以对初始匹配模型中的参数进行更新;若参数更新后的初始匹配模型满足预设条件,则将参数更新后的初始匹配模型确定为匹配模型。其中,预设条件可以模型对于样本集合中文本特征之间的相似度计算的准确率高于预设准确率,其中,针对任意一组目标样本矩阵和参考样本矩阵,当参数更新后的初始匹配模型对于该组样本矩阵进行处理,得到的对于特征矩阵对应的文本的预测相似度与预设相似度之间的差值小于预设差值时,确定对于该组文本之间的相似度计算准确。
在一种实现方式中,终端确定目标释义信息与参考释义信息之间的第二相似度的具体方式可以为,终端获取目标释义信息中字符的第一数量,确定目标释义信息与参考释义信息中相同字符的第二数量,终端将第二数量与第一数量之间的比值确定为目标释义信息与参考释义信息之间的第二相似度。通过对文本的释义信息间的相似度进行计算,可以去除文本间类型不同而对相似度计算造成的影响,如目标文本为文言文,参考文本为白话文时直接将两者进行字符匹配计算相似度,会导致相似度计算准确率较低,但对文言文进行释义,得到白话文类型的释义信息后,再与参考文本的释义信息进行比较,则文本类型不同对相似度计算造成的影响,提升了相似度计算的准确性。
在一种实现方式中,终端确定目标匹配文本和参考匹配文本之间的第三相似度的具体方式可以为,终端对目标匹配文本进行分词处理,得到至少一个第一词组,以及对参考匹配文本进行分词处理,得到至少一个第二词组,终端获取至少一个第一词组和至少一个第二词组中相同词组的数量,并将相同词组的数量与第一词组的数量之间的比值,确定为目标匹配文本和参考匹配文本之间的第三相似度。上述方式中,目标匹配文本和参考匹配文本中包括的都是符合目标领域下形式规范的标准词组,而各个标准词组之间的语义是不同的,因此,直接基于匹配文本之间的相同词组确定文本间的相似度,去除了相同语义的不同表现形式的词组给文本相似度计算带来的影响,使得计算得到的相似度的准确率较高。
S105、基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。
本发明实施例中,终端计算得到第一相似度、第二相似度和第三相似度之后,可以基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。
在一种实现方式中,终端得到第一相似度、第二相似度和第三相似度之后,可以对第一相似度、第二相似度和第三相似度进行加权求和处理,得到目标文本和参考文本之间的匹配度。其中,加权求和的公式可以为,y=k1*x1+k2*x2+k3*x3,其中,k1为针对第一相似度进行加权的第一权重,x1为第一相似度,k2为针对第二相似度进行加权的第二权重,x2为第二相似度,k3为针对第三相似度进行加权的第三权重,x3为第三相似度,具体实现中,权重的具体大小可以由不同文本对应的文本类型确定,针对不同的文本类型,对应的权重不同,或者人为预先设定。
在一种实现方式中,终端基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度的具体方式可以为,终端确定目标文本的目标文本类型和参考文本的参考文本类型,基于目标文本类型和参考文本类型的匹配结果确定第一权重、第二权重和第三权重;采用第一权重对第一相似度进行加权处理,得到第一加权相似度;采用第二权重对第二相似度进行加权处理,得到第二加权相似度;采用第三权重对第三相似度进行加权处理,得到第三加权相似度;对第一加权相似度、第二加权相似度和第三加权相似度进行求和处理,得到目标文本和参考文本之间的匹配度。其中,目标文本类型和参考文本类型的匹配结果可以为相同或者不相同,当目标文本类型与参考文本类型相同时,说明目标文本和参考文本之间的格式不存在较大差异,因此,对第一相似度进行加权处理的第一权重的值应大于第二权重,且大于第三权重,如匹配结果指示目标文本类型与参考文本类型相同时,对应的第一权重为0.6,第二权重为0.2,第三权重为0.2。当目标文本类型与参考文本类型不相同时,说明目标文本和参考文本之间的格式存在较大差异,文本间直接匹配得到的相似度的准确率较低,因此,对第一相似度进行加权处理的第一权重的值应小于第二权重,且小于第三权重,如匹配结果指示目标文本类型与参考文本类型不相同时,对应的第一权重为0.2,第二权重为0.4,第三权重为0.4。
本发明实施例中,终端获取目标文本,并对目标文本进行释义处理,得到目标文本对应的目标释义信息;确定在目标领域下与目标文本相匹配的目标匹配文本,获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本;确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度;基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。
图2是本发明实施例中另一种文本匹配方法的流程示意图,如图2所示,本实施例中的文本匹配方法的流程可以包括:
S201、获取初始目标文本,并确定初始目标文本对应的文本类型。
本发明实施例中,初始目标文本可以为用户在终端提供的显示界面中输入的文本,终端可以获取到用户输入的初始目标文本,并确定初始目标文本对应的文本类型,其中文本类型包括古文类型、白话文类型、诗歌类型、论文类型、小语种类型等中的任意一种。
需要说明的是,终端确定初始目标文本对应的文本类型的具体方式可以为,终端基于符号间的字符数量确定,如初始目标文本中相邻标点符号间包括的字符数量都为7,则可以确定初始目标文本对应的文本类型为诗歌类型。或者,也可以基于初始目标文本中的预设字符确定,如当初始目标文本中包含“兮”、“乎”、“序”、“也”等预设字符时,确定初始目标文本对应的文本类型为文言文类型;当初始目标文本中包含“李白”、“杜甫”等预设字符时,确定初始目标文本对应的文本类型为诗歌类型,当初始目标文本中包含某个地方特定方言词组时,确定初始目标文本对应的文本类型为小语种类型。或者,终端也可以基于初始目标文本的来源确定,如初始目标文本来源于“唐诗三百首”时,确定初始目标文本对应的文本类型为诗歌类型。或者,终端选取上述方式中的多种方式进行结合确定初始目标文本对应的文本类型,或者,终端基于用户的输入确定初始目标文本对应的文本类型,本发明在此不做限定。
S202、基于文本类型对应的字符筛选方式对初始目标文本进行字符筛选处理,得到至少一个目标字符。
本发明实施例中,终端确定初始目标文本对应的文本类型之后,可以确定文本类型对应的字符筛选方式,并基于字符筛选方式对初始目标文本进行字符筛选处理,得到至少一个目标字符,其中,字符筛选方式用于筛选出文本类型对应的文本中的关键字符。
在一种实现方式中,文本类型对应的字符筛选方式为,筛选出与文本类型对应的数据库中存储的预设字符相匹配的字符,具体实现中,每种文本类型对应有一个数据库,该数据库中存储了多个预设字符,具体可以为历史记录的该类文本类型的具有实际意义的字符,其中,具有实际意义的字符可以为非停用词字符,名词中的字符等,数据库具体可以由研发人员预先搭建。终端可以将初始目标文本中与预设字符相匹配的字符筛选出来,作为目标字符,得到至少一个目标字符。
在一种实现方式中,文本类型对应的字符筛选方式为,筛选出与文本类型对应的字符库中未存储的字符,该字符库中可以存储了多个无实际意义的字符,其中,具有实际意义的字符可以为停用词字符,副词中的字符等,字符库具体可以由研发人员预先搭建。终端可以将字符库中未存储的字符从初始目标文本中筛选出来,作为目标字符,得到至少一个目标字符。
S203、对至少一个目标字符进行组合,得到目标文本。
本发明实施例中,终端得到至少一个目标字符之后,可以对至少一个目标字符进行组合,得到目标文本。通过上述方式得到目标文本,可以使得目标文本中的各个字符均为有效字符,去除了无实际意义的字符(副词、停用词等)的干扰,在后续与参考文本进行匹配的过程中,可以使得匹配准确率更高。
S204、对目标文本进行释义处理,得到目标文本对应的目标释义信息。
本发明实施例中,终端得到目标文本之后,可以对目标文本进行释义处理,得到目标文本对应的目标释义信息。在一个实施例中,释义信息具体可以为文本的解释,或者,释义信息也可以为文本的其他语种表达,或者,释义信息也可以为文本的注解。
S205、确定在目标领域下与目标文本相匹配的目标匹配文本,目标匹配文本由至少一个标准词组组成,标准词组为符合目标领域下的形式规范的词组。
本发明实施例中,终端得到目标文本对应的目标释义信息之后,可以确定在目标领域下与目标文本相匹配的目标匹配文本,其中,目标匹配文本由至少一个标准词组组成,标准词组为符合所述目标领域下的形式规范的词组。
S206、获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本。
本发明实施例中,终端还将获取用于与目标文本进行匹配的参考文本,以及参考文本对应的参考释义信息,和在目标领域下与参考文本相匹配的参考匹配文本。其中,参考文本可以是任意的文本。
S207、确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度。
本发明实施例中,终端确定目标文本、参考文本、目标释义信息、参考释义信息、目标匹配文本和参考匹配文本之后,可以确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度。
S208、基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。
本发明实施例中,终端计算得到第一相似度、第二相似度和第三相似度之后,可以基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。
具体实现中,终端基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度的具体方式可以为,终端确定目标文本的目标文本类型和参考文本的参考文本类型,文本类型包括古文类型、白话文类型或诗歌类型;基于目标文本类型和参考文本类型的匹配结果确定第一权重、第二权重和第三权重;采用第一权重对第一相似度进行加权处理,得到第一加权相似度;采用第二权重对第二相似度进行加权处理,得到第二加权相似度;采用第三权重对第三相似度进行加权处理,得到第三加权相似度;对第一加权相似度、第二加权相似度和第三加权相似度进行求和处理,得到目标文本和参考文本之间的匹配度。其中,匹配结果具体指示了文本类型之间的差异值,终端可以根据差异值与权重的对应关系,确定第一权重、第二权重和第三权重。其中,相同文本类型之间的差异值为0,不同文本类型之间的差异值可以由研发人员预先设定,如古文类型与白话文类型之间的差异值为1,古文类型与诗歌类型之间的差异值为0.5,白话文类型与诗歌类型之间的差异值为0.5,终端确定匹配结果中的差异值之后,可以基于差异值对应的第一权重、第二权重和第三权重,如差异值为0时,说明目标文本与参考文本格式无差异,目标文本与参考文本之间的第一相似度应占较大比重,则对应的第一权重为0.6,第二权重为0.2,第三权重为0.2。又如,如差异值为1时,说明目标文本与参考文本格式差异较大,目标文本与参考文本之间的第一相似度应占较小比重,则对应的第一权重为0.2,第二权重为0.4,第三权重为0.4。通过上述方式,可以去除文本类型差异给文本匹配带来的干扰,提升文本匹配的准确率。
本发明实施例中,终端获取初始目标文本,并确定初始目标文本对应的文本类型,基于文本类型对应的字符筛选方式对初始目标文本进行字符筛选处理,得到至少一个目标字符,基于至少一个目标字符构建目标文本,并对目标文本进行释义处理,得到目标文本对应的目标释义信息;确定在目标领域下与目标文本相匹配的目标匹配文本,获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本;确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度;基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。
下面将结合附图3对本发明实施例提供的文本匹配装置进行详细介绍。需要说明的是,附图3所示的文本匹配装置,用于执行本发明图1-图2所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图2所示的实施例。
请参见图3,为本发明提供的一种文本匹配装置的结构示意图,该文本匹配装置30可包括:获取模块301、处理模块302、确定模块303。
获取模块301,用于获取目标文本;
处理模块302,用于对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
确定模块303,用于确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
所述获取模块301,还用于获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
所述确定模块303,还用于确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
所述确定模块303,还用于基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。
在一种实现方式中,确定模块303,具体用于:
对所述目标文本进行分词处理,得到至少一个目标词组;
获取目标领域下的形式规范,并从符合所述形式规范的标准词组中筛选出各个目标词组对应的目标标准词组,所述目标词组与对应的目标标准词组具有相同的语义;
基于所述各个目标词组对应的目标标准词组,对所述目标文本中的目标词组进行词组替换,得到在所述目标领域下与所述目标文本相匹配的目标匹配文本。
在一种实现方式中,确定模块303,具体用于:
获取目标领域下的形式规范,并基于所述形式规范从数据库中获取N个待选文本,每个所述待选文本由符合所述形式规范的至少一个标准词组组成,N为正整数;
对所述目标文本和所述N个待选文本进行向量化处理,得到所述目标文本对应的目标文本向量,以及所述N个待选文本对应的N个待选文本向量;
从所述N个待选文本向量中筛选出与所述目标文本向量之间距离最近的第一待选文本向量;
将所述第一待选文本向量对应的待选文本确定为在目标领域下与所述目标文本相匹配的目标匹配文本。
在一种实现方式中,确定模块303,具体用于:
对所述目标文本进行分词处理,得到至少一个目标词组;
对所述至少一个目标词组进行向量化处理,得到至少一个词向量;
基于每个所述目标词组在所述目标文本中的位置,确定每个所述目标词组的权重;
基于所述至少一个词向量和每个所述目标词组的权重构建所述目标文本对应的目标特征矩阵;
通过匹配模型对所述目标特征矩阵和参考文本对应的参考特征矩阵进行处理,得到所述目标文本与所述参考文本之间的第一相似度。
在一种实现方式中,确定模块303,具体用于:
基于每个所述目标词组的权重,对所述至少一个词向量中对应的词向量进行加权处理,得到至少一个加权词向量;
将所述至少一个加权词向量进行组合,得到所述目标文本对应的目标特征矩阵。
在一种实现方式中,确定模块303,具体用于:
确定所述目标文本的目标文本类型和所述参考文本的参考文本类型,文本类型包括古文类型、白话文类型或诗歌类型;
基于所述目标文本类型和所述参考文本类型的匹配结果确定第一权重、第二权重和第三权重;
采用所述第一权重对所述第一相似度进行加权处理,得到第一加权相似度;
采用所述第二权重对所述第二相似度进行加权处理,得到第二加权相似度;
采用所述第三权重对所述第三相似度进行加权处理,得到第三加权相似度;
对所述第一加权相似度、第二加权相似度和第三加权相似度进行求和处理,得到所述目标文本和所述参考文本之间的匹配度。
在一种实现方式中,获取模块301,具体用于:
获取初始目标文本,并确定所述初始目标文本对应的文本类型;
基于文本类型对应的字符筛选方式对所述初始目标文本进行字符筛选处理,得到至少一个目标字符;
对所述至少一个目标字符进行组合,得到目标文本。
本发明实施例中,获取模块301获取目标文本,处理模块302对目标文本进行释义处理,得到目标文本对应的目标释义信息;确定模块303确定在目标领域下与目标文本相匹配的目标匹配文本,获取模块301获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本;确定模块303确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度;确定模块303基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。
请参见图4,为本发明实施例提供了一种终端的结构示意图。如图4所示,该终端包括:至少一个处理器401,输入设备403,输出设备404,存储器405,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,输入设备403可以是控制面板或者麦克风等,输出设备404可以是显示屏等。其中,存储器405可以是高速RAM存储器,也可以是非不稳定的存储器(non-voIatiIe memory),例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置,存储器405中存储一组程序代码,且处理器401,输入设备403,输出设备404调用存储器405中存储的程序代码,用于执行以下操作:
处理器401,用于获取目标文本,并对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
处理器401,用于确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
处理器401,用于获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
处理器401,用于确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
处理器401,用于基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。
在一种实现方式中,处理器401,具体用于:
对所述目标文本进行分词处理,得到至少一个目标词组;
获取目标领域下的形式规范,并从符合所述形式规范的标准词组中筛选出各个目标词组对应的目标标准词组,所述目标词组与对应的目标标准词组具有相同的语义;
基于所述各个目标词组对应的目标标准词组,对所述目标文本中的目标词组进行词组替换,得到在所述目标领域下与所述目标文本相匹配的目标匹配文本。
在一种实现方式中,处理器401,具体用于:
获取目标领域下的形式规范,并基于所述形式规范从数据库中获取N个待选文本,每个所述待选文本由符合所述形式规范的至少一个标准词组组成,N为正整数;
对所述目标文本和所述N个待选文本进行向量化处理,得到所述目标文本对应的目标文本向量,以及所述N个待选文本对应的N个待选文本向量;
从所述N个待选文本向量中筛选出与所述目标文本向量之间距离最近的第一待选文本向量;
将所述第一待选文本向量对应的待选文本确定为在目标领域下与所述目标文本相匹配的目标匹配文本。
在一种实现方式中,处理器401,具体用于:
对所述目标文本进行分词处理,得到至少一个目标词组;
对所述至少一个目标词组进行向量化处理,得到至少一个词向量;
基于每个所述目标词组在所述目标文本中的位置,确定每个所述目标词组的权重;
基于所述至少一个词向量和每个所述目标词组的权重构建所述目标文本对应的目标特征矩阵;
通过匹配模型对所述目标特征矩阵和参考文本对应的参考特征矩阵进行处理,得到所述目标文本与所述参考文本之间的第一相似度。
在一种实现方式中,处理器401,具体用于:
基于每个所述目标词组的权重,对所述至少一个词向量中对应的词向量进行加权处理,得到至少一个加权词向量;
将所述至少一个加权词向量进行组合,得到所述目标文本对应的目标特征矩阵。
在一种实现方式中,处理器401,具体用于:
确定所述目标文本的目标文本类型和所述参考文本的参考文本类型,文本类型包括古文类型、白话文类型或诗歌类型;
基于所述目标文本类型和所述参考文本类型的匹配结果确定第一权重、第二权重和第三权重;
采用所述第一权重对所述第一相似度进行加权处理,得到第一加权相似度;
采用所述第二权重对所述第二相似度进行加权处理,得到第二加权相似度;
采用所述第三权重对所述第三相似度进行加权处理,得到第三加权相似度;
对所述第一加权相似度、第二加权相似度和第三加权相似度进行求和处理,得到所述目标文本和所述参考文本之间的匹配度。
在一种实现方式中,处理器401,具体用于:
获取初始目标文本,并确定所述初始目标文本对应的文本类型;
基于文本类型对应的字符筛选方式对所述初始目标文本进行字符筛选处理,得到至少一个目标字符;
对所述至少一个目标字符进行组合,得到目标文本。
本发明实施例中,处理器401获取目标文本,对目标文本进行释义处理,得到目标文本对应的目标释义信息;确定在目标领域下与目标文本相匹配的目标匹配文本,获取参考文本,参考文本对应的参考释义信息,以及在目标领域下与参考文本相匹配的参考匹配文本;确定目标文本与参考文本之间的第一相似度,目标释义信息与参考释义信息之间的第二相似度,以及目标匹配文本与参考匹配文本之间的第三相似度;基于第一相似度、第二相似度和第三相似度确定目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中将文本调整为多种形式的其他文本后,基于其他文本间的相似度,确定文本间的匹配度,提升文本匹配的准确率。
本发明实施例中所述模块,可以通过通用集成电路,例如CPU(CentraIProcessing Unit,中央处理器),或通过ASIC(AppIication Specific IntegratedCircuit,专用集成电路)来实现。
应当理解,在本发明实施例中,所称处理器401可以是中央处理模块(CentraIProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitaISignaI Processor,DSP)、专用集成电路(AppIication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieId-ProgrammabIe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
总线402可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(PeripheraI Component,PCI)总线或扩展工业标准体系结构(EItendedIndustry Standard Architecture,EISA)总线等,该总线402可以分为地址总线、数据总线、控制总线等,为便于表示,图4仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnIy Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种文本匹配方法,其特征在于,包括:
获取目标文本,并对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述确定在目标领域下与所述目标文本相匹配的目标匹配文本,包括:
对所述目标文本进行分词处理,得到至少一个目标词组;
获取目标领域下的形式规范,并从符合所述形式规范的标准词组中筛选出各个目标词组对应的目标标准词组,所述目标词组与对应的目标标准词组具有相同的语义;
基于所述各个目标词组对应的目标标准词组,对所述目标文本中的目标词组进行词组替换,得到在所述目标领域下与所述目标文本相匹配的目标匹配文本。
3.根据权利要求1所述的方法,其特征在于,所述确定在目标领域下与所述目标文本相匹配的目标匹配文本,包括:
获取目标领域下的形式规范,并基于所述形式规范从数据库中获取N个待选文本,每个所述待选文本由符合所述形式规范的至少一个标准词组组成,N为正整数;
对所述目标文本和所述N个待选文本进行向量化处理,得到所述目标文本对应的目标文本向量,以及所述N个待选文本对应的N个待选文本向量;
从所述N个待选文本向量中筛选出与所述目标文本向量之间距离最近的第一待选文本向量;
将所述第一待选文本向量对应的待选文本确定为在目标领域下与所述目标文本相匹配的目标匹配文本。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本与所述参考文本之间的第一相似度,包括:
对所述目标文本进行分词处理,得到至少一个目标词组;
对所述至少一个目标词组进行向量化处理,得到至少一个词向量;
基于每个所述目标词组在所述目标文本中的位置,确定每个所述目标词组的权重;
基于所述至少一个词向量和每个所述目标词组的权重构建所述目标文本对应的目标特征矩阵;
通过匹配模型对所述目标特征矩阵和所述参考文本对应的参考特征矩阵进行处理,得到所述目标文本与所述参考文本之间的第一相似度。
5.根据权利要求4所述的方法,其特征在于,所述基于所述至少一个词向量和每个所述目标词组的权重构建所述目标文本对应的目标特征矩阵,包括:
基于每个所述目标词组的权重,对所述至少一个词向量中对应的词向量进行加权处理,得到至少一个加权词向量;
将所述至少一个加权词向量进行组合,得到所述目标文本对应的目标特征矩阵。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度,包括:
确定所述目标文本的目标文本类型和所述参考文本的参考文本类型,文本类型包括古文类型、白话文类型或诗歌类型;
基于所述目标文本类型和所述参考文本类型的匹配结果确定第一权重、第二权重和第三权重;
采用所述第一权重对所述第一相似度进行加权处理,得到第一加权相似度;
采用所述第二权重对所述第二相似度进行加权处理,得到第二加权相似度;
采用所述第三权重对所述第三相似度进行加权处理,得到第三加权相似度;
对所述第一加权相似度、第二加权相似度和第三加权相似度进行求和处理,得到所述目标文本和所述参考文本之间的匹配度。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述获取目标文本,包括:
获取初始目标文本,并确定所述初始目标文本对应的文本类型;
基于所述文本类型对应的字符筛选方式对所述初始目标文本进行字符筛选处理,得到至少一个目标字符;
对所述至少一个目标字符进行组合,得到目标文本。
8.一种文本匹配装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本;
处理模块,用于对所述目标文本进行释义处理,得到所述目标文本对应的目标释义信息;
确定模块,用于确定在目标领域下与所述目标文本相匹配的目标匹配文本,所述目标匹配文本由至少一个标准词组组成,所述标准词组为符合所述目标领域下的形式规范的词组;
所述获取模块,还用于获取参考文本,所述参考文本对应的参考释义信息,以及在所述目标领域下与所述参考文本相匹配的参考匹配文本;
所述确定模块,还用于确定所述目标文本与所述参考文本之间的第一相似度,所述目标释义信息与所述参考释义信息之间的第二相似度,以及所述目标匹配文本与所述参考匹配文本之间的第三相似度;
所述确定模块,还用于基于所述第一相似度、所述第二相似度和所述第三相似度确定所述目标文本和所述参考文本之间的匹配度。
9.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202011610621.3A 2020-12-29 2020-12-29 文本匹配方法、装置、终端和存储介质 Pending CN112632956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011610621.3A CN112632956A (zh) 2020-12-29 2020-12-29 文本匹配方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011610621.3A CN112632956A (zh) 2020-12-29 2020-12-29 文本匹配方法、装置、终端和存储介质

Publications (1)

Publication Number Publication Date
CN112632956A true CN112632956A (zh) 2021-04-09

Family

ID=75286668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011610621.3A Pending CN112632956A (zh) 2020-12-29 2020-12-29 文本匹配方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN112632956A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117046A (zh) * 2021-11-26 2022-03-01 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及介质
CN117037184A (zh) * 2023-10-10 2023-11-10 深圳牛图科技有限公司 一种基于云匹配的ocr模糊识别系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117046A (zh) * 2021-11-26 2022-03-01 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及介质
CN114117046B (zh) * 2021-11-26 2023-08-11 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及介质
CN117037184A (zh) * 2023-10-10 2023-11-10 深圳牛图科技有限公司 一种基于云匹配的ocr模糊识别系统及方法

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20190272319A1 (en) Method and Device for Identifying Specific Text Information
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111144345A (zh) 字符识别方法、装置、设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN112530406A (zh) 一种语音合成方法、语音合成装置及智能设备
CN111858899A (zh) 语句处理方法、装置、系统和介质
CN112733492B (zh) 基于知识库的辅助设计方法、装置、终端和存储介质
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination