CN112559725A - 文本匹配方法、装置、终端和存储介质 - Google Patents

文本匹配方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN112559725A
CN112559725A CN202011507512.9A CN202011507512A CN112559725A CN 112559725 A CN112559725 A CN 112559725A CN 202011507512 A CN202011507512 A CN 202011507512A CN 112559725 A CN112559725 A CN 112559725A
Authority
CN
China
Prior art keywords
target
text
phrase
matching
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011507512.9A
Other languages
English (en)
Inventor
张桂荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Financial Assets Exchange Co ltd
Original Assignee
Chongqing Financial Assets Exchange Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Financial Assets Exchange Co ltd filed Critical Chongqing Financial Assets Exchange Co ltd
Priority to CN202011507512.9A priority Critical patent/CN112559725A/zh
Publication of CN112559725A publication Critical patent/CN112559725A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本匹配方法、装置、终端和存储介质,其中,方法包括,获取目标文本,并对所述目标文本进行分词处理,得到至少一个目标词组;对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,根据每个目标词组的特征信息确定每个目标词组的权重,基于目标向量集合和每个目标词组的权重,构建目标文本对应的目标特征矩阵,确定参考文本对应的参考特征矩阵,并调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,提升文本匹配的准确率。

Description

文本匹配方法、装置、终端和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本匹配方法、装置、终端和存储介质。
背景技术
随着计算机技术的发展,文本匹配成为研究的热点之一,即通过对文本中字词的匹配,确定不同文本之间的相似度,其在数据检索、有着巨大的用途,如用户可以在检索栏中输入一个文本,则可以通过文本间的匹配度计算,从数据库中检索得到与输入文本匹配的其他文本,以供用户进行浏览。
当前,对文本进行匹配通常是将文本拆分为多个词组,并以词组之间的匹配度确定文本之前的匹配度,然而,词组的对于文本的重要性也是不同的(如文本标题中的词组重要性较高),简单通过词组来匹配会忽略掉文本本身具有的特性,导致文本匹配准确率较低。
发明内容
本发明实施例提供了一种文本匹配方法、装置、终端和存储介质,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,提升文本匹配的准确率。
一方面,本发明实施例提供了一种文本匹配方法,所述方法包括:
获取目标文本,并对所述目标文本进行分词处理,得到至少一个目标词组;
对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,所述目标向量集合中包括所述至少一个目标词组中每个目标词组的目标词组向量和所述目标文本的文本向量;
获取所述至少一个目标词组中每个目标词组的特征信息,并根据所述每个目标词组的特征信息确定所述每个目标词组的权重,所述特征信息包括位置特征、词性特征和字符数特征中的至少一种;
基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵;
确定参考文本对应的参考特征矩阵,并调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到所述目标文本和所述参考文本之间的匹配度。
一方面,本发明实施例提供了一种文本匹配装置,所述装置包括:
获取模块,用于获取目标文本;
处理模块,用于对所述目标文本进行分词处理,得到至少一个目标词组;
所述处理模块,还用于对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,所述目标向量集合中包括所述至少一个目标词组中每个目标词组的目标词组向量和所述目标文本的文本向量;
所述获取模块,还用于获取所述至少一个目标词组中每个目标词组的特征信息;
确定模块,用于根据所述每个目标词组的特征信息确定所述每个目标词组的权重,所述特征信息包括位置特征、词性特征和字符数特征中的至少一种;
构建模块,用于基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵;
所述确定模块,还用于确定参考文本对应的参考特征矩阵;
调用模块,用于调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到所述目标文本和所述参考文本之间的匹配度。
一方面,本发明实施例提供了一种终端,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述基于数据分析的问卷数据处理方法。
一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述文本匹配方法。
本发明实施例中,终端获取目标文本,并对所述目标文本进行分词处理,得到至少一个目标词组;对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,根据每个目标词组的特征信息确定每个目标词组的权重,基于目标向量集合和所述每个目标词组的权重,构建目标文本对应的目标特征矩阵,确定参考文本对应的参考特征矩阵,并调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,提升文本匹配的准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本匹配方法的流程示意图;
图2是本发明实施例提供的另一种文本匹配方法的流程示意图;
图3是本发明实施例提供的一种文本匹配装置的结构示意图;
图4是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本匹配方法实现于终端,终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器或车载电子设备等电子设备。
图1是本发明实施例中一种文本匹配方法的流程示意图,如图1所示,本实施例中的文本匹配方法的流程可以包括:
S101、终端获取目标文本,并对目标文本进行分词处理,得到至少一个目标词组。
本发明实施例中,目标文本可以为任意一个文本,文本可以为期刊、论文、句子等,终端可以接收用户在终端中输入的文本选择操作,并将用户选择的文本确定为目标文本,或者,终端也可以接收其他客户端发送的文本,作为目标文本。在一种实施场景中,终端可以提供文本匹配页面,用户可以在文本匹配页面中输入需要进行匹配的目标文本,终端对该目标文本进行获取,以进一步基于获取到的目标文本进行文本匹配。进一步的,终端获取到目标文本之后,可以对目标文本进行分词处理,得到至少一个目标词组。
具体实现中,终端对目标文本进行分词处理,得到至少一个目标词组的具体方式可以为,终端基于字符匹配的方式实现对目标文本的分词处理,终端按照预设规则将目标文本中待分析的字符串与预设数据库中的目标词组进行匹配,如在预设数据库中找到字符串中的目标词组,则匹配成功,并将匹配成功的目标词组从字符串中拆分出来,并确定为一个目标词组,该基于字符匹配的算法具体可以为正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法等。或者,终端通过字与字相邻共现的频率或概率来确定是否将各个文字组成为目标词组,具体的,终端将目标文本中相邻共现的各个文字的组合的频度进行统计,计算它们的相邻共现概率,若文字组合的相邻共现概率大于预设阈值,则将该文字组合确定为目标词组。或者,终端通过基于大量已经分词的文本,利用统计机器学习模型学习词语切分的规律来实现对目标文本的分词处理,得到至少一个目标词组。
S102、终端对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合。
本发明实施例中,终端得到至少一个目标词组之后,可以对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,其中,目标向量集合中包括至少一个目标词组中每个目标词组的目标词组向量和目标文本的文本向量。
在一种实现方式中,终端可以调用训练完成的向量化模型对目标文本和至少一个目标词组进行向量化处理,向量化模型用于将输入的数据转换为向量,通过向量化模型对目标文本进行处理,则可得到目标文本的文本向量,通过向量化模型对目标词组进行处理,则可得到目标词组的目标词组向量。可选的,向量化模型为第一向量化模型、第二向量化模型的统称,第一向量化模型用于对文本进行向量化处理,第二向量化模型用于对词组进行向量化处理,预先可以采用大量的文本数据来训练第一向量化模型,使得第一向量化模型具备将文本转化为向量的能力,以及采用大量词组数据来对第二向量化模型进行训练,使得第二向量化模型具备将词组转化为向量的能力。
在一种实现方式中,不同的文本可以对应有不同的文本类型,文本类型包括白话文类型、文言文类型、诗歌类型、小语种类型等,针对不同文本类型的文本,终端可以采用不同的向量化方式对目标文本进行向量化处理。例如,当目标文本的文本类型为白话文类型时,终端采用的白话文向量化模型对目标文本进行向量化处理,得到目标文本的文本向量,该白话文向量化模型为采用大量的白话文样本文本对初始向量化模型训练得到。同理,当目标文本的文本类型为文言文类型时,终端采用文言文向量化模型对文本进行向量化处理,得到目标文本的文本向量,该文言文向量化模型为此采用大量文言文样本文本对初始向量化模型训练得到。上述方式中,针对文本进行了分类,并且,针对不同文本类型的文本,采用相应的向量化方式对其进行处理,可以使得处理得到的向量更能准确表示文本的特征,提升后续文本匹配的准确性。
S103、终端获取至少一个目标词组中每个目标词组的特征信息,并根据每个目标词组的特征信息确定每个目标词组的权重。
本发明实施例中,终端确定目标文本对应的目标向量集合之后,还将获取到至少一个目标词组中每个目标词组的特征信息,并根据每个目标词组的特征信息确定每个目标词组的权重;其中,特征信息包括位置特征、词性特征和字符数特征中的至少一种,位置特征具体可以为目标词组在目标文本中的位置,词性特征包括目标词组所属的词性分类,词性分类包括名词、动词、形容词等,字符数特征包括目标词组中包含的字符的数量。
在一种实现方式中,特征信息包括位置特征,则终端根据每个目标词组的特征信息确定每个目标词组的权重的具体方式可以为,终端获取每个目标词组在目标文本中的位置,并根据位置与权重的对应关系,确定每个目标词组的权重。在一种实施例中,位置分为开头位置、中间位置和结尾位置,开头位置对应目标文本中前30%的词组,中间位置对应目标文本中的中间40%的词组,结尾位置对应目标文本中后30%的词组。当目标词组的位置为开头位置时,目标词组的权重为2,当目标词组的位置为中间位置时,目标词组的权重为1,当目标词组的位置为开头位置时,目标词组的权重为1.5,通过上述方式,可以基于目标词组出现的位置的不同,确定目标词组的权重。因不同位置的目标词组对于文本的重要性不同,如文本开头位置的词组为文本的重点,其奠定了文章的基调,不同文本若开头相同,文本间的匹配度必然较高,因此,上述方式针对文章中不同位置处的词组赋予不同的权重,可以使得后续匹配过程中更能结合不同词组的重要性特征,使得匹配更为准确。在一个实施例中,位置特征也可以指示词组在文本中的出现顺序,如文本中第一个词组的权重为2,第二个词组的权重为1.9,则当目标词组为目标文本中第一个词组时,确定目标词组的权重为2。需要说明的是,文本中位置的划分方式和每个位置的权重也可以由用户预先设定,在此不做限定,如终端可以提供权重设置界面,用户在权重设置界面中输入位置划分规则以及每个位置与权重的对应规则,终端基于用户设置的规则确定目标文本中每个目标词组的权重。
在一种实现方式中,特征信息包括词性特征,则终端根据每个目标词组的特征信息确定每个目标词组的权重的具体方式可以为,终端获取每个目标词组的词性,并根据词性与权重的对应关系,确定每个目标词组的权重。在一种实施例中,词性分为名词、动词和形容词,则当目标词组的词性为名词时,目标词组的权重为3,当目标词组的词性为动词时,目标词组的权重为2,当目标词组的词性为形容词时,目标词组的权重为1。
在一种实现方式中,特征信息包括字符数特征,则终端根据每个目标词组的特征信息确定每个目标词组的权重的具体方式可以为,终端获取每个目标词组的包含的字符数,并根据字符数与权重的对应关系,确定每个目标词组的权重。例如,当目标词组中包含的字符数为1时,目标词组的权重为1,当目标词组中包含的字符数为2时,目标词组的权重为2。
在一种实现方式中,特征信息包括位置特征、词性特征和字符数特征,则终端根据每个目标词组的特征信息确定每个目标词组的权重的具体方式可以为,终端根据每个目标词组的位置特征,确定每个目标词组的第一权重;根据每个目标词组的词性特征,确定每个目标词组的第二权重;根据每个目标词组的字符数特征,确定每个目标词组的第三权重;对每个目标词组的第一权重、第二权重和第三权重进行求和处理,得到每个目标词组的权重。例如,终端根据目标字符的位置特征得到第一权重为1,根据目标字符的词性特征得到第二权重为2,根据目标字符的字符数特征得到第三权重为2,则终端确定目标词组的权重为1+2+2=5。
S104、终端基于目标向量集合和每个目标词组的权重,构建目标文本对应的目标特征矩阵。
本发明实施例中,终端确定至少一个目标词组中每个目标词组的权重之后,可以基于目标向量集合和至少一个目标词组中每个目标词组的权重,构建目标文本对应的目标特征矩阵。具体的,目标特征矩阵的构建方式可以为,终端基于每个目标词组的权重,对目标向量集合中对应的目标词组向量进行加权处理,得到至少一个加权目标词组向量;例如,目标词组的权重为2,在目标向量集合中对应的目标词组向量为(1、0.5、2、1),则采用权重对目标词组向量进行加权处理后即可得到加权词组向量(2、1、4、2)。通过上述方式,实现对目标向量集合中各个目标词组向量进行加权处理,得到至少一个加权目标词组向量。进一步的,终端将目标文本向量和至少一个加权目标词组向量进行组合,得到目标文本对应的目标特征矩阵。
S105、终端确定参考文本对应的参考特征矩阵,并调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。
本发明实施例中,终端获取到目标文本对应的目标特征矩阵之后,还可以获取到用于与目标文本进行匹配的参考文本对应的参考特征矩阵。其中,参考文本可以为任意一个文本,用于与目标文本进行匹配。参考文本对应的参考特征矩阵的具体获取方式可以为,终端获取参考文本,并对参考文本进行分词处理,得到至少一个参考词组;对参考文本和至少一个参考词组进行向量化处理,得到参考文本对应的参考向量集合,参考向量集合中包括至少一个参考词组中每个参考词组的参考词组向量和参考文本的文本向量;获取至少一个参考词组中每个参考词组的特征信息,并根据每个参考词组的特征信息确定每个参考词组的权重,特征信息包括位置特征、词性特征和字符数特征中的至少一种;基于参考向量集合和每个参考词组的权重,构建参考文本对应的参考特征矩阵。
具体实现中,目标匹配模型具体可以终端从多个匹配模型中筛选出的针对目标特征矩阵和参考特征矩阵进行匹配的模型,不同的匹配模型用于不同文本类型的文本间的匹配,例如,第一匹配模型用于对白话文类型文本和文言文类型文本之间进行匹配,第二匹配模型用于对文言文类型文本和古诗类型文本之间进行匹配,当目标文本的类型为白话文类型,参考文本的类型为文言文类型时,终端将第一匹配模型确定为目标匹配模型;当目标文本的类型为文言文类型,参考文本的类型为古诗类型时,终端将第二匹配模型确定为目标匹配模型。
需要说明的是,不同的匹配模型可以由不同的训练方式训练得到,例如,当目标匹配模型为针对用于对白话文类型文本和文言文类型文本之间进行匹配的模型时,则可以采用监督训练的方式对目标匹配模型进行训练,具体方式包括,获取样本文本集合,样本文本集合中包括M个样本组,每个样本组中包括白话文特征矩阵、文言文特征矩阵和预设匹配值,预设匹配值为针对集合中白话文特征矩阵和文言文特征矩阵预先设置的匹配度数值,白话文特征矩阵为白话文类型文本的特征矩阵,文言文特征矩阵为文言文类型文本的特征矩阵。进一步的,通过样本文本集合对初始匹配模型进行迭代训练,以更新初始匹配模型中的参数,若参数更新后的初始匹配模型满足预设条件,则将参数更新后的初始匹配模型确定为目标匹配模型,其中,预设条件可以模型为对于白话文类型文本和文言文类型文本的匹配准确率高于预设准确率,其中,针对任意一组白话文特征矩阵和文言文特征矩阵,当参数更新后的初始匹配模型对于该组文本进行处理得到的预测匹配值与预设匹配值之间的差值小于预设差值时,确定对于该组文本匹配准确。可选的,当目标匹配模型为针对用于对古诗类型文本和文言文类型文本之间进行匹配的模型时,也可以基于上述训练方式对初始匹配模型,得到用于对古诗类型文本和文言文类型文本之间进行匹配的目标匹配模型。
本发明实施例中,终端获取目标文本,并对目标文本进行分词处理,得到至少一个目标词组;对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,根据每个目标词组的特征信息确定每个目标词组的权重,基于目标向量集合和每个目标词组的权重,构建目标文本对应的目标特征矩阵,确定参考文本对应的参考特征矩阵,并调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,提升文本匹配的准确率。
图2是本发明实施例中另一种文本匹配方法的流程示意图,如图2所示,本实施例中的文本匹配方法的流程可以包括:
S201、终端获取目标文本,并对目标文本进行分词处理,得到至少一个目标词组。
本发明实施例中,目标文本可以为任意一篇文本,文本可以为期刊、论文、句子等,终端可以接收用户在终端中输入的文本选择操作,并将用户选择的文本确定为目标文本,或者,终端也可以接收其他客户端发送的文本,作为目标文本。在一种实施场景中,终端可以提供文本匹配页面,用户可以在文本匹配页面中输入需要进行匹配的目标文本,终端对该目标文本进行获取,以进一步基于获取到的目标文本进行文本匹配。进一步的,终端获取到目标文本之后,可以对目标文本进行分词处理,得到至少一个待选词组,然后,终端基于词组替换的方式对上述至少一个待选词组进行词组替换之后,得到至少一个目标词组。
具体实现中,终端对待选目标进行词组替换的方式可以为,终端基于预先建立的词组对应关系确定各个待选词组对应的目标词组,以及采用各个目标词组对各个待选词组进行替换,得到至少一个目标词组,其中,目标词组与对应的待选词组具有相同的语义,终端具体可以从预先构建的标准词库中查询到待选词组对应的目标词组,具体的,预先建立标准词库,该标准词库中存储了多个集合,每个集合中包括一个目标词组以及目标词组对应的同义待选词组,当获取到一个待选词组时,可以从标准词库中查询到该待选词组所在的集合,并采用该集合中的目标词组对待选词组进行替换。例如,标准词库中包括集合{“老师”、“教师”、“teacher”},该集合对应的目标词组为“教师”,则当终端得到待选词组“老师”时,将采用目标词组“教师”对待选词组“老师”进行替换,并将替换后的词组作为目标词组。上述方式中,通过对具有相同语义的目标词组进行替换,或者将采用不同语言的编写的同一目标词组进行替换,可以提升后续匹配的精确度,也避免了写法不同(如语言种类不同)给文本相似度匹配带来的误差。
S202、终端对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合。
本发明实施例中,终端得到至少一个目标词组之后,可以对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,其中,目标向量集合中包括至少一个目标词组中每个目标词组的目标词组向量和目标文本的文本向量。
具体实现中,针对不同类型的文本,终端可以采用不同的方式对其进行词向量化处理,终端对目标文本和至少一个目标词组进行向量化处理的具体方式可以为,终端确定目标文本对应的目标文本类型,并基于文本类型与向量化模型的对应关系,从至少一个向量化模型中筛选出目标文本类型对应的目标向量化模型,终端调用目标向量化模型对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合。其中,文本类型可以白话文类型、文言文类型、诗歌类型、小语种类型等,当目标文本类型为白话文类型,终端将白话文向量化模型作为目标向量化模型,该白话文向量化模型用于将白话文类型的文本转为为向量形式,得到白话文类型文本对应的向量。
需要说明的是,终端确定目标文本对应的目标文本类型的具体方式可以为,终端基于符号间的字符数量确定,如目标文本中相邻标点符号间包括的字符数量都为7,则可以确定目标文本对应目标文本类型为诗歌类型。或者,也可以基于目标文本中的预设字符确定,如当目标文本中包含“之”、“乎”、“者”、“也”等预设字符时,确定目标文本对应的文本类型为文言文类型;当目标文本中包含“李白”、“杜甫”等预设字符时,确定目标文本对应的目标文本类型为诗歌类型,当目标文本中包含某个地方特定方言词组时,确定目标文本对应的文本类型为小语种类型。或者,终端也可以基于目标文本的来源确定,如目标文本来源于“唐诗三百首”时,确定目标文本对应的文本类型为诗歌类型。或者,终端选取上述方式中的多种方式进行结合确定目标文本对应的目标文本类型,本发明在此不做限定。
S203、终端获取至少一个目标词组中每个目标词组的特征信息,并根据每个目标词组的特征信息确定每个目标词组的权重。
本发明实施例中,终端确定目标文本对应的目标向量集合之后,还将获取到至少一个目标词组中每个目标词组的特征信息,并根据每个目标词组的特征信息确定每个目标词组的权重;其中,特征信息包括位置特征、词性特征和字符数特征中的至少一种,位置特征具体可以为目标词组在目标文本中的位置,词性特征包括目标词组所属的词性分类,词性分类包括名词、动词、形容词等,字符数特征包括目标词组中包含的字符的数量。
S204、终端基于目标向量集合和每个目标词组的权重,构建目标文本对应的目标特征矩阵。
本发明实施例中,终端确定至少一个目标词组中每个目标词组的权重之后,可以基于目标向量集合和至少一个目标词组中每个目标词组的权重,构建目标文本对应的目标特征矩阵。具体的,目标特征矩阵的构建方式可以为,终端基于每个目标词组的权重,对目标向量集合中对应的目标词组向量进行加权处理,得到至少一个加权目标词组向量;终端将目标文本向量和至少一个加权目标词组向量进行组合,得到目标文本对应的目标特征矩阵。
S205、终端确定参考文本对应的参考特征矩阵。
本发明实施例中,终端目标文本进行处理,得到目标文本对应的目标特征矩阵之后,获取到用于与目标文本进行匹配的参考文本,并对参考文本进行处理,得到参考文本对应的参考特征矩阵,其中,参考文本对应的参考特征矩阵的具体获取方式可以为,终端获取参考文本,并对参考文本进行分词处理,得到至少一个参考词组;对参考文本和至少一个参考词组进行向量化处理,得到参考文本对应的参考向量集合,参考向量集合中包括至少一个参考词组中每个参考词组的参考词组向量和参考文本的文本向量;获取至少一个参考词组中每个参考词组的特征信息,并根据每个参考词组的特征信息确定每个参考词组的权重,特征信息包括位置特征、词性特征和字符数特征中的至少一种;基于参考向量集合和每个参考词组的权重,构建参考文本对应的参考特征矩阵。
在一种实现方式中,参考文本为数据库中预先存储的文本,数据库中还预先存储了每个参考文本对应的参考特征矩阵,则终端可以在确定目标文本对应的目标特征矩阵之后,可以直接从数据库中获取到用于与目标文本进行匹配的参考文本对应的参考特征矩阵。
S206、终端确定目标文本对应的目标文本类型和参考文本对应的参考文本类型。
本发明实施例中,终端确定目标特征矩阵和参考特征矩阵之后,还将确定目标文本对应的目标文本类型和参考文本对应的参考文本类型,其中,目标文本类型和参考文本类型用于确定后续对目标文本和参考文本进行匹配的方式。目标文本类型和参考文本类型均可以为可以白话文类型、文言文类型、诗歌类型、小语种类型等。文本类型的确定方式可以基于文本中预设字符确定、对应的格式确定或者文本的来源确定等,如目标文本中包含预设字符“不亦说乎”,则可以确定目标文本类型为文言文类型,或者,目标文本的格式为七言格式(即七个字符组成一个句段),则确定目标文本类型为诗歌类型,或者,目标文本来源于《论语》,则确定目标文本类型为文言文类型,参考文本类型的确定方式同理。
S207、终端根据目标文本类型和参考文本类型,确定针对目标文本和参考文本之间的目标匹配方式。
本发明实施例中,终端确定目标文本类型和参考文本类型之后,可以确定针对目标文本和参考文本之间的目标匹配方式,其中,不同文本类型的文本对应有不同的匹配方式,如匹配方式包括第一匹配方式、第二匹配方式和第三匹配方式,第一匹配方式用于白话文类型文本与白话文类型文本之间进行匹配,第二匹配方式用于白话文类型文本与文言文类型文本之间进行匹配,第三匹配方式用于文言文类型文本与文言文类型文本之间进行匹配。不同匹配方式中对于文本之间的特征向量的运算方式可以不同,或者,对于匹配文本的判定方式可以不同,在此不做限定。
S208、终端基于目标匹配方式从模型集合中筛选出用于对目标文本和参考文本进行匹配的目标匹配模型。
本发明实施例中,终端针对目标文本和所述参考文本之间的目标匹配方式之后,可以基于目标匹配方式从模型集合中筛选出用于对目标文本和参考文本进行匹配的目标匹配模型。其中,目标的筛选模型中对于目标文本和参考文本进行匹配的算法可以不同,具体由对应的匹配方式确定,模型集合中包括至少一个预设的模型,每个预设的模型可以用于两种文本类型的文本之间进行匹配。具体的,终端基于目标匹配方式从模型集合中筛选出目标匹配模型,该目标匹配模型用于对目标文本类型和参考文本类型的文本之间进行匹配。
通过上述方式,针对不同文本类型的文本,采用相应的匹配模型对其进行匹配,可以提升对文本的匹配准确率。
在一种实现方式中,目标文本类型和参考文本类型下匹配的样本文本数量大于预设数量,即样本数量充足,则终端对目标匹配模型进行训练的具体方式可以为,终端获取样本集合,样本集合中包括K个由目标样本矩阵、参考样本矩阵和预设匹配值构成的样本组,目标样本矩阵为目标文本类型的文本的特征矩阵,参考样本矩阵为参考文本类型的文本的特征矩阵,K为正整数;通过样本文本集合对初始匹配模型进行训练,以对初始匹配模型中的参数进行更新;若参数更新后的初始匹配模型满足预设条件,则将参数更新后的初始匹配模型确定为目标匹配模型。其中,预设条件可以模型为对于目标文本类型的文本和参考文本类型的文本的匹配准确率高于预设准确率,其中,针对任意一组目标样本矩阵和参考样本矩阵,当参数更新后的初始匹配模型对于该组样本矩阵进行处理,得到的对于特征矩阵对应的文本的预测匹配值与预设匹配值之间的差值小于预设差值时,确定对于该组文本匹配准确。
S209、终端调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。
本发明实施例中,终端确定目标特征矩阵和参考特征矩阵以及目标匹配模型之后,将调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。
在一种实现方式中,终端调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理之前,还需获取目标特征矩阵的目标维度和参考特征矩阵的参考维度,并检测目标维度和参考维度是否相同,若目标维度和参考维度相同,则终端直接调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。
若目标维度小于参考维度,则终端对目标特征矩阵进行维度填充处理,以使得目标特征矩阵与参考特征矩阵之间的维度相同,维度填充处理的方式包括添加预设文本向量或添加预设目标词组向量。具体实现中,可以基于目标维度与参考维度之间的维度差值,确定需要添加的预设向量的类型,若维度差值大于第一预设差值,则在目标特征矩阵中添加预设目标词组向量,若维度差值小于第二预设差值,则在目标特征矩阵中添加预设文本向量,可选的,终端也可以基于历史匹配效果确定需要填充的维度的类型,例如,通过历史测试发现,在两个文本的特征矩阵的维度差值大于第一预设阈值时,采用预设目标词组向量对维度较小的矩阵进行填充,可以使得文本间的匹配准确率较高,则在检测到目标维度与参考维度之间的维度差值大于第一预设阈值时,采用预设目标词组向量对目标特征矩阵进行填充。上述方式可以实现维度的动态填充,基于维度差值的不同,确定需要填充的向量的类型,使得文本匹配更为精确。
需要说明的是,目标匹配模型通过卷积层对目标特征矩阵和参考特征矩阵进行计算,通过全连接层和输出层对卷积层输出的数据进行处理,得到目标文本和参考文本之间的相似度,终端基于目标文本和参考文本之间的相似度确定目标文本和参考文本之间的匹配度,如终端对相似度进行归一化处理,得到目标文本和参考文本之间的匹配度。或者,终端对匹配模型输出的相似度进行加权处理,得到目标文本和参考文本之间的匹配度。需要说明的是,对相似度进行加权处理的权重具体可以由目标文本和参考文本的类型确定,例如,当目标文本的类型与参考文本的类型相同时,对应第一权重,当目标文本与参考文本不相同时,对应第二权重。
本发明实施例中,终端获取目标文本,并对目标文本进行分词处理,得到至少一个目标词组;对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,根据每个目标词组的特征信息确定每个目标词组的权重,基于目标向量集合和每个目标词组的权重,构建目标文本对应的目标特征矩阵,确定参考文本对应的参考特征矩阵,并调用目标匹配模型对目标特征矩阵和参考特征矩阵进行处理,得到目标文本和参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,并且,对文本类型进行了分类,不同类型的文本采用不同的匹配方式进行处理,使得匹配更为精细化,提升文本匹配的准确率。
下面将结合附图3对本发明实施例提供的文本匹配装置进行详细介绍。需要说明的是,附图3所示的文本匹配装置,用于执行本发明图1-图2所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图2所示的实施例。
请参见图3,为本发明提供的一种文本匹配装置的结构示意图,该文本匹配装置30可包括:获取模块301、处理模块302、确定模块303、构建模块304、调用模块305。
获取模块301,用于获取目标文本;
处理模块302,用于对所述目标文本进行分词处理,得到至少一个目标词组;
所述处理模块302,还用于对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,所述目标向量集合中包括所述至少一个目标词组中每个目标词组的目标词组向量和所述目标文本的文本向量;
所述获取模块301,还用于获取所述至少一个目标词组中每个目标词组的特征信息;
确定模块303,用于根据所述每个目标词组的特征信息确定所述每个目标词组的权重,所述特征信息包括位置特征、词性特征和字符数特征中的至少一种;
构建模块304,用于基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵;
所述确定模块303,还用于确定参考文本对应的参考特征矩阵;
调用模块305,用于调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到所述目标文本和所述参考文本之间的匹配度。
在一种实现方式中,处理模块302,具体用于:
确定所述目标文本对应的目标文本类型;
基于文本类型与向量化模型的对应关系,从至少一个向量化模型中筛选出所述目标文本类型对应的目标向量化模型;
调用所述目标向量化模型对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合。
在一种实现方式中,构建模块304,具体用于:
基于所述每个目标词组的权重,对所述目标向量集合中对应的目标词组向量进行加权处理,得到至少一个加权目标词组向量;
将所述目标文本向量和所述至少一个加权目标词组向量进行组合,得到所述目标文本对应的目标特征矩阵。
在一种实现方式中,处理模块302,还用于:
确定所述目标文本对应的目标文本类型和所述参考文本对应的参考文本类型;
根据所述目标文本类型和所述参考文本类型,确定针对所述目标文本和所述参考文本之间的目标匹配方式;
基于所述目标匹配方式从模型集合中筛选出目标匹配模型,所述目标匹模型用于对所述目标文本类型的文本和所述参考文本类型的文本之间进行匹配。
在一种实现方式中,处理模块302,还用于:
获取样本集合,所述样本集合中包括K个由目标样本矩阵、参考样本矩阵和预设匹配值构成的样本组,所述目标样本矩阵为目标文本类型的文本的特征矩阵,所述参考样本矩阵为参考文本类型的文本的特征矩阵,K为正整数;
通过所述样本文本集合对初始匹配模型进行训练,以对所述初始匹配模型中的参数进行更新;
若参数更新后的初始匹配模型满足预设条件,则将参数更新后的初始匹配模型确定为目标匹配模型。
在一种实现方式中,确定模块303,具体用于:
根据所述每个目标词组的位置特征,确定所述每个目标词组的第一权重;
根据所述每个目标词组的词性特征,确定所述每个目标词组的第二权重;
根据所述每个目标词组的字符数特征,确定所述每个目标词组的第三权重;
对每个目标词组的第一权重、第二权重和第三权重进行求和处理,得到所述每个目标词组的权重。
在一种实现方式中,处理模块302,还用于:
获取所述目标特征矩阵的目标维度和所述参考特征矩阵的参考维度;
若所述目标维度小于所述参考维度,则对所述目标特征矩阵进行维度填充处理,以使得所述目标特征矩阵与所述参考特征矩阵之间的维度相同,所述维度填充处理的方式包括添加预设文本向量或添加预设目标词组向量。
本发明实施例中,获取模块301获取目标文本,处理模块302对所述目标文本进行分词处理,得到至少一个目标词组;处理模块302对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,确定模块303根据每个目标词组的特征信息确定每个目标词组的权重,构建模块304基于目标向量集合和所述每个目标词组的权重,构建目标文本对应的目标特征矩阵,确定参考文本对应的参考特征矩阵,调用模块305调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到目标文本和所述参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,提升文本匹配的准确率。
请参见图4,为本发明实施例提供了一种终端的结构示意图。如图4所示,该终端包括:至少一个处理器401,输入设备403,输出设备404,存储器405,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,输入设备403可以是控制面板或者麦克风等,输出设备404可以是显示屏等。其中,存储器405可以是高速RAM存储器,也可以是非不稳定的存储器(non-voIatiIe memory),例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置,存储器405中存储一组程序代码,且处理器401,输入设备403,输出设备404调用存储器405中存储的程序代码,用于执行以下操作:
处理器401,用于获取目标文本,并对所述目标文本进行分词处理,得到至少一个目标词组;
处理器401,用于对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,所述目标向量集合中包括所述至少一个目标词组中每个目标词组的目标词组向量和所述目标文本的文本向量;
处理器401,用于获取所述至少一个目标词组中每个目标词组的特征信息,并根据所述每个目标词组的特征信息确定所述每个目标词组的权重,所述特征信息包括位置特征、词性特征和字符数特征中的至少一种;
处理器401,用于基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵;
处理器401,用于确定参考文本对应的参考特征矩阵,并调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到所述目标文本和所述参考文本之间的匹配度。
在一种实现方式中,处理器401,具体用于:
确定所述目标文本对应的目标文本类型;
基于文本类型与向量化模型的对应关系,从至少一个向量化模型中筛选出所述目标文本类型对应的目标向量化模型;
调用所述目标向量化模型对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合。
在一种实现方式中,处理器401,具体用于:
基于所述每个目标词组的权重,对所述目标向量集合中对应的目标词组向量进行加权处理,得到至少一个加权目标词组向量;
将所述目标文本向量和所述至少一个加权目标词组向量进行组合,得到所述目标文本对应的目标特征矩阵。
在一种实现方式中,处理器401,具体用于:
确定所述目标文本对应的目标文本类型和所述参考文本对应的参考文本类型;
根据所述目标文本类型和所述参考文本类型,确定针对所述目标文本和所述参考文本之间的目标匹配方式;
基于所述目标匹配方式从模型集合中筛选出目标匹配模型,所述目标匹模型用于对所述目标文本类型的文本和所述参考文本类型的文本之间进行匹配。
在一种实现方式中,处理器401,具体用于:
获取样本集合,所述样本集合中包括K个由目标样本矩阵、参考样本矩阵和预设匹配值构成的样本组,所述目标样本矩阵为目标文本类型的文本的特征矩阵,所述参考样本矩阵为参考文本类型的文本的特征矩阵,K为正整数;
通过所述样本文本集合对初始匹配模型进行训练,以对所述初始匹配模型中的参数进行更新;
若参数更新后的初始匹配模型满足预设条件,则将参数更新后的初始匹配模型确定为目标匹配模型。
在一种实现方式中,处理器401,具体用于:
根据所述每个目标词组的位置特征,确定所述每个目标词组的第一权重;
根据所述每个目标词组的词性特征,确定所述每个目标词组的第二权重;
根据所述每个目标词组的字符数特征,确定所述每个目标词组的第三权重;
对每个目标词组的第一权重、第二权重和第三权重进行求和处理,得到所述每个目标词组的权重。
在一种实现方式中,处理器401,具体用于:
获取所述目标特征矩阵的目标维度和所述参考特征矩阵的参考维度;
若所述目标维度小于所述参考维度,则对所述目标特征矩阵进行维度填充处理,以使得所述目标特征矩阵与所述参考特征矩阵之间的维度相同,所述维度填充处理的方式包括添加预设文本向量或添加预设目标词组向量。
本发明实施例中,处理器401获取目标文本,处理器401对所述目标文本进行分词处理,得到至少一个目标词组;处理器401对目标文本和至少一个目标词组进行向量化处理,得到目标文本对应的目标向量集合,处理器401根据每个目标词组的特征信息确定每个目标词组的权重,处理器401基于目标向量集合和所述每个目标词组的权重,构建目标文本对应的目标特征矩阵,确定参考文本对应的参考特征矩阵,处理器401调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到目标文本和所述参考文本之间的匹配度。通过实施上述方法,可以在文本匹配过程中为文本中不同词组赋予不同的重要性,提升文本匹配的准确率。
本发明实施例中所述模块,可以通过通用集成电路,例如CPU(CentraIProcessing Unit,中央处理器),或通过ASIC(AppIication Specific IntegratedCircuit,专用集成电路)来实现。
应当理解,在本发明实施例中,所称处理器401可以是中央处理模块(CentraIProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitaISignaI Processor,DSP)、专用集成电路(AppIication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieId-ProgrammabIe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
总线402可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(PeripheraI Component,PCI)总线或扩展工业标准体系结构(EItendedIndustry Standard Architecture,EISA)总线等,该总线402可以分为地址总线、数据总线、控制总线等,为便于表示,图4仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnIy Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种文本匹配的方法,其特征在于,包括:
获取目标文本,并对所述目标文本进行分词处理,得到至少一个目标词组;
对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,所述目标向量集合中包括所述至少一个目标词组中每个目标词组的目标词组向量和所述目标文本的文本向量;
获取所述至少一个目标词组中每个目标词组的特征信息,并根据所述每个目标词组的特征信息确定所述每个目标词组的权重,所述特征信息包括位置特征、词性特征和字符数特征中的至少一种;
基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵;
确定参考文本对应的参考特征矩阵,并调用目标匹配模型对所述目标特征矩阵和所述参考特征矩阵进行处理,得到所述目标文本和所述参考文本之间的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,包括:
确定所述目标文本对应的目标文本类型;
基于文本类型与向量化模型的对应关系,从至少一个向量化模型中筛选出所述目标文本类型对应的目标向量化模型;
调用所述目标向量化模型对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵,包括:
基于所述每个目标词组的权重,对所述目标向量集合中对应的目标词组向量进行加权处理,得到至少一个加权目标词组向量;
将所述目标文本向量和所述至少一个加权目标词组向量进行组合,得到所述目标文本对应的目标特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述调用目标匹配模型对所述目标特征矩阵和所述参考特征矩阵进行处理之前,所述方法还包括:
确定所述目标文本对应的目标文本类型和所述参考文本对应的参考文本类型;
根据所述目标文本类型和所述参考文本类型,确定针对所述目标文本和所述参考文本之间的目标匹配方式;
基于所述目标匹配方式从模型集合中筛选出目标匹配模型,所述目标匹模型用于对所述目标文本类型的文本和所述参考文本类型的文本之间进行匹配。
5.根据权利要求4所述的方法,其特征在于,基于所述目标匹配方式从模型集合中筛选出目标匹配模型之前,所述方法还包括:
获取样本集合,所述样本集合中包括K个由目标样本矩阵、参考样本矩阵和预设匹配值构成的样本组,所述目标样本矩阵为目标文本类型的文本的特征矩阵,所述参考样本矩阵为参考文本类型的文本的特征矩阵,K为正整数;
通过所述样本文本集合对初始匹配模型进行训练,以对所述初始匹配模型中的参数进行更新;
若参数更新后的初始匹配模型满足预设条件,则将参数更新后的初始匹配模型确定为目标匹配模型。
6.根据权利要求1所述的方法,其特征在于,所述特征信息包括位置特征、词性特征和字符数特征,所述根据所述每个目标词组的特征信息确定所述每个目标词组的权重,包括:
根据所述每个目标词组的位置特征,确定所述每个目标词组的第一权重;
根据所述每个目标词组的词性特征,确定所述每个目标词组的第二权重;
根据所述每个目标词组的字符数特征,确定所述每个目标词组的第三权重;
对所述每个目标词组的第一权重、第二权重和第三权重进行求和处理,得到所述每个目标词组的权重。
7.根据权利要求1所述的方法,其特征在于,所述确定参考文本对应的参考特征矩阵之后,所述方法还包括:
获取所述目标特征矩阵的目标维度和所述参考特征矩阵的参考维度;
若所述目标维度小于所述参考维度,则对所述目标特征矩阵进行维度填充处理,以使得所述目标特征矩阵与所述参考特征矩阵之间的维度相同,所述维度填充处理的方式包括添加预设文本向量或添加预设目标词组向量。
8.一种文本匹配装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本;
处理模块,用于对所述目标文本进行分词处理,得到至少一个目标词组;
所述处理模块,还用于对所述目标文本和所述至少一个目标词组进行向量化处理,得到所述目标文本对应的目标向量集合,所述目标向量集合中包括所述至少一个目标词组中每个目标词组的目标词组向量和所述目标文本的文本向量;
所述获取模块,还用于获取所述至少一个目标词组中每个目标词组的特征信息;
确定模块,用于根据所述每个目标词组的特征信息确定所述每个目标词组的权重,所述特征信息包括位置特征、词性特征和字符数特征中的至少一种;
构建模块,用于基于所述目标向量集合和所述每个目标词组的权重,构建所述目标文本对应的目标特征矩阵;
所述确定模块,还用于确定参考文本对应的参考特征矩阵;
调用模块,用于调用目标匹配模型对所述目标特征矩阵和参考特征矩阵进行处理,得到所述目标文本和所述参考文本之间的匹配度。
9.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202011507512.9A 2020-12-18 2020-12-18 文本匹配方法、装置、终端和存储介质 Pending CN112559725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011507512.9A CN112559725A (zh) 2020-12-18 2020-12-18 文本匹配方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011507512.9A CN112559725A (zh) 2020-12-18 2020-12-18 文本匹配方法、装置、终端和存储介质

Publications (1)

Publication Number Publication Date
CN112559725A true CN112559725A (zh) 2021-03-26

Family

ID=75030622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011507512.9A Pending CN112559725A (zh) 2020-12-18 2020-12-18 文本匹配方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN112559725A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408420A (zh) * 2022-09-02 2022-11-29 自然资源部地图技术审查中心 使用计算机自动过滤地图注记和兴趣点的方法和装置
CN116303909A (zh) * 2023-04-26 2023-06-23 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408420A (zh) * 2022-09-02 2022-11-29 自然资源部地图技术审查中心 使用计算机自动过滤地图注记和兴趣点的方法和装置
CN116303909A (zh) * 2023-04-26 2023-06-23 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质
CN116303909B (zh) * 2023-04-26 2023-08-22 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质

Similar Documents

Publication Publication Date Title
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111967264B (zh) 一种命名实体识别方法
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN109062891B (zh) 媒体处理方法、装置、终端和介质
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
CN111368553B (zh) 智能词云图数据处理方法、装置、设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN113486672A (zh) 多音字消歧方法及电子设备和计算机可读存储介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN116341561B (zh) 一种语音样本数据生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination