CN112287656A - 文本比对方法、装置、设备和存储介质 - Google Patents
文本比对方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112287656A CN112287656A CN202011087383.2A CN202011087383A CN112287656A CN 112287656 A CN112287656 A CN 112287656A CN 202011087383 A CN202011087383 A CN 202011087383A CN 112287656 A CN112287656 A CN 112287656A
- Authority
- CN
- China
- Prior art keywords
- text
- compared
- training
- target
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000003062 neural network model Methods 0.000 claims abstract description 88
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 82
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 62
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 230000000306 recurrent effect Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 20
- 230000008569 process Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请公开了一种文本比对方法、装置、设备和存储介质。方法包括获取原始文本并进行第一预处理,得到文本类别;获取待比对文本和目标文本并进行第二预处理,得到待比对文本和目标文本的共现词集合;根据文本类别,获取与对应的双向循环神经网络模型;利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。本申请基于文本类别获取对应的双向循环神经网络模型,能够增加神经网络输出结果的准确度和提高比对效率,并且在训练过程中也能够减小神经网络的学习和训练工作量。本申请解决相关技术中利用每一类原始样本直接对神经网络模型进行训练、学习和预测,存在工作量较大,效率较低,预测结果准确度不高的技术问题。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本比对方法、装置、设备和存储介质。
背景技术
目前,国际社会高度协同融合,外语技能在工作和生活交流的地位越来越重要,其中,基于神经网络的文本比对方法在整个机器翻译领域具有十分重要的地位。近十几年来,自然语言处理进入新的领域,从向量空间模型、潜在语义模型等文章分类算法迈入了神经网络语言建模,多种神经网络结构被引入到语言建模中。
相对于传统的语言建模技术,神经网络语言建模技术具有显著的优势,比如用分布式表示方法,将词映射到连续空间,有效解决了数据稀疏的问题,并且获得的词向量能够体现词与词之间的相似性,另外,由于神经网络强大的模式学习能力,在采用困惑度(Perplexity,PPL)为性能指标时,神经网络语言建模远优于传统的语言建模方法。
前向神经网络是最早被引入到语言建模中的神经网络结构,随后是循环神经网络,包括标准循环神经网络、长短期记忆循环神经网络和门限循环单元神经网络,接着卷积神经网络也在语言建模中取得了出乎意料的成功。但是,现有的神经网络语言建模是利用每一类原始样本直接对神经网络模型进行训练、学习和预测,因此存在工作量较大,效率较低,预测结果准确度不高的问题。
针对相关技术中利用每一类原始样本直接对神经网络模型进行训练、学习和预测,存在工作量较大,效率较低,预测结果准确度不高的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本比对方法、装置、设备和存储介质,以解决相关技术中利用每一类原始样本直接对神经网络模型进行训练、学习和预测,存在工作量较大,效率较低,预测结果准确度不高的问题。
为了实现上述目的,第一方面,本申请提供了一种文本比对方法。
根据本申请的方法包括:
获取原始文本,对原始文本进行第一预处理,得到原始文本的文本类别;
获取待比对文本和目标文本,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合;
根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果;
利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
在本申请一种可能的实现方式中,对原始文本进行第一预处理,得到原始文本的文本类别,包括:
将原始文本转换为原始文本字符流;
根据原始文本字符流提取原始文本的所属领域和关键词;
根据所属领域和关键词,得到原始文本的文本类别。
在本申请一种可能的实现方式中,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合,包括:
将待比对文本转换为待比对字符流,将目标文本转换为目标字符流;
分别按照第一预设规则对待比对字符流和目标字符流进行字符流过滤,得到待比对字符流组和目标字符流组;
分别按照第二预设规则对待比对字符流组和目标字符流组进行分词,得到待比对标记流和目标标记流;
根据第三预设规则分别对待比对标记流和目标标记流进行比对,得到待比对标记流和目标标记流的多个共现词,由多个共现词组成共现词集合。
在本申请一种可能的实现方式中,方法还包括:
获取训练文本和训练文本对应的参考文本;
将训练文本输入预设双向循环神经网络模型,利用训练文本对预设双向循环神经网络模型进行训练,得到训练结果;
将训练结果与参考文本进行比对,得到比对结果;
将比对结果反馈到预设双向循环神经网络模型,调整预设双向循环神经网络模型的权重参数;
直至比对结果达到预设阈值,将训练好的预设双向循环神经网络模型确定为双向循环神经网络模型。
在本申请一种可能的实现方式中,将训练结果与参考文本进行比对,得到比对结果,包括:
提取训练结果与参考文本之间的训练共现词集合,训练共现词集合由训练结果和参考文本之间的多个训练共现词组成;
基于训练共现词集合中的每一个训练共现词分别对训练结果和参考文本进行定位;
比对训练结果中每一个训练共现词出现的训练语句与参考文本中相应的训练共现词出现的参考语句;
根据训练语句与参考语句的相似度,得到比对结果。
在本申请一种可能的实现方式中,训练结果包括预设双向循环神经网络模型根据训练文本输出的对应的词向量和词向量的概率向量。
在本申请一种可能的实现方式中,方法还包括:
根据双向循环神经网络模型的模型参数与相似结果,对待比对文本进行评价。
第二方面,本申请还提供了一种文本比对装置,装置包括:
获取模块,用于获取原始文本、待比对文本和目标文本;
处理模块,用于对原始文本进行第一预处理,得到原始文本的文本类别;
对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合;
根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果;
输出模块,用于利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
在本申请一种可能的实现方式中,处理模块具体用于:
将原始文本转换为原始文本字符流;
根据原始文本字符流提取原始文本的所属领域和关键词;
根据所属领域和关键词,得到原始文本的文本类别。
在本申请一种可能的实现方式中,处理模块具体还用于:
将待比对文本转换为待比对字符流,将目标文本转换为目标字符流;
分别按照第一预设规则对待比对字符流和目标字符流进行字符流过滤,得到待比对字符流组和目标字符流组;
分别按照第二预设规则对待比对字符流组和目标字符流组进行分词,得到待比对标记流和目标标记流;
根据第三预设规则分别对待比对标记流和目标标记流进行比对,得到待比对标记流和目标标记流的多个共现词,由多个共现词组成共现词集合。
在本申请一种可能的实现方式中,处理模块具体还用于:
获取训练文本和训练文本对应的参考文本;
将训练文本输入预设双向循环神经网络模型,利用训练文本对预设双向循环神经网络模型进行训练,得到训练结果;
将训练结果与参考文本进行比对,得到比对结果;
将比对结果反馈到预设双向循环神经网络模型,调整预设双向循环神经网络模型的权重参数;
直至比对结果达到预设阈值,将训练好的预设双向循环神经网络模型确定为双向循环神经网络模型。
在本申请一种可能的实现方式中,处理模块具体还用于:
提取训练结果与参考文本之间的训练共现词集合,训练共现词集合由训练结果和参考文本之间的多个训练共现词组成;
基于训练共现词集合中的每一个训练共现词分别对训练结果和参考文本进行定位;
比对训练结果中每一个训练共现词出现的训练语句与参考文本中相应的训练共现词出现的参考语句;
根据训练语句与参考语句的相似度,得到比对结果。
在本申请一种可能的实现方式中,输出模块具体用于:
根据双向循环神经网络模型的模型参数与相似结果,对待比对文本进行评价。
第三方面,本申请还提供了一种文本比对电子设备,电子设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现第一方面中任一项的文本比对方法。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行第一方面任一项的文本比对方法中的步骤。
在本申请实施例中,提供一种文本比对方法,首先根据原始文本得到文本类别,基于文本类别获取对应的双向循环神经网络模型,能够增加神经网络输出结果的准确度和提高比对效率,并且在训练过程中也能够减小神经网络的学习和训练工作量;然后本申请中利用双向循环神经网络模型根据待比对文本与目标文本的共现词集合来进行语句匹配,能够进一步提高准确率;进而解决相关技术中利用每一类原始样本直接对神经网络模型进行训练、学习和预测,存在工作量较大,效率较低,预测结果准确度不高的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种文本比对方法的一个实施例流程示意图;
图2是根据本申请实施例提供的对原始文本进行第一预处理的一个实施例流程示意图;
图3是根据本申请实施例提供的对待比对文本和目标文本进行第二预处理的一个实施例流程示意图;
图4是根据本申请实施例提供的获取双向循环神经网络模型的一个实施例流程示意图;
图5是根据本申请实施例提供的一种文本比对装置的一个实施例结构示意图;
图6是根据本申请实施例提供的一种文本比对电子设备的一个实施例结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
首先,本申请实施例提供一种文本比对方法,该文本比对方法的执行主体为文本比对装置,该文本比对装置应用于处理器,该文本比对方法包括:获取原始文本,对原始文本进行第一预处理,得到原始文本的文本类别;获取待比对文本和目标文本,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合;根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果;利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
请参阅图1,图1为本申请实施例所提供的一种文本比对方法的一个实施例流程示意图,该文本比对方法包括:
101、获取原始文本,对原始文本进行第一预处理,得到原始文本的文本类别。
本申请实施例中,目标是对原始文本经过翻译的待比对文本,以及,原始文本经过翻译后需要达到的目标文本,进行文本比对,在进行比对之前,本申请实施例中首先对该原始文本进行第一预处理,识别得到该原始文本的文本类别,以使得后续比对过程中,调用与该原始文本的文本类别相对应的比对模型,能够增加比对模型预测结果的准确度。
102、获取待比对文本和目标文本,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合。
本申请实施例中,原始文本、待比对文本和目标文本可以存储于现有的任一类型的数据库中,比如关系型事务数据库,本申请实施例中,由于需要对原始文本经过翻译的待比对文本和该原始文本经过翻译后需要达到的目标文本进行比对,因此,在进行比对之前,对待比对文本和目标文本进行第二预处理,查找并提取该待比对文本和该目标文本之间的多个共现词,该多个共现词表示待比对文本和目标文本之间同时存在的多个词,由该多个共现词构成共现词集合。
需要说明的是,本申请实施例中,还可以在提取共现词之前,分别对待比对文本进行待比对关键词统计,以及,对目标文本进行目标关键词统计,待比对关键词统计可以是统计待比对文本中出现频次大于用户设置的频次阈值的多个词语,由该多个词语形成待比对文本的待比对关键词;同样的,目标关键词统计可以是统计目标文本中出现频次大于用户设置的目标频次阈值的多个词语,由该多个词语形成目标文本的目标关键词;其中,待比对关键词统计中涉及的频次阈值与目标关键词统计中涉及的目标频次阈值应当尽量保持一致,以确保比对结果的准确性。
103、根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果。
循环神经网络由于具有记忆功能,因此擅长处理序列方面的问题,它能提取序列之间的特征,进而对序列输出进行预测,比如我说“我肚子饿了,准备去xx”,那么根据前面的序列输入来预测“xx”很可能就是“吃饭”。本申请实施例中,根据步骤101中得到的原始文本的文本类别来调用与该文本类别对应的双向循环神经网络模型,本申请的双向循环神经网络模型不仅可以正向检索预测看到t时刻、t-1时刻、t+1时刻等不同时刻输入对应的不同输出,而且上一时刻的隐含层会影响当前时刻的输出,并且还可以关联未来时刻的输入,进行反向检索预测,其预测可以由前面若干输入和后面若干输入共同决定,使得预测更加准确。
本申请实施例中,双向循环神经网络模型可以根据步骤102中得到共现词集合中的共现词对待比对文本和目标文本进行语句匹配,从而输出待比对文本与目标文本的相似结果。
104、利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
在本申请实施例中,根据原始文本得到文本类别,基于文本类别获取对应的双向循环神经网络模型,能够增加神经网络输出结果的准确度和提高比对效率,并且利用双向循环神经网络模型根据待比对文本与目标文本的共现词集合来进行语句匹配,不仅能够正向检索预测,还能够反向检索预测,能够进一步提高准确率。
如图2所示,为本申请实施例提供的对原始文本进行第一预处理的一个实施例流程示意图,在本申请一些实施例中,对原始文本进行第一预处理,得到原始文本的文本类别,可以进一步包括:
201、将原始文本转换为原始文本字符流。
本申请实施例中,可以通过字符流过滤器将原始文本转换为原始文本字符流,使得文本以字符流的形式进入比对系统,具体的,字符流过滤器可以按照预设的编码方式,比如设定固定数量的字节代表一个字符等,使得原始文本按照该编码方式从字节流向字符流的转换。
202、根据原始文本字符流提取原始文本的所属领域和关键词。
本申请实施例中,可以将原始文本字符流中出现频率较高的字符所对应的一个或多个词确定为该原始文本的关键词,根据该一个或多个关键词的释意以及关联性来确定该原始文本的所属领域。
203、根据所属领域和关键词,得到原始文本的文本类别。
本申请实施例中,可以基于该原始文本的所属领域和一个或多个关键词对原始文本的文本类别进行归纳,后续对比时,通过调用与该原始文本的文本类别对应的双向循环神经网络模型来对待比对文件进行比对,能够使得预测结果精确度更高。
如图3所示,为根据本申请实施例提供的对待比对文本和目标文本进行第二预处理的一个实施例流程示意图,在本申请一些实施例中,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合,可以进一步包括:
301、将待比对文本转换为待比对字符流,将目标文本转换为目标字符流。
302、分别按照第一预设规则对待比对字符流和目标字符流进行字符流过滤,得到待比对字符流组和目标字符流组。
与步骤201中类似,本申请实施例中可以通过字符流过滤器将待比对文本转换为待比对字符流,将目标文本转换为目标字符流,使得待比对文本和目标文本以字符流的形式进入比对系统。
303、分别按照第二预设规则对待比对字符流组和目标字符流组进行分词,得到待比对标记流和目标标记流。
本申请实施例中,利用设置有第二预设规则的token分析器对待比对字符流组和目标字符流组进行分词,形成对应的待比对标记流和目标标记流,本申请实施例的第二预设规则可以为每一种token定义相应的类型和值,按照该规则进行分词,进而得到待比对标记流和目标标记流。
304、根据第三预设规则分别对待比对标记流和目标标记流进行比对,得到待比对标记流和目标标记流的多个共现词,由多个共现词组成共现词集合。
本申请实施例中,查找并提取该待比对标记流和该目标标记流之间的多个共现词,该多个共现词表示待比对文本和目标文本之间同时存在的多个词,由该多个共现词构成共现词集合。
如图4所示,为根据本申请实施例提供的获取双向循环神经网络模型的一个实施例流程示意图,在本申请一些实施例中,方法可以进一步包括:
401、获取训练文本和训练文本对应的参考文本。
本申请实施例中,训练文本可以是初始文本经过翻译的多个翻译文本,而训练文本对应的参考文本则是初始文本对应的标准翻译文本,训练目标则是对翻译文本与标准翻译文本进行比对。
402、将训练文本输入预设双向循环神经网络模型,利用训练文本对预设双向循环神经网络模型进行训练,得到训练结果。
本申请实施例中,训练结果包括预设双向循环神经网络模型根据训练文本输出的对应的词向量和词向量的概率向量,预设双向循环神经网络模型能够根据已经获得的训练文本的n-1个词,预测推断出第n个词,该预设双向循环神经网络模型包括输入层、隐藏层和输出层,训练结果Ot为正向计算结果和反向计算结果之和,该正向计算结果St根据输入层的当前时刻t的输入数据xt与当前输入层权重矩阵U,以及,隐藏层t-1时刻的隐藏数据St-1与t-1时刻的隐藏层权重矩阵W计算得到,该反向计算结果S’t根据输入层的当前时刻t的输入数据xt与t+1时刻输入层权重矩阵U’,以及,隐藏层t+1时刻的隐藏数据S’t+1与t+1时刻的隐藏层权重矩阵W’计算得到,计算公式为:
Ot=g(VSt+V’S’t)
St=f(Uxt+WSt-1)
S’t=f(U’xt+W’S’t+1)
例如,对于参考文本:我的手机坏了,我需要再买一部新的手机,正向检索:我的手机坏了,我需要再买一部新的(),经过正向计算,可以预测出下一个单词的词向量,其中手机的概率最大;反向检索:我的手机坏了,我需要再()一部新的手机,如果只根据括号前面的我需要再,无法得出一个明确指向的词语,是“丢”、“买”还是“卖”。但是再经过从后往前反向计算后,便能得出一个相对正确的向量词。
403、将训练结果与参考文本进行比对,得到比对结果。
本申请中,提取训练结果与参考文本之间的训练共现词集合,训练共现词集合由训练结果和参考文本之间的多个训练共现词组成,基于该训练共现词集合中的每一个训练共现词分别对训练结果和参考文本进行定位,比对训练结果中每一个训练共现词出现的训练语句与参考文本中相应的训练共现词出现的参考语句,根据训练语句与参考语句的相似度,得到比对结果。
404、将比对结果反馈到预设双向循环神经网络模型,调整预设双向循环神经网络模型的权重参数。
405、直至比对结果达到预设阈值,将训练好的预设双向循环神经网络模型确定为双向循环神经网络模型。
本申请实施例,在训练阶段主要运用神经网络技术比对输入的训练文本和训练文本对应的参考文本,根据相应的权重、阈值和输入值建立模型,判断出相应的输出值,然后运用大数据不停训练模型,得出权重、阈值等相关模型参数的最佳数值,以此来确定双向循环神经网络模型的权重参数,并且建模成功后基于TB级的数据量进行相关训练,得出的双向循环神经网络模型,随着数据量的增大和数据信息的指向性加强,本申请实施例比对方法的精准度将呈现非线性增长。
在本申请一些实施例中,方法还可以包括:根据双向循环神经网络模型的模型参数与相似结果,对待比对文本进行评价,具体的,根据步骤405得出的双向循环神经网络模型的权重、阈值等参数与相似结果,对待比对文本进行评价,得出待比对文本的得分,计算公式为:总得分Σ=Ot1+Ot2+Ot3+...+Otn。
为了更好实施本申请实施例中的文本比对方法,在文本比对方法基础之上,本申请实施例还提供一种文本比对装置,如图5所示,文本比对装置500包括:
获取模块501,用于获取原始文本、待比对文本和目标文本;
处理模块502,用于对原始文本进行第一预处理,得到原始文本的文本类别;
对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合;
根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果;
输出模块503,用于利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
在本申请一些实施例中,处理模块502具体用于:
将原始文本转换为原始文本字符流;
根据原始文本字符流提取原始文本的所属领域和关键词;
根据所属领域和关键词,得到原始文本的文本类别。
在本申请一些实施例中,处理模块502具体还用于:
将待比对文本转换为待比对字符流,将目标文本转换为目标字符流;
分别按照第一预设规则对待比对字符流和目标字符流进行字符流过滤,得到待比对字符流组和目标字符流组;
分别按照第二预设规则对待比对字符流组和目标字符流组进行分词,得到待比对标记流和目标标记流;
根据第三预设规则分别对待比对标记流和目标标记流进行比对,得到待比对标记流和目标标记流的多个共现词,由多个共现词组成共现词集合。
在本申请一些实施例中,处理模块502具体还用于:
获取训练文本和训练文本对应的参考文本;
将训练文本输入预设双向循环神经网络模型,利用训练文本对预设双向循环神经网络模型进行训练,得到训练结果;
将训练结果与参考文本进行比对,得到比对结果;
将比对结果反馈到预设双向循环神经网络模型,调整预设双向循环神经网络模型的权重参数;
直至比对结果达到预设阈值,将训练好的预设双向循环神经网络模型确定为双向循环神经网络模型。
在本申请一些实施例中,处理模块502具体还用于:
提取训练结果与参考文本之间的训练共现词集合,训练共现词集合由训练结果和参考文本之间的多个训练共现词组成;
基于训练共现词集合中的每一个训练共现词分别对训练结果和参考文本进行定位;
比对训练结果中每一个训练共现词出现的训练语句与参考文本中相应的训练共现词出现的参考语句;
根据训练语句与参考语句的相似度,得到比对结果。
在本申请一些实施例中,输出模块503具体用于:
根据双向循环神经网络模型的模型参数与相似结果,对待比对文本进行评价。
具体的,本申请实施例的装置中各模块实现其功能的具体过程可参见如图1至图4对应任意实施例中文本比对方法的说明,具体在此不再赘述。
本申请实施例还提供一种文本比对电子设备,其集成了本申请实施例所提供的任一种文本比对装置,该电子设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行上述文本比对方法实施例中任一实施例中的文本比对方法中的步骤。
本申请实施例的一种文本比对电子设备,其集成了本申请实施例所提供的任一种文本比对装置。如图6所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;处理器601可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
该电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取原始文本,对原始文本进行第一预处理,得到原始文本的文本类别;
获取待比对文本和目标文本,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合;
根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果;
利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的文本比对装置、电子设备及其相应单元的具体工作过程,可以参考如图1至图4对应任意实施例中文本比对方法的说明,具体在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器601进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种文本比对方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
获取原始文本,对原始文本进行第一预处理,得到原始文本的文本类别;
获取待比对文本和目标文本,对待比对文本和目标文本进行第二预处理,得到待比对文本和目标文本的共现词集合;
根据文本类别,获取与文本类别相对应的双向循环神经网络模型,双向循环神经网络模型用于根据共现词集合中的共现词对待比对文本和目标文本进行语句匹配,得到待比对文本与目标文本的相似结果;
利用双向循环神经网络模型输出待比对文本与目标文本的相似结果,完成文本比对。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本比对方法,其特征在于,包括:
获取原始文本,对所述原始文本进行第一预处理,得到所述原始文本的文本类别;
获取待比对文本和目标文本,对所述待比对文本和所述目标文本进行第二预处理,得到所述待比对文本和所述目标文本的共现词集合;
根据所述文本类别,获取与所述文本类别相对应的双向循环神经网络模型,所述双向循环神经网络模型用于根据所述共现词集合中的共现词对所述待比对文本和所述目标文本进行语句匹配,得到所述待比对文本与所述目标文本的相似结果;
利用所述双向循环神经网络模型输出所述待比对文本与所述目标文本的所述相似结果,完成文本比对。
2.如权利要求1所述的方法,其特征在于,所述对所述原始文本进行第一预处理,得到所述原始文本的文本类别,包括:
将所述原始文本转换为原始文本字符流;
根据所述原始文本字符流提取所述原始文本的所属领域和关键词;
根据所述所属领域和关键词,得到所述原始文本的文本类别。
3.如权利要求1所述的方法,其特征在于,所述对所述待比对文本和所述目标文本进行第二预处理,得到所述待比对文本和所述目标文本的共现词集合,包括:
将所述待比对文本转换为待比对字符流,将所述目标文本转换为目标字符流;
分别按照第一预设规则对所述待比对字符流和所述目标字符流进行字符流过滤,得到待比对字符流组和目标字符流组;
分别按照第二预设规则对所述待比对字符流组和所述目标字符流组进行分词,得到待比对标记流和目标标记流;
根据第三预设规则分别对所述待比对标记流和所述目标标记流进行比对,得到所述待比对标记流和所述目标标记流的多个共现词,由所述多个共现词组成所述共现词集合。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练文本和所述训练文本对应的参考文本;
将所述训练文本输入预设双向循环神经网络模型,利用所述训练文本对所述预设双向循环神经网络模型进行训练,得到训练结果;
将所述训练结果与所述参考文本进行比对,得到比对结果;
将所述比对结果反馈到所述预设双向循环神经网络模型,调整所述预设双向循环神经网络模型的权重参数;
直至所述比对结果达到预设阈值,将训练好的所述预设双向循环神经网络模型确定为所述双向循环神经网络模型。
5.如权利要求4所述的方法,其特征在于,所述将所述训练结果与所述参考文本进行比对,得到比对结果,包括:
提取所述训练结果与所述参考文本之间的训练共现词集合,所述训练共现词集合由所述训练结果和所述参考文本之间的多个训练共现词组成;
基于所述训练共现词集合中的每一个训练共现词分别对所述训练结果和所述参考文本进行定位;
比对所述训练结果中每一个训练共现词出现的训练语句与所述参考文本中相应的所述训练共现词出现的参考语句;
根据所述训练语句与所述参考语句的相似度,得到所述比对结果。
6.如权利要求4所述的方法,其特征在于,所述训练结果包括所述预设双向循环神经网络模型根据所述训练文本输出的对应的词向量和所述词向量的概率向量。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述双向循环神经网络模型的模型参数与所述相似结果,对所述待比对文本进行评价。
8.一种文本比对装置,其特征在于,包括:
获取模块,用于获取原始文本、待比对文本和目标文本;
处理模块,用于对所述原始文本进行第一预处理,得到所述原始文本的文本类别;
对所述待比对文本和所述目标文本进行第二预处理,得到所述待比对文本和所述目标文本的共现词集合;
根据所述文本类别,获取与所述文本类别相对应的双向循环神经网络模型,所述双向循环神经网络模型用于根据所述共现词集合中的共现词对所述待比对文本和所述目标文本进行语句匹配,得到所述待比对文本与所述目标文本的相似结果;
输出模块,用于利用所述双向循环神经网络模型输出所述待比对文本与所述目标文本的所述相似结果,完成文本比对。
9.一种文本比对电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1-7中任一项所述的文本比对方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1-7任一项所述的文本比对方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087383.2A CN112287656A (zh) | 2020-10-12 | 2020-10-12 | 文本比对方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087383.2A CN112287656A (zh) | 2020-10-12 | 2020-10-12 | 文本比对方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287656A true CN112287656A (zh) | 2021-01-29 |
Family
ID=74496871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011087383.2A Pending CN112287656A (zh) | 2020-10-12 | 2020-10-12 | 文本比对方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287656A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377904A (zh) * | 2021-06-04 | 2021-09-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
CN113642311A (zh) * | 2021-08-12 | 2021-11-12 | 北京奇艺世纪科技有限公司 | 一种数据对比方法、装置、电子设备及存储介质 |
CN114925692A (zh) * | 2022-07-21 | 2022-08-19 | 中科雨辰科技有限公司 | 一种获取目标事件的数据处理系统 |
CN113377904B (zh) * | 2021-06-04 | 2024-05-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
WO2019114695A1 (zh) * | 2017-12-15 | 2019-06-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110263350A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、计算机可读存储介质和计算机设备 |
CN110263348A (zh) * | 2019-03-06 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 翻译方法、装置、计算机设备和存储介质 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN111046213A (zh) * | 2019-12-18 | 2020-04-21 | 电子科技大学 | 一种基于图像识别的知识库构建方法 |
WO2020108483A1 (zh) * | 2018-11-28 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 模型训练方法、机器翻译方法、计算机设备和存储介质 |
CN111325038A (zh) * | 2020-02-03 | 2020-06-23 | 苏州交驰人工智能研究院有限公司 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
CN111652664A (zh) * | 2019-03-04 | 2020-09-11 | 富士通株式会社 | 训练混合元学习网络的装置和方法 |
-
2020
- 2020-10-12 CN CN202011087383.2A patent/CN112287656A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019114695A1 (zh) * | 2017-12-15 | 2019-06-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
WO2020108483A1 (zh) * | 2018-11-28 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 模型训练方法、机器翻译方法、计算机设备和存储介质 |
CN111652664A (zh) * | 2019-03-04 | 2020-09-11 | 富士通株式会社 | 训练混合元学习网络的装置和方法 |
CN110263348A (zh) * | 2019-03-06 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 翻译方法、装置、计算机设备和存储介质 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110263350A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、计算机可读存储介质和计算机设备 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN111046213A (zh) * | 2019-12-18 | 2020-04-21 | 电子科技大学 | 一种基于图像识别的知识库构建方法 |
CN111325038A (zh) * | 2020-02-03 | 2020-06-23 | 苏州交驰人工智能研究院有限公司 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
乔伟涛等: "基于Transformer编码器的语义相似度算法研究", 《计算机工程与应用》, vol. 57, no. 14, pages 158 - 163 * |
贾惠娟: "一种改进的文本相似度算法在政务系统中的应用", 《信息技术与信息化》, no. 7, pages 49 - 52 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377904A (zh) * | 2021-06-04 | 2021-09-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
CN113377904B (zh) * | 2021-06-04 | 2024-05-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
CN113642311A (zh) * | 2021-08-12 | 2021-11-12 | 北京奇艺世纪科技有限公司 | 一种数据对比方法、装置、电子设备及存储介质 |
CN113642311B (zh) * | 2021-08-12 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种数据对比方法、装置、电子设备及存储介质 |
CN114925692A (zh) * | 2022-07-21 | 2022-08-19 | 中科雨辰科技有限公司 | 一种获取目标事件的数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN110717339A (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN112052356B (zh) | 多媒体分类方法、装置和计算机可读存储介质 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
WO2021129123A1 (zh) | 语料数据处理方法、装置、服务器和存储介质 | |
CN112163425A (zh) | 基于多特征信息增强的文本实体关系抽取方法 | |
CN111563158B (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN115238076A (zh) | 提高多层级专利文本分类效果的方法、设备及存储介质 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN112287656A (zh) | 文本比对方法、装置、设备和存储介质 | |
CN113449204A (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN110867225A (zh) | 字符级临床概念提取命名实体识别方法及系统 | |
Ding et al. | A Knowledge-Enriched and Span-Based Network for Joint Entity and Relation Extraction. | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
Wang et al. | Image captioning based on deep learning methods: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |