CN112380837B - 基于翻译模型的相似句子匹配方法、装置、设备及介质 - Google Patents
基于翻译模型的相似句子匹配方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112380837B CN112380837B CN202011268254.3A CN202011268254A CN112380837B CN 112380837 B CN112380837 B CN 112380837B CN 202011268254 A CN202011268254 A CN 202011268254A CN 112380837 B CN112380837 B CN 112380837B
- Authority
- CN
- China
- Prior art keywords
- sentence
- translation
- training
- similarity
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 260
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 203
- 239000013598 vector Substances 0.000 claims description 203
- 238000012545 processing Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种基于翻译模型的相似句子匹配方法、装置、设备及介质。该方法通过预设的神经网络翻译模型分别对获取的待匹配句子和各样本句子进行翻译处理,得到第一翻译句子以及第二翻译句子;将第一翻译句子和各第二翻译句子输入至翻译语言模型中,得到第一相似度;将待匹配句子和各样本句子输入至中文语言模型中,得到第二相似度;根据与同一个样本句子对应的第一相似度和第二相似度,确定该样本句子与待匹配句子之间的语义相似度;选取与各样本句子对应的语义相似度中的最大值,在最大值大于或等于预设相似度阈值时,将与最大值对应的样本句子记录为与待匹配句子对应的相似句子。本发明提高了句子相似度匹配的准确率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于翻译模型的相似句子匹配方法、装置、设备及介质。
背景技术
随着科学技术的发展,人工智能技术也得以应用在各个领域,例如自然语言处理领域、图像识别领域等。在自然语言处理领域中,越来越多的语言模型可以实现如文字识别、文本相似度比较等功能。
现有技术中,常常采用如Bert模型等预训练模型进行语义相似度匹配等任务,这些预训练模型对于长句子(如15至20个字符的句子)的处理表现较好,但对于短语或者短句子(如2至7个字符的句子)的相似度的判别较差,如此会导致在文字识别或文本相似度比较过程中,整体判别准确率较低。
发明内容
本发明实施例提供一种基于翻译模型的相似句子匹配方法、装置、设备及介质,以解决现有技术终端预训练模型在文字识别或文本相似度比较过程中,整体判别准确率较低的问题。
一种基于翻译模型的相似句子匹配方法,包括:
获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子;
通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子;
将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子分别与各所述第二翻译句子之间的第一相似度;将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子分别与各所述样本句子之间的第二相似度;
根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度;
选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子。
一种基于翻译模型的相似句子匹配装置,包括:
句子获取模块,用于获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子;
翻译处理模块,用于通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子;
相似度确定模块,用于将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子与各所述第二翻译句子之间的第一相似度;同时,将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子与各所述样本句子之间的第二相似度;
语义相似度确定模块,用于根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度;
相似句子判断模块,用于选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于翻译模型的相似句子匹配方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于翻译模型的相似句子匹配方法。
上述基于翻译模型的相似句子匹配方法、装置、设备及介质,通过获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子;通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子;将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子与各所述第二翻译句子之间的第一相似度;同时,将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子与各所述样本句子之间的第二相似度;根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度;选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子。
本发明通过引入翻译模型来提升中文短文本语义匹配相似度。在加入翻译模型之后,由于翻译后的句子(如英文句子)与中文句子语义不会改变,并且翻译后的句子几乎不需要分词,因此可以避免由于分词错误导致识别率低的问题。进一步地,由于翻译句子中每一个字符的语义均相对固定,从而语言模型在对翻译句子进行语义特征提取时,可以较好的获取每一个字符的在对应文本中的语义,进而可以避免现有技术中仅通过语言模型对中文短文本进行处理时,由于语言模型对中文短文本语义特征提取不够敏感,从而导致出现字符歧义的问题,提高了相似度匹配的准确率。,
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于翻译模型的相似句子匹配方法的一应用环境示意图;
图2是本发明一实施例中基于翻译模型的相似句子匹配方法的一流程图;
图3是本发明一实施例中基于翻译模型的相似句子匹配方法中步骤S20的一流程图;
图4是本发明一实施例中基于翻译模型的相似句子匹配装置的一原理框图;
图5是本发明一实施例中基于翻译模型的相似句子匹配装置中翻译处理模块的一原理框图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于翻译模型的相似句子匹配方法,该基于翻译模型的相似句子匹配方法可应用如图1所示的应用环境中。具体地,该基于翻译模型的相似句子匹配方法应用在基于翻译模型的相似句子匹配系统中,该基于翻译模型的相似句子匹配系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术终端预训练模型在文字识别或文本相似度比较过程中,整体判别准确率较低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种基于翻译模型的相似句子匹配方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子。
其中,待匹配句子指的是等待匹配与其语义相似句子的句子。样本句子集可以根据该方法使用的场景的不同进行选取,示例性地,样本句子集可以为问答系统场景下常用的问答句子,也可以是推荐系统场景下常用的推荐信息等。进一步地,本实施例中的待匹配句子和样本句子均选取中文短语亦或者如字符数量为2至7等字符数量较少的短句子,进而表征本发明主要针对的是现有技术对于短语或者短句子的语义识别效果差,且对于短语或者短句子分词正确率极低的问题。除此之外,对于长句子(如字符数量为15-20个等字符数量较多的句子),本实施例中也同样可以实现,但是在此不再赘述。
需要说明的是,待匹配句子和样本句子均仅为包含中文字符的句子,若其它句子中包含除中文字符外的其它字符(如英文字符、特殊符号等),且这些其它字符剔除后不会影响该句子的整体语义,则可以将对其它字符进行剔除后的句子作为待匹配句子或者样本句子,示例性地,如一些句子中包含的句号,感叹号等标点符号,一般不会影响整个句子的语义,则可以将对这些标点符号进行剔除后的句子作为待匹配句子或者样本句子。
S20:通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子。
其中,预设的神经网络翻译模型可采用第三方工具来执行建模,例如google、百度或者translate api等。第一翻译句子和第二翻译句子可以为与样本句子的文本语法差别较大的句子,第一翻译句子和第二翻译句子为同一种语言的翻译句子,示例性地,第一翻译句子和第二翻译句子均可以为英文句子。
具体地,如图3所示,步骤S20中包括如下步骤:
S201:对所述待匹配句子进行向量编码,得到与所述待匹配句子各字词对应的中文词向量。
具体地,在获取待匹配句子之后,对待匹配句子中各字词进行分词,并对分词后的待匹配句子进行向量编码,进而得到与待匹配句子中各字词对应的中文词向量。其中,可以通过结巴分词模型对待匹配句子中各字词进行分词,该结巴分词模型可以根据本发明的基于翻译模型的相似句子匹配方法的应用场景进行训练。示例性地,假设该方法应用在推荐场景下,则可以根据推荐信息中常用的字词组合进行训练(如“活动”,“积分”等字词,而不是将每一字符拆分开来为“活”“动”)。
S202:获取预设向量词典,所述预设向量词典中包含与每一所述中文词向量对应的至少一个翻译词向量。
其中,预设向量词典指的是预先训练或者采集得到的向量转换词典,该预设向量词典中包含与每一所述中文词向量对应的至少一个翻译词向量,示例性地,一个中文字词可能有多种英文字词可以表示,如“活泼”对应英文字词可以有“active”、“lively”等,因此一个中文词向量可以对应于几个英文词向量,亦或者一个中文词向量还可以对应于其它语言的词向量。需要说明的是,该翻译词向量对应的含义需要与中文词向量对应的含义相同。
S203:对各中文词向量对应的所有翻译词向量进行翻译预测之后,得到所述第一翻译句子。
具体地,在对所述待匹配句子进行向量编码,得到与所述待匹配句子各字词对应的中文词向量,并获取预设向量词典之后,获取各预设向量词典中与各中文词向量对应的所有翻译词向量,并将一个翻译词向量代替与其对应的中文词向量,以得到由不同翻译词向量组成的句子组合,并对各句子组合进行翻译预测,也即预测每个翻译词向量与其它翻译词向量之间的上下文联系,是否与各中文词向量之间的上下文联系是否相同,进而可以得到每一翻译词向量在每一句子组合中的概率,对每一翻译词向量的概率进行加权和处理,得到各句子组合对应于待匹配句子的总概率值;选取总概率值最高的句子组合作为与待匹配句子对应的第一翻译句子。
进一步地,对于通过预设的神经网络翻译模型对各样本句子进行翻译处理,也即在将样本句子输入至预设的神经网络翻译模型之后,执行如步骤S201至S203的过程即可得到与各样本句子对应的第二翻译句子,在此不再赘述。
在一具体实施方式中,步骤S20之前,也即通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理之前,还包括:
(1)获取中文样本集以及包含第二初始参数的预设翻译模型,所述中文样本集中包含至少一个中文样本句子;所述预设翻译模型中包含翻译模块以及回译模块。
其中,中文样本集中包含至少一个中文样本句子,可以理解地,本实施例中的中文样本句子为仅包含中文字符的句子,该中文样本句子可以根据不同场景进行选择。在本实施例中,中文样本句子可以选取短语或者字符数量较少(如字符数量为2至9等)的短句子,也可以选择字符数量较多(如字符数量为15至20等)的长句子,因为此处仅仅是需要训练翻译模型,所以不管是字符数量多或者字符数量少的句子均可以对翻译模型起到训练的作用。进一步地,该预设翻译模型中包含翻译模块以及回译模块,翻译模块用于将中文样本句子翻译成另一种语言的句子;回译模块用于将上述翻译得到的另一种语言的句子回译成与中文样本句子相同语言的句子。
(2)将所述中文样本句子输入至所述预设翻译模型,通过所述翻译模块对所述中文样本句子进行翻译,得到与所述中文样本句子对应的翻译句子。
(3)通过所述回译模块对所述翻译句子进行回译,得到中文回译句子。
具体地,在获取中文样本集以及包含第二初始参数的预设翻译模型之后,将中文样本集中的中文样本句子输入至预设翻译模型中,通过该预设翻译模型中的翻译模块对中文样本句子进行翻译处理,得到与中文样本句子对应的翻译句子;再通过回译模块对该翻译句子进行回译处理,得到与翻译句子对应的中文回译句子。其中,翻译句子和中文回译句子是不属于同一语言系统的,并且翻译句子和中文样本句子之间的文本语法差别需要尽可能的大,示例性地,翻译句子可以为英文句子,英文句子与中文句子之间的文本语法差别较大,并且英文句子中每一英文字符均有其对应的固定语义。
可选地,翻译模块与回译模块均可以采用第三方工具来执行建模,例如google、百度或者translate api等。
进一步地,翻译模块与回译模块的训练语料可以使用CzEng语料(捷克英语平行语料)和欧洲议会平行语料Europarl,CzEng语料量大,可以保证翻译语义一致性;而欧洲议会平行语料Europarl是官方的人工翻译数据,可以很好的保证翻译句子和中文回译句子的流畅度、语法结构等。
(4)根据所述中文回译句子与所述中文样本句子确定所述预设翻译模型的模型损失值。
具体地,在将所述中文样本句子输入至所述预设翻译模型,通过所述翻译模块对所述中文样本句子进行翻译,得到与所述中文样本句子对应的翻译句子,通过所述回译模块对所述翻译句子进行回译,得到中文回译句子之后,根据中文回译句子和中文样本句子之间的相似度,也即中文回译句子和中文样本句子各字符之间是否相同,进而根据中文回译句子与所述中文样本句子确定所述预设翻译模型的模型损失值,该模型损失值表征预设翻译模型对中文样本句子进行翻译和回译处理过程中存在的缺失程度。
(5)在所述模型损失值未达到预设收敛条件时,迭代更新所述预设翻译模型的第二初始参数,直至所述模型损失值达到所述预设收敛条件时,将收敛之后的所述预设翻译模型记录为所述神经网络翻译模型。
可以理解地,该收敛条件可以为模型损失值小于设定阈值的条件,也即在模型损失值小于设定阈值时,停止训练;收敛条件还可以为模型损失值经过了10000次计算后值为很小且不会再下降的条件,也即模型损失值经过10000次计算后值很小且不会下降时,停止训练,并将收敛之后的所述预设翻译模型记录为所述神经网络翻译模型。
进一步地,根据所述中文回译句子与所述中文样本句子确定所述预设翻译模型的模型损失值之后,在模型损失值未达到预设的收敛条件时,根据该模型损失值调整预设翻译模型的第二初始参数,并将该中文样本句子重新输入至调整第二初始参数后的预设翻译模型中,以在该中文样本句子对应的模型损失值达到预设的收敛条件时,选取中文样本集中另一中文样本句子,并执行步骤S22-S24,得到与该中文样本句子对应的模型损失值,并在该模型损失值未达到预设的收敛条件时,根据该模型损失值再次调整预设翻译模型的第二初始参数,使得该中文样本句子对应的模型损失值也达到预设的收敛条件。
如此,在通过中文样本集中所有中文样本句子对预设翻译模型进行训练之后,使得预设翻译模型输出的结果可以不断向准确地结果靠拢,让识别准确率越来越高,直至所有中文样本句子对应的模型损失值均达到预设的收敛条件时,将收敛之后的所述预设翻译模型记录为所述神经网络翻译模型。
S30:将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子分别与各所述第二翻译句子之间的第一相似度;将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子分别与各所述样本句子之间的第二相似度。
其中,预设的翻译语言模型用于判断第一翻译句子和各第二翻译句子之间的相似度,作为优选,由于英文句子的单词字符作为特征语义,模型可以较好的控制两个英文句子之间的相似度,进而预设的翻译语言模型可以为英文语言模型。预设的中文语言模型用于判断待匹配句子与各样本句子之间的相似度。
具体地,在通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子之后,将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,对第一翻译句子和各第二翻译句子依次进行特征提取、池化、拼接、相似度判断等处理过程,进而得到第一翻译句子和各第二翻译句子之间的第一相似度;同时,将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,对待匹配句子和各样本句子进行特征提取、池化、拼接、相似度判断等处理过程,进而得到待匹配句子与各样本句子之间的第二相似度。
在另一具体实施方式中,步骤S30之前还包括:
(1)获取包含多组训练句子组合的训练样本集,所述训练句子组合包括通过特殊字符连接的两个训练句子;每一所述训练句子组合关联一个相似度标签;所述相似度标签表征所述训练句子组合中两个训练句子之间的样本相似度。
可选地,特殊字符可以为“#”、“*”等字符,该特殊字符用于连接两个训练句子。其中,训练句子可以为英文训练句子(也即语言为英文的训练句子),需要说明的是,训练句子组合中的两个训练句子的语言需要相同,才具有相似度比较的意义;进一步地,训练句子组合中的两个训练句子的语言种类(如英语、法语等其它语言),可以根据步骤S20中对待匹配句子和各样本句子进行翻译处理后得到的第一翻译句子和第二翻译句子的语言种类进行选取,以更好的在步骤S30中,用训练好的预设的翻译语言模型对第一翻译句子和第二翻译句子进行相似度比较。相似度标签表征的样本相似度可以根据人为初始判定并标记得到的。
(2)获取包含第一初始参数的预设语言模型;所述预设语言模型中包括初始预训练模型、循环神经网络和初始回归模型。
其中,预设语言模型用于确定训练句子组合中两个训练句子之间的相似度,该相似度是通过预设语言模型计算得到的,与步骤S31中相似度标签表征的样本相似度不相同。
(3)根据预设选取规则从所述训练样本集中选取一个训练句子组合作为模型训练组合,并根据与所述模型训练组合关联的相似度标签确定与其对应的样本相似度。
其中,预设选取规则可以为随机选取,也可以按照训练句子组合中总字符串长度(也即两个训练句子的字符串长度相加)从大到小或者从小到大的顺序进行选取。
具体地,在获取包含多组训练句子组合的训练样本集,以及获取包含第一初始参数的预设语言模型之后,示例性地,通过随机选取方法,从训练样本集中任意选取一个训练句子组合,并将该训练句子组合记录为模型训练组合;根据与该模型训练组合关联的相似度标签确定与其对应的样本相似度。示例性地,该模型训练组合中两个训练句子分别为“今天天气很好”和“今天天气真不错”,则通过预先人为对其进行判定,该模型训练组合中的两个训练句子之间的样本相似度为0.97。
(4)将所述模型训练组合输入至所述初始预训练模型中,得到与所述模型训练组合中第一训练句子对应的第一特征向量集,以及与所述模型训练组合中第二训练句子对应的第二特征向量集。
其中,预训练模型用于提取第一训练句子和第二训练句子中每个词对应的特征,示例性地,该预训练模型可以为bert模型等。第一特征向量集为第一训练句子中每一字符对应的特征向量的集合。第二特征向量集为第二训练句子中每一字符对应的特征向量的集合。可以理解地,第一训练句子和第二训练句子即为模型训练组合中通过特殊字符连接的两个训练句子。
具体地,在根据预设选取规则从所述训练样本集中选取一个训练句子组合作为模型训练组合之后,将模型训练组合输入至初始预训练模型中,对模型训练组合中第一训练句子进行特征提取,得到与第一训练句子中每一字符对应的特征向量,也即第一特征向量,将所有第一特征向量集合成第一特征向量集;同时,对第二训练句子进行特征提取,得到与第二训练句子中每一字符对应的特征向量,也即第二特征向量,将所有第二特征向量集合成第二特征向量集。
(5)在将所述第一特征向量集和所述第二特征向量集输入至循环神经网络中,并获取循环神经网络输出新的第一特征向量集和新的第二特征向量集之后,对所述新的第一特征向量集和所述新的第二特征向量集进行池化操作和拼接操作,得到特征拼接向量。
其中,循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
具体地,在得到与第一训练句子对应的第一特征向量集以及与第二训练句子对应的第二特征向量集之后,将第一特征向量集和第二特征向量集输入至循环神经网路中,以得到新的第一特征向量集和新的第二特征向量集;对新的第一特征向量集和新的第二特征向量集进行最大池化或者平均池化操作,以减少多余的特征向量,在对新的第一特征向量集和新的第二特征向量集进行最大池化或者平均池化操作之后,再进行拼接操作,得到特征拼接向量。
(6)将所述特征拼接向量输入至初始回归模型中,得到所述第一训练句子和所述第二训练句子之间的初始相似度,并根据所述样本相似度与所述初始相似度确定所述预设语言模型的相似度损失值。
其中,初始回归模型用于判断两个句子之间的相似度。初始相似度为预设语言模型对第一训练句子和第二训练句子进行相似度判断得到的,该初始相似度的阈值为0~1。
具体地,在得到特征拼接向量之后,将特征拼接向量输入至初始回归模型中,通过初始回归模型输出对第一训练句和第二训练句之间的相似度的打分,也即初始相似度。
(7)在所述相似度损失值未达到预设收敛条件时,迭代更新所述预设语言模型的第一初始参数,直至所述相似度损失值达到所述预设收敛条件时,将收敛之后的所述预设语言模型记录为所述预设的翻译语言模型。
可以理解地,该收敛条件可以为相似度损失值小于设定阈值的条件,也即在相似度损失值小于设定阈值时,停止训练;收敛条件还可以为相似度损失值经过了10000次计算后值为很小且不会再下降的条件,也即相似度损失值经过10000次计算后值很小且不会下降时,停止训练,并将收敛之后的所述预设语言模型记录为所述预设的翻译语言模型。
进一步地,根据所述样本相似度与所述初始相似度确定所述预设语言模型的相似度损失值之后,在相似度损失值未达到预设的收敛条件时,根据该相似度损失值调整预设翻译模型的第一初始参数,并将该中文样本句子重新输入至调整第一初始参数后的预设语言模型中,以在该模型训练组合对应的相似度损失值达到预设的收敛条件时,选取训练样本集中另一训练句子组合作为模型训练组合,并执行步骤S33-S36,得到与该模型训练组合对应的相似度损失值,并在该相似度损失值未达到预设的收敛条件时,根据该相似度损失值再次调整预设翻译模型的第一初始参数,使得该模型训练组合对应的相似度损失值也达到预设的收敛条件。
如此,在通过训练样本集中所有训练句子组合对预设语言模型进行训练之后,使得预设语言模型输出的结果可以不断向准确地结果靠拢,让识别准确率越来越高,直至所有训练句子组合对应的相似度损失值均达到预设的收敛条件时,将收敛之后的所述预设语言模型记录为所述预设的翻译语言模型。
在一具体实施例中,将所述模型训练组合输入至所述初始预训练模型中,得到与所述模型训练组合中第一训练句子对应的第一特征向量集,以及与所述模型训练组合中第二训练句子对应的第二特征向量集,包括:
(1)对所述第一训练句子和第二训练句子进行词特征提取,得到与所述第一训练句子对应的第一词特征向量集,以及与第二训练句子对应的第二词特征向量集。
其中,第一词向量特征集第一训练句子中每一字符对应的特征向量集合。第二词特征向量集为第二训练句子中每一字符对应的特征向量集合。
具体地,在得到第一训练句和第二训练句之后,将第一训练句和第二训练句输入至初始预训练模型中,对第一训练句子进行词特征提取,得到第一训练句子对应的词特征向量,也即第一词特征向量,第一词特征向量集即包含所有第一词特征向量。同时,对第二训练句子进行词特征提取,得到第二训练句子对应的词特征向量,也即第二词特征向量,第二词特征向量集即包含所有第二词特征向量。
示例性地,假设第一训练句子的长度为la,第二训练句子的长度为lb,则第一词特征向量集为Ha,第二词特征向量集为Hb。其中, 其中h1为第一训练句子中每一字符对应的特征长度,h2为第二训练句子中每一字符对应的特征长度。
(2)对所述第一词特征向量集和所述第二词特征向量集进行注意力处理,得到初始注意力矩阵。
具体地,在得到第一词特征向量集和第二词特征向量集之后,对第一词特征向量集和第二词特征向量集进行归一化注意力值计算,得到初始注意力矩阵。
可选地,对第一词特征向量集和第二词特征向量集进行归一化注意力值计算,得到初始注意力矩阵A可以包括如下方法:
其中,第一词特征向量集为Ha;第二词特征向量集为Hb;为第一词特征向量集对应的转置特征向量集;/>为第二词特征向量集对应的转置特征向量集;W为任意矩阵,示例性地,W可以为单位矩阵等;softmax()为归一化指数函数(也即用于对第一词特征向量集和第二词特征向量集进行归一化注意力值计算的函数)。
(3)根据所述初始注意力矩阵,对所述第一词特征向量集进行扩展得到第一特征向量集;根据所述初始注意力矩阵,对所述第二词特征向量集进行扩展,得到第二特征向量集。
具体地,在得到初始注意力矩阵之后,根据初始注意力矩阵,对第一词特征向量集和第二词特征向量集进行扩展拼接,得到与第一词特征向量集对应的第一特征向量集以及与第二词特征向量集对应的第二特征向量集。
进一步地,可以根据如下表示第一特征向量集和第二特征向量集:
H'a=concat(Ha,Hb·AT)
H'b=concat(Hb,Ha·A)
其中,H'a为第一特征向量集,H'b为第二特征向量集。concat()为拼接函数;A为初始注意力矩阵;AT为初始注意力矩阵对应的转置矩阵;第一词特征向量集为Ha;第二词特征向量集为Hb。
S40:根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度。
其中,语义相似度指的是根据第一相似度和第二相似度得到的样本句子与所述待匹配句子之间的相似度。
具体地,在将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子与各所述第二翻译句子之间的第一相似度;同时,将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子与各所述样本句子之间的第二相似度之后,选取超参数,进而根据选取的超参数、第一相似度以及第二相似度确定每一样本句子与待匹配句子之间的语义相似度。其中,超参数可以根据本发明的基于翻译模型的相似句子匹配方法的应用场景,或者应用领域进行选取;该超参数的数值在0至1之间任意数值。
进一步地,可以根据下述表达式确定语义相似度:
w=r*w1+(1-r)*w2
其中,w为语义相似度;w1为第一相似度;w2为第二相似度;r为超参数。
S50:选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子。
其中,预设相似度阈值可以根据具体应用场景和具体判断需求进行设定,预设相似度阈值的取值范围为0至1,语义相似度越高表征待匹配句子与样本句子之间相似程度越高,因此本实施例中将预设相似度阈值设定为0.9,0.95等。
具体地,在根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度之后,获取各样本句子与待匹配句子之间的语义相似度,选取与各所述样本句子对应的语义相似度中的最大值,在该最大值大于或等于预设相似度阈值时,表征该最大值的语义相似度对应的样本句子与待匹配句子之间的相似程度高于预设相似度阈值,进而将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子。
进一步地,在选取与各所述样本句子对应的语义相似度中的最大值之后,若最大值小于预设相似度阈值,表征样本句子集中没有与待匹配句子之间的相似程度大于预设相似度阈值的句子,进而可以生成未查询到与待匹配句子对应的相似句子的提示信息。
在另一具体实施例中,为了保证上述实施例中的预设的神经网络翻译模型以及预设的翻译语言模型的私密以及安全性,可以将预设的神经网络翻译模型以及预设的翻译语言模型存储在区块链中。其中,区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
例如,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,从而基于哈希值实现区块中交易的防篡改和防伪造;新产生的交易被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长。
在本发明中,通过引入翻译模型来提升中文短文本语义匹配相似度。在加入翻译模型之后,由于翻译后的句子(如英文句子)与中文句子语义不会改变,并且翻译后的句子几乎不需要分词,因此可以避免由于分词错误导致识别率低的问题。进一步地,由于翻译句子中每一个字符的语义均相对固定,从而语言模型在对翻译句子进行语义特征提取时,可以较好的获取每一个字符的在对应文本中的语义,进而可以避免现有技术中仅通过语言模型对中文短文本进行处理时,由于语言模型对中文短文本语义特征提取不够敏感,从而导致出现字符歧义的问题,提高了相似度匹配的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于翻译模型的相似句子匹配装置,该基于翻译模型的相似句子匹配装置与上述实施例中基于翻译模型的相似句子匹配方法一一对应。如图4所示,该基于翻译模型的相似句子匹配装置包括句子获取模块10、翻译处理模块20、相似度确定模块30、语义相似度确定模块40和相似句子判断模块50。各功能模块详细说明如下:
句子获取模块10,用于获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子;
翻译处理模块20,用于通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子;
相似度确定模块30,用于将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子与各所述第二翻译句子之间的第一相似度;同时,将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子与各所述样本句子之间的第二相似度;
语义相似度确定模块40,用于根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度;
相似句子判断模块50,用于选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子。
优选地,基于翻译模型的相似句子匹配装置还包括:
训练样本获取模块,用于获取包含多组训练句子组合的训练样本集,所述训练句子组合包括通过特殊字符连接的两个训练句子;每一所述训练句子组合关联一个相似度标签;所述相似度标签表征所述训练句子组合中两个训练句子之间的样本相似度;
语言模型获取模块,用于获取包含第一初始参数的预设语言模型;所述预设语言模型中包括初始预训练模型、循环神经网络和初始回归模型;
样本相似度确定模块,用于根据预设选取规则从所述训练样本集中选取一个训练句子组合作为模型训练组合,并根据与所述模型训练组合关联的相似度标签确定与其对应的样本相似度;
特征向量集确定模块,用于将所述模型训练组合输入至所述初始预训练模型中,得到与所述模型训练组合中第一训练句子对应的第一特征向量集,以及与所述模型训练组合中第二训练句子对应的第二特征向量集;
特征拼接向量确定模块,用于在将所述第一特征向量集和所述第二特征向量集输入至循环神经网络中,并获取循环神经网络输出新的第一特征向量集和新的第二特征向量集之后,对所述新的第一特征向量集和所述新的第二特征向量集进行池化操作和拼接操作,得到特征拼接向量;
损失值确定模块,用于将所述特征拼接向量输入至初始回归模型中,得到所述第一训练句子和所述第二训练句子之间的初始相似度,并根据所述样本相似度与所述初始相似度确定所述预设语言模型的相似度损失值;
第一训练模块,用于在所述相似度损失值未达到预设收敛条件时,迭代更新所述预设语言模型的第一初始参数,直至所述相似度损失值达到所述预设收敛条件时,将收敛之后的所述预设语言模型记录为所述预设的翻译语言模型。
优选地,特征向量集确定模块包括如下单元:
词特征提取单元,用于对所述第一训练句子和第二训练句子进行词特征提取,得到与所述第一训练句子对应的第一词特征向量集,以及与第二训练句子对应的第二词特征向量集;
注意力处理单元,用于对所述第一词特征向量集和所述第二词特征向量集进行注意力处理,得到初始注意力矩阵;
向量集扩展单元,用于根据所述初始注意力矩阵,对所述第一词特征向量集进行扩展得到第一特征向量集;并对所述第二词特征向量集进行扩展,得到第二特征向量集。
优选地,基于翻译模型的相似句子匹配装置还包括:
数据获取模块,用于获取中文样本集以及包含第二初始参数的预设翻译模型,所述中文样本集中包含至少一个中文样本句子;所述预设翻译模型中包含翻译模块以及回译模块;
句子翻译模块,用于将所述中文样本句子输入至所述预设翻译模型,通过所述翻译模块对所述中文样本句子进行翻译,得到与所述中文样本句子对应的翻译句子;
句子回译模块,用于通过所述回译模块对所述翻译句子进行回译,得到中文回译句子;
模型损失值确定模块,用于根据所述中文回译句子与所述中文样本句子确定所述预设翻译模型的模型损失值;
第二训练模块,用于在所述模型损失值未达到预设收敛条件时,迭代更新所述预设翻译模型的第二初始参数,直至所述模型损失值达到所述预设收敛条件时,将收敛之后的所述预设翻译模型记录为所述神经网络翻译模型。
优选地,如图5所示,翻译处理模块20包括如下单元:
向量编码单元201,用于对所述待匹配句子进行向量编码,得到与所述待匹配句子各字词对应的中文词向量;
向量词典获取单元202,用于获取预设向量词典,所述预设向量词典中包含与每一所述中文词向量对应的至少一个翻译词向量;
翻译预测单元203,用于对各中文词向量对应的所有翻译词向量进行翻译预测之后,得到所述第一翻译句子。
关于基于翻译模型的相似句子匹配装置的具体限定可以参见上文中对于基于翻译模型的相似句子匹配方法的限定,在此不再赘述。上述基于翻译模型的相似句子匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述基于翻译模型的相似句子匹配方法使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于翻译模型的相似句子匹配方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于翻译模型的相似句子匹配方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于翻译模型的相似句子匹配方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于翻译模型的相似句子匹配方法,其特征在于,包括:
获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子;
通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子;
将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子分别与各所述第二翻译句子之间的第一相似度;将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子分别与各所述样本句子之间的第二相似度;
根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度;
选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子;
所述将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中之前,包括:
获取包含多组训练句子组合的训练样本集,所述训练句子组合包括通过特殊字符连接的两个训练句子;每一所述训练句子组合关联一个相似度标签;所述相似度标签表征所述训练句子组合中两个训练句子之间的样本相似度;
获取包含第一初始参数的预设语言模型;所述预设语言模型中包括初始预训练模型、循环神经网络和初始回归模型;
根据预设选取规则从所述训练样本集中选取一个训练句子组合作为模型训练组合,并根据与所述模型训练组合关联的相似度标签确定与其对应的样本相似度;
将所述模型训练组合输入至所述初始预训练模型中,得到与所述模型训练组合中第一训练句子对应的第一特征向量集,以及与所述模型训练组合中第二训练句子对应的第二特征向量集;
在将所述第一特征向量集和所述第二特征向量集输入至循环神经网络中,并获取循环神经网络输出新的第一特征向量集和新的第二特征向量集之后,对所述新的第一特征向量集和所述新的第二特征向量集进行池化操作和拼接操作,得到特征拼接向量;
将所述特征拼接向量输入至初始回归模型中,得到所述第一训练句子和所述第二训练句子之间的初始相似度,并根据所述样本相似度与所述初始相似度确定所述预设语言模型的相似度损失值;
在所述相似度损失值未达到预设收敛条件时,迭代更新所述预设语言模型的第一初始参数,直至所述相似度损失值达到所述预设收敛条件时,将收敛之后的所述预设语言模型记录为所述预设的翻译语言模型;
所述将所述模型训练组合输入至所述初始预训练模型中,得到与所述模型训练组合中第一训练句子对应的第一特征向量集,以及与所述模型训练组合中第二训练句子对应的第二特征向量集,包括:
对所述第一训练句子和第二训练句子进行词特征提取,得到与所述第一训练句子对应的第一词特征向量集,以及与第二训练句子对应的第二词特征向量集;
对所述第一词特征向量集和所述第二词特征向量集进行注意力处理,得到初始注意力矩阵;
根据所述初始注意力矩阵,对所述第一词特征向量集进行扩展得到第一特征向量集;根据所述初始注意力矩阵,对所述第二词特征向量集进行扩展,得到第二特征向量集。
2.如权利要求1所述的基于翻译模型的相似句子匹配方法,其特征在于,所述通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理之前,包括:
获取中文样本集以及包含第二初始参数的预设翻译模型,所述中文样本集中包含至少一个中文样本句子;所述预设翻译模型中包含翻译模块以及回译模块;
将所述中文样本句子输入至所述预设翻译模型,通过所述翻译模块对所述中文样本句子进行翻译,得到与所述中文样本句子对应的翻译句子;
通过所述回译模块对所述翻译句子进行回译,得到中文回译句子;
根据所述中文回译句子与所述中文样本句子确定所述预设翻译模型的模型损失值;
在所述模型损失值未达到预设收敛条件时,迭代更新所述预设翻译模型的第二初始参数,直至所述模型损失值达到所述预设收敛条件时,将收敛之后的所述预设翻译模型记录为所述神经网络翻译模型。
3.如权利要求1所述的方法,其特征在于,所述通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,包括:
对所述待匹配句子进行向量编码,得到与所述待匹配句子各字词对应的中文词向量;
获取预设向量词典,所述预设向量词典中包含与每一所述中文词向量对应的至少一个翻译词向量;
对各中文词向量对应的所有翻译词向量进行翻译预测之后,得到所述第一翻译句子。
4.如权利要求1所述的基于翻译模型的相似句子匹配方法,其特征在于,所述根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度,包括:
采用下述表达式确认所述语义相似度:
w=r*w1+(1-r)*w2
其中,w为语义相似度;
w1为第一相似度;
w2为第二相似度;
r为超参数。
5.一种基于翻译模型的相似句子匹配装置,其特征在于,包括:
句子获取模块,用于获取待匹配句子以及样本句子集;所述样本句子集中包含至少一个样本句子;
翻译处理模块,用于通过预设的神经网络翻译模型分别对所述待匹配句子和各所述样本句子进行翻译处理,得到与所述待匹配句子对应的第一翻译句子,以及与各所述样本句子对应的第二翻译句子;
相似度确定模块,用于将所述第一翻译句子和各所述第二翻译句子输入至预设的翻译语言模型中,得到所述第一翻译句子与各所述第二翻译句子之间的第一相似度;同时,将所述待匹配句子和各所述样本句子输入至预设的中文语言模型中,得到所述待匹配句子与各所述样本句子之间的第二相似度;
语义相似度确定模块,用于根据与同一个所述样本句子对应的所述第一相似度和所述第二相似度,确定该样本句子与所述待匹配句子之间的语义相似度;
相似句子判断模块,用于选取与各所述样本句子对应的语义相似度中的最大值,在所述最大值大于或等于预设相似度阈值时,将与所述最大值对应的所述样本句子记录为与所述待匹配句子对应的相似句子;
所述装置还包括:
训练样本获取模块,用于获取包含多组训练句子组合的训练样本集,所述训练句子组合包括通过特殊字符连接的两个训练句子;每一所述训练句子组合关联一个相似度标签;所述相似度标签表征所述训练句子组合中两个训练句子之间的样本相似度;
语言模型获取模块,用于获取包含第一初始参数的预设语言模型;所述预设语言模型中包括初始预训练模型、循环神经网络和初始回归模型;
样本相似度确定模块,用于根据预设选取规则从所述训练样本集中选取一个训练句子组合作为模型训练组合,并根据与所述模型训练组合关联的相似度标签确定与其对应的样本相似度;
特征向量集确定模块,用于将所述模型训练组合输入至所述初始预训练模型中,得到与所述模型训练组合中第一训练句子对应的第一特征向量集,以及与所述模型训练组合中第二训练句子对应的第二特征向量集;
特征拼接向量确定模块,用于在将所述第一特征向量集和所述第二特征向量集输入至循环神经网络中,并获取循环神经网络输出新的第一特征向量集和新的第二特征向量集之后,对所述新的第一特征向量集和所述新的第二特征向量集进行池化操作和拼接操作,得到特征拼接向量;
损失值确定模块,用于将所述特征拼接向量输入至初始回归模型中,得到所述第一训练句子和所述第二训练句子之间的初始相似度,并根据所述样本相似度与所述初始相似度确定所述预设语言模型的相似度损失值;
第一训练模块,用于在所述相似度损失值未达到预设收敛条件时,迭代更新所述预设语言模型的第一初始参数,直至所述相似度损失值达到所述预设收敛条件时,将收敛之后的所述预设语言模型记录为所述预设的翻译语言模型;
特征向量集确定模块包括如下单元:
词特征提取单元,用于对所述第一训练句子和第二训练句子进行词特征提取,得到与所述第一训练句子对应的第一词特征向量集,以及与第二训练句子对应的第二词特征向量集;
注意力处理单元,用于对所述第一词特征向量集和所述第二词特征向量集进行注意力处理,得到初始注意力矩阵;
向量集扩展单元,用于根据所述初始注意力矩阵,对所述第一词特征向量集进行扩展得到第一特征向量集;并对所述第二词特征向量集进行扩展,得到第二特征向量集。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述基于翻译模型的相似句子匹配方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于翻译模型的相似句子匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011268254.3A CN112380837B (zh) | 2020-11-13 | 2020-11-13 | 基于翻译模型的相似句子匹配方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011268254.3A CN112380837B (zh) | 2020-11-13 | 2020-11-13 | 基于翻译模型的相似句子匹配方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380837A CN112380837A (zh) | 2021-02-19 |
CN112380837B true CN112380837B (zh) | 2023-12-22 |
Family
ID=74582116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011268254.3A Active CN112380837B (zh) | 2020-11-13 | 2020-11-13 | 基于翻译模型的相似句子匹配方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380837B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861757B (zh) * | 2021-02-23 | 2022-11-22 | 天津汇智星源信息技术有限公司 | 基于文本语义理解的笔录智能审核方法及电子设备 |
CN113836192B (zh) * | 2021-08-13 | 2022-05-03 | 深译信息科技(横琴)有限公司 | 平行语料的挖掘方法、装置、计算机设备及存储介质 |
CN113723077B (zh) * | 2021-08-31 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于双向表征模型的句向量生成方法、装置及计算机设备 |
CN116070646A (zh) * | 2021-11-03 | 2023-05-05 | 华为终端有限公司 | 语言翻译方法及电子设备 |
CN115618891B (zh) * | 2022-12-19 | 2023-04-07 | 湖南大学 | 一种基于对比学习的多模态机器翻译方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331449A (zh) * | 2014-10-29 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100453227B1 (ko) * | 2001-12-28 | 2004-10-15 | 한국전자통신연구원 | 번역 지원 시스템에서의 유사 문장 검색 방법 |
WO2013102052A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
-
2020
- 2020-11-13 CN CN202011268254.3A patent/CN112380837B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331449A (zh) * | 2014-10-29 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112380837A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
WO2022142613A1 (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
KR20190085098A (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN111444349B (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
US11610060B2 (en) | Automatic lexical sememe prediction system using lexical dictionaries | |
WO2022116436A1 (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN113536795B (zh) | 实体关系抽取的方法、系统、电子装置和存储介质 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN113157897B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN113836992A (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN112652295A (zh) | 语言模型训练、视频字幕校验方法、装置、设备及介质 | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN112733539A (zh) | 面试实体识别模型训练、面试信息实体提取方法及装置 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN113836192B (zh) | 平行语料的挖掘方法、装置、计算机设备及存储介质 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN116956954A (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN115859984A (zh) | 医疗命名实体识别模型训练方法、装置、设备及介质 | |
CN114048753A (zh) | 词义识别模型训练、词义判断方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |