CN111126048B - 一种候选同义词确定方法、装置、服务器及存储介质 - Google Patents

一种候选同义词确定方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111126048B
CN111126048B CN201911357376.7A CN201911357376A CN111126048B CN 111126048 B CN111126048 B CN 111126048B CN 201911357376 A CN201911357376 A CN 201911357376A CN 111126048 B CN111126048 B CN 111126048B
Authority
CN
China
Prior art keywords
participle
sequence
candidate
target
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911357376.7A
Other languages
English (en)
Other versions
CN111126048A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911357376.7A priority Critical patent/CN111126048B/zh
Publication of CN111126048A publication Critical patent/CN111126048A/zh
Application granted granted Critical
Publication of CN111126048B publication Critical patent/CN111126048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种候选同义词确定方法、装置、服务器及存储介质,通过获取多个搜索语料,分别对每个搜索语料进行分词得到各个搜索语料的分词序列;针对各个分词序列中的第一分词序列和第二分词序列,基于分词序列表征的分词排序信息和分词数量,确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词;并比较第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息得到比较结果;根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词的方式,提高了候选同义词确定结果的准确性。

Description

一种候选同义词确定方法、装置、服务器及存储介质
技术领域
本发明涉及同义词挖掘技术领域,更具体地说,涉及一种候选同义词确定方法、装置、服务器及存储介质。
背景技术
目前同义词词典的构建过程通常是先对搜索引擎上点击了同一个搜索结果的各个搜索语料做自动对齐得到搜索语料之间的同义词,再由人工从所得到的同义词中筛选出用于构成同义词词典的同义词。
现有技术将搜索语料自动对齐看成了翻译问题,采用自动翻译技术先确定搜索语料之间的候选同义词再基于候选同义词进行迭代优化得到搜索语料之间的同义词。
这种搜索语料自动对齐技术的核心是翻译,而翻译侧重于相同词之间的对齐,其在确定搜索语料之间的候选同义词时更侧重于将不同搜索语料中相同的词确定为候选同义词,候选同义词确定结果不准确,进而导致了同义词挖掘结果不准确的问题。
发明内容
有鉴于此,本发明提出一种候选同义词确定方法、装置、服务器及存储介质,以提高搜索语料之间候选同义词确定结果的准确性,进而提高同义词挖掘结果的准确性。
为了实现上述目的,现提出的方案如下:
一种候选同义词确定方法,包括:
获取多个搜索语料,各个所述搜索语料的搜索结果中存在相同的被点击的搜索结果;
分别对每个所述搜索语料进行分词得到各个所述搜索语料的分词序列;
针对各个所述分词序列中的第一分词序列和第二分词序列,基于所述分词序列表征的分词排序信息和分词数量,确定所述第二分词序列中与所述第一分词序列的目标分词匹配的第一候选分词;
比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果;
根据所述比较结果和所述第一候选分词确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
一种候选同义词确定装置,包括:
搜索语料获取单元,用于获取多个搜索语料,各个所述搜索语料的搜索结果中存在相同的被点击的搜索结果;
分词单元,用于分别对每个所述搜索语料进行分词得到各个所述搜索语料的分词序列;
第一候选分词确定单元,用于针对各个所述分词序列中的第一分词序列和第二分词序列,基于所述分词序列表征的分词排序信息和分词数量,确定所述第二分词序列中与所述第一分词序列的目标分词匹配的第一候选分词;
比较结果生成单元,用于比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果;
第二候选分词确定单元,用于根据所述比较结果和所述第一候选分词确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现所述候选同义词确定方法。
一种计算机可读存储介质,用于存储所述候选同义词确定方法的程序。
本申请实施例提供一种候选同义词确定方法、装置、服务器及存储介质,在确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词时,引入了分词序列表征的分词排序信息和分词数量作为约束,避免现有技术侧重于将相同词对齐的情况,使得候选同义词的挖掘更加适用于同义词挖掘技术领域,提高了同义词挖掘结果的准确性;并且,在确定出第二分词序列中与第一分词序列的目标分词匹配的第一候选分词后,通过基于第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息对所确定的第一候选分词进行校验,以确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词,进一步提高了候选同义词分析结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种候选同义词确定方法示意图;
图2为本申请实施例提供的另一种候选同义词确定方法示意图;
图3为本申请实施例提供的又一种候选同义词确定方法示意图;
图4为本申请实施例提供的一种确定第一分词序列中目标分词和第二分词序列中候选分词的对齐概率的方法流程图;
图5为本申请实施例提供的又一种候选同义词确定方法示意图;
图6为本申请实施例提供的一种确定第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息的方法流程图;
图7为本申请实施例提供的一种根据第一分词序列中的目标分词和第二分词序列中的候选分词之间的目标翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐概率的方法流程图;
图8为本申请实施例提供的一种候选同义词确定方法流程图;
图9为本申请实施例提供的一种候选同义词确定装置的结构示意图;
图10为本申请实施例提供的一种候选同义词确定方法所适用于的服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
传统的同义词词典构建主要是由语言学家通过现代汉语词典释义来人工整理,这种方式需要极大的人工成本。目前的同义词词典构建技术可以借助搜索引擎,通过海量共点击搜索语料(即点击了同一个搜索结果的不同搜索语料组成的集合)做计算机自动对齐技术,进而得到搜索语料之间的同义词,最后再借助各种统计语言特征人工删选构建同义词词典。这里用到的计算机自动对齐技术是同义词挖掘任务中的核心,通常会将该问题看作源串到目标串的翻译问题,使用经典的自动翻译技术可以从搜索语料中挖掘出同义词。其中,自动翻译技术会先确定搜索语料之间的候选同义词,然后在基于候选同义词进行迭代优化,进而实现对搜索语料的自动对齐得到搜索语料中的同义词。
自动翻译技术虽然能够实现搜索语料中同义词挖掘,但是因其将同义词挖掘问题看成了翻译问题,因此,其在确定搜索语料之间的候选同义词时,更加倾向于将两个搜索语料中出现的相同的词确定为候选同义词,候选同义词确定结果不充分、不准确,不能更好的适用于对搜索语料中同义词的挖掘,进而导致了同义词挖掘结果不准确的问题。
本申请发明人通过研究发现,翻译问题侧重于两种不同语言之间的翻译,而对搜索语料中同义词分析的场景下,往往源串(源搜索语料)和目标串(目标搜索语料)是同一种语言,而同一种语言的表达顺序一般是相同的,即,在同义词分析领域搜索语料中词的顺序可以作为一个确定搜索语料中候选同义词的约束条件。
并且,进一步发明人还发现在同义词分析领域不仅源串中词的长度会影响搜索语料自动对齐结果的准确性,而且目标串中词的长度也会影响搜索语料自动对齐结果的准确性,而搜索语料自动对齐结果的准确性直接体现了搜索语料同义词分析结果的准确性。由此,源串中词的长度和目标串中词的长度也可以作为同义词分析领域中确定搜索语料中候选同义词的约束条件。
更进一步的,发明人还发现针对源串中的目标分词,在确定目标串中与该目标分词匹配的第一候选分词后,还可以基于源串中与该目标分词排序相关的第一分词信息和目标串中与第一候选分词排序相关的第二分词信息,来校验该目标分词是否可以与该第一候选分词构成候选同义词,以进一步提高候选同义词挖掘结果的准确性。
由此,本申请实施例提供一种候选同义词分析方法、装置、服务器及存储介质,在确定候选同义词的过程中,引入搜索语料中词的位置、词的长度作为约束条件,以使得自动翻译技术对搜索语料的候选同义词确定结果更加充分,准确,可以更好的适用于对搜索语料中同义词的挖掘,进而提高自动翻译技术对搜索语料自动对齐的准确性,即提高同义词挖掘结果的准确性。并且,本申请引入基于搜索语料中分词的顺序对第一候选分词是否可以与目标分词构成候选同义词进行校验的机制,还可以进一步提高同义词挖掘结果的准确性。
本申请实施例,可以获取多个搜索语料。参见图1,获取3个搜索语料,分别为搜索语料1、搜索语料2和搜索语料3,可以分别对3个搜索语料中的每个搜索语料进行分词得到每个搜索语料的分词序列。其中,搜索语料1为“失业金对退休金影响”,搜索语料1的分词序列为:“失业”“金”“对”“退休”“金”“影响”;搜索语料2为“失业保险对养老金影响”,搜索语料2的分词序列为“失业”“保险”“对”“养老”“金”“影响”;搜索语料3为“失业金对养老金影响”,搜索语料3的分词序列为“失业”“金”“对”“养老”“金”“影响”。
将上述三个搜索语料中两两搜索语料看成是一组搜索语料,比如,将搜索语料1和搜索语料2看成是一组搜索语料,将搜索语料1和搜索语料3看成是一组搜索语料,将搜索语料2和搜索语料3看成是一组搜索语料。
针对每组搜索语料而言,将该组搜索语料中的一个搜索语料的分词序列看成是第一分词序列,另一个搜索语料的分词序列看成是第二分词序列,将第一分词序列看成是源串,将第二分词序列看成是目标串,分别将源串中每个分词看成是一个目标分词,分别将目标串中每个分词看成是一个候选分词,针对源串中每个目标分词而言执行如下过程:基于源串中分词的长度、目标串中分词的长度和目标分词在源串中的位置计算目标分词分别与目标串中每个候选分词的对齐概率,并从计算出的各个对齐概率中选取最大的对齐概率,最大对齐概率所属的目标串中的候选分词作为与目标分词匹配的第一候选分词。
参见图2,一组搜索语料包括搜索语料1和搜索语料2时,可以将搜索语料1的分词序列看成是第一分词序列,将搜索语料2的分词序列看成是第二分词序列,分别将搜索语料1中的每个分词看成是一个目标分词,以搜索语料1的第一分词序列中的第一个分词“金”为目标分词为例,计算第一分词序列中的第一个分词“金”分别与搜索语料2的第二分词序列中的每个分词的对齐概率,假如,计算得到第一分词序列中第一个分词“金”和第二分词序列中“失业”的对齐概率为45%、第一分词序列中第一个分词“金”和第二分词序列中“保险”的对齐概率为90%、第一分词序列中第一个分词“金”和第二分词序列中“对”的对齐概率为60%、第一分词序列中第一个分词“金”和第二分词序列中“养老”的对齐概率为65%、第一分词序列中第一个分词“金”和第二分词序列中“金”的对齐概率为80%、第一分词序列中第一个分词“金”和第二分词序列中“影响”的对齐概率为70%,确定计算出的对齐概率中最大的对齐概率为90%,进而将90%所属的第二分词序列中的“保险”作为与第一分词序列中的第一个分词“金”匹配的第一候选分词。
本申请实施例,在确定第二分词序列中与第一分词序列中的目标分词匹配的第一候选分词后,还要进一步基于第一分词序列中与目标分词相关的上下文,以及第二分词序列中与第一候选分词相关的上下文,对第一候选分词进行校验,以判断是否可以将第一候选分词作为用于与第一分词序列中目标分词构成候选同义词的候选分词;如果可以将第一候选分词作为用于与第一分词序列中目标分词构成候选同义词的候选分词,则可以将第一候选分词确定为第二候选分词;如果不可以将第一候选分词作为用于与第一分词序列中目标分词构成候选同义词的候选分词,则可以基于第一分词序列中与目标分词相关的上下文以及第二分词序列中与第一候选分词相关的上下文确定第一调整信息,进而根据第一调整信息来确定第二分词序列中用于与第一分词序列中目标分词构成候选同义词的候选分词,该确定的第二分词序列中用于与第一分词序列中目标分词构成候选同义词的候选分词可以称为第二候选分词。
本申请实施例,基于第一分词序列中与目标分词相关的上下文,以及第二分词序列中与第一候选分词相关的上下文,对第一候选分词进行校验,以判断是否可以将第一候选分词作为用于与第一分词序列中目标分词构成候选同义词的候选分词的方式可以为:获取第一分词序列中与目标分词排序相关的第一分词信息,获取第二分词序列中与第一候选分词排序相关的第二分词信息,比较第一分词信息和第二分词信息得到比较结果;基于比较结果校验是否可以将第二分词序列中的第一候选分词确定为用于与第一分词序列中目标分词构成候选同义词的候选分词。其中,基于比较结果校验是否可以将第二分词序列中的第一候选分词确定为用于与第一分词序列中目标分词构成候选同义词的候选分词,具体可以为:根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词,该第二候选分词可能为第一候选分词也可能不为第一候选分词。
作为本申请实施例的一种优选实施方式,若目标分词不为第一分词序列中首个分词且第一候选分词不为第二分词序列中首个分词,则可以获取第一分词序列中与目标分词相邻的上一个分词作为第一分词(即,第一分词信息),将第二分词序列中与第一候选分词相邻的上一个分词作为第二分词(即,第二分词信息),进而计算第一分词和第二分词的对齐概率,为了便于区分,将计算得到的第一分词和第二分词的对齐概率称为目标对齐概率,将该目标对齐概率看成是第一分词信息和第二分词信息的比较结果,进而根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
作为本申请实施例的另一种优选实施方式,若目标分词不为第一分词序列中最后一个分词且第一候选分词不为第二分词序列中最后一个分词,则可以获取第一分词序列中与目标分词相邻的下一个分词作为第一分词(即,第一分词信息),将第二分词序列中与第一候选分词相邻的下一个分词作为第二分词(即,第二分词信息),进而计算第一分词和第二分词的对齐概率,为了便于区分,将计算得到的第一分词和第二分词的对齐概率称为目标对齐概率,将该目标对齐概率看成是第一分词信息和第二分词信息的比较结果,进而根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
作为本申请实施例的又一种优选实施方式,若目标分词既不为第一分词序列中首个分词也不为第一分词序列中最后一个分词,且第一候选分词也既不为第二分词序列中首个分词也不为第二分词序列中最后一个分词;则可以获取第一分词序列中与目标分词相邻的上一个分词(分词1)以及第一分词序列中与目标分词相邻的下一个分词(分词2),第一分词信息包括两个第一分词,这两个第一分词分别为分词1和分词2;获取第二分词序列中与第一候选分词相邻的上一个分词(分词3)以及第二分词序列中与第一候选分词相邻的下一个分词(分词4),第二分词信息包括两个第二分词,这两个第二分词分别为分词3和分词4;确定第一分词信息和第二分词信息中相对位置相同的两个分词的对齐概率,即,确定第一分词序列中分词1和第二分词序列中分词3的对齐概率(为了便于区分,将该对齐概率称为第一对齐概率),确定第一分词序列中分词2和第二分词序列中分词4的对齐概率(为了便于区分,将该对齐概率称为第二对齐概率),对第一对齐概率和第二对齐概率进行处理得到目标对齐概率,进而将目标对齐概率看成是第一分词信息和第二分词信息的比较结果,进而根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
本申请实施例,对第一对齐概率和第二对齐概率进行处理得到目标对齐概率的方式可以为将第一对齐概率和第二对齐概率的平均值确定为目标对齐概率。
本申请并不限定第一分词中分词的数量以及第二分词中分词的数量,第一分词可以由第一分词序列中多个连续的分词构成,第二分词也可以由第二分词序列中多个连续的分词构成,比如,可以将第一分词序列中与目标分词相邻且位于目标分词之前的2个连续的分词看成第一分词(比如,这两个连续的分词依次为分词5和分词6),将第二分词序列中与第一候选分词相邻且位于第一候选分词之前的2个连续的分词看成是第二分词(比如,这两个连续的分词依次为分词7和分词8)。相应的,可以计算第一分词序列中分词5和第二分词序列中分词7的对齐概率(第三对齐概率),计算第一分词序列中分词6和第二分词序列中分词8的对齐概率(第四对齐概率),将第三对齐概率和第四对齐概率的平均值确定为目标对齐概率。
以上仅仅是本申请实施例提供的比较结果的优选实现方式,有关比较结果的具体实现方式,发明人可根据自己的需求进行设置,在此不做限定。
延续图2,仍以第一分词序列中第一个分词“金”为目标分词为例,在将90%所属的第二分词序列中的“保险”作为与目标分词“金”匹配的第一候选分词后,参见图3可以将第一分词序列中与目标分词“金”相邻且位于目标分词“金”之前的分词“失业”作为第一分词,将第二分词序列中与第一候选分词“保险”相邻且位于第一候选分词“保险”之前的分词“失业”作为第二分词,计算第一分词和第二分词的对齐概率,该对齐概率即为第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息的比较结果。
本申请实施例,候选条件可以为阈值,若比较结果不小于预先设置的阈值,则说明比较结果满足候选条件,则确定第一候选分词为第二分词序列中用于与第一分词序列的目标分词构成候选同义词的候选分词,第二分词序列中用于与第一分词序列的目标分词构成候选同义词的候选分词可以称为第二候选分词。即,确定第二分词序列中第一候选分词“保险”可以作为用于与第一分词序列中目标分词“金”构成候选同义词的候选分词,也就是说,第一分词序列中目标分词“金”和第二分词序列中第一候选分词“保险”构成候选同义词。
进一步的,本申请实施例提供的一种候选同义词确定方法,若比较结果小于预先设置的阈值,则说明比较结果不满足候选条件,该方法还包括:根据预先设置的与比较结果匹配的第一调整信息确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
参见图3,在计算得到第一分词序列中第一分词“失业”和第二分词序列中第二分词“失业”的目标对齐概率后,若目标对齐概率不小于预先设置的阈值,则可以确定第二分词序列中第一候选分词“保险”为用于与第一分词序列中目标分词“金”构成候选同义词的第二候选分词。
在计算得到第一分词序列中第一分词“失业”和第二分词序列中第二分词“失业”的目标对齐概率后,若目标对齐概率小于预先设置的阈值,则可以确定与目标对齐概率匹配的第一调整信息,进而根据第一调整信息对第一分词序列中目标分词“金”和第二分词序列中第一候选分词“保险”的对齐概率90%进行调整,得到调整后的第一分词序列中目标分词“金”和第二分词序列中第一候选分词“保险”的对齐概率。
本申请实施例,第一调整信息调整对齐概率的方式可以为将第一调整信息和对齐概率的乘积作为调整后的对齐概率。
在本申请实施例中,预先设置有调整信息和对齐概率的对应关系,在获取到目标对齐概率后,可以查询预先设置的调整信息和对齐概率的对应关系,将预先设置的与目标对齐概率对应的调整信息作为第一调整信息。第一调整信息可以为一个数值。比如,预先设置与对齐概率90%对应的调整信息为1.5,预先设置与对齐概率30%对应的调整信息为0.6。作为本申请实施例的一种优选实施方式,目标对齐概率越大,将第二分词序列中第一候选分词确定为用于与第一分词序列中目标分词构成候选同义词的第二候选分词的概率越大,与目标对齐概率对应的第一调整信息越大。
参见图3,若第一调整信息为1.1,则调整后的第一分词序列中目标分词“金”和第二分词序列中第一候选分词“保险”的对齐概率为99%(1.1*90%=99%),比较当前第一分词序列中目标分词“金”分别与第二分词序列中每个分词的对齐概率,确定第一分词序列中目标分词“金”与第二分词序列中第一候选分词“保险”的对齐概率仍是最大的,则确定第二分词序列中第一候选分词“保险”为用于与第一分词序列中目标分词“金”构成候选同义词的第二候选分词,即,第二分词序列中分词“保险”与第一分词序列中目标分词“金”构成候选同义词。
参见图3,假设第一调整信息为0.6,则调整后的第一分词序列中目标分词“金”和第二分词序列中第一候选分词“保险”的对齐概率为54%(0.6*90%=54%),比较当前第一分词序列中目标分词“金”分别与第二分词序列中每个分词的对齐概率,确定第一分词序列中目标分词“金”与第二分词序列中分词“金”的对齐概率80%是最大的,则确定第二分词序列中的分词“金”为用于与第一分词序列中目标分词“金”构成候选同义词的第二候选分词,即,第二分词序列中的分词“金”与第一分词序列中目标分词“金”构成候选同义词。
上述对本申请实施例提供的一种候选同义词确定方法进行了详细介绍,下面对应用于上述候选同义词确定方法中的第一分词序列中的一个词和第二分词序列中的一个词的对齐概率的确定方式进行详细说明。
本申请实施例,可分别将第一分词序列中每个分词看成是一个目标分词,将第二分词序列中每个分词看成是一个候选分词,进而针对第一分词序列中每个目标分词而言,从第二分词序列的各个候选分词中确定与第一分词序列中该目标分词匹配的第一候选分词。
其中,针对第一分词序列中的一个目标分词而言,在从第二分词序列中的各个候选分词中,确定与第一分词序列的该目标分词匹配的第一后候选分词的过程可以为:确定第一分词序列中该目标分词分别与第二分词序列中每个候选分词的对齐概率,从所确定的对齐概率中选取最大的对齐概率,并将所选取的对齐概率对应的候选分词作为第二分词序列中与第一分词序列中该目标分词匹配的第一候选分词。
下面以确定第一分词序列中目标分词和第二分词序列中候选分词的对齐概率为例,对确定第一分词序列中一个分词和第二分词序列中一个分词的对齐概率的方式进行详细说明。
图4为本申请实施例提供的一种确定第一分词序列中目标分词和第二分词序列中候选分词的对齐概率的方法流程图。
如图4所示,该方法包括:
S401、获取第一分词序列的第一分词数量、第二分词序列的第二分词数量、目标分词在第一分词序列的第一位置信息以及候选分词在第二分词序列的第二位置信息;
本申请实施例,在计算第一分词序列的目标分词和第二分词序列的候选分词的对齐概率时,可以先获取第一分词序列包括的分词的数量作为第一分词数量,获取第二分词序列中包括的分词的数量作为第二分词数量。
需要说明的是,可以根据目标分词在第一分词序列中的排序位置生成目标分词在第一分词序列的第一位置信息。作为一种实施方式,可以将目标分词在第一分词序列中的排序序号作为目标分词在第一分词序列的第一位置信息。
比如,第一分词序列为“失业”“金”“对”“退休”“金”“影响”时,第一分词序列中的分词“失业”在第一分词序列中的排序序号为1,第一分词序列中的分词“失业”在第一分词序列中的第一位置信息为1;按照第一分词序列中分词的排序顺序,在第一分词序列中出现的第一个分词“金”在第一分词序列中的排序序号为2,在第一分词序列中出现的第一个分词“金”在第一分词序列中的第一位置信息为2;第一分词序列中的分词“对”在第一分词序列中的排序序号为3,第一分词序列中的分词“对”在第一分词序列中的第一位置信息为3;第一分词序列中的分词“退休”在第一分词序列中的排序序号为4,第一分词序列中的分词“退休”在第一分词序列中的第一位置信息为4;按照第一分词序列中分词的排序顺序,在第一分词序列中出现的第二个分词“金”在第一分词序列中的排序序号为5,在第一分词序列中出现的第二个分词“金”在第一分词序列中的第一位置信息为5;第一分词序列中的分词“影响”在第一分词序列中的排序序号为6,第一分词序列中的分词“影响”在第一分词序列中的第一位置信息为6。
需要说明的是,可以根据候选分词在第二分词序列中的排序位置生成候选分词在第二分词序列的第二位置信息。作为一种实施方式,可以将候选分词在第二分词序列中的排序序号作为候选分词在第二分词序列的第二位置信息。
比如,第二分词序列为“失业”“保险”“对”“养老”“金”“影响”时,第二分词序列中的分词“失业”在第二分词序列中的排序序号为1,第二分词序列中的分词“失业”在第二分词序列中的第二位置信息为1;第二分词序列中的分词“保险”在第二分词序列中的排序序号为2,第二分词序列中的分词“保险”在第二分词序列中的第二位置信息为2;第二分词序列中的分词“对”在第二分词序列中的排序序号为3,第二分词序列中的分词“对”在第二分词序列中的第二位置信息为3;第二分词序列中的分词“养老”在第二分词序列中的排序序号为4,第二分词序列中的分词“养老”在第二分词序列中的第二位置信息为4;第二分词序列中的分词“金”在第二分词序列中的排序序号为5,第二分词序列中的分词“金”在第二分词序列中的第二位置信息为5;第二分词序列中的分词“影响”在第二分词序列中的排序序号为6,第二分词序列中的分词“影响”在第二分词序列中的第二位置信息为6。
参见图5,以目标分词为第一分词序列中出现的第一个分词“金”,候选分词为第二分词序列中出现的分词“对”为例,在步骤S401中确定的第一分词序列的第一分词数量为6,第二分词序列的第二分词数量为6,第一分词序列中目标分词“金”在第一分词序列的第一位置信息为2,第二分词序列中候选分词“对”在第二分词序列的第二位置信息为3。
S402、利用第一分词数量、第二分词数量、第一位置信息和第二位置信息,确定第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息;
本申请实施例,在确定第一分词序列的第一分词数量、第一分词序列中目标分词在第一分词序列的第一位置信息、第二分词序列的第二分词数量、第二分词序列中候选分词在第二分词序列的第二位置信息后,可以计算第一分词序列中该目标分词与第二分词序列中该候选分词相关的第二调整信息。
以目标分词为第一分词序列中出现的第一个分词“金”,候选分词为第二分词序列中出现的分词“对”为例,可以计算第一分词序列中出现的第一个分词“金”与第二分词序列中分词“对”相关的第二调整信息。
图6为本申请实施例提供的一种确定第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息的方法流程图。
如图6所示,该方法包括:
S601、根据目标分词在第一分词序列的第一位置信息和候选分词在第二分词序列的第二位置信息,确定相对位置差异信息;
本申请实施例,可以将目标分词在第一分词序列的第一位置信息和候选分词在第二分词序列的第二位置信息,获取目标分词在第一分词序列的排序位置和候选分词在第二分词序列的排序位置之间的相对差异作为相对位置差异信息。比如,仍参见图5,以目标分词为第一分词序列中出现的第一个分词“金”,候选分词为第二分词序列中出现的分词“对”为例,在确定第一分词序列中目标分词“金”在第一分词序列的第一位置信息为2,第二分词序列中候选分词“对”在第二分词序列的第二位置信息为3的基础上,可以确定第一分词序列中目标分词“金”和第二分词序列中候选分词“对”之间的相对位置差异为第一位置信息和第二位置信息之间的差值,即,相对位置差异信息为1。
S602、利用第一分词数量和第二分词数量确定第三分词数量;
作为本申请实施例的一种优选实施方式,可以将第一分词数量和第二分词数量中的最小值作为第三分词数量。仍参见图5,以目标分词为第一分词序列中出现的第一个分词“金”,候选分词为第二分词序列中出现的分词“对”为例,可以确定第一分词序列的第一分词数量为6,第二分词序列的第二分词数量为6,在确定第一分词数量为6,第二分词数量为6的基础上,可以确定第三分词数量为6。
需要注意的是,若第一分词序列的第一分词数量为5,第二分词序列的第二分词数量为6,则确定第三分词数量为5;若第一分词序列的第一分词数量为6,第二分词序列的第二分词数量为5,则确定第三分词数量为5。
S603、根据相对位置差异信息和第三分词数量计算第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息。
本申请实施例,可以根据相对位置差异信息、第三分词数量计算第一分词序列中目标分词和第二分词序列中候选分词相关的第二调整信息,该第二调整信息与相对位置差异信息成反比,且该第二调整信息与第三分词数量成反比。
作为本申请实施例的一种优选实施方式,可以通过如下公式1达到计算第二调整信息的目的。
Figure BDA0002336299710000141
其中,l为第二分词序列的第二分词数量,m为第一分词序列的第一分词数量,i为候选分词在第二分词序列的第二位置信息,j为目标分词在第一分词序列的第一位置信息;q为第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息。
以上仅仅是本申请实施例提出的计算第二调整信息的优选方式,有关计算第二调整信息的具体方式,发明人可根据自己的需求进行设置,在此不做限定。
S403、根据第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息以及目标分词和候选分词之间的翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐信息,对齐信息表征对齐概率。
本申请实施例,在确定第一分词序列中目标分词和第二分词序列中候选分词相关的第二调整信息后,可以获取目标分词和候选分词之间的翻译概率,进而利用第一分词序列中目标分词和第二分词序列中候选分词相关的第二调整信息,调整目标分词和候选分词之间的翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词之间的目标翻译概率。
其中,获取目标分词和候选分词之间的翻译概率的方式可参见公式2。
Figure BDA0002336299710000151
其中,将第二分词序列中候选分词看成是fi,将第一分词序列中目标分词看成是ej,count(fi|ej)为预先设置的候选分词fi和目标分词ej之间的初始翻译概率,total(ej)为所有搜索语料中出现分词ej的次数。比如,参见图5多个搜索语料一共包括3个搜索语料,分别为搜索语料1、搜索语料2和搜索语料3,若分词ej为“金”,则3个搜索语料中一共出现分词“金”的次数为5,则total(ej)为5。
本申请实施例,根据第一分词序列中目标分词和第二分词序列中候选分词相关的第二调整信息,调整目标分词和候选分词之间的翻译概率,以生成第一分词序列中目标分词和第二分词序列中候选分词之间的目标翻译概率的方式可参见公式3。
T(fi|ej)=t(fi|ej)q(j|i,l,m) (公式3)
其中,T(fi|ej)为第一分词序列中目标分词ej和第二分词序列中候选分词fi的目标翻译概率。
本申请实施例中,可以根据第一分词序列中的目标分词和第二分词序列中的候选分词之间的目标翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐概率,该对齐概率即为第一分词序列中目标分词和第二分词序列中候选分词的对齐信息。
图7为本申请实施例提供的一种根据第一分词序列中的目标分词和第二分词序列中的候选分词之间的目标翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐概率的方法流程图。
如图7所示,该方法包括:
S701、确定多个搜索语料中存在目标分词的各个目标搜索语料;
本申请实施例,针对获取到的多个搜索语料,分别对每个搜索语料进行分词得到各个搜索语料中每个搜索语料的分词序列。在生成第一分词序列中目标分词和第二分词序列中候选分词的对齐概率时,针对获取到的多个搜索语料中的每个搜索语料,若该搜索语料的分词序列中存在目标分词则将该搜索语料确定为一条目标搜索语料;若该搜索语料的分词序列中不存在目标分词则确定该搜索语料不为目标搜索语料。
S702、针对每个目标搜索语料,获取该目标搜索语料的分词序列中目标分词和第二分词序列中候选分词的目标翻译概率;
本申请实施例,针对获取到的多条搜索语料中的每条目标搜索语料执行如下过程:获取该条目标搜索语料的分词序列中目标分词和第二分词序列中候选分词的目标翻译概率。需要说明的是,在从多个搜索语料中确定目标搜索语料时,第二分词序列所属的搜索语料不为目标搜索语料。
需要说明的是,针对一个目标搜索语料而言,该目标搜索语料中可能包括多个目标分词。比如,目标分词为“金”时,搜索语料1中包括两个“金”,搜索语料3中包括两个“金”。针对一个目标搜索语料而言,若该目标搜索语料中包括多个目标分词,则针对该目标搜索语料中每个目标分词,计算该目标搜索语料中该目标分词和第二分词序列中候选分词的目标翻译概率。
参照图5,在多个搜索语料分别为搜索语料1、搜索语料2和搜索语料3;第一分词序列为搜索语料1的分词序列,第二分词序列为搜索语料2的分词序列,目标分词为第一分词序列中出现的第一个分词“金”,候选分词为第二分词序列中的分词“对”的情况下,可知目标分词是分词“金”,进而可以确定搜索语料1包括分词“金”,确定搜索语料1为目标搜索语料;确定搜索语料3包括分词“金”,确定搜索语料3为目标搜索语料。获取搜索语料1中出现的第一个分词“金”和第二分词序列中分词“对”的目标翻译概率,获取搜索语料1中出现的第二个分词“金”和第二分词序列中分词“对”的目标翻译概率,获取搜索语料3中出现的第一个分词“金”和第二分词序列中分词“对”的目标翻译概率,以及获取搜索语料3中出现的第二个分词“金”和第二分词序列中分词“对”的目标翻译概率。
S703、基于第一分词序列中目标分词和第二分词序列中候选分词的目标翻译概率以及目标搜索语料的分词序列中目标分词和第二分词序列中候选分词的目标翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐概率。
参照图5,在多个搜索语料分别为搜索语料1、搜索语料2和搜索语料3;第一分词序列为搜索语料1的分词序列,第二分词序列为搜索语料2的分词序列,目标分词为第一分词序列中出现的第一个分词“金”,候选分词为第二分词序列中的分词“对”的情况下,可以获取搜索语料1中出现的第一个分词“金”和第二分词序列中分词“对”的目标翻译概率1,获取搜索语料1中出现的第二个分词“金”和第二分词序列中分词“对”的目标翻译概率2,获取搜索语料3中出现的第一个分词“金”和第二分词序列中分词“对”的目标翻译概率3,以及获取搜索语料3中出现的第二个分词“金”和第二分词序列中分词“对”的目标翻译概率4;进而基于目标翻译概率1、目标翻译概率2、目标翻译概率3和目标翻译概率4计算搜索语料1中出现的第一个分词“金”和搜索语料2中分词“对”的对齐概率。
其中,可以将目标翻译概率1、目标翻译概率2、目标翻译概率3和目标翻译概率4的累加结果作为目标信息,将目标翻译概率1除以目标信息所得的结果作为搜索语料1中出现的第一个分词“金”和搜索语料2中分词“对”的对齐概率。
本申请实施例提供的计算第一分词序列中目标分词和第二分词序列中候选分词的对齐概率的方式可参见公式4。
Figure BDA0002336299710000171
其中,E为目标搜索语料,e'为目标搜索语料E中的目标分词ej,j'为目标分词ej在目标搜索语料中的位置信息,m'为目标搜索语料的分词序列中分词的数量,目标分词ej在目标搜索语料中的位置信息可以为目标分词ej在目标搜索语料中的排序序号。
图8为本申请实施例提供的一种候选同义词确定方法流程图。
如图8所示,该方法包括:
S801、获取多个搜索语料,各个搜索语料的搜索结果中存在相同的被点击的搜索结果;
S802、分别对每个搜索语料进行分词得到各个搜索语料的分词序列;
S803、针对各个分词序列中的第一分词序列和第二分词序列,基于分词序列表征的分词排序信息和分词数量,确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词;
S804、比较第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息得到比较结果;
S805、根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
有关本申请实施例提供的如图8所示的候选同义词确定方法中各个步骤的具体执行方式,请参见上述实施例的具体描述,在此不做赘述。
本申请实施例,候选同义词可以认为是由两个词构成的词对。进一步的,本申请实施例提供的一种候选同义词确定方法还可以对所有的对齐上下文考虑更复杂的同义词替换算法,并考虑引入上下文phrase词典信息得到更精准的phrase候选同义词,如“失业金”和“失业保险”为候选同义词。
本申请实施例提供一种候选同义词确定方法,在确定第二分词序列中与第一分词的目标分词匹配的第一候选分词时,引入了分词序列表征的分词排序信息和分词数量作为约束,避免现有技术侧重于将相同词对齐的情况,使得候选同义词的挖掘更加适用于同义词挖掘技术领域,提高了同义词挖掘结果的准确性;并且,在确定出第二分词序列中与第一分词的目标分词匹配的第一候选分词后,通过基于第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与候选分词排序相关的第二分词信息对所确定的第一候选分词进行校验,进一步提高了候选同义词确定结果的准确性。
基于上述共性,现对本申请实施例提供的一种候选同义词确定装置的结构进行说明,具体请参见图9。
如图9所示,该装置包括:
搜索语料获取单元91,用于获取多个搜索语料,各个搜索语料的搜索结果中存在相同的被点击的搜索结果;
分词单元92,用于分别对每个搜索语料进行分词得到各个搜索语料的分词序列;
第一候选分词确定单元93,用于针对各个分词序列中的第一分词序列和第二分词序列,基于分词序列表征的分词排序信息和分词数量,确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词;
比较结果生成单元94,用于比较第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息得到比较结果;
第二候选分词确定单元95,用于根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
本申请实施例中,优选的,第二候选分词确定单元,包括:
判断单元,用于判断比较结果是否满足预先设置的候选条件;
第一确定单元,用于如果比较结果满足候选条件,确定第一候选分词为第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词;
第二确定单元,用于如果比较结果不满足候选条件,根据预先设置的与比较结果匹配的第一调整信息确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
在本申请实施例中,优选的,第一候选分词确定单元,包括:
第一获取单元,用于获取第一分词序列的第一分词数量、第二分词序列的第二分词数量以及目标分词在第一分词序列的第一位置信息;
调整信息确定单元,用于针对第二分词序列中的候选分词,利用第一分词数量、第二分词数量、第一位置信息和候选分词在第二分词序列的第二位置信息,确定第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息;
对齐信息生成单元,用于根据第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息以及目标分词和候选分词之间的翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐信息,对齐信息表征对齐概率;
第一候选分词确定子单元,用于选取表征的对齐概率最大的对齐信息,并将所选取的对齐信息对应的候选分词确定为第二分词序列中的与第一分词序列的目标分词匹配的第一候选分词。
在本申请实施例中,调整信息确定单元,包括:
差异信息确定单元,用于根据第一位置信息和候选分词在第二分词序列的第二位置信息,确定相对位置差异信息;
第三分词数量确定单元,用于利用第一分词数量和第二分词数量确定第三分词数量;
调整信息确定子单元,用于根据相对位置差异信息和第三分词数量计算第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息,第二调整信息与相对位置差异信息成反比,且第二调整信息与第三分词数量成反比。
在本申请实施例中,优选的,对齐信息生成单元,包括:
目标翻译概率生成单元,用于根据第一分词序列中目标分词与第二分词序列中候选分词相关的第二调整信息调整目标分词和候选分词之间的翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的目标翻译概率;
目标搜索语料确定单元,用于确定多个搜索语料中存在目标分词的各个目标搜索语料;
目标翻译概率获取单元,用于针对每个目标搜索语料,获取该目标搜索语料的分词序列中目标分词和第二分词序列中候选分词的目标翻译概率;
对齐信息生成子单元,用于基于第一分词序列中目标分词和第二分词序列中候选分词的目标翻译概率以及目标搜索语料的分词序列中目标分词和第二分词序列中候选分词的目标翻译概率,生成第一分词序列中目标分词和第二分词序列中候选分词的对齐概率。
在本申请实施例中,优选的,比较结果生成单元,包括:
第二获取单元,用于获取第一分词序列中与目标分词相邻的第一分词;
第三获取单元,用于获取第二分词序列中与第一候选分词相邻的第二分词;
计算单元,用于计算第一分词序列中第一分词和第二分词序列中第二分词的目标对齐概率。
在本申请实施例中,优选的,第二确定单元,包括:
第四获取单元,用于如果比较结果不满足候选条件,获取预先设置的与目标对齐概率匹配的第一调整信息;
调整单元,用于基于第一调整信息调整第一分词序列中目标分词和第二分词序列中第一候选分词的对齐概率;
第二候选分词确定子单元,用于从第二分词序列中选取和第一分词序列中目标分词的对齐概率最大的候选分词作为第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
为了便于理解,现从服务器的角度对本申请实施例提供的一种候选同义词确定方法进行详细说明。服务器可以是网络侧为用户提供服务的服务设备,其可能是多台服务器组成的服务器集群,也可能是单台服务器。
图10为本申请实施例提供的一种服务器的硬件结构框图。参照图10,服务器的硬件结构可以包括:处理器1001,通信接口1002,存储器1003和通信总线1004;
在本发明实施例中,处理器1001、通信接口1002、存储器1003、通信总线1004的数量均可以为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信;
处理器1001可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器1003可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于:
获取多个搜索语料,各个搜索语料的搜索结果中存在相同的被点击的搜索结果;
分别对每个搜索语料进行分词得到各个搜索语料的分词序列;
针对各个分词序列中的第一分词序列和第二分词序列,基于分词序列表征的分词排序信息和分词数量,确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词;
比较第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息得到比较结果;
根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词。
可选的,程序的细化功能和扩展功能可参照上文描述。
进一步的,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令用于执行上述候选同义词确定方法。
可选的,计算机可执行指令的细化功能和扩展功能可参照上文描述。
本申请实施例提供一种候选同义词确定方法、装置、服务器及存储介质,在确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词时,引入了分词序列表征的分词排序信息和分词数量作为约束,避免现有技术侧重于将相同词对齐的情况,使得候选同义词的挖掘更加适用于同义词挖掘技术领域,提高了同义词挖掘结果的准确性;并且,在确定出第二分词序列中与第一分词序列的目标分词匹配的第一候选分词后,通过基于第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息对所确定的第一候选分词进行校验,以确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词,进一步提高了候选同义词分析结果的准确性。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对本发明所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种候选同义词确定方法,其特征在于,包括:
获取多个搜索语料,各个所述搜索语料的搜索结果中存在相同的被点击的搜索结果;
分别对每个所述搜索语料进行分词得到各个所述搜索语料的分词序列;
针对各个所述分词序列中的第一分词序列和第二分词序列,获取所述第一分词序列的第一分词数量、所述第二分词序列的第二分词数量以及所述第一分词序列的目标分词在所述第一分词序列的第一位置信息;
根据所述第一位置信息和所述第二分词序列中的候选分词在所述第二分词序列的第二位置信息,确定相对位置差异信息;
利用所述第一分词数量和第二分词数量确定第三分词数量;
根据所述相对位置差异信息和第三分词数量计算所述第一分词序列中所述目标分词与所述第二分词序列中所述候选分词相关的第二调整信息,所述第二调整信息与所述相对位置差异信息成反比,且所述第二调整信息与所述第三分词数量成反比;
根据所述第一分词序列中所述目标分词与所述第二分词序列中所述候选分词相关的第二调整信息以及所述目标分词和所述候选分词之间的翻译概率,生成所述第一分词序列中所述目标分词和所述第二分词序列中所述候选分词的对齐信息,所述对齐信息表征对齐概率;
选取表征的对齐概率最大的对齐信息,并将所选取的对齐信息对应的候选分词确定为所述第二分词序列中的与所述第一分词序列的所述目标分词匹配的第一候选分词;
比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果;
根据所述比较结果和所述第一候选分词确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述比较结果和所述第一候选分词确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词,包括:
判断所述比较结果是否满足预先设置的候选条件;
如果所述比较结果满足所述候选条件,确定所述第一候选分词为所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词;
如果所述比较结果不满足所述候选条件,根据预先设置的与所述比较结果匹配的第一调整信息确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词序列中所述目标分词与所述第二分词序列中所述候选分词相关的第二调整信息以及所述目标分词和所述候选分词之间的翻译概率,生成所述第一分词序列中所述目标分词和所述第二分词序列中所述候选分词的对齐信息,包括:
根据所述第一分词序列中所述目标分词与所述第二分词序列中所述候选分词相关的第二调整信息调整所述目标分词和所述候选分词之间的翻译概率,生成所述第一分词序列中所述目标分词和所述第二分词序列中所述候选分词的目标翻译概率;
确定多个搜索语料中存在所述目标分词的各个目标搜索语料;
针对每个所述目标搜索语料,获取该目标搜索语料的分词序列中所述目标分词和所述第二分词序列中所述候选分词的目标翻译概率;
基于所述第一分词序列中所述目标分词和所述第二分词序列中所述候选分词的目标翻译概率以及所述目标搜索语料的分词序列中所述目标分词和所述第二分词序列中所述候选分词的目标翻译概率,生成所述第一分词序列中所述目标分词和所述第二分词序列中所述候选分词的对齐概率。
4.根据权利要求2所述的方法,其特征在于,所述比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果,包括:
获取所述第一分词序列中与所述目标分词相邻的第一分词;
获取所述第二分词序列中与所述第一候选分词相邻的第二分词;
计算所述第一分词序列中所述第一分词和所述第二分词序列中所述第二分词的目标对齐概率。
5.根据权利要求4所述的方法,其特征在于,所述根据预先设置的与所述比较结果匹配的第一调整信息确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词,包括:
获取预先设置的与所述目标对齐概率匹配的第一调整信息;
基于所述第一调整信息调整所述第一分词序列中所述目标分词和所述第二分词序列中所述第一候选分词的对齐概率;
从所述第二分词序列中选取和所述第一分词序列中所述目标分词的对齐概率最大的候选分词作为所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
6.一种候选同义词确定装置,其特征在于,包括:
搜索语料获取单元,用于获取多个搜索语料,各个所述搜索语料的搜索结果中存在相同的被点击的搜索结果;
分词单元,用于分别对每个所述搜索语料进行分词得到各个所述搜索语料的分词序列;
第一候选分词确定单元,用于针对各个所述分词序列中的第一分词序列和第二分词序列,获取所述第一分词序列的第一分词数量、所述第二分词序列的第二分词数量以及所述第一分词序列的目标分词在所述第一分词序列的第一位置信息;根据所述第一位置信息和所述第二分词序列中的候选分词在所述第二分词序列的第二位置信息,确定相对位置差异信息;利用所述第一分词数量和第二分词数量确定第三分词数量;根据所述相对位置差异信息和第三分词数量计算所述第一分词序列中所述目标分词与所述第二分词序列中所述候选分词相关的第二调整信息,所述第二调整信息与所述相对位置差异信息成反比,且所述第二调整信息与所述第三分词数量成反比;根据所述第一分词序列中所述目标分词与所述第二分词序列中所述候选分词相关的第二调整信息以及所述目标分词和所述候选分词之间的翻译概率,生成所述第一分词序列中所述目标分词和所述第二分词序列中所述候选分词的对齐信息,所述对齐信息表征对齐概率;选取表征的对齐概率最大的对齐信息,并将所选取的对齐信息对应的候选分词确定为所述第二分词序列中的与所述第一分词序列的所述目标分词匹配的第一候选分词;
比较结果生成单元,用于比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果;
第一确定单元,用于若所述比较结果满足预先设置的候选条件,确定所述第一分词序列的所述目标分词和所述第二分词序列的所述第一候选分词为候选同义词。
7.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现如权利要求1-5任意一项所述的候选同义词确定方法。
8.一种计算机可读存储介质,其特征在于,用于存储实现如权利要求1-5任意一项所述的候选同义词确定方法的程序。
CN201911357376.7A 2019-12-25 2019-12-25 一种候选同义词确定方法、装置、服务器及存储介质 Active CN111126048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911357376.7A CN111126048B (zh) 2019-12-25 2019-12-25 一种候选同义词确定方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911357376.7A CN111126048B (zh) 2019-12-25 2019-12-25 一种候选同义词确定方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111126048A CN111126048A (zh) 2020-05-08
CN111126048B true CN111126048B (zh) 2021-10-22

Family

ID=70502202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911357376.7A Active CN111126048B (zh) 2019-12-25 2019-12-25 一种候选同义词确定方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111126048B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967257B (zh) * 2020-07-08 2024-08-27 咪咕文化科技有限公司 一种分词方法、装置、电子设备和存储介质
CN112802569B (zh) * 2021-02-05 2023-08-08 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011015A1 (en) * 2015-07-08 2017-01-12 Ebay Inc. Content extraction system
CN107688563B (zh) * 2016-08-05 2021-03-19 中国移动通信有限公司研究院 一种同义词的识别方法及识别装置
CN106777283B (zh) * 2016-12-29 2021-02-26 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107748755B (zh) * 2017-09-19 2019-11-05 华为技术有限公司 同义词挖掘方法、装置、设备和计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置

Also Published As

Publication number Publication date
CN111126048A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
CN109994215A (zh) 疾病自动编码系统、方法、设备和存储介质
WO2017161899A1 (zh) 一种文本处理方法、装置及计算设备
CN111126048B (zh) 一种候选同义词确定方法、装置、服务器及存储介质
JPWO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
Shibata et al. Entity-centric joint modeling of Japanese coreference resolution and predicate argument structure analysis
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
US7593844B1 (en) Document translation systems and methods employing translation memories
CN108694167B (zh) 候选词评估方法、候选词排序方法及装置
CN108628826B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
CN108681533A (zh) 候选词评估方法、装置、计算机设备和存储介质
US20130030790A1 (en) Translation apparatus and method using multiple translation engines
CN108595419B (zh) 候选词评估方法、候选词排序方法及装置
CN108647202B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN108664466B (zh) 候选词评估方法、装置、计算机设备和存储介质
Mei et al. Post-processing OCR text using web-scale corpora
CN108664467B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN108681534A (zh) 候选词评估方法、装置、计算机设备和存储介质
CN108628827A (zh) 候选词评估方法、装置、计算机设备和存储介质
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant