CN111523312B - 一种基于释义消歧的查词显示方法、装置和计算设备 - Google Patents
一种基于释义消歧的查词显示方法、装置和计算设备 Download PDFInfo
- Publication number
- CN111523312B CN111523312B CN202010321635.7A CN202010321635A CN111523312B CN 111523312 B CN111523312 B CN 111523312B CN 202010321635 A CN202010321635 A CN 202010321635A CN 111523312 B CN111523312 B CN 111523312B
- Authority
- CN
- China
- Prior art keywords
- word
- paraphrasing
- vector
- paraphrase
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于释义消歧的查词显示方法,适于在计算设备中执行,所述方法包括步骤:响应于用户在页面中的查词操作,计算该查询词在查询语句中的词向量;将查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量,所述释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,所述释义向量为同一释义在多个释义例句中的词向量的平均值;以及计算词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示。本发明公开了对应的查词显示装置和计算设备。
Description
技术领域
本发明涉及计算机和科学技术领域,尤其涉及一种基于释义消歧的查词显示方法、装置和计算设备。
背景技术
随着在线教育的发展,使用互联网学习英语阅读的人急速增多,为用户提供英文内容的阅读产品和服务也逐渐变多。对于有一定基础的外语学习者而言,阅读外文文章时常常遇到的问题是,认识每个单词但却不理解整句话的含义。这是因为同一个单词往往包含多个释义,牛津词典和柯林斯词典的单词平均释义数分别为3.39和3.18,单词最大释义数分别为54和201。因此放在具体语境中才能理解每个单词的释义,从而理解整句话的意思。
为了提高用户浏览的体验,大多数查词软件会提供取词查词典的功能,但是对于包含多个释义的单词而言,把所有释义简单列出来并不能有效展示用户所需的信息,导致用户体验不佳。即使优先显示最常见的释义,也不一定代表该单词在句子中的真正释义,无法使用户第一时间看到有效的查词结果,降低查词效率,用户体验不佳。
发明内容
鉴于上述问题,本发明提出了一种基于释义消歧的查词显示方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。
根据本发明的一个方面,提供了一种基于释义消歧的查词显示方法,适于在计算设备中执行,该方法包括步骤:响应于用户在页面中的查词操作,计算该查询词在查询语句中的词向量;将查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量,其中释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,所述释义向量为同一释义在多个释义例句中的词向量的平均值;以及计算词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示。
可选地,在根据本发明的查词显示方法中,还包括释义消歧词典的生成步骤:对于每个单词,从生词词典中提取该单词的所有释义、以及每个释义的释义例句;分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算,得到每个释义的释义向量;以及将每个单词的释义和释义向量进行关联存储,得到所述释义消歧词典。
可选地,在根据本发明的查词显示方法中,分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算的步骤包括:将所提取出的所有释义例句划分为训练集和测试集;分别计算同一释义在训练集的多个释义例句中的词向量,并将该多个词向量进行综合计算;以及采用测试集的释义例句的词向量计算所述释义向量的准确度。
可选地,在根据本发明的查词显示方法中,查询词的词向量和释义消歧词典中的词向量均采用上下文词嵌入模型生成,所述上下文词嵌入模型的输入为用户语句,输出为所述用户语句的语义特征向量,所述语义特征向量包括该输入语句中每个单词的最大似然词向量。
可选地,在根据本发明的查词显示方法中,查询词的词向量和释义词典中的词向量均采用由上下文词嵌入模型知识蒸馏得到的蒸馏模型生成,此时训练好的BERT模型作为教师模型,所述蒸馏模型作为学生模型。
可选地,在根据本发明的查词显示方法中,教师模型的输出为用户语句中各单词的词向量概率分布,该方法还包括蒸馏模型的训练步骤:以教师模型输出的各单词的词向量概率分布作为样本标签,以所述用户语句作为样本输入,以用户语句的语义特征向量为样本输出,对蒸馏模型进行训练,得到训练后的蒸馏模型。
可选地,在根据本发明的查词显示方法中,将述查询词还原为原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量的步骤包括:根据标准词库将查询词还原为原型词;若在释义消歧词典中未查询到该原型词的释义和释义向量,则提取该查询词的词干,并从释义消歧词典中获取该词干的所有释义和释义向量。
可选地,在根据本发明的查词显示方法中,还包括步骤:若在释义消歧词典中未查询到该词干的释义和释义向量,则向用户返回未查询到该查询词的结果。
可选地,在根据本发明的查词显示方法中,相似度为两个向量之间的余弦相似度。
可选地,在根据本发明的查词显示方法中,向用户至少返回相似度最高的释义向量所对应的释义的步骤包括:基于相似度对多个释义向量对应的释义进行排序,并向用户返回排序后的释义结果进行显示。
根据本发明的又一个方面,提供了一种基于释义消歧的查词显示装置,适于驻留在计算设备中,所述装置包括:词向量计算模块,适于响应于用户在页面中的查词操作,计算该查询词在查询语句中的词向量;释义向量计算模块,适于将查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量,释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,所述释义向量为同一释义在多个释义例句中的词向量的平均值;以及相似度计算模块,适于计算词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示。
根据本发明的又一个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,该程序指令被配置为适于由所述至少一个处理器执行,程序指令包括用于执行如上所述的查词显示方法的指令。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当该程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的查词显示方法。
根据本发明的技术方案,在进行多义词点击查词时,根据查询词的上下文信息,对用户所选择的词语进行分析,匹配当前语境下,选取与词典中的某一释义最为相近的释义,并优先显示该释义。该方案解决了现有用户点击查词时效率不高、显示信息宽泛、缺乏定制化的问题,提高用户的阅读体验。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的基于释义消歧的查词显示方法200的流程图;
图3示出了根据本发明一个实施例的基于释义消歧的查词显示方法的详细流程图;
图4示出了根据本发明一个实施例的释义向量生成过程的示意图;
图5示出了根据本发明一个实施例的释义消歧的示意图;以及
图6示出了根据本发明一个实施例的基于释义消歧的查词显示装置600的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行基于释义消歧的查词显示方法200的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行根据本发明的基于释义消歧的查词显示方法200。
图2示出了根据本发明一个实施例的基于释义消歧的查词显示方法200,在计算设备中执行,如在计算设备100中执行。图2中的查词显示方法可结合图3进行理解,用户在客户端进行查词操作,计算设备获取到该词并向用户返回相应的释义后,在客户端中显示。
如图2所示,该方法始于步骤S210。在步骤S210,响应于用户在页面中的查词操作,计算该查询词在所属查询语句中的词向量。
一般地,用户在软件上学习某外文语言(如英文、日文、法语等)时,会通过点击查词或鼠标接近操作,来查询某单词的释义。查询词所在的句子为查询语句,当监测到用户对某词语进行了查词操作,则结合该查询词的上下文计算该查询词在查询语句的词向量。词向量是一种文本的数字型表示,具有相同含义的词具有类似的表示。应当理解的是,存在多种方法来生成语句中的单词向量,如上下文词向量嵌入模型,等本发明不受限于具体的形式,所有能够生成语句中的单词向量的方法,均在本发明的保护范围之内。
在一种实现方式中,查询词的词向量可以采用上下文词嵌入模型(或称contextual embedding)生成。上下文词嵌入模型的输入为用户语句,输出为用户语句的语义特征向量,该语义特征向量包括该输入语句中每个单词的最大似然词向量。根据一个实施例,上下文词嵌入模型为BERT模型,该模型一般包括输入层、嵌入层、拼接层、编码器层和输出层,其中输入层适于接收用户语句,嵌入层将该每个词语编码为词向量,拼接层将每个单词的词向量、位置向量(单词在句子中的字符位置)和片段向量(单词在上下句的标识)进行拼接,编码器层对所有拼接后的上下文信息进行学习,输出层输出用户语句的语义特征向量,该语义特征向量包括每个单词的最大似然词向量。关于该模型的详细结构参数,本领域技术人员可以根据需要自行设定,本发明对此不作限制。
BERT模型预训练任务有两个:单词层面的单词掩蔽任务(Masked LanguageModel,MLM)和句子层面的下句预测任务(Next Sentence Prediction,NSP)。前者是在输入语句中随机掩蔽掉几个单词,然后采用模型对掩蔽掉的单词进行预测,并根据预测值与实际值的差值对模型参数进行调整,直至模型达到收敛条件(如达到预定迭代次数、或损失函数达到预期值)。后者是随机将输入语句的下句替换为其他句子,然后采用模型判断替换后的上下句是否是具有关联关系的一句话,并根据判断结果与实际结果对模型参数进行调整,直至模型达到收敛条件。
基于这两个任务构造大量训练样本,能够完成BERT模型的训练过程,训练后的BERT模型可以输出一个句子的语义特征向量。这样已知一个单词在句子中的字符位置,即可得到该字符位置处的最大似然词向量。
不过,训练完成的上下文词嵌入模型可能参数量比较大,在客户端上应用时容易造成信息冗余和资源的消耗,运算量比较大。因此,在一种实现方式中,可以为上下文词嵌入模型进行知识蒸馏,此时查询词的词向量采用由该上下文词嵌入模型蒸馏得到的蒸馏模型生成。如前文所述,该上下文词嵌入模型可以为BERT模型。蒸馏模型的思路就是通过教师模型的最后输出结果来作为先验知识,结合独热编码数据来共同指导学生模型的学习。
具体地,训练好的上下文词嵌入模型作为教师模型,蒸馏模型作为学生模型,学生模型比教师模型的模型结构和参数更加简化,但却能达到预期的模型预测效果。基于此,方法200还可以包括蒸馏模型的训练步骤:以教师模型输出的各单词的词向量概率分布作为样本标签,以用户语句作为样本输入,以用户语句的语义特征向量为样本输出,对蒸馏模型进行训练,得到训练后的蒸馏模型。
教师模型的输出为用户语句中各单词的词向量概率分布,而不是单一的最大似然词向量。教师模型一般采用0-1编码来训练,称之为硬目标,最后的softmax层来产生的概率分布其实是一个比原来硬目标更软的软目标。这个分布是由很多(0,1)之间的数值(概率)组成的。在训练教师模型时,损失函数采用预测值与真实标签的误差即可。
学生模型的训练含有两个目标:一个是硬目标,即原始的目标函数,为学生模型的类别概率输出与真实标签的交叉熵;另一个为软目标,为学生模型的类别概率输出与教师模型的类别概率输出的交叉熵。对两种交叉熵加权平均,可以得到蒸馏模型训练的损失函数。
这里,上下文词嵌入模型的嵌入层会把一个单词编码为初始的词向量,经过编码器层之后,会输出该单词的词向量分类及分布概率,其中包括最大似然词向量。同样地,在蒸馏模型中,同样会把一个单词编码为初始的词向量,经过编码器层之后,会输出该单词的最大似然词向量。这两个最大似然词向量都是针对对应模型来说的,其是当前训练的模型所能输出的最优向量,因此这两个向量可能完全相同,也可能会有部分差异。采用模型所生成的多维词向量例如为:[4.41424325e-02 2.03401167e-02 4.31591272e-01-2.96987265e-01…-8.49333107e-01 6.10308826e-01]。
随后,在步骤S220中,将查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量。
其中,生词词典可以是目前常用标准词典。释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,该释义向量为同一释义在多个释义例句中的词向量的平均值。
根据一个实施例,方法200还可以包括释义消歧词典的生成步骤:对于每个单词,从生词词典中提取该单词的所有释义、以及每个释义的释义例句。之后,分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算,得到每个释义的释义向量。这里,可以将所提取出的所有释义例句划分为训练集和测试集,分别计算同一释义在训练集的多个释义例句中的词向量,并将该多个词向量进行综合计算来作为释义向量,而测试集的释义例句的词向量则可用于计算释义向量的准确度。最后,将每个单词的释义和释义向量进行关联存储,即可得到释义消歧词典。其中,综合计算可以是加权平均计算。每个释义在释义的词向量与查询词的词向量计算方式相同,可以采用传统的词嵌入方式计算,例如可以采用BERT模型计算,也可以由上下文词嵌入模型蒸馏得到的蒸馏模型生成,本发明对此不作限制。
释义消歧词典是预先使用同样的方式提取词典给定释义的词向量,之后提取同一释义的所有例句,对每一例句求出对应单词的词向量,并随机地将这些例句划分为训练集和测试集。其中划为训练集的例句的词向量将被计入释义向量的计算,测试集的向量则用来测试当前释义向量的准确程度。
例如,图4中的单词word1,其有两个释义sense1和sense2,包含释义1的例句有3个,每个例句中都能生成一个该单词对应的词向量。训练集中的3个词向量进行加权平均可以得到该释义1的释义向量,测试集中的词向量用于计算释义向量1的准确度。包含释义2的例句有6个,每个例句中都生成一个对应的词向量,其中4个用于构成训练集,来计算释义2的释义向量,剩下2个例句用于构成测试集,用来计算释义向量2的准确度。每个释义只需要存储图4中最后一列的释义向量,即可较好的表示当前释义在上下文中的含义,减少了服务器端的存储和计算压力。
需要说明的是,释义例句可以基于同一生词词典提取,每种生词词典分别维护一个释义消歧词典,如基于市面上的词典A提取对应的释义例句和释义向量,或者基于词典B来提取对应的释义例句和释义向量。释义例句也可以基于不同的生词词典组合提取,如同时提取两个或多个词典的释义例句和释义向量,进行综合取值后得到对应的释义向量。本发明对释义例句的来源方式并不作限制。
原型词即一个单词在生词词典中的标准表述,比如“demanding”是由“demand”变形而来,其原型词即为“demand”。通常可根据标准词库来将变形词还原为原型词,如NLTK自然语言工具包、SPACY自然语言工具包等,当然不限于此。若在释义消歧词典中未查询到该原型词的释义和释义向量,则提取该查询词的词干,并从释义消歧词典中获取该词干的所有释义和释义向量。若在释义消歧词典中未查询到该词干的释义和释义向量,则向用户显示未查询到该查询词的结果。
随后,在步骤S230中,计算词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示。
相似度为两个向量之间的余弦相似度。词向量在数学上可以投影到高维空间,因此可以计算两个向量之间的夹角。即根据余弦定理,两个向量相乘,cosine值的范围为[0,1],越趋近于1时两个向量的夹角越小,代表两个单词越相似。根据相似度可以对多个释义向量对应的释义进行排序,并向用户返回排序后的释义结果进行显示。一般地,可以直接向用户显示所有排序后的释义;也可以优先向用户显示相似度最高的释义,当用户点击请求进一步展开释义时,再全部显示排序后的释义,本发明对客户端上的释义显示方式不作具体限制。
经过上述方法,本发明构造了释义消歧词典,包括每个单词的多个释义向量,这样基于单词在上下文的词向量,基于相似度算法即可得出与该单词最匹配的释义向量,保证用户能够第一时间看到有效的查找结果,提高用户体验。图5为本发明一个实施例的释义消歧的示例,查询词为“yield”,其在上下文的查询语句为“Trees no longer yield fruit”,结合上下文语境,该单词在词典A的当前最优释义为“出产,提供(天然产品呢,农产品,或工业产品)”。本方案利用预先训练好的释义向量运算,减少了服务器端的运算量,从而减轻了服务器的负载。
图6示出了根据本发明一个实施例的基于释义消歧的查词显示装置600的结构框图,该装置可以驻留在计算设备中,如驻留在计算设备100中。计算设备100中存储有或者能够调用数据存储装置中存储的释义消歧词典和标准词库,以便查询释义向量和原型词。如图6所示,装置600包括:词向量计算模块610、释义向量计算模块620和相似度计算模块630。
词向量模块610响应于用户在页面中的查词操作,计算该查询词在查询语句中的词向量。词向量计算模块610可以进行与上面在步骤S210中描述的处理相对应的处理,这里不再展开赘述。
释义向量计算模块620将查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量。其中,释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,释义向量为同一释义在多个释义例句中的词向量的平均值。释义向量计算模块620根据标准词库将查询词还原为原型词;若在释义消歧词典中未查询到该原型词的释义和释义向量,则提取该查询词的词干,并从释义消歧词典中获取该词干的所有释义和释义向量。若在释义消歧词典中未查询到该词干的释义和释义向量,则向用户显示未查询到该查询词的结果。释义向量计算模块620可以进行与上面在步骤S220中描述的处理相对应的处理,这里不再展开赘述。
相似度计算模块630计算词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示。相似度计算模块630可以进行与上面在步骤S230中描述的处理相对应的处理,这里不再展开赘述。
根据一个实施例,装置600还可以包括释义词典生成模块(图中未示出),对于每个单词,该模块从生词词典中提取该单词的所有释义、以及每个释义的释义例句;分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算,得到每个释义的释义向量;以及将每个单词的释义和释义向量进行关联存储,得到所述释义消歧词典。具体地,该模块将所提取出的所有释义例句划分为训练集和测试集;分别计算同一释义在训练集的多个释义例句中的词向量,并将该多个词向量进行综合计算;以及采用测试集的释义例句的词向量计算释义向量的准确度。
根据一个实施例,装置600还可以包括蒸馏模型训练模块(图中未示出),其以教师模型输出的各单词的词向量概率分布作为样本标签,以用户语句作为样本输入,以所述用户语句的语义特征向量为样本输出,对蒸馏模型进行训练,得到训练后的蒸馏模型。
根据本发明的技术方案,利用NLP词向量提取方式来辅助查词,当用户点击查词时,向用户返回最符合当前句子的单词释义,并优先显示,使得用户能够第一时间看到有效的查词结果,提高用户的阅读效率。
A8、如A 7所述的方法,还包括步骤:若在所述释义消歧词典中未查询到该词干的释义和释义向量,则向用户显示未查询到该查询词的结果。A9、如A1-A8中任一项所述的方法,其中,所述相似度为两个向量之间的余弦相似度。A10、如A1-A9中任一项所述的方法,其中,向用户至少返回相似度最高的释义向量所对应的释义的步骤包括:基于所述相似度对多个释义向量对应的释义进行排序,并向用户返回排序后的释义结果进行显示。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (12)
1.一种基于释义消歧的查词显示方法,适于在计算设备中执行,所述方法包括步骤:
响应于用户在页面中的查词操作,计算查询词在查询语句中的词向量,其中,所述查词操作为学习外文语言时查询单词的释义的操作;
将所述查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量,所述释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,所述释义向量为同一释义在多个释义例句中的词向量的平均值;以及
计算所述词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示;
其中,所述释义消歧词典的生成步骤,包括:对于每个单词,从生词词典中提取该单词的所有释义、以及每个释义的释义例句;分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算,得到每个释义的释义向量;以及将每个单词的释义和释义向量进行关联存储,得到所述释义消歧词典。
2.如权利要求1所述的方法,其中,所述分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算的步骤包括:
将所提取出的所有释义例句划分为训练集和测试集;
分别计算同一释义在训练集的多个释义例句中的词向量,并将该多个词向量进行综合计算;以及
采用所述测试集的释义例句的词向量计算所述释义向量的准确度。
3.如权利要求1或2所述的方法,其中,
所述查询词的词向量和释义消歧词典中的词向量均采用上下文词嵌入模型生成,所述上下文词嵌入模型的输入为用户语句,输出为所述用户语句的语义特征向量,所述语义特征向量包括该输入语句中每个单词的最大似然词向量。
4.如权利要求1或2所述的方法,其中,
所述查询词的词向量和释义词典中的词向量均采用由上下文词嵌入模型知识蒸馏得到的蒸馏模型生成,此时训练好的上下文词嵌入模型作为教师模型,所述蒸馏模型作为学生模型。
5.如权利要求4所述的方法,其中,所述教师模型的输出为用户语句中各单词的词向量概率分布,所述方法还包括所述蒸馏模型的训练步骤:
以所述教师模型输出的各单词的词向量概率分布作为样本标签,以所述用户语句作为样本输入,以所述用户语句的语义特征向量为样本输出,对所述蒸馏模型进行训练,得到训练后的蒸馏模型。
6.如权利要求1或2所述的方法,其中,所述将所述查询词还原为原型词,并从所述释义消歧词典中获取该原型词的所有释义和释义向量的步骤包括:
根据标准词库将所述查询词还原为原型词;
若在所述释义消歧词典中未查询到该原型词的释义和释义向量,则提取该查询词的词干,并从所述释义消歧词典中获取该词干的所有释义和释义向量。
7.如权利要求6所述的方法,还包括步骤:
若在所述释义消歧词典中未查询到该词干的释义和释义向量,则向用户显示未查询到该查询词的结果。
8.如权利要求1或2所述的方法,其中,所述相似度为两个向量之间的余弦相似度。
9.如权利要求1或2所述的方法,其中,向用户至少返回相似度最高的释义向量所对应的释义的步骤包括:
基于所述相似度对多个释义向量对应的释义进行排序,并向用户返回排序后的释义结果进行显示。
10.一种基于释义消歧的查词显示装置,适于驻留在计算设备中,所述装置包括:
词向量计算模块,适于响应于用户在页面中的查词操作,计算查询词在查询语句中的词向量,其中,所述查词操作为学习外文语言时查询单词的释义的操作;
释义向量计算模块,适于将所述查询词还原为生词词典中的原型词,并从释义消歧词典中获取该原型词的所有释义和释义向量,所述释义消歧词典包括单词的至少一个释义、以及每个释义的释义向量,所述释义向量为同一释义在多个释义例句中的词向量的平均值;以及
相似度计算模块,适于计算所述词向量与每个释义向量的相似度,并向用户至少返回相似度最高的释义向量所对应的释义来进行显示;
其中,所述释义消歧词典的生成步骤,包括:对于每个单词,从生词词典中提取该单词的所有释义、以及每个释义的释义例句;分别计算同一释义在多个释义例句中的词向量,并将该多个词向量进行综合计算,得到每个释义的释义向量;以及将每个单词的释义和释义向量进行关联存储,得到所述释义消歧词典。
11.一种计算设备,包括:
至少一个处理器;以及
包括计算机程序指令的至少一个存储器;
所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使得所述计算设备执行如权利要求1-9中任一项所述的方法。
12.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由服务器执行时,使得所述服务器执行根据权利要求1-9中所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321635.7A CN111523312B (zh) | 2020-04-22 | 2020-04-22 | 一种基于释义消歧的查词显示方法、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321635.7A CN111523312B (zh) | 2020-04-22 | 2020-04-22 | 一种基于释义消歧的查词显示方法、装置和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523312A CN111523312A (zh) | 2020-08-11 |
CN111523312B true CN111523312B (zh) | 2023-06-16 |
Family
ID=71903946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010321635.7A Active CN111523312B (zh) | 2020-04-22 | 2020-04-22 | 一种基于释义消歧的查词显示方法、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523312B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936550A (zh) * | 2022-05-10 | 2022-08-23 | 中国联合网络通信集团有限公司 | 词典生成方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN109726386A (zh) * | 2017-10-30 | 2019-05-07 | 中国移动通信有限公司研究院 | 一种词向量模型生成方法、装置和计算机可读存储介质 |
CN109753569A (zh) * | 2018-12-29 | 2019-05-14 | 上海智臻智能网络科技股份有限公司 | 一种多义词发现的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132208A1 (en) * | 2015-11-06 | 2017-05-11 | International Business Machines Corporation | Personalized paraphrasing for reading improvement |
-
2020
- 2020-04-22 CN CN202010321635.7A patent/CN111523312B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726386A (zh) * | 2017-10-30 | 2019-05-07 | 中国移动通信有限公司研究院 | 一种词向量模型生成方法、装置和计算机可读存储介质 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN109753569A (zh) * | 2018-12-29 | 2019-05-14 | 上海智臻智能网络科技股份有限公司 | 一种多义词发现的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111523312A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209823B (zh) | 一种多标签文本分类方法及系统 | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN110851596B (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
US11544474B2 (en) | Generation of text from structured data | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN112990887B (zh) | 一种简历和岗位匹配的方法及计算设备 | |
CN110688854A (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN112101031B (zh) | 一种实体识别方法、终端设备及存储介质 | |
KR20180094664A (ko) | 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN111523312B (zh) | 一种基于释义消歧的查词显示方法、装置和计算设备 | |
CN111507789A (zh) | 商品属性词的确定方法、装置及计算设备 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
US20200380207A1 (en) | Morpheme analysis learning device, morpheme analysis device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |