CN109857746A - 双语词库的自动更新方法、装置与电子设备 - Google Patents
双语词库的自动更新方法、装置与电子设备 Download PDFInfo
- Publication number
- CN109857746A CN109857746A CN201811330508.2A CN201811330508A CN109857746A CN 109857746 A CN109857746 A CN 109857746A CN 201811330508 A CN201811330508 A CN 201811330508A CN 109857746 A CN109857746 A CN 109857746A
- Authority
- CN
- China
- Prior art keywords
- bilingual
- bilingual word
- word
- pair
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种双语词库的自动更新方法、装置与电子设备,其中所述方法包括:利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,所述双语源数据是从无词对应关系的信息源采集获取的;获取对所述潜在双语词对的人工确认结果,并基于所述人工确认结果,筛选出所述潜在双语词对中确信度达到设定阈值的双语词对;利用所述确信度达到设定阈值的双语词对,更新当前双语词库,并基于所述人工确认结果和更新后的双语词库,进一步训练并更新所述基于LSTM的识别模型,以供下一次更新识别使用。本发明实施例能够在实现双语词库的及时自动更新的基础上,有效提高双语词库质量。
Description
技术领域
本发明实施例涉及多语言处理技术领域,更具体地,涉及一种双语词库的自动更新方法、装置与电子设备。
背景技术
现阶段,世界翻译市场可划分为以下三部分:人工翻译、计算机辅助翻译及机器翻译。
在机器翻译和人机辅助翻译领域,一个包含广泛、更新及时且质量高的双语词库对翻译质量的影响是非常大的。传统的双语词库更新一般都是先通过人工对新的双语词对进行收集,再进行人工审校、编撰来实现。这种模式获取的双语词库的质量高,但是比较滞后,工作量也非常大。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种双语词库的自动更新方法、装置与电子设备,用以实现双语词库的及时自动更新,并有效提高双语词库质量。
第一方面,本发明实施例提供一种双语词库的自动更新方法,包括:
利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,所述双语源数据是从无词对应关系的信息源采集获取的;
获取对所述潜在双语词对的人工确认结果,并基于所述人工确认结果,筛选出所述潜在双语词对中确信度达到设定阈值的双语词对;
利用所述确信度达到设定阈值的双语词对,更新当前双语词库,并基于所述人工确认结果和更新后的双语词库,进一步训练并更新所述基于LSTM的识别模型,以供下一次更新识别使用。
第二方面,本发明实施例提供一种双语词库的自动更新装置,包括:
词对识别模块,用于利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,所述双语源数据是从无词对应关系的信息源采集获取的;
词对筛选模块,用于获取对所述潜在双语词对的人工确认结果,并基于所述人工确认结果,筛选出所述潜在双语词对中确信度达到设定阈值的双语词对;
更新模块,用于利用所述确信度达到设定阈值的双语词对,更新当前双语词库,并基于所述人工确认结果和更新后的双语词库,进一步训练并更新所述基于LSTM的识别模型,以供下一次更新识别使用。
第三方面,本发明实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与信息源平台之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的双语词库的自动更新方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的双语词库的自动更新方法。
本发明实施例提供的双语词库的自动更新方法、装置与电子设备,通过在各个环节引入自动化方案,如在抽取模块中引入基于分词的自动标注算法,在人工校对模块直接引入“主动学习”等,能够提升系统的学习效率。且通过自学习的LSTM抽取关键词,同时结合人工校对流程,能够在实现双语词库的及时自动更新的基础上,有效提高双语词库质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的双语词库的自动更新方法的流程示意图;
图2为根据本发明实施例提供的双语词库的自动更新方法中识别双语词对的流程示意图;
图3为本发明另一实施例提供的双语词库的自动更新方法的流程示意图;
图4为本发明实施例提供的双语词库的自动更新装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
传统的双语词库更新一般都是先通过人工对新的双语词对进行收集,再进行人工审校、编撰来实现。这种模式获取的双语词库的质量高,但是比较滞后,工作量也非常大。针对该问题,本发明实施例通过在各个环节引入自动化方案,如在抽取模块中引入基于分词的自动标注算法,在人工校对模块直接引入“主动学习”等,能够提升系统的学习效率。且通过自学习的LSTM抽取关键词,同时结合人工校对流程,能够在实现双语词库的及时自动更新的基础上,有效提高双语词库质量。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
图1为本发明一实施例提供的双语词库的自动更新方法的流程示意图,该方法的执行主体可以是翻译系统的服务器等,该方法包括:
S101,利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,双语源数据是从无词对应关系的信息源采集获取的。
在对已存在的双语词库进行填充或更新时,考虑从无词对应关系的信息源抽取双语词对的情况,事先会从无词对应关系的信息源采集需要的双语源数据。之后,从该双语源数据中可以抽取出多对具有词对应关系的双语词对,例如,可以采用基于LSTM的识别模型来对双语源数据中的双语词对进行识别抽取。
可以理解的是,可能由于识别算法本身的准确性和稳定性等问题,不能保证抽取出的所有双语词对完全准确,而需要对抽取出的双语词对进行进一步筛选,因此为了区分,将本步骤抽取出的双语词对定义为潜在双语词对,以进行下一步运算。
另外,无词对应关系的信息源表示的是,在双语信息源的文本中,术语词的对应关系没有被清楚的标识,像一般的双语论坛、双语文本阅读的网站均属于此类。而其中的双语,即表示一般的双语对照关系,双语源数据可以是从无词对应关系的信息源中采集的双语对照文档。
S102,获取对潜在双语词对的人工确认结果,并基于人工确认结果,筛选出潜在双语词对中确信度达到设定阈值的双语词对。
可以理解为,在根据上述步骤抽取出潜在双语词对后,为了保证双语词对的准确性以及双语词库的质量,将抽取出的潜在双语词对推送到人工标注平台,供人工对其正确性进行标注和确认,并在得到人工确认结果后,根据人工确认的结果确定各潜在双语词对的确信度。之后,将各潜在双语词对的确信度与设定阈值进行比较,取出其中确信度能够达到设定阈值的双语词对,即为确信度达到设定阈值的双语词对。
例如,对某一潜在双语词对,有五位译员对齐进行了标注确认,其中有四位标注的是“正确”,一位标注的是“错误”,则根据该潜在双语词对计算出的确信度为:
假设设定阈值为0.7,则该潜在双语词对的确信度大于该设定阈值,在进行筛选时即会被筛选出来。
S103,利用确信度达到设定阈值的双语词对,更新当前双语词库,并基于人工确认结果和更新后的双语词库,进一步训练并更新基于LSTM的识别模型,以供下一次更新识别使用。
可以理解为,在根据上述步骤筛选出满足要求的双语词对,即确信度达到设定阈值的双语词对后,可以将这些确信度达到设定阈值的双语词对添加到当前双语词库中,完成双语词库的本次更新。另一方面,在更新得到新的双语词库,即更新后的双语词库后,为了进一步增加基于LSTM的识别模型的识别准确性,使基于LSTM的识别模型基于更新后的双语词库进行自学习。即,以更新后的双语词库中的各双语词对为新的训练样本,进行自学习,同时结合人工确认结果,更新基于LSTM的识别模型。更新后的基于LSTM的识别模型可以用于下一次的更新识别使用。该过程以增加学习数据量的方式,实现提高模型的泛化性能的目标。
本发明实施例提供的双语词库的自动更新方法,通过在各个环节引入自动化方案,如在抽取模块中引入基于分词的自动标注算法,在人工校对模块直接引入“主动学习”等,能够提升系统的学习效率。且通过自学习的LSTM抽取关键词,同时结合人工校对流程,能够在实现双语词库的及时自动更新的基础上,有效提高双语词库质量。
为进一步扩大词源范围,保证双语词库规模与质量,本发明实施例在利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对的步骤之前,还包括:从有词对应关系的信息源采集带标注的双语词对,并从无词对应关系的信息源采集双语源数据;相应的,获取对潜在双语词对的人工确认结果的步骤还包括:获取对带标注的双语词对的人工确认结果。
可以理解为,为了保证数据来源广泛,提高双语词库的广泛适用性,在进行双语源数据采集时,考虑进行多信息源的数据采集。具体而言,在进行信息源选取时,选取有词对应关系的信息源和无词对应关系的信息源共两种信息源。其中有词对应关系的信息源,就是在双语文本中术语词的对应关系已经标识的非常清楚的信息源,被标识的双语词对即为带标注的双语词对。对这类信息源,根据对应标识,对标注的双语词对直接采集后进行对应抽取即可。
例如,在有词对应关系的信息源中,有对应关系的文本如下所示:
China;
我来自中国;
以上是一个网页效果展示,第二行是翻译好的中文,第一行的英文只是对于关键词中文的指定翻译,这些文档都是对关键词语进行对应翻译,其他不翻译,这样就有了很直观的词到词的对应关系。实际在HTML中,这样的词对应关系会用一个特殊标识标记好,只需要解析HTML就可以很容易的抽取出“China-中国”的词对的对应关系。
则相应的,在进行后续筛选等处理步骤时,也需要对从两类信息源采集是数据进行处理。因此在获取对潜在双语词对的人工确认结果时,同时也要获取对带标注的双语词对的人工确认结果。之后则根据上述各实施例,对根据两类信息源获取的双语词对均进行处理,最终实现双语词库的更新。
本发明实施例提供的双语词库的自动更新方法,词典信息采集来源多源,保证数据来源广泛,同时由于将整个过程自动化,其更新程度较及时,可以保证词库的实时性。
其中,根据上述各实施例可选的,利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对的步骤具体包括:
基于双语源数据,进行双语句子间的对齐抽取;
利用基于LSTM的识别模型,从双语句子中识别双语中的关键词,并实现双语中各关键词的双语对应。
可以理解为,在根据无词对应关系的信息源获取潜在双语词对时,无词对应关系的信息源中双语对照文本中,不像有词对应关系的信息源中那样,对双语的对应词语有清楚的标识,而往往只能从文档(或文章)层面上获取双语间的对应关系。
例如,双语无对应关系的文本如表1所示,为无词对应关系的信息源双语文本示例表。这样的文本虽然有中英对应文档,但是,是一篇文章到一篇文章的翻译。
表1,无词对应关系的信息源双语文本示例表
为了达到抽取出词语到词语的对应关系,需要:1)双语句子间的对齐抽取;2)关键词识别;3)关键词的源语到译文术语的对应。如上表所示文本,首先需要完成句到句的对应抽取,例如第一句,就会拆分成:
研究人员上周一报告称;
Last Monday,Researchers reported that;
这样一句到一句的对应关系。
然后,将一句中的关键词进行识别。所谓关键词应该是进行词库建设中感兴趣的词。例如,感兴趣的可以是专业性较强的专有名词这类。采用的算法如图2所示,图2为根据本发明实施例提供的双语词库的自动更新方法中识别双语词对的流程示意图,该过程主要采用基于LSTM的识别模型,其中采用带词库的分词器将这一过程自动化实现,同时加入“人工参与”流程,增加此流程的正确率,该过程流程如下:
起始阶段,利用人工标注的实体序列数据,在LSTM实体识别算法下,训练出一个LSTM基础模型;
然后,此LSTM基础模型会对送入的文本进行关键词的抽取识别,识别出关键词会去补充“带词库的分词器”,词库越多越准确,分词器越准确;
再然后,分词器会去识别更多的文本作为训练语料(这一过程没有人工参与),该过程直接走ByPass路线,不经过人工参与过程,继续训练实体识别的LSTM基础模型,此过程的优势在于,完全没有人工参与,只是以增加数据量方式达到提高模型的泛化性能的目的;
上述自动化过程,当达到一定阶段,会达到瓶颈,这时不从ByPass路线进行,改走“人工参与”路线,这样可以引入人工校正的准确率,可以提高模型泛化性能,提高其正确率;
上述整个训练阶段可以不间断持续进行,模型持续进行提升,在实际工作中时,就是“识别阶段”,喂入的语句会经模型识别出关键词;
最后,句子中会出现识别了的关键词,然后针对此关键词通过词对应算法,可以识别出原文-译文词对。
本发明实施例提供的双语词库的自动更新方法,在多个环节引入了质量提升的方案,如在关键词识别,引入“人工参与”流程,在抽取的词对,后面加一个人工校对模块,保证入库的词经过一次人工过滤,保证词库质量。
其中,根据上述各实施例可选的,获取对潜在双语词对的人工确认结果的步骤具体包括:对于任一潜在双语词对或者带标注的双语词对,获取用户对该潜在双语词对或者带标注的双语词对的人工标注,并基于人工标注,训练并更新标注学习模型;利用更新后的标注学习模型,对各潜在双语词对和带标注的双语词对进行确信度计算,获取人工确认结果。
可以理解为,根据上述各实施例筛选出来的双语词对,都会进入一个供人工打标的标注平台,此平台需要译员对筛选出的双语词对的正确与错误进行标注。为了节省标注成本,提高效率,本发明实施例引入了“主动学习”机制,可以有效提高标注效率,节省成本。此平台是一个基于“主动学习”的智能化标注平台。具体的主动学习的一般流程如下:
步骤1,对于平台上的任一潜在双语词对或者带标注的双语词对,一个用户可以对其标注一个label;
步骤2,主动学习标注学习模型的后台算法分为online和offline部分;online部分即时更新标注学习模型,可使用诸如SVM、bag of words等尽可能快的传统方法;offline部分当标注数据积累到一定数量时更新标注学习模型,可使用准确度较高的深度学习模型;
步骤3,标注学习模型更新后,用尽可能多的潜在双语词对或者带标注的双语词对作为标注例子对其做预测,将根据各例子计算的确信度排序,取确信度最低的一个例子作为待标注例子,重复步骤1的处理过程。
可以想象,如果模型训练得好的话,这个过程将直接忽略掉确信度最大的那些例子,而把所有重点放在分类边界上的那些确信度小的例子。这样可以尽算法所能减少用户端的人工工作量。
本发明实施例提供的双语词库的自动更新方法,在标注环节引入自动化方案,将此系统的效率进行提升,能够提高整个平台的效率。
另外,在上述各实施例的基础上,在更新当前双语词库的步骤之后,还包括:基于对更新后的双语词库的使用反馈信息,确定更新后的双语词库中各双语词对的置信度,并基于置信度,对更新后的双语词库进行管理。
可以理解为,本发明实施例引入使用过程反馈机制,即根据应用平台对更新后的双语词库中各双语词对的使用反馈,来评价这些双语词对的可靠性,或者称为置信度。并根据评价的结果,来对目前的双语词库进行维护和管理。
其中,根据上述各实施例可选的,基于对更新后的双语词库的使用反馈信息,确定更新后的双语词库中各双语词对的置信度,并基于置信度,对更新后的双语词库进行管理的步骤具体包括:
获取给定时间段内对更新后的双语词库中的双语词对的使用记录,并采集使用记录相关的使用者信息和双语词对信息,作为使用反馈信息;
基于使用反馈信息,对更新后的双语词库中各双语词进行打分,确定置信度;
若置信度不小于第一置信阈值,则对该置信度对应的双语词对进行置信标记,并不再对该双语词对进行打分,若置信度小于第二置信阈值,则将该置信度对应的双语词对从更新后的双语词库中删除,若置信度小于第一置信阈值且不小于第二置信阈值,则保留该置信度对应的双语词对,等待下次打分。
可以理解为,本发明实施例引入使用过程反馈机制,即,在使用更新后的双语词库的业务层嵌入数据收集,并在数据收集的基础上,对更新后的双语词库中的双语词对的正确性进行评价。具体处理过程可以为:
步骤1,业务端会埋点记录每个库中术语的使用情况;
步骤2,会收集一段时间术语和相应译员(译员有相应元数据,比如其翻译基本,擅长领域,擅长文本等)的信息,并进行汇总;
步骤3,一段时间,会按照积累的数据基础上,对上述汇总数据进行一次打分,在打分阈值以上的词对,会直接在库中进行置信,这样就变成可信词了,不会再进行评分,然后在某一个阈值以下的词,直接进行删除,那些处于中间状态词,会保留在库中,等待下次打分。
本发明实施例提供的双语词库的自动更新方法,使用过程反馈的目的是从另一个方面对于词库的正确进行保证的方案,这样保证双语词库的淘汰机制,双语词库在使用中是不断迭代的,其质量也在不断提升。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下实施例的处理流程,但不对本发明实施例的保护范围进行限制。
图3为本发明另一实施例提供的双语词库的自动更新方法的流程示意图,如图3所示,该方法大致由四部分组成,即:
首先进行多源信息的实时采集,该部分主要负责将指定网络数据从相应信息源上爬取下来,即包括从有词对应关系的信息源采集带标注的双语词对、从无词对应关系的信息源采集双语源数据等;
其次,直接从信息源采集的数据可能不是刚好对应的双语词对,这时需要根据采集的数据进行双语词对——即词典的抽取,抽取过程例如可以包括双语句子对齐、关键字识别到词语对抽取的处理流程,这一步骤主要负责将无结构的网络收集文档,抽取成key-value形式的双语词对;
再次,为了保证最终的标准质量,进行最后一道质量控制,对根据上述步骤抽取的词对进行最后把控,即采用基于主动学习的人工标注平台引入人工校对;
最后,为了进一步保证词库质量并有利于词库更新,结合词库的使用过程对词库进行管理,即结合对词库应用的业务层,将业务层的使用反馈进行记录,最终将库中一些不对的词对进行修改或删除,通过词典和业务系统循环反馈提升双语词库质量。
作为本发明实施例的另一个方面,本发明实施例根据上述各实施例提供一种双语词库的自动更新装置,该装置用于在上述各实施例中实现对双语词库的自动更新。因此,在上述各实施例的双语词库的自动更新方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明实施例的一个实施例,双语词库的自动更新装置的结构如图4所示,为本发明实施例提供的双语词库的自动更新装置的结构示意图,该装置可以用于实现上述各方法实施例中双语词库的自动更新,该装置包括:词对识别模块401、词对筛选模块402和更新模块403。其中:
词对识别模块401用于利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,双语源数据是从无词对应关系的信息源采集获取的;词对筛选模块402用于获取对潜在双语词对的人工确认结果,并基于人工确认结果,筛选出潜在双语词对中确信度达到设定阈值的双语词对;更新模块403用于利用确信度达到设定阈值的双语词对,更新当前双语词库,并基于人工确认结果和更新后的双语词库,进一步训练并更新基于LSTM的识别模型,以供下一次更新识别使用。
具体而言,在对已存在的双语词库进行填充或更新时,词对识别模块401考虑从无词对应关系的信息源抽取双语词对的情况,事先会从无词对应关系的信息源采集需要的双语源数据。之后,词对识别模块401从该双语源数据中可以抽取出多对具有词对应关系的双语词对,例如,可以采用基于LSTM的识别模型来对双语源数据中的双语词对进行识别抽取。
可以理解的是,可能由于识别算法本身的准确性和稳定性等问题,不能保证抽取出的所有双语词对完全准确,而需要对抽取出的双语词对进行进一步筛选,因此为了区分,词对识别模块401将抽取出的双语词对定义为潜在双语词对,以进行下一步运算。
之后,为了保证双语词对的准确性以及双语词库的质量,词对筛选模块402将抽取出的潜在双语词对推送到人工标注平台,供人工对其正确性进行标注和确认,并在得到人工确认结果后,根据人工确认的结果确定各潜在双语词对的确信度。之后,词对筛选模块402将各潜在双语词对的确信度与设定阈值进行比较,取出其中确信度能够达到设定阈值的双语词对,即为确信度达到设定阈值的双语词对。
再之后,更新模块403可以将这些确信度达到设定阈值的双语词对添加到当前双语词库中,完成双语词库的本次更新。另一方面,在更新得到新的双语词库,即更新后的双语词库后,为了进一步增加基于LSTM的识别模型的识别准确性,更新模块403使基于LSTM的识别模型基于更新后的双语词库进行自学习。即,以更新后的双语词库中的各双语词对为新的训练样本,进行自学习,同时结合人工确认结果,更新基于LSTM的识别模型。更新后的基于LSTM的识别模型可以用于下一次的更新识别使用。该过程以增加学习数据量的方式,实现提高模型的泛化性能的目标。
本发明实施例提供的双语词库的自动更新装置,通过设置相应的执行模块,在各个环节引入自动化方案,如在抽取模块中引入基于分词的自动标注算法,在人工校对模块直接引入“主动学习”等,能够提升系统的学习效率。且通过自学习的LSTM抽取关键词,同时结合人工校对流程,能够在实现双语词库的及时自动更新的基础上,有效提高双语词库质量。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的双语词库的自动更新装置利用上述各程序模块,能够实现上述各方法实施例的双语词库的自动更新流程,在用于实现上述各方法实施例中双语词库的自动更新时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,参考图5,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器501、至少一个处理器502、通信接口503和总线504。
其中,存储器501、处理器502和通信接口503通过总线504完成相互间的通信,通信接口503用于该电子设备与信息源平台之间的信息传输;存储器501中存储有可在处理器502上运行的计算机程序,处理器502执行该计算机程序时,实现如上述各实施例所述的双语词库的自动更新方法。
可以理解为,该电子设备中至少包含存储器501、处理器502、通信接口503和总线504,且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接,并可完成相互间的通信,如处理器502从存储器501中读取双语词库的自动更新方法的程序指令等。另外,通信接口503还可以实现该电子设备与信息源平台之间的通信连接,并可完成相互间信息传输,如通过通信接口503实现对双语词库的自动更新等。
电子设备运行时,处理器502调用存储器501中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,双语源数据是从无词对应关系的信息源采集获取的;获取对潜在双语词对的人工确认结果,并基于人工确认结果,筛选出潜在双语词对中确信度达到设定阈值的双语词对;利用确信度达到设定阈值的双语词对,更新当前双语词库,并基于人工确认结果和更新后的双语词库,进一步训练并更新基于LSTM的识别模型,以供下一次更新识别使用等。
上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行如上述各实施例所述的双语词库的自动更新方法,例如包括:利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,双语源数据是从无词对应关系的信息源采集获取的;获取对潜在双语词对的人工确认结果,并基于人工确认结果,筛选出潜在双语词对中确信度达到设定阈值的双语词对;利用确信度达到设定阈值的双语词对,更新当前双语词库,并基于人工确认结果和更新后的双语词库,进一步训练并更新基于LSTM的识别模型,以供下一次更新识别使用等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的双语词库的自动更新方法,在各个环节引入自动化方案,如在抽取模块中引入基于分词的自动标注算法,在人工校对模块直接引入“主动学习”等,能够提升系统的学习效率。且通过自学习的LSTM抽取关键词,同时结合人工校对流程,能够在实现双语词库的及时自动更新的基础上,有效提高双语词库质量。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。
Claims (9)
1.一种双语词库的自动更新方法,其特征在于,包括:
利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,所述双语源数据是从无词对应关系的信息源采集获取的;
获取对所述潜在双语词对的人工确认结果,并基于所述人工确认结果,筛选出所述潜在双语词对中确信度达到设定阈值的双语词对;
利用所述确信度达到设定阈值的双语词对,更新当前双语词库,并基于所述人工确认结果和更新后的双语词库,进一步训练并更新所述基于LSTM的识别模型,以供下一次更新识别使用。
2.根据权利要求1所述的方法,其特征在于,在所述利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对的步骤之前,还包括:
从有词对应关系的信息源采集带标注的双语词对,并从无词对应关系的信息源采集所述双语源数据;
相应的,所述获取对所述潜在双语词对的人工确认结果的步骤还包括:获取对所述带标注的双语词对的人工确认结果。
3.根据权利要求1所述的方法,其特征在于,在所述更新当前双语词库的步骤之后,还包括:
基于对所述更新后的双语词库的使用反馈信息,确定所述更新后的双语词库中各双语词对的置信度,并基于所述置信度,对所述更新后的双语词库进行管理。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对的步骤具体包括:
基于所述双语源数据,进行双语句子间的对齐抽取;
利用所述基于LSTM的识别模型,从所述双语句子中识别双语中的关键词,并实现双语中各关键词的双语对应。
5.根据权利要求2所述的方法,其特征在于,所述获取对所述潜在双语词对的人工确认结果的步骤具体包括:
对于任一所述潜在双语词对或者带标注的双语词对,获取用户对该潜在双语词对或者带标注的双语词对的人工标注,并基于所述人工标注,训练并更新标注学习模型;
利用更新后的标注学习模型,对各所述潜在双语词对和所述带标注的双语词对进行确信度计算,获取所述人工确认结果。
6.根据权利要求3所述的方法,其特征在于,所述基于对所述更新后的双语词库的使用反馈信息,确定所述更新后的双语词库中各双语词对的置信度,并基于所述置信度,对所述更新后的双语词库进行管理的步骤具体包括:
获取给定时间段内对所述更新后的双语词库中的双语词对的使用记录,并采集所述使用记录相关的使用者信息和双语词对信息,作为所述使用反馈信息;
基于所述使用反馈信息,对所述更新后的双语词库中各双语词进行打分,确定所述置信度;
若所述置信度不小于第一置信阈值,则对该置信度对应的双语词对进行置信标记,并不再对该双语词对进行打分,若所述置信度小于第二置信阈值,则将该置信度对应的双语词对从所述更新后的双语词库中删除,若所述置信度小于所述第一置信阈值且不小于所述第二置信阈值,则保留该置信度对应的双语词对,等待下次打分。
7.一种双语词库的自动更新装置,其特征在于,包括:
词对识别模块,用于利用基于LSTM的识别模型,从双语源数据中识别出潜在双语词对,所述双语源数据是从无词对应关系的信息源采集获取的;
词对筛选模块,用于获取对所述潜在双语词对的人工确认结果,并基于所述人工确认结果,筛选出所述潜在双语词对中确信度达到设定阈值的双语词对;
更新模块,用于利用所述确信度达到设定阈值的双语词对,更新当前双语词库,并基于所述人工确认结果和更新后的双语词库,进一步训练并更新所述基于LSTM的识别模型,以供下一次更新识别使用。
8.一种电子设备,其特征在于,包括:至少一个存储器、至少一个处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口还用于所述电子设备与信息源平台之间的信息传输;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至6中任一所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811330508.2A CN109857746B (zh) | 2018-11-09 | 2018-11-09 | 双语词库的自动更新方法、装置与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811330508.2A CN109857746B (zh) | 2018-11-09 | 2018-11-09 | 双语词库的自动更新方法、装置与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857746A true CN109857746A (zh) | 2019-06-07 |
CN109857746B CN109857746B (zh) | 2021-05-04 |
Family
ID=66889991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811330508.2A Active CN109857746B (zh) | 2018-11-09 | 2018-11-09 | 双语词库的自动更新方法、装置与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857746B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461330A (zh) * | 2020-04-03 | 2020-07-28 | 中国建设银行股份有限公司 | 一种基于多语言简历的多语言知识库构建方法及系统 |
CN114120977A (zh) * | 2021-11-23 | 2022-03-01 | 四川虹美智能科技有限公司 | 语音识别的生词自学习方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203689A1 (en) * | 2006-02-28 | 2007-08-30 | Kabushiki Kaisha Toshiba | Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model |
CN104408078A (zh) * | 2014-11-07 | 2015-03-11 | 北京第二外国语学院 | 一种基于关键词的中英双语平行语料库构建方法 |
CN104750820A (zh) * | 2015-04-24 | 2015-07-01 | 中译语通科技(北京)有限公司 | 一种语料库的过滤方法及装置 |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107229613A (zh) * | 2017-06-06 | 2017-10-03 | 锦州医科大学 | 一种基于向量空间模型的英汉语料提取方法 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
-
2018
- 2018-11-09 CN CN201811330508.2A patent/CN109857746B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203689A1 (en) * | 2006-02-28 | 2007-08-30 | Kabushiki Kaisha Toshiba | Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model |
CN104408078A (zh) * | 2014-11-07 | 2015-03-11 | 北京第二外国语学院 | 一种基于关键词的中英双语平行语料库构建方法 |
CN104750820A (zh) * | 2015-04-24 | 2015-07-01 | 中译语通科技(北京)有限公司 | 一种语料库的过滤方法及装置 |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107229613A (zh) * | 2017-06-06 | 2017-10-03 | 锦州医科大学 | 一种基于向量空间模型的英汉语料提取方法 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461330A (zh) * | 2020-04-03 | 2020-07-28 | 中国建设银行股份有限公司 | 一种基于多语言简历的多语言知识库构建方法及系统 |
CN111461330B (zh) * | 2020-04-03 | 2023-09-15 | 中国建设银行股份有限公司 | 一种基于多语言简历的多语言知识库构建方法及系统 |
CN114120977A (zh) * | 2021-11-23 | 2022-03-01 | 四川虹美智能科技有限公司 | 语音识别的生词自学习方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109857746B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442869B (zh) | 一种医疗文本处理方法及其装置、设备和存储介质 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN109918489A (zh) | 一种多策略融合的知识问答方法和系统 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN107705839A (zh) | 疾病自动编码方法及系统 | |
CN109190098A (zh) | 一种基于自然语言处理的文档自动生成方法和系统 | |
CN109271529A (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN110097085A (zh) | 歌词文本生成方法、训练方法、装置、服务器及存储介质 | |
CN103823824A (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN109800414A (zh) | 语病修正推荐方法及系统 | |
CN111222340A (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN110532563A (zh) | 文本中关键段落的检测方法及装置 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN109472021A (zh) | 基于深度学习的医学文献中关键句筛选方法及装置 | |
CN110287482A (zh) | 半自动化分词语料标注训练装置 | |
CN108280389A (zh) | 医疗票据icr识别系统及其医疗票据识别方法 | |
CN113032552A (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
Shao et al. | A sentiment and style controllable approach for chinese poetry generation | |
CN109857746A (zh) | 双语词库的自动更新方法、装置与电子设备 | |
CN112395425A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN116227594A (zh) | 面向多源数据的医疗行业高可信度知识图谱的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |