CN110083837A - 一种关键词生成方法及装置 - Google Patents

一种关键词生成方法及装置 Download PDF

Info

Publication number
CN110083837A
CN110083837A CN201910344875.6A CN201910344875A CN110083837A CN 110083837 A CN110083837 A CN 110083837A CN 201910344875 A CN201910344875 A CN 201910344875A CN 110083837 A CN110083837 A CN 110083837A
Authority
CN
China
Prior art keywords
keyword
word
vocabulary
history
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910344875.6A
Other languages
English (en)
Other versions
CN110083837B (zh
Inventor
闫莉
高建清
刘俊华
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910344875.6A priority Critical patent/CN110083837B/zh
Publication of CN110083837A publication Critical patent/CN110083837A/zh
Application granted granted Critical
Publication of CN110083837B publication Critical patent/CN110083837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本申请公开了一种关键词生成方法及装置,该方法包括:当生成了目标语音的识别文本之后,从该识别文本中提取出各个历史关键词,以及生成与各个历史关键词具有强关联性的联想关键词。其中,与历史关键词具有强相关性的联想关键词能够提示翻译人员在未来待翻译内容中可能出现的关键词,从而节省了翻译人员投入到预测未来待翻译内容所需的精力。如此,当翻译人员在联想关键词的辅助下进行翻译时,能够投入更多的精力在语言的组织和表达上,从而提升了翻译速度和翻译质量。

Description

一种关键词生成方法及装置
技术领域
本申请涉及翻译技术领域,尤其涉及一种关键词生成方法及装置。
背景技术
同声传译是一个难度极高的语言传递及转化的多任务过程,译员需要在短时间内完成源语言的听辨、理解、分析、记忆,以及目标语言的组织、表达、监听及修正,并达到与演讲者几乎完全同步的实时翻译效果。在Gile提出的同声传译“认知负荷模型”中,将听力理解、短期记忆及翻译作为译员需要完成的三项基本任务。同声传译过程中,由于精力有限,译员需要协调分配到上述三项任务上的精力,才能保证翻译顺利完成。
目前,译员在同声传译期间,需要对演讲内容进行关键词记录,包括数字、长句内容概述等以帮助记忆,基于此,译员能够对常用的固定搭配语法和演讲人表达方式进行预测,以辅助完成后续翻译。但译员在同声传译期间进行关键词记录会消耗大量精力,导致译员没有足够的精力进行翻译预测,更无法投入更多的精力在语言的组织和表达上,从而降低了翻译速度和翻译质量。
发明内容
本申请实施例的主要目的在于提供一种关键词生成方法及装置,通过生成关键词来辅助翻译人员进行后续翻译,以提升翻译人员的翻译速度和翻译质量。
本申请实施例提供了一种关键词生成方法,包括:
获取待翻译的目标语音,并生成所述目标语音的识别文本;
提取所述识别文本中的各个关键词,作为各个历史关键词;
生成各个联想关键词,所述各个联想关键词是与所述各个历史关键词具有强相关性的关键词。
可选的,所述提取所述识别文本中的各个关键词,包括:
根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词。
可选的,所述根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词,包括:
将所述识别文本中的各个第一词汇,按照在所述识别文本中的出现顺序进行排序,所述第一词汇是重要词汇和/或翻译难度高的词汇;
将所述识别文本中除各个第一词汇以外的各个第二词汇,按照词汇的重要性进行排序;
将各个第二词汇的排序结果串联在各个第一词汇的排序结果之后,提取串联排序结果中的前N个词汇,作为从所述识别文本中提取的各个关键词。
可选的,所述生成各个联想关键词,包括:
将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对;其中,所述关键词对集合包括各个目标关键词对,所述目标关键词对中的两个关键词具有强相关性,所述匹配关键词对是包含历史关键词和候选关键词的一个目标关键词对;
将全部的候选关键词作为各个联想关键词,或者,选取部分的候选关键词作为各个联想关键词。
可选的,所述选取部分的候选关键词作为各个联想关键词,包括:
根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词;
其中,所述关键词相关性为对应的匹配关键词对所包含的历史关键词和候选关键词之间的相关性。
可选的,所述根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词,包括:
确定每一候选关键词对应的候选相关性,所述候选相关性为对应候选关键词所属的所有匹配关键词对的关键词相关性的累加结果;
将具有强候选相关性的M个候选关键词,作为各个联想关键词。
可选的,所述历史关键词和候选关键词之间的相关性,包括:
在所述历史关键词出现的情况下,所述历史关键词之后出现所述候选关键词的确定性程度。
可选的,所述方法还包括:
展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。
本申请实施例还提供了一种关键词生成装置,包括:
识别文本生成单元,用于获取待翻译的目标语音,并生成所述目标语音的识别文本;
历史关键词提取单元,用于提取所述识别文本中的各个关键词,作为各个历史关键词;
联想关键词生成单元,用于生成各个联想关键词,所述各个联想关键词是与所述各个历史关键词具有强相关性的关键词。
可选的,所述历史关键词提取单元,具体用于:
根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词,作为各个历史关键词。
可选的,所述历史关键词提取单元,包括:
第一词汇排序子单元,用于将所述识别文本中的各个第一词汇,按照在所述识别文本中的出现顺序进行排序,所述第一词汇是重要词汇和/或翻译难度高的词汇;
第二词汇排序子单元,用于将所述识别文本中除各个第一词汇以外的各个第二词汇,按照词汇的重要性进行排序;
关键词提取子单元,用于将各个第二词汇的排序结果串联在各个第一词汇的排序结果之后,提取串联排序结果中的前N个词汇,作为从所述识别文本中提取的各个关键词,作为各个历史关键词。
可选的,所述联想关键词生成单元,包括:
匹配关键词对获取子单元,用于将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对;其中,所述关键词对集合包括各个目标关键词对,所述目标关键词对中的两个关键词具有强相关性,所述匹配关键词对是包含历史关键词和候选关键词的一个目标关键词对;
联想关键词生成子单元,用于将全部的候选关键词作为各个联想关键词,或者,用于选取部分的候选关键词作为各个联想关键词。
可选的,所述联想关键词生成子单元,具体用于:
根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词;
其中,所述关键词相关性为对应的匹配关键词对所包含的历史关键词和候选关键词之间的相关性。
可选的,所述联想关键词生成子单元,包括:
候选相关性确定模块,用于确定每一候选关键词对应的候选相关性,所述候选相关性为对应候选关键词所属的所有匹配关键词对的关键词相关性的累加结果;
联想关键词生成模块,用于将具有强候选相关性的M个候选关键词,作为各个联想关键词。
可选的,所述历史关键词和候选关键词之间的相关性,包括:
在所述历史关键词出现的情况下,所述历史关键词之后出现所述候选关键词的确定性程度。
可选的,所述装置还包括:
关键词展示单元,用于展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。
本申请实施例还提供了一种关键词生成设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述关键词生成方法中的任意一种实施方式。
本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述关键词生成方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述关键词生成方法中的任意一种实施方式。
基于上述技术方案,本申请具有以下有益效果:
在本申请提供的关键词生成方法中,当生成了目标语音的识别文本之后,从该识别文本中提取出各个历史关键词,以及生成与各个历史关键词具有强关联性的联想关键词。其中,与历史关键词具有强相关性的联想关键词能够提示翻译人员在未来待翻译内容中可能出现的关键词,从而节省了翻译人员投入到预测未来待翻译内容所需的精力。如此,当翻译人员在联想关键词的辅助下进行翻译时,能够投入更多的精力在语言的组织和表达上,从而提升了翻译速度和翻译质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请方法实施例一提供的关键词生成方法的流程图;
图2为本申请方法实施例二提供的关键词对集合的构建方法流程图;
图3为本申请方法实施例三提供的关键词生成方法的第一种实施方式的流程图;
图4为本申请方法实施例三提供的关键词生成方法的第二种实施方式的流程图;
图5为本申请方法实施例三提供的关键词生成方法的第三种实施方式的流程图;
图6为本申请装置实施例一提供的关键词生成装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图1,该图为本申请方法实施例一提供的关键词生成方法的流程图。
本申请实施例提供的关键词生成方法,包括:
S101:获取待翻译的目标语音,并生成该目标语音的识别文本。
S102:提取识别文本中的各个关键词,作为各个历史关键词。
S103:生成各个联想关键词,该各个联想关键词是与各个历史关键词具有强相关性的关键词。
以上为本申请方法实施例一提供的关键词生成方法的具体执行步骤,为了便于理解和解释本申请方法实施例一提供的关键词生成方法,下面将依次介绍S101至S103的具体实施方式。
首先介绍S101的具体实施方式。
在S101中,本实施例不限制目标语音的来源,比如,目标语音可以是在大型会议中的同声传译场景下获取的待翻译语音,亦或是其它翻译场景下的待翻译语音。另外,本实施例不限制目标语音的语音识别方法,可以采用现有或未来出现的任意一种识别方法对目标语音进行识别,从而得到目标语音的识别文本。
需要说明的是,本实施例中的目标语音可以由翻译人员进行翻译,其中,该翻译人员可以是同声传译场景中的译员,也可以是其它场景中的译员。
下面介绍S102的具体实施方式。
在S102中,为了辅助翻译人员对目标语音以及对目标语音的后续语音进行翻译,需要提取识别文本的各个关键词,该关键词是指能够代表识别文本中的核心信息的词语,这里,将该关键词定义为历史关键词。
本申请提供了S102的第一种实施方式,在该实施方式中,S102具体可以包括S102A:根据词汇的重要性和翻译困难性中的至少一种,提取识别文本中的各个关键词,作为各个历史关键词。
为了便于理解S102的上述实施方式,下面将依次介绍“词汇的重要性”和“翻译困难性”的相关内容。
首先介绍“词汇的重要性”的相关内容。
“词汇的重要性”是指识别文本的各个词汇在识别文本中的重要程度,其中,“词汇的重要性”可以根据词性类别、词频(term frequency,TF)和逆向文件频率(inversedocument frequency,IDF)中的至少一项确定。
词性类别是指根据词汇的特点划分的类别,例如,词性类别可以包括:名词、动词、形容词、代词、副词、数词、介词、助词以及命名实体(包括人名、地名、机构名等)等。
TF是指词汇在一篇文档中的出现频率,即,词汇在一篇文档中的出现频率的正则化值。
IDF用于衡量词汇在预设数目文档中的可区分度以及重要性程度。当词汇的IDF值越大时,则表示该词汇在这些文档中的可区分度越大,且表示该词汇在这些文档中的重要性程度越高,其中,词汇的IDF值的计算过程为:先利用文档总数目除以包括该词汇的文档数目,再取对数。
以上为“词汇的重要性”的相关内容。
下面介绍“词汇的翻译困难性”的相关内容。
“词汇的翻译困难性”可以指听辨以及记忆词汇的难度,具体为:如果一些词汇需要较少的精力进行听辨以及记忆,则这些词汇的翻译困难性较低,反之,如果一些词汇需要较多的精力进行听辨以及记忆,则这些词汇的翻译困难性较高。
另外,“词汇的翻译困难性”不是绝对的,而是与翻译人员的词汇储备以及不同语言之间的转换能力相关的,通常情况下,翻译困难性较高的词汇可以包括第一类型词汇和/或第二类型词汇,下面将依次介绍这两种类型的词汇。
首先介绍第一类型词汇的相关内容。
第一类型词汇是指因翻译人员的词汇储备不足而导致听辨及记忆比较困难的词汇,其具体为:如果某词汇在翻译人员的词汇储备中,那么翻译人员对该词汇是熟悉的,因而该词汇需要消耗较少的精力进行听辨以及记忆,则该词汇的翻译困难性较低;然而,如果该词汇不在翻译人员的词汇储备中,那么翻译人员对该词汇是陌生的,因而该词汇需要消耗较多的精力进行听辨以及记忆,则该词汇的翻译困难性较高。
作为示例,第一类型词汇可以包括未登录词。未登录词是指没有被收录在分词词表中的词,而且未登录词可以包括各类专有名词(比如人名、地名、企业名等)、缩写词、新增词汇等。其中,分词词表可以是预先根据背景语料建立的,而背景语料可以是翻译人员根据当前翻译场景(比如同声传译场景)的主题所提前收集的资料信息;或者,分词词表是与翻译主题无关的预先构建的包括大量词汇的词表。
需要说明的是,以上示例是以未登录词为例进行说明的,但是,在本申请中,第一类型词汇不仅可以包括未登录词,还可以包括其他因词汇储备不足而导致听辨及记忆比较困难的词汇。
以上为第一类型词汇的相关内容。
下面介绍第二类型词汇的相关内容。
第二类型词汇是指因翻译人员的语言转换能力较差而导致听辨及记忆比较困难的词汇,其具体为:由于同一词汇在不同语种的句子中的表达方式差异性较大,导致翻译人员对该词汇的语言转换能力较差,因而,该词汇需要消耗较多的精力进行听辨及记忆。例如,第二类型词汇可以包括数字。
以上为第二类型词汇的相关内容。
以上为“词汇的翻译困难性”的相关内容。
基于上述提供的S102的第一种实施方式,为了进一步提高提取的关键词的合理性,本申请还提供了S102的第一种实施方式的具体实施过程,在该具体实施过程中,S102可以包括S102A1-S102A3:
S102A1:将识别文本中的各个第一词汇,按照在该识别文本中的出现顺序进行排序。
其中,第一词汇可以是重要词汇和翻译难度高的词汇中的至少一种。
作为示例,当第一词汇是重要词汇和翻译难度高的词汇,而且翻译难度高的词汇包括未登录词和数字,以及重要词汇包括命名实体时,则S1021具体可以包括:从识别文本中获取未登录词、数字和命名实体,并将获取的各个词汇按照其在识别文本中的出现顺序进行排序。
S102A2:将识别文本中除各个第一词汇以外的各个第二词汇,按照词汇的重要性进行排序。
在步骤S102A2中,各个第二词汇的重要性,可以采用现有或未来出现的任一种词汇重要性的计算方法得到。另外,为了便于理解和解释词汇重要性的计算方法,下面介绍以下三种计算方法。
作为第一种计算方法,可以利用上述提供的IDF值进行词汇的重要性衡量。
作为第二种计算方法,可以利用能够度量每个词汇与识别文本中其他词的联系紧密性的TextRank方法进行词汇的重要性衡量。
作为第三种计算方法,可以利用文档主题生成模型(Latent DirichletAllocation,LDA)进行词汇的重要性衡量。
以上为本申请提供的词汇的重要性的三种计算方法。
另外,为了便于解释和理解S102A2,下面将以采用IDF值衡量词汇的重要性为例进行说明。
作为示例,当在S102A2中采用IDF值进行词汇的重要性衡量时,第二词汇对应的IDF值可以实时地计算;另外,为了提高关键词的提取效率,第二词汇对应的IDF值也可以预先存储在预设的IDF存储空间中,以便使用时直接从IDF存储空间中读取即可,例如,第二词汇对应的IDF值可以在执行方法实施例二提供的关键词对集合的构建方法中生成并存储到IDF存储空间中。
此时,当第一词汇包括未登录词、数字和命名实体时,则S102A2具体可以包括:获取识别文本中除了未登录词、数字和命名实体之外的各个第二词汇,并将获取的词汇按照各自对应的IDF值进行排序,比如,从大到小排序。
需要说明的是,上述示例是以采用IDF值衡量词汇的重要性为例对S10A2进行说明的。然而,在本申请中还可以采用其他的能够对词汇的重要性进行衡量的方法实现S10A2,而且其实现方式与上述示例相似,为了简要起见,在此不再赘述。
S102A3:将各个第二词汇的排序结果串联在各个第一词汇的排序结果之后,提取串联排序结果中的前N个词汇,作为从识别文本中提取的各个关键词,从而作为各个历史关键词。
其中,N可以预先设定,例如,N可以预先根据应用场景设定。
需要说明的是,由于历史关键词是用于辅助翻译人员理解和记忆当前识别文本的(参见第三实施例),因而,为了避免因历史关键词过多导致翻译人员注意力的分散,通常可以设定5≤N≤10,此处的5-10个历史关键词是能够在不分散翻译人员过多精力的前提下给出的翻译提示。
作为示例,当第一词汇包括8个,第二词汇包括9个,且N预先设定为10时,则S102A3具体可以为:在8个第一词汇的排序结果之后,串联9个第二词汇的排序结果,并从这17个词汇的排序结果中提取排序靠前的第1个词汇至第10个词汇,并将这10个词汇作为从识别文本中提取的各个关键词。
需要说明的是,本申请不限定第一词汇和第二词汇的数量,而且任一数量的第一词汇和第二词汇均可以采用上述示例提供的方式进行关键词的提取。
另外,为了能够进一步提高历史关键词的提取效率,可以在提取历史关键词之前先将识别文本进行分词以及词性标注,因而,本申请还提供了S102的第二种实施方式,在该实施方式中,在上述S102A(即,根据词汇的重要性和翻译困难性中的至少一种,提取识别文本中的各个关键词,作为各个历史关键词)之前还可以包括:利用预设算法,对识别文本进行分词以及词性标注。
其中,预设算法可以是任一种分词算法,例如,预设算法可以是基于词典的分词算法,也可以是基于统计的分词算法。
需要说明的是,基于统计的分词算法不仅能够将名词、动词、形容词、代词、副词、数词、介词和助词等词汇进行分词,还能够将命名实体(例如,人名、机构名和地名)、专业领域中的术语、缩写及派生词等未登录的词汇进行分词。例如,基于条件随机场(ConditionalRandom Field,CRF)的分词算法作为一种重要的基于统计的分词算法。
进一步需要说明的是,在S102的第二种实施方式中所采用的预设算法可以与方法实施例二中步骤S2011采用的预设分词算法相同,使得S102的第二种实施方式和S2011的分词和词性标注过程达到一致性,如此能够提高历史关键词的提取效率以及历史关键词的提取准确率。
以上为S102的具体实施方式,在这些实施方式中,可以根据词汇的重要性和/或翻译困难性,提取识别文本中的各个历史关键词,如此能够提高历史关键词的提取合理性;还可以先将识别文本进行分词以及词性标注,再进行历史关键词的提取,如此能够提高历史关键词的提取效率。
下面介绍S103的具体实施方式。
在S103中,联想关键词是指在未来语音信息中可能出现的词汇;而且,各个联想关键词是与各个历史关键词具有强相关性的关键词。
需要说明的是,历史关键词与联想关键词之间不存在一一对应的关系,一个历史关键词可以对应多个联想关键词,而且一个联想关键词可以对应多个历史关键词。
作为一示例,当历史关键词是“经济”时,则联想关键词可以是“增长”、“调整”和“衰退”中的至少一个。
作为另一示例,历史关键词“经济”对应的联想关键词可以是“增长”,而且,历史关键词“国内生产总值”对应的联想关键词可以也是“增长”。
基于上述联想关键词的相关内容,为了提高联想关键词的全面性以及准确性,本申请提供了S103的一种实施方式,在该实施方式中,S103具体可以包括S1031-S1032:
S1031:将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对。
其中,关键词对集合用于记录不同关键词之间的强相关性。另外,关键词对集合可以包括各个目标关键词对,而且该目标关键词对中的两个关键词具有强相关性。此外,关键词对集合可以在S1031以及S1031之前的任一步骤之前进行构建,而且关键词对集合的构建方法将在方法实施例二中进行具体介绍。
其中,匹配关键词对是包含历史关键词和候选关键词的一个目标关键词对。例如,当匹配关键词对包含“经济”和“增长”,且“经济”为历史关键词时,则“增长”为候选关键词。
为了便于理解和解释S1031的具体实施方式,下面将结合示例进行说明。
作为示例,关键词对集合中包括目标关键词对1和目标关键词对2,目标关键词对1包含“经济”和“增长”、目标关键词对2包含“经济”和“调整”,当历史关键词为“经济”时,则S1031具体可以为:将“经济”与关键词对集合进行匹配,得到两个匹配关键词对,分别为目标关键词1和目标关键词2,其中的“增长”和“调整”都是候选关键词。
需要说明的是,上述示例是以获取一个历史关键词对应的匹配关键词对的过程为例进行说明的。然而,本申请可以包括至少一个历史关键词,对于每个历史关键词来说,均可以采用上述示例提供的匹配关键词对的获取方式,为了简要起见,在此不再赘述。
S1032:根据各个候选关键词,确定各个联想关键词。
在本申请中,既可以根据所有的候选关键词确定联想关键词,也可以根据部分候选关键词确定联想关键词。
为了便于理解S1032,下面将以S1032的三种实施方式为例进行介绍。
作为第一种实施方式,S1032具体可以为:将全部的候选关键词作为各个联想关键词。
作为示例,当执行S1031之后得到了10个匹配关键词对时,则S1032具体可以为:根据各个历史关键词和各个匹配关键词对,获取10个候选关键词,并将该10个候选关键词均作为各个联想关键词。
以上为S1032的第一种实施方式,在该实施方式中,将所有候选关键词作为了联想关键词,从而保证了联想关键词的全面性。
另外,由于根据不同的历史关键词可能会得到相同的候选关键词,因而,为了避免得到重复的联想关键词,可以将重复的候选关键词进行合并,因此,本申请还提供了S1032的第二种实施方式,在该实施方式中,S1032具体可以为:将全部的候选关键词进行去重合并,并将去重合并后的各个候选关键词作为各个联想关键词。
作为示例,当执行S1031之后得到了10个匹配关键词对,根据各个历史关键词和各个匹配关键词对,获取10个候选关键词,但由于该10个候选关键词中的第一候选关键词和第二候选关键词相同,则删除第一候选关键词或第二候选关键词,并将剩余的9个候选关键词均作为各个联想关键词。
以上为S1032的第二种实施方式,在该实施方式中,可以将去重后的所有候选关键词均作为联想关键词,从而避免了重复联想关键词的出现,节约了翻译人员查看联想关键词的时间,从而提高了翻译人员的翻译效率。
另外,由于过多的联想关键词会分散翻译人员的注意力,因而,为了避免因翻译人员投入太多精力查看联想关键词而降低翻译人员的翻译效率,可以仅将部分联想关键词提供给翻译人员,因此,本申请提供了S1032的第三种实施方式,在该实施方式中,S1032具体可以为:选取部分的候选关键词作为各个联想关键词。
其中,部分的候选关键词可以根据预设选取规则进行选取,而且,该预设选取规则可以预先设定,例如,预设选取规则可以根据应用场景设定。
为了便于解释和理解S1032的第三种实施方式,下面将结合一种具体的实施方式进行说明。
作为一种具体的实施方式,S1032具体可以为:根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词。
关键词相关性为对应的匹配关键词对所包含的历史关键词和候选关键词之间的相关性;而且,历史关键词和候选关键词之间的相关性可以根据多种指标进行判定,例如,历史关键词和候选关键词之间的相关性可以包括:在历史关键词出现的情况下,在该历史关键词之后出现候选关键词的确定性程度。
具体地,可以利用互信息确定关键词相关性,因而,在本申请中可以利用方法实施例二中提供平均互信息确定关键词相关性(详情请见方法实施例二),此时,当执行S1032时,可以直接利用方法实施例二中计算得到的平均互信息确定关键词相关性。
另外,由于方法实施例二提供的平均互信息的计算过程中不仅需要参考识别文本中涉及到的词汇信息,还需要参考识别文本中没有涉及但背景语料中涉及到的词汇信息,但是识别文本中没有涉及到的词汇信息对于确定关键词相关性的参考价值较小,因而,为了提高关键词相关性的准确性以及计算效率,可以在确定关键词相关性的过程中不参考识别文本中没有涉及到的词汇信息,因此,本申请还提供了一种确定关键词相关性的具体实施方式,在该实施方式中,可以利用公式(1)至(3)计算关键词相关性。
式中,Ai表示第i个历史关键词;Bj表示第j个候选关键词;Wij表示由Ai和Bj构成的匹配关键词对;MI(Wij)表示Wij的关键词相关性;p(Ai,Bj)表示Ai和Bj同时出现在预设窗口L中的概率;P(AiBj)表示在预设窗口L中在Bj之前出现Ai的概率;CM(Ai,Bj)表示在预设窗口L中,Bj和Ai同时出现的次数;C(Ai)表示在背景语料中Ai出现的次数;C(Bj)表示在背景语料中Bj出现的次数;P(Bj)表示在背景语料中Bj出现的概率(计算方式参见下面公式17);预设窗口L是指包括Bj所在句子以及Bj所在句子之前预设数目的句子。
需要说明的是,在同声传译的应用场景中,翻译人员需要保持同步翻译,此时只需要进行短距离的关键词联想即可,无需考虑距离较远的关键词,因而,预设窗口L可以是背景语料中包括Bj所在句子以及Bj所在句子之前的三个句子。另外,背景语料的详细内容请参见方法实施例二。
以上为关键词相关性的相关内容。
基于上述提供的第三种实施方式的具体实施方式,为了进一步提高联想关键词的准确率,本申请还提供了第三种实施方式的另一种具体实施方式,在该实施方式中,S1032具体可以为:
S1032a:确定每一候选关键词对应的候选相关性。
候选相关性用于衡量每个候选关键词在未来语音中出现的可能性,而且如果候选关键词的候选相关性越强,则表示该候选关键词在未来语音中出现的可能性越大,越应该被翻译人员注意;如果候选关键词的候选相关性越弱,则表示该候选关键词在未来语音中出现的可能性越小,越应该被翻译人员忽略。
候选相关性为对应候选关键词所属的所有匹配关键词对的关键词相关性的累加结果。
为了便于解释和理解候选相关性,下面将结合示例进行说明。
作为示例,假设执行S1031之后得到了10个匹配关键词对,分别定义为第一匹配关键词对至第十匹配关键词对,而且第一匹配关键词对、第二匹配关键词对和第九关键词对均包括第一候选关键词时,则S1032a具体可以为:将第一匹配关键词对的关键词相关性、第二匹配关键词对的关键词相关性和第九关键词对的关键词相关性进行累加,得到第一候选关键词的候选相关性。
需要说明的是,上述示例是以获取第一候选关键词的候选相关性为例进行说明,在本申请中,每个候选关键词的候选相关性均可以采用上述示例提供的获取过程进行获取。
S1032b:将具有强候选相关性的M个候选关键词,作为各个联想关键词。
具有强候选相关性的M个候选关键词可以指在所有候选关键词中具有候选相关性最强的M个候选关键词。
M可以预先设定,例如,M可以预先根据应用场景确定。
需要说明的是,由于联想关键词是用于辅助翻译人员预测未来待翻译内容的,因而,为了避免因联想关键词过多导致翻译人员注意力的分散,通常可以设定5≤M≤10,此时5-10个联想关键词能够在不分散翻译人员过多精力的前提下给出未来待翻译内容的提示。
作为一种实施方式,为了能够快速准确地选出M个候选关键词,从而提高翻译效率,S1032b具体可以为:根据各个候选关键词的候选相关性,将各个候选关键词进行排序,并从排序后的所有候选关键词中选择具有强候选相关性的M个候选关键词,作为各个联想关键词。
由于在S1032b中根据候选相关性进行排序时,可以按照从强到弱的排序规则进行排序,也可以按照从弱到强的排序规则进行排序。因而,本申请还提供了S1032b的两种具体实施方式,下面将依次进行介绍。
作为第一种具体实施方式,S1032b具体可以为:首先,根据候选相关性,按照从强到弱的排序规则,将各个候选关键词进行排序;然后,从排序后的各个候选关键词中选择排序最靠前的M个候选关键词,作为各个联想关键词。
作为第二种具体实施方式,S1032b具体可以为:首先,根据候选相关性,按照从弱到强的排序规则,将各个候选关键词进行排序;然后,从排序后的各个候选关键词中选择排序最靠后的M个候选关键词,作为各个联想关键词。
以上为S1032b的具体实施方式,在该实施方式中,可以根据候选相关性将各个候选关键词进行排序,并从排序后的所有候选关键词中选择具有强候选相关性的M个候选关键词,作为各个联想关键词。如此能够快速准确地选出各个联想关键词,从而能够及时地提示翻译人员,进而提高了翻译效率。
以上为S1032的第三种实施方式,在该实施方式中,可以选取部分的候选关键词作为各个联想关键词,如此,不仅能够向翻译人员提供在未来语音中可能出现的词汇,还能够避免因联想关键词过多而分散翻译人员的注意力,使得翻译人员能够投入更多的精力进行翻译,从而提高了翻译效率以及准确率。
以上为S103的具体实施方式,在该实施方式中,可以将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对,以便将全部匹配关键词对中的候选关键词作为各个联想关键词,如此能够保证联想关键词的全面性。或者,可以将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对,以便将部分匹配关键词对中的候选关键词作为各个联想关键词,如此能够避免因联想关键词过多而分散翻译人员的注意力,使得翻译人员能够投入更多的精力进行翻译,从而提高了翻译效率以及准确率。
以上为方法实施例一提供的关键词生成方法的具体实施方式,在该实施方式中,当生成了目标语音的识别文本之后,还从该识别文本中分别提取出各个历史关键词以及与其具有强关联性的联想关键词。其中,历史关键词能够辅助翻译人员理解和记忆当前演讲内容,从而能够节省翻译人员投入到理解和记忆当前待翻译内容所需的精力;而且,与历史关键词具有强相关性的联想关键词能够提示翻译人员在未来待翻译内容中可能出现的关键词,从而节省了翻译人员投入到预测未来待翻译内容所需的精力。如此,当翻译人员在自动提取的历史关键词及其联想关键词的辅助下进行翻译时,能够投入更多的精力在语言的组织和表达上,从而提升了翻译速度和翻译质量。
方法实施例二
在上述方法实施例一提供的关键词生成方法中,可以从目标语音的识别文本中提取各个历史关键词,以便根据各个历史关键词确定各个联想关键词;而且,为了提高联想关键词的准确性,可以根据各个历史关键词和关键词对集合确定各个联想关键词。
由于关键词对集合需要预先构建,因而,为了提高关键词对集合的准确性以及全面性,本申请还提供了一些构建关键词对集合的方法,下面将结合附图进行解释和说明。
参见图2,该图为本申请方法实施例二提供的关键词对集合的构建方法流程图。
本申请实施例提供的关键词对集合的构建方法,包括:
S201:从预先收集的背景语料中提取各个关键词。
S202:将提取的各个关键词进行两两组合,得到各个初始关键词对。
S203:确定各个初始关键词对各自所包括的两个关键词之间的相关性。
S204:根据确定的相关性,从各个初始关键词对中筛选出各个目标关键词对,形成关键词对集合。
需要说明的是,本申请不对关键词对集合的构建时间进行限定,只要在执行“S1031:将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对”的步骤之前完成关键词对集合的构建即可。例如,关键词对集合的构建方法可以在执行S101之前执行,也可以在执行S101之后且执行S102之前执行,还可以在执行S102之后且执行S103之前执行。
以上为本申请方法实施例二提供的关键词对集合的构建方法的具体执行步骤,为了便于理解和解释本申请方法实施例二提供的关键词对集合的构建方法,下面将依次介绍S201至S204的具体实施方式。
首先介绍S201的具体实施方式。
在S201中,背景语料是指翻译人员进行翻译工作之前需要了解的资料;而且,不同的应用场景对应不同的背景语料。另外,背景语料的来源也不固定,背景语料可以从互联网中获取,也可以从书籍、期刊、视频以及其他能够获取资料的来源中获取。
作为示例,当应用场景是大型会议中所需的同声传译场景时,背景语料是指在该会议举行之前由委托方提供和/或翻译人员自主收集的相关材料;而且背景语料可以包括主持人串词、演讲人会议稿件以及其它历史相关稿件、与会人员背景信息材料和会议主题相关文献等。另外,对于一些较为专业的大型会议,为了保证背景语料的全面性以及准确性,还可以通过互联网获得更多背景语料。此外,背景语料能够帮助翻译人员提前了解该会议的会议主题,使得翻译人员能够提前储备与该会议相关的专业词汇,以便于该翻译人员在同声传译过程中能够更准确地理解及翻译演讲者的演讲内容。
背景语料中的关键词是指对于翻译人员的翻译工作具有较高提示意义的词汇,而且,不同的应用场景对应不同的关键词。例如,当应用场景是大型会议中所需的同声传译场景时,关键词可以包括与会人员姓名、相关企业及机构名称,会议主题专有词汇等。
另外,由于在不同语言中,语料无分词边界而且各个词汇的词性信息是一种能够影响关键词提取准确性的信息,因而,为了提高关键词的提取效率以及准确性,本申请提供了S201的一种实施方式,在该实施方式中,S201具体可以包括2011-2014:
S2011:利用预设算法,对背景语料进行分词和词性标注。
预设分词算法用于对背景语料中的目标文档或目标句子进行分词和词性标注,而且预设算法可以是任一种能够实现分词和词性标注的算法。例如,预设算法可以是基于词典的分词算法,也可以是基于统计的分词算法(比如基于CRF的算法)。
作为示例,当使用基于CRF的算法进行分词和词性标注时,需要将词性类别分别设置为名词、动词、形容词、代词、副词、数词、介词、助词以及命名实体(包括人名、地名、机构名等)等。如此,不仅能够识别已登录在分词词表中的词汇,还能够识别人名、机构名、专业领域中的术语、缩写及派生词等未登录词,提高了分词以及词性标注的准确性以及全面性。
S2012:生成背景语料中的各个词汇的重要程度值。
在一种实现方式中,各个词汇的重要程度值可以是各个词汇的TF-IDF值。
其中,TF是词频,可以利用公式(4)计算每一词汇的TF值。
式中,TFs表示背景语料中某文档中的某词汇在其所属文档中的出现频率;ns表示该词汇在其所属文档中的出现次数;nj表示该词汇所属文档中的第j个词汇在该文档中的出现次数,且1≤j≤K;K表示该文档中所包括的不同词汇的总数。
IDF是逆向文件频率,可以利用公式(5)计算目标词汇的IDF值。
式中,IDFs表示背景语料中的某词汇的逆向文件频率;Nall表示背景语料中的文档总数;Ns表示包括该词汇的文档数目。
可以理解的是,背景语料中的每一词汇的TF-IDF,表示该词汇在背景语料中的重要程度,而且,该词汇的重要程度会随着TF-IDF的增加而增加。
S2013:根据背景语料中的各个词汇的重要程度值,对各个词汇进行排序,形成有序词汇集合。
在一种实现方式中,S2013具体可以为:根据各个词汇的TF-IDF值,对各个词汇按照从大到小、或从小到大的顺序进行排序,形成有序词汇集合。
另外,由于不具有区分性或无具体含义的停用词(例如,“今天”或“去”等词汇)在目标文档中出现频率较高,导致停用词的TF-IDF值较大,因而,为了提高有序词汇集合的合理性,可以将不具有区分性或无具体含义的停用词从该有序词汇集合中剔除。此外,为了进一步提高有序词汇集合的合理性,还可以将非名词、非动词、非命名实体的等其他不具有区分性的词汇(例如,“第一”或“分别”等词汇)也从该有序词汇集合中剔除。因此,本申请还提供了S2013的一种实施方式,在该实施方式中,S2013具体可以为:首先,根据各个词汇的重要程度值,对各个词汇进行排序形成初始有序词汇集合;然后,将属于停用词、非名词、非动词或非命名实体的词汇从该初始有序词汇集合中剔除,得到有序词汇集合。
S2014:从有序词汇集合中选取具有高重要程度的Q个词汇,作为各个关键词。
其中,Q可以预先设定,例如,Q可以预先根据应用场景设定。
作为一种实施方式,当有序词汇集合中的词汇是基于词汇重要程度从高到低排序时,则S2014具体可以为:从有序词汇集合中选取最靠前的Q个词汇,作为各个关键词;当有序词汇集合中的词汇是基于词汇重要程度从低到高排序时,则S2014具体可以为:从有序词汇集合中选取最靠后的Q个词汇,作为各个关键词。
以上为S201的具体实施方式,在该实施方式中,可以从预先收集的背景语料中提取各个关键词。
下面介绍S202的具体实施方式。
在S202中,初始关键词对用于表示具有固定触发关系的两个关键词,因而,初始关键词对不仅用于记录该两个关键词,还用于记录该两个关键词之间的触发关系。其中,触发关系用于描述在前出现的关键词能够触发另一个关键词在后出现的关系。
另外,初始关键词对可以采用多种表示方式,例如,向量、文字和图像等。为了便于解释和说明初始关键词对,下面将以向量的方式进行表示。
作为一示例,假设初始关键词对包括关键词A和关键词B,而且关键词A出现在关键词B之前,则初始关键词对可以用进行表示,而且表示先出现关键词A再出现关键词B,也就是,关键词A的在前出现能够触发关键词B的在后出现。
需要说明的是,上述示例是以向量表示的初始关键词对为例进行说明的,然而,在本申请中,不仅可以采用向量的方式对初始关键词对进行表示,还可以采用其他的方式对初始关键词对进行表示,为了简要起见,在此不再赘述。另外,在本申请的后续介绍中,为了便于解释和理解,将均利用向量式的初始关键词对进行说明。
作为一种实施方式,当在执行S201之后得到Q个关键词时,则S202具体可以为:将每个关键词分别与除了该关键词以外的Q-1个关键词进行组合,得到Q*Q个初始关键词对。
以上为S202的具体实施方式,在该实施方式中,可以将提取的各个关键词进行两两组合,得到各个初始关键词对。
下面介绍S203的具体实施方式。
在S203中,两个关键词之间的相关性用于表示该两个关键词按照触发关系对应的出现顺序出现的可能性大小;而且,如果两个关键词之间的相关性越大,则表示该两个关键词按照触发关系对应的出现顺序出现的可能性越大。
另外,两个关键词之间的相关性可以采用任一种能够确定该两个关键词按照触发关系对应的出现顺序出现的可能性大小的方法确定。例如,两个关键词之间的相关性可以根据两个关键词的平均互信息来确定。
为了便于理解和解释平均互信息,下面将以初始关键词对的平均互信息AMI(A,B)为例进行说明。
初始关键词对的平均互信息AMI(A,B)用于表示当关键词A出现之后,关键词B出现的确定性大小,也就是,关键词A的在前出现能够触发关键词B的在后出现的可能性大小;而且,当关键词A已出现时,则AMI(A,B)的值会随着关键词B在后出现的可能性的升高而增大。
例如,当开办以“经济”为主题的会议时,由于在演讲人提到“经济”之后,则演讲人在将来提到“增长”的可能性比提到“会议”的可能性要高,因而,AMI(经济,增长)的值比AMI(经济,会议)的值大。
另外,初始关键词对的平均互信息AMI(A,B)可以利用(6)至(23)获得。
式中,AMI(A,B)表示初始关键词对的平均互信息值;A表示预设窗口L中出现关键词A;表示预设窗口L中出现除了关键词A以外的其他关键词;B表示预设窗口L中出现关键词B;表示预设窗口L中出现除了关键词B以外的其他关键词;W表示在背景语料中出现的关键词集合,也就是,在步骤S201中提取的各个关键词;W0表示在预设窗口L中出现的关键词集合;w表示在预设窗口L中出现的第w个关键词,且第w个关键词是W0集合中的任一关键词;w1表示在预设窗口L中出现的第w1个关键词,且第w1个关键词是W0集合中的任一关键词;w2表示在预设窗口L中出现的第w2个关键词,且第w2个关键词是W0集合中的任一关键词;p(A,B)表示关键词A和关键词B同时出现在预设窗口L中的概率;表示除了关键词A以外的其他关键词和关键词B同时出现在预设窗口L中的概率;表示关键词A和除了关键词B以外的其他关键词同时出现在预设窗口L中的概率;表示除了关键词A和关键词B以外的其他两个关键词同时出现在预设窗口L中的概率;P(AB)表示在预设窗口L中在关键词B之前出现关键词A的概率;表示在预设窗口L中在关键词B之前出现除了关键词A以外的其他关键词的概率;表示在预先窗口L中在关键词A之后出现除了关键词B以外的其他关键词的概率;表示在预设窗口L中除了关键词A以外的其他关键词之后出现除了关键词B以外的其他关键词的概率;P(A)表示在背景语料中关键词A的出现概率;P(B)表示在背景语料中关键词B的出现概率;表示在背景语料中除了关键词A以外的其他关键词的出现概率;表示在背景语料中除了关键词B以外的其他关键词的出现概率;CL(A,B)表示在预设窗口L中,关键词A和关键词B同时出现的次数;表示在预设窗口L中,除了关键词A以外的其他关键词和关键词B同时出现的次数;表示在预设窗口L中,关键词A和除了关键词B以外的其他关键词同时出现的次数;表示在预设窗口L中,除了关键词A和关键词B以外的其他两个关键词同时出现的次数;C(A)表示在背景语料中关键词A的出现次数;表示在背景语料中除了关键词A以外的其他关键词的出现次数;C(B)表示在背景语料中关键词B的出现次数;表示在背景语料中除了关键词B以外的其他关键词的出现次数;C(W)表示在背景语料中所有关键词的出现次数;CL(w,B)表示在预设窗口L中第w个关键词与关键词B同时出现的次数;CL(A,w)表示在预设窗口L中关键词A与第w个关键词同时出现的次数;CL(w1,w2)表示在预设窗口L中第w1个关键词和第w2个关键词同时出现的次数;预设窗口L是指包括关键词B所在句子以及关键词B所在句子之前预设数目的句子。
其中,预设数目可以预先设定,比如预设数目为三,基于此,预设窗口L是指包括关键词B所在句子以及关键词B所在句子之前的三个句子。
以上为平均互信息的相关内容。
基于上述对平均互信息的介绍可知,平均互信息可以根据两个关键词的共现概率确定,因而,作为一种实施方式,当两个关键词之间的相关性可以根据两个关键词的平均互信息确定时,则S203具体可以为:
S2031:基于背景语料,确定初始关键词对中的两个关键词的共现概率。
其中,共现概率是指两个关键词同时出现的概率;例如,初始关键词对中关键词A和关键词B的共现概率为p(A,B)。
作为示例,当初始关键词对为时,则S2031具体可以为:基于背景语料,利用公式(7),确定初始关键词对中的关键词A和关键词B的共现概率。
需要说明的是,上述示例是以计算初始关键词对中的两个关键词的共现概率p(A,B)为例进行说明,而且,在本申请中,每个初始关键词对中的两个关键词的共现概率均可以采用上述示例提供的计算过程。
S2032:根据共现概率,确定初始关键词对中的两个关键词之间的相关性。
作为示例,当初始关键词对为时,S2032具体可以为:根据共现概率p(A,B),利用公式(6)至(23),确定初始关键词对中的两个关键词之间的相关性AMI(A,B)。
作为另一示例,当初始关键词对包括Q*Q个时,则S203具体可以为:利用公式(6)至(23),确定各个初始关键词对各自所包括的两个关键词之间的相关性,得到相关性矩阵AMI。
其中,Ii,j=AMI(Wi,Wj),1≤i≤Q,1≤j≤Q,i为正整数,j为正整数;Wi表示第i个关键词;Wj表示第j个关键词;AMI(Wi,Wj)表示初始关键词对的相关性;表示由第i个关键词和第j个关键词构成的初始关键词对。
以上为S203的具体实施方式,在该实施方式中,可以确定各个初始关键词对各自所包括的两个关键词之间的相关性。
下面介绍S204的具体实施方式。
作为一种实施方式,当得到相关性矩阵AMI之后,S204具体可以为:根据确定的相关性,按照从大到小的顺序对初始关键词对进行排序,并将最靠前的Y个初始关键词对作为各个目标关键词对,形成关键词对集合。
作为另一种实施方式,当得到相关性矩阵AMI之后,S204具体可以为:根据确定的相关性,按照从小到大的顺序对初始关键词对进行排序,并将最靠后的Y个初始关键词对作为各个目标关键词对,形成关键词对集合。
在上述两种实施方式中,Y均可以预先设定,例如,Y可以根据应用场景预先设定。
以上为S204的具体实施方式,在该实施方式中,可以根据确定的相关性,从各个初始关键词对中筛选出各个目标关键词,形成关键词对集合。
以上为方法实施例二提供的关键词对集合的构建方法的具体实施方式,在该实施方式中,可以根据收集的背景语料生成关键词对集合,以便方法实施例一提供的关键词生成方法能够利用该关键词对集合,生成联想关键词。由于背景语料均是针对翻译人员将要进行的翻译工作进行收集的,因而,根据背景语料生成的关键词对集合能够全面准确地记录翻译人员在进行翻译工作时所需的词汇信息,从而能够全面有效地辅助翻译人员进行翻译工作,有利于提高翻译效率以及准确率。
方法实施例三
基于上述方法实施例一提供的关键词生成方法以及方法实施例二中提供的关键词对集合的构建方法,为了能够将获取的历史关键词和联想关键词有效地传递给翻译人员,本申请实施例还提供了另一种关键词生成方法,下面结合附图进行解释和说明。
方法实施例三是基于方法实施例一或方法实施例二的基础上进行的改进的,为了简要起见,方法实施例三与方法实施例一或方法实施例二中内容相同的部分,在此不再赘述。
为了能够将获取的历史关键词和联想关键词有效地传递给翻译人员,在本申请还提供了一种关键词生成方法的实施方式,在该实施方式中,还包括:展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。
为了便于解释和理解该实施方式,下面将以三种关键词生成方法的实施方式为例进行说明。
作为第一种实施方式,如图3所示,关键词生成方法具体包括:
S301:获取待翻译的目标语音,并生成该目标语音的识别文本。
S302:提取识别文本中的各个关键词,作为各个历史关键词。
S303:展示各个历史关键词。
S304:生成各个联想关键词,该各个联想关键词是与各个历史关键词具有强相关性的关键词。
需要说明的是,S301、S302以及S304的实施方式分别与S101、S102以及S103的实施方式相同。另外,步骤S303与S304的执行顺序不固定,可以先执行S303再执行S304,也可以先执行S304再执行S303,还可以同时执行S303和S304。
以上为关键词生成方法的第一种实施方式,在该实施方式中,可以将获得各个历史关键词展示给翻译人员,以便翻译人员能够根据该历史关键词快速地理解和翻译目标语音,提高了翻译人员的翻译效率。另外,由于历史关键词是自动展示给翻译人员的,无需翻译人员自己根据目标语音进行提取,因而,节省了翻译人员进行历史关键词提取所需的精力,使得翻译人员能够投入更多的精力在语言的组织和表达上,从而提高了翻译速度和翻译质量。
作为第二种实施方式,如图4所示,关键词生成方法具体包括:
S401:获取待翻译的目标语音,并生成该目标语音的识别文本。
S402:提取识别文本中的各个关键词,作为各个历史关键词。
S403:展示各个历史关键词。
S404:翻译各个历史关键词,并展示各个历史关键词的翻译结果。
作为一种实施方式,S404具体可以为:采用预设翻译方法,翻译各个历史关键词,并展示各个历史关键词的翻译结果,预设翻译方法可以是任一种能够进行翻译的方法。
S405:生成各个联想关键词,该各个联想关键词是与各个历史关键词具有强相关性的关键词。
需要说明的是,S401、S402以及S405的实施方式分别与S101、S102以及S103的实施方式相同。另外,步骤S403、S404和S405之间没有固定的执行顺序,可以依次执行S403、S404和S405,也可以依次执行S404、S403和S405,也可以依次执行S405、S404和S405,还可以依次按照其他的执行顺序进行执行,本申请实施例对此不作具体限定。
以上为关键词生成方法的第二种实施方式,在该实施方式中,不仅将提取的历史关键词自动地展示个翻译人员,还将历史关键词的翻译结果自动地展示给翻译人员。如此,不仅节约了翻译人员从目标语音中提取历史关键词的精力,也节约了翻译人员获取历史关键词的翻译结果的精力,从而进一步节省了翻译人员进行历史关键词提取所需的精力,使得翻译人员能够投入更多的精力在语言的组织和表达上,进而进一步提高了翻译速度和翻译质量。
作为第三种实施方式,如图5所示,关键词生成方法具体包括:
S501:获取待翻译的目标语音,并生成该目标语音的识别文本。
S502:提取识别文本中的各个关键词,作为各个历史关键词。
S503:展示各个历史关键词。
S504:翻译各个历史关键词,并展示各个历史关键词的翻译结果。
S505:生成各个联想关键词,该各个联想关键词是与各个历史关键词具有强相关性的关键词。
S506:展示联想关键词。
需要说明的是,S501、S502以及S505的实施方式分别与S101、S102以及S103的实施方式相同。另外,步骤S503、S504和S505之间没有固定的执行顺序,可以依次执行S503、S504和S505,也可以依次执行S504、S503和S505,也可以依次执行S505、S504和S505,还可以依次按照其他的执行顺序进行执行,本申请实施例对此不作具体限定。
以上为关键词生成方法的第三种实施方式,在该实施方式中,不仅将提取的历史关键词和历史关键词的翻译结果自动地展示给翻译人员,还将联想关键词自动地展示给翻译人员。如此,不仅节约了翻译人员从目标语音中提取历史关键词和获取历史关键词的翻译结果的精力,也节约了翻译人员对联想关键词进行预测的精力,从而进一步节省了翻译人员进行历史关键词提取所需的精力,使得翻译人员能够投入更多的精力在语言的组织和表达上,进而进一步提高了翻译速度和翻译质量。
需要说明的是,上述是以关键词生成方法的三种实施方式为例进行说明的,但是,在本申请中不仅包括这三种实施方式,还包括其他实施方式,这些实施方式具体可以为:在向翻译人员进行展示时,可以只向翻译人员展示各个联想关键词,也可以只向翻译人员展示历史关键词的翻译结果,也可以只向翻译人员展示历史关键词和联想关键词,也可以只向翻译人员展示历史关键词的翻译结果和联想关键词。为了简要起见,在此不再赘述。
以上为方法实施例三提供的关键词生成方法的具体实施方式,在该实施方式中,可以向翻译人员展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。如此,能够节约翻译人员执行从目标语音中提取历史关键词、获取历史关键词的翻译结果和预测联想关键词中至少一项工作的精力,从而节省了翻译人员进行历史关键词提取所需的精力,使得翻译人员能够投入更多的精力在语言的组织和表达上,进而提高了翻译速度和翻译质量。
基于上述方法实施例一至方法实施例三提供的任一关键词生成方法,本申请还提供了一种关键词生成装置,下面将结合附图进行解释和说明。
装置实施例一
本实施例将对一种关键词生成装置进行介绍,相关内容请参见上述方法实施例。
参见图6,该图为本申请实施例提供的关键词生成装置的结构示意图。
本申请实施例提供的关键词生成装置600,包括:
识别文本生成单元601,用于获取待翻译的目标语音,并生成所述目标语音的识别文本;
历史关键词提取单元602,用于提取所述识别文本中的各个关键词,作为各个历史关键词;
联想关键词生成单元603,用于生成各个联想关键词,所述各个联想关键词是与所述各个历史关键词具有强相关性的关键词。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述历史关键词提取单元602,具体用于:
根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词,作为各个历史关键词。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述历史关键词提取单元602,包括:
第一词汇排序子单元,用于将所述识别文本中的各个第一词汇,按照在所述识别文本中的出现顺序进行排序,所述第一词汇是重要词汇和/或翻译难度高的词汇;
第二词汇排序子单元,用于将所述识别文本中除各个第一词汇以外的各个第二词汇,按照词汇的重要性进行排序;
关键词提取子单元,用于将各个第二词汇的排序结果串联在各个第一词汇的排序结果之后,提取串联排序结果中的前N个词汇,作为从所述识别文本中提取的各个关键词,作为各个历史关键词。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述联想关键词生成单元603,包括:
匹配关键词对获取子单元,用于将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对;其中,所述关键词对集合包括各个目标关键词对,所述目标关键词对中的两个关键词具有强相关性,所述匹配关键词对是包含历史关键词和候选关键词的一个目标关键词对;
联想关键词生成子单元,用于将全部的候选关键词作为各个联想关键词,或者,用于选取部分的候选关键词作为各个联想关键词。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述联想关键词生成子单元,具体用于:
根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词;
其中,所述关键词相关性为对应的匹配关键词对所包含的历史关键词和候选关键词之间的相关性。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述联想关键词生成子单元,包括:
候选相关性确定模块,用于确定每一候选关键词对应的候选相关性,所述候选相关性为对应候选关键词所属的所有匹配关键词对的关键词相关性的累加结果;
联想关键词生成模块,用于将具有强候选相关性的M个候选关键词,作为各个联想关键词。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述历史关键词和候选关键词之间的相关性,包括:
在所述历史关键词出现的情况下,所述历史关键词之后出现所述候选关键词的确定性程度。
作为一种实施方式,为了进一步提升翻译人员的翻译速度和翻译质量,所述装置600还包括:
关键词展示单元,用于展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。
进一步地,本申请实施例还提供了一种关键词生成设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述方法实施例提供的关键词生成方法中的任意一种实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述方法实施例提供的关键词生成方法中的任意一种实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述方法实施例提供的关键词生成方法中的任意一种实施方式。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种关键词生成方法,其特征在于,包括:
获取待翻译的目标语音,并生成所述目标语音的识别文本;
提取所述识别文本中的各个关键词,作为各个历史关键词;
生成各个联想关键词,所述各个联想关键词是与所述各个历史关键词具有强相关性的关键词。
2.根据权利要求1所述的方法,其特征在于,所述提取所述识别文本中的各个关键词,包括:
根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词,包括:
将所述识别文本中的各个第一词汇,按照在所述识别文本中的出现顺序进行排序,所述第一词汇是重要词汇和/或翻译难度高的词汇;
将所述识别文本中除各个第一词汇以外的各个第二词汇,按照词汇的重要性进行排序;
将各个第二词汇的排序结果串联在各个第一词汇的排序结果之后,提取串联排序结果中的前N个词汇,作为从所述识别文本中提取的各个关键词。
4.根据权利要求1所述的方法,其特征在于,所述生成各个联想关键词,包括:
将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对;其中,所述关键词对集合包括各个目标关键词对,所述目标关键词对中的两个关键词具有强相关性,所述匹配关键词对是包含历史关键词和候选关键词的一个目标关键词对;
将全部的候选关键词作为各个联想关键词,或者,选取部分的候选关键词作为各个联想关键词。
5.根据权利要求4所述的方法,其特征在于,所述选取部分的候选关键词作为各个联想关键词,包括:
根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词;
其中,所述关键词相关性为对应的匹配关键词对所包含的历史关键词和候选关键词之间的相关性。
6.根据权利要求5所述的方法,其特征在于,所述根据各个匹配关键词对的关键词相关性,选取部分的候选关键词作为各个联想关键词,包括:
确定每一候选关键词对应的候选相关性,所述候选相关性为对应候选关键词所属的所有匹配关键词对的关键词相关性的累加结果;
将具有强候选相关性的M个候选关键词,作为各个联想关键词。
7.根据权利要求5所述的方法,其特征在于,所述历史关键词和候选关键词之间的相关性,包括:
在所述历史关键词出现的情况下,所述历史关键词之后出现所述候选关键词的确定性程度。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。
9.一种关键词生成装置,其特征在于,包括:
识别文本生成单元,用于获取待翻译的目标语音,并生成所述目标语音的识别文本;
历史关键词提取单元,用于提取所述识别文本中的各个关键词,作为各个历史关键词;
联想关键词生成单元,用于生成各个联想关键词,所述各个联想关键词是与所述各个历史关键词具有强相关性的关键词。
10.根据权利要求9所述的装置,其特征在于,所述历史关键词提取单元,具体用于:
根据词汇的重要性和/或翻译困难性,提取所述识别文本中的各个关键词,作为各个历史关键词。
11.根据权利要求9所述的装置,其特征在于,所述联想关键词生成单元,包括:
匹配关键词对获取子单元,用于将各个历史关键词与预先构建的关键词对集合进行匹配,得到各个匹配关键词对;其中,所述关键词对集合包括各个目标关键词对,所述目标关键词对中的两个关键词具有强相关性,所述匹配关键词对是包含历史关键词和候选关键词的一个目标关键词对;
联想关键词生成子单元,用于将全部的候选关键词作为各个联想关键词,或者,用于选取部分的候选关键词作为各个联想关键词。
12.根据权利要求9至11任一项所述的装置,其特征在于,所述装置还包括:
关键词展示单元,用于展示各个历史关键词、各个历史关键词的翻译结果、各个联想关键词、各个联想关键词的翻译结果中的至少一项。
13.一种关键词生成设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
CN201910344875.6A 2019-04-26 2019-04-26 一种关键词生成方法及装置 Active CN110083837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910344875.6A CN110083837B (zh) 2019-04-26 2019-04-26 一种关键词生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910344875.6A CN110083837B (zh) 2019-04-26 2019-04-26 一种关键词生成方法及装置

Publications (2)

Publication Number Publication Date
CN110083837A true CN110083837A (zh) 2019-08-02
CN110083837B CN110083837B (zh) 2023-11-24

Family

ID=67417006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910344875.6A Active CN110083837B (zh) 2019-04-26 2019-04-26 一种关键词生成方法及装置

Country Status (1)

Country Link
CN (1) CN110083837B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324817A (zh) * 2020-03-13 2020-06-23 上海携程商务有限公司 住宿广告关键词生成方法、系统、设备及存储介质
CN112307178A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于技术需求和新技术相似度的查询推荐方法
WO2021087665A1 (zh) * 2019-11-04 2021-05-14 深圳市欢太科技有限公司 数据处理方法、装置、服务器和存储介质
WO2021228084A1 (zh) * 2020-05-15 2021-11-18 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109298796A (zh) * 2018-07-24 2019-02-01 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109522392A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 基于语音的检索方法、服务器及计算机可读存储介质
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109298796A (zh) * 2018-07-24 2019-02-01 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109522392A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 基于语音的检索方法、服务器及计算机可读存储介质
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄政豪等: "基于术语自动抽取的科技文献翻译辅助系统的设计", 《延边大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021087665A1 (zh) * 2019-11-04 2021-05-14 深圳市欢太科技有限公司 数据处理方法、装置、服务器和存储介质
CN111324817A (zh) * 2020-03-13 2020-06-23 上海携程商务有限公司 住宿广告关键词生成方法、系统、设备及存储介质
CN111324817B (zh) * 2020-03-13 2023-06-23 上海携程商务有限公司 住宿广告关键词生成方法、系统、设备及存储介质
WO2021228084A1 (zh) * 2020-05-15 2021-11-18 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质
CN112307178A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于技术需求和新技术相似度的查询推荐方法

Also Published As

Publication number Publication date
CN110083837B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN110083837A (zh) 一种关键词生成方法及装置
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
US9811515B2 (en) Annotating posts in a forum thread with improved data
US20120317125A1 (en) Method and apparatus for identifier retrieval
Zhang et al. STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks
CN100583086C (zh) 对话控制系统和对话控制方法
Tang et al. Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching
Hinze et al. Improving access to large-scale digital libraries throughsemantic-enhanced search and disambiguation
CN111859950A (zh) 一种自动化生成讲稿的方法
Wang et al. Multi‐label emotion recognition of weblog sentence based on Bayesian networks
Taskin et al. ESA-T2N: a novel approach to network-text analysis
Lopes et al. Evaluation of cutoff policies for term extraction
CN115062135B (zh) 一种专利筛选方法与电子设备
Zhu et al. Order-sensitive keywords based response generation in open-domain conversational systems
Huang et al. Construction of Electric Power Meta Knowledge Graph Based on Electric Power Industry Terminology
Uddin et al. A neural network approach for Bangla POS tagger
Maciołek et al. Using shallow semantic analysis and graph modelling for document classification
Abuteir et al. Automatic Sarcasm Detection in Arabic Text: A Supervised Classification Approach
CN117407511B (zh) 一种基于Bert模型的电力安全规程智能问答方法及系统
Chowdhury et al. Identifying keyword predictors in lecture video screen text
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
Chakkarwar et al. Information Retrieval Using Effective Bigram Topic Modeling
Huang et al. A Manual Annotation for the Task of Pronoun Resolution for Events
Tripto Novel word-to-VEC graph and character interaction models for literary analysis a case study with Bengali literature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant