CN111680119B - 数据处理方法及计算设备 - Google Patents

数据处理方法及计算设备 Download PDF

Info

Publication number
CN111680119B
CN111680119B CN201910182178.5A CN201910182178A CN111680119B CN 111680119 B CN111680119 B CN 111680119B CN 201910182178 A CN201910182178 A CN 201910182178A CN 111680119 B CN111680119 B CN 111680119B
Authority
CN
China
Prior art keywords
language text
language
text
word segmentation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910182178.5A
Other languages
English (en)
Other versions
CN111680119A (zh
Inventor
葛鑫
施杨斌
赵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910182178.5A priority Critical patent/CN111680119B/zh
Publication of CN111680119A publication Critical patent/CN111680119A/zh
Application granted granted Critical
Publication of CN111680119B publication Critical patent/CN111680119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种数据处理方法及计算设备。其中,方法包括如下的步骤:获取第一语言文本及第二语言文本;分别对第一语言文本及第二语言文本进行分词处理;根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。本申请实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于数据格式,通用性强。

Description

数据处理方法及计算设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及计算设备。
背景技术
在机器翻译中,双语平行语料(即存在语言翻译关系的两种不同语言的文本对)对于训练机器翻译模型有着根基性的作用。字幕文件通常会包含多种语言的文本,翻译质量较高,是构建双语平行语料的重要来源。此外,字幕内容通常会比较口语化,对于比如语音翻译也会有一定的业务价值。
实际上,可从网络侧获取到很多电影或电视剧的字幕文件。但在网络侧获取到的很多语言的字幕文件中,如何准确找出存在翻译关系的字幕文件对是一个很有难度的挑战。目前,不同语言字幕文件的匹配准确率不高。
发明内容
本申请各实施例提供一种解决上述问题或至少部分地解决上述问题的数据处理方法及计算设备。
在本申请的一个实施例中,提供了一种数据处理方法。该方法包括:
获取第一语言文本及第二语言文本;
分别对所述第一语言文本及所述第二语言文本进行分词处理;
根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
在本申请的另一个实施例中,提供了一种数据处理方法。该方法包括:
获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本;
分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理;
根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
在本申请的又一个实施例中,提供了一种计算设备。该计算设备包括:存储器及处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取第一语言文本及第二语言文本;
分别对所述第一语言文本及所述第二语言文本进行分词处理;
根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
在本申请的又一个实施例中,提供了一种计算设备。该计算设备包括:存储器及处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本;
分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理;
根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
本申请实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系(比如翻语言翻译关系);直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于数据格式,通用性强。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的数据处理方法的流程示意图;
图2为本申请另一实施例提供的数据处理方法的流程示意图;
图3为本申请又一实施例提供的数据处理方法的流程示意图;
图4为本申请一实施例提供的数据处理装置的结构示意图;
图5为本申请一实施例提供的计算设备的结构示意图。
具体实施方式
现有技术通常根据字幕文件的上传时间、字幕文本的语言、用户对字幕的打分、文本的编码格式、识别出的词和未识别出的词个数、影视的时长和字幕的时长、两种不同语言字幕文件之间重合的时间轴信息等等,对两种不同语言字幕文件是否对齐进行打分,根据打分结果确定两种不同语言字幕文件是否对齐(亦或称两种不同语言字幕文件是否为双语平行字幕文件对)。
首先,现有方案对于字幕文件的数据结构要求比较高。需要站点(字幕文件的提供方)提供上传时间、影视的时长、字幕的打分等信息。若与站点无相关的合作关系,这些数据是无法获取到的;所以现有方案不适于所有字幕站点提供的字幕文件。其次,通过时间轴的重复信息来帮助确定两种语言的字幕文本是否对齐,具有较高的误匹配率;比如电视剧的每集时长都会很接近,剧中字幕的时间轴的重复率较高,极易出现误匹配。
为此,本申请各实施例提供的一种专注于文本本身来判定两种语言文本是否存在对应关系的方案,以解决或部分地解决现有方案存在的诸多问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本申请各实施例提供的技术方案之前,先对本文中出现的各名词进行简单的介绍。
双语平行文本对:是指使用两种不同语言撰写、相互间具有“翻译关系”的文本。
字幕文件:电影、电视中人物说的每句话,荧幕上会以文字显示,这些文字会以文本的方式保存在字幕文件中,通常还包含媒体标识、文件名、影视名等信息。
机器翻译:借由计算机将文字或者演说从一种自然语言翻译成另一种自然语言。
语向:翻译中从一种语言翻译到另一种语言,这两种语言就形成一个语向,比如,从中文翻译到英文,称“中-英”是一个语向。
双语词典:将一种语言的字词用另一种语言来表示,比如对于中英双语词典,包含的内容形如键值对,如“翻译”:“translate”。
字幕文件对齐:两种语言字幕文件存在语言翻译关系,且两种语言的字幕(或台词)在时间轴上是对齐的。
图1示出了本申请一实施例提供的数据处理方法的流程示意图。如图1所示,所述数据处理方法包括:
101、获取第一语言文本及第二语言文本。
102、分别对所述第一语言文本及所述第二语言文本进行分词处理。
103、根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
上述101中,第一语言文本和第二语言文本可以从网络侧获取,这两个字幕文件可由同一服务方(如站点)提供,也可由不同服务方提供,本实施例对此不作具体限定。对于字幕文件来说,通常字幕文件中除包含有文本外,还包含有文件信息、时间轴信息等等。其中,文件信息可包括但不限于:媒体标识、文件名、影视名等。
上述102中,假设第一语言文本为第一语言字幕文件中的字幕文本,那么在对文本进行分词处理之前,还可先对文本进行预处理。一般字幕文本中都含有时间轴信息,又或者字幕文本中的文字为中文繁体;等等。即本实施例提供的所述方法,还可包括但不限于如下至少一个预处理步骤:
104、去除第一语言文本和所述第二语言文本中的时间轴信息;
105、在通过文字识别确定第一语言文本和第二语言文本中有一个语言文本中的文字为中文繁体的情况下,将该语言文本的文字转换为中文简体。
在一种可实现的技术方案中,对文本进行的分词处理可仅包含:分词过程;或者包含:分词过程和组词过程。例如,分词过程具体为:将第一语言文本以及第二语言文本按照最细粒度(如单个字或词)进行分词。假设,对第一语言文本进行分词后得到第一分词结果,该第一分词结果中包含按照在第一语言文本中的出现顺序排列的多个第一分词项;相应的,组词过程可具体为:将单个第一分词项组为一个分组词,将连续的两、三或更多个字或词组为一个分组词;……等等。同样的,对第二语言文本进行分词后得到第二分词结果,该第二分词结果中包含按照在第二语言文本中的出现顺序排列的多个第二分词项;相应的,组词过程可具体为:分别将第二分词项翻译为第一语言,得到顺序不变的多个翻译分词项,将单个翻译分词项组为一个分组词;将连续的两个、三个或更多个字或词组为一个分组词;等等。本实施例对此不作具体限定。
为便于理解,下面举一个简单的例子进行说明。假设第一语言文本的内容为:
我热爱阿里巴巴的工作内容。第二语言文本的内容为:I love the work ofAlibaba。分词过程:
对第一语言文本进行分词,得到按照在第一语言文本中的出现顺序排列的多个第一分词项:我,热爱,阿里巴巴,的,工作,内容;
对第二语言文本进行分词,得到在第二语言文本中的出现顺序排列的多个第二分词项:I,love,the,work,of,Alibaba。
组词过程:
将多个第一分词项(我,热爱,阿里巴巴,的,工作,内容)中的每个分词项组为一个词组,得到多个记为1n-gram的分组词:我,热爱,阿里巴巴,的,工作,内容。具体的,111-gram=“我”,112-gram=“热爱”,113-gram=“阿里巴巴”,114-gram=“的”,115-gram=“工作”,116-gram=“内容”。
将多个第一分词项(我,热爱,阿里巴巴,的,工作,内容)中连续的2个第一分词项组为一个词组,得到多个记为2n-gram的分组词:我热爱,热爱阿里巴巴,阿里巴巴的,的工作,工作内容。具体的,211-gram=“我热爱”,212-gram=“热爱阿里巴巴”,213-gram=“阿里巴巴的”,214-gram=“的工作”,215-gram=“工作内容”。
根据双语词典,分别对多个第二分词项进行翻译,得到多个翻译分词项:I,love,the,work,of,Alibaba-->我,热爱,这,工作,的,阿里巴巴。将多个翻译分词项中的每个翻译分词项组为一个词组,得到多个记为1m-gram的分组词:我,热爱,这,工作,的,阿里巴巴;具体的,121-gram=“我”,122-gram=“热爱”,123-gram=“这”,124-gram=“工作”,125-gram=“的”,126-gram=“阿里巴巴”。
将连续的两个翻译分词项组为一个词组,得到多个记为2m-gram的分组词:我热爱,热爱这,这工作,工作的,的阿里巴巴);具体的,221-gram=“我热爱”,222-gram=“热爱这”,223-gram=“这工作”,224-gram=“工作的”,225-gram=“的阿里巴巴”。
其中,n、m用于区分不同分组词。
这里需要说明的是,组词过程中将连续的几个分词项组为一个分组词,可根据实际需求或具体语言特点自行设定,本实施例对此不作具体限定。
上述103中,可通过统计两个分词处理结果中相同或相似分组词的数量,来确定所述第一语言文件与所述第二语言文件是否存在对应关系。例如,若统计出两个分词处理结果中相同或相似分组词的数量大于预设阈值,则确定所述第一语言文件与所述第二语言文件存在对应关系;否则,确定所述第一语言文件与所述第二语言文件不存在对应关系。
这里需要说明的是:由于第一语言文本和第二语言文本中的文字为两种语言,因此,在上述统计过程中,可利用预先针对这两种语言建立的双语词典,将其中一个文本对应的各分词项进行翻译(即语种转换),这样就可以通过文本比对的方式判定分组词是否相同或相似。假设,第一语言文本中的文字为中文,第二语言文本中的文字为英文;可将第二语言文本对应的分词结果中各分词项翻译成中文,再进行组词、后续的比对和统计。
本实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于字幕文件的数据格式,通用性强。
在一种可实现的技术方案中,本实施例步骤102“分别对所述第一语言文本及所述第二语言文本进行分词处理”,可具体包括如下步骤:
1021、对所述第一语言文本进行分词,得到第一分词结果,所述第一分词结果包括按照在所述第一语言文本中的出现顺序排列的多个第一分词项;其中,所述第一分词项为字或词;
1022、将所述第一分词结果中连续的N个第一分词项组为一个词组,得到记为Nn-gram的分组词;
1023、对所述第二语言文本进行分词,得到第二分词结果,所述第二分词结果包括按照在所述第二语言文本中的出现顺序排列的多个第二分词项;其中,所述第二分词项为字或词;
1024、使用第一语言,对所述第二分词结果中的各第二分词项进行翻译,得到多个翻译分词项;
1025、将所述第二分词结果中连续的M个翻译分词项组为一个词组,得到记为Mm-gram的分组词;
其中,N、M取正整数;n、m用于区分不同分组词。
具体实施时,上述步骤1022和1025组词过程中:N可先取为1;再取N为2;……等等。同理,M可先取值为1;再取M为2;……等等。具体实施时,将第一语言文本对应的分组词Nn-gram存储在同一数据集中,将第二语言文本对应的分组词Mm-gram储在另一数据集中。
进一步的,上述实施例步骤104“根据分词处理结果,确定所述第一语言文件与所述第二语言文件是否存在对应关系”,可具体包括如下步骤:
1041、统计Nn-gram与Mm-gram中相同或相似的数量;
1042、根据统计结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
具体的,Nn-gram与Mm-gram中相同或相似的数量大于阈值时,所述第一语言文本与所述第二语言文本存在对应关系;或者,所述Nn-gram与Mm-gram中相同或相似的数量占分组词总数量的比例大于预设比例时,所述第一语言文本与所述第二语言文本存在对应关系;等等,本实施例对此不作具体限定。
为方便理解举个简单的例子:假设第一语言文本为“我爱中国”;第二语言文本为“I love my country”。
对第一语言文本“我爱中国”进行分词,得到第一分词结果:我、爱、中国。
对第一分词结果进行组词:取N=1,得到分组词111-gram=“我”、112-gram=“爱”、113-gram=“中国”;取N=2;得到分组词211-gram=“我爱”、212-gram=“爱中国”;
由此得到,第一语言文本对应的分组词集为[我,爱,中国,我爱,爱中国]。
同样的,对第二语言文本“I love my country”进行分词,得到第二分词结果:I、love、my、country;对第二分词结果进行翻译得到:我、爱、我的、国家。
对第二分词结果进行组词:取M=1,得到分组词121-gram=“我”、122-gram=“爱”、123-gram=“我的”以及124-gram=“国家”;取M=2;得到分组词221-gram=“我爱”、222-gram=“爱我的”以及223-gram=“我的国家”;
由此得到,第二语言文本对应的分组词集为[我、爱、我的、国家、我爱、爱我的、我的国家]。
通过文本比对,可统计出第一语言文本对应的分组词集中的Nn-gram和第二语言文本对应的分组词集中Mm-gram相同或相似的分组词数量为3个,这3对相同或相似分组词分别为:“我”、“爱”、“我爱”。
具体实施时,当文本中文字量大时,可通过MapReduce的mapper对文本进行分词处理;相应的,上述步骤1041和1042可通过MapReduce的mapper和reduce实现。MapReduce是一种面向大规模数据处理的并行计算模型和方法;具体实现将会在后续实施例中详细介绍。
在一个具体的应用场景中,本实施例提供的方案中,第一语言文本为第一语言字幕文件中的字幕文本,第二语言文本为第二语言字幕文件中的字幕文本。相应的,本实施例提供的所述方法还可包括如下步骤:
106、获取所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名。
相应的,本实施例中步骤103“根据分词处理结果,确定所述第一语言文件与所述第二语言文件是否存在对应关系”可具体为:
103’、根据所述分词处理结果、所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文件与所述第二语言文件是否存在对应关系。
在一种可实现的技术方案中,上述步骤103’可具体为:
根据所述分词处理结果,确定所述第一语言文本与所述第二语言文本存在对应关系的第一分值;
根据所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本存在对应关系的第二分值;
根据所述第一分值和第二分值,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
例如,第一分值和第二分值的总和大于第一设定值时,确定第一语言文本与所述第二语言文本存在对应关系;又例如,第一分值和第二分值的加权和大于第二设定值时,确定第一语言文本与所述第二语言文本存在对应关系。
在一具体实施方式中,第一分值和第二分值的确定可基于预设的打分模型得到;其中,打分模型可通过经验、实验或理论推演得到,本实施例对打分模型不作具体限定。
在另一具体实施方式中,上述根据所述分词处理结果确定第一分值可采用如下方法实现:统计出第一语言文本对应的第一处理结果和第二语言文本对应的第二处理结果中相同或相似分组词的数量;根据统计得出的数量,确定所述第一分值。例如,预先设置了取值范围与分值的对应关系;先确定统计得出的数量所在的取值范围,然后通过查找该对应关系,即可得到对应的第一分值。上述“根据文本信息确定第二分值”,例如可采用如下方法实现:假设第二分值初始值为零;当第一语言字幕文件和第二语言字幕文件的媒体标识相同时,则第二分值加第一数值;第一语言字幕文件和第二语言字幕文件的文件名相同或相关,则第二分值再加第二数值;第一语言字幕文件和第二语言字幕文件的影视名相同,则第二分值再加第三数值;等等。
再进一步的,本实施例提供的数据处理方法还可包括如下步骤:
107、获取所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息。
相应的,上述步骤103’、“根据所述分词处理结果、所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系”,可具体为:
103”、根据所述分词处理结果、所述第一语言字幕文件的文件信息、所述第二语言字幕文件的文件信息、所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
在一种可实现的技术方案中,上述步骤103”可具体为:
根据所述分词处理结果,确定所述第一语言文本与所述第二语言文本存在对应关系的第一分值;
根据所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本存在对应关系的第二分值;
根据所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息的重叠率,确定所述第一语言文本与所述第二语言文本存在对应关系的第三分值;
根据所述第一分值、第二分值及第三分值,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
例如,第一分值、第二分值和第三分值的总和大于第一设定值时,确定第一语言文本与所述第二语言文本存在对应关系;又例如,第一分值、第二分值和第三分值的加权和大于第二设定值时,确定第一语言文本与所述第二语言文本存在对应关系。
上述确定所述第一语言文本及所述第二语言文本的时间轴信息重叠率,可参见现有技术,本文不作赘述。一种可实现的方案是:预先设置重叠率范围与分值的对应关系;先确定第一语言文本及所述第二语言文本的时间轴信息重叠率所在重叠率范围;然后通过查询该重叠率范围与分值的对应关系,即可得到第三分值。
图2示出了本申请另一实施例提供的数据处理方法的流程示意图。如图2所示,所述数据处理方法包括:
201、获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本。
202、分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理。
203、根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
上述201中,第一语言文本集合中含有的所有文本可由同一服务方(如站点)提供,也可由不同服务方(如站点)提供,本实施例对此不作具体限定。同样的,第二语言文本集合中含有的所有文本可由同一服务方(如站点)提供,也可由不同服务方(如站点)提供。
以第一语言文本集合和第二语言文本集合中的所有文本出自一个站点为例,步骤201“获取第一语言文本集合及第二语言文本集合”可具体为:
2011、从网络侧获取同一服务方提供的多个文本。
2022、根据语言需求,从所述多个文本中过滤出所有第一语言文本得到所述第一语言文本集合,过滤出所有第二语言文本得到所述第二语言文本集合。
其中,语言需求可由任务自动触发,也可由用户手动触发。比如,当前任务是收集中文-英文双语平行字幕文件对,用作中英翻译模型的训练样本数据。此时,任务在执行过程中就会自动触发语言需求,该语言需求中含有中文需求和英文需求。
在字幕文件应用场景中,服务方(亦或称站点)提供的字幕文件可能含有多种语言的字幕文件,如:中文字幕文件、英文字幕文件、法语字幕文件、日文字幕文件……等等。因此,需先识别出各字幕文件所使用的语言,然后再根据语言需求过滤出所需的两种语言的字幕文件。
上述202中,当需分词处理的文本量大时,可通过MapReduce进行并行分词处理,具体实现过程将在下文中相应部分详细说明。此外,在对各文本进行分词操作之前,可对各文本进行预处理,如删除文本中的时间轴信息、将存在中文繁体的文本转换为中文简体等处理;相应内容可参见上述实施例。
上述203中,分词处理可仅包含:分词过程;或者分词处理包括:分词过程和组词过程。具体内容可参见上述实施例中的相应内容,此次不再赘述。假设,分词处理包括分词过程和组词过程,每个第一语言文本经分词处理后均可得到至少一个分组词;每个第二语言文本经分词处理后均可得到至少一个分组词。具体实施时,确定相同或相似分组词的数量满足预设要求的两个第一语言文本和第二语言文本存在对应关系,这两个第一语言文本和第二语言文本可作为双语平行字幕文件对,比如用作翻译模型的训练样本。其中,预设要求可基于经验、文本的文字数量等等来确定,本实施例对此不作具体限定。例如,预设要求为:相同或相似分组词的数量占第一语言文本和第二语言文本的分组词总量的比例大于预设比例。
本实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于字幕文件的数据格式,通用性强。
进一步的,本实施例中步骤202“分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理”,可具体包括:
通过MapReduce的mapper,并行地对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理。。
在一种可实现的技术方案中,所述分词处理结果包括:所述分词处理结果包括:各第一语言文本对应的处理结果,以及各第二语言文本对应的处理结果;处理结果包含至少一个分组词,分组词由文本中的一个或连续多个字或词构成。这里需要说明的是:分词处理过程包括分词过程和组词过程,具体内容可参见上述各实施例,此处不再赘述。各文本对应的分组词就是经分词过程和组词过程得到的。上述步骤203“根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本”,可包括如下步骤:
2031、根据分词处理结果,统计所述第一语言文本集合中任一第一语言文本与所述第二语言文本集合中任一第二语言文本,具有相同或相似分组词的数量;
2032、具有相同或相似分组词的数量满足预设条件的一对第一语言文本与第二语言文本,存在对应关系。
具体实施时,各第二语言文本对应的处理结果中包含的分组词均为翻译为第一语言的至少一个分词项构成;相应的,上述2031“根据分词处理结果,统计所述第一语言文本集合中任一第一语言文本与所述第二语言文本集合中任一第二语言文本,具有相同或相似分组词的数量”,可具体采用如下步骤实现:
S1、比对各第一语言文本对应的处理结果与各第二语言文本对应的处理结果。
S3、基于比对结果,统计任一第一语言文本与任一第二语言文本具有相同或相似分组词的数量。
在一种可实现的技术方案中,通过MapReduce的mapper,并行地对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理后,得到多个键值对。各第一语言文件对应的处理结果包括:<Nn-gram,Dx>键值对,其中,Nn-gram为分词处理后得到的分组词,N为构成分组词的字或词数量,为正整数;n用于区分不同分组词;Dx用于区分不同的第一语言文件。比如,第一语言文本集中有一个第一语言文件的文本为“我爱中国”,该第一语言文件的标识为a;该第一语言文件经分词处理后,其对应的处理结果包含如下各键值对:<111-gram=“我”,a>、<112-gram=“爱”,a>、<113-gram=“中”,a>、<114-gram=“国”,a>、<211-gram=“我爱”,a>、<212-gram=“爱中”,a>以及<213-gram=“中国”,a>。
同样的,各第二语言文件对应的处理结果包括:<Mm-gram,Dy>键值对;其中,Mm-gram为分词处理后得到分组词,M为构成分组词的字或词数量,为正整数;m用于区分不同分组词,Dy用于区分不同的第二语言文件。
相应的,上述步骤S3“基于比对结果,统计任一第一语言文本与任一第二语言文本具有相同或相似分组词的数量”,可具体为:
S31、基于比对结果,通过MapReduce的reducer,分别统计相同或相似Nn-gram和Mm-gram对应的文本集,得到第一结果。
该步骤可简单理解为:将具有相同或相似Nn-gram及Mm-gram的文本收集起来。收集到的字幕文件集包括:至少一个第一语言文本和至少一个第二语言文本。举例来说:
第一语言文本对应的分组词包括:<111-gram=“我”,a>、<112-gram=“爱”,a>、<113-gram=“中国”,a>、<211-gram=“我爱”,a>以及<212-gram=“爱中国”,a>;
第二语言文本对应的分组词包括:<121-gram=“我”,b>、<122-gram=“爱”,b>、<123-gram=“我的”,b>、<124-gram=国家,b>、<221-gram=“我爱”,b>、<222-gram=“爱我的”,b>、<223-gram=“我的国家”,b>;其中,b为第二语言文件的标识。
通过上述步骤S31可得到:相同或相似分组词为key,文本集为value的键值对,作为所述第一结果。例如,第一结果包括但不限于:<“我”,{(a,A,……),(b,B,……)}>、……;这里假设包含有分组词“我”的第一语言文件集合包含有:标识为a的第一语言文件、标识为A的第一语言文件,……等等;包含有分组词“我”的第二语言文件集合包含有:标识为b的第二语言文件、标识为B的第二语言文件,……等等。
S32、基于所述第一结果,通过MapReduce的mapper并行地处理得到相同或相似Nn-gram和Mm-gram对应的文本对,得到第二结果。
步骤S32可简单理解为:从上述第一结果中各键值对中的文本集抽取一个第一语言文本和一个第二语言文本组成文本对作为key,原键值对中相同或相似分组词为value,重新组成新的键值对。例如,第二结果包括但不限于:<(a,b),“我”>、<(a,B),“我”>、<(A,b),“我”>、<(A,B),“我”>、……。
S33、基于所述第二结果,通过mapreduce的reducer统计每对文本对之间相同或相似Nn-gram和Mm-gram的数量。
该步骤S33可简单理解为:将上述第二结果进行合并的过程。假设,第二结果包括:<(a,b),“我”>、<(a,B),“我”>、<(A,b),“我”>、<(A,B),“我”>、<(a,b),“爱”>、<(a,b),“我爱”>。通过本步骤S33可得:字幕文件对作为key,相同或相似Nn-gram和
Figure BDA0001991652470000161
的数量为value的键值对,即<(a,b),3>、<(a,B),1>、<(A,b),1>、<(A,B),1>。
在一具体应用场景中,第一语言文本为第一语言字幕文件中的字幕文本,第二语言文本为第二语言字幕文件中的字幕文本。相应的,本实施例提供的所述方法还可包括如下步骤:
204、获取所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名。
相应的,上述203“根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本”,可具体为:
203’、根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
其中,上述203’的具体实现可参见上述实施例中步骤103’的内容,此处不再赘述。
进一步的,本实施例提供的所述方法还可包括如下步骤:
205、获取所述至少一个第一语言文本对应的时间轴信息及所述至少一个第二语言文本对应的时间轴信息。
相应的,上述203’“根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本”,可具体为:
203”、根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息、所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息、所述至少一个第一语言文本对应的时间轴信息及所述至少一个第二语言文本对应的时间轴信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
其中,上述203”的具体实现可参见上述实施例中步骤103”的内容,此处不再赘述。
图3示出了本申请又一实施例提供的数据处理方法的流程示意图。如图3所示,所述数据处理方法包括:
301、对获取到的字幕文件进行预处理。
其中,字幕文件可从网络侧的不同站点(如字幕服务平台,即提供字幕的服务方)获取。预处理内容可包括:去除字幕文件的文本中的时间轴信息、对字幕文件的文本进行语言识别(为后续语言过滤作准备)、将字幕文件的文件名后缀去除、进行中文繁体到中文简体的转换等等。
302、根据字幕文件的服务方信息及语言需求,从获取到的字幕文件中过滤出具有同一服务方信息,且满足语言需求的第一语言字幕文件集合和第二语言字幕文件集合。
比如,语言需求为需中文和英文,则可基于上述步骤301对各字幕文件的文字识别结果,过滤出所有中文字幕文件组成第一语言字幕文件集合和所有英文字幕文件组成第二语言字幕文件集合。
303、通过mapreduce的mapper,并行地对第一语言字幕文件集合和第二语言字幕文件集合中的所有字幕文件进行分词处理。
其中,分词处理可包括分词过程和组词过程,其中,分词过程和组词过程可参见上述实施例中的相应内容,此处不再赘述。
304、通过MapReduce统计任一第一语言字幕文件与任一第二语言字幕文件具有相同或相似分组词的数量。
305、相同或相似分组词的数量满足预设条件的一对第一语言字幕文件与第二语言字幕文件,存在对应关系。
这里需要说明的是:上述有关上述各步骤的具体内容可参见上述各实施例,此处不再赘述。
另外,本实施例提供的所述方法,在确定两种语言字幕文件是否存在对应关系(即字幕文件)时,除基于字幕文件之间相同或相似分组词数量外,还可将两字幕文件的文件信息、两字幕文件的文本的时间轴信息等最为判定依据。
本实施例提供的技术方案,先对各字幕文件进行分词处理,然后将其中一种语言的字幕文件的分词结果(即组成个分组词的分词项)翻译为另一种语言,以便于后续统计;随后统计出两个字幕文件之间相同或相似分组词的数目;将相同或相似分组词的数目作为确定两种语言字幕文件是否存在对应关系的依据,较现有技术完全根据时间轴这类结构化的数据的方案,提高了准确度,且更为通用。
本申请实施例提供的所述方法的执行主体可以是数据处理装置,该装置可以是集成在终端上的一个具有嵌入式程序的硬件,也可以是安装在终端中的一个应用软件,还可以是嵌入在终端操作系统中的工具软件等,本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point ofSales,销售终端)、台式计算机、笔记本电脑、车载电脑等的客户端设备,还可以为服务端的单机服务器、布设在服务器群组上的虚拟服务器或云端设备等等。
另外,需要说明的是:上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。
图4示出了本申请一实施例提供的数据处理装置的结构示意图。如图4所示,所述数据处理装置包括:获取模块11、分词模块12及确定模块13。其中,获取模块11用于获取第一语言文本及第二语言文本;分词模块12用于分别对第一语言文本及第二语言文本进行分词处理;确定模块13用于根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
本实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于字幕文件的数据格式,通用性强。
进一步的,所述分词模块12还用于:
对所述第一语言文本进行分词,得到第一分词结果,所述第一分词结果包括按照在所述第一语言文本中的出现顺序排列的多个第一分词项;其中,所述第一分词项为字或词;
将所述第一分词结果中连续的N个第一分词项组为一个词组,得到记为Nn-gram的分组词;
对所述第二语言文本进行分词,得到第二分词结果,所述第二分词结果包括按照在所述第二语言文本中的出现顺序排列的多个第二分词项;其中,所述第二分词项为字或词;
使用第一语言,对所述第二分词结果中的各第二分词项进行翻译,得到多个翻译分词项;
将所述第二分词结果中连续的M个翻译分词项组为一个词组,得到记为Mm-gram的分组词;
其中,N、M取正整数;n、m用于区分不同分组词。
进一步的,所述确定模块13还用于:
统计Nn-gram与Mm-gram中相同或相似的数量;
根据统计结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
进一步的,所述确定模块13还用于:
所述Nn-gram与Mm-gram中相同或相似的数量大于阈值时,所述第一语言文本与所述第二语言文本存在对应关系。
进一步的,所述第一语言文本为第一语言字幕文件中的字幕文本,所述第二语言文本为第二语言字幕文件中的字幕文本;相应的,所述获取模块11还用于:
获取所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名;
相应的,所述确定模块13还用于:根据所述分词处理结果、所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
进一步的,所述获取模块11还用于:获取所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息;相应的,所述确定模块还用于:
根据所述分词处理结果、所述第一语言字幕文件的文件信息、所述第二语言字幕文件的文件信息、所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
这里需要说明的是:上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
本申请又一实施例提供的数据处理装置。本实施例提供的数据处理装置的组成模块与图4提供实施例类同,具体结构可参见上述图4所示。区别在于:本实施例中各模块的具体实现功能不同。具体的,本实施例提供的所述数据处理装置包括:获取模块、分词模块及确定模块。其中,所述获取模块用于获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本。所述分词模块用于分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理。所述确定模块用于根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
本实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于字幕文件的数据格式,通用性强。
进一步的,所述分词模块还用于:
通过MapReduce的mapper,并行地对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理。
进一步的,所述分词处理结果包括:各第一语言文本对应的处理结果,以及各第二语言文本对应的处理结果;处理结果包含至少一个分组词,分组词由文本中的一个或连续多个字或词构成。相应的,所述确定模块还用于:
根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本,包括:
根据分词处理结果,统计所述第一语言文本集合中任一第一语言文本与所述第二语言文本集合中任一第二语言文本,具有相同或相似分组词的数量;
相同或相似分组词的数量满足预设条件的一对第一语言文本与第二语言文本,存在对应关系。
进一步的,各第二语言文本对应的处理结果中包含的分组词均为翻译为第一语言的至少一个分词项构成;相应的,所述确定模块还用于:
比对各第一语言文本对应的处理结果与各第二语言文本对应的处理结果;
基于比对结果,统计任一第一语言文本与任一第二语言文本具有相同或相似分组词的数量。
进一步的,各第一语言文本对应的处理结果包括:<Nn-gram,Dx>键值对;其中,Nn-gram为分词处理后得到的分组词,N为构成分组词的字或词数量,为正整数;n用于区分不同分组词;Dx用于区分不同的第一语言文本;
各第二语言文本对应的处理结果包括:<Mm-gram,Dy>键值对;其中,Mm-gram为分词处理后得到的分组词,M为构成分组词的字或词数量,为正整数;m用于区分不同分组词,Dy用于区分不同的第二语言文本;
相应的,所述确定模块还用于:
基于比对结果,通过MapReduce的reducer,分别统计相同或相似Nn-gram和Mm-gram对应的文本集,得到第一结果;
基于所述第一结果,通过MapReduce的mapper并行地处理得到相同或相似Nn-gram和Mm-gram对应的文本对,得到第二结果;
基于所述第二结果,通过mapreduce的reducer统计每对文本对之间相同或相似Nn-gram和Mm-gram的数量。
进一步的,第一语言文本为第一语言字幕文件中的字幕文本,第二语言文本为第二语言字幕文件中的字幕文本;相应的,所述获取模块还用于:获取所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名。相应的,所述确定模块还用于:
根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
进一步的,所述获取模块还用于获取所述至少一个第一语言文本对应的时间轴信息及所述至少一个第二语言文本对应的时间轴信息;相应的,所述确定模块还用于:根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息、所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息、所述至少一个第一语言文本对应的时间轴信息及所述至少一个第二语言文本对应的时间轴信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
进一步的,本实施例提供的所述数据处理装置还包括:
所述获取模块,还用于从网络侧获取同一服务方提供的多个文本;
过滤模块,用于根据语言需求,从所述多个文件中过滤出所有第一语言文本得到所述第一语言文本集合,过滤出所有第二语言文本得到所述第二语言文本集合。
这里需要说明的是:上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图5示出了本申请一实施例提供的计算设备的结构示意图。如图5所示,所述计算设备包括:存储器21及处理器22。存储器21可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器21可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述处理器22,与所述存储器21耦合,用于执行所述存储器21中存储的所述程序,以用于:
获取第一语言文本及第二语言文本;
分别对第一语言文本及第二语言文本进行分词处理;
根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
本实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于字幕文件的数据格式,通用性强。
其中,处理器22在执行存储器21中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步的,如图5所示,计算设备还包括:显示器24、通信组件23、电源组件25、音频组件26等其它组件。图5中仅示意性给出部分组件,并不意味着计算设备只包括图5所示组件。
本申请一实施例还提供了一种计算设备。本实施例提供的所述计算设备的结构同上述计算设备实施例的结构类同,参见图5所示。该计算设备包括存储器及处理器。存储器可被配置为存储其它各种数据以支持在计算设备上的操作。所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本;
分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理;
根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
本实施例提供的技术方案,通过分别对两种语言的文本进行分词,然后根据分词处理结果来判定两种语言的文本是否存在对应关系;直接从文本中字或词的角度来判定,有助于提高不同语言文本的匹配准确度;另外,本申请实施例提供的技术方案,不受限于字幕文件的数据格式,通用性强。
其中,处理器在执行存储器中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的数据处理方法的步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取第一语言文本及第二语言文本;
分别对所述第一语言文本及所述第二语言文本进行分词处理;
根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系;
所述第一语言文本为第一语言字幕文件中的字幕文本,所述第二语言文本为第二语言字幕文件中的字幕文本时,所述方法还包括:
获取所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名;
所述根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系,包括:
根据所述分词处理结果、所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系;
其中,所述分别对所述第一语言文本及所述第二语言文本进行分词处理,包括:
对所述第一语言文本进行分词,得到第一分词结果,所述第一分词结果包括按照在所述第一语言文本中的出现顺序排列的多个第一分词项;其中,所述第一分词项为字或词;
将所述第一分词结果中连续的N个第一分词项组为一个词组,得到记为Nn-gram的分组词;
对所述第二语言文本进行分词,得到第二分词结果,所述第二分词结果包括按照在所述第二语言文本中的出现顺序排列的多个第二分词项;其中,所述第二分词项为字或词;
使用第一语言,对所述第二分词结果中的各第二分词项进行翻译,得到多个翻译分词项;
将所述第二分词结果中连续的M个翻译分词项组为一个词组,得到记为Mm-gram的分组词;其中,N、M取正整数;n、m用于区分不同分组词;
所述根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系,包括:
统计Nn-gram与Mm―gram中相同或相似的数量;
所述Nn-gram与Mm―gram中相同或相似的数量大于阈值时,所述第一语言文本与所述第二语言文本存在对应关系。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息;
以及,根据所述分词处理结果、所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系,包括:
根据所述分词处理结果、所述第一语言字幕文件的文件信息、所述第二语言字幕文件的文件信息、所述第一语言文本对应的时间轴信息及所述第二语言文本对应的时间轴信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系。
3.一种数据处理方法,其特征在于,包括:
获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本;
分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理;
根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本;
第一语言文本为第一语言字幕文件中的字幕文本,第二语言文本为第二语言字幕文件中的字幕文本时,所述方法还包括:
获取所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名;
以及根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本,包括:
根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本;
其中,所述分词处理结果包括:各第一语言文本对应的处理结果,以及各第二语言文本对应的处理结果;处理结果包含至少一个分组词,分组词由文本中的一个或连续多个字或词构成;各第二语言文本对应的处理结果中包含的分组词均为翻译为第一语言的至少一个分词项构成;
各第一语言文本对应的处理结果包括:<Nn-gram,Dx>键值对;其中,Nn-gram为处理后得到的分组词,N为构成分组词的字或词数量,为正整数;n用于区分不同分组词;Dx用于区分不同的第一语言文本;
各第二语言文本对应的处理结果包括:<Mm―gram,Dy>键值对;其中,Mm-gram为处理后得到的分组词,M为构成分组词的字或词数量,为正整数;m用于区分不同分组词,Dy用于区分不同的第二语言文本;
所述根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本,包括:
比对各第一语言文本对应的处理结果与各第二语言文本对应的处理结果;
基于比对结果,通过MapReduce的reducer,分别统计相同或相似Nn-gram和Mm―gram对应的文本集,得到第一结果;
基于所述第一结果,通过MapReduce的mapper并行地处理得到相同或相似Nn-gram和Mm―gram对应的文本对,得到第二结果;
基于所述第二结果,通过mapreduce的reducer统计每对文本对之间相同或相似Nn-gram和Mm―gram的数量;
相同或相似分组词的数量满足预设条件的一对第一语言文本与第二语言文本,存在对应关系。
4.根据权利要求3所述的方法,其特征在于,分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理,包括:
通过MapReduce的mapper,并行地对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理。
5.根据权利要求3所述的方法,其特征在于,还包括:
获取所述至少一个第一语言文本对应的时间轴信息及所述至少一个第二语言文本对应的时间轴信息;
以及根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本,包括:
根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息、所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息、所述至少一个第一语言文本对应的时间轴信息及所述至少一个第二语言文本对应的时间轴信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本。
6.根据权利要求3至5中任一项所述的方法,其特征在于,获取第一语言文本集合及第二语言文本集合,包括:
从网络侧获取同一服务方提供的多个文本;
根据语言需求,从所述多个文件中过滤出所有第一语言文本得到所述第一语言文本集合,过滤出所有第二语言文本得到所述第二语言文本集合。
7.一种计算设备,其特征在于,包括:存储器及处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取第一语言文本及第二语言文本;
分别对第一语言文本及第二语言文本进行分词处理;
根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系;
所述第一语言文本为第一语言字幕文件中的字幕文本,所述第二语言文本为第二语言字幕文件中的字幕文本时,所述方法还包括:
获取所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名;
所述根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系,包括:
根据所述分词处理结果、所述第一语言字幕文件的文件信息及所述第二语言字幕文件的文件信息,确定所述第一语言文本与所述第二语言文本是否存在对应关系;
其中,所述分别对所述第一语言文本及所述第二语言文本进行分词处理,包括:
对所述第一语言文本进行分词,得到第一分词结果,所述第一分词结果包括按照在所述第一语言文本中的出现顺序排列的多个第一分词项;其中,所述第一分词项为字或词;
将所述第一分词结果中连续的N个第一分词项组为一个词组,得到记为Nn-gram的分组词;
对所述第二语言文本进行分词,得到第二分词结果,所述第二分词结果包括按照在所述第二语言文本中的出现顺序排列的多个第二分词项;其中,所述第二分词项为字或词;
使用第一语言,对所述第二分词结果中的各第二分词项进行翻译,得到多个翻译分词项;
将所述第二分词结果中连续的M个翻译分词项组为一个词组,得到记为Mm-gram的分组词;其中,N、M取正整数;n、m用于区分不同分组词;
所述根据分词处理结果,确定所述第一语言文本与所述第二语言文本是否存在对应关系,包括:
统计Nn-gram与Mm―gram中相同或相似的数量;
所述Nn-gram与Mm―gram中相同或相似的数量大于阈值时,所述第一语言文本与所述第二语言文本存在对应关系。
8.一种计算设备,其特征在于,包括:存储器及处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取第一语言文本集合及第二语言文本集合;其中,所述第一语言文本集合中有至少一个第一语言文本,所述第二语言文本集合中有至少一个第二语言文本;
分别对所述至少一个第一语言文本及所述至少一个第二语言文本进行分词处理;
根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本;
第一语言文本为第一语言字幕文件中的字幕文本,第二语言文本为第二语言字幕文件中的字幕文本时,所述方法还包括:
获取所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息;其中,所述文件信息包括如下至少一种:媒体标识、文件名、影视名;
以及根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本,包括:
根据分词处理结果、所述至少一个第一语言文本各自对应的第一语言字幕文件的文件信息及所述至少一个第二语言文本各自对应的第二语言字幕文件的文件信息,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本;
其中,所述分词处理结果包括:各第一语言文本对应的处理结果,以及各第二语言文本对应的处理结果;处理结果包含至少一个分组词,分组词由文本中的一个或连续多个字或词构成;各第二语言文本对应的处理结果中包含的分组词均为翻译为第一语言的至少一个分词项构成;
各第一语言文本对应的处理结果包括:<Nn-gram,Dx>键值对;其中,Nn-gram为处理后得到的分组词,N为构成分组词的字或词数量,为正整数;n用于区分不同分组词;Dx用于区分不同的第一语言文本;
各第二语言文本对应的处理结果包括:<Mm―gram,Dy>键值对;其中,Mm-gram为处理后得到的分组词,M为构成分组词的字或词数量,为正整数;m用于区分不同分组词,Dy用于区分不同的第二语言文本;
所述根据分词处理结果,在所述第一语言文本集合和所述第二语言文本集合中确定出至少一对存在对应关系的第一语言文本和第二语言文本,包括:
比对各第一语言文本对应的处理结果与各第二语言文本对应的处理结果;
基于比对结果,通过MapReduce的reducer,分别统计相同或相似Nn-gram和Mm―gram对应的文本集,得到第一结果;
基于所述第一结果,通过MapReduce的mapper并行地处理得到相同或相似Nn-gram和Mm―gram对应的文本对,得到第二结果;
基于所述第二结果,通过mapreduce的reducer统计每对文本对之间相同或相似Nn-gram和Mm―gram的数量;
相同或相似分组词的数量满足预设条件的一对第一语言文本与第二语言文本,存在对应关系。
CN201910182178.5A 2019-03-11 2019-03-11 数据处理方法及计算设备 Active CN111680119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910182178.5A CN111680119B (zh) 2019-03-11 2019-03-11 数据处理方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910182178.5A CN111680119B (zh) 2019-03-11 2019-03-11 数据处理方法及计算设备

Publications (2)

Publication Number Publication Date
CN111680119A CN111680119A (zh) 2020-09-18
CN111680119B true CN111680119B (zh) 2023-04-18

Family

ID=72433215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910182178.5A Active CN111680119B (zh) 2019-03-11 2019-03-11 数据处理方法及计算设备

Country Status (1)

Country Link
CN (1) CN111680119B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN107491440A (zh) * 2017-09-19 2017-12-19 马上消费金融股份有限公司 自然语言分词构造方法及系统、自然语言分类方法及系统
CN109101498A (zh) * 2018-07-23 2018-12-28 Oppo广东移动通信有限公司 翻译方法、装置及移动终端
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6404511B2 (ja) * 2017-03-09 2018-10-10 楽天株式会社 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN107491440A (zh) * 2017-09-19 2017-12-19 马上消费金融股份有限公司 自然语言分词构造方法及系统、自然语言分类方法及系统
CN109101498A (zh) * 2018-07-23 2018-12-28 Oppo广东移动通信有限公司 翻译方法、装置及移动终端
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Also Published As

Publication number Publication date
CN111680119A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
EP4141733A1 (en) Model training method and apparatus, electronic device, and storage medium
US20120047172A1 (en) Parallel document mining
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
WO2018205389A1 (zh) 语音识别方法、系统、电子装置及介质
US9495347B2 (en) Systems and methods for extracting table information from documents
US9152622B2 (en) Personalized machine translation via online adaptation
US11521603B2 (en) Automatically generating conference minutes
CN107491477B (zh) 一种表情符号搜索方法及装置
US20190171713A1 (en) Semantic parsing method and apparatus
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
WO2023024975A1 (zh) 文本处理方法、装置和电子设备
US20140195532A1 (en) Collecting digital assets to form a searchable repository
US11151180B2 (en) Messaging digest
CN115982376A (zh) 基于文本、多模数据和知识训练模型的方法和装置
KR101565367B1 (ko) 숫자정규화를 이용한 문서 표절률 산출 방법
US9720896B1 (en) Synthesizing union tables from the web
CN111680119B (zh) 数据处理方法及计算设备
CN114281979A (zh) 生成文本摘要的文本处理方法、装置、设备以及存储介质
CN111783433A (zh) 一种文本检索纠错方法和装置
CN115146634A (zh) 应急预案转化待办流程图的处理方法及相关装置
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
Yamamoto et al. What we need is word, not morpheme; constructing word analyzer for Japanese
US11720531B2 (en) Automatic creation of database objects
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
US20220391602A1 (en) Method of federated learning, electronic device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant