CN111221965A - 基于公共标识语双语语料的分类抽样检测方法 - Google Patents

基于公共标识语双语语料的分类抽样检测方法 Download PDF

Info

Publication number
CN111221965A
CN111221965A CN201911388729.XA CN201911388729A CN111221965A CN 111221965 A CN111221965 A CN 111221965A CN 201911388729 A CN201911388729 A CN 201911388729A CN 111221965 A CN111221965 A CN 111221965A
Authority
CN
China
Prior art keywords
public
translation
logo
bilingual
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911388729.XA
Other languages
English (en)
Inventor
李伟彬
张洁
段成
陈压美
熊晖
孟嵊
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Chengdu Univeristy of Technology
Original Assignee
Chengdu University of Information Technology
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology, Chengdu Univeristy of Technology filed Critical Chengdu University of Information Technology
Priority to CN201911388729.XA priority Critical patent/CN111221965A/zh
Publication of CN111221965A publication Critical patent/CN111221965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于公共标识语双语语料的分类抽样检测方法,包括(S1)分类存储公共标识语双语平行语料信息;(S2)指定一公共标识语类型,随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;(S3)提取对应的公共标识语的双语平行语料信息进行翻译检测,若结果达标,则指定另一公共标识语类型检测,若结果未达标,则(S4)对该类型的所有公共标识语重新进行翻译,并指定另一公共标识语类型检测。本发明采用分类提取关键词的方式随机逐次检测公共标识语双语平行语料库中翻译内容的准确度,通过人工复检的形式辅助机器翻译提高公共标识语平行语料信息的翻译准确性,提高了语料库内存储语料资源的可靠性和质量。

Description

基于公共标识语双语语料的分类抽样检测方法
技术领域
本发明涉及一种基于公共标识语双语语料的分类抽样检测方法。
背景技术
公共标识语也被称为公示语,主要是在城市中为公众或游客的出行方便而提供的指示性语音,包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等,其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展,尤其是旅游业的发展,很多城市都吸引了大量的外国友人,因此公共标识语的翻译显得尤为重要,其不仅是城市语言环境和人文环境的代表,而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象,反之,错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区,因此保证公共标识语翻译的准确很有必要。
随着科学技术发展,采用机器辅助翻译能够帮助翻译者更快更好地完成翻译任务,提高翻译效率。但是在目前机器翻译的智能化较低,大多还是逐词进行翻译,缺乏对整句话的语境考虑,翻译结果常显生硬,而且常常出现词不达意的情况,尤其是在公共标识语领域,出现机翻错误的情况多有发生,因此仍需工人翻译进行辅助校正,以提高翻译结果的准确度。
发明内容
针对上述技术问题,本发明提供一种基于公共标识语双语语料的分类抽样检测方法,以提高了语料机器翻译的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种基于公共标识语双语语料的分类抽样检测方法,包括以下步骤:
(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息;
(S2)指定一公共标识语类型,从该类型的公共标识语的关键词库中随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;
(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测,若翻译检测结果达标,则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行,若翻译检测结果未达标,则执行下一步;
(S4)对该类型的所有公共标识语重新进行翻译,并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。
具体地,所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别,以及对应公共标识语双语平行语料信息的次要分类的二级类别,所述指定的公共标识语类型选自二级类别。
具体地,所述步骤(S3)中,当所述列表中的双语平行语料信息的条数少于5条时,提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测;
当所述列表中的双语平行语料信息的条数不少于5条时,提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测,其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。
具体地,所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90%。
具体地,所述翻译检测包括:
(S3-1)提取一条公共标识语的双语平行语料信息,并分离其中文部分和外文部分;
(S3-2)对该分离的中文部分进行标准人工翻译,获得与分离的外文部分同语种的翻译标准对照;
(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比,若二者近似度低于90%,则该条公共标识语的双语平行语料信息的翻译检测结果不达标,反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测,直至所有指定位置的双语平行语料信息均进行过翻译检测。
具体地,所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为:
采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译,完成后再对其采用人工翻译校正。
与现有技术相比,本发明具有以下有益效果:
本发明采用分类提取关键词的方式随机逐次检测公共标识语双语平行语料库中翻译内容的准确度,通过人工复检的形式辅助机器翻译提高公共标识语平行语料信息的翻译准确性,提高了语料库内存储语料资源的可靠性和质量,并可根据基本语料信息的发展及时更新语料库的内容,顺应社会节奏发展,适合在公共标识语领域的广泛应用。
附图说明
图1为本发明的流程示意图。
图2为本发明中翻译检测的流程示意图。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
实施例
如图1至图2所示,该基于公共标识语双语语料的分类抽样检测方法,包括以下步骤:
(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息;
(S2)指定一公共标识语类型,从该类型的公共标识语的关键词库中随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;具体地,所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别,以及对应公共标识语双语平行语料信息的次要分类的二级类别,所述指定的公共标识语类型选自二级类别。
(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测,若翻译检测结果达标,则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行,若翻译检测结果未达标,则执行下一步;
(S4)对该类型的所有公共标识语重新进行翻译,并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。
具体地,所述步骤(S3)中,当所述列表中的双语平行语料信息的条数少于5条时,提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测;
当所述列表中的双语平行语料信息的条数不少于5条时,提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测,其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。
具体地,所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90%。
具体地,所述翻译检测包括:
(S3-1)提取一条公共标识语的双语平行语料信息,并分离其中文部分和外文部分;
(S3-2)对该分离的中文部分进行标准人工翻译,获得与分离的外文部分同语种的翻译标准对照;
(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比,若二者近似度低于90%,则该条公共标识语的双语平行语料信息的翻译检测结果不达标,反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测,直至所有指定位置的双语平行语料信息均进行过翻译检测。
具体地,所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为:
采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译,完成后再对其采用人工翻译校正。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。

Claims (6)

1.一种基于公共标识语双语语料的分类抽样检测方法,其特征在于,包括以下步骤:
(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息;
(S2)指定一公共标识语类型,从该类型的公共标识语的关键词库中随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;
(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测,若翻译检测结果达标,则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行,若翻译检测结果未达标,则执行下一步;
(S4)对该类型的所有公共标识语重新进行翻译,并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。
2.根据权利要求1所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别,以及对应公共标识语双语平行语料信息的次要分类的二级类别,所述指定的公共标识语类型选自二级类别。
3.根据权利要求2所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述步骤(S3)中,当所述列表中的双语平行语料信息的条数少于5条时,提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测;
当所述列表中的双语平行语料信息的条数不少于5条时,提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测,其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。
4.根据权利要求3所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90%。
5.根据权利要求4所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述翻译检测包括:
(S3-1)提取一条公共标识语的双语平行语料信息,并分离其中文部分和外文部分;
(S3-2)对该分离的中文部分进行标准人工翻译,获得与分离的外文部分同语种的翻译标准对照;
(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比,若二者近似度低于90%,则该条公共标识语的双语平行语料信息的翻译检测结果不达标,反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测,直至所有指定位置的双语平行语料信息均进行过翻译检测。
6.根据权利要求5所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为:
采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译,完成后再对其采用人工翻译校正。
CN201911388729.XA 2019-12-30 2019-12-30 基于公共标识语双语语料的分类抽样检测方法 Pending CN111221965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911388729.XA CN111221965A (zh) 2019-12-30 2019-12-30 基于公共标识语双语语料的分类抽样检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911388729.XA CN111221965A (zh) 2019-12-30 2019-12-30 基于公共标识语双语语料的分类抽样检测方法

Publications (1)

Publication Number Publication Date
CN111221965A true CN111221965A (zh) 2020-06-02

Family

ID=70827954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911388729.XA Pending CN111221965A (zh) 2019-12-30 2019-12-30 基于公共标识语双语语料的分类抽样检测方法

Country Status (1)

Country Link
CN (1) CN111221965A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201820A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种双语语料库过滤方法及系统
CN101957815A (zh) * 2009-07-13 2011-01-26 白劲实 基于正确翻译结果与对应关系的自动翻译方法与系统
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN110046261A (zh) * 2019-04-22 2019-07-23 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201820A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种双语语料库过滤方法及系统
CN101957815A (zh) * 2009-07-13 2011-01-26 白劲实 基于正确翻译结果与对应关系的自动翻译方法与系统
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108153895A (zh) * 2018-01-06 2018-06-12 国网福建省电力有限公司 一种基于开放数据的语料库构建方法和系统
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN110046261A (zh) * 2019-04-22 2019-07-23 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王传英: "基于双语平行语料库的信息服务平台建设", 《图书馆工作与研究》, no. 12 *
罗磊: "《医学英汉互译技巧与实践》", 人民军医出版社, pages: 246 *

Similar Documents

Publication Publication Date Title
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN103324609B (zh) 文本校对装置和文本校对方法
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
CN106383818A (zh) 一种机器翻译方法及装置
CN103077164B (zh) 文本分析方法及文本分析器
Huang et al. Mining key phrase translations from web corpora
Kaji et al. Automatic construction of polarity-tagged corpus from html documents
Honnet et al. Machine translation of low-resource spoken dialects: Strategies for normalizing Swiss German
Zhang et al. A fast, compact, accurate model for language identification of codemixed text
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
CN104503998A (zh) 针对用户查询句的类型识别方法及装置
CN113158653A (zh) 预训练语言模型的训练方法、应用方法、装置及设备
RU2010107150A (ru) Идентификация семантических отношений в косвенной речи
Sitaram et al. Experiments with Cross-lingual Systems for Synthesis of Code-Mixed Text.
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN109871546A (zh) 一种专利文件翻译系统
Rayson et al. Automatic error tagging of spelling mistakes in learner corpora
CN111221965A (zh) 基于公共标识语双语语料的分类抽样检测方法
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
Barbaresi Language-classified Open Subtitles (LACLOS): download, extraction, and quality assessment
Belz et al. Extracting parallel fragments from comparable corpora for data-to-text generation
CN111209461A (zh) 基于公共标识语的双语语料采集系统
KR101686114B1 (ko) 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602