CN111221965A - 基于公共标识语双语语料的分类抽样检测方法 - Google Patents
基于公共标识语双语语料的分类抽样检测方法 Download PDFInfo
- Publication number
- CN111221965A CN111221965A CN201911388729.XA CN201911388729A CN111221965A CN 111221965 A CN111221965 A CN 111221965A CN 201911388729 A CN201911388729 A CN 201911388729A CN 111221965 A CN111221965 A CN 111221965A
- Authority
- CN
- China
- Prior art keywords
- public
- translation
- logo
- bilingual
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000005070 sampling Methods 0.000 title claims abstract description 8
- 238000013519 translation Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract 1
- 238000013102 re-test Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 6
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于公共标识语双语语料的分类抽样检测方法,包括(S1)分类存储公共标识语双语平行语料信息;(S2)指定一公共标识语类型,随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;(S3)提取对应的公共标识语的双语平行语料信息进行翻译检测,若结果达标,则指定另一公共标识语类型检测,若结果未达标,则(S4)对该类型的所有公共标识语重新进行翻译,并指定另一公共标识语类型检测。本发明采用分类提取关键词的方式随机逐次检测公共标识语双语平行语料库中翻译内容的准确度,通过人工复检的形式辅助机器翻译提高公共标识语平行语料信息的翻译准确性,提高了语料库内存储语料资源的可靠性和质量。
Description
技术领域
本发明涉及一种基于公共标识语双语语料的分类抽样检测方法。
背景技术
公共标识语也被称为公示语,主要是在城市中为公众或游客的出行方便而提供的指示性语音,包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等,其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展,尤其是旅游业的发展,很多城市都吸引了大量的外国友人,因此公共标识语的翻译显得尤为重要,其不仅是城市语言环境和人文环境的代表,而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象,反之,错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区,因此保证公共标识语翻译的准确很有必要。
随着科学技术发展,采用机器辅助翻译能够帮助翻译者更快更好地完成翻译任务,提高翻译效率。但是在目前机器翻译的智能化较低,大多还是逐词进行翻译,缺乏对整句话的语境考虑,翻译结果常显生硬,而且常常出现词不达意的情况,尤其是在公共标识语领域,出现机翻错误的情况多有发生,因此仍需工人翻译进行辅助校正,以提高翻译结果的准确度。
发明内容
针对上述技术问题,本发明提供一种基于公共标识语双语语料的分类抽样检测方法,以提高了语料机器翻译的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种基于公共标识语双语语料的分类抽样检测方法,包括以下步骤:
(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息;
(S2)指定一公共标识语类型,从该类型的公共标识语的关键词库中随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;
(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测,若翻译检测结果达标,则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行,若翻译检测结果未达标,则执行下一步;
(S4)对该类型的所有公共标识语重新进行翻译,并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。
具体地,所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别,以及对应公共标识语双语平行语料信息的次要分类的二级类别,所述指定的公共标识语类型选自二级类别。
具体地,所述步骤(S3)中,当所述列表中的双语平行语料信息的条数少于5条时,提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测;
当所述列表中的双语平行语料信息的条数不少于5条时,提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测,其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。
具体地,所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90%。
具体地,所述翻译检测包括:
(S3-1)提取一条公共标识语的双语平行语料信息,并分离其中文部分和外文部分;
(S3-2)对该分离的中文部分进行标准人工翻译,获得与分离的外文部分同语种的翻译标准对照;
(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比,若二者近似度低于90%,则该条公共标识语的双语平行语料信息的翻译检测结果不达标,反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测,直至所有指定位置的双语平行语料信息均进行过翻译检测。
具体地,所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为:
采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译,完成后再对其采用人工翻译校正。
与现有技术相比,本发明具有以下有益效果:
本发明采用分类提取关键词的方式随机逐次检测公共标识语双语平行语料库中翻译内容的准确度,通过人工复检的形式辅助机器翻译提高公共标识语平行语料信息的翻译准确性,提高了语料库内存储语料资源的可靠性和质量,并可根据基本语料信息的发展及时更新语料库的内容,顺应社会节奏发展,适合在公共标识语领域的广泛应用。
附图说明
图1为本发明的流程示意图。
图2为本发明中翻译检测的流程示意图。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
实施例
如图1至图2所示,该基于公共标识语双语语料的分类抽样检测方法,包括以下步骤:
(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息;
(S2)指定一公共标识语类型,从该类型的公共标识语的关键词库中随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;具体地,所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别,以及对应公共标识语双语平行语料信息的次要分类的二级类别,所述指定的公共标识语类型选自二级类别。
(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测,若翻译检测结果达标,则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行,若翻译检测结果未达标,则执行下一步;
(S4)对该类型的所有公共标识语重新进行翻译,并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。
具体地,所述步骤(S3)中,当所述列表中的双语平行语料信息的条数少于5条时,提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测;
当所述列表中的双语平行语料信息的条数不少于5条时,提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测,其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。
具体地,所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90%。
具体地,所述翻译检测包括:
(S3-1)提取一条公共标识语的双语平行语料信息,并分离其中文部分和外文部分;
(S3-2)对该分离的中文部分进行标准人工翻译,获得与分离的外文部分同语种的翻译标准对照;
(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比,若二者近似度低于90%,则该条公共标识语的双语平行语料信息的翻译检测结果不达标,反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测,直至所有指定位置的双语平行语料信息均进行过翻译检测。
具体地,所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为:
采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译,完成后再对其采用人工翻译校正。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。
Claims (6)
1.一种基于公共标识语双语语料的分类抽样检测方法,其特征在于,包括以下步骤:
(S1)在公共标识语语料库中按照公共标识语类型分类存储公共标识语双语平行语料信息;
(S2)指定一公共标识语类型,从该类型的公共标识语的关键词库中随机选取一关键词进行搜索,获得涉及该关键词的该类型公共标识语的列表;
(S3)从该列表内的指定位置提取对应的公共标识语的双语平行语料信息进行翻译检测,若翻译检测结果达标,则跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行,若翻译检测结果未达标,则执行下一步;
(S4)对该类型的所有公共标识语重新进行翻译,并跳转至步骤(S2)并指定另一未检测过的公共标识语类型执行。
2.根据权利要求1所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述公共标识语类型至少包括对应公共标识语双语平行语料信息的主要分类的一级类别,以及对应公共标识语双语平行语料信息的次要分类的二级类别,所述指定的公共标识语类型选自二级类别。
3.根据权利要求2所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述步骤(S3)中,当所述列表中的双语平行语料信息的条数少于5条时,提取该列表内所有的公共标识语的双语平行语料信息进行翻译检测;
当所述列表中的双语平行语料信息的条数不少于5条时,提取该列表内指定位置的3条公共标识语的双语平行语料信息进行翻译检测,其中该指定位置的3条为列表的首尾位置各一条以及除首尾位置外的中间位置中的任一条。
4.根据权利要求3所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述翻译检测结果达标为进行翻译检测的所有公共标识语的双语平行语料信息与其对应的标准人工翻译结果对比的近似度均不低于90%。
5.根据权利要求4所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述翻译检测包括:
(S3-1)提取一条公共标识语的双语平行语料信息,并分离其中文部分和外文部分;
(S3-2)对该分离的中文部分进行标准人工翻译,获得与分离的外文部分同语种的翻译标准对照;
(S3-3)将该翻译标准对照和分离的外文部分进行近似度对比,若二者近似度低于90%,则该条公共标识语的双语平行语料信息的翻译检测结果不达标,反之跳转至步骤(S3-1)提取另一条未检测过的公共标识语的双语平行语料信息执行翻译检测,直至所有指定位置的双语平行语料信息均进行过翻译检测。
6.根据权利要求5所述的基于公共标识语双语语料的分类抽样检测方法,其特征在于,所述步骤(S4)中对该类型的所有公共标识语重新进行翻译为:
采用最新的翻译词库对该类型的所有公共标识语逐条进行机器翻译,完成后再对其采用人工翻译校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388729.XA CN111221965A (zh) | 2019-12-30 | 2019-12-30 | 基于公共标识语双语语料的分类抽样检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388729.XA CN111221965A (zh) | 2019-12-30 | 2019-12-30 | 基于公共标识语双语语料的分类抽样检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111221965A true CN111221965A (zh) | 2020-06-02 |
Family
ID=70827954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911388729.XA Pending CN111221965A (zh) | 2019-12-30 | 2019-12-30 | 基于公共标识语双语语料的分类抽样检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221965A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201820A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种双语语料库过滤方法及系统 |
CN101957815A (zh) * | 2009-07-13 | 2011-01-26 | 白劲实 | 基于正确翻译结果与对应关系的自动翻译方法与系统 |
CN104408078A (zh) * | 2014-11-07 | 2015-03-11 | 北京第二外国语学院 | 一种基于关键词的中英双语平行语料库构建方法 |
CN104933038A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 机器翻译方法和机器翻译装置 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107977454A (zh) * | 2017-12-15 | 2018-05-01 | 传神语联网网络科技股份有限公司 | 双语语料清洗的方法、装置及计算机可读存储介质 |
CN108153895A (zh) * | 2018-01-06 | 2018-06-12 | 国网福建省电力有限公司 | 一种基于开放数据的语料库构建方法和系统 |
CN108874790A (zh) * | 2018-06-29 | 2018-11-23 | 中译语通科技股份有限公司 | 一种基于语言模型和翻译模型的清洗平行语料方法及系统 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
-
2019
- 2019-12-30 CN CN201911388729.XA patent/CN111221965A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201820A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种双语语料库过滤方法及系统 |
CN101957815A (zh) * | 2009-07-13 | 2011-01-26 | 白劲实 | 基于正确翻译结果与对应关系的自动翻译方法与系统 |
CN104933038A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 机器翻译方法和机器翻译装置 |
CN104408078A (zh) * | 2014-11-07 | 2015-03-11 | 北京第二外国语学院 | 一种基于关键词的中英双语平行语料库构建方法 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107977454A (zh) * | 2017-12-15 | 2018-05-01 | 传神语联网网络科技股份有限公司 | 双语语料清洗的方法、装置及计算机可读存储介质 |
CN108153895A (zh) * | 2018-01-06 | 2018-06-12 | 国网福建省电力有限公司 | 一种基于开放数据的语料库构建方法和系统 |
CN108874790A (zh) * | 2018-06-29 | 2018-11-23 | 中译语通科技股份有限公司 | 一种基于语言模型和翻译模型的清洗平行语料方法及系统 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
Non-Patent Citations (2)
Title |
---|
王传英: "基于双语平行语料库的信息服务平台建设", 《图书馆工作与研究》, no. 12 * |
罗磊: "《医学英汉互译技巧与实践》", 人民军医出版社, pages: 246 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN103324609B (zh) | 文本校对装置和文本校对方法 | |
KR100961717B1 (ko) | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 | |
CN106383818A (zh) | 一种机器翻译方法及装置 | |
CN103077164B (zh) | 文本分析方法及文本分析器 | |
Huang et al. | Mining key phrase translations from web corpora | |
Kaji et al. | Automatic construction of polarity-tagged corpus from html documents | |
Honnet et al. | Machine translation of low-resource spoken dialects: Strategies for normalizing Swiss German | |
Zhang et al. | A fast, compact, accurate model for language identification of codemixed text | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN104503998A (zh) | 针对用户查询句的类型识别方法及装置 | |
CN113158653A (zh) | 预训练语言模型的训练方法、应用方法、装置及设备 | |
RU2010107150A (ru) | Идентификация семантических отношений в косвенной речи | |
Sitaram et al. | Experiments with Cross-lingual Systems for Synthesis of Code-Mixed Text. | |
CN102779135A (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
CN109871546A (zh) | 一种专利文件翻译系统 | |
Rayson et al. | Automatic error tagging of spelling mistakes in learner corpora | |
CN111221965A (zh) | 基于公共标识语双语语料的分类抽样检测方法 | |
CN110232160B (zh) | 兴趣点变迁事件检测方法、装置及存储介质 | |
Barbaresi | Language-classified Open Subtitles (LACLOS): download, extraction, and quality assessment | |
Belz et al. | Extracting parallel fragments from comparable corpora for data-to-text generation | |
CN111209461A (zh) | 基于公共标识语的双语语料采集系统 | |
KR101686114B1 (ko) | 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |