CN108763223A - 汉英蒙藏维多语平行语料库构建的方法 - Google Patents

汉英蒙藏维多语平行语料库构建的方法 Download PDF

Info

Publication number
CN108763223A
CN108763223A CN201810479768.XA CN201810479768A CN108763223A CN 108763223 A CN108763223 A CN 108763223A CN 201810479768 A CN201810479768 A CN 201810479768A CN 108763223 A CN108763223 A CN 108763223A
Authority
CN
China
Prior art keywords
chinese
commodity
comment
information
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810479768.XA
Other languages
English (en)
Other versions
CN108763223B (zh
Inventor
张俊星
贺建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN201810479768.XA priority Critical patent/CN108763223B/zh
Publication of CN108763223A publication Critical patent/CN108763223A/zh
Application granted granted Critical
Publication of CN108763223B publication Critical patent/CN108763223B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本分案申请公开了一种汉英蒙藏维多语平行语料库构建的方法,属于电商信息翻译领域,用于解决完成多语平行语料库的构建的问题,技术要点是通过各中文电子商务平台获取待翻译的中文商品信息,利用双语词典对部分商品信息进行翻译;且将网页标签序列的相似性以及最大匹配计算数字序列的相似性作为特征信息,利用支持向量机提取候选平行网页,再对网页进行语句切分、对齐、整理的操作,获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,完成多语平行语料库的构建,效果是完成了多语平行语料库的构建。

Description

汉英蒙藏维多语平行语料库构建的方法
本申请为申请号201610489374.3、申请日2016-06-28、发明名称“面向跨 境电子商务平台的汉英蒙藏维多语机器翻译系统及方法”的分案申请。
技术领域
本发明属于电商信息翻译领域,涉及一种面向跨境电子商务平台的汉英蒙藏 维多语机器翻译系统及方法。
背景技术
现如今,全球的经济发展已经进入了网络经济时代,互联网已经布满全球, 并开始对世界各个国家和全球的经济变革带来巨大的影响。也正是伴随着这种经 济的发展,电子商务也正在逐渐改变着经济发展方式和商品流通方式,世界各个 国家之间、国家和企业之间、企业和企业之间、企业与个人之间、个人与个人之 间的经济来往,商品流通等都在逐渐的改变原有的交往方式,更多的开始通过电 子商务方式进行。随着近年来人民币持续升值、原材料价格上涨和人力成本不断 提高,我国的外贸导向型企业受到了强烈冲击,使得我国传统外贸发展速度严重 放缓,但是跨境电子商务却保持了快速增长的态势。商务部数据显示,2011年 我国跨境电子商务交易额为1.6万亿元,同比增长33%;2012年,我国跨境电 子商务交易额达到2万亿元,同比增长25%,同期我国外贸增速仅为6.2%。2014 年上海自贸区挂牌后,许多电商巨头看到了海淘的巨大机遇,纷纷发力跨境电商, 目前多家上市公司已开始布局跨境电商市场。据不完全统计,目前我国境内通过 各类平台开展跨境电子商务业务的外贸企业已超过20万家。跨境电子商务具有 巨大的发展潜力,将成为我国外贸的重要增长点。随着跨境电子商务的发展,电 子商务翻译的需求也越来越大,但电子商务翻译的研究现状极其滞后于翻译产业 的需求。特别是涉及蒙藏维等我国少数民族语言的电子商务翻译系统,目前还几 乎没有。因此,本发明建立面向跨境电子商务平台的汉英蒙藏维多语机器翻译系 统具有重要的应用价值。而开展跨境电商业务,将企业的商品推销给不同母语的 客户,需要解决的一个关键问题就是要将产品的信息翻译成用户的母语,用户在 母语版本的电商平台上浏览、挑选、购买商品。
发明内容
本发明要解决的问题在于,为了少数民族企业更好的开展跨境电商业务,建 立一种面向跨境电子商务平台的汉英蒙藏维多语言机器翻译系统,企业或者销售 商只需在其母语环境下输入商品的信息,翻译系统将自动将这些商品信息翻译成 其他语言供目标客户浏览购买,而客户只需在自己的母语环境下下单购买商品即 可,翻译系统会自动将他的购买信息进行翻译并反馈给销售商。
为了解决上述问题,本发明提供的技术方案要点在于:一种面向跨境电子商 务平台的汉英蒙藏维多语机器翻译系统,包括用于翻译商品属性信息的属性信息 多语机器翻译子系统、用于翻译商品的评论信息的评论信息多语机器翻译子系 统、用于翻译商品的交易信息的交易信息多语机器翻译子系统,且各子系统翻译 时,于汉英蒙藏维多语平行语料库中检索并进行相应翻译,所述汉英蒙藏维多语 平行语料库基于电子词典和双语网页来构建。
有益效果:本发明使得企业或者销售商只需在其母语环境下输入商品的信 息,翻译系统自动将这些商品信息翻译成其他语言供目标客户浏览购买,而客户 只需在自己的母语环境下下单购买商品即可,翻译系统会自动将他的购买信息进 行翻译并反馈给销售商,而使用汉英蒙藏维多语平行语料库,且该库基于电子词 典和双语网页来构建,可以增加翻译的准确性。
附图说明
图1示出汉英蒙藏维多语机器翻译系统的整体构成及所采用的方法;
图2示属性信息的汉英蒙藏维多语机器翻译子系统的翻译流程;
图3示评论信息的汉英蒙藏维多语机器翻译子系统的翻译流程;
图4示交易信息的汉英蒙藏维多语机器翻译子系统的翻译流程;
图5示商品信息的汉英蒙藏维多语平行语料库的构建流程;
图6示商品评论要素抽取方法的流程图。
具体实施方式
实施例1:电子商务的交易流程主要包括商品选购、支付结算和物流配送三 个步骤。一个客户能否选购一件商品主要是依赖于商品的属性信息是否是客户所 需要的以及其他客户对该商品的评价如何,因此,对商品的属性信息和评价信息 进行准确的翻译对于跨境电子商务平台至关重要,此外,当一个销售商准确知道 了客户的所购买的商品信息以及发货地址等交易信息后,才能保证将客户所购买 的商品安全的配送到客户手里,因此,交易信息的准确翻译也至关重要,而商品 的属性信息、评价信息和交易信息这三种信息在翻译的难度上和方法上都是不同 的,因此为解决以上问题,如图1所示,本实施例建立了一种跨境电子商务平台 多语翻译系统,其主要包括属性信息多语机器翻译系统、评论信息多语机器翻译 系统和交易信息多语机器翻译系统三个子系统,共涉及到一个多语平行语料库和 三种机器翻译方法,即商品信息的汉英蒙藏维多语平行语料库、基于规则的未登 录词多语机器翻译方法、基于音译的未登录词机器翻译方法和商品评论的多语言 摘要生成方法。
对于商品的属性信息翻译子系统。由于电子商务平台上的商品的属性信息通 常是商品的名称、产地、规格等命名实体,很少包含有复杂的语义信息,因此属 性信息的翻译难度要比普通文本的翻译难度略小,而且方法上也不尽相同,本质 上是对命名实体的多语言翻译,因此,如图2,属性信息的汉英蒙藏维多语机器 翻译子系统的翻译流程为,先读取商品的每一条属性名或者属性值,在商品信息 的汉英蒙藏维多语平行语料库中检索看是否存在,如果存在则直接根据平行语料 库给出该属性名或属性值的多语言翻译结果,如果不存在,则说明是未登录词, 利用某种分词方法将其拆分成更小的平行语料库中存在的命名实体,然后利用基 于规则的机器翻译方法将其翻译成各种语言,如果该属性名或者属性值不能拆分 成已经存在的小的命名实体,则采用基于音译的机器翻译方法直接将其翻译成其 他语言。
对于商品的评论信息翻译子系统。商品的评论信息一方面是决定客户能否购 买该商品的一个重要因素,另一方面也为厂商制定商品研发策略和改进方向提供 了重要依据,由于电子商务平台一般对用户对商品的评论在内容上没有要求,因 此用户有可能就他们关注的某一商品属性或使用感受做出针对性的评论,也有可 能发表一些与商品不相关的内容,而无论是新客户还是厂商他们关心的其实往往 是人们对商品属性的感受和评价,因此在对商品的评论信息进行翻译时,我们只 需对评论信息中的商品属性和与该属性对应的评价词、用户的情感等评论要素进 行翻译即可,没有必要逐句进行翻译,这一方面可以降低翻译的难度,另一方面 可以帮助客户与厂商一目了然的看到他们所需要的评价信息。按照以上思想,我 们将采用如图3所示的评论信息翻译流程,对于商品的每一条评论,先利用某种 评论要素抽取方法,抽取评论信息中的商品属性-评价词对以及客户的情感倾向 性,然后根据汉英蒙藏维多语平行语料库将属性-评价词对翻译成不同的语言, 再在每种语言环境下根据属性-评价词对和客户的情感倾向性利用某种摘要生成 方法生成各种语言版本的商品评论摘要,从而实现对商品评论信息的多语言翻 译。
对于交易信息翻译子系统。交易信息翻译子系统的主要功能是将客户在自己 母语环境下的完成交易信息翻译成销售商的母语环境下的交易信息,以便销售商 给客户发货。交易过程中涉及的内容主要包括客户购买的商品的相关信息和客户 的姓名、收货地址等相关信息,由于商品的相关信息在商品信息翻译子系统中已 经完成,所以对于商品信息只需要从客户的母语环境对应到销售商的母语环境即 可,因此交易信息翻译子系统的主要难点在客户的姓名、收货地址等相关信息的 翻译,如图4所示,这类信息的翻译我们主要采用基于音译的多语言机器翻译方 法来实现。
前面对多语言翻译系统的构成以及翻译流程进行了描述,下面就翻译过程中 所涉及的多语平行语料库的构建问题以及商品评论的多语言摘要生成方法进行 详细的说明。
多语平行语料库的构建。平行语料库是统计机器翻译及其一系列相关研究应 用不可或缺的重要资源。传统的人工校验、录入平行语料的方式不仅耗时费力, 而且很难在有限的时间内建立起较大规模的平行语料库。随着互联网上各种双 语、多语网站的兴起,很多研究人员开始研究从互联网上获取双语平行语料。本 发明将基于电子词典和双语网页来构建商品信息的多语平行语料库,具体流程如 图5所示,先通过各种中文电子商务平台获取待翻译的中文商品信息,然后利用 双语词典对部分商品信息进行翻译,利用双语词典进行翻译的优点是容易获取、 使用方便、准确性高,其缺点是很多专业词汇的翻译在双语词典中没有,因此, 我们需要借助基于互联网的双语平行语句挖掘方法将双语词典不能翻译的中文 商品信息翻译成其他语言,具体的思路是现将网页标签序列的相似性以及最大匹 配计算数字序列的相似性等作为特征信息,利用支持向量机来提取候选平行网 页,再对网页进行语句切分、对齐、整理等操作,最后获得商品信息的汉英、汉 蒙、汉藏、汉维双语平行语料,从而完成多语平行语料库的构建。
商品评论要素的抽取方法。电商平台上客户对商品的评论信息通常包括两部 分内容(如京东商城),第一部分为固定格式的评论,通常客户被要求分别对商 品的优点和缺点进行评价,这种评论信息大都以主观性的短语或短句的形式存 在,并且一般都显性地指定商品属性和评价词,较少采用指代和隐喻,而且很少 有与商品不相关的评价信息;第二部分是自由评论,评论者可以自由地表达对商 品属性信息的看法,也可以发表与商品无关的评论信息。本发明将按照如图6 所示流程来提取商品的属性-评价词对和情感倾向性这两种评论要素,首先,由 于固定格式评论信息中的属性-评论词对的形式通常比较简单,因此通过与人工 词典直接匹配的方法对固定格式评论信息中的属性-评论词对进行抽取;然后, 对于自由评论信息,利用基于词性关系模板的商品属性词和评价词同步抽取算法 来抽取属性-评论词对,即先通过有监督的序列规则挖掘算法从训练样本中挖掘 出可能的词性依存关系模式,并对这些模式进行置信度评分,利用置信度较高的 模式构成模板集合,再利用模板在评论信息中抽取可能的属性-评价词对;最后, 在得到评论信息中的属性-评价词对后,利用基于情感词典的方法分析评论信息 的情感倾向性,即先通过一个情感词典对评价词的情感倾向性做出判断,再根据 正负评价词在评论句中的数量优势来判断评论句的情感倾向。
商品评论摘要的生成方法。本发明拟分别从商品层次和评论层次来组织商品 评论摘要。商品层次的评论摘要是指对同一商品下的所有评论进行分类汇总生成 一个用户对该商品的总体评价,使读者能够在统计层面对商品的整体和特定属性 有一个全面的了解,商品层次的评论摘要包括两部分内容,第一部分是客户对该 商品的整体评分,主要是对该商品的各条评论的情感倾向性进行统计,通过各种 情感的统计数字来计算一个商品的总体得分,第二部分是用户对商品的各种属性 的总体评价,基本思路是先对该商品评论中的属性-评价词对进行聚类,根据聚 类结果,将客户对商品主要属性的评论以列表形式展示出来,同时附上各属性下 正负评论的数量。评论层次的商品评论摘要是指对每一个客户的评论都组织一个 摘要,商品层次的评论摘要可以让读者对商品有一个全面的认识,然而有时候也 有必要通过阅读各个客户的评论细节来对该商品的细节有更深入的认识,因此我 们还采用主题模型方法在词语粒度上对每一个客户的评论来生成一个摘要。
实施例2:一种面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统,包 括用于翻译商品属性信息的属性信息多语机器翻译子系统、用于翻译商品的评论 信息的评论信息多语机器翻译子系统、用于翻译商品的交易信息的交易信息多语 机器翻译子系统,且各子系统翻译时,于汉英蒙藏维多语平行语料库中检索并进 行相应翻译,所述汉英蒙藏维多语平行语料库基于电子词典和双语网页来构建。
作为一种实施例,所述所述汉英蒙藏维多语平行语料库构建的方法是:通过 各中文电子商务平台获取待翻译的中文商品信息,利用双语词典对部分商品信息 进行翻译;且将网页标签序列的相似性以及最大匹配计算数字序列的相似性作为 特征信息,利用支持向量机提取候选平行网页,再对网页进行语句切分、对齐、 整理的操作,获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,完成多语 平行语料库的构建。
下面详细介绍各子系统翻译的过程:
所述属性信息多语机器翻译子系统的翻译过程是:先读取商品的每一条属性 名或者属性值,在商品信息的汉英蒙藏维多语平行语料库中检索是否存在该属性 名或者属性值,如果存在该属性名或者属性值,则直接根据汉英蒙藏维多平行语 料库给出该属性名或属性值的多语言翻译结果,如果不存在,则说明该属性名或 者属性值为未登录词,使用分词方法将该属性名或者属性值拆分成更小的汉英蒙 藏维平行语料库中存在的命名实体,然后使用基于规则的机器翻译方法将其翻译 成各种语言,如果该属性名或者属性值不能拆分成已经存在的更小的命名实体, 则采用基于音译的机器翻译方法直接将其翻译成其他语言。
所述评论信息多语机器翻译子系统的翻译过程是:对于商品的每一条评论, 使用商品评论要素抽取方法,抽取评论信息中的商品属性-评价词对以及客户的 情感倾向性,根据汉英蒙藏维多语平行语料库将属性-评价词对翻译成不同的语 言,再在每种语言环境下根据属性-评价词对和客户的情感倾向性使用商品评论 摘要生成方法生成各种语言版本的商品评论摘要,实现对商品评论信息的多语言 翻译。
所述交易信息多语机器翻译子系统的翻译过程是:所述属性信息多语机器翻 译子系统的翻译过程是:先读取商品的交易信息,在商品信息的汉英蒙藏维多语 平行语料库中检索是否存在该交易信息,如果存在该交易信息,则直接根据汉英 蒙藏维多平行语料库给出该交易信息的多语言翻译结果,如果不存在,则说明该 交易信息为未登录词,采用基于音译的机器翻译方法直接将其翻译成其他语言。
所述商品评论要素的抽取方法用于提取商品的属性-评价词对和情感倾向性 这两种评论要素,步骤是:
首先,通过与人工词典直接匹配的方法对固定格式评论信息中的属性-评论 词对进行抽取;然后,对于自由评论信息,利用基于词性关系模板的商品属性词 和评价词同步抽取算法来抽取属性-评论词对;
最后,在得到评论信息中的属性-评价词对后,利用基于情感词典的方法分 析评论信息的情感倾向性。
所述商品评论摘要的生成方法,分别从商品层次和评论层次来组织商品评论 摘要,步骤是:
先对该商品评论中的属性-评价词对进行聚类,根据聚类结果,将客户对商 品主要属性的评论以列表形式展示出来,同时附上各属性下正负评论的数量;
然后针对评论层次的商品评论摘要对每一个客户的评论组织一个摘要,商品 层次的评论摘要采用主题模型方法在词语粒度上对每一个客户的评论来生成一 个摘要。
所述基于词性关系模板的商品属性词和评价词同步抽取算法是先通过有监 督的序列规则挖掘算法从训练样本中挖掘出可能的词性依存关系模式,并对这些 模式进行置信度评分,利用置信度较高的模式构成模板集合,再利用模板在评论 信息中抽取可能的属性-评价词对;所述基于情感词典的方法是先通过一个情感 词典对评价词的情感倾向性做出判断,再根据正负评价词在评论句中的数量优势 来判断评论句的情感倾向。
本实施例还涉及一种翻译方法,使用上述任意方案中的翻译系统,具有:
翻译商品属性信息的步骤;翻译商品的评论信息的步骤;翻译商品的交易信 息的步骤;且各子系统翻译时,于汉英蒙藏维多语平行语料库中检索并进行相应 翻译,所述多语平行语料库基于电子词典和双语网页来构建;
所述的翻译商品的评论信息的步骤中,具商品评论要素抽取的步骤和商品评 论摘要生成的步骤。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围 并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围 内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在 本发明创造的保护范围之内。

Claims (1)

1.一种汉英蒙藏维多语平行语料库构建的方法,其特征在于:通过各中文电子商务平台获取待翻译的中文商品信息,利用双语词典对部分商品信息进行翻译;且将网页标签序列的相似性以及最大匹配计算数字序列的相似性作为特征信息,利用支持向量机提取候选平行网页,再对网页进行语句切分、对齐、整理的操作,获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,完成多语平行语料库的构建。
CN201810479768.XA 2016-06-28 2016-06-28 汉英蒙藏维多语平行语料库构建的方法 Expired - Fee Related CN108763223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810479768.XA CN108763223B (zh) 2016-06-28 2016-06-28 汉英蒙藏维多语平行语料库构建的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610489374.3A CN106202061B (zh) 2016-06-28 2016-06-28 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法
CN201810479768.XA CN108763223B (zh) 2016-06-28 2016-06-28 汉英蒙藏维多语平行语料库构建的方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201610489374.3A Division CN106202061B (zh) 2016-06-28 2016-06-28 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法

Publications (2)

Publication Number Publication Date
CN108763223A true CN108763223A (zh) 2018-11-06
CN108763223B CN108763223B (zh) 2022-05-13

Family

ID=57462220

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201810480430.6A Pending CN108763225A (zh) 2016-06-28 2016-06-28 属性信息多语机器翻译子系统的翻译方法
CN201610489374.3A Active CN106202061B (zh) 2016-06-28 2016-06-28 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法
CN201810481052.3A Expired - Fee Related CN108664477B (zh) 2016-06-28 2016-06-28 交易信息多语机器翻译子系统的翻译方法
CN201810480399.6A Pending CN108763224A (zh) 2016-06-28 2016-06-28 评论信息多语机器翻译子系统的翻译方法
CN201810479768.XA Expired - Fee Related CN108763223B (zh) 2016-06-28 2016-06-28 汉英蒙藏维多语平行语料库构建的方法
CN201810481045.3A Pending CN108763226A (zh) 2016-06-28 2016-06-28 商品评论要素的抽取方法

Family Applications Before (4)

Application Number Title Priority Date Filing Date
CN201810480430.6A Pending CN108763225A (zh) 2016-06-28 2016-06-28 属性信息多语机器翻译子系统的翻译方法
CN201610489374.3A Active CN106202061B (zh) 2016-06-28 2016-06-28 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法
CN201810481052.3A Expired - Fee Related CN108664477B (zh) 2016-06-28 2016-06-28 交易信息多语机器翻译子系统的翻译方法
CN201810480399.6A Pending CN108763224A (zh) 2016-06-28 2016-06-28 评论信息多语机器翻译子系统的翻译方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810481045.3A Pending CN108763226A (zh) 2016-06-28 2016-06-28 商品评论要素的抽取方法

Country Status (1)

Country Link
CN (6) CN108763225A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889295A (zh) * 2019-09-12 2020-03-17 华为技术有限公司 机器翻译模型、伪专业平行语料的确定方法、系统及设备
CN111078894A (zh) * 2019-12-17 2020-04-28 中国科学院遥感与数字地球研究所 一种基于隐喻主题挖掘的景区评价知识库构建方法
WO2023060910A1 (zh) * 2021-10-11 2023-04-20 北京达佳互联信息技术有限公司 信息抽取方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128925A (ja) * 2017-02-09 2018-08-16 富士通株式会社 情報出力プログラム、情報出力方法及び情報出力装置
WO2020106438A1 (en) * 2018-11-22 2020-05-28 Yeogirl Yun Multilingual tag-based review system
CN110110336A (zh) * 2019-05-05 2019-08-09 西北民族大学 一种面向藏汉机器翻译的藏语句法语料库的构建方法
CN110232107A (zh) * 2019-05-08 2019-09-13 深圳市小满科技有限公司 一种产品数据获取方法
CN110321568B (zh) * 2019-07-09 2020-08-28 昆明理工大学 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
CN111126046B (zh) * 2019-12-06 2023-07-14 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN113761882A (zh) * 2020-06-08 2021-12-07 北京沃东天骏信息技术有限公司 一种词典构建方法和装置
CN113657123A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN117875816A (zh) * 2024-01-05 2024-04-12 深圳市瀚力科技有限公司 跨境电商的数据统计处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
US20100241416A1 (en) * 2009-03-18 2010-09-23 Microsoft Corporation Adaptive pattern learning for bilingual data mining
CN103268566A (zh) * 2013-05-23 2013-08-28 新疆卡尔罗媒体科技有限公司 一种社交网络平台系统及互动方法
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN105022728A (zh) * 2015-07-13 2015-11-04 广西达译商务服务有限责任公司 汉老双语平行语料自动采集的系统及实现方法
CN105045862A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉外双语平行语料自动采集的系统及实现方法
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105528341A (zh) * 2015-11-25 2016-04-27 金陵科技学院 具有领域定制功能的术语译文挖掘系统及方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088743A1 (en) * 2003-09-19 2007-04-19 Toshiba Solutions Corporation Information processing device and information processing method
US7299171B2 (en) * 2004-08-17 2007-11-20 Contentguard Holdings, Inc. Method and system for processing grammar-based legality expressions
AU2015215882A1 (en) * 2005-01-04 2015-09-10 Thomson Reuters Global Resources Systems, methods, software, and interfaces for multilingual information retrieval
CN100474301C (zh) * 2005-09-08 2009-04-01 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN101075230B (zh) * 2006-05-18 2011-11-16 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
CN100543727C (zh) * 2006-12-21 2009-09-23 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN100527125C (zh) * 2007-05-29 2009-08-12 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法和系统
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN101957815A (zh) * 2009-07-13 2011-01-26 白劲实 基于正确翻译结果与对应关系的自动翻译方法与系统
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
CN103577394B (zh) * 2012-07-31 2016-08-24 阿里巴巴集团控股有限公司 一种基于双数组搜索树的机器翻译方法和装置
US20140279731A1 (en) * 2013-03-13 2014-09-18 Ivan Bezdomny Inc. System and Method for Automated Text Coverage of a Live Event Using Structured and Unstructured Data Sources
CN103530284B (zh) * 2013-09-22 2016-07-06 中国专利信息中心 短句切分装置、机器翻译系统及对应切分方法和翻译方法
CN104615593B (zh) * 2013-11-01 2017-09-29 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN103646097B (zh) * 2013-12-18 2016-09-07 北京理工大学 一种基于约束关系的意见目标和情感词联合聚类方法
CN103823890B (zh) * 2014-03-10 2016-11-02 中国科学院信息工程研究所 一种针对特定群体的微博热点话题检测方法及装置
CN105117428B (zh) * 2015-08-04 2018-12-04 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
US20100241416A1 (en) * 2009-03-18 2010-09-23 Microsoft Corporation Adaptive pattern learning for bilingual data mining
CN103268566A (zh) * 2013-05-23 2013-08-28 新疆卡尔罗媒体科技有限公司 一种社交网络平台系统及互动方法
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN105022728A (zh) * 2015-07-13 2015-11-04 广西达译商务服务有限责任公司 汉老双语平行语料自动采集的系统及实现方法
CN105045862A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉外双语平行语料自动采集的系统及实现方法
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105528341A (zh) * 2015-11-25 2016-04-27 金陵科技学院 具有领域定制功能的术语译文挖掘系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCO BARONI 等: "A New Approach to the Study of Translationese: Machine-learning the Difference between Original and Translated Text", 《LITERARY AND LINGUISTIC COMPUTING》 *
胡弘思等: "基于维基百科的双语可比语料的句子对齐", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889295A (zh) * 2019-09-12 2020-03-17 华为技术有限公司 机器翻译模型、伪专业平行语料的确定方法、系统及设备
CN111078894A (zh) * 2019-12-17 2020-04-28 中国科学院遥感与数字地球研究所 一种基于隐喻主题挖掘的景区评价知识库构建方法
CN111078894B (zh) * 2019-12-17 2023-09-12 中国科学院遥感与数字地球研究所 一种基于隐喻主题挖掘的景区评价知识库构建方法
WO2023060910A1 (zh) * 2021-10-11 2023-04-20 北京达佳互联信息技术有限公司 信息抽取方法及装置

Also Published As

Publication number Publication date
CN106202061B (zh) 2018-09-14
CN108763223B (zh) 2022-05-13
CN106202061A (zh) 2016-12-07
CN108664477B (zh) 2022-04-01
CN108763226A (zh) 2018-11-06
CN108763224A (zh) 2018-11-06
CN108664477A (zh) 2018-10-16
CN108763225A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN106202061B (zh) 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法
Hussein A survey on sentiment analysis challenges
Zhu et al. Multimodal joint attribute prediction and value extraction for e-commerce product
CN101681251B (zh) 从文档到排名短语的语义分析
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
Hossain et al. Sentiment polarity detection on bengali book reviews using multinomial naive bayes
CN112990973B (zh) 线上店铺画像构建方法及系统
Zhang et al. Learning distributed representations of data in community question answering for question retrieval
Rana et al. Improving aspect extraction using aspect frequency and semantic similarity-based approach for aspect-based sentiment analysis
Huang et al. Discovering Chinese sentence patterns for feature-based opinion summarization
Yamada et al. A text mining approach for automatic modeling of Kansei evaluation from review texts
Bhargava et al. Comment based seller trust model for e-commerce
Kim Efficient keyword extraction from social big data based on cohesion scoring
Liu et al. User needs mining based on topic analysis of online reviews
Alami et al. DAQAS: Deep Arabic Question Answering System based on duplicate question detection and machine reading comprehension
Rudniy et al. Trend tracking tools for the fashion industry: the impact of social media
Helan et al. Topic modeling methods for text data analysis: a review
Zhao et al. Opinion Summarization via Submodular Information Measures
Dai Construction of English and American literature corpus based on machine learning algorithm
Milošević et al. From web crawled text to project descriptions: automatic summarizing of social innovation projects
Qian et al. Building of visual analysis system for design of youth sports shoe products based on comment mining
CN108845989A (zh) 基于浅层句法分析的情感评价单元抽取方法
Khaing et al. Enhance trend extraction results by refining with additional criteria
Kushwah et al. Feature-Based Overview of Online Comments of Web-Based Healthcare Products
Singh AADGen: Automatic Annotated Data Generation for Training Text Detection and Recognition Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220513