CN103136192B - 翻译需求识别方法及系统 - Google Patents

翻译需求识别方法及系统 Download PDF

Info

Publication number
CN103136192B
CN103136192B CN201110391077.2A CN201110391077A CN103136192B CN 103136192 B CN103136192 B CN 103136192B CN 201110391077 A CN201110391077 A CN 201110391077A CN 103136192 B CN103136192 B CN 103136192B
Authority
CN
China
Prior art keywords
hot issue
text message
theme entry
translate requirements
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110391077.2A
Other languages
English (en)
Other versions
CN103136192A (zh
Inventor
马艳军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110391077.2A priority Critical patent/CN103136192B/zh
Publication of CN103136192A publication Critical patent/CN103136192A/zh
Application granted granted Critical
Publication of CN103136192B publication Critical patent/CN103136192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种翻译需求识别方法及系统,该方法包括:获取网络平台中的热门话题的主题词条;利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,其中,所述D1为:判断主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项;D2为:在目标语言网络平台中搜索与主题词条译文所对应话题类别的文本信息,并统计文本信息数量是否超过预设阈值;D3为:对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。本发明提供的翻译需求识别方法及系统,用于对SNS话题的翻译需求进行识别,可以节省系统资源和翻译时间。

Description

翻译需求识别方法及系统
【技术领域】
本发明涉及社交网络应用技术,尤其涉及一种翻译需求识别方法及系统。
【背景技术】
随着网络技术的发展,社交网络(SNS——Social Networking Services,又称“社会化网络服务”),如facebook,twitter,校内网、开心网、新浪微博等,以其个性化、时效性强等优点,已经成为现代社会一个重要的媒介平台。社交网络是一个能够让用户相互交流,相互沟通,相互参与的互动平台,用户可以在社交网络平台上发布、评论或转发各种信息。有些信息之间存在着相互联系,它们围绕着一个相同的主题,具有相同的主题关键词。将具有相同主题关键词的各种消息归类于同一个话题,并用主题关键词组成主题词条作为话题标签标识该话题。网络平台的话题多种多样,当一定时间、一定范围内的关注程度超过一定范围时,则被认为是热门话题。一个热门话题包括所有与该热门话题的主题相关的文本信息、图片信息以及音视频信息等,并用话题标签来表示该话题。话题标签中包括主题词条和话题标识符“#”,如话题“世界杯2010”的话题标签为“#世界杯2010#”,主题词条为“世界杯2010”。一般来说,主题词条中可以包括多个关键词。
随着全球化的加快和网络的普及,很多热门话题为全世界的网民所关注,比如“世界杯”“ipad2”等。SNS具有迅速消息传递和实时消息搜索功能,是讨论热门话题的重要媒介平台。然而,SNS的用户众多,可能遍布全球各地,这些来自世界各地的用户使用不同的语言发布信息,如英语、汉语、日语等。由于使用的语言不同,其他用户可能无法理解发布的信息,语言上的隔阂成为沟通的一大障碍。为了实现实时的多语言互动,SNS通过提供人工翻译或机器翻译服务,为用户消除语言障碍。
由于每个SNS的用户众多,每天发布的信息数以千万计,如果要对不断更新的海量信息数据都进行翻译,不仅费时费力,几乎是不可能的,而且有些话题的关注范围小,具有区域性,并不会引起其他不同语言地区的用户关注,没有对该些话题对应的文本信息进行翻译的必要,有时反而会影响用户体验。比如,“宋丹丹炮轰英达”这样的话题则较少为中国之外的人群所关注。目前,尚未有一种有效的翻译需求识别机制,用于确定哪些话题需要进行翻译。
【发明内容】
为了解决上述问题,本发明提供了一种翻译需求识别方法及系统,用于对SNS话题的翻译需求进行识别,可以节省系统资源和翻译时间。
具体技术方案如下:
本发明实施例提供的一种翻译需求识别方法,包括:
获取网络平台中的热门话题的主题词条;
利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,其中
所述D1为:判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项;
所述D2为:将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值;
所述D3为:对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
识别方法D1-D3可以采用预设的识别策略来表示,每一条识别策略对应一种识别方法。
根据本发明之一优选实施例,所述获取网络平台中的热门话题的主题词条具体包括:
直接从网络平台的热门话题列表中获得热门话题的主题词条;
或者,从各网站的热点中获得热门话题的主题词条。
根据本发明之一优选实施例,所述利用D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括以下步骤:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,否则,进入S102;
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,否则,进入S103;
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,否则,进入S105;
S104、识别为有翻译需求;
S105、识别为无翻译需求。
根据本发明之一优选实施例,所述利用D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,如果搜索到的文本信息数量超过预设阈值,则识别为有翻译需求。
根据本发明之一优选实施例,所述利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。
根据本发明之一优选实施例,所述利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,采用机器分类方法进行分类,分为有翻译需求和无翻译需求两个类别,具体包括以下步骤:
S401、获取用户标注的数据信息;
S402、根据用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器;
S403、利用训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
根据本发明之一优选实施例,所述热门话题的分类特征包括:
热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
根据本发明之一优选实施例,所述利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:利用D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
根据所述D1、D2和D3的识别结果,采用投票的方式进行判断,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求;
或者,先为所述D1、D2和D3分配不同的权重,再根据所述D1、D2和D3的识别结果,采用加权投票的方式进行判断,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
相应地,本发明实施例提供一种翻译需求识别系统,包括:
获取模块,用于获取网络平台中的热门话题的主题词条;
识别模块,用于对获取模块获取的主题词条,利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,其中
所述D1为:判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项;
所述D2为:将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值;
所述D3为:对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
识别方法D1-D3可以采用预设的识别策略来表示,每一条识别策略对应一种识别方法。
根据本发明之一优选实施例,所述获取模块具体配置为:
用于直接从网络平台的热门话题列表中获得热门话题的主题词条;或者,用于从各网站的热点中获得热门话题的主题词条。
根据本发明之一优选实施例,所述识别模块具体配置为:用于利用D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,否则,进入S102;
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,否则,进入S103;
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,否则,进入S105;
S104、识别为有翻译需求;
S105、识别为无翻译需求。
根据本发明之一优选实施例,所述识别模块具体配置为:用于利用D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,当搜索到的文本信息数量超过预设阈值,则识别为有翻译需求。
根据本发明之一优选实施例,所述识别模块具体配置为:用于利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。
根据本发明之一优选实施例,所述识别模块具体配置为:用于利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,采用机器分类方法进行分类,分为有翻译需求和无翻译需求两个类别,具体包括:
标注信息获取单元,用于获取用户标注的数据信息;
分类器训练单元,用于根据标注信息获取单元获取的用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器;
分类单元,用于利用分类器训练单元训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
根据本发明之一优选实施例,所述分类器训练单元所选取的热门话题的分类特征包括:
热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
根据本发明之一优选实施例,所述识别模块具体配置为:用于利用D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
根据所述D1、D2和D3的识别结果,采用投票的方式进行判断,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求;
或者,先为所述D1、D2和D3分配不同的权重,再根据所述D1、D2和D3的识别结果,采用加权投票的方式进行判断,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
本发明还提供一种翻译方法,用于社交网络中进行语言翻译,可对话题的翻译需求进行识别,既可以提供实时翻译服务,消除用户的语言障碍,又可以节省系统资源和翻译时间,提供准确、高效的翻译服务。
本发明实施例提供的一种翻译方法,包括:
获取网络平台的热门话题的主题词条;
采用翻译需求识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求;
利用识别到的有翻译需求的热门话题的主题词条,在网络平台中搜索该热门话题对应话题类别的文本信息;
将搜索到的文本信息利用文本分类技术进行领域划分,得到所述文本信息所属的领域;
利用所述文本信息所属领域的机器翻译系统进行翻译得到文本信息译文,并将文本信息译文显示给用户。
相应地,本发明实施例还提供一种翻译系统,包括:
获取模块,用于获取网络平台的热门话题的主题词条;
识别模块,用于对获取模块获取到的主题词条,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求;
搜索模块,用于根据识别模块识别到的有翻译需求的热门话题的主题词条,在网络平台中搜索该热门话题对应话题类别的文本信息;
分领域模块,用于将搜索模块搜索到的文本信息利用文本分类技术进行领域划分,得到所述文本信息所属的领域;
翻译模块,利用所述文本信息所属领域的机器翻译系统进行翻译得到文本信息译文,并将文本信息译文显示给用户。
由以上技术方案可以看出,本发明提供的一种翻译需求识别方法及系统,用于对SNS话题的翻译需求进行识别,可以节省系统资源和翻译时间。
【附图说明】
图1是本发明实施例提供的翻译需求识别方法流程图;
图2是本发明实施例提供的利用识别策略D1进行判断的流程图;
图3是本发明实施例利用识别策略D3进行判断的机器分类方法流程图;
图4是本发明实施例利用识别策略的识别结果进行投票的示意图;
图5是本发明实施例提供的翻译方法的流程图;
图6是本发明实施例1翻译方法的流程图;
图7是本发明实施例提供的翻译需求识别系统的框图;
图8是本发明实施例利用识别策略D3进行判断的机器分类系统框图;
图9是本发明实施例提供的翻译系统的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,为本发明实施例提供的一种翻译需求识别方法,包括:
S1、获取网络平台中的热门话题的主题词条。
针对于不同的平台,热门话题可以通过多种方式获得。比如,社交网络平台上一般都会有以热门话题的主题词条表示的热门话题列表,则可以直接从该社交网络平台上获取相关话题标签包含的词项作为热门话题的主题词条。比如,国内的新浪微博等在网站页面上列有“热门话题”列表,根据与各个话题相关的微博数量进行列表。有些热门话题不一定会出现在网络平台所列的热门话题列表中,但是被其他网站所提及,因而,也可以从其他各网站的热点中获得相关主题词条。还可以根据搜索的频率来确定热门话题,将词条的搜索频率超过一定数量的话题确定为热门话题的主题词条。
S2、利用至少一条预置的识别策略,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求。其中,每一条预置的识别策略对应于一种识别方法。
热门话题中包括所有与该热门话题的主题词条相关的文本信息、图片信息以及音视频信息等数据,并用话题标签来表示该话题,话题标签中包括主题词条和话题标识符“#”。在对热门话题进行翻译需求识别时,是根据热门话题的主题词条判断该热门话题所对应话题类别的文本信息是否有翻译需求。
其中,所述预置的识别策略包括:
D1、判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项。
关于包含目标语言的词项、音译词词项或者预设关键词列表中的词项的判断顺序可以采用任意的方式进行,优选地,如图2所示,利用识别策略D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括以下步骤:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,识别为有翻译需求,否则,进入S102。比如,以中文翻译成英文,目标语言为英文为例,如果热门话题的主题词条中包含英文词,则识别为有翻译需求,例如“ipad2”。
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,识别为有翻译需求,否则,进入S103。
一般来讲,认为主题词条包含音译词的热门话题具有翻译需求。比如,还是以中文翻译成英文,目标语言为英文为例,“希拉里”是由英文单词Hilary音译而来,如果有出现“希拉里”这样的音译词,则识别为有翻译需求。在判断是否为音译词时,可以利用现有的专名识别技术对语料中的音译词进行识别。现有的专名识别技术可以采用网络挖掘的方法,比如在网页上可以挖掘到“希拉里(Hilary)”这样的模式,利用括号信息就可以提取出专名。
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,识别为有翻译需求,否则,进入S105,识别为无翻译需求。
这个过程中,首先建立一个关键词列表,在这一列表中包含国家名、世界各大城市名、各种世界级体育赛事的名称等词项。如果热门话题的关键词匹配到该类表中的一个或者多个词,则识别为有翻译需求。
所述匹配度Sim可以用如下公式计算:
Sim = # matched # total
其中,#matched表示热门话题的主题词条所匹配到的关键词列表中词的个数,#total表示热门话题的主题词条所包含的总词数。比如,“2010世界杯”这一热门话题,如果“世界杯”已经放到我们的有翻译需求的关键词列表中,而“2010”没有收入该列表的话,则#match值为1,#total值为2。根据上述计算公式,热门话题与关键词列表的匹配度为0.5。实际应用中,当Sim高于某个阈值时,识别为有翻译需求。
D2、将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值。
热门话题的主题词条一般比较简短,可以先采用机器翻译系统,将该主题词条翻译成目标语言对应的主题词条译文;再利用翻译好的主题词条译文,在目标语言的网络平台中搜索所对应话题类别的文本信息。
利用识别策略D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,如果统计搜索到的文本信息的数量,超过某一预设阈值,则识别为有翻译需求。
比如,在汉语的“世界杯2010”,假定目标语言为英文,则可以利用一个翻译词典将其翻译为英文“world cup 2010”,再在英文的网络平台中,如twitter,新浪英文微博等,搜索“world cup 2010”相关的微博,如果搜索到的微博数高于某一预设阈值,则认为该话题具有翻译需求。
D3、对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
针对每个热门话题发起用户调查,可以在页面上设置一个专栏,进行需求征集。比如,对于热门话题的中文关键词C,可以先利用翻译词典将中文关键词C翻译为英文关键词E,然后在专栏中进行如下提问:
Are you interested in#E?
比如,对于“世界杯2010”这一热门话题,可以直接设置如下问题:
Are you interested in#world cup 2010?
并提供两个答案(YES和NO)供用户选择。
利用识别策略D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息进行判断,可以直接统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。当选择YES的用户数大于某个阈值时,则认为该话题具有翻译需求。或者,可以根据用户反馈的标注信息,采用机器分类方法进行分类,分为有翻译需求和无翻译需求两个类别,如图3所示,具体包括以下步骤:
S401、获取用户标注的数据信息。
通过对每个热门话题设置专栏进行需求征集,获取用户标注的数据信息。将判断某个热门话题是否有翻译需求的问题转化为一个机器学习中的二分类问题,即将某个热门话题归为以下两个类别中的一个:a.有翻译需求b.无翻译需求。
S402、根据用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器。
通过用户调查的形式获取用户标注的数据后,采用现有的有监督的机器学习的方法如贝叶斯方法、最大熵方法或SVM等进行分类器的训练。所述热门话题的分类特征包括:热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
其中,热门话题的关键词一般采用话题标签中的关键词,即主题词条中的关键词,如话题“世界杯2010”中包含的关键词有“世界杯”和“2010”。
由于话题标签中关键词个数一般比较少,我们可以对这些关键词利用同义词词典进行扩展。如话题“美国经济”中,“USA”是“美国”的同义词,那么“USA”也可以作为分类特征。
关键词的译文是热门话题关键词的翻译结果。由于在进行用户调查时,已经将热门话题的关键词进行了翻译。如调查用户对“世界杯2010”这一话题的兴趣时,提问的问题为“Are you interested in#world cup 2010?”。因此热门话题“世界杯2010”的翻译结果“world cup 2010”也作为分类特征。
另外,从涉及该热门话题的文本信息(微博)中提取频度较高的词,并进行过滤处理,去掉虚词如“的”、“了”等,得到该热门话题中的高频词。由于这些词在该热门话题中被大量提及,有较强的特征性,因而也作为分类特征。如关于“世界杯2010”的微博中会大量提及“进球”、“点球”、“梅西”等词,将这些词也作为分类特征。也就是说包含这些词的微博很有可能有翻译需求,而包含另外一些词时很有可能没有翻译需求。
S403、利用训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
进行完分类器训练后,利用训练好的分类器对新的热门话题进行分类,如果分类器认为某个热门话题有翻译需求,则识别为有翻译需求。
综上所述,所述识别策略D1是基于关键词分析进行的,所述识别策略D2是采用双语平台验证的方式,所述识别策略D3是基于用户调查结果,采用统计判断和机器分类的方式进行判断。
所述利用至少一条预置的识别策略,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:利用识别策略D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
第一种方式,根据所述识别策略D1、D2和D3的识别结果,采用投票的方式进行判定,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求。
如图4所示,为根据识别策略的识别结果进行投票的示意图。根据识别策略D1基于关键词分析进行,识别策略D2采用双语平台验证的方式进行,识别策略D31用户调查进行统计判断和识别策略D32分类器进行机器分类的识别结果,进行投票D00,可以设定需要两种或三种策略均识别为有翻译需求的热门话题,才投票为有翻译需求。这样做的目的是为了进一步提高翻译需求识别的准确性,采用上述识别策略分别进行验证,当两种或者三种策略的识别结果均为有翻译需求时,才将该热门话题判断为有翻译需求。
比如,设定为需要三种策略同时识别为有翻译需求,假设“世界杯2010”在识别策略D1中匹配到关键词列表的匹配度超过了预设阈值,且根据识别策略D2亦识别为有翻译需求,但假设在识别策略D31和D32中都被识别为没有翻译需求,则将该热门话题“世界杯2010”判断为无翻译需求。如果设定只需要两种策略同时识别为有翻译需求,则该热门话题“世界杯2010”则为有翻译需求。
第二种方式,先为所述识别策略D1、D2和D3分配不同的权重,再根据所述识别策略D1、D2和D3的识别结果,采用加权投票的方式进行判定,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
针对不同的应用环境,可以考虑不同策略的权重,再进行加权投票判断是否有翻译需求。比如,随着用户标注数据量的增加,采用机器进行自动分类方法的性能得到不断提高,则可以加大分类器这一识别策略的权重。
本发明还提供一种翻译方法,采用上述翻译需求识别方法进行识别,如图5所示,具体包括以下步骤:
S1、获取网络平台中的热门话题的主题词条。
S2、采用识别策略判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求。
步骤S1和S2与上述翻译需求识别方法中的步骤一致,故不于此赘述。
S3、利用识别到的有翻译需求的热门话题的主题词条,在网络平台中搜索该热门话题所对应话题类别的文本信息。
将识别为有翻译需求的热门话题组成有需求的热门话题列表,利用该热门话题列表在网络平台中搜索对应话题类别的相关内容,包括文本信息、图片信息以及音视频等。本发明的翻译方法主要针对热点话题对应类别中的文本信息。
S4、将搜索到的文本信息利用文本分类技术进行领域划分,得到所述文本信息所属的领域。
在所述利用文本分类技术中,主要是预先构建分类器的过程。首先,选取一个原始训练样本集,对样本集中的文本采用聚类的方法,将样本集中同一类别的句子或词项归类到同一个类别中,被归类到同一个类别中的句子或词项可以认为是来自同一领域。其次,利用聚类的结果构建分类器,可以提取句子中词项的语义,词性以及各自的共现关系等作为分类特征,训练各个分类特征的权重,得到领域划分的分类器。
利用构建好的分类器,对新的文本信息进行领域划分。在进行分类时,先从某个热门话题待翻译的文本信息中随机抽取一批文本信息,利用分类器对该批文本信息进行分类,得到该热门话题相关文本信息所属的领域。比如,热门话题“世界杯2010”相关内容是属于体育领域。
S5、利用所述文本信息所属领域的机器翻译系统进行翻译得到文本信息译文,并将文本信息译文显示给用户。
所述机器翻译系统是预先通过双语语料进行训练得到的,针对不同领域有不同的机器翻译系统。具体的训练过程包括:首先,利用自动聚类方法对双语语料进行聚类,这个过程是对双语语料进行领域划分的过程;针对不同的领域,利用源语言和目标语言的共现频率作为特征,采用概率潜在语义分析(PLSA)聚类方法进行聚类,训练得到不同领域的机器翻译系统。
由于领域信息对于机器翻译质量具有至关重要的作用,为了提高翻译的准确性,采用分领域翻译的方式进行文本翻译。利用不同领域的机器翻译系统进行翻译,可以提高翻译的质量。对于一个待翻译的文本信息,首先判定该文本信息所属的领域,然后调用相应领域的机器翻译系统进行翻译。比如,对于热门话题“世界杯2010”相关的文本信息利用体育类的机器翻译系统进行翻译。
实施例1.
为了便于说明,以下以社交网络的典型平台——微博平台为例作进一步的说明。本发明的方法并不局限于微博平台,其他社交网络平台也同样适用。
如图6所示,为本发明实施例1翻译方法的流程图,包括:
S201、获取热门话题。
在微博平台上,可以直接获取页面上的热门话题列表作为热门话题,该列表是根据与各个话题相关的微博数量进行列表的。还可以根据搜索的频率来确定热门话题,将搜索频率超过一定数量的话题确定为热门话题。
S202、识别有翻译需求的话题。
对获取到的热门话题,利用上述的识别策略判断该热门话题的文本信息是否有翻译为目标语言的需求。具体判断过程不再赘述。假定识别出三个有翻译需求的热门话题:话题1、话题2和话题3。
S203、话题搜索。
根据识别到的有翻译需求的热门话题列表,搜索各个热门话题相关的微博,称为热点微博。可以采用两种方法:1)利用热门话题的关键词,在各个微博平台中进行基于内容的搜索,检索出相关的微博。2)通过相关的微群获取。
微群是微博群的简称,在一个微群中聚合有相同爱好或者相同标签的用户群,将所有与之相应的话题全部聚拢在微群里面。比如“爱看电影”的微群中,聚集有大量爱看电影的用户。在一个微群中还可以包括不同的微话题(子话题),比如在新浪微博的“爱看电影”微群中,会有“哈利波特”这样一个子话题,以“#哈利波特#”作为话题标签,发布这一话题相关的微博。因此,可以直接关注与待译热点微博直接相关的微群,获取该微群或者子话题的所有微博。
相应地,搜索得到话题1相关微博、话题2相关微博、话题3相关微博。
S204、领域识别。
微博平台上的热门话题可谓五花八门,来自各个领域。利用文本分类技术进行领域划分,从关于热门话题的微博中随机抽取一批归并为一篇文档,并对该文档进行分类,得到该文本信息所属的领域。比如关于话题“iPad2”的微博多属于“电子、计算机”这一领域,而关于“美国经济”的微博则属于“经济”领域,“艾美奖”的微博则属于“娱乐”领域。
相应地,将话题1、话题2和话题3相关微博相应地分为领域1、领域2、领域3。
S205、分领域翻译。
利用不同领域的机器翻译系统进行翻译,可以提高翻译的质量。对于一个待翻译的微博,先判断所属领域,通过分类判定热门话题所涉及的领域后,利用该领域的机器翻译系统进行翻译。
比如,关于“iPad2”的微博,利用“电子、计算机”这一领域的机器翻译系统进行翻译,而“世界杯2010”利用体育类的机器翻译系统进行翻译,从而提高翻译质量。
S206、分发翻译后的微博。
在将微博翻译为目标语言之后,根据其所谈论的话题,给该翻译打上一个话题标签。比如某中文微博谈论“世界杯2010”,在将该微博翻译为英文后,同时将“世界杯2010”的英文翻译“World Cup 2010”作为标签加到英文微博中,以便用户检索相关微博。同时在英文翻译结果的下方,我们会提供汉语微博的原文已备对照查看。
针对微博,可以有两种翻译应用模式:(1)在某个微博平台注册一个用户,比如名为“××热点实时翻译”,来提供热门微博的实时翻译,而普通用户只要在微博平台上对“××实时热点翻译”这一用户添加关注,就可以不断接收到由“××热点实时翻译”提供的热点话题的翻译。为了满足不同用户的翻译需求,可以配置多个微博用户,比如“××热点实时翻译(中英)”、“××热点实时翻译(中日)”等等,微博用户可以根据自己的语言偏好来选择关注的用户。(2)专门开一个微博热点翻译的门户网站,从各大微博站点获取热点微博并将其翻译为不同的语言。
本发明提供的翻译需求识别方法和翻译方法,用于社交网络中进行语言翻译,可对话题的翻译需求进行识别,既可以提供实时翻译服务,消除用户的语言障碍,又可以节省系统资源和翻译时间,提供准确、高效的翻译服务。
相应地,本发明提供一种翻译需求识别系统,如图7所示,包括:
获取模块10,用于获取网络平台中的热门话题的主题词条。
针对于不同的平台,热门话题可以通过多种方式获得。比如,社交网络平台上一般都会有以热门话题的主题词条表示的热门话题列表,获取模块10可以直接从该社交网络平台上热门话题列表中获取热门话题的主题词条。比如,国内的新浪微博等在网站页面上列有“热门话题”列表,根据与各个话题相关的微博数量进行列表,直接获取这个列表上的热门话题的主题词条。有些热门话题不一定会出现在网络平台所列的热门话题列表中,但是被其他网站所提及,因而,获取模块10也可以从其他各网站的热点中获得相关主题词条。获取模块10还可以根据搜索的频率来确定热门话题,将词条的搜索频率超过一定数量的话题确定为热门话题的主题词条。
识别模块20,用于对获取模块10获取到的主题词条,利用至少一条预置的识别策略,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求。其中,每一条预置的识别策略对应于一种识别方法。
热门话题中包括所有与该热门话题的主题词条相关的文本信息、图片信息以及音视频信息等数据,并用话题标签来表示该话题,话题标签中包括主题词条和话题标识符“#”。在对热门话题进行翻译需求识别时,是根据热门话题的主题词条判断该热门话题所对应话题类别的文本信息是否有翻译需求。
其中,所述预置的识别策略包括:
D1、判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项。
此时,所述识别模块20具体配置为:用于利用识别策略D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,否则,进入S102。比如,以中文翻译成英文,目标语言为英文为例,如果热门话题的主题词条中包含英文词,则识别为有翻译需求,例如“ipad2”。
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,否则,进入S103。
一般来讲,认为主题词条包含音译词的热门话题具有翻译需求。比如,还是以中文翻译成英文,目标语言为英文为例,“希拉里”是由英文单词Hilary音译而来,如果有出现“希拉里”这样的音译词,则识别为有翻译需求。在判断是否为音译词时,可以利用现有的专名识别技术对语料中的音译词进行识别。现有的专名识别技术可以采用网络挖掘的方法,比如在网页上可以挖掘到“希拉里(Hilary)”这样的模式,利用括号信息就可以提取出专名。
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,识别为有翻译需求。否则,进入S105,识别为无翻译需求。
这个过程中,首先建立一个关键词列表,在这一列表中包含国家名、世界各大城市名、各种世界级体育赛事的名称等词项。如果热门话题的关键词匹配到该类表中的一个或者多个词,则识别为有翻译需求。
所述匹配度Sim可以用如下公式计算:
Sim = # matched # total
其中,#matched表示热门话题的主题词条所匹配到的关键词列表中词的个数,#total表示热门话题的主题词条所包含的总词数。比如,“2010世界杯”这一热门话题,如果“世界杯”已经放到我们的有翻译需求的关键词列表中,而“2010”没有收入该列表的话,则#match值为1,#total值为2。根据上述计算公式,热门话题与关键词列表的匹配度为0.5。实际应用中,当Sim高于某个阈值时,识别为有翻译需求。
D2、将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值。
热门话题的主题词条一般比较简短,可以先采用机器翻译系统,将该主题词条翻译成目标语言对应的主题词条译文;再利用翻译好的主题词条译文,在目标语言的网络平台中搜索所对应话题类别的文本信息。
此时,所述识别模块20具体配置为:用于利用识别策略D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,统计搜索到的文本信息的数量,如果搜索到的文本信息数量超过预设阈值,则识别为有翻译需求。
比如,在汉语的“世界杯2010”,假定目标语言为英文,则可以利用一个翻译词典将其翻译为英文“world cup 2010”,再在英文的网络平台中,如twitter,新浪英文微博等,搜索“world cup 2010”相关的微博,如果搜索到的微博数高于某一预设阈值,则认为该话题具有翻译需求。
D3、对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
针对每个热门话题发起用户调查,可以在页面上设置一个专栏,进行需求征集。比如,对于热门话题的中文关键词C,可以先利用翻译词典将中文关键词C翻译为英文关键词E,然后在专栏中进行如下提问:
Are you interested in#E?
比如,对于“世界杯2010”这一热门话题,可以直接设置如下问题:
Are you interested in#world cup 2010?
并提供两个答案(YES和NO)供用户选择。
此时,所述识别模块20具体配置为:用于利用识别策略D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,用于根据用户反馈的标注信息,统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。
或者,根据用户反馈的标注信息,采用机器分类系统进行分类,分为有翻译需求和无翻译需求两个类别,如图8所示,该机器分类系统具体包括:
标注信息获取单元401,用于获取用户标注的数据信息。
通过对每个热门话题设置专栏进行需求征集,获取用户标注的数据信息。将判断某个热门话题是否有翻译需求的问题转化为一个机器学习中的二分类问题,即将某个热门话题归为以下两个类别中的一个:a.有翻译需求b.无翻译需求。
分类器训练单元402,用于根据标注信息获取单元401获取的用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器。
通过用户调查的形式获取用户标注的数据后,采用现有的有监督的机器学习的方法如贝叶斯方法、最大熵方法或SVM等进行分类器的训练。所述分类器训练单元所选取的热门话题的分类特征包括:热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
其中,热门话题的关键词一般采用话题标签中的关键词,即主题词条中的关键词,如话题“世界杯2010”中包含的关键词有“世界杯”和“2010”。
由于话题标签中关键词个数一般比较少,我们可以对这些关键词利用同义词词典进行扩展。如话题“美国经济”中,“USA”是“美国”的同义词,那么“USA”也可以作为分类特征。
关键词的译文是热门话题关键词的翻译结果。由于在进行用户调查时,已经将热门话题的关键词进行了翻译。如调查用户对“世界杯2010”这一话题的兴趣时,提问的问题为“Are you interested in#world cup 2010?”。因此热门话题“世界杯2010”的翻译结果“world cup 2010”也作为分类特征。
另外,从涉及该热门话题的文本信息(微博)中提取频度较高的词,并进行过滤处理,去掉虚词如“的”、“了”等,得到该热门话题中的高频词。由于这些词在该热门话题中被大量提及,有较强的特征性,因而也作为分类特征。如关于“世界杯2010”的微博中会大量提及“进球”、“点球”、“梅西”等词,将这些词也作为分类特征。也就是说包含这些词的微博很有可能有翻译需求,而包含另外一些词时很有可能没有翻译需求。
分类单元403,用于利用分类器训练单元402训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
进行完分类器训练后,分类单元利用训练好的分类器对新的热门话题进行分类,如果分类器认为某个热门话题有翻译需求,则识别为有翻译需求。
所述识别模块20还可以具体配置为:用于利用识别策略D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
根据所述识别策略D1、D2和D3的识别结果,采用投票的方式进行判断,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求。
比如,设定为需要三种识别策略同时识别为有翻译需求,假设“世界杯2010”根据识别策略D1匹配到关键词列表的匹配度超过了预设阈值,且根据识别策略D2的识别结果亦为有翻译需求,但假设根据识别策略D3都被识别为无翻译需求,则将该热门话题“世界杯2010”判断为无翻译需求。如果设定只需要两种识别策略同时识别为有翻译需求,则该热门话题“世界杯2010”则为有翻译需求。这样做的目的是为了进一步提高翻译需求识别的准确性,采用上述识别策略分别进行验证,当两种或者三种策略的识别结果均为有翻译需求时,才将该热门话题判断为有翻译需求。
或者,先为所述识别策略D1、D2和D3分配不同的权重,再根据所述识别策略D1、D2和D3的识别结果,采用加权投票的方式进行判断,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
针对不同的应用环境,可以考虑不同策略的权重,再进行加权投票判断是否有翻译需求。比如,随着用户标注数据量的增加,采用机器进行自动分类方法的性能得到不断提高,则可以加大分类器这一识别策略的权重。
相应地,本发明还提供一种翻译系统,如图9所示,包括
获取模块10,用于获取网络平台的热门话题的主题词条。
识别模块20,用于对获取模块获取到的主题词条,采用识别策略判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求。
获取模块10和识别模块20与上述翻译需求识别系统中的模块一致,故不在此赘述。
搜索模块30,用于根据识别模块识别到的有翻译需求的热门话题的主题词条,在网络平台中搜索该热门话题对应话题类别的文本信息。
将识别为有翻译需求的热门话题组成有需求的热门话题列表,利用该热门话题列表在网络平台中搜索对应话题类别的相关内容,包括文本信息、图片信息以及音视频等。本发明的翻译方法主要针对热点话题对应类别中的文本信息。
分领域模块40,用于将搜索模块搜索到的文本信息利用文本分类技术进行领域划分,得到所述文本信息所属的领域。
在所述利用文本分类技术中,主要是预先构建分类器的过程。首先,选取一个原始训练样本集,对样本集中的文本采用聚类的方法,将样本集中同一类别的句子或词项归类到同一个类别中,被归类到同一个类别中的句子或词项可以认为是来自同一领域。其次,利用聚类的结果构建分类器,可以提取句子中词项的语义,词性以及各自的共现关系等作为分类特征,训练各个分类特征的权重,得到领域划分的分类器。
分领域模块40利用构建好的分类器,对新的文本信息进行领域划分。在进行分类时,先从某个热门话题待翻译的文本信息中随机抽取一批文本信息,利用分类器对该批文本信息进行分类,得到该热门话题相关文本信息所属的领域。比如,热门话题“世界杯2010”相关内容是属于体育领域。
翻译模块50,利用所述文本信息所属领域的机器翻译系统进行翻译得到文本信息译文,并将文本信息译文显示给用户。
所述机器翻译系统是预先通过双语语料进行训练得到的,针对不同领域有不同的机器翻译系统。具体的训练过程包括:首先,利用自动聚类方法对双语语料进行聚类,这个过程是对双语语料进行领域划分的过程;针对不同的领域,利用源语言和目标语言的共现频率作为特征,采用概率潜在语义分析(PLSA)聚类方法进行聚类,训练得到不同领域的机器翻译系统。
由于领域信息对于机器翻译质量具有至关重要的作用,为了提高翻译的准确性,采用分领域翻译的方式进行文本翻译。利用不同领域的机器翻译系统进行翻译,可以提高翻译的质量。对于一个待翻译的文本信息,首先判定该文本信息所属的领域,然后翻译模块50调用相应领域的机器翻译系统进行翻译。比如,对于热门话题“世界杯2010”相关的文本信息利用体育类的机器翻译系统进行翻译。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种翻译需求识别方法,其特征在于,包括:
获取网络平台中的热门话题的主题词条;
利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,其中
所述D1为:判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项;
所述D2为:将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值;
所述D3为:对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
2.根据权利要求1所述的方法,其特征在于,所述获取网络平台中的热门话题的主题词条具体包括:
直接从网络平台的热门话题列表中获得热门话题的主题词条;
或者,从各网站的热点中获得热门话题的主题词条。
3.根据权利要求1所述的方法,其特征在于,利用所述D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括以下步骤:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,否则,进入S102;
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,否则,进入S103;
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,否则,进入S105;
S104、识别为有翻译需求;
S105、识别为无翻译需求。
4.根据权利要求1所述的方法,其特征在于,利用所述D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,如果搜索到的文本信息数量超过预设阈值,则识别为有翻译需求。
5.根据权利要求1所述的方法,其特征在于,利用所述D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。
6.根据权利要求1所述的方法,其特征在于,利用所述D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,采用机器分类方法进行分类,分为有翻译需求和无翻译需求两个类别,具体包括以下步骤:
S401、获取用户标注的数据信息;
S402、根据用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器;
S403、利用训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
7.根据权利要求6所述的方法,其特征在于,所述热门话题的分类特征包括:
热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
8.根据权利要求1所述的方法,其特征在于,利用所述D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:利用D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
根据所述D1、D2和D3的识别结果,采用投票的方式进行判断,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求;
或者,先为所述D1、D2和D3分配不同的权重,再根据所述D1、D2和D3的识别结果,采用加权投票的方式进行判断,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
9.一种翻译方法,其特征在于,包括:
获取网络平台的热门话题的主题词条;
采用权利要求1-8任一权项所述的翻译需求识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求;
利用识别到的有翻译需求的热门话题的主题词条,在网络平台中搜索该热门话题对应话题类别的文本信息;
将搜索到的文本信息利用文本分类技术进行领域划分,得到所述文本信息所属的领域;
利用所述文本信息所属领域的机器翻译系统进行翻译得到文本信息译文,并将文本信息译文显示给用户。
10.一种翻译需求识别系统,其特征在于,包括:
获取模块,用于获取网络平台中的热门话题的主题词条;
识别模块,用于利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,其中
所述D1为:判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项;
所述D2为:将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值;
所述D3为:对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
11.根据权利要求10所述的系统,其特征在于,所述获取模块具体配置为:
用于直接从网络平台的热门话题列表中获得热门话题的主题词条;或者,用于从各网站的热点中获得热门话题的主题词条。
12.根据权利要求10所述的系统,其特征在于,所述识别模块具体配置为:用于利用D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,否则,进入S102;
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,否则,进入S103;
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,否则,进入S105;
S104、识别为有翻译需求;
S105、识别为无翻译需求。
13.根据权利要求10所述的系统,其特征在于,所述识别模块具体配置为:用于利用D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,当搜索到的文本信息数量超过预设阈值,则识别为有翻译需求。
14.根据权利要求10所述的系统,其特征在于,所述识别模块具体配置为:用于利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。
15.根据权利要求10所述的系统,其特征在于,所述识别模块具体配置为:用于利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,采用机器分类方法进行分类,分为有翻译需求和无翻译需求两个类别,具体包括:
标注信息获取单元,用于获取用户标注的数据信息;
分类器训练单元,用于根据标注信息获取单元获取的用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器;
分类单元,用于利用分类器训练单元训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
16.根据权利要求15所述的系统,其特征在于,所述分类器训练单元所选取的热门话题的分类特征包括:
热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
17.根据权利要求10所述的系统,其特征在于,所述识别模块具体配置为:用于利用D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
根据所述D1、D2和D3的识别结果,采用投票的方式进行判断,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求;
或者,先为所述D1、D2和D3分配不同的权重,再根据所述D1、D2和D3的识别结果,采用加权投票的方式进行判断,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
18.一种翻译系统,其特征在于,包括:
获取模块,用于获取网络平台的热门话题的主题词条;
识别模块,用于对获取模块获取到的主题词条,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求;
搜索模块,用于根据识别模块识别到的有翻译需求的热门话题的主题词条,在网络平台中搜索该热门话题对应话题类别的文本信息;
分领域模块,用于将搜索模块搜索到的文本信息利用文本分类技术进行领域划分,得到所述文本信息所属的领域;
翻译模块,利用所述文本信息所属领域的机器翻译系统进行翻译得到文本信息译文,并将文本信息译文显示给用户。
CN201110391077.2A 2011-11-30 2011-11-30 翻译需求识别方法及系统 Active CN103136192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110391077.2A CN103136192B (zh) 2011-11-30 2011-11-30 翻译需求识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110391077.2A CN103136192B (zh) 2011-11-30 2011-11-30 翻译需求识别方法及系统

Publications (2)

Publication Number Publication Date
CN103136192A CN103136192A (zh) 2013-06-05
CN103136192B true CN103136192B (zh) 2015-09-02

Family

ID=48496031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110391077.2A Active CN103136192B (zh) 2011-11-30 2011-11-30 翻译需求识别方法及系统

Country Status (1)

Country Link
CN (1) CN103136192B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729445B (zh) * 2013-12-30 2017-04-05 北京百度网讯科技有限公司 词汇译文的获取方法和装置
CN104391838B (zh) * 2014-08-18 2017-08-29 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN104317804B (zh) * 2014-09-23 2017-12-29 小米科技有限责任公司 发布投票信息的方法和装置
CN106156182A (zh) * 2015-04-20 2016-11-23 富士通株式会社 将微博话题词分类到具体领域的方法和设备
CN105488036A (zh) * 2015-11-23 2016-04-13 百度在线网络技术(北京)有限公司 基于人工智能机器人的翻译提供方法及装置
CN107766482B (zh) * 2017-10-13 2021-12-14 北京猎户星空科技有限公司 信息推送及发送方法、装置、电子设备、存储介质
CN108197122B (zh) * 2018-01-22 2018-11-23 河海大学 基于音节嵌入的藏汉人名音译方法
CN110287498B (zh) * 2019-05-30 2023-04-07 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质
CN111310483B (zh) * 2020-02-11 2023-06-16 北京字节跳动网络技术有限公司 一种翻译方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402852A (zh) * 1999-10-22 2003-03-12 动感天空公司 面向目标的视频系统
JP2009093471A (ja) * 2007-10-10 2009-04-30 Brother Ind Ltd 翻訳ニーズ決定方法、翻訳ニーズ決定装置及び翻訳ニーズ決定プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169592A1 (en) * 2001-05-11 2002-11-14 Aityan Sergey Khachatur Open environment for real-time multilingual communication

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402852A (zh) * 1999-10-22 2003-03-12 动感天空公司 面向目标的视频系统
JP2009093471A (ja) * 2007-10-10 2009-04-30 Brother Ind Ltd 翻訳ニーズ決定方法、翻訳ニーズ決定装置及び翻訳ニーズ決定プログラム

Also Published As

Publication number Publication date
CN103136192A (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN103136192B (zh) 翻译需求识别方法及系统
Eke et al. Sarcasm identification in textual data: systematic review, research challenges and open directions
Zhang et al. Sentiment analysis of Chinese documents: From sentence to document level
Duan et al. An empirical study on learning to rank of tweets
Mondal et al. Analysis and early detection of rumors in a post disaster scenario
Kang et al. Modeling user interest in social media using news media and wikipedia
CN102163198B (zh) 提供新词或热词的方法及系统
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
Zhao et al. Personalized reason generation for explainable song recommendation
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
US8510308B1 (en) Extracting semantic classes and instances from text
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
Zangerle et al. Using tag recommendations to homogenize folksonomies in microblogging environments
Kumar et al. Hashtag recommendation for short social media texts using word-embeddings and external knowledge
CN103970756A (zh) 热点话题提取方法、装置和服务器
Çetinkaya et al. Developing a Twitter bot that can join a discussion using state-of-the-art architectures
Kalloubi et al. Harnessing semantic features for large-scale content-based hashtag recommendations on microblogging platforms
WO2014189239A1 (ko) 온라인 콘텐츠 가치 향상 방법 및 시스템
Mizzaro et al. Short text categorization exploiting contextual enrichment and external knowledge
Diemert et al. Unsupervised query categorization using automatically-built concept graphs
Syed et al. Frame-oriented summarization of argumentative discussions
Luo et al. Structuring T weets for improving T witter search
US20120023119A1 (en) Data searching system
Liebeskind et al. Text categorization from category name in an industry-motivated scenario
Drury A Text Mining System for Evaluating the Stock Market's Response To News

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant