CN105408891B - 用于多用户多语言通信的系统和方法 - Google Patents

用于多用户多语言通信的系统和方法 Download PDF

Info

Publication number
CN105408891B
CN105408891B CN201480041034.3A CN201480041034A CN105408891B CN 105408891 B CN105408891 B CN 105408891B CN 201480041034 A CN201480041034 A CN 201480041034A CN 105408891 B CN105408891 B CN 105408891B
Authority
CN
China
Prior art keywords
translation
chat
user
word
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480041034.3A
Other languages
English (en)
Other versions
CN105408891A (zh
Inventor
加百利·莱顿
弗朗科伊斯·奥尔西尼
尼基希尔·博亚
阿朗·尼顿舍施安
巴特罗米亚·普宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MZ IP Holdings LLC
Original Assignee
MZ IP Holdings LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/908,979 external-priority patent/US9298703B2/en
Application filed by MZ IP Holdings LLC filed Critical MZ IP Holdings LLC
Priority to CN201910333578.1A priority Critical patent/CN110069789A/zh
Publication of CN105408891A publication Critical patent/CN105408891A/zh
Application granted granted Critical
Publication of CN105408891B publication Critical patent/CN105408891B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/04Payment circuits
    • G06Q20/06Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/063Content adaptation, e.g. replacement of unsuitable content

Abstract

本文所述的各实施例促进多语言通信。一些实施例的系统和方法使得能够通过不同的通信模式进行多语言通信,例如,所述通信模式包括网络聊天、电子邮件、基于文本的移动电话通信、在线论坛的帖子、在线社交媒体服务的帖子等等。一些实施例实施在两种或更多语言之间翻译文本的通信系统和方法。所述系统和方法的用户可被鼓励提交不准确或错误翻译的校正,并且可因这些提交内容而接收奖励。本发明描述用于评估翻译准确性的系统和方法。

Description

用于多用户多语言通信的系统和方法
相关申请案的交叉参考
本申请案主张2013年6月3日提交的第13/908,979号美国专利申请案的优先权和权益,该申请以全文引用的方式并入本文中。
技术领域
本发明大体涉及语言翻译,确切地说,涵盖多个用户和多种语言的语言翻译。
背景技术
在出现基于机器的语言翻译(下文称为“机器翻译”)之前,两种语言之间的翻译只能通过受过两种语言教育的人介入或解译来实现。相反,典型的机器翻译一般基于语境和语法的统计学/随机分析进行操作,通常不需要人工介入/解译。
典型的机器翻译时常容易出错,尤其是在需要翻译的文本具有极小语境的时候。在使用简短语句结构的对话中经常能发现语境极小的文本。此外,机器翻译经常在缩写词、缩略语、指小词、口语单词/短语、专有名词以及常用词上遇到问题,这些词也是对话文本中常用到的。
发明内容
本文所述的各实施例提供涉及多个用户之间的多语言通信的系统和方法,其中用户可能在两个或更多客户端系统处。实施例促进的通信模式可包括:网络聊天(例如,iMessage、Live Messenger等)、电子邮件(例如,嵌入式论坛消息、邮件、RFC 5322等)、基于文本的移动电话通信(例如,SMS消息或MMS消息)、在线论坛的帖子(例如,基于网络的业余爱好论坛的帖子),以及在线社交媒体服务的帖子(例如,等)。例如,系统和方法可实施多语言多用户聊天系统。
在一些实施例中,所述方法包括:识别第一语言和第二语言;从使用所述第一语言通信的第一聊天客户端系统处的第一人接收所述第一语言的初始消息;以及针对基于所述第一语言的所述初始消息的所述第二语言的第一对应消息,查询数据存储。如果所述数据存储包括所述第一对应消息,那么所述方法便可帮助将所述对应消息发送到使用所述第二语言通信的第二聊天客户端系统处的第二人。根据实施例,所述初始消息可包括文本、表情符号、基于ASCII的技术,或者通过网络发送的人类可读消息适合或惯用的其他内容。此外,所述初始消息可以是聊天客户端系统之间传送的更大消息的一部分(例如,初始消息是多语句消息中的一个语句)。
如果数据存储并不包括第一对应消息,那么所述方法可使用转换引擎来尝试将初始消息的至少一部分转换成使用第一语言的转换消息。使用转换消息之后,所述方法随后可针对基于转换消息的第二语言的第二对应消息来查询数据存储。
对于某些实施例而言,在针对基于转换消息的第二对应消息查询数据存储之前,所述系统或方法可尝试使用一系列的转换操作来转换初始消息。或者,在一些实施例中,所述系统或方法可反复执行转换和查询,借此使用可用转换操作的子集来转换初始消息,针对基于所得转换消息的第二对应消息来查询数据存储,并且如果没有识别到第二对应消息,那么执行转换和查询的另一重复(例如,使用可用转换操作的另一子集进一步转换所得转换消息,而且针对基于所得转换消息的第二对应消息来查询数据存储)。在一些此类实施例中,应用于每次重复的转换操作的子集可应用于初始消息,或者可应用于最新得到的转换消息。
最后,所述方法可协助将初始消息或转换消息翻译成使用第二语言的对应消息。在一些实施例中,当用于初始消息的第一对应消息不在数据存储中并且转换引擎没有转换初始消息的至少一部分时,初始消息可被翻译成对应消息。此外,在各实施例中,当初始消息的第一对应消息不在数据存储中时;当转换引擎产生的转换消息含有初始消息的至少一部分的转换时;以及当数据存储不包括转换消息的第二对应消息时,转换消息均可被翻译成对应消息。
根据实施例,转换初始消息的一部分可包括:识别初始消息中的聊天俚语(chatspeak)单词或短语(例如,‘lol’、‘gr8’)并用非聊天俚语的单词或短语来替换所述聊天俚语单词或短语;对初始消息的部分执行拼写检查;或者识别初始消息的部分中的缩写词并用对应于(例如,代表)所述缩写词的单词或短语来替换所述缩写词(例如,用‘加利福尼亚’(California)替换“CA”,或者将‘brb’替换成‘马上回来’(be right back))。
此外,转换初始消息的部分可包括:识别初始消息的部分中的缩略语并用对应于(例如,代表)所述缩略语(例如,‘USA’)的单词或短语来替换所述缩略语;或者识别初始消息的部分中的口语单词或短语并用代表所述口语单词或短语的单词或短语来替换所述口语单词或短语。此外,转换初始消息的部分可包括:识别初始消息的部分中的亵渎词或短语并且用(例如,代表所述亵渎词或短语的)非亵渎词或短语来替换所述亵渎词或短语或者从初始消息中去掉所述亵渎词或短语。
对于一些实施例而言,转换初始消息的部分可包括将初始消息的部分标记成不翻译。例如,在初始消息的某一部分包括专有名词、常用词、指小词、缩写词或缩略语的情况下,所述方法可标记所述某一部分,从而它在后续的操作中不会被翻译。
某些实施例提供系统,其包括被配置成执行本文所述的各种操作的各种部件。同样,某些实施例提供计算机程序产品,其包括被配置成致使计算机系统执行本文所述的各种操作的计算机指令代码。
一方面,本发明涉及计算机实施的方法。所述方法包括:从数据存储中选择与翻译失败相关联的单词或短语,所述翻译失败是未能将含有所述单词或短语的消息从第一语言翻译成第二语言;选择用户以针对所述翻译识别征求用户反馈;确定提供给所述用户的激励值,作为用户反馈的交换;将反馈的请求发送到用户的计算装置,所述请求包括所述激励;接收来自计算装置的用户反馈,其中用户反馈包括第一或第二语言的相应单词或短语;确定用户反馈得到认可;以及基于所述认可,根据激励的值来给用户的账户记积分。
在某些实施例中,所述失败归因于未能翻译消息的实际失败。所述失败可被识别为或可因为用户将消息标记为可能不正确。选择用户可基于用户的信度测量、与用户相关联的配额、用户账户的先前积分、用户的偏好或者用户的语言能力。在一些实施例中,单词或短语包括第一语言的聊天俚语。响应可包括第二语言的聊天俚语。在一些实施方案中,查询包括被配置成接收基于文本的值的字段。
在某些实施例中,请求包括预选定义的集合,用户可从所述集合中选择单词或短语的定义。例如,预选定义的集合可包括另一用户响应于另一请求提供的至少一个定义,其他请求是先前生成的,以从其他用户获取单词或短语的先前用户反馈。所述其他请求可包括预选定义的另一集合,其他用户从所另一述集合中选择定义。所述方法还可包括评估用户反馈以确定最普遍的响应。
在各实施例中,所述方法还包括基于用户反馈来确定用户的资格。所述方法也可包括基于用户反馈来更新单词或短语从第一语言到第二语言的转换或翻译。在一些实施例中,确定用户反馈得到认可可包括确定用户反馈没有欺骗性和/或确定用户反馈准确。确定用户反馈得到认可可基于用户反馈与另一用户响应于另一请求而提供的至少一个先前用户反馈的比较,其他请求是先前生成的,以从其他用户获取单词或短语的反馈。
在某些实施例中,激励包括(或提供)游戏货币或游戏物品。例如,可基于单词或短语的复杂性或者单词或短语的重要性来确定激励的值。在一些实例中,确定激励的值包括考虑(i)单词或短语的复杂性,(ii)单词或短语的重要性,(iii)用户使用的响应方法,(iv)单词或短语的类型,和/或(v)翻译失败中涉及的语言。
另一方面,本发明涉及包括一个或多个计算机的系统,所述计算机经编程以执行操作。所述操作包括:从数据存储中选择与翻译失败相关联的单词或短语,所述翻译失败是未能将含有所述单词或短语的消息从第一语言翻译成第二语言;选择用户以针对所述翻译识别请求用户反馈;确定提供给所述用户的激励值,作为用户反馈的交换;将反馈请求发送到用户的计算装置,所述请求包括所述激励;接收来自计算装置的用户反馈,其中用户反馈包括使用第一或第二语言的相应单词或短语;确定用户反馈得到认可;以及基于所述认可,给用户的账户记积分。
在某些实施例中,所述失败归因于未能翻译消息的实际失败。所述失败可被识别为或可因为用户将消息标记为可能不正确。选择用户可基于用户的信度测量、与用户相关联的配额、用户账户的先前积分、用户的偏好或者用户的语言能力。在一些实施例中,单词或短语包括第一语言的聊天俚语。响应可包括第二语言的聊天俚语。在一些实施方案中,查询包括被配置成接收基于文本的值的字段。
在某些实施例中,请求包括预选定义的集合,用户可从所述集合中选择单词或短语的定义。例如,预选定义的集合可包括另一用户响应于另一请求提供的至少一个定义,其他请求是先前生成的,以从其他用户获取单词或短语的先前用户反馈。所述其他请求可包括预选定义的另一集合,其他用户从所另一述集合中选择定义。所述操作还可包括评估用户反馈以确定最普遍的响应。
在各实施例中,所述操作还包括基于用户反馈来确定用户的资格。所述操作也可包括基于用户反馈来更新单词或短语从第一语言到第二语言的转换或翻译。在一些实施例中,确定用户反馈得到认可可包括确定用户反馈没有欺骗性和/或确定用户反馈准确。确定用户反馈得到认可可基于用户反馈与另一用户响应于另一请求而提供的至少一个先前用户反馈的比较,其他请求是先前生成的,以从其他用户获取单词或短语的反馈。
在某些实施例中,激励包括(或提供)游戏货币或游戏物品。例如,可基于单词或短语的复杂性或者单词或短语的重要性来确定激励的值。在一些实例中,确定激励的值包括考虑(i)单词或短语的复杂性,(ii)单词或短语的重要性,(iii)用户使用的响应方法,(iv)单词或短语的类型,和/或(v)翻译失败中涉及的语言。
另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于通过激励反馈来提高语言翻译。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:从数据存储中选择与翻译失败相关联的单词或短语,所述翻译失败是未能将含有所述单词或短语的消息从第一语言翻译成第二语言;选择用户以针对所述翻译识别征求用户反馈;确定提供给所述用户的激励值,作为用户反馈的交换;将反馈请求发送到用户的计算装置,所述请求包括所述激励;接收来自计算装置的用户反馈,其中用户反馈包括使用第一或第二语言的相应单词或短语;确定用户反馈得到认可;以及基于所述认可,给用户的账户记积分。
在某些实施例中,所述失败归因于未能翻译消息的实际失败。所述失败可被识别为或可因为用户将消息标记为可能不正确。选择用户可基于用户的信度测量、与用户相关联的配额、用户账户的先前积分、用户的偏好或者用户的语言能力。在一些实施例中,单词或短语包括第一语言的聊天俚语。响应可包括第二语言的聊天俚语。在一些实施方案中,查询包括被配置成接收基于文本的值的字段。
在某些实施例中,请求包括预选定义的集合,用户可从所述集合中选择单词或短语的定义。例如,预选定义的集合可包括另一用户响应于另一请求提供的至少一个定义,其他请求是先前生成的,以从其他用户获取单词或短语的先前用户反馈。所述其他请求可包括预选定义的另一集合,其他用户从所另一述集合中选择定义。所述操作还可包括评估用户反馈以确定最普遍的响应。
在各实施例中,所述操作还包括基于用户反馈来确定用户的资格。所述操作也可包括基于用户反馈来更新单词或短语从第一语言到第二语言的转换或翻译。在一些实施例中,确定用户反馈得到认可可包括确定用户反馈没有欺骗性和/或确定用户反馈准确。确定用户反馈得到认可可基于用户反馈与另一用户响应于另一请求而提供的至少一个先前用户反馈的比较,其他请求是先前生成的,以从其他用户获取单词或短语的反馈。
在某些实施例中,激励包括(或提供)游戏货币或游戏物品。例如,可基于单词或短语的复杂性或者单词或短语的重要性来确定激励的值。在一些实例中,确定激励的值包括考虑(i)单词或短语的复杂性,(ii)单词或短语的重要性,(iii)用户使用的响应方法,(iv)单词或短语的类型,和/或(v)翻译失败中涉及的语言。
在一方面,本发明涉及数据处理设备实施的方法。所述方法包括:将文本消息聊天系统提供给多个用户;接收来自第一用户的第一语言的原始文本消息;生成原始文本消息的第二语言的初始翻译;将原始文本消息和初始翻译提供给第二用户;接收来自第二用户的翻译校正,以解决初始翻译中的错误;以及以下至少一个:(a)识别多个翻译校正中的最准确的翻译校正,所述多个翻译校正包括来自第二用户的翻译校正;和(b)使用基于单词的特征、基于短语的特征和/或单词对齐特征,评估来自第二用户的翻译校正的准确性。
在某些实施例中,所述方法包括提供激励(例如,用于在线游戏中的虚拟商品和/或虚拟货币),以鼓励第二用户提交翻译校正。确定最准确的翻译校正可包括:接收来自至少一个额外用户的至少一个翻译校正,以解决初始翻译中的错误,其中所述至少一个额外的翻译校正和来自第二用户的翻译校正定义了多个翻译校正;接收来自用户的有关多个翻译校正的准确性的反馈;以及基于所述反馈,识别多个翻译校正中的最准确的翻译校正。
在一些实施方案中,所述方法还包括向提交最准确的翻译校正的用户提供奖励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)。所述方法还包括将奖励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)提供给用户,所述用户提供的反馈用来识别最准确的翻译。例如,基于单词的特征可包括单词计数、字符数、表情符号(emojis)、数字和/或标点符号。使用基于语言的特征可包括识别原始文本消息和来自第二用户的翻译校正中出现的词类。
在一些实施例中,所述方法还包括:识别原始文本消息和来自第二用户的翻译校正中的每个中出现的若干动词;以及将原始文本消息中的动词数量与来自第二用户的翻译校正中的动词数量进行比较。原始文本消息和/或来自第二用户的翻译校正中缺少词类可表明语言检测失败。所述方法还可包括:当来自第二用户的翻译校正与初始翻译相同时,否决来自第二用户的翻译校正。
在另一方面,本发明涉及系统,所述系统包括存储有指令的计算机可读介质以及数据处理设备。数据处理设备被配置成执行指令,以执行操作,所述操作包括:将文本消息聊天系统提供给多个用户;接收来自第一用户的第一语言的原始文本消息;生成原始文本消息的第二语言的初始翻译;将原始文本消息和初始翻译提供给第二用户;接收来自第二用户的翻译校正,以解决初始翻译中的错误;以及以下至少一个:(a)识别多个翻译校正中的最准确的翻译校正,所述多个翻译校正包括来自第二用户的翻译校正;和(b)使用基于单词的特征、基于短语的特征和/或单词对齐特征,评估来自第二用户的翻译校正的准确性。
在某些实施例中,所述操作包括提供激励(例如,用于在线游戏中的虚拟商品和/或虚拟货币),以鼓励第二用户提交翻译校正。确定最准确的翻译校正可包括:接收来自至少一个额外用户的至少一个翻译校正,以解决初始翻译中的错误,其中所述至少一个额外的翻译校正和来自第二用户的翻译校正定义了多个翻译校正;接收来自用户的有关多个翻译校正的准确性的反馈;以及基于所述反馈,识别多个翻译校正中的最准确的翻译校正。
在一些实施方案中,所述操作还包括将奖励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)提供给提交了最准确的翻译的用户。所述操作还包括将奖励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)提供给用户,所述用户提供的反馈用来识别最准确的翻译。例如,基于单词的特征可包括单词计数、字符数、表情符号(emojis)、数字和/或标点符号。使用基于语言的特征可包括识别原始文本消息和来自第二用户的翻译校正中出现的词类。
在一些实施例中,所述操作还包括:识别原始文本消息和来自第二用户的翻译校正中的每个中出现的若干动词;以及将原始文本消息中的动词数量与来自第二用户的翻译校正中的动词数量进行比较。原始文本消息和/或来自第二用户的翻译校正中缺少词类可表明语言检测失败。所述操作还可包括:当来自第二用户的翻译校正与初始翻译相同时,否决来自第二用户的翻译校正。
在另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于控制数据处理设备的处理模式。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:将文本消息聊天系统提供给多个用户;接收来自第一用户的第一语言的原始文本消息;生成原始文本消息的第二语言的初始翻译;将原始文本消息和初始翻译提供给第二用户;接收来自第二用户的翻译校正,以解决初始翻译中的错误;以及以下至少一个:(a)识别多个翻译校正中的最准确的翻译校正,所述多个翻译校正包括来自第二用户的翻译校正;和(b)使用基于单词的特征、基于短语的特征和/或单词对齐特征,评估来自第二用户的翻译校正的准确性。
在某些实施例中,所述操作包括提供激励(例如,用于在线游戏中的虚拟商品和/或虚拟货币),以鼓励第二用户提交翻译校正。确定最准确的翻译校正可包括:接收来自至少一个额外用户的至少一个翻译校正,以解决初始翻译中的错误,其中所述至少一个额外的翻译校正和来自第二用户的翻译校正定义了多个翻译校正;接收来自用户的有关多个翻译校正的准确性的反馈;以及基于所述反馈,识别多个翻译校正中的最准确的翻译校正。
在一些实施方案中,所述操作还包括将奖励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)提供给提交了最准确的翻译的用户。所述操作还包括将奖励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)提供给那些提供了用来识别最准确的翻译的反馈的用户。例如,基于单词的特征可包括单词计数、字符数、表情符号(emojis)、数字和/或标点符号。使用基于语言的特征可包括识别原始文本消息和来自第二用户的翻译校正中出现的词类。
在一些实施例中,所述操作还包括:识别原始文本消息和来自第二用户的翻译校正中的每个中出现的若干动词;以及将原始文本消息中的动词数量与来自第二用户的翻译校正中的动词数量进行比较。原始文本消息和/或来自第二用户的翻译校正中缺少词类可表明语言检测失败。所述操作还可包括:当来自第二用户的翻译校正与初始翻译相同时,否决来自第二用户的翻译校正。
在一方面,本发明涉及数据处理设备实施的方法。所述方法包括:识别第一语言和第二语言;从使用第一语言通信的第一聊天客户端系统处的第一人接收第一语言的聊天俚语可听消息;将聊天俚语可听消息变换成第一语言的聊天俚语文本消息;将聊天俚语文本消息转换成第一语言的普通用语(plain speak)文本消息;将普通用语文本消息翻译成第二语言的对应普通用语文本消息;将对应普通用语文本消息转换成第二语言的对应聊天俚语文本消息;将对应聊天俚语文本消息变换成第二语言的对应聊天俚语可听消息;以及将对应聊天俚语可听消息发送到使用第二语言通信的第二聊天客户端系统处的第二人。
在某些实施例中,将聊天俚语可听消息转换成第一语言的聊天俚语文本消息包括将聊天俚语可听消息提供给语音识别系统。转换聊天俚语文本消息可包括:识别聊天俚语文本消息中的聊天俚语单词或短语;并且用非聊天俚语单词或短语来替换所述聊天俚语单词或短语。在一些实例中,将对应聊天俚语文本消息转换成第二语言的对应聊天俚语可听消息包括将对应聊天俚语文本消息提供给文本转语音系统。
在某些实施例中,语音识别系统和/或文本转语音系统使用数据,所述数据包括用于第一语言和第二语言中的每个的多个口音和方言。所述数据包括用于第一语言和第二语言中的每个的聊天俚语和普通用语格式。在各实施例中,所述方法包括接收来自用户的有关以下项的准确性的反馈:对应普通用语文本消息、对应聊天俚语文本消息和/或对应聊天俚语可听消息。所述方法还可包括向提供反馈的用户给出激励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)。在一些情况下,所述方法包括处理反馈,以提高语音识别系统和/或文本转语音系统的准确性。
在另一方面,本发明涉及系统,所述系统包括存储有指令的计算机可读介质以及数据处理设备。数据处理设备被配置成执行指令,以执行操作,所述操作包括:识别第一语言和第二语言;从使用第一语言通信的第一聊天客户端系统处的第一人接收第一语言的聊天俚语可听消息;将聊天俚语可听消息变换成第一语言的聊天俚语文本消息;将聊天俚语文本消息转换成第一语言的普通用语(plain speak)文本消息;将普通用语文本消息翻译成第二语言的对应普通用语文本消息;将对应普通用语文本消息转换成第二语言的对应聊天俚语文本消息;将对应聊天俚语文本消息变换成第二语言的对应聊天俚语可听消息;以及将对应聊天俚语可听消息发送到使用第二语言通信的第二聊天客户端系统处的第二人。
在某些实施例中,将聊天俚语可听消息转换成第一语言的聊天俚语文本消息包括将聊天俚语可听消息提供给语音识别系统。转换聊天俚语文本消息可包括:识别聊天俚语文本消息中的聊天俚语单词或短语;并且用非聊天俚语单词或短语来替换所述聊天俚语单词或短语。在一些实例中,将对应聊天俚语文本消息转换成第二语言的对应聊天俚语可听消息包括将对应聊天俚语文本消息提供给文本转语音系统。
在某些实施例中,语音识别系统和/或文本转语音系统使用数据,所述数据包括用于第一语言和第二语言中的每个的多个口音和方言。所述数据包括用于第一语言和第二语言中的每个的聊天俚语和普通用语格式。在各实施例中,所述操作包括接收来自用户的有关以下项的准确性的反馈:对应普通用语文本消息、对应聊天俚语文本消息和/或对应聊天俚语可听消息。所述操作还可包括向提供反馈的用户给出激励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)。在一些情况下,所述操作包括处理反馈,以提高语音识别系统和/或文本转语音系统的准确性。
在另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于控制数据处理设备的处理模式。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:识别第一语言和第二语言;从使用第一语言通信的第一聊天客户端系统处的第一人接收第一语言的聊天俚语可听消息;将聊天俚语可听消息变换成第一语言的聊天俚语文本消息;将聊天俚语文本消息转换成第一语言的普通用语(plainspeak)文本消息;将普通用语文本消息翻译成第二语言的对应普通用语文本消息;将对应普通用语文本消息转换成第二语言的对应聊天俚语文本消息;将对应聊天俚语文本消息变换成第二语言的对应聊天俚语可听消息;以及将对应聊天俚语可听消息发送到使用第二语言通信的第二聊天客户端系统处的第二人。
在某些实施例中,将聊天俚语可听消息转换成第一语言的聊天俚语文本消息包括将聊天俚语可听消息提供给语音识别系统。转换聊天俚语文本消息可包括:识别聊天俚语文本消息中的聊天俚语单词或短语;并且用非聊天俚语单词或短语来替换所述聊天俚语单词或短语。在一些实例中,将对应聊天俚语文本消息转换成第二语言的对应聊天俚语可听消息包括将对应聊天俚语文本消息提供给文本转语音系统。
在某些实施例中,语音识别系统和/或文本转语音系统使用数据,所述数据包括用于第一语言和第二语言中的每个的多个口音和方言。所述数据包括用于第一语言和第二语言中的每个的聊天俚语和普通用语格式。在各实施例中,所述操作包括接收来自用户的有关以下项的准确性的反馈:对应普通用语文本消息、对应聊天俚语文本消息和/或对应聊天俚语可听消息。所述操作还可包括向提供反馈的用户给出激励(例如,用于在线游戏中的虚拟商品和/或虚拟货币)。在一些情况下,所述操作包括处理反馈,以提高语音识别系统和/或文本转语音系统的准确性。
在一方面,本发明涉及数据处理设备实施的方法。所述方法包括:选择旧训练数据(例如,包括已知不同语言的正确翻译的一个或多个旧文本消息)和新训练数据(例如,包括一个或多个未知不同语言的正确翻译的一个或多个新文本消息)的混合数据;在不同时间将多个相应请求发送到用户的客户端装置(或者发送到多个用户的多个客户端装置),其中所述请求包括(i)让用户翻译旧训练数据和/或新训练数据的相应请求以及(ii)翻译的相应激励;在发送特定请求之后,从客户端装置接收针对特定请求的旧训练数据的翻译;将接收到的翻译与旧训练数据的正确翻译进行比较;基于所述比较来确定接收到的翻译的准确性;以及基于翻译来更新用户的信度分数。信度分数代表用户将在之后的时间提供文本消息到不同语言的准确翻译的可能性。
在某些实施例中,用户是在线游戏的参与者。例如,相应激励可包括用于在线游戏中的虚拟商品和/或虚拟货币。确定接收自用户的翻译的准确性可包括(i)计算词错误率(WER)和/或(ii)使用双语评估替代(BLEU)。在一些情况下,更新用户的信度分数包括使用项目响应理论来识别与用户翻译准确性的基准的偏离。所述方法还可包括:当信度分数低于阈值时,撤回用户的翻译特权。
在各实施方案中,所述方法包括:当用户的翻译被确定正确时,奖励用户相应的激励。所述方法还可包括通过识别用户与第二用户之间预先存在的关系来检测用户与第二用户之间的串通行为。在一个实例中,识别预先存在的关系包括分析用户和第二用户中的至少一个的社交网络。
在另一方面,本发明涉及系统,所述系统包括存储有指令的计算机可读介质以及数据处理设备。数据处理设备被配置成执行指令,以执行操作,所述操作包括:选择旧训练数据(例如,包括已知不同语言的正确翻译的一个或多个旧文本消息)和新训练数据(例如,包括一个或多个未知不同语言的正确翻译的一个或多个新文本消息)的混合数据;在不同时间将多个相应请求发送到用户的客户端装置(或者发送到多个用户的多个客户端装置),其中所述请求包括(i)让用户翻译旧训练数据和/或新训练数据的相应请求以及(ii)翻译的相应激励;在发送特定请求之后,从客户端装置接收针对特定请求的旧训练数据的翻译;将接收到的翻译与旧训练数据的正确翻译进行比较;基于所述比较来确定接收到的翻译的准确性;以及基于翻译来更新用户的信度分数。信度分数代表用户将在之后的时间提供文本消息到不同语言的准确翻译的可能性。
在某些实施例中,用户是在线游戏的参与者。例如,相应激励可包括用于在线游戏中的虚拟商品和/或虚拟货币。确定接收自用户的翻译的准确性可包括(i)计算词错误率(WER)和/或(ii)使用双语评估替代(BLEU)。在一些情况下,更新用户的信度分数包括使用项目响应理论来识别与用户翻译准确性的基准的偏离。所述操作还可包括:当信度分数低于阈值时,撤回用户的翻译特权。
在各实施方案中,所述操作包括:当用户的翻译被确定正确时,奖励用户相应的激励。所述操作还可包括通过识别用户与第二用户之间预先存在的关系来检测用户与第二用户之间的串通行为。在一个实例中,识别预先存在的关系包括分析用户和第二用户中的至少一个的社交网络。
在另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于控制数据处理设备的处理模式。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:选择旧训练数据(例如,包括已知不同语言的正确翻译的一个或多个旧文本消息)和新训练数据(例如,包括一个或多个未知不同语言的正确翻译的一个或多个新文本消息)的混合数据;在不同时间将多个相应请求发送到用户的客户端装置(或者发送到多个用户的多个客户端装置),其中所述请求包括(i)让用户翻译旧训练数据和/或新训练数据的相应请求以及(ii)翻译的相应激励;在发送特定请求之后,从客户端装置接收针对特定请求的旧训练数据的翻译;将接收到的翻译与旧训练数据的正确翻译进行比较;基于所述比较来确定接收到的翻译的准确性;以及基于翻译来更新用户的信度分数。信度分数代表用户将在之后的时间提供文本消息到不同语言的准确翻译的可能性。
在某些实施例中,用户是在线游戏的参与者。例如,相应激励可包括用于在线游戏中的虚拟商品和/或虚拟货币。确定接收自用户的翻译的准确性可包括(i)计算词错误率(WER)和/或(ii)使用双语评估替代(BLEU)。在一些情况下,更新用户的信度分数包括使用项目响应理论来识别与用户翻译准确性的基准的偏离。所述操作还可包括:当信度分数低于阈值时,撤回用户的翻译特权。
在各实施方案中,所述操作包括:当用户的翻译被确定正确时,奖励用户相应的激励。所述操作还可包括通过识别用户与第二用户之间预先存在的关系来检测用户与第二用户之间的串通行为。在一个实例中,识别预先存在的关系包括分析用户和第二用户中的至少一个的社交网络。
在一方面,本发明涉及数据处理设备实施的方法。所述方法包括:获取第一语言的文本消息,所述文本消息包括至少一个单词;将文本消息提供给机器翻译系统;从机器翻译系统获取文本消息的翻译;确定文本消息和翻译都包括第一语言的至少一个单词,并且所述至少一个单词拼写正确;以及执行以下一个或多个:(a)确定所述至少一个单词出现在先前文本消息中的频率;(b)确定所述至少一个单词之前和之后出现的相邻单词的贝叶斯概率(Bayesian probability);以及(c)执行k均值聚类以识别包括同义词的单词的群集。当频率超出第一阈值时,当贝叶斯概率超出第二阈值时,和/或当群集包括所述至少一个单词时,所述方法包括将所述至少一个单词添加到数据存储中的词典。
在某些实施例中,至少一个单词包括或是词库外的单词。至少一个单词可以是或可包括新的聊天俚语单词。所述方法可包括确定数据存储中的词典是否包括所述至少一个单词。文本消息可接收自在线游戏的玩家的客户端装置。在各实例中,词典包括第一语言的词库中的单词或由其组成。
确定贝叶斯概率可包括(i)复查先前文本消息中的至少一个单词的先前使用,以及(ii)识别出现在先前文本消息中的至少一个单词之前和之后的单词(如果有的话)。贝叶斯概率可提供相邻单词将出现在文本消息中的所述至少一个单词之前和之后的可能性的指示。
在各实施方案中,识别群集包括复查先前的文本消息,并且将类似语境中使用的单词识别为所述文本消息中的至少一个单词。所述方法还可包括分析文本消息的句法和语义,以确定文本消息中出现的词类。
在另一方面,本发明涉及系统,所述系统包括存储有指令的计算机可读介质以及数据处理设备。数据处理设备被配置成执行指令,以执行操作,所述操作包括:获取第一语言的文本消息,所述文本消息包括至少一个单词;将文本消息提供给机器翻译系统;从机器翻译系统获取文本消息的翻译;确定文本消息和翻译都包括第一语言的至少一个单词,并且所述至少一个单词拼写正确;以及执行以下一个或多个:(a)确定所述至少一个单词出现在先前文本消息中的频率;(b)确定所述至少一个单词之前和之后出现的相邻单词的贝叶斯概率(Bayesian probability);以及(c)执行k均值聚类以识别包括同义词的单词的群集。当频率超出第一阈值时,当贝叶斯概率超出第二阈值时,和/或当群集包括所述至少一个单词时,所述方法包括将所述至少一个单词添加到数据存储中的词典。
在某些实施例中,至少一个单词包括或是词库外的单词。至少一个单词可以是或可包括新的聊天俚语单词。所述操作可包括确定数据存储中的词典是否包括所述至少一个单词。文本消息可接收自在线游戏的玩家的客户端装置。在各实例中,词典包括第一语言的词库中的单词或由其组成。
确定贝叶斯概率可包括(i)复查先前文本消息中的至少一个单词的先前使用,以及(ii)识别出现在先前文本消息中的至少一个单词之前和之后的单词(如果有的话)。贝叶斯概率可提供相邻单词将出现在文本消息中的所述至少一个单词之前和之后的可能性的指示。
在各实施方案中,识别群集包括复查先前的文本消息,并且将类似语境中使用的单词识别为所述文本消息中的至少一个单词。所述操作还可包括分析文本消息的句法和语义,以确定文本消息中出现的词类。
在另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于控制数据处理设备的处理模式。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:获取第一语言的文本消息,所述文本消息包括至少一个单词;将文本消息提供给机器翻译系统;从机器翻译系统获取文本消息的翻译;确定文本消息和翻译都包括第一语言的至少一个单词,并且所述至少一个单词拼写正确;以及执行以下一个或多个:(a)确定所述至少一个单词出现在先前文本消息中的频率;(b)确定所述至少一个单词之前和之后出现的相邻单词的贝叶斯概率(Bayesian probability);以及(c)执行k均值聚类以识别包括同义词的单词的群集。当频率超出第一阈值时,当贝叶斯概率超出第二阈值时,和/或当群集包括所述至少一个单词时,所述方法包括将所述至少一个单词添加到数据存储中的词典。
在某些实施例中,至少一个单词包括或是词库外的单词。至少一个单词可以是或可包括新的聊天俚语单词。所述操作可包括确定数据存储中的词典是否包括所述至少一个单词。文本消息可接收自在线游戏的玩家的客户端装置。在各实例中,词典包括第一语言的词库中的单词或由其组成。
确定贝叶斯概率可包括(i)复查先前文本消息中的至少一个单词的先前使用,以及(ii)识别出现在先前文本消息中的至少一个单词之前和之后的单词(如果有的话)。贝叶斯概率可提供相邻单词将出现在文本消息中的所述至少一个单词之前和之后的可能性的指示。
在各实施方案中,识别群集包括复查先前的文本消息,并且将类似语境中使用的单词识别为所述文本消息中的至少一个单词。所述操作还可包括分析文本消息的句法和语义,以确定文本消息中出现的词类。
在一方面,本发明涉及数据处理设备实施的方法。所述方法包括:(a)接收复查请求,所述复查请求用于复查来自多用户聊天会话的文本消息的历史的一部分,所述历史包括多个文本消息,每个文本消息均使用相应语言并且源于相应的聊天会话参与者;(b)执行多个并行过程,每个并行过程均包括(i)从所述文本消息的历史的所述部分中选择不同的相应文本消息,以及(ii)将所选择的文本消息翻译成目标语言;(c)将来自多个并行过程的已翻译文本消息提供到用户的客户端装置;(d)接收复查所述文本消息的历史的不同部分的请求;以及(e)针对所述文本消息的历史的所述不同部分,重复步骤(b)和(c)。
在某些实施例中,选择不同的相应文本消息包括针对文本消息的历史的所述部分来查询存储装置。翻译所选择的文本消息包括将文本消息的至少一部分从聊天俚语转换成普通用语。在一些实施方案中,所述方法包括接收来自用户的停止请求,以停止查看文本消息的历史。多个并行过程可包括用于每个相应聊天会话参与者的一个过程。或者或此外,多个并行过程可包括用于相应聊天会话中使用的每种语言的一个过程。
在另一方面,本发明涉及系统,所述系统包括存储有指令的计算机可读介质以及数据处理设备。数据处理设备被配置成执行指令,以执行操作,所述操作包括:(a)接收复查请求,所述复查请求用于复查来自多用户聊天会话的文本消息的历史的一部分,所述历史包括多个文本消息,每个文本消息均使用相应语言并且源于相应的聊天会话参与者;(b)执行多个并行过程,每个并行过程均包括(i)从所述文本消息的历史的所述部分中选择不同的相应文本消息,以及(ii)将所选择的文本消息翻译成目标语言;(c)将来自多个并行过程的已翻译文本消息提供到用户的客户端装置;(d)接收复查所述文本消息的历史的不同部分的请求;以及(e)针对所述文本消息的历史的所述不同部分,重复步骤(b)和(c)。
在某些实施例中,选择不同的相应文本消息包括针对文本消息的历史的所述部分来查询存储装置。翻译所选择的文本消息包括将文本消息的至少一部分从聊天俚语转换成普通用语。在一些实施方案中,所述操作包括接收来自用户的停止请求,以停止查看文本消息的历史。多个并行过程可包括用于每个相应聊天会话参与者的一个过程。或者或此外,多个并行过程可包括用于相应聊天会话中使用的每种语言的一个过程。
在另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于控制数据处理设备的处理模式。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:(a)接收用于复查来自多用户聊天会话的文本消息的历史的一部分的复查请求,所述历史包括多个文本消息,每个文本消息均使用相应语言并且源于相应的聊天会话参与者;(b)执行多个并行过程,每个并行过程均包括(i)从所述文本消息的历史的所述部分中选择不同的相应文本消息,以及(ii)将所选择的文本消息翻译成目标语言;(c)将来自多个并行过程的已翻译文本消息提供到用户的客户端装置;(d)接收复查所述文本消息的历史的不同部分的请求;以及(e)针对所述文本消息的历史的所述不同部分,重复步骤(b)和(c)。
在某些实施例中,选择不同的相应文本消息包括针对文本消息的历史的所述部分来查询存储装置。翻译所选择的文本消息包括将文本消息的至少一部分从聊天俚语转换成普通用语。在一些实施方案中,所述操作包括接收来自用户的停止请求,以停止查看文本消息的历史。多个并行过程可包括用于每个相应聊天会话参与者的一个过程。或者或此外,多个并行过程可包括用于相应聊天会话中使用的每种语言的一个过程。
在一方面,本发明涉及数据处理设备实施的方法。所述方法包括:将文本消息聊天系统提供给(例如,在线游戏的)多个用户;接收来自文本消息聊天系统的第一用户的请求,以阻止文本消息聊天系统的第二用户;以及在接收到请求之后,阻止第二用户的文本消息被显示给第一用户。
在某些实施例中,所述方法包括在接收到所述请求之后,阻止第二用户对第一用户的未来邀请加入使用文本消息聊天系统的聊天会话。所述方法可包括接收来自第一用户的第二请求,以接受第二用户。在一些情况下,接收到第二请求之后,所述方法包括准许第二用户的文本消息显示给第一用户。接收到第二请求之后,所述方法可包括准许从第二用户发送到第一用户的未来邀请加入到使用文本消息聊天系统的聊天会话中。
在一些实施例中,多个用户包括或定义在线游戏中的联盟。所述方法可包括将文本消息聊天系统中的文本消息的至少一部分从第一语言翻译成第二语言。所述方法也可包括将文本消息的至少一部分从聊天俚语转换成普通用语。在一些实施方案中,翻译和/或转换可包括或使用并行过程。例如,并行过程可包括或使用用于聊天系统的多个用户中的每个的一个过程(或者用于用户使用的每种语言的一个过程)。
在另一方面,本发明涉及系统,所述系统包括存储有指令的计算机可读介质以及数据处理设备。数据处理设备被配置成执行指令,以执行操作,所述操作包括:将文本消息聊天系统提供给(例如,在线游戏的)多个用户;接收来自文本消息聊天系统的第一用户的请求,以阻止文本消息聊天系统的第二用户;以及在接收到请求之后,阻止第二用户的文本消息被显示给第一用户。
在某些实施例中,在接收到请求之后,所述操作包括阻止第二用户对第一用户的未来邀请加入到使用文本消息聊天系统的聊天会话。所述操作可包括接收来自第一用户的第二请求,以接受第二用户。在一些情况下,接收到第二请求之后,所述操作包括准许第二用户的文本消息显示给第一用户。接收到第二请求之后,所述操作可包括准许从第二用户发送到第一用户的未来邀请加入到使用文本消息聊天系统的聊天会话中。
在一些实施例中,多个用户包括或定义在线游戏中的联盟。所述操作可包括将文本消息聊天系统中的文本消息的至少一部分从第一语言翻译成第二语言。所述操作也可包括将文本消息的至少一部分从聊天俚语转换成普通用语。在一些实施方案中,翻译和/或转换可包括或使用并行过程。例如,并行过程可包括或使用用于聊天系统的多个用户中的每个的一个过程(或者用于用户使用的每种语言的一个过程)。
在另一方面,本发明涉及计算机程序产品,其存储在一个或多个存储介质中,以用于控制数据处理设备的处理模式。计算机程序产品可由数据处理设备执行,以致使数据处理设备执行操作,所述操作包括:将文本消息聊天系统提供给(例如,在线游戏的)多个用户;接收来自文本消息聊天系统的第一用户的请求,以阻止文本消息聊天系统的第二用户;以及在接收到请求之后,阻止第二用户的文本消息被显示给第一用户。
在某些实施例中,在接收到请求之后,所述操作包括阻止第二用户对第一用户的未来邀请加入到使用文本消息聊天系统的聊天会话。所述操作可包括接收来自第一用户的第二请求,以接受第二用户。在一些情况下,接收到第二请求之后,所述操作包括准许第二用户的文本消息显示给第一用户。接收到第二请求之后,所述操作可包括准许从第二用户发送到第一用户的未来邀请加入到使用文本消息聊天系统的聊天会话中。
在一些实施例中,多个用户包括或定义在线游戏中的联盟。所述操作可包括将文本消息聊天系统中的文本消息的至少一部分从第一语言翻译成第二语言。所述操作也可包括将文本消息的至少一部分从聊天俚语转换成普通用语。在一些实施方案中,翻译和/或转换可包括或使用并行过程。例如,并行过程可包括或使用用于聊天系统的多个用户中的每个的一个过程(或者用于用户使用的每种语言的一个过程)。
相对于本发明的给定方面描述的实施例的元素可用在本发明的另一方面的各个实施例中。例如,预期从属于一项独立权利要求的从属权利要求的特征可用在任一其他独立权利要求的设备和/或方法中。
结合附图,通过以下具体实施方式将了解各个实施例的其他特征和方面,附图以实例的方式示出这些实施例的特征。
附图说明
各个实施例将参考以下附图进行详细描述。附图仅用于说明的目的,并且仅仅描绘一些实施例。这些附图不应被视作限制实施例的广度、范围或适用性。
图1是示出根据各实施例的使用多语言通信系统的示例性环境的框图。
图2是示出根据各实施例的示例性通信转换和翻译系统的框图。
图3是示出根据各实施例的示例性转换模块的框图。
图4是示出根据各实施例的示例性聊天客户端系统的框图。
图5是示出根据各实施例的多语言通信的示例性方法的流程图。
图6是示出根据各实施例的转换通信的示例性方法的流程图。
图7是示出根据各实施例的聊天客户端系统之间的示例性多语言聊天会话的图解。
图8是示出根据各实施例的示例性多语言通信方法的操作的流程图。
图9是示出根据各实施例的示例性多语言通信方法的操作的流程图。
图10是示出根据各实施例的示例性多语言通信方法的操作的流程图。
图11是示出根据各实施例的示例性多语言通信方法的操作的流程图。
图12是示出根据各实施例的可被使用的示例性数字装置的框图。
图13是示出根据各实施例的示例性用户反馈系统的框图。
图14是示出根据各实施例的示例性用户反馈客户端系统的框图。
图15是示出根据各实施例的用于用户反馈的示例性方法的流程图。
图16是示出根据各实施例的用于用户反馈系统的示例性数据流的框图。
图17描绘示出根据各实施例的接收单词的用户反馈的实例的截图。
图18描绘示出根据各实施例的跳过用户反馈的实例的截图。
图19描绘示出根据各实施例的接收短语的用户反馈的实例的截图。
图20描绘示出根据各实施例的通过选择形式的响应列表来接收用户反馈的实例的截图。
图21描绘示出根据各实施例的创建选择形式的响应列表的实例的截图。
图22描绘示出根据各实施例的示例性激励通知的截图。
图23描绘示出根据各实施例的当客户端聊天系统之间的翻译失败时的实例的截图。
图24和图25描绘示出根据各实施例的用于用户反馈的示例性单词或短语列表的截图。
图26描绘示出根据各实施例的定义单词的实例的截图。
图27描绘示出根据各实施例的选择形式的响应的示例性列表的截图。
图28描绘示出根据各实施例的所提交的响应的状态的示例性列表的截图。
图29描绘示出根据各实施例的示例性激励通知的截图。
图30是根据各实施例的检测语言语料库中不可译的短语的方法的流程图。
图31A是根据各实施例的欺骗检测模块的示意图。
图31B是根据各实施例的检测受激励翻译中的欺骗的方法的流程图。
图32是根据各实施例的用于在群聊环境中执行语音转文本转录和翻译的系统的示意图。
图33A是根据各实施例的用于转换和/或翻译聊天历史的聊天历史模块的示意图。
图33B是根据各实施例的转换和/或翻译聊天历史的方法的流程图。
图34A包括根据各实施例的用于阻止聊天会话的一个或多个用户的用户界面的截图。
图34B包括根据各实施例的用于接受聊天会话的一个或多个用户的用户界面的截图。
图35包括根据各实施例的用于阻止聊天会话的一个或多个用户的方法的流程图。
图36A到图36F包括根据各实施例的允许用户校正原始消息的语言翻译的用户界面的截图。
图37A和图37B包括根据各实施例的允许用户判断其他用户提交的翻译校正(作为可能的奖励的交换)的用户界面的截图。
图38是根据各实施例的用于评估翻译准确性的翻译准确性模块的示意图。
图39是根据各实施例的评估翻译准确性的方法的流程图。
具体实施方式
本文所述的各实施例涉及并且促进多语言通信。多个实施例的系统和方法可实现通过不同的通信模式进行多语言通信,例如,所述通信模式包括网络聊天(例如,iMessage、Live Messenger等)、电子邮件(例如,嵌入式论坛消息、邮件、RFC 5322等)、基于文本的移动电话通信(例如,SMS消息或MMS消息)、在线论坛的帖子(例如,基于网络的业余爱好论坛的帖子),以及在线社交媒体服务的帖子(例如,等)。某些实施例也可用来翻译过去发生的通信或交谈的转录(例如,沉积转录或聊天历史)。各实施例可实施通信系统和方法,所述系统和方法在两种或更多语言(例如,口语)之间翻译文本,同时处理/适应文本中的以下一个或多个:专用/领域相关的行话(例如,聊天俚语)、缩写词、缩略语、专有名词、常用词、指小词、口语单词或短语以及亵渎词或短语。例如,本文描述的一些系统和方法可与聊天系统结合使用,例如,大型多人在线(MMO)游戏中使用的那些,它们意图吸引使用不同外国语言聊天的用户。通过某些实施例,两个或更多用户之间的聊天对话可被清楚地翻译并呈现给使用他们相应本地语言或选择语言的每个用户。此外,通过使用多层/多模块转换过程,某些实施例可能比单独的传统翻译系统更快地翻译(例如,使用它们相应本地语言的)两个或更多用户之间的通信(例如,大约几毫秒)。
根据一些实施例,系统或方法可执行从第一语言(例如,英语)的聊天俚语到第二语言(例如,法语)的聊天俚语的翻译。在另一实例中,在尝试翻译到第二语言(例如,法语)之前,系统或方法可执行从第一语言(例如,英语)的聊天俚语到第一语言的正式用语的转换。通过第一次查询数据存储(例如,翻译缓存),一些实施例可实现此类文本的翻译,所述数据存储可含有人工操作员手动输入的翻译或者基于翻译系统先前执行的翻译(例如,实施例执行的历史翻译)。实施例可尝试转换文本的一个或多个部分(例如,处理文本中的以下一个或多个:聊天俚语、缩略语、缩写词、专有名词、常用词、口语以及亵渎语),以使得其更适合准确的文本翻译。例如,某些实施例可转换给定的文本,以说明不同语言的(当前或过去的)习语使用。在转换文本的部分之后,实施例可再次尝试查询数据存储。如果这次的翻译查找再次尝试失败,那么实施例可尝试使用机器翻译服务(例如,第三方、云端翻译服务,例如翻译)翻译文本(所述文本可能已被转换)。
实施例可尝试将正式文本的翻译件转换成新语言的聊天俚语(例如,将法语的正式用语转换成法语聊天俚语),以进一步改善最终产生的文本的翻译。因此,某些实施例促进第一语言(例如,英语)的聊天俚语与第二语言(例如,俄语、法语、西班牙语、中文、北印度语等)的聊天俚语之间的聊天翻译。
一些实施例可帮助减少或避免需要使用机器翻译(从而减少与机器翻译相关联的时间、成本以及其他开销),并且可促进准确翻译具有极小语境或包括短句结构的文本。在通过第三方服务或网络连接(例如,安全套接层[SSL]连接)促成机器翻译的情况下,某些实施例避免的成本或开销可比较显著。
如本文中理解,“转换”是指利用第一语言的第一文本片段,以形成第一语言的第二文本片段。得到的第二文本片段在本文中也可称为“转换文本”。“翻译”将被理解成是指将第一语言的文本片段变换成第二语言的对应文本片段。
如也在本文中理解,“转换的翻译”是指已根据本文所述的实施例转换(例如,从第一语言的聊天俚语转换成第一语言的正式文本)的文本片段的翻译(从第一语言翻译成第二语言)。“未转换的翻译”将被理解成是指在文本片段已根据本文所述的实施例转换之前的所述文本片段的翻译(从第一语言翻译成第二语言)。
各实施例可实施不同的转换/翻译策略,其中某些策略很适合特定的翻译应用。例如,对于特定的聊天系统应用而言,实施的转换策略可包括按照列出的顺序应用转换相关模块的以下集合:聊天俚语模块、缩略语模块、专有名词模块、常用词模块、口语模块、拼写检查模块、缩写词模块以及亵渎语模块。通常,所用的转换/翻译策略确定执行哪些转换操作、在整个翻译过程中何时执行转换操作(例如,在机器翻译之前或之后执行操作)或者按照什么顺序执行转换操作(例如,转换操作的优先级或优先权)。转换/翻译策略也可确定将哪些翻译预先填充到数据存储中(例如,翻译可存储在翻译“缓存”中以加速整个过程)以及在整个翻译过程中何时使用翻译缓存。对于某些实施例而言,基于使用所述实施例的环境的条件,可动态确定所用的转换/翻译策略。例如,在聊天系统正在负载比平常更多的用户的情况下,转换/翻译策略可切换到减少聊天系统的处理负担的一个策略(例如,与依赖数据存储相比,更多依赖于机器翻译)。
图1是示出根据各实施例的使用多语言系统的示例性环境100的框图。如图1所示,示例性环境100包括客户端102-1到102-N(下文统称为“多个客户端102”或“客户端102”)、聊天服务器108以及翻译服务器110,其中每个都可通过计算机网络106以通信方式彼此耦合。根据一些实施例,可使用一个或多个局域或者广域网络通信来实施或促成计算机网络106,例如,互联网、WiFi网络、WiMax网络、专用网络、公用网络等。根据实施例,与计算机网络106的一些或全部通信连接可使用加密(例如,安全套接层[SSL]),以保证示例性环境100中所示的各个实体之间传输的信息安全。
客户端102、聊天服务器108以及翻译服务器110中的每个可使用一个或多个数字装置来实施,所述数字装置类似于之后参考图12论述的数字装置。例如,客户端102-1可以是任何形式的计算装置,所述计算装置要能够接收用户输入(例如,被配置成用户交互)、能够提供促进与一个或多个其他客户端(例如,客户端102-2到102-N中的任一个)通信的客户端用户接口以及能够通过计算机网络106与聊天服务器108通信。此类计算装置可包括移动电话、平板计算装置、膝上型计算机、台式计算机、个人数字助理、便携式游戏单元、有线游戏单元、瘦客户端、机顶盒、便携式多媒体播放器,或者所属领域的技术人员已知的任何其他类型的网络可访问用户装置。此外,聊天服务器108和翻译服务器110中的一个或多个可包括一个或多个服务器,所述服务器可在一个或多个云端服务上操作或使用它们实施(例如,系统即服务[SaaS]、平台即服务[PaaS]或基础设施即服务[IaaS])。
客户端102可被配置成以通信方式与聊天服务器108聊天,从而提供或以其他方式促进客户端102之间的聊天会话。客户端102-1到102-N中的每个可包括聊天客户端系统(分别是104-1到104-N),所述聊天客户端系统使得每个客户端102处的用户能够通过聊天服务器108来访问聊天会话。此外,根据实施例,聊天客户端系统104-1到104-N(下文统称为“多个聊天客户端系统104”或“聊天客户端系统104”)中的每个可实施为独立式聊天应用、实施为嵌入在非聊天应用(例如,视频游戏)中的聊天特征,或者通过网络浏览器借助客户端处可访问的聊天服务来实施。所属领域的技术人员将了解,对于一些实施例,聊天客户端系统104可以是彼此的非异构系统,并且仍能够在它们之间建立聊天会话。聊天客户端系统104能够从相应用户的接收用户(例如,基于用户设置或偏好)选择的语言(和对应的字符集)的聊天输入(例如,聊天消息),并且将聊天输入传输到聊天服务器108,以待转送给另一用户(例如,另一聊天客户端系统处的另一用户)。聊天客户端系统104也能够接收来自聊天服务器108(例如,来自另一聊天客户端系统处的另一用户)的聊天输出(例如,聊天会话对话),并且使用用户(例如,基于用户设置或偏好)选择的语言(和对应的字符集)显示接收到的聊天输出。
通过使用一些实施例,当对话在聊天客户端系统104之间传递时,这些聊天对话的翻译对于用户可以是透明的。因此,对于一些实施例而言,给定聊天客户端系统104处出现的所有聊天对话均可以是该给定聊天客户端系统104的用户的本地(或选择)的语言,而无论促成相同聊天对话的其他聊天客户端系统104处的用户使用哪种语言。例如,在聊天客户端系统104-1处的用户和聊天客户端系统104-2处的用户促成同一聊天对话(即,参与相同聊天对话)的情况下,聊天客户端系统104-1处的用户可能已选择输入和接收英语聊天对话,而同时聊天客户端系统104-2处的用户可能已选择输入和接收俄语的聊天对话。尽管聊天客户端系统104-1和104-2处的用户将看到相同聊天内容,但聊天对话将以他们相应选择的语言来呈现。
例如,聊天服务器108可包括:聊天主机系统112,其被配置成建立和/或促进聊天客户端系统104之间的聊天会话;以及通信转换和翻译(CTT)系统114,其被配置成根据本文所述的各系统和方法来执行转换和/或翻译过程。对于一些实施例而言,聊天客户端系统104可通过聊天主机系统112来建立彼此之间的聊天会话,并且在促进聊天客户端系统104之间的聊天对话的透明翻译时,聊天主机系统104可使用CTT系统114的特征。所属领域的技术人员将了解,对于一些实施例而言,聊天主机系统112和CTT系统114可以是单独服务器的部分,并且操作聊天主机系统112的实体可不同于操作CTT系统114的实体。例如,聊天主机系统112可以是使用CTT系统114的服务的第三方聊天主机系统。
也如图所示,翻译服务器110可包括被配置成接收机器文本翻译的请求并为其服务的翻译模块116。根据一些实施例,CTT系统114在执行文本的机器翻译时可使用翻译模块116的操作/服务。CTT系统114可使用一个或多个翻译应用编程接口(API),以获取翻译模块116提供的服务的访问。根据实施例,翻译模块116(及其上的服务器110)可由第三方操作,例如,从而可提供免费或收费的机器翻译服务。尽管所示翻译模块116是与CTT系统114在不同服务器上操作的部件,但所属领域的技术人员将了解,对于一些实施例而言,翻译模块116可在与CTT系统114相同的服务器上操作,和/或可以是CTT系统114的集成部件。
图2为示出根据各实施例的示例性通信转换和翻译系统114的框图。如图所示,CTT系统114可包括通信转换和翻译(CTT)控制模块202、通信转换和翻译(CTT)通信模块204、语言模块206、转换模块208、翻译数据存储210以及翻译应用编程接口(API)模块212。CTT控制模块202可被配置成当CTT系统114根据本文所述的一些系统和方法执行转换或翻译操作时,控制和/或协调CTT系统114内的各种操作的性能。对于一些实施例而能言,CTT控制模块202可控制CTT系统114的其他部件的操作,例如,CTT通信模块204、语言模块206、转换模块208、翻译数据存储210以及翻译API模块212。
CTT通信模块204可被配置成促进CTT系统114与CTT系统114外部的系统和部件之间的通信,例如,聊天服务器108和/或翻译服务器110。因此,通过CTT通信模块204,CTT系统114可接收将被CTT系统114转换或翻译的聊天对话(包括一个或多个聊天消息),并且可输出来自CTT系统114的已翻译聊天对话。
语言模块206可被配置成识别结合CTT系统114接收的聊天对话使用的一种或多种语言。对于一些实施例而言,通过分析所接收的聊天对话的语境和/或从涉及所接收的聊天对话的相应聊天客户端系统(例如,聊天客户端系统104)获取语言偏好/设置信息,语言模块206可识别语言。
转换模块208可被配置成根据本文所述的一些系统和方法对CTT系统114接收的聊天对话(包括一个或多个聊天消息)执行转换操作。根据一些实施例,转换模块208执行的转换操作可包括,但不限于,涉及聊天俚语、缩略语、缩写词、专有名词、常用词、口语和亵渎语的那些操作。图3中论述转换模块208的额外细节。
翻译数据存储210可被配置成当CTT系统114根据本文所述的一些系统和方法执行转换的翻译和未转换的翻译时,存储先前翻译的文本并且随后将所述文本提供到CTT系统114。如本文所述,翻译数据存储210可作为CTT系统114先前执行的翻译的缓存操作,和/或可存储人工操作员(例如,通过翻译训练系统)手动输入和存储的翻译。对于一些实施例而言,翻译数据存储210可具有将针对某些聊天语境加速CTT系统114的性能的翻译。例如,在CTT系统114与MMO游戏相关联的聊天系统结合使用的情况下,翻译数据存储210可(例如,通过CTT系统114的操作员)被填充具体涉及MMO游戏的(已转换和未转换)翻译。对于某些实施例而言,转换模块208使用的转换文本的多层/多模块方法尤其适合于处理MMO游戏中的聊天文本,所述聊天文本本质上比较复杂。
根据实施例,数据存储210可存储未转换的翻译(例如,<正式英语>‘you’→<正式法语>‘vous’)、已转换的翻译(例如,<英语聊天俚语>‘u’→<正式法语>‘vous’)或这两个。对于一些实施例而言,翻译数据存储210可存储翻译,从而可使用散列值/标记识别对应的聊天消息。例如,为了存储英语原始消息的西班牙语翻译,可基于英语消息的散列值存储西班牙语翻译,从而使得之后能够使用英语消息的散列值来查找并获取西班牙语翻译。所属领域的技术人员将了解,对于一些实施例而言,翻译数据存储210可包括用于两种特定语言之间的翻译的单独数据存储。因此,当聊天消息在英语与法语之间转换/翻译时,对应的数据英语-法语数据存储可用于涉及翻译数据存储210的操作。
翻译API模块212可被配置成使得CTT系统114能够访问CTT系统114的外部提供的机器翻译服务(例如,通过翻译服务器110的翻译模块116)。如本文所述,当翻译并不位于翻译数据存储210中时,翻译API模块212可由CTT系统114使用。
图3为示出根据各实施例的示例性转换模块208的框图。如图所示,转换模块208可包括聊天俚语模块302、缩略语模块304、专有名词模块306、常用词模块308、口语模块310、拼写检查模块312、缩写词模块314和/或亵渎语模块316。根据一些实施例,在操作过程中,转换模块208可处理聊天消息的全部或部分(例如,将消息分成标签或逻辑部分,随后处理这些标签/部分)。在一些实施例中,转换模块208的各个模块可被并行使用。
聊天俚语模块302可被配置成识别与聊天行话(即,聊天俚语)相关联的聊天消息中的一个或多个单词或短语,并且可进一步被配置成为识别的单词或短语建议替换(例如,对应的正式/即,非聊天俚语)单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,聊天俚语模块302可将识别出的聊天俚语单词或短语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的聊天俚语单词或短语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别聊天俚语单词或短语和/或其对应的(正式)单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括聊天俚语单词或短语和/或聊天俚语单词或短语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。例如,聊天俚语模块302可使用统计学机器翻译的功能。对于一些实施例而言,所用的统计学机器翻译可使用并行文本和/或使用短语级对进行训练,所述短语级对是从保存上下文信息和/或将语法添加到不合语法的句子的转换中提取的。聊天俚语模块302的结果可包括被聊天俚语模块302标记为忽略的聊天俚语单词或短语、建议的替换词或者由聊天俚语模块302插入到消息中的非聊天俚语单词或短语(例如,代替识别出的聊天俚语单词或短语)。根据实施例,来自聊天俚语模块302的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定聊天俚语模块302转换的消息是否在数据存储210中。
缩略语模块304可被配置成识别聊天信息中的一个或多个缩略语,并且可进一步被配置成建议对应于(例如,代表)缩略语的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,缩略语模块304可将识别出的缩略语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的缩略语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别缩略语和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括缩略语和/或缩略语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。缩略语模块304的结果可包括被缩略语模块304标记为忽略的缩略语、建议的替换词或者由缩略语模块304插入到消息中的单词或短语(例如,代替识别出的缩略语)。根据实施例,来自缩略语模块304的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定缩略语模块304转换的消息是否在数据存储210中。
专有名词模块306可被配置成识别聊天信息中的一个或多个专有名词,并且可进一步被配置成建议对应于(例如,代表)专有名词的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,专有名词模块306可将识别出的专有名词标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的专有名词可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别专有名词和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括专有名词(例如,诸如等众所周知的专有名词,或普通的人名)和/或专有名词与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。专有名词模块306的结果可包括被专有名词模块306标记为忽略的专有名词、建议的替换词或者由专有名词模块306插入到消息中的单词或短语(例如,代替识别出的专有名词)。根据实施例,来自专有名词模块306的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定专有名词模块306转换的消息是否在数据存储210中。
常用词模块308可被配置成识别聊天信息中的一个或多个常用词,并且可进一步被配置成建议对应于(例如,代表)常用词的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,常用词模块308可将识别出的常用词标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的常用词可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别常用词和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括常用词和/或常用词与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。常用词模块308的结果可包括被常用词模块308标记为忽略的常用词、建议的替换词或者由常用词模块308插入到消息中的单词或短语(例如,代替识别出的常用词)。根据实施例,来自常用词模块308的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定常用词模块308转换的消息是否在数据存储210中。
口语模块310可被配置成识别聊天消息中的一个或多个口语单词或短语,并且可进一步被配置成为识别出的单词或短语建议替换(例如,对应的正式/即,非口语)单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,口语模块310可将识别出的口语单词或短语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的口语单词或短语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别口语单词或短语和/或其对应的(正式)单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括口语单词或短语和/或口语单词或短语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。口语模块310的结果可包括被口语模块310标记为忽略的口语单词或短语、建议的替换词或者由口语模块310插入到消息中的非口语单词或短语(例如,代替识别出的口语单词或短语)。根据实施例,来自口语模块310的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定口语模块310转换的消息是否在数据存储210中。
拼写检查模块312可被配置成识别聊天消息中的一个或多个拼错的单词或短语,并且可进一步被配置成为识别出的单词或短语建议替换(例如,正确的)单词或短语。例如,拼写检查模块312可被配置成用建议的替换单词或短语自动校正所述单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,拼写检查模块312可将识别出拼错的单词或短语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出拼错的单词或短语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别拼错的单词或短语和/或其对应的(正确)单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括拼错的单词或短语和/或拼错的单词或短语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。拼写检查模块312的结果可包括被拼写检查模块312标记为忽略的拼错单词或短语、建议的替换词或者由拼写检查模块312嵌入到消息中的正确单词或短语(例如,代替拼错的单词或短语)。根据实施例,来自拼写检查模块312的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定拼写检查模块312转换的消息是否在数据存储210中。
缩写词模块314可被配置成识别聊天信息中的一个或多个缩写词,并且可进一步被配置成建议对应于(例如,代表)缩写词的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,缩写词模块314可将识别出的缩写词标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的缩写词可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别缩写词和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括缩写词和/或缩写词与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。缩写词模块314的结果可包括被缩写词模块314标记为忽略的缩写词、建议的替换词或者由缩写词模块314插入到消息中的单词或短语(例如,代替识别出的缩写词)。根据实施例,来自缩写词模块314的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定缩写词模块314转换的消息是否在数据存储210中。
亵渎语模块316可被配置成识别聊天消息中的一个或多个亵渎单词或短语(下文称为“亵渎语”),并且可进一步被配置成建议对应于所述亵渎语(例如,声调下降的委婉语)的替换单词或短语(例如,合适的替代词)。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,亵渎语模块316可将识别出的亵渎语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的亵渎语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别亵渎语和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括亵渎语和/或亵渎语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。亵渎语模块316的结果可包括被亵渎语模块316标记为忽略的亵渎语、建议的替换词或者由亵渎语模块316插入到消息中的单词或短语(例如,代替识别出的亵渎语)。根据实施例,来自亵渎语模块316的消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定亵渎语模块316转换的消息是否在数据存储210中。
对于一些实施例而言,转换模块208的一个或多个各种模块可标记聊天消息的一个或多个部分,方式是在被标记的部分之前和/或之后插入预定字符。例如,在聊天俚语模块302标记聊天消息的一部分中的单词“LOL”的情况下,聊天俚语模块302可将预定字符(“_”)插入在所述单词之前和/或之后(例如,“_LOL_”),以表明标记的部分应被翻译模块116忽略。
对于一些实施例而言,转换模块208可并行对初始消息执行两个或更多转换操作,并且作为响应,两个或更多转换操作中的每个可返回单独的响应,从中转换模块208随后可选择一个转换消息用于进一步处理(例如,用于操作514中)。根据实施例,每个响应可包括标记的文本部分、建议的替换词,或者插入到初始消息中的单词或短语。下文中,可根据选择的优先级来选择转换消息,所述优先级可确定选择哪些转换消息用于进一步处理和根据什么先例。在一些实施例中,优先级选择可根据哪个转换操作最有可能生成适合翻译数据存储210中的后续查询或者适合后续机器翻译的转换消息。此外,在一些实施例中,选择的优先级可根据哪个转换操作生成最正式的转换消息。选择的优先级可依据实施例选择的转换/翻译策略而定。
下表1提供转换模块208可如何根据各实施例来处理聊天消息的一部分的实例。如表所示,转换模块208可基于标签或邻近标签来处理聊天消息,并且在执行转换之后可停止处理特定标签。
表1.聊天消息处理的实例。
图4是示出根据各实施例的示例性聊天客户端系统104的框图。如图所示,聊天客户端系统104可包括聊天客户端控制器402、聊天客户端通信模块404以及聊天客户端图形用户界面(GUI)模块406。聊天客户端控制模块402可被配置成当聊天客户端系统104执行聊天相关操作(例如,与聊天服务器108的通信聊天对话)时,控制和/或协调聊天客户端系统104内的各个操作的执行。对于一些实施例而言,聊天客户端控制模块402可控制聊天客户端系统104的其他部件的操作,包括例如,聊天客户端通信模块404和聊天客户端GUI模块406。
聊天客户端通信模块404可被配置成促进聊天客户端系统104与聊天客户端系统104外部的系统和部件之间的通信,例如,聊天服务器108。因此,通过聊天客户端通信模块404,聊天客户端系统104可从聊天服务器108接收聊天客户端系统104处呈现的聊天对话(例如,经由聊天客户端GUI模块406),并且可将从聊天客户端系统104处的用户接收到的聊天对话发送到聊天服务器(例如,经由聊天客户端GUI模块406)。
聊天客户端GUI模块406可被配置成使得聊天客户端系统104处的用户能够图形输入/输出访问与其他聊天客户端系统的聊天会话。因此,对于一些实施例而言,聊天客户端GUI模块406可将适于通过客户端102来接收用户交互的客户端GUI呈现给客户端102处的用户。对于一些实施例而言,聊天客户端GUI模块406可被配置成将使用他们选择的语言(例如,根据用户语言偏好/设置)的聊天对话(例如,接收自聊天服务器108)呈现给用户。此外,聊天客户端GUI模块406可被配置成从用户接收使用他们选择的语言(例如,根据用户语言偏好/设置)的聊天输入。如本文所述,用来呈现和接收聊天客户端系统104处的聊天对话的语言可不同于用来呈现和接收另一聊天客户端系统处的聊天对话的语言。参考图7论述有关聊天客户端GUI模块406的更多内容。
图5是示出根据各实施例的多语言通信的示例性方法500的流程图。如下文所述,对于一些实施例而言,方法500示出的方法可结合聊天客户端系统104-1、聊天客户端系统104-2、(例如,聊天服务器108的)CTT系统114以及(例如,翻译服务器110)的翻译模块116来执行操作。
方法500可在操作502处开始,(CTT系统114的)语言模块204可识别第一聊天客户端系统(例如,104-1)处的用户使用的第一语言以及第二聊天客户端系统(例如,104-2)处的用户使用的第二语言。根据一些实施例,语言模块204可通过从相应聊天客户端系统104获取语言偏好/设置来识别所述第一语言和第二语言。
在操作504处,(CTT系统114的)CTT通信模块204可接收第一语言的初始消息。在一些实施例中,CTT通信模块204可接收来自聊天主机系统112的初始消息,其可能已经接收来自聊天客户端系统(例如,104-1)的初始消息。
在操作506处,(CTT系统114的)CTT控制模块202可针对对应于初始消息的第二语言的对应消息来查询翻译数据存储210。在操作508处,CTT控制模块202可确定是否在翻译数据存储210中找到对应消息。如果存在一个对应消息,那么在操作510处,CTT通信模块204可协助将所述对应消息发送到第二聊天客户端系统(例如,聊天客户端系统104-2)。在一些实施例中,对应消息可被发送到聊天主机系统112,其可将对应消息转送到第二聊天客户端系统(例如,104-2)。方法500随后可结束。
如果对应消息不存在翻译数据存储210中,那么在操作512处,转换模块208可尝试将初始消息的至少一部分转换成第一语言的转换消息。如本文所述,源于转换模块208的消息可被转换或可不转换(例如,当转换模块208的转换操作并不适用于初始消息时)。对于一些实施例而言,转换模块208可并行对初始消息执行两个或更多转换操作,并且作为响应,两个或更多转换操作中的每个可返回单独的响应,从中转换模块208随后可选择一个转换消息用于进一步处理(例如,用于操作514中)。根据实施例,每个响应可包括标记的文本部分、建议的替换词,或者插入到初始消息中的单词或短语。下文中,可根据选择的优先级来选择转换消息,所述优先级可确定选择哪些转换消息用于进一步处理和根据什么先例。在一些实施例中,优先级选择可根据哪个转换操作最有可能生成适合翻译数据存储210中的后续查询或者适合后续机器翻译的转换消息。此外,在一些实施例中,选择的优先级可根据哪个转换操作生成最正式的转换消息。选择的优先级可依据实施例选择的转换/翻译策略而定。
在操作514处,假设转换模块208转换了消息,那么(CTT系统114的)CTT控制模块202可针对对应于转换消息的第二语言的对应消息来查询翻译数据存储210。在操作516处,CTT控制模块202可确定是否在翻译数据存储210中找到对应消息。如果存在一个对应消息,那么在操作518处,CTT通信模块204可协助将所述对应消息发送到第二聊天客户端系统(例如,聊天客户端系统104-2)。在一些实施例中,对应消息可被发送到聊天主机系统112,其随后可将对应消息转送到第二聊天客户端系统(例如,104-2)。方法500随后可结束。
对于一些实施例而言,如果翻译存储库210中仍不存在对应消息,那么在操作520处,CTT控制模块202可确定转换模块208是否有尚未执行的任何额外转换操作可对聊天消息执行。
如果存在额外的转换操作,那么方法500返回到操作512并且执行额外的转换操作。根据实施例,额外的转换操作可包括通过转换模块208来应用不同于已对初始消息执行的那些转换操作,可包括将相同的转换操作应用于英语聊天消息的不同部分,或者可包括它们的某一组合。例如,如果在第一次执行操作512的期间,转换模块208将聊天俚语相关操作应用于初始消息(以创建第一转换消息),那么在第二次执行操作512的期间,转换模块208可将缩写词相关操作应用于第二转换消息。在后续执行操作512之后,方法500可继续进行操作514和516,其中CTT控制模块202可针对对应于最后所得转换消息的第二语言的对应消息来重新查询翻译数据存储210,并且CTT控制模块202可确定翻译数据存储210中是否找到对应消息。通过以这种重复的方式执行转换和查询操作,某些实施例在不得不执行可用的每个转换操作之前能够找到对应消息。所属领域的技术人员将了解,对于某些实施例而言,转换和查询操作可连续执行,其中在对聊天消息执行了转换模块208提供的每个可用转换操作之后,才执行查询操作(例如,操作514)。
如果翻译存储库210中不存在对应消息并且不存在(转换模块208的)额外转换操作,那么在操作522处,(通过翻译API模块212)翻译模块116可帮助将初始消息或转换消息翻译成第二语言的对应消息。随后,在操作524处,CTT通信模块204可帮助将所述对应消息发送到第二聊天客户端系统(例如,聊天客户端系统104-2)。根据一些实施例,对应消息可被发送到聊天主机系统112,其随后可将对应消息转送到第二聊天客户端系统(例如,104-2)。方法500随后可结束。
对于某些实施例而言,在对应消息被发送到聊天主机系统112之前,转换模块208可用来转换第二语言的对应消息。如本文所述,对应消息可提交用于进一步转换处理,以便为第二聊天客户端系统(例如,104-2)处的用户进一步改善翻译。如果初始消息含有第一语言(例如,英语)的聊天俚语,那么额外的转换处理可以尽可能地添加第二语言的聊天俚语。
尽管按照某一顺序示出并描述了上述方法的步骤,但所属领域的技术人员将了解,步骤的执行顺序在实施例之间可以改变。此外,所属领域的技术人员将了解,上文参考方法500描述的部件仅仅是可用于所述方法的部件的实例,并且对于一些实施例而言,一些实施例中也可使用其他部件。
图6是示出根据各实施例的用于转换通信的示例性方法600的流程图。如下文所述,对于一些实施例而言,方法600可结合(例如,CTT系统114的)转换模块208执行操作。
所述方法可在操作602处开始,其中初始消息由转换模块208接收以用于转换处理。基于一些实施例,转换模块208可接收初始消息以用于失败之后的转换,以便识别翻译数据存储210中的消息,并且可能是在初始消息被第三方或专有翻译处理(例如,翻译模块116,其可被提供为云端服务)进行机器翻译之前。如本文所述,转换模块208可用于各个实施例中,以促进或以其他方式改进文本翻译,尤其是在文本包括极小语境、简短语句结构、专用/领域相关行话(例如,网络聊天的聊天俚语)、缩写词、缩略语、口语、专有名词、常用词、亵渎语或它们的一些组合的情况下。可受益于转换模块208的操作的文本翻译可包括,但不限于,源于以下项的文本的翻译:交谈(例如,转录)、离线或在线网络聊天(例如,即时消息)以及移动电话消息(例如,SMS或MMS)。
在操作604处,聊天俚语模块302可识别与聊天行话(即,聊天俚语)相关联的初始消息中的一个或多个单词或短语,并且可进一步为识别出的单词或短语建议替换(例如,对应的正式/即,非聊天俚语)单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,聊天俚语模块302可将识别出的聊天俚语单词或短语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的聊天俚语单词或短语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别聊天俚语单词或短语和/或其对应的(正式)单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括聊天俚语单词或短语和/或聊天俚语单词或短语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作604的消息(下文称为“第一中间消息”)可包括被聊天俚语模块302标记为忽略的聊天俚语单词或短语、建议的替换词或者由聊天俚语模块302插入到初始消息中的非聊天俚语单词或短语(例如,代替识别出的聊天俚语单词或短语)。在一些情况下,第一中间消息可与初始消息相同(例如,当聊天俚语模块302没有执行替换时)。根据实施例,来自聊天俚语模块302的第一中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定聊天俚语模块302转换的消息是否在数据存储210中。在操作604之后,第一中间消息可被提供到转换模块208的下一操作(例如,操作606)以便处理。
在操作606处,缩略语模块304可识别聊天消息中的一个或多个缩略语,并且可进一步建议对应于(例如,代表)缩略语的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,缩略语模块304可将识别出的缩略语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的缩略语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别缩略语和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括缩略语和/或缩略语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作606的消息(下文称为“第二中间消息”)可包括被缩略语模块304标记为忽略的缩略语、建议的替换词或者由缩略语模块304插入到消息中的单词或短语(例如,代替识别出的缩略语)。在一些情况下,第二中间消息可与第一中间消息相同(例如,当缩略语模块304没有执行替换时)。根据实施例,来自缩略语模块304的第二中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定缩略语模块304转换的消息是否在数据存储210中。在操作606之后,第二中间消息可被提供到转换模块208的下一操作(例如,操作608)以便处理。
在操作608处,专有名词模块306可识别聊天消息中的一个或多个专有名词,并且可进一步建议对应于(例如,代表)专有名词的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,专有名词模块306可将识别出的专有名词标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的专有名词可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别专有名词和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括专有名词(例如,诸如等众所周知的专有名词,或普通的人名)和/或专有名词与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作608的消息(下文称为“第三中间消息”)可包括被专有名词模块306标记为忽略的专有名词、建议的替换词或者由专有名词模块306插入到消息中的单词或短语(例如,代替识别出的专有名词)。在一些情况下,第三中间消息可与第二中间消息相同(例如,当专有名词模块306没有执行替换时)。根据实施例,来自专有名词模块306的第三中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定专有名词模块306转换的消息是否在数据存储210中。在操作608之后,第三中间消息可被提供到转换模块208的下一操作(例如,操作610)以便处理。
在操作610处,常用词模块308可识别聊天消息中的一个或多个常用词,并且可进一步建议对应于(例如,代表)常用词的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,常用词模块308可将识别出的常用词标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的常用词可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别常用词和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括常用词和/或常用词与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作610的消息(下文称为“第四中间消息”)可包括被常用词模块308标记为忽略的常用词、建议的替换词或者由常用词模块308插入到消息中的单词或短语(例如,代替识别出的常用词)。在一些情况下,第四中间消息可与第三中间消息相同(例如,当常用词模块308没有执行替换时)。根据实施例,来自常用词模块308的第四中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定常用词模块308转换的消息是否在数据存储210中。在操作610之后,第四中间消息可被提供到转换模块208的下一操作(例如,操作612)以便处理。
在操作612处,口语模块310可识别聊天消息中的一个或多个口语单词或短语,并且可进一步为识别出的单词或短语建议替换(例如,对应的正式/即,非口语)单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,口语模块310可将识别出的口语单词或短语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的口语单词或短语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别口语单词或短语和/或其对应的(正式)单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括口语单词或短语和/或口语单词或短语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作612的消息(下文称为“第五中间消息”)可包括被口语模块310标记为忽略的口语单词或短语、建议的替换词或者由口语模块310插入到消息中的非口语单词或短语(例如,代替识别出的口语单词或短语)。在一些情况下,第五中间消息可与第四中间消息相同(例如,当口语名词模块310没有执行替换时)。根据实施例,来自口语模块310的第五中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定口语模块310转换的消息是否在数据存储210中。在操作612之后,第五中间消息可被提供到转换模块208的下一操作(例如,操作614)以便处理。
在操作614处,拼写检查模块312可识别聊天消息中的一个或多个拼错的单词或短语,并且可进一步为识别出的单词或短语建议替换(例如,正确的)单词或短语。例如,拼写检查模块312可用建议的替换单词或短语自动校正所述单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,拼写检查模块312可将识别出拼错的单词或短语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出拼错的单词或短语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别拼错的单词或短语和/或其对应的(正确)单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括拼错的单词或短语和/或拼错的单词或短语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作614的消息(下文称为“第六中间消息”)可包括被拼写检查模块312标记为忽略的拼错的单词或短语、建议的替换词或者由拼写检查模块312插入到消息中的正确单词或短语(例如,代替拼错的单词或短语)。在一些情况下,第六中间消息可与第五中间消息相同(例如,当拼写检查模块312没有执行替换时)。根据实施例,来自拼写检查模块312的第六中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定拼写检查模块312转换的消息是否在数据存储210中。在操作614之后,第六中间消息可被提供到转换模块208的下一操作(例如,操作616)以便处理。
在操作616处,缩写词模块314可识别聊天消息中的一个或多个缩写词,并且可进一步建议对应于(例如,代表)缩写词的替换单词或短语。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,缩写词模块314可将识别出的缩写词标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的缩写词可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别缩写词和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括缩写词和/或缩写词与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作616的消息(下文称为“第七中间消息”)可包括被缩写词模块314标记为忽略的缩写词、建议的替换词或者由缩写词模块314插入到消息中的单词或短语(例如,代替识别出的缩写词)。在一些情况下,第七中间消息可与第六中间消息相同(例如,当缩写词模块314没有执行替换时)。根据实施例,来自缩写词模块314的第七中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定缩写词模块314转换的消息是否在数据存储210中。在操作616之后,第七中间消息可被提供到转换模块208的下一操作(例如,操作618)以便处理。
在操作618处,亵渎语模块316可识别聊天消息中的一个或多个亵渎单词或短语(下文称为“亵渎语”),并且可进一步建议对应于识别出的亵渎语(例如,声调下降的委婉语)的替换单词或短语(例如,合适的替代词)。在一些实施例中,在随后机器翻译(例如,通过翻译模块116)的过程中,亵渎语模块316可将识别出的亵渎语标记为跳过或以其他方式忽略。此外,在一些实施例中,识别出的亵渎语可被标记为之后由人工操作员(例如,CTT系统114的管理员)复查和设置。为了识别亵渎语和/或其对应的单词或短语,一些实施例可使用(例如,存储在数据存储上的)数据集,所述数据集包括亵渎语和/或亵渎语与它们的对应单词和短语之间的映射。数据集可通过训练或学习系统构建而成、可以是专有的(例如,由CTT系统114的管理员“内部”手动收集)、可以是商业获得的,或者可源于公开可用的互联网知识库。来自操作618的消息(下文称为“第八中间消息”)可包括被亵渎语模块316标记为忽略的缩写词亵渎语、建议的替换词或者由亵渎语模块316插入到消息中的单词或短语(例如,代替识别出的亵渎语)。在一些情况下,第八中间消息可与第七中间消息相同(例如,当亵渎语模块316没有执行替换时)。根据实施例,来自亵渎语模块316的第八中间消息可被提供到(转换模块208中的)另一转换模块,以便进一步处理,或者建议的替换词可被提供到CTT控制模块202,以确定亵渎语模块316转换的消息是否在数据存储210中。在操作618之后,第八中间消息可被提供到转换模块208的下一操作,以便处理。方法600随后可结束。
根据一些实施例,最终得自转换模块208的消息(例如,得自操作618的第八中间消息)随后可用来针对对应的消息而查询翻译数据存储210,所述对应消息可用作所得消息的翻译。所属领域的技术人员将了解,在一些情况下,当没有对初始消息(例如,初始消息通过操作604到618但没有应用任何转换)应用转换时,得自转换模块208的消息(例如,随后用来查询翻译数据存储210的消息)可与(例如,操作602处)接收到的初始消息相同。
所属领域的技术人员也将了解,各个实施例可执行比所示操作更多或更少的操作,可执行不同于所述那些的操作以及可按不同顺序执行操作。通常,所执行的转换操作的类型以及执行顺序可根据实施例所用的转换策略而定。如本文所述,各个实施例在实现相应的翻译时可实施不同的转换/翻译策略,其中某些策略非常适合特定的翻译应用或翻译语境。所用的转换/翻译策略可确定执行哪些转换操作、何时执行转换操作或者按什么顺序执行转换操作。转换/翻译策略也可确定将哪些翻译填充到翻译数据存储以及何时将翻译数据存储用于整个转换/翻译过程。
对于一些实施例而言,源于方法600中的操作的中间消息可对从操作600中的的后续操作产生的消息产生影响和/或层叠效应。此外,对于一些实施例而言,当用方法600处理聊天消息时,在所述方法结束之前,可对聊天消息执行流程图600的每个操作。或者,对于一些实施例而言,仅根据所述操作的子集的执行(例如,在至少一个操作导致聊天消息的转换之后),流程图600的方法可及早终止。根据一些实施例,执行流程图500中的每个操作之后可针对基于最后所得转换消息的所需语言的对应消息来查询翻译数据存储210;如果识别出对应消息,那么流程图500的方法可及早终止。
对于各个实施例而言,方法600可并行执行操作604到612。例如,CTT控制模块202可将初始消息并行提交到两个或多个604到612,并且从这两个或更多操作接收单独的响应。每个响应可包括标记的文本部分、建议的替换词,或者插入到初始消息中的单词或短语。之后,CTT控制模块202可能根据选择的优先级(例如,所述优先级可确定选择哪些转换消息用于进一步处理和根据什么先例)来选择所接收的响应中的一个,以便后续的处理(例如,查询翻译数据存储210或通过翻译模块116进行翻译)。
例如,在方法600的过程中,CTT控制模块202可将初始消息提交到操作604用于识别聊天俚语处理,提交到操作610用于常用词处理,以及提交到操作616用于缩写词处理。作为响应,操作604可返回针对聊天俚语转换的初始消息,操作610可返回未改变的初始消息,以及操作616可返回针对缩写词转换的初始消息。随后,基于选择的优先级,CTT控制模块202可选择从操作616返回的转换消息以用于进一步处理。
对于一些实施例而言,在执行方法600中的各个操作时,可实施时间限制。如果在时间限制结束之前没有接收到响应/结果,那么时间限制可致使方法600的转换操作停止执行。在此情况下,各个实施例可确保某些转换操作没有不必要地阻碍整个转换/翻译过程。
尽管按照某一顺序示出并描述了上述方法的操作,但所属领域的技术人员将了解,操作的执行顺序在实施例之间可以改变。此外,所属领域的技术人员将了解,上文参考流程图600的方法描述的部件仅仅是可用于所述方法的部件的实例,并且对于一些实施例而言,一些实施例中也可使用其他部件。
图7是示出根据各实施例的聊天客户端系统104(例如,104-1和104-2)之间的示例性多语言聊天会话的图解700。如图所示,聊天客户端系统104-1可包括聊天客户端GUI模块406-1,并且聊天客户端系统104-2可包括聊天客户端GUI模块406-2。如本文所述,聊天客户端GUI模块406-1和406-2中的每个可被配置成相应使得聊天客户端系统104-1和104-2处的用户能够图形输入/输出访问他们之间共享的聊天会话。对于一些实施例而言,针对发送和接收的聊天对话,聊天客户端GUI模块406-1和406-2可将适于接收用户交互的客户端GUI呈现给相应的用户。
当聊天对话712(由图7中的双向箭头表示)经过聊天客户端系统104-1与104-2之间时,聊天客户端GUI模块406-1和406-2可使用相应聊天客户端系统104-1或104-2处的用户(暗示或明确)选择的语言呈现出聊天对话712。如图所示,聊天客户端GUI模块406-1可包括聊天对话框702,所述聊天对话框被配置成呈现输出区域708中的第一语言(例如,英语)的聊天对话712并且接收第二区域710中的第一语言的聊天输入。聊天客户端GUI模块406-2可包括聊天对话框714,所述聊天对话框被配置成呈现输出区域720中的第二语言(例如,法语)的聊天对话712并且接收第二区域722中的第二语言的聊天输入。对于一些实施例而言,当聊天对话712呈现在对话框702和714中时,可包括呈现与输入聊天对话712中的聊天消息的用户相关联的用户名(例如,用户的在线标识符)。
在图7所示的实施例中,为聊天客户端系统104-1选择的语言是英语,并且为聊天客户端系统104-2选择的语言是法语。因此,聊天消息704(“LOL”)和706(“Who u laughinat?”)以英语呈现在聊天客户端GUI模块406-1的对话框702中,而它们相应的对应聊天消息716(“MDR”)和718(“Qui te fair rire?”)以法语呈现在聊天客户端GUI模块406-2的对话框714中。通过本文所述的各个系统和方法可促进聊天消息704、706、716和718的翻译。参考图8到图10论述有关类似于聊天消息704、706、716和718的消息的翻译的更多内容。
图8是示出根据各实施例的示例性多语言通信方法800的操作的流程图。如下文所述,对于一些实施例而言,方法800可结合聊天客户端系统104-1、聊天客户端系统104-2以及(例如,聊天服务器108的)CTT系统114来执行操作。具体而言,图8示出根据一些实施例的包括文本"LOL"的英语聊天消息到法语聊天消息的翻译。当第一聊天客户端系统104-1处的用户使用的语言是英语,而第二聊天客户端系统104-2处的用户使用的语言是法语时,可出现此类情形。根据一些实施例,并且CTT系统114可自动检测聊天客户端系统104-1和104-2的这些语言选择/偏好。
如图所示,在操作802处,第一聊天客户端系统104-1可提交英语消息,以用于(例如,经由聊天主机系统112)传输到第二聊天客户端系统104-2。英语消息可被路由到CTT系统114的CTT控制模块202,以用于翻译处理。
在操作804处,针对对应于英语聊天消息(“LOL”)并且预先翻译成法语的聊天消息,CTT控制模块202可查询翻译数据存储210。作为响应,在操作806处,翻译数据存储210可将对应于英语聊天消息(“LOL”)的对应法语消息(“MDR”)返回到CTT控制模块202。随后,在操作808处,CTT控制模块202可帮助将对应法语消息(“MDR’)传输到第二聊天客户端系统104-2(例如,CTT系统114将对应的法语聊天消息提交到聊天主机系统112以用于传输)。
图9是示出根据各实施例的示例性多语言通信方法900的操作的流程图。如下文所述,对于一些实施例而言,流程图900示出的方法可结合聊天客户端系统104-1、聊天客户端系统104-2、(例如,聊天服务器108的)CTT系统114以及(例如,翻译服务器110)的翻译模块116来执行操作。具体而言,图9示出根据一些实施例的包括文本"LOL"的英语聊天消息到法语等义聊天消息的翻译。不同于图8所示的实施例,图9示出(例如,CTT系统114的)转换模块208和翻译模块116的使用。
如图所示,在操作902处,第一聊天客户端系统104-1可提交英语消息,以用于(例如,经由聊天主机系统112)传输到具有说法语的用户的第二聊天客户端系统104-2。英语聊天消息可被路由到CTT系统114的CTT控制模块202,以用于翻译处理。
在操作904处,针对对应于英语聊天消息(“LOL”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。作为响应,在操作906处,翻译数据存储210可将查询失败返回到CTT控制模块202,以表明翻译数据存储210并不具有英语聊天消息(“LOL”)的对应法语聊天消息。如果确实如此,那么在操作908处,CTT控制模块202可根据某些实施例将英语聊天消息提交到转换模块208,以用于转换处理。如本文所述,转换模块208可包括多个转换相关模块932,所述模块被配置成将聊天消息转换成更适于进一步翻译处理的消息。
在操作910处,转换模块208的聊天俚语模块302可将英语聊天消息(“LOL”)转换成转换英语聊天消息(“大笑(laugh out loud)”),并且可将转换的英语聊天消息返回到CTT控制模块202,以用于进一步处理。所属领域的技术人员将了解,对于一些实施例而言,在转换的英语聊天消息返回到CTT控制模块202之前,英语聊天消息可被转换模块208的额外模块处理。
在操作912处,针对对应于转换的英语聊天消息(“大笑(laugh out loud)”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。作为响应,在操作914处,翻译数据存储210可将查询失败返回到CTT控制模块202,以表明翻译数据存储210并不具有转换英语聊天消息(“大笑(laugh out loud)”)的对应法语聊天消息。如果确实如此,那么在操作916处,CTT控制模块202可根据某些实施例将转换的英语聊天消息提交到翻译模块116,以用于机器翻译处理。
在操作918处,翻译模块116可返回对应于转换英语聊天消息的机器翻译的法语聊天消息(“大笑(mort de rire)”)。所得机器翻译的法语聊天消息(“大笑(mort de rire)”)是英语聊天俚语聊天消息(“LOL”)的转换翻译的实例。
在操作920处,CTT控制模块202可根据某些实施例将机器翻译的法语聊天消息(“大笑(mort de rire)”)提交到转换模块208,以用于进一步转换处理所述机器翻译的法语聊天消息。如本文所述,机器翻译文本可被提交用于进一步转换处理,以便进一步改善法语翻译。例如,如果原始英语聊天消息含有英语聊天俚语,那么额外的转换处理可以尽可能地添加到法语聊天俚语。因此,在操作922处,转换模块208的聊天俚语模块302可将机器翻译的法语聊天消息(“大笑(mort de rire)”)转换成转换法语聊天消息(“MDR”),并且可将转换的法语聊天消息返回到CTT控制模块202,以用于进一步处理。
最后,在操作924处,CTT控制模块202可帮助将对应法语消息(“MDR”)传输到第二聊天客户端系统104-2(例如,CTT系统114将对应的法语聊天消息提交到聊天主机系统112以用于传输)。此外,在操作926处,CTT控制模块202可将翻译映射存储在转换翻译的翻译数据存储210中,位于原始英语聊天消息(“LOL”)与翻译的法语聊天消息(“MDR”)之间。一旦映射被存储在翻译数据存储210中,它便可用来存储翻译条目,以加速未来的翻译,例如,如图8所示。如本文所述,翻译数据存储210可存储转换翻译和未转换翻译的映射。
对于一些实施例而言,CTT控制模块202也可存储在方法900的操作过程中确定的等义(转换和未转换的)翻译映射。对于某些实施例而言,翻译映射可位于最初不在翻译数据存储210中的聊天消息(例如,针对操作904示出的聊天消息和针对操作912示出的聊天消息)与在翻译数据存储210查询之后的操作过程中确定的对应消息之间(例如,在没有返回结果的翻译数据存储210的查询与查询之后通过转换模块208和/或翻译模块116确定的对应聊天消息之间的映射)。
例如,如图9所示,针对操作904处的原始英文聊天消息(“LOL”)和操作912处的转换英语聊天消息(“大笑(laugh out loud)”),CTT控制模块202查询翻译数据存储210,所述聊天消息都导致CTT控制模块202没有接收到来自翻译数据存储210的结果(分别在操作906和914处)。然而,在操作916处,CTT控制模块202最终将转换的英语消息(“大笑(laugh outloud)”)提交到机器翻译模块116,以用于机器翻译,并且作为响应,在操作918处接收机器翻译的法语聊天消息(“大笑(mort de rire)”)。因此,在操作928处,CTT控制模块202可将翻译映射存储在转换翻译的翻译数据存储210中,位于原始英语聊天消息("LOL")与机器翻译的法语聊天消息(“大笑(mort de rire)”)之间。同样,在操作930处,CTT控制模块202可将翻译映射存储在转换翻译的翻译数据存储210中,位于转换英语聊天消息(“大笑(laughout loud)”)与机器翻译的法语聊天消息(“大笑(mort de rire)”)之间。在此情况下,下一次当方法900针对原始英语聊天消息(“LOL”)或已转换的英语聊天消息(“大笑(laugh outloud)”)查询翻译数据存储210时,翻译数据存储210将提供对应的转换翻译。
图10是示出根据各实施例的示例性多语言通信方法1000的操作的流程图。如下文所述,对于一些实施例而言,方法1000可结合聊天客户端系统104-1、聊天客户端系统104-2、(例如,聊天服务器108的)CTT系统114以及(例如,翻译服务器110)的翻译模块116来执行操作。具体而言,图10示出根据一些实施例的包括文本“Who u laughin at?”的英语聊天消息到法语聊天消息的翻译。
如图所示,在操作1002处,第一聊天客户端系统104-1可提交英语聊天消息,以用于(例如,经由聊天主机系统112)传输到第二聊天客户端系统104-2。英语聊天消息可被路由到CTT系统114的CTT控制模块202,以用于翻译处理。
在操作1004处,针对对应于英语聊天消息(“Who u laughin at?”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。作为响应,在操作1006处,翻译数据存储210可将查询失败返回到CTT控制模块202,以表明翻译数据存储210并不具有英语聊天消息(“Who u laughin at?”)的对应法语聊天消息。如果确实如此,那么在操作1008处,CTT控制模块202可根据某些实施例将法语聊天消息提交到转换模块208,以用于转换处理。如本文所述,转换模块208可包括多个转换相关模块1036,所述模块被配置成将聊天消息转换成更适于进一步翻译处理的消息。
在操作1010处,转换模块208的聊天俚语模块302可将英语聊天消息(“Who ulaughin at?”)转换成已转换英语聊天消息(“Who you laughin at?”),并且将已转换的英语聊天消息传送到转换模块208的额外模块,以用于进一步处理,例如,拼写检查模块312。
如本文中论述,转换模块208的各个模块(包括聊天俚语模块302)可被配置成识别聊天消息中的一个或多个单词或短语,并且为识别出的单词或短语建议替换单词或短语。因此,所属领域的技术人员将了解,对于一些实施例而言,转换模块208的模块执行/建议的转换可包括聊天消息的单词到短语或短语到短语的转换。例如,在操作1010处,在转换过程中可能通过用“who are you”代替短语“who u”/建议替换所述短语(之后用“laughing”代替单词“laughin”/建议替换所述单词),聊天俚语模块302或者可将英语聊天消息(“Whoyou laughin at?”)转换成转换英语聊天消息(“Who are you laughing at?”)。在此情况下,转换模块208的各个模块(例如,聊天俚语模块302)可对相应的转换提供语法改进,而同时可能不需要转换模块208中的单独模块来实施语法改进。
对于一些实施例而言,在转换的英语聊天消息被传送到转换模块208的额外模块之前,聊天俚语模块302可在操作1010处将转换的英语聊天消息传送到CTT控制模块202。继而,针对对应于转换英语聊天消息(“Who you laughin at?”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210(在操作1012处)。作为响应,在操作1014处,翻译数据存储210可将查询失败返回到CTT控制模块202,以表明翻译数据存储210并不具有转换英语聊天消息(“Who you laughin at?”)的对应法语聊天消息。
在操作1016处,拼写检查模块312可对操作1018处的转换英语聊天消息(“Who youlaughin at?”)执行拼写检查处理。在拼写检查处理的过程中,拼写检查模块312将换英语聊天消息校正成正确的英语聊天消息(“Who you laughing at?”),并且可将正确的英语聊天消息返回到CTT控制模块202。所属领域的技术人员将了解,对于一些实施例而言,在转换的英语聊天消息返回到CTT控制模块202之前,正确的英语聊天消息可被转换模块208的额外模块处理。
在操作1020处,针对对应于英语聊天消息(“Who you laughing at?”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。作为响应,在操作1022处,翻译数据存储210可将查询失败返回到CTT控制模块202,以表明翻译数据存储210并不具有正确英语聊天消息(“Who you laughing at?”)的对应法语聊天消息。如果确实如此,那么在操作1024处,CTT控制模块202可根据某些实施例将正确的英语聊天消息提交到翻译模块116,以用于机器翻译处理。
在操作1026处,翻译模块116可返回对应于正确英语聊天消息的机器翻译的法语聊天消息(“Qui te fait rire?”)。在操作1028处,CTT控制模块202可根据某些实施例将机器翻译的法语聊天消息(“Qui te fait rire?”)提交到转换模块208,以用于进一步转换处理所述机器翻译的法语聊天消息。
如本文所述,机器翻译文本可被提交用于进一步转换处理,以便进一步改善文本的翻译。例如,如果原始英语聊天消息含有英语聊天俚语,那么额外的转换处理可以尽可能地添加到法语聊天俚语。在操作1030处,转换模块208可将未改变的机器翻译的法语聊天消息(“Qui te fait rire?”)返回到CTT控制模块202,以用于进一步处理(例如,当转换模块208的模块没有对机器翻译的法语聊天消息应用任何改变时)。
在操作1032处,CTT控制模块202可帮助将机器翻译的法语聊天消息(“Qui tefait rire?”)传输到第二聊天客户端系统104-2(例如,CTT系统114将对应的法语聊天消息提交到聊天主机系统112以用于传输)。此外,在操作1034处,CTT控制模块202可将翻译映射存储在翻译数据存储210中,位于原始英语聊天消息(“Who u laughin at?”)与翻译的法语聊天消息(“Qui te fait rire?”)之间。如本文所述,在额外操作(未示出)中,基于对翻译数据存储210的先前失败查询以及这些查询之后确定的对应消息,CTT控制模块202也可将等义翻译映射存储在翻译数据存储210中(例如,类似于图9中的操作928和930)。
根据一些实施例,转换模块208执行的转换操作可包括并行地执行某些转换操作以及连续执行某些转换操作。并行和连续执行转换操作的顺序可在各个实施例之间变化。如本文所述,在并行执行转换操作的情况下,一些实施例可使用选择优先级来确定选择哪些转换消息用于进一步处理和根据什么先例。
图11是示出根据各实施例的示例性多语言通信方法1100的操作的流程图。如下文所述,对于一些实施例而言,方法1100可结合聊天客户端系统104-1、聊天客户端系统104-2、(例如,聊天服务器108的)CTT系统114以及(例如,翻译服务器110)的翻译模块116来执行操作。具体而言,图11示出根据一些实施例的通过并行转换操作进行的包括文本“Who ulaughin at?”的英语聊天消息到法语聊天消息的翻译。
如图所示,在操作1102处,第一聊天客户端系统104-1可提交英语聊天消息,以用于(例如,经由聊天主机系统112)传输到第二聊天客户端系统104-2。英语聊天消息可被路由到CTT系统114的CTT控制模块202,以用于翻译处理。
在操作1104处,针对对应于英语聊天消息(“Who u laughin at?”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。作为响应,在操作1106处,翻译数据存储210可将查询失败返回到CTT控制模块202,以表明翻译数据存储210并不具有英语聊天消息(“Who u laughin at?”)的对应法语聊天消息。
如果确实如此,那么CTT控制模块202可根据某些实施例将法语聊天消息提交到转换模块208,以用于转换处理。如本文所述,转换模块208可包括多个转换相关模块1130,所述模块被配置成将聊天消息转换成更适于进一步翻译处理的消息。如图11所示,在操作1108的过程中,CTT控制模块202可将英语聊天消息(“Who u laughin at?”)并行提交到转换模块208的两个或更多转换相关模块1130。此外,在操作1108的过程中,CTT控制模块202可并行接收来自转换相关模块1130的结果,以及基于转换结果将查询并行提交到翻译数据存储210。
因此,在操作1110a处,CTT控制模块202可将英语聊天消息(“Who u laughinat?”)提交到聊天俚语模块302,以用于转换处理。并行地,在操作1110b处,CTT控制模块202可将英语聊天消息(“Who u laughin at?”)提交到拼写检查模块312,以用于转换处理。随后,在操作1112a处,CTT控制模块202可接收来自聊天俚语模块302的第一转换英语聊天消息(“Who you laughin at?”),而在操作1112b处,CTT控制模块202可接收来自拼写检查模块312的第二转换英语聊天消息(“Who u laughing at?”)。根据相应的转换处理时间,聊天俚语模块302、拼写检查模块312以及其他转换相关模块1130可相对于彼此连续或并行响应CTT控制模块202。
随后,在操作1114a处,针对对应于第一转换英语聊天消息(“Who you laughinat?”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。在操作1114b处,针对对应于第二转换英语聊天消息(“Who u laughing at?”)的法语等义聊天消息,CTT控制模块202可查询翻译数据存储210。对于一些实施例而言,在操作1114a和1114b的过程中,CTT控制模块202可连续或并行查询翻译数据存储210。在一些实施例中,查询的时间可根据转换模块208的转换相关模块1130何时返回它们相应的响应。如图11所示,翻译数据存储210可针对操作1116a和1116b处的查询返回查询失败(例如,<FAIL>)。
最终,CTT控制模块202可从得自并行操作1108的两个或更多消息中选择一个转换消息,以用于进一步处理。在只有转换相关模块1130中的一个得到转换消息的情况下,CTT控制模块202可选择所述特定转换消息,以用于进一步处理。如本文所述,CTT控制模块202可基于选择优先级来选择转换消息,所述选择优先级可根据实施例选择的转换/翻译策略确定。对于一些实施例而言,选择优先级可基于转换消息是否为最正式的内容、转换消息是否具有最多的转换,或者转换消息是否得自已知最有可能产生适合机器翻译的转换消息的转换相关模块。
一旦已选择转换消息,那么在操作1118处,CTT控制模块202可根据某些实施例将转换的英语聊天消息提交到翻译模块116,以用于机器翻译处理。例如,如图11所示,CTT控制模块202可选择聊天俚语模块302产生的第一转换英语聊天消息("Who you laughinat?"),以用于提交到翻译模块116。
在操作1120处,翻译模块116可返回对应于第一转换英语聊天消息(并且尽管包括拼错的单词“laughin”)的机器翻译的法语聊天消息("Qui te fait rire?")。在操作1122处,CTT控制模块202可根据某些实施例将机器翻译的法语聊天消息("Qui te faitrire?")提交到转换模块208,以用于进一步转换处理所述机器翻译的法语聊天消息。
如本文所述,机器翻译文本可被提交用于进一步转换处理,以便进一步改善文本的翻译。例如,如果原始英语聊天消息含有英语聊天俚语,那么额外的转换处理可以尽可能地添加到法语聊天俚语。在操作1124处,转换模块208可将未改变的机器翻译的法语聊天消息("Qui te fait rire?")返回到CTT控制模块202,以用于进一步处理(例如,当转换模块208的模块没有对机器翻译的法语聊天消息应用任何改变时)
在操作1126处,CTT控制模块202可帮助将机器翻译的法语聊天消息("Qui tefait rire?")传输到第二聊天客户端系统104-2(例如,CTT系统114将对应的法语聊天消息提交到聊天主机系统112以用于传输)。此外,在操作1128处,CTT控制模块202可将翻译映射存储在翻译数据存储210中,位于原始英语聊天消息("Who u laughin at?")与翻译的法语聊天消息("Qui te fait rire?")之间。如本文所述,在额外操作(未示出)中,基于对翻译数据存储210的先前失败查询以及这些查询之后确定的对应消息,CTT控制模块202也可将等义翻译映射存储在翻译数据存储210中(例如,类似于图9中的操作928和930)。
对于一些实施例而言,转换操作可按照混合连续/并行的布置执行,借此,一些转换操作可并行执行,并且其他转换操作可连续执行。例如,如图11所示,在操作1110a和1110b处,英语聊天消息("Who u laughin at?")被并行提交到聊天俚语模块302和拼写检查模块312。随后,一旦选择所得转换消息中的一个(例如,基于选择优先级),那么转换模块208的其他转换相关模块1130(例如,缩略语模块304、专有名词模块306以及常用词模块308)便可并行地在所选的转换消息上操作。
图12是示例性数字装置1200的框图。数字装置1200包括处理器1202、存储器系统1204、存储系统1206、通信网络接口1208、I/O接口1210以及以通信方式耦合到总线1214的显示接口1212。处理器1202被配置成执行可执行指令(例如,程序)。在一些实施例中,处理器1202包括电路或能够处理可执行指令的任何处理器。
存储器系统1204是被配置成存储数据的任何存储器。存储器系统1204的一些实例是存储装置,例如,RAM或ROM。存储器系统1204可包括随机高速缓存。在各实施例中,数据存储在存储器系统1204内。存储器系统1204内的数据可被清除或最后传送到存储系统1206。
存储系统1206是被配置成检索和存储数据的任何存储设备。存储系统1206的一些实例是闪存驱动器、硬盘驱动器、光学驱动器和/或磁带。在一些实施例中,数字装置1200包括采用RAM形式的存储器系统1204和采用闪存数据形式的存储系统1206。存储器系统1204和存储系统1206都包括计算机可读介质,所述计算机可读介质可存储可由计算机处理器(包括处理器1202)执行的指令或程序。
通信网络接口(通信网络接口)1208可经由链路1216耦合到网络(例如,计算机网络106)。例如,通信网络接口1208可支持通过以太网连接、串行连接、并行连接或ATA连接的通信。通信网络接口1208也可支持无线通信(例如,802.11a/b/g/n、WiMax)。所属领域的技术人员将明白,通信网络接口1208可支持许多有线和无线标准。
任选的输入/输出(I/O)接口1210是接收来自用户的输入并且输出数据的任何装置。任选的显示接口1212是被配置成将图形和数据输出到显示器的任何装置。在一个实例中,显示接口1212是图形适配器。
所属领域的技术人员将了解,数字装置1200的硬件元件并不限于图12所示的那些。数字装置1200可包括比所示那些更多或更少的硬件元件。此外,硬件元件可共享功能并且仍在本文所述的各个实施例内。在一个实例中,编码和/或解码可由处理器1202和/或位于GPU上的协处理器(即,)执行。
上述功能和部件可由存储在诸如计算机可读介质的存储介质上的指令组成。指令可被处理器检索和执行。指令的一些实例是软件、程序代码和固件。存储介质的一些实例是存储装置、磁带、磁盘、集成电路以及服务器。指令可在处理器执行时操作,以指导处理器根据一些实施例操作。所属领域的技术人员了解指令、处理器以及存储介质。
本文所述的各个实施例是实例。所属领域的技术人员将明白,在不脱离本文所述的本发明的更广范围的情况下,可进行各种变化并且可使用其他实施例。示例性实施例的这些和其他变化意图涵盖在本发明内。
图13是示出根据各实施例的示例性用户反馈系统的框图。出于说明的目的,在图13中,用户反馈的示例性系统被示为根据各实施例的示例性通信转换和翻译(CTT)系统1300的一部分。例如,示例性用户反馈系统可以是各个多语言聊天系统使用的聊天翻译系统的一部分,包括可结合MMO游戏使用的游戏聊天系统(例如,游戏中的聊天系统)。通过使用示例性用户反馈系统,MMO游戏的各个玩家可选择为标记的单词或短语提供用户反馈,例如,通过游戏中的聊天系统,作为反馈/认可反馈的激励有可能得到游戏货币/积分/物品。所属领域的技术人员将了解,对于一些实施例而言,示例性用户反馈系统及其相关部件的一些或全部可与示例性通信转换和翻译系统1300分开和/或独立。
本文所用的“反馈”应被理解成是指“用户反馈”或“用户反馈响应”,可能是响应于针对转换或翻译请求反馈的查询。也应理解,用户反馈可包括用于转换的用户反馈或者用于翻译的用户反馈。用户反馈可包括给定单词或短语的定义,所述定义:(i)准许给定单词或短语从第一语言的给定单词或短语转换成(相同)第一语言的对应单词或短语;(ii)准许给定单词或短语从第一语言的给定单词或短语转换成(不同)第二语言的对应单词或短语,从而执行单词或短语的转换翻译;和/或(iii)准许给定单词或短语从第一翻译成第二语言,从而执行单词或短语的未转换翻译。如本文所述,响应于结合翻译失败的请求用户反馈的查询,可接收用户反馈响应。
本文所用的“翻译的失败”或“翻译失败”可被理解成包括翻译文本的实际失败(例如,翻译的文本与原始文本相同),或者被标记为可能含有翻译失败的文本翻译(例如,被阅读翻译文本并且确信翻译文本含有疑问或错误翻译的用户标记)。
如图13所示,CTT系统1300可包括通信转换和翻译(CTT)控制模块1302、通信转换和翻译(CTT)通信模块1304、语言模块1306、转换模块1308、翻译数据存储1310以及翻译应用编程接口(API)模块1312。在一些实施例中,CTT控制模块1302、CTT通信模块1304、语言模块1306、转换模块1308、翻译数据存储1310以及翻译API模块1312可类似于本文所述的CTT系统114的部件。
也如图13所示,CTT系统1300可包括翻译失败管理模块1314、用户反馈(UF)查询生成模块1316、用户反馈(UF)查询观众选择模块1318、查询/响应评估模块1320、查询应用编程接口(API)模块1322、响应评估模块1324、翻译数据存储更新模块1326、观众资格评估模块1328以及激励奖励模块1330。
翻译失败管理模块1314可被配置成促进翻译失败的管理(例如,将文本从第一语言翻译成第二语言的失败)。对于一些实施例而言,当系统1300尝试翻译从第一用户(其在聊天会话中使用第一语言)发送到第二用户(其在聊天会话中使用第二语言)的聊天消息时,翻译失败管理模块1314可适于处理CTT系统1300经历的一个或多个翻译失败。如本文所述,将要由CTT系统1300翻译的文本可以是聊天消息,所述聊天消息可包括聊天俚语、缩写词、口语、习语等等。应理解,在聊天消息的转换或翻译过程中,聊天消息中的一些或全部可导致翻译失败,这可能是因为CTT系统1300无法转换和/或翻译聊天消息中造成这些失败的部分。
翻译失败管理模块1314提供的特征可包括,但不限于:自动检测何时发生文本翻译失败;自动检测文本的某些单词或短语何时无法翻译;在翻译过程之后,使得用户能够将“已翻译”文本中的一些或全部标记为含有实际或潜在翻译错误;管理为各个观众成员(例如,聊天成员,诸如使用游戏中的聊天系统的玩家)的用户反馈选择什么翻译失败;管理为用户反馈选择与翻译失败相关联的什么单词或短语(例如,基于将被翻译的文本中遇到/使用的单词的频率);以及管理翻译失败何时不再是用户反馈的选择候选(例如,与翻译失败相关联的单词或短语从选择池中移除)。
在各实施例中,翻译失败管理模块1314可管理用于观众成员的用户反馈的单词或短语的整体可用性。本文中所用的“用户反馈机会”可包括可用于观众成员的用户反馈的单词或短语。基于各种条件,翻译失败管理模块1314可限制或暂停一个或多个用户反馈机会的可用性,例如,用户反馈的计算资源的可用性、结合用户反馈奖励的激励、过去接收的反馈响应的质量等。例如,可确定继续为认可的用户反馈响应奖励激励(例如,游戏货币或游戏物品)可负面影响与激励(例如,游戏经济)相关的经济。因此,一些实施例可(临时)暂停奖励激励的用户反馈机会的可用性,或者当这些实施例检测到当前的激励政策有害于相关经济(例如,游戏经济)时,调整针对用户反馈机会奖励的激励(例如,激励的量或激励的类型)。
如本文所述,征求用户反馈的观众成员可以是自愿提供此类反馈的人,所述观众成员可能作为用户反馈程序的参与者和/或当他们提交的反馈已得到认可(例如,正确、接受或者可用于定义转换或翻译)时作为激励的交换。对于一些实施例而言,本文所述的用户反馈系统可以是游戏系统的一部分,例如,在线MMO游戏,其中观众成员是选择以其他方式参与用户反馈机会的游戏玩家,可能是为了交换可用在游戏系统中的激励(例如,游戏货币或游戏物品)。通过这种方式,用户反馈系统可呈现为游戏特征,即,玩游戏的观众成员认为“玩”“游戏”是为了奖励,从而利用游戏环境固有的竞争。参考UF查询观众选择模块1318描述有关观众成员的选择的更多内容。
如本文所述,单词或短语可被通信系统用户标记,所述通信系统用户确信相关单词或短语妨碍翻译或致使通信文本翻译不准确。例如,在与在线游戏相关联的多语言多用户聊天系统中,游戏玩家可将他们接收到的整个聊天消息或者聊天消息的某些部分(例如,单词或短语)标记为可能具有翻译问题或失败。例如,与翻译失败相关联的单词或短语可包括专用/领域相关行话、缩写词、缩略语、专有名词、常用词、指小词、口语单词或短语以及亵渎单词或短语。此外,单词或短语可被自动检测单词或短语的系统或方法标记为无法翻译,从而可能妨碍更大的短语或句子的翻译。
翻译管理模块1314可负责将单词或短语选择为用户反馈的主题,其中选择的单词或短语可被标记为与将文本从第一语言翻译成第二语言的实际或潜在失败相关联。翻译管理模块1314可基于若干因素来选择单词或短语,其中一些包括翻译中的单词或短语的当前重要性(例如,基于单词或短语的整体使用的重要性)、单词或短语的复杂性(例如,单词或短语的难度或者单词或短语已成为问题有多久)、选择/自愿提供用户反馈的用户的资格(例如,用户的第二语言资格),以及选择/自愿提供用户反馈的用户的偏好。所属领域的技术人员将了解,为用户反馈选择单词或短语的其他因素可被各个实施例使用。
对于各个实施例而言,被选择提供用户反馈的用户可以是自愿提供此类反馈的用户。例如,通过设置相关联的用户偏好、通过选择征求用户反馈的聊天系统中的广告和/或浏览列出可供选择的一个或多个用户反馈机会的部分,用户可选择提供用户反馈。
如本文所述,翻译失败管理1314可管理与实际或潜在翻译失败相关联的特定单词或短语何时不再是观众成员的用户反馈的选择候选。各种条件可致使翻译失败管理1314作出此类确定,例如,包括:结合某些单词或短语或者相关联的翻译失败,何时接收到具体若干反馈响应;以及结合某些单词或短语或者相关联的翻译失败,何时接收到具体若干的一致反馈响应;以及给定的反馈响应何时被认可为寻找的用户反馈的有效响应(例如,来自一组独特反馈响应的具体响应已被管理员手动认可为正确响应)。
UF查询生成模块1316可被配置以生成查询,用于针对为用户反馈选择的给定单词或短语,获取来自选择的观众成员的用户反馈。如本文所述,选择的观众成员可以是自愿提供用户反馈的用户,可能是为了当提交的用户反馈被认可为正确、接受的用户响应或可用于改善有问题的翻译时交换激励。参考UF查询观众选择模块1318描述有关观众成员的选择的更多内容。
对于一些实施例而言,生成的查询可包括从选择的观众成员接收查询响应的一个或多个方法。例如,生成的查询可包括作为响应方法的预定义响应的列表,观众成员可从所述列表中选择响应作为他们对生成的查询的响应(本文中也称为“选择形式的响应”)。在另一实例中,生成的查询可包括作为响应方法的一个或多个字段,所述字段被配置成接收观众成员输入到字段中的文本值作为他们对生成的查询的响应(本文中也称为“自由形式的响应”)。其他响应方法可包括图形用户界面(GUI)元素、文本值或者它们的某一组合。
生成的查询中包括的一个或多个响应方法可根据若干因素而定,例如,所述因素包括:观众成员的偏好;寻找用户反馈的单词或短语的重要性和/或复杂性;针对寻找用户反馈的单词或短语至今接收到的反馈响应的数量;针对寻找用户反馈的单词或短语至今接收到的一致反馈响应的数量;以及是否有足够的自由形式的反馈响应来创建选择形式的响应。对于一些实施例而言,对生成的查询作出响应的观众成员可从用于生成的查询的两个或更多响应方法中选择。
此外,给观众成员呈现用户反馈机会的语言可以根据若干因素而定,例如,所述因素包括:通过监测观众成员的聊天历史来确定观众成员是否为多语言;观众成员的语言能力是否满足或超过特定的语言信度水平;以及观众成员用来参与用户反馈机会的用户装置上的语言设置(例如,观众成员的装置的默认语言设置)。例如,在观众成员的装置的默认装置语言是德语并且他或她选择参与用户反馈机会的情况下,生成并发送到观众成员的查询将基于德语(例如,将英语单词或短语定义为德语单词或短语的查询,反之亦然)。对于一些实施例而言,生成的查询可为观众成员提供选择将要提交的响应的语言的选项(例如,当生成的查询并未指明或要求具体语言时)和/或提供两个或更多响应的选项,其中每个响应可能使用不同的语言。对于一些此类实施例而言,根据本文论述的各个语言因素,例如,观众成员是否为多语言以及观众成员的用户装置上的语言设置,观众成员可被呈现语言响应选项。
UF查询观众选择模块1318可被配置成选择观众成员以征求用户反馈。在一些实施例中,UF查询观众选择模块1318可从自愿提供用户反馈的大量观众成员中选择观众成员,所述观众成员可能是为了交换激励(可在用户反馈得到认可/接受时接收到所述激励)。如本文所述,观众成员可自愿参与翻译,那时观众成员可包括在UF查询观众选择模块1318为用户反馈征求而从中进行选择的大量观众成员中。在一些实施例中,当UF查询观众选择模块1318选择观众成员时,所述观众成员可具有UF查询生成模块1316生成的查询,以获取用户反馈。UF查询生成模块1316生成的查询可被提供给UF查询观众选择模块1318选择的观众成员,作为选择的观众成员可用于参与的用户反馈的列表的一部分。一旦生成的查询被提供给选择的观众成员,那么选择的观众成员可开始用户反馈会话,其中生成的查询被呈现给观众成员(例如,通过与生成的查询相关联的一个或多个响应方法),并且选择的观众成员可提供一个或多个响应(例如,通过生成的查询中包括的一个或多个响应方法)。
根据实施例,在选择观众成员之前为用户反馈选择单词或短语的情况下,可基于选择的单词或短语从一组候选观众成员中选择观众成员(例如,选择的单词或短语是否匹配观众成员的资格或偏好)。或者,在为用户反馈选择单词或短语之前选择观众成员的情况下,选择的单词或短语可根据选择的观众成员而定。给定的观众成员的资格可基于给定的观众成员先前提供的一个或多个反馈响应(例如,结合生成并提供到给定的观众成员的先前查询)和/或观众成员的一个或多个语言能力来确定。例如,当观众成员已达到具体数量的认可反馈响应时,观众成员可被评估成具有为与翻译失败相关联的一个或多个单词或短语提供用户反馈的必要资格。在另一实例中,基于针对具体语言的至少一个先前提交的反馈响应、观众成员的偏好和/或表明流利掌握具体语言的与观众成员相关的信息,观众成员可被评估成具有具体语言的资格。在又一实例中,先前提交的用户反馈被评估为不正确或欺骗(例如,无意义或伪造的响应)的观众成员可被确定为资格较低。
对于一些实施例而言,一旦给定的观众成员结合单词或短语提供了响应(并且响应可能得到认可),那么为同一单词或短语提供用户反馈时,可不重新选择所述给定的观众成员。当给定的观众成员提供响应的语言不同于先前针对同一单词或短语提交响应的语言时,某些实施例可对此限制提出例外。
在为交换用户反馈而提供激励的情况下(例如,在反馈响应得到认可后),各个实施例可基于配额来选择观众成员,例如,基于时间的配额(例如,提交反馈响应的每小时、每天、每月、每年限制)或者挣得激励的配额(例如,奖励基于激励的用户反馈的游戏货币或物品的限制),其中配额与个人观众成员、群组观众成员或它们的某一组合相关联。对于一些实施例而言,UF查询观众选择模块1318可基于各种条件来限制或暂停一个或多个观众成员的用户反馈机会的可用性,例如,用户反馈的计算资源的可用性、结合用户反馈奖励的激励、过去接收的反馈响应的质量等。
查询/响应(QR)评估模块1320可被配置成基于征求用户反馈的查询或查询响应的单词或短语来确定查询或查询响应的值或重要性。在确定查询或查询响应的值时各个实施例考虑的因素的实例可包括:单词或短语的复杂性(例如,复杂性越高,值越大);单词或短语对转换/翻译过程的重要性(例如,重要性越高,值越大);查询或查询响应使用的响应方法(例如,自由形式的响应方法比选择形式的响应方法的值高);单词或短语的类型(例如,聊天俚语、缩略语或口语);或者涉及的一种或多种语言(例如,包括英语单词或短语但接收到法语响应的查询比包括英语单词或短语但接收到英语响应的查询具有更大的值)。在一些实施例中,奖励到给定用户反馈的激励可基于与查询或查询响应相关联的值。对于一些实施例而言,QR评估模块1320可被配置成在征求有益、有用或准确的用户反馈时,基于先前的查询或查询响应的效果来确定查询或查询响应的值。因此,对于一些实施例而言,可基于先前的查询或查询响应达到的最近效果来动态调整所述值。在某些实施例中,QR评估模块1320可使得(例如,CTT系统1300的)管理员或另一授权用户能够结合一个或多个用户反馈来手动分配或调整查询或/或查询响应的值。
查询API模块1322可被配置成促进将用户反馈查询传输到选择的观众成员和/或从选择的观众成员接收查询响应。在一些实施例中,查询API1322可适于提供选择的观众成员可用的可用用户反馈机会的列表,提供与选择的观众成员所选的一个或多个用户反馈机会相关的查询,接收选择的观众成员所选的一个或多个用户反馈机会的响应,和/或将至今提交用于认可的查询响应的当前状态提供给选择的观众成员(例如,认可、否决或者待定/等待认可的状态)。对于一些实施例而言,查询API 1322可获取与给定的观众成员相关联的一个或多个偏好,所述偏好可能从给定观众成员用来与CTT系统1300交互的聊天客户端系统获取。如本文所述,与观众成员相关联的偏好可确定从观众成员征求用户反馈的单词或短语的选择,和/或可确定所述观众成员是否被选择来接收给定单词或短语的用户反馈的查询。
响应评估模块1324可被配置成评估结合查询提交的查询响应,所述查询被生成以获取用户反馈。对于一些实施例而言,响应评估模块1324可在一个或多个阶段中评估查询响应。
在验证阶段的过程中,针对给定生成的查询,响应评估模块1324可将针对给定生成的查询提交的一个或多个独特响应设置成认可或否决。在一些实施例中,结合用以获取用户反馈的生成查询提交的独特响应可被视作待定认可,直到所述独特响应在对与生成的查询相关联的单词或短语有效时被认可或者在对与生成的查询相关联的单词或短语无效时被否决为止。本文中所用的给定的“独特响应”可包括一组类似但句法并不完全相同的响应(例如,标点或空格不同);给定的独特响应可通过两个或更多响应方法来接收。独特响应在本文中也可称为“独特查询响应”和“独特用户反馈响应”。根据实施例,针对给定生成的查询,可以认可一个以上的独特查询响应。例如,结合寻找的用户反馈,一个以上的独特响应可被认可为定义了给定单词或短语。例如,响应可由复查和设置响应(例如,可能只是独特响应)的管理员等手动验证。此外或作为替代,响应可由自动过程验证,所述自动过程可基于响应计数和/或与响应计数相关联的阈值来认可和/或否决提交的响应。在一些实施例中,自动验证过程可针对给定单词或短语来过滤前面提交的响应,并且将这些前面提交的响应提供给管理员等,以便复查和设置。验证阶段可由响应评估模块1324定期执行(例如,基于计划表)或基于一定条件执行(例如,在待定认可的提交响应的数量已满足或超过阈值的情况下)。
对于一些实施例而言,在针对给定单词或短语提供多个独特用户反馈响应(例如,定义)的情况下,响应评估模块1324可自动(和/或通过手动管理输入)认可所述多个中排在前面的独特用户反馈响应(例如,最普遍的响应),但只有排在前面的独特用户反馈响应在统计上显著时可这么做。例如,如果针对给定单词接收到二十六次第一独特用户反馈响应,而针对相同的给定单词接收到二十四次第二独特用户反馈响应,则第一独特用户反馈响应可不被认可作为给定单词的响应,即使它是给定单词的排在前面的独特用户反馈响应。这是因为二十六在统计上大于二十四。例如,直到第一独特用户反馈响应仍是排在前面的独特用户反馈响应并且响应计数达到四十时,才可选择第一独特用户反馈。
假设短语可不相同但可实际上类似,对于一些实施例而言,词错误率(WER)可用来将包括短语的独特用户反馈响应分组。对于两个短语而言,WER可测量单词的替代、删除和插入,以在短语之间传达类似之处。
对于各个实施例而言,在为给定短语提供多个独特用户反馈响应(例如,定义)的情况下,响应评估模块1324可自动(和/或通过手动管理输入)认可排在前面的独特用户反馈响应。
在检查阶段的过程中,响应评估模块1324可确定观众成员提交的响应被设置为认可、否决还是待定复查(例如,待定认可)。对于一些实施例而言,数据存储可维持以下状态:观众成员结合给定单词或短语提交的独特响应被认可还是否决作为给定单词或短语的有效定义。因此,通过咨询维持了针对给定单词或短语先前提交的独特响应的设置状态的数据存储,检查阶段可确定针对给定单词或短语提交的响应的设置;提交的响应共享与提交的响应对应的独特响应的设置状态。根据实施例,提交的响应的检查阶段可立即执行或在响应提交之后不久执行。如果在检查阶段的过程中,提交的响应仍被确定为待定复查,那么检查阶段可在之后的时间再次执行,可能是在致使相同或类似的提交响应的状态生效的验证阶段之后再次执行。根据检查阶段过程中确定的提交响应的当前设置,可更新提交响应的状态。如本文所述,给定观众成员提交的一个或多个响应的当前状态可被提供作为反映那些响应的当前状态的列表。下文参考图28论述有关响应状态的更多内容。
用于评估响应的响应评估模块1324可包括确定响应是否被认可。基于另一人响应于另一查询提供的至少一个先前响应,可以认可所述响应,所述另一查询是先前生成的,以从另一人获取单词或短语的反馈。一旦响应被确定为准确定义了单词或短语,则响应可被认可。
翻译数据存储更新模块1326可被配置成可能基于选择的观众成员针对用户反馈查询提交的响应的评估来更新(例如,存储在翻译数据存储210中的)转换或翻译。例如,如果在响应评估过程中将第一语言的提交响应确定为(同一)第一语言的给定单词的认可定义,那么将相应地添加或更新将第一语言的给定单词映射到第一语言的响应的转换。在另一实例中,如果在响应评估过程中将第二语言的提交响应确定为第一语言的给定单词的认可定义,那么将相应地添加或更新将第一语言的给定单词映射到第二语言的响应的转换。在导致提交响应的设置变成认可的检查阶段的过程中或之后,可由翻译数据存储更新模块1326执行转换或翻译的更新。
观众资格评估模块1328可被配置成确定观众成员的资格,所述资格可表示与观众成员提供准确和/或可用用户反馈响应的能力相关联的信度水平。如本文所述,给定观众成员的资格可基于给定观众成员先前提供的一个或多个反馈响应(例如,结合生成并提供到给定观众成员的先前查询)和/或观众成员的一个或多个语言能力来确定。例如,当观众成员已达到具体数量的认可反馈响应时,观众成员可被评估成具有为与翻译失败相关联的一个或多个单词或短语提供用户反馈的必要资格。在另一实例中,基于针对具体语言的至少一个先前提交的反馈响应、观众成员的偏好和/或表明流利掌握具体语言的与观众成员相关的信息,观众成员可被评估成具有具体语言的资格。在又一实例中,先前提交的用户反馈被评估为不正确或欺骗(例如,无用响应)的观众成员可被确定为资格较低。
激励奖励模块1330可被配置成基于观众成员结合用户反馈查询提交的响应的评估,给观众成员奖励激励。如本文所述,在认可提交响应之后,观众成员可被奖励激励。奖励的激励的量或类型可基于若干因素确定,所述因素包括,但不限于:QR评估模块1320分配的查询或查询响应的值;观众成员响应于查询使用的响应方法;已经奖励的激励量(例如,结合特定单词或短语或者通过基于激励的用户反馈而奖励给观众成员或所有观众成员);查询的语言或提供的响应的语言;以及为其提交响应的单词或短语的类型(例如,聊天俚语、缩写词或者特定领域单词或短语)。奖励的激励可包括现实世界的货币或虚拟货币,例如,游戏货币或游侠物品,所述货币可以或可不具有相关虚拟经济之外的价值(例如,现实世界经济中的货币价值)。对于一些实施例而言,激励可以包括可具有相关联的货币价值的现实世界商品或服务或者虚拟商品或服务。所属领域的技术人员认识到,不同实施例中可奖励其他形式的激励。
对于一些实施例而言,当提交的响应中的一个或多个得到认可时和/或当观众成员因提交的响应得到认可而被奖励激励时,激励奖励模块1330可负责通知观众成员。在各个实施例中,借助通知消息(例如,聊天中的消息,诸如弹出消息)和/或通过提交响应的状态列表的更新,激励奖励模块1330可向观众成员通知激励奖励。
所属领域的技术人员将了解,对于各个实施例而言,用于用户反馈的系统可包括比图13所示那些更多或更少的部件,并且图13中示出的每个部件可执行比针对每个部件描述的那些更多或更少的操作。
图14是示出根据各实施例的示例性用户反馈客户端系统的框图。出于说明的目的,在图14中,用户反馈客户端系统被示为根据各个实施例的聊天客户端系统1400的一部分。例如,示例性用户反馈系统可以是结合MMO游戏可用的游戏聊天客户端系统的一部分(例如,游戏中的聊天客户端系统),其中MMO游戏的各个玩家可选择为标记的单词或短语提供用户反馈,作为反馈的激励有可能得到游戏货币/积分/物品。所属领域的技术人员将了解,对于一些实施例而言,示例性系统用户反馈和其相关部件的一些或全部均可与示例性通信转换和翻译系统1300分开。
如图14所示,聊天客户端系统1400可包括聊天客户端控制器1402、聊天客户端通信模块1404以及聊天客户端图形用户界面(GUI)模块1406。在一些实施例中,聊天客户端控制器1402、聊天客户端通信模块1404以及聊天客户端GUI模块1406可类似于本文所述的聊天客户端系统104的部件。
也如图14所示,聊天客户端系统1400可包括转换/用户反馈(UF)查询偏好模块1408和转换/用户反馈(UF)查询图形用户界面(GUI)模块1410。对于一些实施例而言,相对于CTT系统1300,UF查询偏好模块1408和/或UF查询GUI模块1410促进用户反馈交互。在聊天客户端系统1400的背景下,相对于各个实施例的用户反馈系统(例如,CTT系统1300),聊天客户端系统1400的聊天用户可以是观众成员。
UF查询偏好模块1408可被配置成管理并以其他方式准许聊天用户预先查看、定义和/或调整与结合一些实施例的用户反馈系统(例如,CTT系统1300)提供的用户反馈特征相关的偏好。例如,UF查询偏好模块1408管理的偏好的实例可包括:与用户反馈相关的语言偏好(例如,征求用户反馈的单词或短语的语言和/或寻找的用户反馈的语言);用于用户反馈查询的优选响应方法(例如,选择形式的响应优于自由形式的响应);或者优选的单词或短语类型(例如,缩写词、聊天俚语、物理相关或成语)等等。
如本文所述,选择形式的响应是预先确定并且可从两个或更多选择形式的响应的列表中选择的响应。根据实施例,选择形式的响应的列表可准许观众成员选择适用的两个或更多响应。自由形式的响应是包括观众成员输入到字段中的基于文本的值(例如,字符值或字符串值)的响应。
UF查询GUI模块1410可用图形表示出针对用户反馈生成并且提供给聊天用户(例如,通过CTT系统1300)的查询,表示出与查询相关联的一个或多个响应方法,和/或通过所表示的响应方法接收来自聊天用户的响应。UF查询GUI模块1410也可促进通过UF查询偏好模块1408来管理偏好的管理。下文参考图17到图23和图24到图31来描述有关聊天客户端系统处可出现的图形用户界面的更多内容。
所属领域的技术人员将了解,对于各个实施例而言,用于用户反馈的客户端系统可包括比图14所示那些更多或更少的部件,并且图14中示出的每个部件可执行比针对每个部件描述的那些更多或更少的操作。
图15是示出根据各实施例的用于用户反馈的示例性方法1500的流程图。在步骤1502处,翻译失败管理模块1314可识别文本转换或翻译的可能是第一语言到第二语言的潜在失败。在步骤1504处,翻译失败管理模块1314也可从识别出的潜在失败中选择单词或短语以用于用户反馈。在步骤1506处,UF查询观众选择模块1318可选择观众成员,以便征求用户反馈。在步骤1508处,UF查询生成模块1316可生成查询,以获取可能来自所选择的观众成员的用户反馈。在步骤1510处,响应评估模块1324可接收对所生成的模块作出的响应。查询API模块1322可负责将所生成的查询提供给所选择的观众成员,并且接收对所生成的查询作出的响应。在步骤1512处,响应评估模块1324可对接收到的响应进行评估。在步骤1514处,可能基于步骤1510中提供的响应和/或步骤1512中执行对接收到的响应的评估,观众资格评估模块1328可评估所选择的观众成员的资格。在步骤1516处,基于响应评估,激励奖励模块1330可将激励奖励给所选择的观众成员。如本文所述,在评估响应并且确定它得到认可之后,可能根据QR评估模块1320确定的查询和/或查询响应的值,激励奖励模块1330可对观众成员提供奖励。在步骤1518处,翻译数据存储更新模块1326可基于响应评估来更新转换或翻译。如本文所述,在评估响应并且确定它得到认可之后,翻译数据存储更新模块1326可更新对应于查询和所提交的查询响应的单词或短语的翻译或转换。
图16是示出根据各实施例的用于用户反馈系统的示例性数据流1600的框图。如图所示,数据流1600包括聊天客户端系统1400、翻译失败管理模块1314、UF查询生成模块1316、UF查询观众选择模块1318、响应评估模块1324、翻译数据存储更新模块1326以及激励奖励模块1330。数据流1600进一步包括未定义的单词/短语数据存储1602、记录响应数据存储1604、反馈观众数据存储1606、响应认可数据存储1608、聊天数据存储1610,以及字典数据存储1612。
未定义的单词/短语数据存储1602可包括与翻译失败相关联的单词或短语,并且为其寻找用户反馈。除了单词或短语,未定义的单词/短语数据存储1602可包括使用所述单词或短语的简单句子(例如,单词或短语语境)、表示单词或短语有多重要的信度测量(例如,单词重要性)、单词或短语的源语言、所寻找的用户反馈的目标语言等等。在一些实施例中,未定义的单词/短语数据存储1602中的单词或短语的单词重要性可初始等于所有单词,但在遇到单词或短语并且有问题和/或无法翻译时,所述重要性增加。
记录响应数据存储1604可包括接收自观众成员并且针对未定义的单词/短语数据存储1602中包括的单词或短语记录的用户反馈响应。在一些实施例中,用户反馈响应包括针对所生成的查询接收的响应,所述查询用来获取有关单词或短语的用户反馈。除了记录的用户反馈响应,未定义的单词/短语数据存储1602可包括提交用户反馈响应的观众成员的标识符、何时接收和/或记录用户反馈响应的时间戳、记录的用户反馈响应是否得到认可的指示、记录的用户反馈响应何时得到认可的时间戳等等。
反馈观众数据存储1606可包括观众成员的标识符的集合,所述观众成员被选择参与包括在未定义的单词/短语数据存储1602中的单词或短语的用户反馈。除了观众成员的每个标识符,反馈观众数据存储1606可包括反映观众成员在提供用户反馈响应时的一致性、资格和/信度的信度分数。
响应认可数据存储1608可包括结合在未定义的单词/短语数据存储1602中包括的单词或短语接收的每个独特用户反馈响应。除了每个独特用户反馈响应,响应认可数据存储1608可包括独特用户反馈响应是认可响应(例如,正确响应)、否决响应(例如,不正确的响应)、响应待定复查(例如,需要复查的响应)还是具有其他状态的响应的指示。在一些实施例中,响应认可数据存储1608可用于确定接收自观众成员并且记录在记录响应数据存储1604中的用户反馈响应何时得到认可。
根据一些实施例,翻译失败管理模块1314可被配置成复查可能由聊天数据存储1610提供的聊天日志,以及识别与实际或潜在翻译失败相关联的一个或多个单词或短语。在各个实施例中,翻译失败管理模块1314可被配置成排除字典数据存储1612中定义的那些单词或短语,所述字典数据存储可包括标准字典(例如,牛津字典)和/或本文所述的实施例可解析、识别和/或处理的单词或短语(例如,聊天俚语单词或短语)的字典。翻译失败管理模块1314识别出的单词或短语可添加到未定义的单词/短语数据存储1602中,从而使得能够选择这些添加的单词和短语以获得所选择的观众成员的用户反馈。
翻译失败管理模块1314可被配置成可能从未定义的单词/短语数据存储1602中选择一个或多个单词或短语,以用于用户反馈。对于一些实施例而言,翻译失败管理模块1314可从被指定为未定义的单词/短语数据存储1602中重要性最高的单词或短语的集合中进行选择(例如,从未定义的单词/短语数据存储1602中的前10个重要的单词或短语中选择)。在一些实施例中,翻译失败管理模块1314可选择两个或更多单词或短语,从而使得观众成员可具有两个或更多用户反馈的集合,从中可选择用户反馈以作出响应(例如,使得观众成员能够选择他们最有信心作出响应的那些用户反馈)。翻译失败管理模块1314从未定义的单词/短语数据存储1602中进行的选择过程可以是随机的,基于单词或短语重要性、未定义的单词/短语数据存储1602中的单词或短语的时代、UF查询观众选择模块1318选择的观众成员的偏好、UF查询观众选择模块1318选择的观众成员是否已对选择的单词或短语作出响应(例如,基础针对选择的单词或短语检查记录响应数据存储1604而进行确定)。
UF查询观众选择模块1318可被配置成可能从反馈观众数据存储1606中选择一个或多个观众成员,从这些观众成员中可寻找用户反馈。如本文所述,针对翻译失败管理模块1314选择的可能来自聊天数据存储1610的单词或短语,可选择用户反馈。从反馈观众数据存储1606中选择观众成员可根据与观众成员相关联的资格水平。
UF查询生成模块1316可被配置成针对翻译失败管理模块1314选择的可能来自未定义的单词/短语数据存储1602的单词或短语而生成一个或多个查询,以用于用户反馈。如图所示,翻译失败管理模块1314可将为所选择的单词或短语生成的一个或多个查询提供给UF查询生成模块1316。如本文所述,UF查询生成模块1316在生成查询时可考虑若干不同的因素,例如,所述因素包括UF查询观众选择模块1318选择的观众成员的偏好以及翻译失败管理模块1314为用户反馈选择的单词或短语。最后,UF查询生成模块1316可将UF查询生成模块1316生成的一个或多个查询提供给聊天客户端系统1400,所述UF查询生成模块可针对翻译失败管理模块1314选择和提供的每个单词生成不同的查询。
最后,UF查询生成模块1316生成的一个或多个查询可被提供到聊天客户端系统1400,所述聊天客户端系统继而将提供的查询呈现给聊天客户端系统1400处的用户,以供选择。根据实施例,UF查询生成模块1316可将生成的查询提供到聊天客户端系统,或者,另一部件可负责将生成的查询提供到聊天客户端系统。一旦生成的查询被呈现在聊天客户端系统1400处以供选择,那么聊天客户端系统1400处的用户可选择对所呈现的查询中的一个或多个作出响应,并且聊天客户端系统1400提供的那些响应可被添加(例如,记录)到记录响应数据存储1604。
当响应被添加到记录响应数据存储1604时,一些实施例检查添加的响应可被响应评估模块1324评估。如本文所述,响应评估模块1324可通过检查响应和设置响应的状态来评估响应。
如图16所示,响应评估模块1324包括响应检查模块1614,所述模块可被配置成在评估用户反馈响应的过程中对用户反馈响应执行状态检查。通过检索来自记录响应数据存储1604的用户反馈响应并且检查响应认可数据存储1608中对应于所检索的用户反馈响应的独特响应的状态,响应检查模块1614可检查来自客户端聊天系统1400的用户反馈响应。在此情况下,响应检查模块1614可确定给定的用户反馈响应被认可还是被否决。根据响应检查模块1614最近执行的状态检查,可以更新记录响应数据存储1604中检索到的用户反馈响应的认可状态。在响应检查模块1614确定检索到的用户反馈响应已得到认可的情况下,记录响应数据存储1604中检索到的用户反馈响应的认可状态可被更新,以反映认可并且包括认可状态何时被更新的时间戳。最后,用于检索到的用户反馈响应的记录响应数据存储1604中反映的认可致使激励奖励模块1330将激励奖励给提交得到认可的用户反馈响应的观众成员。
如果检索到的翻译响应的状态仍是待定复查,那么响应检查模块1614可在之后的时间再次检查检索到的用户反馈响应的状态(例如,根据预定的计划表)。如果检索到的翻译响应的状态是否决,那么记录响应数据存储1604中检索到的用户反馈响应的认可状态可被更新,以反映否决。
如果没有找到对应于检索到的用户反馈响应的独特响应,那么检索到的用户反馈响应可添加到响应认可数据存储1608,作为(例如,聊天客户端系统1400处的用户)提供用户反馈响应的单词或短语的独特响应。此外,如果检索到的用户反馈响应被添加到响应认可数据存储1608作为独特响应,那么独特响应可具有待定认可的初始状态,所述状态将持续到独特响应的状态被手动或自动设置为止(例如,通过评估响应模块1324)。
如图16所示,响应评估模块1324也包括响应验证器1616,其可被配置成将独特用户反馈响应的状态设置为认可、否决或待定认可。如本文所述,结合用以获取用户反馈的生成查询而提交的独特用户反馈响应可被视作待定认可,直到所述独特用户反馈响应在对与生成的查询相关联的单词或短语有效时被认可或者在对与生成的查询相关联的单词或短语无效时被否决为止。
对于一些实施例而言,响应评估模块1324可被配置成确定给定的单词或短语何时不再需要额外的用户反馈。基于诸如针对给定的单词或短语已认可了多少独特用户反馈响应以及独特且被认可的用户反馈响应的计数是否已满足或超过具体阈值等因素的实例,响应评估模块1324可作出此类确定。当确定给定的单词或短语不再需要进一步的用户反馈时,响应评估模块1324可被配置成将给定的单词或短语从未定义的单词/短语数据存储1602中移除,从而将所述单词或短语从针对用户反馈的(例如,通过翻译失败管理模块1314的)未来选择中移除。
如本文所述,一旦已经认可观众成员提供的用户反馈响应是单词或短语的有效响应,其中针对所述单词或短语(例如,由观众成员通过聊天客户端系统1400)提供了用户反馈响应,那么激励奖励模块1330可将激励奖励给所述观众成员。激励奖励模块1330可识别记录响应数据存储1604中的一个或多个用户反馈响应,所述用户反馈响应自从激励奖励模块1330上一次尝试识别记录响应数据存储1604中具有认可状态的一个或多个用户反馈响应以后,最近得到认可(例如,认可状态最近更新,以反映认可)和/或被认可。基于记录响应数据存储1604中的用于用户反馈响应的时间戳,激励奖励模块1330可确定给定的用户反馈响应最后何时得到认可。对于一些实施例而言,一旦针对记录响应数据存储1604中的已翻译反馈响应奖励激励,那么已翻译反馈响应可从记录响应数据存储1604中移除。或者,一旦针对记录响应数据存储1604中的已翻译反馈响应奖励激励,那么已翻译反馈响应可在记录响应数据存储1604中更新,例如,以表明何时奖励了激励、奖励的激励量、奖励的激励类型、何时向观众成员通知奖励和/或如何向观众成员通知奖励的激励。
图17描绘根据各实施例的接收单词的用户反馈的示例性截图。具体而言,图17呈现出截图1702、1704和1706,所述截图表示可(例如,通过聊天客户端系统1400)呈现给观众成员以促进用户反馈过程的GUI的实例。截图1702呈现出征求一个或多个观众成员参与翻译失败相关联的单词或短语的用户反馈的大字标题1708的实例。通过选择大字标题1708,观众成员可选择参与用户反馈,从而可引导开始用户反馈会话和/或将观众成员引导到可用的用户反馈机会列表,从中观众成员可选择参与。如本文所述,用户反馈机会可准许观众成员提供与实际或潜在翻译失败相关联的单词或短语的定义。根据一些实施例,观众成员可选择与单词或短语相关联的可用用户反馈机会中的一个,随后,在出现提示时提供相关联的单词或短语的定义。
截图1704呈现出各个单词的可用用户反馈的列表1710(例如,“Skrilla”、“Booty”、“Cray”、“Hecka”和“Freshness”)。截图1706提供查询1712的实例,所述查询被呈现给观众成员,以获取单词“Skrilla”的用户反馈。如图所示,查询1712提供使用了单词“Skrilla”的示例性语境1714,并且还提供字段1716,所述字段被配置成接收查询1712的自由形式的响应。当观众成员从截图1704的列表1710中选择单词“Skrilla”的用户反馈时,观众成员可被引导到截图1706。
图18描绘根据各实施例的跳过用户反馈的示例性截图。具体而言,图18呈现出截图1802和1804,所述截图表示可(例如,通过聊天客户端系统1400)呈现给观众成员以促进用户反馈过程的GUI的实例。截图1802呈现出可供观众成员选择的用户反馈机会的列表1806。如图所示,列表1806为观众成员提供机会,以跳过列出的用户反馈机会中的一个或多个。
截图1804呈现出查询1808的实例,所述查询被呈现给观众成员,以获取各个单词的用户反馈。如图所示,查询1808为观众成员提供机会,以跳过将响应提供到查询1808的过程。通过为观众成员提供机会以跳过某些用户反馈机会和/或各个用户反馈查询,某些实施例可避开各个用户反馈查询的错误和/或伪造响应。
图19描绘根据各实施例的接收短语的用户反馈的示例性截图。具体而言,图19呈现出截图1902和1904,所述截图表示可(例如,通过聊天客户端系统1400)呈现给观众成员以促进用户反馈过程的GUI的实例。截图1902呈现出可供观众成员选择的用户反馈机会的列表1906。如图所示,用于各个单词和短语的可用用户反馈机会的列表1906(例如,“Skrilla”和“Pardon my french”)。
截图1904提供查询1908的实例,所述查询被呈现给观众成员,以获取短语“Pardonmy french”的用户反馈。如图所示,查询1908提供使用了短语“原谅我说脏话(Pardon myfrench)”的示例性语境1910,并且还提供字段1912,所述字段被配置成接收查询1910的自由形式的响应。当观众成员从截图1902的列表1906中选择短语“Pardon my french”的用户反馈时,观众成员可被引导到截图1904。
图20描绘根据各实施例的通过选择形式的响应列表来接收用户反馈的示例性截图。具体而言,图20呈现出截图2002、2004和2006,所述截图表示可(例如,通过聊天客户端系统1400)呈现给观众成员以促进用户反馈过程的GUI的实例。截图2002呈现出征求一个或多个观众成员参与翻译失败相关联的单词或短语的用户反馈的大字标题2008的实例。通过选择大字标题2008,观众成员可选择参与用户反馈,从而可引导开始用户反馈会话和/或将观众成员引导到可用的用户反馈机会列表,从中观众成员可选择参与。
截图2004提供查询2010的实例,所述查询被呈现给观众成员,以获取单词“Skrilla”的用户反馈。查询2010中包括自由形式的响应2012,所述响应列出了可供观众成员可选择的可能的响应。一旦为单词“Skrilla”选择正确的响应“金钱”,截图2006便借助通知2014和2016呈现出奖励的激励(例如,5个金币)。
图21描绘根据各实施例的用于创建选择列表的示例性截图。在图21中,截图2102提供查询2106的实例,所述查询被呈现给观众成员,以获取单词“Skrilla”的用户反馈。如图所示,查询2106提供使用了单词“Skrilla”的示例性语境2108,并且还提供字段2110,所述字段被配置成接收查询2106的自由形式的响应。
根据一些实施例,用来获取给定单词或短语的用户反馈的选择形式的响应方法可包括从针对给定单词或短语收集的自由形式的响应中选择的预定义响应的列表。因此,当各个观众成员通过字段2110提供单词“Skrilla”的自由形式的响应(例如,“很多钱(A lotof money)”、“现金(Cash)”、“金钱(Money)”和“非常富有(Really Rich)”)时,收集的响应可用于创建选择形式的响应2112的列表,如截图2104所示。
图22描绘示出根据各实施例的示例性激励通知的截图。在图22中,截图2200将通知的实例呈现给观众成员,以向他们通知他们对单词“Skrilla”的响应“金钱”得到认可,并且通知他们因认可的响应而被奖励激励(例如,XXXX金币)。截图2202将通知的实例呈现给观众成员,从而向他们通知他们对单词“Skrilla”的响应“金钱”被否决。截图2204将推送通知的实例呈现给观众成员,以向他们通知他们的响应得到认可。
图23描绘示出根据各实施例的当客户端聊天系统之间的翻译失败时的实例的截图。在图23中,截图2300呈现出第一聊天客户端系统的示例性界面,并且截图2302呈现出第二聊天客户端系统的示例性界面。双向箭头2304呈现出第一和第二聊天客户端系统之间的聊天通信。如图所示,当聊天用户“Aramis”用英语将聊天通信输入到第一聊天客户端系统的界面中时,输入的聊天通信被翻译成法语并且呈现在聊天用户“tapir”的第二聊天客户端系统的界面上。同样,当聊天用户“tapir”用法语将聊天通信输入到第二聊天客户端系统的界面中时,输入的聊天通信被翻译成英语并且呈现在聊天用户“Aramis”的第一聊天客户端系统的界面上。
如图23所示,当被发送到聊天用户“tapir”的第二聊天客户端系统的界面时,聊天用户“Aramis”输入在第一聊天客户端系统的界面中的聊天通信2306(即,“Tru dat bro?”)未能翻译。通过呈现聊天用户“Aramis”输入的原始聊天通信并且向聊天用户“tapir”表明所述聊天通信是聊天用户“Aramis”输入的原始聊天消息,呈现给聊天用户“tapir”的聊天通信2308(即,“Tru dat bro?”)反映出这一翻译失败。
根据一些实施例,图23示出的翻译失败是可受益于用户反馈的翻译失败。根据一些实施例,图23示出的翻译失败可被翻译失败管理模块1314识别,并且来自原始聊天通信2306(即,“Tru dat bro?”)的一个或多个单词可被添加到未定义的单词/短语数据存储1602,以便未来从参与的观众成员中选择用户反馈。例如,每个单词“Tru”、“dat”和“bro”可被添加到未定义的单词/短语数据存储1602,以用于每个的未来用户反馈。
图24和图25描述示出根据各实施例的用于用户反馈的示例性单词或短语列表的截图。在图24中,截图2400呈现出针对可供观众成员选择的单词和短语(包括“Tru”),可用于观众成员选择的用户反馈机会的列表2402。在图25中,截图2500呈现出针对可供观众成员选择的短语,可用于观众成员选择的用户反馈机会的另一列表2502。在图24和图25中,截图2400和2500可以游戏中的聊天系统的一部分,借此,游戏玩家可为某些单词或短语提供用户反馈,并且在反馈响应得到认可之后,可被奖励游戏积分(例如,游戏金币)。
图26描绘示出根据各实施例的定义单词的实例的截图。在图26中,截图2600呈现出查询2602,所述查询包括使用了单词“Tru”的示例性语境2604,并且还提供字段2606,所述字段可被配置成接收查询2602的自由形式的响应。
图27描绘示出根据各实施例的选择形式的响应的示例性列表的截图。在图27中,截图2700呈现出可供观众成员选择以定义单词“nemore”的响应的列表2702。
图28描绘示出根据各实施例的所提交的响应的状态的示例性列表的截图。如图28所示,所提交的响应状态的列表2802包括第一响应2804的待定状态以及第二响应2806和第三响应2808的认可状态。对于一些实施例而言,列表2802可为响应状态提供进一步信息,例如,包括特定响应为何被认可、否决或仍待定复查。
图29描绘示出根据各实施例的示例性激励通知的截图。具体而言,图29提供截图2900,所述截图将示例性通知2902呈现给成员,以便在根据实施例的用户反馈过程中将短语“U still thr”正确定义为“You still there?”。通知表明作为所提供的用户反馈的激励,他或她将被奖励10个金币,所述金币可具有价值或可用作游戏中的货币。如图所示,通知也提供用户反馈的总和(即,正在考虑的单词或短语以及提供的用户反馈响应)。
在某些实施例中,提供用于数据选择的学习系统,其中从用户获取的反馈通过检查并且平衡玩家一致性的机器学习系统实现自动化。所述系统将接收自玩家的并行句子添加到并行语料库,所述并行语料库可用来不时地再训练统计机器翻译(SMT)系统。
聊天转换系统可以是或可包括将聊天俚语转换成普通用语的系统。例如,聊天转换可将“U r da king”(聊天俚语消息)转换成“You are the king”(普通用语消息)。在某些实施例中,“普通用语”是指普通人说出和/或写出的日常语言,通常超出聊天俚语占主导地位的电子聊天环境的范围。普通用语往往比聊天俚语更符合语法。
学习系统也可使用或包括将一种语言翻译成另一种的语言翻译系统。例如,语言翻译可将“How are you doing kind sir”(英语消息)翻译成te va amable(西班牙语消息)。
在一些实施例中,“并行预语料库”被理解成是指两个文本,每个文本各使用一种语言,所述文本并行对齐,使得一个文本中的第n行对应于第二已翻译文本中的第n行。并行预语料库在此类语境中也可称为“训练语料库”。
在各个实施例中,“机器学习”被理解成是指监督式、半监督式或非监督式系统可从输入数据的模式中学习并且将机构发展为检测、转换或预测行为。
一般来说,建立聊天转换系统和语言翻译系统需要适量的句法规则或大量的并行语料库,以用于统计学习。本文所述的系统和方法通常利用可靠的统计聊天转换和语言翻译系统,所述系统使用并行语料库。然而,在某些情形下,这个初始训练数据集的内容和范围可受到限制。例如,每天都创建新的聊天单词并将其添加到聊天室中。为了维持准确而可靠的转换和翻译系统,这些新的聊天单词应被增加到聊天转换训练语料库中。
在各个实施例中,系统和方法用于识别“词库外”(OOV)的单词(例如,给定词典中没有的单词)。参考图30,在一些实施例中,方法3000用于检测和处理OOV单词。在步骤3002处,通过将OOV单词发送通过翻译器系统,例如,CTT系统114或CTT系统1300和/或其一个或多个模块,最初检测到所述OOV单词。当得自翻译器系统的输出与给定单词的输入相同时,翻译器系统指出缺少可转换性,从而表明所述单词可能是OOV。为了进一步将单词评定为潜在OOV单词,系统和方法可确定(步骤3004)单词是否是新词,而不是拼错的词,这二者均表现为OOV。因此,可用拼写检查器校正的单词可被视作拼错的单词,而不是OOV单词。
此外,频繁出现在聊天中的OOV单词是OOV单词的倾向通常更高(例如,新的聊天俚语单词)。例如,当单词已被用户用在先前的文本消息中时,此类先前使用表明所述单词可能是OOV单词。在一些实施例中,并行地同时使用机器学习和语言处理方法来检测单词是否为OOV单词(步骤3006)。
此外或作为替代,可计算贝叶斯概率(步骤3008),以提供OOV是新单词而非拼错单词的统计概率。真正的聊天俚语单词趋于在先前常用的某些单词之后并且公布聊天俚语单词。相比之下,拼写错误将具有不太一致的相邻单词的分布。计算前面和后面的贝叶斯概率将有助于将可添加到词典中的可用OOV单词与不应添加到词典中的拼写错误区分开。例如,看看短语“Wassup,how's it going”。“Wassup”被视作OOV单词因为它不在标准词典中。但“Wassup”之后几乎一直都是单词“How's it going”或者经常用在句子的开头。这种模式或一致性行为被贝叶斯概率捕获到。所述系统可在具有拼错的单词而非聊天单词的文本上进行训练。
或者或此外,诸如k均值聚类的机器学习方法可用来区分(步骤3010)不同类的OOV单词,例如,新的聊天单词、拼错的单词或无义词。k均值聚类可能找出词类之间的潜在相似之处。属于类似话题的单词可能聚集起来,从而表明它们之间的潜在同义关系。再次看看“Wassup,how's it going”的实例。使用k均值算法聚集一组句子可暴露出包括“Wassup”的问候词的群集,例如,群集中的“Hi”、“What's up”、“Hello”、“Hi!”等。相比之下,拼写错误将位于群集的边缘或者根本不在任何定义的群集中。这些潜在关系帮助将可用OOV单词与错误区分开。可分析句子的句法和语义以确定句子包括哪种OOV单词(例如,动词、名词或形容词)。
当所述系统和方法检测到新的聊天单词或其他OOV单词时,新的聊天单词可被呈现给人工翻译员,以定义新聊天单词的聊天转换或语言翻译版本。新聊天单词的转换或翻译版本随后可添加到翻译词典中并且被本文所述的系统和方法使用。
如本文所述,当为语言之间的聊天的人工翻译提供激励时,用户可能会以欺骗的方式利用系统来骗取激励(例如,游戏货币)。本文所述的系统和方法通常兼容人工翻译员能力,然而能够检测欺骗性的提交内容。
当系统的用户充当翻译员时,用户将一个或多个单词或句子翻译成指定的目标语言。然而,当用户为了玩系统游戏或为了在没有满足系统的目标就获得激励而给出错误、不完整或不合适的翻译时,用户出现欺骗行为。
参考图31A,在某些实施例中,本文所述的系统和方法利用欺骗检测模块3100。通过将新的和旧的训练数据(例如,并行语料库)呈现给用户,欺骗检测模块3100检测受激励翻译中的欺骗。旧训练数据对应于已知正确答案的翻译,而新训练数据对应于未知正确答案的翻译。随着时间的过去,新数据与旧数据的百分比可随用户变化。例如,最初可呈现更多的旧数据,并且随后逐渐减少百分比。
在一些实施例中,通过检查接收自用户的旧数据翻译的准确性,完成欺骗检测。基于这一准确性将信度分数分配给每个用户。翻译准确性的较大或突然转变或者准确性一贯较低表明用户的欺骗或翻译能力较低。甚至在翻译员的能力建立信度之后,优选在定期欺骗检查时间的至少10%-20%随机插入旧数据。
使用这种基础结构,欺骗检测模块3100可包括和/或使用监督式欺骗检测模块3102和/或非监督式欺骗检测模块3104。通过监督式欺骗检测模块3102,报告工具可将每个用户的输出呈现在(例如)用户界面中,具有如下字段:呈现的输入句子、获取的翻译、已知正确的现有翻译、用户的当前信度分数以及表示翻译员信度分数随时间变化的图标。当复查翻译时,人工监督员可接受或拒绝翻译,并且可相应地调整用户的信度分数。如果累积报告显示出欺骗行为,则监督员可移除用户(即,撤回用户的翻译特权)。可使用翻译特权模块3106来执行用户的移除或用户翻译特权的撤回。
或者或此外,欺骗检测模块3100可利用非监督式欺骗检测模块3104。通过非监督式欺骗检测模块3104,可使用各个度量来计算翻译的准确性,例如,WER(词错误率)和BLEU(将机器翻译与高质量的参考翻译相比较的机器翻译准确性度量)。可检查用户翻译能力的信度的改变或变化(例如,增加或减低)。呈现给一个翻译员的类似句子可被呈现给使用系统的其他独立翻译员。也可计算翻译员之间的可靠性。例如,通过随机抽样、社交网络分析(例如,以确认两个翻译员并没有社交连接或者没有预先存在的关系)以及通过检测聊天会话和/或在线游戏中的用户之间的重复交互,可避开翻译员之间的串通行为。经常一起在线交互的两个用户(例如,在线游戏或聊天会话)更有可能参加串通。在一些实施例中,项目响应理论(即,用于心理语言学的理论和测试理论)用于通过翻译员能力来增加翻译员信度的测量。使用项目响应理论在具有激励机制的翻译增加系统中进行非监督式欺骗检测,可执行欺骗检测。项目响应理论规定一些方式,其中在一段时间内,可相对于同等翻译员和他们自己来测量翻译员准确性,以便测量一致性。使用此方法可识别出标准的偏离。在设置的时间段之后,通过再次将同一句子呈现给翻译员,也可计算翻译员内部的可靠性。可以设置可靠性和翻译员信度的各个阈值,并且如果翻译员的信度低于此阈值,那么可使用翻译特权模块3106将翻译员从系统中移除和阻断(例如,用户的翻译特权可被撤回)。在一些实施方案中,将来自高信度系统的翻译添加到翻译对词典。
图31B包括根据本发明的某些实施例的检测受激励翻译中的欺骗的方法3110的流程图。所述方法包括选择(步骤3112)旧训练数据和新训练数据的混合数据。旧训练数据包括一个或多个旧文本消息,其中已知所述旧文本消息到不同语言的正确翻译。新训练数据包括一个或多个新文本消息,其中未知所述新文本消息到不同语言的正确翻译。多个相应请求在不同时间被发送(步骤3114)到用户的客户端装置。所述请求包括(i)让用户翻译旧训练数据和/或新训练数据的请求和(ii)翻译的激励。在发送特定请求之后,从客户端装置接收针对特定请求的旧训练数据的翻译(步骤3116)。接收到的翻译与旧训练数据的正确翻译相比较(步骤3118)。基于比较,确定接收到的翻译的准确性(步骤3120)。接着,基于翻译,更新用户的信度分数(步骤3122)。信度分数代表用户将在之后的时间提供文本消息到不同语言的准确翻译的可能性。
在各个实施例中,本文所述的系统和方法使用语音翻译或语音识别技术为群语音聊天系统的用户将一种语言的可听语音翻译成另一语言。所述系统和方法可针对聊天俚语实施,其中语音转文本转录系统将用户聊天俚语转录成文本,这个文本随后被转换成普通用语(例如,非聊天俚语)并且翻译成外语。随后进行最终的转换,以产生外语聊天俚语,随后通过外语文本转语音系统输出到最终用户。所述系统和方法优选通过极快的解码器来使用最先进的语音识别技术和统计机器翻译技术。
图32是群聊系统3200的示意图,所述群聊系统允许说不同语言的一组人3202使用聊天俚语口头交互。如本文所述,系统3200能够识别参与群聊系统3200的人所说的语言。当第一用户3204希望将可听聊天俚语消息发送到第二用户3206时,第一用户3204将第一语言(例如,英语)的可听聊天俚语消息3208输入到用户输入装置(例如,聊天客户端系统中的麦克风)。语音识别模块3210将可听聊天俚语消息转换成第一语言的聊天俚语文本消息3212。转换模块3214用于将聊天俚语文本消息3212转换成第一语言的普通用语(例如,非聊天俚语)文本消息3216。接着,翻译模块3218用于将普通用语文本消息3216翻译成第二语言(例如,法语)的对应普通用语文本消息3220。转换模块3222随后用来将对应普通用语文本消息3220转换成第二语言的对应聊天俚语文本消息3224。所属领域的技术人员将认识到,转换模块3222可与转换模块3214相同或形成它的一部分。文本转语音模块3226随后用于将对应聊天俚语文本消息3224转换成第二语言的对应聊天俚语可听消息3228。最后,使用输出装置(例如,第二聊天客户端系统上的扬声器)将对应聊天俚语可听消息3228传送到第二用户3206。
在各个实施例中,语音识别模块3210可使用隐马尔可夫模型、基于动态时间规整(DTW)的语音识别和/或神经网络,以将可听聊天俚语文本消息3208转换成聊天俚语文本消息3212。同样地,文本转语音模块3226可使用语音合成,以将对应聊天俚语消息转换成对应聊天俚语可听消息。如所属领域的技术人员将理解,语音合成可使用或包括拼接合成(例如,单元选择合成、双音合成和/或特定领域合成)、共振峰合成、发音合成、基于HMM的合成和/或正弦波合成。
创建此类语音处理系统的重要方面涉及针对可被处理的语言来收集多个口音和方言的语音样本。语音数据的性质可包括每种语言的聊天俚语和普通用语格式,以便维持系统与所述系统涉及的领域的关联。本文所述的激励反馈机制可用来转录这些语音样本,所述语音样本继而可用来训练语音识别模块3210和/或文本转语音模块3226。领域适应技术可用来代替稀疏的数据点。这在数据比较稀疏的聊天俚语语音样本的情况下可能会有需要。例如,游戏领域收集的语音数据(例如,用于在线游戏)可用大量使用的普通用语数据代替。领域适应性优选包括识别出管理给定语言中的聊天俚语与普通用语之间的较小变化的规则(例如,所述规则管理给定语言中的从聊天俚语到普通用语或者从普通用语到聊天俚语的转换)。普通用语句子(不具有聊天俚语等义词中的语音样本)随后可使用这些领域级规则转换成聊天俚语。用户反馈环路可用来将(例如,用于语音识别模块3210和/或文本转语音模块3226的)声学模型参数调谐到使得声学模型变成领域专用且因此更准确的水平。例如,当语音识别模块3210在特定口音方面一贯有困难时,可将各个单词的额外可听样本(例如,由用户)提供到使用所述口音的系统。这将帮助语音识别模块3210学习如何更好地识别用所述口音说出的单词。
如上提及,本文所述的系统和方法的实施例用来将文本或聊天消息从群聊环境翻译成不同语言。将此类已翻译的聊天存档可将不同语言的很大量文本存留到知识库中。
参考图33A,在某些实施例中,为了降低存储需求并且便于用户复查聊天历史,使用聊天历史模块3300以在用户浏览聊天历史时能实时翻译聊天历史。聊天历史模块3300包括聊天存储模块3302(例如,寄存器或其他存储装置),以用于存储各个用户的聊天历史。聊天历史模块3300还包括聊天历史转换模块3304,其在文本消息被翻译成不同语言之前和/或之后转换文本消息。例如,聊天历史转换模块3304可执行聊天历史文本消息的实时转换,以从聊天俚语转换成正式用语或普通用语。在一些实施例中,聊天历史转换模块3304与转换模块208相同或类似。聊天历史模块3300还包括聊天历史翻译模块3306,其可用来将聊天历史文本消息(例如,正式用语或普通用语)实时翻译成不同语言(例如,从法语翻译成英语)。聊天历史翻译模块3306可以是或可包括本文所述的其他模块或部件,例如,语言模块206和/或翻译数据存储210。
一旦用户完成复查聊天历史,那么可从存储器中删除或移除聊天历史模块3300生成的任何转换和/或翻译文本。这降低了系统和方法的存储需求。如果用户希望在之后的时间复查聊天历史,那么根据需要,可再次使用聊天历史模块3300来转换和翻译聊天历史中的文本。
在某些实施例中,聊天历史模块3300为用户实时翻译聊天历史。聊天历史模块3300接收用户的请求,以复查聊天会话中的文本消息的历史。聊天历史模块3300从聊天历史存储模块3302接收文本消息的历史,所述历史包括多种语言的文本消息。随后使用聊天历史转换模块3304和聊天历史翻译模块3306,根据需要而将聊天历史的初始部分转换和/或翻译成用户所用的语言。在查看了聊天历史的第一翻译部分之后,用户可能希望查看聊天历史的不同部分。聊天历史模块3300随后可接收用户的请求,以查看文本消息的历史的不同部分。随后使用聊天历史转换模块3304和聊天历史翻译模块3306,根据需要而将聊天历史的不同部分转换和/或翻译成用户所用的语言。当用户滚动浏览聊天历史时,聊天历史模块3300优选实时执行转换和/或翻译。
在某些实施例中,滚动浏览聊天历史呈现出比例和数据存储的问题。提供无限滚动聊天历史呈现出跨越多个数据库和多个用户来快速实时访问数据的问题。这可通过产生并行的多个过程来完成,所述过程从聊天室中的所有用户那里找取历史消息。当从数据存储中找取消息时,可并行对这些消息进行翻译和相关联的聊天转换。最终用户实现的结果输出是从一个屏幕的聊天到文本的无缝过渡,其中已经完成了数据库中的数据查询。由于本文所述的系统和方法并不限制数据存储而且并行计算可在之前产生的过程之间再循环,因此,针对无限数量的屏幕,这一过程可继续下去。
图33B是根据本发明的某些实施例的实时翻译聊天历史的方法3310的流程图。方法3310包括接收(步骤3312)人的请求,以复查聊天会话的文本消息的历史。历史优选包括使用多种语言并且来自多个用户的文本消息。执行至少两个并行过程(步骤3314)。每个并行过程包括(i)接收或选择聊天会话的相应用户生成的文本消息(即,形成文本消息的历史的至少一部分的文本消息),以及(ii)将文本消息翻译成目标语言。将来自多个并行过程的已翻译文本消息提供(步骤3316)到人的客户端装置。从所述人接收(步骤3318)请求,以复查文本消息的历史的不同部分。针对文本消息的历史的不同部分重复步骤3314和3316。
在一些情况下,本文所述的系统和方法的用户可能希望避免与群聊或游戏环境中的某些其他用户交互。在先前的聊天系统中,聊天用户的禁止和沉默通常由聊天服务器的管理员或仲裁员处理。然而,本文所述的系统和方法的环境允许用户直接控制谁能够发送用户聊天消息和/或聊天联系邀请。例如,可允许用户A阻断用户B,从而用户A不再看到用户B在任何聊天室中的通信,和/或用户A不再接收到用户B的个人聊天联系(即,单独聊天)邀请。
在各个实施方案中,联盟是游戏(例如,多玩家在线游戏)中可组合成单位以提高游戏性的一组玩家。每个联盟优选具有自己的聊天室,其中联盟的成员可以对话或将文本消息发送给彼此。这表示有时需要阻断联盟聊天室中的某些用户。
图34A包括用户界面3400的截图,根据某些实施例,所述用户界面允许游戏系统的第一用户阻断游戏系统的第二用户的通信。如图所示,第一用户(例如,通过轻击触摸屏)选择管理设置图标3402,从而打开设置窗口3404。第一用户随后选择设置窗口3404上的“阻断联盟”按钮3406。出现消息窗口3408,以向第一用户通知来自第二用户的未来通信将被阻断。第二用户可添加到已被第一用户阻断的其他用户的列表。第一用户可选择编辑此列表,以将用户添加到该列表或从中移除。例如,参考图34B,下一次当用户选择管理设置图标3402时,设置窗口3404可包括接受联盟按钮3410。当第一用户选择接受联盟按钮3410时,可接受第二用户的未来通信,并且可出现消息窗口3412,以向第一用户通知此类通信已被接受。
在一些情况下,执行阻止和接受的比例会增加或降低系统的复杂性。并行计算可为实时执行阻止和接受提供灵活性,而没有传统系统中的时间延迟的缺点。例如,并行处理可用来翻译和/或转换文本消息聊天系统中的文本消息。单独的并行过程可分配给聊天会话的每个用户和/或聊天会话中使用的每种语言。此类并行过程可简化阻止和接受用户的任务。例如,当用户被阻止或接受时,可分别从聊天系统中移除单独的并行过程或添加所述并行过程。
图35是阻止用户进行聊天会话的方法3500的流程图,方法3500包括将文本消息聊天系统提供(步骤3502)到在线游戏的多个用户。从文本消息聊天系统的第一用户接收(步骤3504)请求,以阻断文本消息聊天系统的第二用户。在接收到请求之后,阻止(步骤3506)第二用户的文本消息被显示给第一用户。在一些情况下,使用本文所述的系统和方法翻译和/或转换聊天会话中的文本消息。可使用并行过程来执行文本消息的翻译和/或转换。例如,可将单词的并行过程分配来处理聊天会话的每个特定用户和/或聊天会话中涉及的每种语言的文本消息的翻译和/或转换。
自动化翻译服务并非始终准确,并且偶尔可受益于人工介入,以校正某些错误。在一些实施方案中,本文所述的翻译系统和方法允许用户识别翻译错误并提供校正,以解决这些错误。例如,双语或外语用户(例如,在线游戏的法语玩家)可查看聊天窗口并且看到不正确的翻译(例如,翻译成法语或源于法语)。所述用户可提交错误翻译的建议校正,并且所述用户可因提交了校正而被奖励(例如,在线货币或虚拟物品)。
在某些实施方案中,原始文本消息和对应翻译显示在单个屏幕上,从而为有语言经验的人提供机会,以便即刻提供翻译反馈。例如,用户可识别翻译错误并且选择提交校正翻译的选项。用户随后可输入并提交校正翻译,并且如果校正翻译得到认可并在此时,所述用户可接收奖励。在提交校正翻译之后,可阻止用户为原始消息提交额外的校正翻译。因此,用户可能无法从单个错误翻译挣得多个奖励。
在一些情况下,由于用户没有正确输入原始消息,因此,所述系统和方法无法翻译原始消息。例如,图36A示出列举了“Eres el peor!”的原始西班牙语消息3602。图36B中示出此消息的自动化英语翻译3604并且列出“你是最棒的!(You are the best!)”。参考图36C和图36D,用户可认识到,原始消息并未用正确的西班牙语输入,从而导致不正确的翻译。为了解决这个错误,用户可选择“校正翻译按钮”3606,从而导致校正窗口3608打开,其中用户可输入原始消息的校正。参考图36E和图36F,在这种情况下,用户在校正窗口3608中输入“Ustedes son los mejores!”并且选择提交按钮3610。出现确认窗口3612,以通知用户提交内容将被处理。关闭确认窗口3612使用户返回到原始聊天页面。
参考图37A和图37B,提供用户界面3700,以允许用户复查接收自其他用户的翻译校正。复查翻译校正的用户可因他们的努力而得到奖励,并且能够选择他们接收的特定类型的奖励(例如,在线游戏的虚拟商品或货币)。一般来说,在用户提交翻译校正之后,其他用户可决定所述校正是否比原始翻译和其他用户已经提交的任何其他翻译校正更好。当用户的翻译被判断为最佳翻译时,用户可接收到奖励,并且用户的翻译可添加到翻译字典(例如,翻译数据存储210)。参与判断各个翻译的用户也可接收到奖励。然而,此类奖励只可以给到选择了被所有判断员选为最佳翻译校正的那些用户。
一般来说,通过允许用户提交建议的翻译校正并且判断其他用户的提交内容,所述系统和方法利用用户愿意免费给出的反馈。这一过程中收集的数据一旦得到认可便可用来校正翻译缓存条目,从而提高本文所述系统和方法的整体翻译能力。这可确保未来当再次提交原始消息以供翻译时显示出正确翻译。
在典型的实施方案中,可提交和/或判断翻译校正的用户有两种类型:单语用户和双语用户。双语用户通常能够理解原始语言句子并且提供不同语言的更准确翻译。相比之下,单语用户可能无法理解原始语言短语,但是仍能够复查翻译(所述翻译以用户装置的语言呈现出来)并且作为奖励的交换而提交校正。从两种类型的用户获得的翻译内容上往往不同,其中双语用户通常提供更准确的翻译。所述系统和方法优选能够确定或检测用户是单语还是双语,并且可根据确定结果来权衡用户的反馈。例如,用户能够向系统和方法识别自己是单语或双语。
在某些情形下,多数用户是单语并且说同一种语言(英语)。由于大量说话的人使用一种语言,因此,通常有更多的用户为所述语言提交翻译校正,并且通常更少需要翻译成所述语言或从所述语言翻译的翻译校正。为了促进提供其他语言的翻译校正,用户可根据翻译校正的需要而得到奖励。例如,当大多数用户说着一种语言并且不缺少用所述语言给出的翻译校正时,此类用户可因提交翻译校正而接收更少的奖励(例如,标称量的75%)。同时,由于更多地需要不同语言的翻译校正,因此,说不同语言的少数用户可接收更多的奖励(例如,标称量的125%)。
用户可在给定时间段(例如,一天)内校正的翻译数量可以或可不受限制。例如,当提交校正没有奖励时,翻译校正的数量可能没有限制。另一方面,当用户因此类提交而被奖励时,可允许用户在所述时间段内提交有限数量的翻译校正。这种限制可防止双语用户或可能提交大量翻译校正的用户接收到过度的奖励,从而在基础游戏(例如,多玩家在线游戏)中获得不公平的优势。
在某些情况下,只从少量的用户(例如,2个或3个用户)接收到对不正确翻译的反馈,从而难以确定翻译提交的正确性并且难以自动生成奖励。例如,聊天连续发生,但很多用户可能更集中在与其他用户聊天和/或玩基础游戏,而更少集中在提交翻译校正。用户也可基于他们在自己的窗口中看到了什么来选择聊天,并且很少的用户可选择相同的聊天。因此,当接收到一个以上的翻译校正时,建议的校正可供其他用户进行判断,以在正确翻译上达成共识,作为奖励的交换。
提交翻译校正的奖励可根据抽奖系统而给到用户。在此类系统中,并非针对每个提交给出奖励,而是可随机给出奖励,其中提交更多校正的用户更有可能挣得奖励。归因于翻译消息的能力和/或意愿,而非他们在基础游戏中的能力或努力,这种方法降低了某些玩家可获得优于其他用户的不公平优势的可能性。
除了允许用户校正不好的翻译之外,用户也能够提交有关以下内容的反馈:错误检测的语言、未过滤的亵渎语以及名称实体检测。例如,在查看原始消息和翻译消息时,用户可认识到,自动化翻译系统不当地检测原始语言。用户随后可通知系统有关这一语言检测错误,作为可能的奖励的交换。同样地,用户能够通知系统有关消息中出现的任何亵渎语,从而允许系统过滤或从未来的消息中删除此类亵渎语。用户也能够通知系统有关消息中出现的名称实体,例如,公司、品牌、商标等。这可允许系统和方法识别出名称实体何时出现在消息中,并且确保此类实体被适当命名和/或识别。
一般来说,用户提交的翻译校正需要仔细评估,以确保只为准确的校正奖励用户。这将提高系统的整体准确性,并且防止用户通过提交欺骗性的校正进行欺骗。在一些实施方案中,使用基于单词的特征、基于语言的特征以及其他特征(例如,单词对齐匹配特征)来自动评估翻译校正的准确性,以防止用户利用系统。基于词类(POS)的语言模型可用来检查句子的语法正确性。此外,一些用户可提交语法正确但与原始消息无关的翻译校正。对于这种情况而言,单词对齐匹配分析特征可比较有用,并且可作为周期过程使用,以认可和/或否决用户提交。机器学习方法可用来验证本文所述的翻译系统和方法中的稀疏用户反馈。
表2呈现出根据本发明的某些实施例的用户提交的建议翻译校正的实例。在这些实例中,源语言的原始消息是“aaa bbb ccc”,并且目标语言的正确翻译是“xxx yyy zzz”。标记为“显示的翻译”的那列包括本文所述的自动化系统提出的初始翻译的实例。
表2.用户校正和优选结果的实例。
如表2所示,当用户提交正确的改进翻译时,用户提交应被认可,并且用户可接收适当的奖励。然而,当用户提交质量不佳或欺骗性的翻译(例如,随机消息)时,用户提交应被否决,但不应给用户奖励。所述系统和方法优选认可或否决此类实例,如此表的“状态”列所示。
在某些实施例中,根据翻译是否适合原始消息,将原始消息的翻译分类。所述分类可被当作二元分类任务,其中从翻译和原始消息中提取特征。分类技术可用来确保用户提交的翻译校正是准确的。例如,在一些情况下,由于每个不正确的翻译可接收到的响应的数量较少(例如,一到三个),本文所述的基于多数的验证并不适用。分类技术也可用来识别和/或解决缓存翻译数据中出现的散列冲突。例如,由于散列冲突,数据表中约10%或更多的翻译条目可能被破坏。
参考图38,在各个实施方案中,使用翻译准确性模块3800来评估翻译的准确性,所述翻译准确性模块包括基于单词的特征模块3802、基于语言的特征模块3804以及单词对齐模块3806。基于单词的特征模块3802用来评定基于单词的特征,例如,单词计数、字符数、表情符号、数字和/或标点符号。例如,当翻译正确时,原始消息中的单词数量和翻译中的单词数量通常约相同。因此,如果两个消息中的单词数量差别在阈值量(例如,约两个)以上,那么翻译可被视作不正确或可能不正确。在一个实例中,如果一个消息(例如,翻译)中的单词数量是另一消息(例如,原始消息)中的单词数量的1/2(或少于1/2),那么基于单词的特征模块3802可推断翻译不正确或可能不正确。
可用来评定翻译准确性的另一基于单词的特征是原始消息和翻译中的字符数量(例如,字母和数字)。一般来说,当原始消息中的字符数量约等于翻译中的字符数量时,翻译更有可能是准确的。阈值量可用来确定两个消息中的字符数何时过度不同。例如,如果翻译具有原始消息的3/2以上的字符数,那么基于单词的特征模块3802可推断翻译不正确或可能不正确。
可用来评定翻译准确性的另一基于单词的特征是表情符号(例如,日语电子消息中使用的表意文字或笑脸)的计数和顺序,其在原始消息与翻译之间通常保持不改变。表情符号通常属于某一Unicode文本范围,从而可用来检测给定句子中的表情符号。正规表达可使用这一Unicode范围来识别或提取两条消息中的表情符号。例如,如果输入连续含有3个表情符号而输出只含有一个表情符号,那么表明输入与输出之间出现不一致。如果两条消息之间的表情符号计数和/或顺序不同,那么基于单词的特征模块3802可推断翻译不正确或可能不正确。
可用来评定翻译准确性的额外基于单词的特征是两条消息中的任何数字和标点符号的计数。例如,如果有的话,可以识别或提取原始消息和翻译中的数字和标点符号,并且在分类之后,可找出它们之间的最长共同子序列的长度(LCS)的长度。这一长度除以两条消息的最大长度,给出此基于单词的特征的实际数值。一般来说,实际数值提供两条消息中重复的数字和标点的百分比的指示。实验结果表明,为此特定特征使用实际数值(而非二进制值)可获得更好的结果。例如,英语的输入句子“I am going to meet you at 4:30Cya!!”可具有等义输出“Je vais vous recontrer a 4:30Au revoir!!”。在提取标点和数字时,得到英语和法语版本中的“4:30!!”。在此情况下,LCS将是6(以字符计),并且英语和法语版本的最大长度是36(以字符计)。这一基于单词的特征的最终实际数值是6/36=0.167。
只依赖基于单词的特征可能不够评估翻译准确性。例如,用户能够通过提交翻译校正来欺骗至少一些基于单词的特征,其中原始消息的每个单词用虚拟单词(例如,“xxx”)更换,以产生具有原始消息中出现的相同数量的单词和字符的欺骗性校正。
为了避免这个问题,除了基于单词的特征之外或作为替代,翻译准确性模块3800可使用基于语言的特征模块3804来评估基于语言的特征。例如,在一个实施例中,原始消息和翻译中出现的单词被标记(例如,使用开源POS标签),以识别两条消息中的词类(POS)(例如,动词、名词、形容词等)。根据词类,可使用每种语言的不同标签集对消息中的每个单词进行标记,其中标签数量不同。例如,“The device is easy to use”的例句可被POS标签标记为“The_DT device_NP is_VBZ easy_JJ to_TO use_VB”,表明句子中每个单词的此类。在此情况下,标签是限定词(DT)、名词短语(NP)、现在时单数动词(VBZ)、形容词(JJ)、To(TO)以及简单动词(VB)。为此,主要相关标签通常是动词,接着是形容词和副词。
在某些情况下,原始消息和翻译单独加标签(例如,使用POS标签),并且计算每条消息的所得标签,以识别每个消息中的动词、形容词、副词等的数量。由于每种语言中的动词类型不同(例如,情态动词、非限定动词、动词过去式、动词将来时等),使用每种语言中的所有类型的动词的映射,可获取简化的动词标签VB。例如,英语动词词类标签可映射到单个动词标签VB,如下:‘VBD’(动词,过去式)=>‘VB’,‘VBG’(动词,动名词)=>‘VB’,‘VBN’(动词,过去分词)=>‘VB’,‘VBP’(动词,非第三人称单数现在时)=>‘VB’,以及‘VBZ’(动词,第三人称单数现在时)=>‘VB’。加标签的消息中的POS标签可用这一简化的POS标签集替换。
在简化POS标签之后,可计算原始消息和翻译中的动词标签VB的数量。理想情况下,每个消息中的动词数量应相同,但有一些例外。例如,英语的“was sleeping”翻译成法语“dormais”。英语POS标签可将“was”和“sleeping”标记为两个不同的动词,而法语POS标签可将“dormais”标记为单动词。诸如“is”、“was”和“can”等动词已知为英语中的助动词。其他语言中可能没有这些助动词的等义词,而可使用单动词作为替换。为了说明语言之间的动词使用的差异,系统和方法可针对原始消息与翻译之间的动词数量的差异而使用阈值(例如,2或3)。例如,当两个消息中的动词数量之间的差异大于二时,基于语言的特征模块3804可将翻译视作不正确或可能不正确。找到阈值二,以通过尝试错误来产生合理的结果。可使用一个或多个额外的阈值来计算和比较两个消息之间的其他词类(例如,形容词和副词)。
然而,在一些情况下,通过简单复制和提交现有翻译作为翻译的校正,用户可欺骗此翻译准确性检查。在这种情况下,提交可被分类为有效校正,但用户可能不会因提交而得到奖励。在一些情况下,用户也可简单改变现有翻译中的一些单词的格,以产生和提交有效校正,并且用户可应得奖励并因提交而被奖励。因此,在一些实施例中,系统和方法确定现有翻译和用户提交是否相同。如果现有翻译和用户提交相同(例如,包括格和大写),则可不给用户奖励。
在某些实施例中,当自动化翻译系统无法正确识别原始消息的语言时,使用POS标签检查来识别情况。例如,当用户的翻译校正通过了单词计数检查但未能通过POS标签检查时,原始消息的语言可被错误检测。当动词的数量等于零或者一个消息中的所有标签都是名词而另一消息并非如此时,也可能出现不正确的语言检测。例如,原始西班牙语消息可叙述:“Pizt te enviA3tan pronto regrese una marcha”。然而,如果语言被检测为英语,那么英语POS标签可能无法对消息加标签,并且可默认将所有单词标记为名词。例如,英语POS标签的输出可以是:[{"tag":"NP","word":"Pizt","stem":"<unknown>"}、{"tag":"NN","word":"te","stem":"te"}、{"tag":"NN","word":"envi\u00c3\u00b3","stem":"<unknown>"}、{"tag":"NN","word":"tan","stem":"tan"}、{"tag":"RB","word":"pronto","stem":"pronto"}、{"tag":"JJ","word":"regrese","stem":"<unknown>"}、{"tag":"NN","word":"una","stem":"<unknown>"}、{"tag":"NN","word":"marcha","stem":"<unknown>"}]。相比之下,同一原始消息的西班牙语标签的输出可以是:[{"tag":"NP","word":"Pizt","stem":"<unknown>"}、{"tag":"PPX","word":"te","stem":"t\u00fa"}、{"tag":"VLfin","word":"envi\u00c3\u00b3","stem":"<unknown>"}、{"tag":"ADV","word":"tan","stem":"tan"}、{"tag":"ADV","word":"pronto","stem":"pronto"}、{"tag":"VLfin","word":"regrese","stem":"regresar"}、{"tag":"ART","word":"una","stem":"un"}、{"tag":"NC","word":"marcha","stem":"marcha"}]。标签“NN”、“RB”和“PPX”分别是指名词(单数或复数)、副词和物主代词。
因此,在某些情况下,原始消息和翻译的词类相比较,以确定是否适当识别原始消息的语言。一般来说,在一个消息(例如,翻译)被标记为具有非零数量的动词并且另一消息(例如,原始消息)被标记为不具有动词时,更有可能发生语言检测失败。当一个消息中的所有单词被标记为名词,而另一消息具有若干类型的POS标签(例如,名词、动词和形容词)时,也更有可能发生语言检测失败。
在各个实施例中,通过识别和复查原始消息和翻译中的专有名词来评定翻译准确性。一般来说,当翻译准确时,专有名词(例如,人名和城市名)在翻译和原始消息中相同。因此,比较两个消息并且过滤未翻译的常用词可用作识别真正翻译的特征。在一些情况下,出现此类未翻译的专有名词可帮助提高翻译精度,但缺少任何未翻译的专有名词可不给出有关翻译精度的任何信息。如果原始消息中识别出专有名词但翻译中没有,那么翻译准确性可被视作不正确或可能不正确。惩罚可被添加到为此专有名词特征返回的实值分数,从而帮助识别任何不好的翻译并且提高翻译准确性。例如,当专有名词在两个消息之间不一致时,翻译的准确性分数可被惩罚减少。
或者或此外,通过分析和比较原始消息和翻译中的语法,可评估翻译准确性。使用多种语言可难以分析所有语言树以理解句子的语法。消息也经常使用聊天语言书写,所述聊天语言遵循与本地语言的普通或正式用语不同的语法。
因此,为了识别聊天语言的语法中的模式,句子可用POS标签进行加标签,以对POS标签建立N元语言模型,从而提供基础语法结构的近似。n元可被定义为n个连续单词的集合。这些n元的模型可以是给定语言的典型模型,和/或可用来表示给定语言中的n个连续单词。在某些实施方案中,基于单词的n元的方法延伸到基于词类的n元。换言之,在句子中的单词用POS标签进行标记的情况下,可使用分析句子的简单方法。在一种方法中,基于POS标签而非实际文本来计算BLEU分数。
根据每种语言的POS标签句子,可创建三连词(3元)语言模型。例如,句子“Thedevice is easy to use”可具有POS标签输出“The DT device_NP is_VBZ easy_JJ to_TOuse_VB”。此句中基于单词的三连词是{The,device,is}、{device,is,easy}、{is,easy,to}、{easy,to,use}。对应基于POS的三连词将是{DT,NP,VBZ}、{NP,VBZ,JJ}、{VBZ,JJ,TO}、{JJ,TO,VB}。
可使用概率更高的三连词来推断语法的部分结构。例如,在POS标签上建立的三连词语言模型可具有与每个元相关联的概率。所述概率可计算为给定三连词出现在文本语料库中的次数与同一文本中的所有三连词的比例。语法上的三连词经常重复,因此,将具有更高的概率(也称为语言模型分数)。因此,当消息接收到此语言模型的更高分数时,消息在语法上更有可能是正确的。这个分数可用来检测用户键入垃圾消息以获得奖励的情况。所述分数也可用来确定语言检测何时失败。例如,由于可针对每种语言使用单独的模型,因此,错误语言的句子分数可能低得多。所述分数还可用来检测翻译质量何时较好。为此,针对人工和机器翻译可训练单独的模型。
在某些实施例中,使用已被证实准确的翻译来训练语言模型。可在POS标签上建立三连词模型。
任何大小的n元的固有问题是所有可能假设的缺失。在此类情况下,接着使用退避方法,其中识别出n-1元和n-2元。例如,如果看到未知的POS三连词,例如,{DT,NP,JJ},则所述模型可逆向检查,以看看二元{DT,NP}和{NP,JJ}是否具有语法上指明的语言模型分数。如果所述二元并不具有概率(或者如果概率太低),那么可完成另一退避,以针对{DT}、{NP}、{JJ}来检查一元语言模型分数。这三个模型也可通过线性插值进行分组,其中三连词模型的权重更多、二元模型的权重减少,并且一元模型的权重更少。
聊天英语的POS标记中最频繁出现的三连词如下:<IN><VBD><PP>=1.0;<FW><NN><IN>=1.0;<DT><WP><VBP>=1.0;and<RB></Sl></S2>=1.0。分数1.0表示给定的三连词顺序在出现时始终合乎语法的100%概率。一般来说,聊天语言更多地使用以“Wh”开头的代名词,接着是动词,所述动词由<DT><WP><VBP>捕获到。人们往往也用副词或形容词结束聊天语言句子,如在“You are cool”或“This is awesome”中,其由<RB></Sl></S2>捕获到,其中S1和S2是句子标签的末尾。因此,这些三连词可用来识别每种语言的基础语法的至少一些结构。通过为相关的所有语言建立的语言模型,所述模型可采用JSON格式保存并且可在任何时候立即加载。
在一些实施方案中,在消息已加了POS标签之后,系统和方法可计算与现有三连词语言模型匹配的消息中的三连词的数量。模型中的每个三连词可具有与之相关联的概率分数,并且对于消息中的每个三连词而言,三连词的对应分数在所述模型中识别出来。在一些情况下,如果分数高于阈值(例如,0.05),则三连词被视为匹配。否则,三连词不被视为匹配。系统和方法可计算三连词的匹配数量与句子中的三连词的总数量,并且这一比例可用作评定翻译准确性的实值特征。例如,语法文本中可频繁出现的三连词{easy,to,use}可具有约0.68的高概率分数(语言模型分数)。相比之下,不合语法的三连词{easy,use,to}可具有约0.04的较小出现概率。当与定义阈值0.05比较时,不合语法的三连词可被过滤掉,并且高于阈值的三连词数量可为文本的语法提供数值。
在获取加了POS标签的消息之后,可使用三连词语言模型来计算句子的概率。在一个实施例中,句子中每个三连词的对数概率被确定,并且计算出对数概率的总和。该总和随后除以句子中的单词数量,以获取句子的分数。所述分数可用作实值特征,以用于评定翻译准确性。三连词的对数概率优选计算为三连词、二元和一元概率的线性插值。例如,在句子“The device is easy to use”中,POS标签输出是“The DT device_NP is_VBZ easy_JJto_TO use_VB”。用于句子的基于POS的三连词是{DT,NP,VBZ}、{NP,VBZ,JJ}、{VBZ,JJ,TO}和{JJ,TO,VB}。这些三连词中的每个都具有在给定语言语料库中出现的概率。假设用于相应三连词的这些概率是0.12、0.44、0.32和0.89,那么句子语法的组合分数可计算为对数概率。在这种情况下,对数概率被计算为log(0.12)+log(0.44)+log(0.32)+log(0.89),等于-1.82。相对而言,对数概率提供句子语法性的数字指示。
除了上述基于单词和基于语言的特征或作为替代,翻译准确性模块3800可使用单词对齐模块3806,以评定原始消息与翻译之间的单词对齐。为了生成潜在单词对的对齐列表,只通过数据库上基于单词的特征来执行翻译准确性检查算法,并且提取并行语料库,其中翻译对的概率值>0.90。这表明只有质量较好的翻译消息对被过滤,以创建并行语料库。针对英语和法语对以及英语和西班牙语对来收集100K句子。这些100K句子的并行语料库被馈送到统计机器翻译工具包(即,GIZA++),以提取单词对齐。工具包提取约25-30K单词对齐对和这些对的相关联概率分数。
假设每个单词通常有多个单词对齐,那么比较有利的是只选择概率分数大于某一阈值(例如,0.01)的对齐。然而,即使有所述阈值,每个单词仍可获取一个以上的对齐,其中多数通常是因为拼写错误或同一单词处于不同时态(例如,过去式或将来式)。表3中示出英语和法语之间的示例性单词对齐。针对两种语言的两个可能顺序,可获取单独的单词对齐(例如,英语到法语和法语到英语)。因此,针对每个语言对可提取两个单词对齐文件。源语言(即,原始消息的语言)到目标语言(即,翻译的语言)的单词对齐可称为源对齐,而目标语言到源语言的单词对齐可称为目标对齐。
表3.英语和法语之间的示例性单词对齐。
源对齐和目标对齐可加载到两个单独的文件中。对于也出现在源对齐中的原始消息中的每个单词而言,系统和方法确定至少一个对应单词是否出现在翻译和目标对齐中。随后,将同一过程应用于翻译句子。最终,返回单词对齐文件中找到的单词百分比,作为评定翻译准确性的特征。
在某些实施方案中,针对包括英语作为一种语言的语言对,提取单词对齐。例如,针对总计11种语言和11 x 2=22个单词对齐文件,语言对可以是英语加上以下语言中的一个:西班牙语、法语、波兰语、葡萄牙语、荷兰语、德语、丹麦语、瑞典语、土耳其语、意大利语以及俄语。对于不包括英语的语言对而言(例如,将法语翻译成俄语),英语可用作中间语言,以提取对齐。例如,当验证从法语到俄语的翻译时,法语到英语可用来从原始消息中提取单词对齐,并且俄语到英语可用来从翻译中提取单词对齐。这两个集合的交叉给出两个消息中的单词对齐之间的匹配百分比。这种方法可延伸到所有语言对。
在各个实施例中,计算用户信度,以提供用户翻译提交是否可信的指示。除了本文论述的其他方法之外,或多或少基于用户的翻译校正历史,可信任用户。校正的翻译数量和受奖励的翻译数量可存储在各个用户的数据表中。这允许计算玩家完成的一定比例的校正,并且基于特定的用户信度阈值,可至少部分认可翻译校正。这可容易将垃圾邮件发送者与校正翻译的真正玩家分开来。
图39是根据某些实施例的校正翻译错误的方法3900的流程图。方法3900包括将文本消息聊天系统提供(步骤3902)给在线游戏的多个用户。从在线游戏的第一用户接收(步骤3904)第一语言的原始文本消息。生成(步骤3906)原始文本消息的第二语言的初始翻译。将原始文本消息和初始翻译提供(步骤3908)给在线游戏的第二用户。例如,第二用户可在客户端装置的显示器上一起或单独查看两个翻译。从第二用户接收(步骤3910)翻译校正,以解决初始翻译中的错误。方法3900还可包括识别(步骤3912)多个翻译校正(即,包括来自第二用户的翻译校正)中最准确的翻译校正。或者或此外,方法3900包括使用基于单词的特征、基于语言的特征以及单词对齐特征中的至少一个来评估(步骤3914)来自第二用户的翻译校正的准确性。
使用线性回归模型,上述基于单词和基于语言的特征(例如,四个基于单词的特征和四个基于语言的特征)可比较适合。训练之后,模型优选返回每个翻译对的实值数字,并且阈值可用来将每个翻译对分类成良好或较差。例如,如果特征返回数值xl、x2、x3、…x8,那么回归方程可以是y=al*xl+a2*x2+…+a8*x8,其中al、a2、...a8是通过对线性回归方程建模而获取的参数,并且y是输出值。在精确实验和使用ROC曲线进行回索率之后,找到阈值y的优选值是0.65。
在添加了上述基于单词对齐的特征并且对基于单词和基于语言的特征重新运用线性回归之后,优选阈值被改变成0.76。添加基于单词对齐的特征也将AUC值从0.853增加到0.976。
表4示出从训练用于基于单词的特征、基于语言的特征以及单词对齐特征中的每个的13k句子中获得的回归参数。表中的结果指明表情符号特征和字符数在标准化之后具有较小的回归参数,从而说明这些特征对翻译准确性的评估贡献很少。
特征 参数
数字 5.39E-01
表情符号 6.99E-20
字符数 1.76E-17
单词数 2.07E-01
计数<VB> 9.55E-02
三连词匹配 1.67E-02
三连词概率 -2.24E-02
未翻译的名词 4.18E-02
单词对齐匹配 4.48E-01
表4.用于翻译准确性特征的回归参数
通过对法语到英语和西班牙语到英语对的13k句子进行10层交叉验证来评估回归模型。使用具有某些人工监督的BTNG翻译来计算数据的金标准标签。表5呈现出用于评估的精度、回索率、准确性和F量度值的百分比。精度表示真阳性翻译对与所用方法标记为真的所有翻译对的比例。回索率是真阳性翻译对与已知为真对的所有翻译对的比例。准确性是标记为真阳性和真阴性的结果的总和与总测试集大小的比例。F量度是精度和回索率的调和平均数。这些度量可用于分类任务,以测量系统性能和可靠性。13k句子用作训练集,并且400个人工注释的句子用于测试。由于测试集较小,因此,用于测试的数量低于用于13k句子的数量。
表5.用13,000个句子的翻译准确性的研究结果。
表6示出对13k句子数据集的10层交叉验证的结果,其中W是指使用基于单词的特征,L是指使用基于语言的特征,以及A是指使用单词对齐特征。结果表明,基于单词的特征有助于提高精度,并且单词对齐特征有助于显著提高回索率。基于语言的特征较少提高精度和回索率。一般来说,回索率表明从总数据集中检测出不好的决策的有多准确。表中的结果表明,添加基于单词对齐的特征可提高回索率。精度表明,从系统标记为正确的总翻译中预测良好的翻译有多准确。表中的结果表明,添加基于语言的特征可提高精度。
方法 精度 回索率 F-量度 准确性
W 88.2 79.3 83.56 97
L 51.9 26.6 35.17 92.5
A 55 96.7 70.11 93.9
WL 90 79.3 84.56 97.3
WA 80.5 96.6 87.81 97.7
LA 57.8 96.6 72.32 94.2
WLA 80.7 96.8 88.01 97.7
表6. 13,000句子数据集的10层交叉验证的结果。
表7示出根据某些实施例的将各种基于单词、基于语言以及单词对齐特征与其他机器算法相拟合的结果。使用将不同特征结合起来的线性回归技术,已经说明目前为止的结果。现有的机器学习算法可用来将变量(此上下文中的特征)结合起来,以产生比单独部分更好的综合结果。线性回归呈现出用于组合变量的单维方法。机器学习算法文献中存在用于组合变量的二维和多维方法。这些算法用来找出组合预测良好翻译对的任务中所用的特征的更佳方式。
通过将特征与各种机器学习算法组合来获取表7中的结果。所用的数据集包括13k句子,并且使用栅格搜索算法调谐参数。根据表中列出的方法,梯度推进分类器和随机森林方法是基于总体的方法,这解释了这些方法给出更好结果的原因。梯度推进机器(GBM)和随机森林给出非常好的结果,但GBM要花更长的时间进行训练。然而,由于模型只需要训练一次,因此,训练时间在很大程度上是无关紧要的。
表7.将翻译准确性特征与机器算法相拟合的结果。
对3045个英语-法语句对的留存数据集测试最终的翻译准确性检查算法。结果在表8中示出。由于单词对齐是从普通用语数据库中提取的,因此,WLA简单特征执行得较差。由于消息在一系列转换之后被更改,因此,可发现结果急剧下降。单词对齐从聊天俚语数据库中提取,并且对更小的句子进行一些平滑,以避免特征中的零分。WLA表明聊天俚语数据库的结果。带有WLA特征的较差精度表明许多正确翻译被否决。当随机森林过度拟合结果时,特征与线性回归相拟合。一般来说,这些结果可用作选择最终特征集的基础,以用于算法。通常优选更高的准确性,而更高的精度会奖励用户输入的更真实的翻译对,并且高回索率确保更少的条目被错误分类为正确。根据表中的结果,需要WLA特征集。针对更高的回索率,可选择0.75的阈值(例如,以获取被标记为正确的最少可能的恶意条目),并且在需要更高的精度时,可选择0.68的阈值。
特征 阈值 精度 回索率 F-量度 准确性 ROC的范围
WL 0.75 85 59 69.95 96 0.723
WLA普通 0.75 19 79 30.63 80 0.631
WLA 0.75 65 93 76.51 95 0.883
WLA 0.68 76 85 80.24 96 0.853
表8.来自翻译准确性检查算法的结果。
虽然已参考具体优选实施例对本发明做了详细展示和说明,但所属领域的一般技术人员应了解,在不违背所附权利要求书定义的本发明的精神和范围的情况下,可对形式和细节做出各种改变。

Claims (25)

1.一种通过用户反馈确定翻译准确性的计算机实施的方法,其包括:
获取由第一用户创作的第一语言的原始文本消息;
获取所述原始文本消息的第二语言的初始翻译;
获取所述初始翻译的翻译校正,其中所述翻译校正由第二用户创作;
确定所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异;以及
基于被确定的所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异,确定所述翻译校正的准确性。
2.根据权利要求1所述的方法,其中所述初始翻译由第三用户标记为潜在不正确。
3.根据权利要求1所述的方法,其中进一步包括基于所述第二用户的信度测量、与所述第二用户相关联的配额、所述第二用户的账户的先前积分、所述第二用户的偏好或者所述第二用户的语言能力,选择所述第二用户来提供所述翻译校正。
4.根据权利要求1所述的方法,其中所述原始文本消息包括所述第一语言的聊天俚语。
5.根据权利要求1所述的方法,其中所述翻译校正包括所述第二语言的聊天俚语。
6.根据权利要求1所述的方法,其进一步包括基于所述翻译校正来确定所述第二用户的资格。
7.根据权利要求1所述的方法,其进一步包括:
基于所述翻译校正来更新单词或短语从所述第一语言到所述第二语言的转换或翻译。
8.根据权利要求1所述的方法,进一步包括基于被确定的所述原始文本消息和所述翻译校正之间在多个单词、字符、表情符号、数字或标点符号中的差异,来确定所述翻译校正得到认可。
9.根据权利要求8所述的方法,其中确定出所述翻译校正得到认可包括以下一个或多个:
确定出所述翻译校正没有欺骗,以及
确定出所述翻译校正准确。
10.根据权利要求8所述的方法,进一步包括基于所述的认可来给所述第二用户的账户记积分。
11.根据权利要求10所述的方法,其中所述积分包括游戏货币或游戏物品。
12.根据权利要求10所述的方法,进一步包括基于所述原始文本消息的复杂性、所述原始文本消息中的单词或短语的重要性、所述第二用户使用的响应方法、所述第一语言以及所述第二语言组成的组中选择的至少一个因素,确定所述积分的值。
13.一种通过用户反馈确定翻译准确性的系统,其包括:
一个或多个计算机,所述计算机经编程以执行操作,所述操作包括:
获取由第一用户创作的第一语言的原始文本消息;
获取所述原始文本消息的第二语言的初始翻译;
获取所述初始翻译的翻译校正,其中所述翻译校正由第二用户创作;
确定所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异;以及
基于被确定的所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异,确定所述翻译校正的准确性。
14.根据权利要求13所述的系统,其中所述初始翻译由第三用户标记为潜在不正确。
15.根据权利要求13所述的系统,其中所述操作进一步包括基于所述第二用户的信度测量、与所述第二用户相关联的配额、所述第二用户的账户的先前积分、所述第二用户的偏好或者所述第二用户的语言能力,选择所述第二用户以提供所述翻译校正。
16.根据权利要求13所述的系统,其中所述原始文本消息包括所述第一语言的聊天俚语。
17.根据权利要求13所述的系统,其中所述翻译校正包括所述第二语言的聊天俚语。
18.根据权利要求13所述的系统,其中所述操作进一步包括基于所述翻译校正来确定所述第二用户的资格。
19.根据权利要求13所述的系统,其中所述操作进一步包括基于所述翻译校正来更新单词或短语从所述第一语言到所述第二语言的转换或翻译。
20.根据权利要求13所述的系统,其中所述操作进一步包括基于被确定的所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异,确定所述翻译校正得到认可。
21.根据权利要求20所述的系统,其中确定出所述翻译校正得到认可包括以下一个或多个:
确定出所述翻译校正没有欺骗,以及
确定出所述翻译校正准确。
22.根据权利要求20所述的系统,其中所述操作进一步包括基于所述认可来给所述第二用户的账户记积分。
23.根据权利要求22所述的系统,其中所述积分包括游戏货币或游戏物品。
24.根据权利要求22所述的系统,其中所述操作包括基于所述原始文本消息的复杂性、所述原始文本消息中的单词或短语的重要性、所述第二用户使用的响应方法、所述第一语言以及所述第二语言组成的组中选择的至少一个因素,确定所述积分的值。
25.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由数据处理设备执行,以致使所述数据处理设备运行通过用户反馈确定翻译准确性的方法,所述方法包括:
获取由第一用户创作的第一语言的原始文本消息;
获取所述原始文本消息的第二语言的初始翻译;
获取所述初始翻译的翻译校正,其中所述翻译校正由第二用户创作;
确定所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异;以及
基于被确定的所述原始文本消息和所述翻译校正之间在单词、字符、表情符号、数字或标点符号的数量中的差异,确定所述翻译校正的准确性。
CN201480041034.3A 2013-06-03 2014-06-03 用于多用户多语言通信的系统和方法 Expired - Fee Related CN105408891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910333578.1A CN110069789A (zh) 2013-06-03 2014-06-03 数据处理设备实施的方法、系统和计算机程序产品

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/908,979 2013-06-03
US13/908,979 US9298703B2 (en) 2013-02-08 2013-06-03 Systems and methods for incentivizing user feedback for translation processing
PCT/US2014/040676 WO2014197463A2 (en) 2013-06-03 2014-06-03 Systems and methods for multi-user multi-lingual communications

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910333578.1A Division CN110069789A (zh) 2013-06-03 2014-06-03 数据处理设备实施的方法、系统和计算机程序产品

Publications (2)

Publication Number Publication Date
CN105408891A CN105408891A (zh) 2016-03-16
CN105408891B true CN105408891B (zh) 2019-05-21

Family

ID=51062960

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910333578.1A Pending CN110069789A (zh) 2013-06-03 2014-06-03 数据处理设备实施的方法、系统和计算机程序产品
CN201480041034.3A Expired - Fee Related CN105408891B (zh) 2013-06-03 2014-06-03 用于多用户多语言通信的系统和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910333578.1A Pending CN110069789A (zh) 2013-06-03 2014-06-03 数据处理设备实施的方法、系统和计算机程序产品

Country Status (11)

Country Link
EP (1) EP3005151A2 (zh)
JP (2) JP6276399B2 (zh)
KR (2) KR101743686B1 (zh)
CN (2) CN110069789A (zh)
AU (3) AU2014275087B2 (zh)
BR (1) BR112015030402A2 (zh)
CA (2) CA3037036A1 (zh)
HK (1) HK1216789A1 (zh)
NZ (3) NZ719940A (zh)
SG (2) SG10201700886VA (zh)
WO (1) WO2014197463A2 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268683B2 (en) * 2016-05-17 2019-04-23 Google Llc Generating output for presentation in response to user interface input, where the input and/or the output include chatspeak
US10348662B2 (en) 2016-07-19 2019-07-09 Snap Inc. Generating customized electronic messaging graphics
WO2018134878A1 (ja) 2017-01-17 2018-07-26 初実 田中 多言語コミュニケーションシステムおよび多言語コミュニケーション提供方法
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
GB2563648A (en) * 2017-06-22 2018-12-26 Lingo App Ltd Translation system
CN107632982B (zh) * 2017-09-12 2021-11-16 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN107979525A (zh) * 2017-10-11 2018-05-01 上海掌门科技有限公司 一种红包发放方法、设备以及介质
US10516637B2 (en) * 2017-10-17 2019-12-24 Microsoft Technology Licensing, Llc Smart communications assistant with audio interface
US10657695B2 (en) 2017-10-30 2020-05-19 Snap Inc. Animated chat presence
JP7109749B2 (ja) * 2017-12-26 2022-08-01 株式会社bitgrit 暗号通貨取引システム、方法、プログラム
CN108009161A (zh) * 2017-12-27 2018-05-08 王全志 信息输出方法、装置
US10549200B2 (en) * 2018-03-08 2020-02-04 Electronic Arts, Inc. Matchmaking for online gaming with streaming players
JP6372947B1 (ja) * 2018-05-14 2018-08-15 Jeインターナショナル株式会社 チャットシステム、チャット方法、およびプログラム
CN108763231A (zh) * 2018-06-12 2018-11-06 深圳市合言信息科技有限公司 一种多国语言同声传译的聊天室实现方法
CN110929530B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN111126614B (zh) * 2018-11-01 2024-01-16 百度在线网络技术(北京)有限公司 归因方法、装置及存储介质
CN109657252A (zh) * 2018-12-25 2019-04-19 北京微播视界科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
KR102138663B1 (ko) * 2019-03-29 2020-07-28 이승진 다국어 번역 지원이 가능한 채팅시스템 및 번역 제공방법
CN110728156B (zh) 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
JP6710818B1 (ja) * 2020-01-24 2020-06-17 日本電気株式会社 翻訳装置、翻訳方法、プログラム
CN111339790B (zh) * 2020-02-25 2023-04-04 北京字节跳动网络技术有限公司 文本翻译方法、装置、设备及计算机可读存储介质
CN111934984B (zh) * 2020-07-30 2023-05-12 北京达佳互联信息技术有限公司 一种消息反馈方法、装置、电子设备及存储介质
US11907678B2 (en) * 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification
CN112507736A (zh) * 2020-12-21 2021-03-16 蜂后网络科技(深圳)有限公司 实时在线社交翻译应用系统
CN113160827A (zh) * 2021-04-07 2021-07-23 深圳鱼亮科技有限公司 一种基于多语言模型的语音转写系统及方法
CN113674748A (zh) * 2021-08-30 2021-11-19 疯壳(深圳)科技有限公司 一种可触发虚拟成像系统
GB2622002A (en) * 2022-08-30 2024-03-06 Sony Interactive Entertainment Inc Speech assistance apparatus and method
CN115455964B (zh) * 2022-11-10 2023-03-14 万得信息技术股份有限公司 一种针对垂直领域机器翻译的低资源优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145472B2 (en) * 2005-12-12 2012-03-27 John Shore Language translation using a hybrid network of human and machine translators

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278969B1 (en) * 1999-08-18 2001-08-21 International Business Machines Corp. Method and system for improving machine translation accuracy using translation memory
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
JP2002041432A (ja) * 2000-07-25 2002-02-08 Oki Electric Ind Co Ltd チャットシステム,端末装置,サーバ装置及び媒体
JP2002329145A (ja) * 2001-05-01 2002-11-15 Toshiba Corp データ翻訳サービス装置、データ翻訳サービスプログラム及びデータ翻訳サービス方法
JP2003054841A (ja) * 2001-08-10 2003-02-26 Toray Ind Inc 未延伸糸の交絡繋ぎ方法
JP2004252881A (ja) * 2003-02-21 2004-09-09 Mitsubishi Paper Mills Ltd テキストデータ修正方法
AU2004202391A1 (en) * 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005096708A2 (en) * 2004-04-06 2005-10-20 Department Of Information Technology A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
JP2005301817A (ja) * 2004-04-14 2005-10-27 Ricoh Co Ltd 翻訳支援システム
US7451188B2 (en) * 2005-01-07 2008-11-11 At&T Corp System and method for text translations and annotation in an instant messaging session
JP2006350628A (ja) * 2005-06-15 2006-12-28 Movida Holdings株式会社 コミュニケーションシステム及びコミュニケーション方法
US20070143410A1 (en) * 2005-12-16 2007-06-21 International Business Machines Corporation System and method for defining and translating chat abbreviations
JP2008052677A (ja) * 2006-08-28 2008-03-06 Nec Corp 翻訳装置、翻訳システム及び翻訳方法
CN101072168B (zh) * 2007-06-22 2011-11-02 腾讯科技(深圳)有限公司 一种多语言即时通讯终端及其系统和方法
JP5340584B2 (ja) * 2007-11-28 2013-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 電子メッセージの読解を支援する装置及び方法
JP2009140073A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 用語難易度変換装置および用語難易度変換プログラム
JP2011524991A (ja) * 2008-04-15 2011-09-08 モバイル テクノロジーズ,エルエルシー 現場にて音声−音声翻訳をメンテナンスするシステム及び方法
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
JP2010152785A (ja) * 2008-12-26 2010-07-08 Dainippon Printing Co Ltd 専門用語の置換編集方法、システム、プログラム、記録媒体
US8442813B1 (en) * 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
CN101494621A (zh) * 2009-03-16 2009-07-29 西安六度科技有限公司 一种多语言即时通讯终端翻译系统和翻译方法
US8473555B2 (en) * 2009-05-12 2013-06-25 International Business Machines Corporation Multilingual support for an improved messaging system
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US20110313779A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Augmentation and correction of location based data through user feedback
US20120116751A1 (en) * 2010-11-09 2012-05-10 International Business Machines Corporation Providing message text translations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145472B2 (en) * 2005-12-12 2012-03-27 John Shore Language translation using a hybrid network of human and machine translators

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk;Chris Callison-Burch;《Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing》;20090807;第3-5节

Also Published As

Publication number Publication date
JP6672344B2 (ja) 2020-03-25
HK1216789A1 (zh) 2016-12-02
CN110069789A (zh) 2019-07-30
AU2014275087B2 (en) 2017-06-22
JP2018097885A (ja) 2018-06-21
KR20160017035A (ko) 2016-02-15
NZ719940A (en) 2017-03-31
SG10201700886VA (en) 2017-03-30
BR112015030402A2 (pt) 2017-07-25
CA2913984C (en) 2019-05-07
CA2913984A1 (en) 2014-12-11
SG11201509840YA (en) 2015-12-30
CA3037036A1 (en) 2014-12-11
JP2016524234A (ja) 2016-08-12
JP6276399B2 (ja) 2018-02-07
KR20170062556A (ko) 2017-06-07
AU2017221809A1 (en) 2017-09-28
AU2019205995A1 (en) 2019-08-01
NZ714571A (en) 2016-10-28
KR102115645B1 (ko) 2020-05-26
EP3005151A2 (en) 2016-04-13
AU2017221809B2 (en) 2019-04-18
CN105408891A (zh) 2016-03-16
NZ725675A (en) 2018-04-27
WO2014197463A3 (en) 2015-07-02
WO2014197463A2 (en) 2014-12-11
AU2014275087A1 (en) 2015-12-17
KR101743686B1 (ko) 2017-06-20

Similar Documents

Publication Publication Date Title
CN105408891B (zh) 用于多用户多语言通信的系统和方法
US10657333B2 (en) Systems and methods for multi-user multi-lingual communications
US10614171B2 (en) Systems and methods for multi-user multi-lingual communications
US10204099B2 (en) Systems and methods for multi-user multi-lingual communications
US8996355B2 (en) Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US8990068B2 (en) Systems and methods for multi-user multi-lingual communications
US8996353B2 (en) Systems and methods for multi-user multi-lingual communications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180716

Address after: California, USA

Applicant after: MZIP holdings limited liability company

Address before: California, USA

Applicant before: MACHINE ZONE, INC.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190521

Termination date: 20210603

CF01 Termination of patent right due to non-payment of annual fee