CN108463815A - 聊天数据的命名实体识别 - Google Patents
聊天数据的命名实体识别 Download PDFInfo
- Publication number
- CN108463815A CN108463815A CN201780005970.2A CN201780005970A CN108463815A CN 108463815 A CN108463815 A CN 108463815A CN 201780005970 A CN201780005970 A CN 201780005970A CN 108463815 A CN108463815 A CN 108463815A
- Authority
- CN
- China
- Prior art keywords
- language
- word
- received
- word string
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/85—Providing additional services to players
- A63F13/87—Communicating with other players during game play, e.g. by e-mail or chat
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
提供了方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于接收第一语言的多个词串,每个接收的词串包括多个词,使用利用包括多个特征的训练数据训练的统计分类器识别每个接收的词串中的一个或多个命名实体,其中特征之一是词形状特征,其包括用于相应词的每个字母的相应标记,其中每个标记表示该字母的大小写或该字母是否为数字,并且将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
Description
相关申请的交叉引用
本申请要求2016年1月7日提交的美国专利申请No.14/990,540的优先权,其全部内容通过引用结合于本申请中。
背景技术
本说明书涉及语言翻译,且更具体地说,涉及将在线游戏聊天消息翻译成不同的语言。
在线聊天是交换通过互联网传输的文本信息的参与者之间的对话。参与者可以从客户端软件应用程序的用户界面(例如,web浏览器、消息传递应用程序)加入聊天会话,并且在聊天会话中向其它参与者发送消息和从其它参与者接收消息。
在线游戏是电子游戏,游戏参与者通过互联网或其它计算机网络相互对抗或与服务器计算机对抗来进行游戏。参与者可以从客户端软件应用程序—诸如,例如网络浏览器或游戏应用程序,其发送和接收游戏数据(例如,游戏状态、用户动作)并且在用户界面中显示游戏图形—的用户界面加入游戏会话。游戏的用户界面还可以包括聊天用户界面,其中游戏参与者可以在与游戏交互时发送和接收聊天消息。在大型多人在线游戏中,来自多个国家的许多参与者可以加入游戏会话并以多种语言交换聊天消息。一种语言的聊天消息可以使用软件自动翻译成另一种语言。例如,参与者A可以向参与者B发送英文消息,其中英文消息在被呈现给参与者B之前被自动翻译成法语。自动语言翻译通常被称为机器翻译。
发明内容
大体上,本说明书中描述的主题的一个方面可以体现在如下方法中,其包括由一个或多个计算机执行的动作,接收第一语言的多个词串,每个接收的词串包括多个词,使用统计分类器来识别每个接收的词串中的一个或多个命名实体,该统计分类器使用包括多个特征的训练数据来训练,其中这些特征之一是词形状特征,词形状特征包括用于相应词的每个字母的相应标记,其中每个标记表示该字母的大小写或该字母是否是数字,并且将所接收的词串从第一语言翻译成第二语言,包括在翻译期间保存每个接收的词串中的相应的识别的命名实体。这个方面的其它实施例包括相应的系统、设备和计算机程序。
这些和其它方面可以可选地包括以下特征中的一个或多个。将所接收的词串从第一语言翻译成第二语言可以包括:对于特定的接收的词串,选择第一语言的相应模板,该相应模板包括用于所识别的命名实体的一个或多个占位符并且具有第二语言的保留占位符的对应翻译模板;以及通过用其识别的命名实体替换第二语言的对应翻译模板中的占位符来翻译特定的接收到的词串。第一语言的相应模板还可以包括第一语言的词,其根据字典被翻译成对应翻译模板中的第二语言的词。字典可以包括第一语言的词,以及对应于第一语言的每个词的第二语言的一个或多个词。第一语言的相应模板可以进一步包括在特定的接收的词串中的计数超过指定阈值的特定词。特定的命名实体可以包含一个或多个名词。该多个特征还可以包括以下特征中的一个或多个:前缀、后缀、词性标记和字类型。特定词的词类型特征可以描述特定词的词形状特征是否包括相同类型的标记。特定的特征可以用m长窗口内的n元语法来识别,其中m大于n。统计分类器可以专用于第一语言。统计分类器可以包括条件随机字段分类器,其被配置为识别词串中的一个或多个命名实体。
本说明书中描述的主题的特定实施方式可以被实施为实现以下优点中的一个或多个。这里描述的系统接收第一语言的移动游戏聊天消息。系统通过使用统计分类器来识别每个收到的消息中的命名实体。统计分类器通过包含一组特征的训练数据来训练。训练数据中的特定特征是识别词形状的词形状特征。可以使用表示词的每个字母是大写字母、小写字母、数字还是符号的标记来描述词的形状特征。词形状特征在识别移动游戏聊天消息中的命名实体时是有用的,因为移动游戏聊天消息中的命名实体通常不是专有名词,但是具有通常的词形状。在识别接收到的聊天消息中的命名实体之后,系统将接收到的聊天消息翻译成第二语言,同时在翻译期间保留所识别的命名实体,因为翻译对于所识别的命名实体来说大多不是必需的。
在本说明书中描述的主题的一个或多个实施方式的细节在附图和下面的描述中阐述。主题的其它特征、方面和优点将从描述,附图和权利要求中变得显而易见。
附图说明
图1示出了用于在线游戏的示例系统。
图2是用于在线游戏聊天翻译的示例方法的流程图。
图3是用于在线游戏聊天翻译的另一示例方法的流程图。
在各个附图中类似的参考数字和名称表示类似的元件。
具体实施方式
图1示出了用于在线游戏的示例系统。在图1中,服务器系统122提供用于在线游戏聊天翻译的功能。例如,服务器系统122包括可以在一个或多个地理位置的一个或多个数据中心121处部署的软件组件和数据库。服务器系统122软件组件包括游戏服务器132、聊天主机134、翻译管理器135、统计分类器136、模板创建器138和特征提取器140。服务器系统122数据库包括游戏数据数据库151、用户数据数据库152、聊天数据数据库154、翻译模板数据库156和训练数据数据库158。数据库可以驻留在一个或多个物理存储系统中。下面将进一步描述软件组件和数据库。
在图1中,在线游戏玩家或用户(例如,102a,102b等)的客户端设备(例如,104a,104b等)可以通过一个或多个数据通信网络113以诸如,例如互联网—连接到服务器系统122。这里使用的客户端设备可以是智能手机、智能手表、平板电脑、个人电脑、游戏机或车载媒体系统。客户端设备的其它示例也是可行的。各个用户可以通过在用户的客户端设备上运行的客户端软件应用程序(例如,105a,105b等)的图形用户界面(例如,106a,106b等)访问(播放)由游戏服务器132托管的一个或多个在线游戏。客户端软件应用程序可以是网络浏览器或专用软件应用程序,例如游戏应用程序。用于访问由游戏服务器132托管的在线游戏的其它类型的客户端软件应用程序是可行的。另外,游戏的图形用户界面(例如,106a,106b等)可以包括聊天用户界面(例如,108a,108b等)。用户(例如,102a)在玩在线游戏时,可以通过加入游戏的聊天会话以及在游戏的用户界面(例如,106a)中的聊天用户界面(例如,108a)中发送和接收消息而与在线游戏的其它用户(例如,102b,102d)交互(“聊天”)。
游戏服务器132是托管一个或多个在线游戏的服务器系统。游戏服务器132可以将在线游戏的最近的游戏数据(例如,游戏的当前状态)发送给参与游戏的用户(玩家),以显示在用户的相应的图形用户界面(例如,106a,106b)中。例如,游戏服务器132可以从用户的客户端设备(例如,104d)接收用户的用户动作并更新游戏的状态。游戏服务器132可以将游戏的当前状态和参与游戏的用户的标识符存储在游戏数据数据库151中。游戏服务器132还可以在用户数据数据库152中存储用户的数据(例如,标识符、语言设置、玩过的游戏)。
聊天主机134是建立并维持由游戏服务器132托管的在线游戏的用户之间的聊天会话的软件组件。聊天主机134可以接收从用户(例如,102d)发送的消息并将该消息发送给一个或多个接收者(例如,102a,102c),以及将该消息存储在聊天数据数据库154中。如果聊天消息的发送者和接收者具有不同的语言设置(例如,存储在用户数据数据库152中),则翻译管理器135可以首先将消息从发送者的语言翻译成接收者的语言。例如,聊天主机134然后可以将翻译好的信息发送接收者。聊天主机134还可以将翻译的消息存储在聊天数据数据库154中。翻译管理器135可以使用一种或多种机器翻译方法将消息从一种语言翻译成另一种语言(例如,通过经由应用程序编程接口或API访问机器翻译软件程序)。机器翻译方法的示例包括规则(例如语言规则)和基于字典的机器翻译以及统计机器翻译。统计机器翻译可以基于统计模型,统计模型预测一种语言(“目标”)中的文本串的概率是来自另一种语言(“源”)中的另一文本串的翻译。
消息或句子中的命名实体是人名(例如John Smith)、地名(例如,旧金山、西雅图)或组织名(例如MICROSOFT)。在将消息从一种语言翻译成另一种语言期间,可以保留消息中的命名实体而不进行翻译,而将消息的其余部分翻译成另一种语言。一个例外可为国家名称(例如,英语中的“德国”可以被翻译成德语中的“Deutschland”)。在正式英语(例如,写成符合英语语法)的句子或段落中,命名实体可以很容易地识别,因为它们通常是专有名词,并且在第一个字母或整个词中大写,或者可以容易地从字典或句子的上下文识别。然而,在在线游戏的聊天消息中,至少因为以下原因可能难以识别命名实体:
·聊天消息通常是自由格式(或没有格式)。
·聊天消息通常很短,缺乏足够的上下文。
·聊天消息通常包含拼写错误(打字错误)。
·聊天消息通常包含专用于文本消息或专用于特定在线游戏的聊天俚语词(例如,俚语,缩写,或字母,数字、符号或表情符号的组合)。
·在线游戏的聊天消息通常包含用于呈现游戏玩家(例如,伪名称)的常用名字(例如,狼、女王、征服者)。
·聊天消息通常包含表情图示和表情符号。
以示意的方式,下面列出了来自在线游戏的示例聊天消息,每条消息中的命名实体都带有下划线。
Ben in here?
Bye ghost
Good morning john.
And owner said they were joint to attack me but mgt backed down
Scotch knows my plan now.
LOL CnD failed
r u there bob1?
Heading to San Francisco!
i’ve met rich b4
如上面的例子中所示,在线游戏聊天消息可以是词串(一串词)。每个词可以是以空格或其它分隔符(例如标点符号)为边界的字符串。在线游戏聊天消息中的命名实体可以是与人、地点或组织相关的词(或多个相邻词)。在线游戏聊天消息中的命名实体不一定是专有名词,或被正确地大写。在线游戏聊天消息中的命名实体可以是缩写。在线游戏聊天消息中的命名实体可以包括数字、符号、表情图示或表情符号。在线聊天消息中的命名实体可以是包括字母串的词,其中多于一个但不是所有字母都是大写字母。
这里描述的特定实施方式描述了用于翻译在线游戏聊天消息的方法。特定实施方式使用统计分类器来识别在线游戏聊天消息中的命名实体。但是,也构想了其它类型的分类器。更具体地说,统计分类器使用通过使用包括一组特征的训练数据来经训练的统计分类模型。特定的特征是词形状特征,它使用标记,该标记均于在线游戏聊天消息中标识单词的字母的大小写,或者该字母是否是数字,如下面进一步描述的。
统计分类器136是使用统计分类模型来识别在线游戏聊天消息中的命名实体的软件组件。例如,统计分类模型可以基于条件随机字段分类算法来识别在线游戏聊天消息中的命名实体。
统计分类器136可以用在线游戏聊天消息的训练集来训练。例如,统计分类器136可以利用存储在聊天数据数据库154中的一组10,000个英语聊天消息来训练。训练消息可以使用软件应用程序(诸如基于规则和基于字典的翻译软件应用程序)而被处理和翻译(例如,通过翻译管理器135或服务器系统122的另一个软件组件)为另一种语言,如法语。例如,字典通常可以将英语中的单词或短语(两个或更多个单词)映射到法语单词或短语。翻译可以由人进一步检查和更新。
模板创建器138是由训练消息创建翻译模板的软件组件。模板创建器138通过首先标记训练消息中的命名实体来创建翻译模板。例如,如果特定词不是“禁用词”,例如在训练消息中出现超过阈值次数(例如,三次)的普通动词(例如,是、做、进行),或者如果特定词未使用字典来翻译,则模板创建器138可以将训练消息中的特定词标记为命名实体。例如,模板创建器138然后通过用占位符替换训练消息中的标记的词(命名实体)来创建英语翻译模板和其法语对应模板。例如,模板创建器138可以在训练消息“John,What's new?”和其法语翻译“John,quoi de neuf?”中将词“John”标记为命名实体。模板创建器138然后将标记的词用占位符替换,并创建英语的翻译模板“$placeholder,what's new?”和相应的法语的模板“$placeholder,quoi de neuf?”。模板创建器138可以将创建的模板存储在翻译模板数据库156中。当稍后将消息“Julie,what's new?”从英语翻译成法语时,翻译管理器135可以确定该消息与存储在翻译管理器135中的英语翻译模板“$placeholder,what’s new?”匹配。然后,翻译管理器135通过使用法语模板同时保留命名实体“Julie”(即,用命名实体“Julie”替换占位符)来将消息“Julie,what's new?”从英语翻译成法语:“Julie,quoi deneuf?”。由模板创建器138创建的翻译模板可以由人进一步检查和更新。
特征提取器140是识别训练消息中的特征的软件组件。例如,特征提取器可以识别训练消息中的单词的词词形状的特征。词形状特征使用一个或多个标记,该一个或多个标记表示词中的字母是大写、小写、数字还是符号。例如,对于大写字母,标记可以是“U”,对于小写字母,标记可以是“L”,或者对于数字,标记可以是“D”。词形状特征的其它类型的标记是可行的。例如,可以通过标记“ULL”指定词“Ben”。可以通过标记“ULU”指定词“AnD”。可以通过标记“LLLL”指定词“here”。如果训练数据中(因此对于一般的在线游戏聊天消息)的命名标识—如果特定类型的标记序列(例如,“ULU”)通常表示出现在训练数据中的特定类型的命名实体,则词形状特征可以是有用的。词类型特征可以描述训练消息中的词是否包括相同类型的标记。例如,词类型特征可为词是否包括全部大写字母、全部数字、全部符号、全部大写字母和数字、全部大写字母和符号、全部数字和符号等等。
对于训练消息中的字,其它特征是可行的。例如,特征可以描述词的前缀或后缀。特征还可以描述词的词性标记,该词性标记指示在包含该词的训练消息中该词的语法功能。例如,词性标记可以是用于专有名词的NNP,用于介词的IN,用于名词的NN,用于基本形式的动词的VB,用于过去时的动词的VBD,等等。下表列出了用于训练消息中词的示例特征。参考训练消息“Ben in here?”描述了示例特征。
在下表中,训练消息的特征可以用m元语法(m-gram)窗口内的n元语法来识别,其中m可以大于n。这里,n元语法是来自给定文本序列的n个项目的连续序列。例如,下表中的特征word__u示例表示在5元语法(5个字)的窗口中的词1元语法(1元语法或一个词)。
特征提取器140可以针对训练集的每个训练消息提取一个或多个特征,并将提取的特征与训练消息一起存储在训练数据数据库158中。所提取的特征可以由人检查和更新。
统计分类器136可在存储在训练数据数据库158中的训练数据上训练。例如,统计分类器136可使用条件随机场模型作为统计分类模型。条件随机场模型是一种统计方法,其在给定条件X(即X是已知的)的情况下对随机变量Y的条件概率分布p(Y|X)进行建模。例如,X可以是聊天消息,Y可以是聊天消息X中的特定词。p(Y|X)可以是给定聊天消息X时Y是命名实体的概率。统计分类器136可运行(例如,执行操作)实现条件随机场模型的算法,其中训练数据及其提取的特征作为算法的输入。统计分类器136可以运行(即,训练)算法,直到确定了条件随机场模型的参数(例如,当使用梯度下降方法在迭代之后每个参数的值收敛在指定阈值内时)。
例如,训练消息中的每个提取的特征可以对应于条件随机场模型中的特征函数fj。特征函数fj可以是条件概率函数,其描述给定一个或多个条件情况下与训练消息中的特定词(或多个词)的提取特征相关联的概率。例如,条件概率函数可以描述这样的概率:即给定特定词在训练消息中的位置或者特定词在训练消息中相对于另一词(例如动词,问候语或带有另一个提取的特征的词)的位置的条件下,具有提取的特征的特定词是命名实体的概率。条件概率函数的其它条件是可能的。该模型可以通过特征函数的加权求和来计算预测该特定词是否是命名实体的分数:
分数=Σλj〃fj。
其中,模型参数λj是模型中特征函数的相应权重。总和可以在训练消息中的所有提取的特征上添加。总和也可以在训练信息中的所有词上添加。条件随机场模型的其它公式也是可行的。
由于统计分类模型可以在不同语言的不同训练数据组(聊天消息)上训练,所以对于不同语言的聊天消息,模型可以是不同的(例如,具有不同的参数组)。
服务器系统122可以使用经训练的统计分类模型和如上所述存储在翻译模板数据库156中的翻译模板来翻译新的在线游戏聊天消息。图2是用于在线游戏聊天翻译的示例方法的流程图。例如,聊天主机136从第一用户接收聊天消息(例如,词串)(步骤202)。聊天主机136确定聊天消息是用英语组成的,并且意图以法语用于第二用户。聊天主机136将聊天消息和将聊天消息从英语翻译成法语的指令传递给翻译管理器135。翻译管理器135向统计分类器136发送请求以识别聊天消息中的一个或多个命名实体。统计分类器136可以使用经训练的统计分类模型来识别聊天消息中的一个或多个命名实体(步骤204)。例如,统计分类器136可以将聊天消息作为输入提供给经训练的统计分类模型,该统计分类模型又输出聊天消息中的一个或多个命名实体。然后,统计分类器136将所识别的命名实体返回到翻译管理器135。
然后,翻译管理器135基于所识别的命名实体访问翻译模板156以寻找聊天消息的可能的匹配模板(步骤206)。如果找到匹配的模板,则翻译管理器135通过将所识别的命名实体插入匹配的英语模板的相应法语模板中的占位符(用于命名实体)来将聊天消息翻译成法语(步骤208)。注意,使用匹配模板(存储或缓存在翻译模板数据库156中)可以减少计算时间,因为命名实体和聊天消息的其余部分不需要翻译(例如,通过经由API访问翻译软件应用程序)。
如果找不到匹配的模板,则翻译管理器135可以例如通过经由API访问英语-法语机器翻译软件来将聊天消息翻译成法语(步骤210)。翻译管理器135可以向翻译软件提供指令,以在翻译期间保留所识别的命名实体(例如,跳过对所识别的命名实体的翻译)。这里,如之前所述,模板创建器138可以通过在英语聊天消息以及其法语翻译中用占位符替换所识别的命名实体来创建英语和法语的新翻译模板,并将新翻译模板存储在翻译模板数据库156供以后使用。
翻译管理器135可以将翻译的聊天消息(法语)传递给聊天主机134。聊天主机然后将翻译的聊天消息发送给第二用户(步骤212)。
图3是用于在线游戏聊天翻译的另一示例方法的流程图。该方法可以使用例如服务器系统122的软件组件来实施。该方法通过以第一语言接收多个词串(例如,聊天消息)开始,每个接收的词串包括多个词(步骤302;例如,聊天主机134)。该方法使用统计分类器识别每个接收到的词串中的一个或多个命名实体,该统计分类器使用包括多个特征的训练数据训练,其中特征之一是词形状特征,其包括用于相应词的每个字母的相应标记,其中每个标记表示该字母的大小写或该字母是否是数字(步骤304;例如统计分类器136)。该方法将所接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体(步骤306;例如,翻译管理器135)。
该主题的实现方式和在本说明书描述的操作可以在数字电子电路中或在计算机软件、固件或硬件中实现,包括在本说明书中公开的结构及其结构等同物,或者以它们中的一个或多个的组合来实现。本说明书中描述的主题的实现方式可以被实现为编码在计算机存储介质上的一个或多个计算机程序,即计算机程序指令的一个或多个模块,以用于由数据处理设备执行或者控制数据处理设备的操作。备选地或另外地,程序指令可以编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以编码信息,以便传输到合适的接收器设备来由数据处理设备执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基质、随机或串行存取存储器阵列或设备、或者它们中的一个或多个的组合,或者可以被包括在其中。此外,尽管计算机存储介质不是传播信号,但计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其它存储设备)或被包括在其中。
本说明书中描述的操作可以被实现为由数据处理设备对存储于一个或多个计算机可读存储设备上或从其它源接收的数据执行的操作。
术语“数据处理设备”包括用于处理数据的所有类型的装置、设备和机器,例如包括可编程处理器、计算机、芯片上系统、或多个芯片上系统、或前述内容的组合。装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其中一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础结构,例如Web服务、分布式计算和网格计算基础结构。
计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以任何编程语言形式编写,包括编译或解释语言、声明或过程语言,且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序、对象或适用于计算环境的其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其它程序或数据(例如,存储在标记语言资源中的一个或多个脚本)的文件的一部分中、在专用于所讨论的程序的单个文件中、或者在多个协调文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在位于一个站点处或跨多个站点分布并通过通信网络互连的一台计算机或多台计算机上执行。
本说明书中描述的过程和逻辑流可以通过一个或多个可编程处理器执行,该一个或多个可编程处理器执行一个或多个计算机程序,以通过在输入数据上进行操作并产生输出来执行动作。过程和逻辑流也可以由专用逻辑电路来执行,并且该装置也可以被实现为专用逻辑电路,专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于执行计算机程序的处理器例如包括通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括一个或多个大容量存储设备,或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传递至一个或多个大容量存储设备,或者二者兼而有之,以便存储数据,例如磁盘、磁光盘或光盘。但是,计算机不需要具有这样的设备。此外,可以将计算机嵌入到另一设备中,例如,仅举几例,智能电话、智能手表、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器)。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备,例如包括半导体存储设备,例如EPROM,EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入其中。
为了提供与用户的交互,本说明书中描述的主题的实施方式可以在计算机上实现,该计算机具有:显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器),用于向用户显示信息;和键盘以及指示设备(例如鼠标或跟踪球),用户可通过其向计算机提供输入。其它类型的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送资源和从该设备接收资源来与用户交互;例如通过响应于从网络浏览器接收到的请求,将网页发送到用户的客户端设备上的网络浏览器。
本说明书中描述的主题的实施方式可以在计算系统中实现,该计算系统包括后端组件,例如作为数据服务器;或者包括中间件组件,例如应用服务器;或者包括前端组件,例如具有图形用户界面或Web浏览器的客户端计算机,用户可以通过其与本说明书中描述的主题相交互;或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的实例包括局域网(“LAN”)和广域网(“WAN”)、网间网络(例如因特网)和点对点网络(例如,特设点对点网络)。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系由于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中,服务器将数据(例如,HTML页面)传输到客户端设备(例如,用于向与客户端设备交互的用户显示数据和从该用户接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
一个或多个计算机的系统可以被配置为通过具有安装在系统上的软件、固件、硬件或它们的组合来执行特定的操作或动作,它们在操作中使系统执行动作。一个或多个计算机程序可以被配置为通过包括在由数据处理装置执行时使该装置执行动作的指令来执行特定的操作或动作。
虽然本说明书包含许多具体的实现细节,但是这些不应该被解释作为对任何发明或可能要求保护的内容的范围的限制,而是作为专用于特定发明的特定实施方式的特征的描述。本说明书中在单独的实施方式的上下文中描述的某些特征也可以在单个实施方式中组合实现。相反,在单个实施方式的上下文中描述的多个特征也可以单独地或以任何合适的子组合在多个实施方式中实现。此外,尽管特征在上面可以描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以涉及子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描绘了操作,但是这不应该被理解为要求以所示出的特定顺序或按次序顺序执行这样的操作,或者所有示出的操作都被执行,以实现合乎需要的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施方式中的各种系统组件的分离不应被理解为在所有实施方式中都需要这种分离,并且应当理解,所描述的程序组件和系统通常可以在单个软件产品中集成在一起或者被打包到多个软件产品中。
因此,已经描述了主题的特定实施方式。其它实施方式在所附的权利要求的范围内。在一些情况下,权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。另外,附图中描绘的过程不一定需要所示的特定顺序或按次序顺序来实现期望的结果。在某些实施方式中,多任务和并行处理可能是有利的。
Claims (30)
1.一种方法,包括:
由一个或多个计算机执行:
接收第一语言的多个词串,每个接收的词串包括多个词;
使用利用包括多个特征的训练数据训练的统计分类器识别每个接收的词串中的一个或多个命名实体,其中,所述特征中的一个特征是词形状特征,所述词形状特征包括用于相应词的每个字母的相应标记,其中,每个标记表示该字母的大小写或该字母是否是数字;以及识别
将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
2.如权利要求1所述的方法,其中,将所述接收的词串从所述第一语言翻译成第二语言包括:
对于特定的接收的词串:
选择所述第一语言的相应模板,所述相应模板包括用于识别的命名实体的一个或多个占位符并具有第二语言的保留所述占位符的对应翻译模板;以及
通过在第二语言的所述对应翻译模板中的所述占位符中替换其识别的命名实体来翻译该特定的接收的词串。
3.如权利要求2所述的方法,其中,所述第一语言的相应模板还包括第一语言的词,所述词根据字典被翻译成对应翻译模板中的第二语言的词。
4.如权利要求3所述的方法,其中,所述字典包括:
所述第一语言的词;以及
对应于所述第一语言的每个词的所述第二语言的一个或多个词。
5.如权利要求2所述的方法,其中,所述第一语言的相应模板还包括特定词,所述特定词在所述特定的接收的词串中的计数超过指定阈值。
6.如权利要求1所述的方法,其中,特定命名实体包括一个或多个专有名词。
7.如权利要求1所述的方法,其中,所述多个特征还包括以下特征中的一个或多个:前缀、后缀、词性标记和词类型。
8.如权利要求7所述的方法,其中,特定词的词类型特征描述特定词的词形状特征是否包括相同类型的标记。
9.如权利要求1所述的方法,其中,用m长度窗口内的n元语法来识别特定特征,其中,m大于n。
10.如权利要求1所述的方法,其中,所述统计分类器专用于所述第一语言。
11.如权利要求1所述的方法,其中,所述统计分类器包括被配置为识别词串中的一个或多个命名实体的条件随机场分类器。
12.一种系统,包括:
被编程为执行操作的一个或多个计算机,所述操作包括:
接收第一语言的多个词串,每个接收的词串包括多个词;
使用利用包括多个特征的训练数据进行训练的统计分类器来识别每个接收的词串中的一个或多个命名实体,其中,所述特征中的一个特征是包括用于相应词的每个字母的相应标记的词形状特征,其中,每个标记表示所述字母的大小写或所述字母是否是数字;以及
将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
13.如权利要求12所述的系统,其中,将所述接收的词串从第一语言翻译成第二语言包括:
对于特定的接收的词串:
选择第一语言的相应模板,所述相应模板包括用于标识的命名实体的一个或多个占位符并具有保留所述占位符的第二语言的对应翻译模板;以及
通过在第二语言的所述对应翻译模板中的占位符中替换其识别的命名实体来翻译该特定的接收的词串。
14.如权利要求13所述的系统,其中,所述第一语言的相应模板还包括第一语言的词,所述词根据字典被翻译成所述对应翻译模板中的第二语言的词。
15.如权利要求14所述的系统,其中,所述字典包括:
所述第一语言的词;以及
对应于所述第一语言的每个词的第二语言的一个或多个词。
16.如权利要求13所述的系统,其中,所述第一语言的相应模板还包括特定词,所述特定词在所述特定的接收的词串中的计数超过指定阈值。
17.如权利要求12所述的系统,其中,特定命名实体包括一个或多个专有名词。
18.如权利要求12所述的系统,其中,所述多个特征还包括以下特征中的一个或多个:前缀、后缀、词性标记和词类型。
19.如权利要求18所述的系统,其中,特定词的词类型特征描述特定词的词形状特征是否包括相同类型的标记。
20.如权利要求12所述的系统,其中,用m长度窗口内n元语法识别特定特征,其中,m大于n。
21.如权利要求12所述的系统,其中,所述统计分类器专用于所述第一语言。
22.如权利要求1所述的系统,其中,所述统计分类器包括被配置为识别词串中的一个或多个命名实体的条件随机字段分类器。
23.一种存储设备,所述存储设备具有存储在其上的指令,所述指令在由一个或多个计算机执行时执行操作,所述操作包括:
接收第一语言的多个词串,每个接收的词串包括多个词;
使用利用包括多个特征的训练数据训练的统计分类器来识别每个接收的词串中的一个或多个命名实体,其中,所述特征中的一个特征是词形状特征,所述词形状特征包括用于相应词的每个字母的相应标记,其中,每个标记表示该字母的大小写或该字母是否是数字;以及
将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
24.如权利要求23所述的存储设备,其中,将所述接收的词串从所述第一语言翻译成第二语言包括:
对于特定的接收的词串:
选择第一语言的相应模板,所述相应模板包括用于识别的命名实体的一个或多个占位符并具有保留所述占位符的第二语言的对应翻译模板;以及
通过在第二语言的所述对应翻译模板中的占位符中替换其识别的命名实体来翻译该特定的接收的词串。
25.如权利要求24所述的存储设备,其中,所述第一语言的相应模板还包括第一语言的词,所述词根据字典被翻译成所述对应翻译模板中的第二语言的词。
26.如权利要求25所述的存储设备,其中,所述字典包括:
所述第一语言的词;以及
对应于所述第一语言的每个词的第二语言的一个或多个词。
27.如权利要求24所述的存储设备,其中,所述第一语言的相应模板还包括特定词,所述特定词在所述特定的接收的词串中的计数超过指定阈值。
28.如权利要求23所述的存储设备,其中,特定命名实体包括一个或多个专有名词。
29.如权利要求23所述的存储设备,其中,所述多个特征还包括以下特征中的一个或多个:前缀、后缀、词性标记和词类型。
30.如权利要求29所述的存储设备,其中,特定词的词类型特征描述特定词的词形状特征是否包括相同类型的标记。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/990,540 US10765956B2 (en) | 2016-01-07 | 2016-01-07 | Named entity recognition on chat data |
US14/990,540 | 2016-01-07 | ||
PCT/US2017/012102 WO2017120172A1 (en) | 2016-01-07 | 2017-01-04 | Named entity recognition on chat data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108463815A true CN108463815A (zh) | 2018-08-28 |
Family
ID=57890910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780005970.2A Pending CN108463815A (zh) | 2016-01-07 | 2017-01-04 | 聊天数据的命名实体识别 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10765956B2 (zh) |
EP (1) | EP3400536A1 (zh) |
JP (1) | JP2019505913A (zh) |
CN (1) | CN108463815A (zh) |
AU (1) | AU2017205328A1 (zh) |
CA (1) | CA3010157A1 (zh) |
WO (1) | WO2017120172A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059189A (zh) * | 2019-04-11 | 2019-07-26 | 厦门点触科技股份有限公司 | 一种游戏平台消息的分类系统及方法 |
CN111091002A (zh) * | 2019-11-26 | 2020-05-01 | 华东师范大学 | 一种中文命名实体的识别方法 |
CN111144111A (zh) * | 2019-12-30 | 2020-05-12 | 北京世纪好未来教育科技有限公司 | 翻译方法、装置、设备及存储介质 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6709963B2 (ja) * | 2016-09-09 | 2020-06-17 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
US10841257B1 (en) * | 2016-10-25 | 2020-11-17 | Twitter, Inc. | Determining engagement scores for sub-categories in a digital domain by a computing system |
US10380263B2 (en) * | 2016-11-15 | 2019-08-13 | International Business Machines Corporation | Translation synthesizer for analysis, amplification and remediation of linguistic data across a translation supply chain |
US10860800B2 (en) * | 2017-10-30 | 2020-12-08 | Panasonic Intellectual Property Management Co., Ltd. | Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system |
US11580129B2 (en) * | 2018-04-20 | 2023-02-14 | Microsoft Technology Licensing, Llc | Quality-aware data interfaces |
US11295083B1 (en) * | 2018-09-26 | 2022-04-05 | Amazon Technologies, Inc. | Neural models for named-entity recognition |
CN109861904B (zh) * | 2019-02-19 | 2021-01-05 | 天津字节跳动科技有限公司 | 姓名标签显示方法和装置 |
US11170170B2 (en) * | 2019-05-28 | 2021-11-09 | Fresh Consulting, Inc | System and method for phonetic hashing and named entity linking from output of speech recognition |
US11341340B2 (en) * | 2019-10-01 | 2022-05-24 | Google Llc | Neural machine translation adaptation |
CN111079418B (zh) * | 2019-11-06 | 2023-12-05 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
US11687732B2 (en) * | 2020-04-06 | 2023-06-27 | Open Text Holdings, Inc. | Content management systems for providing automated translation of content items |
CN111881669B (zh) * | 2020-06-24 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 同义文本获取方法、装置、电子设备及存储介质 |
CN111738024B (zh) * | 2020-07-29 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
US20230161962A1 (en) * | 2021-11-23 | 2023-05-25 | Microsoft Technology Licensing, Llc | System for automatically augmenting a message based on context extracted from the message |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352774A (zh) * | 1999-04-08 | 2002-06-05 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US20090319257A1 (en) * | 2008-02-23 | 2009-12-24 | Matthias Blume | Translation of entity names |
US20130173247A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and Method for Interactive Auromatic Translation |
CN103558908A (zh) * | 2012-04-30 | 2014-02-05 | 谷歌公司 | 帮助用户以多种不同语言将实体的名称文本输入到用户设备的技术 |
US20140163951A1 (en) * | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
Family Cites Families (299)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4706212A (en) | 1971-08-31 | 1987-11-10 | Toma Peter P | Method using a programmed digital computer system for translation between natural languages |
JPS5748159A (en) | 1980-09-03 | 1982-03-19 | Sharp Corp | Electronic interpreter |
JPS57201958A (en) | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
US5289375A (en) | 1990-01-22 | 1994-02-22 | Sharp Kabushiki Kaisha | Translation machine |
JP2836159B2 (ja) | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
FR2681750A1 (fr) | 1991-09-20 | 1993-03-26 | Thomson Csf | Procede de compression d'images. |
US6278967B1 (en) | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
US5603031A (en) * | 1993-07-08 | 1997-02-11 | General Magic, Inc. | System and method for distributed computation based upon the movement, execution, and interaction of processes in a network |
US6304841B1 (en) | 1993-10-28 | 2001-10-16 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary features |
US6292769B1 (en) | 1995-02-14 | 2001-09-18 | America Online, Inc. | System for automated translation of speech |
JP3161942B2 (ja) | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
US6425119B1 (en) | 1996-10-09 | 2002-07-23 | At&T Corp | Method to produce application oriented languages |
US6182029B1 (en) | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
GB9625284D0 (en) | 1996-12-04 | 1997-01-22 | Canon Kk | A data processing method and apparatus for identifying a classification to which data belongs |
US5884246A (en) | 1996-12-04 | 1999-03-16 | Transgate Intellectual Properties Ltd. | System and method for transparent translation of electronically transmitted messages |
US6292770B1 (en) | 1997-01-22 | 2001-09-18 | International Business Machines Corporation | Japanese language user interface for messaging system |
US5991710A (en) | 1997-05-20 | 1999-11-23 | International Business Machines Corporation | Statistical translation system with features based on phrases or groups of words |
US6415250B1 (en) | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
US6157905A (en) | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
TW463503B (en) | 1998-08-26 | 2001-11-11 | United Video Properties Inc | Television chat system |
US6285978B1 (en) | 1998-09-24 | 2001-09-04 | International Business Machines Corporation | System and method for estimating accuracy of an automatic natural language translation |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6269189B1 (en) | 1998-12-29 | 2001-07-31 | Xerox Corporation | Finding selected character strings in text and providing information relating to the selected character strings |
US6770572B1 (en) | 1999-01-26 | 2004-08-03 | Alliedsignal Inc. | Use of multifunctional si-based oligomer/polymer for the surface modification of nanoporous silica films |
JP4718687B2 (ja) | 1999-03-19 | 2011-07-06 | トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング | ワークフロー管理システム |
US7475343B1 (en) | 1999-05-11 | 2009-01-06 | Mielenhausen Thomas C | Data processing apparatus and method for converting words to abbreviations, converting abbreviations to words, and selecting abbreviations for insertion into text |
WO2000074240A1 (en) | 1999-05-27 | 2000-12-07 | America Online | Keyboard system with automatic correction |
US9053500B2 (en) | 1999-06-30 | 2015-06-09 | Blackboard Inc. | Internet-based education support system and method with multi-language capability |
US6278969B1 (en) | 1999-08-18 | 2001-08-21 | International Business Machines Corp. | Method and system for improving machine translation accuracy using translation memory |
US6722989B1 (en) | 1999-10-07 | 2004-04-20 | Sony Computer Entertainment Inc. | Virtual pet game in which the virtual pet can converse with the player and learn new words and phrases from these conversations |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7165019B1 (en) | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
JP2003529845A (ja) | 2000-03-31 | 2003-10-07 | アミカイ・インコーポレイテッド | ネットワーク経由の多言語翻訳を提供する方法と装置 |
US20020046018A1 (en) | 2000-05-11 | 2002-04-18 | Daniel Marcu | Discourse parsing and summarization |
US8489669B2 (en) | 2000-06-07 | 2013-07-16 | Apple Inc. | Mobile data processing system moving interest radius |
US7865358B2 (en) | 2000-06-26 | 2011-01-04 | Oracle International Corporation | Multi-user functionality for converting data from a first form to a second form |
JP3982736B2 (ja) | 2000-06-30 | 2007-09-26 | 沖電気工業株式会社 | 翻訳システム |
JP4011268B2 (ja) | 2000-07-05 | 2007-11-21 | 株式会社アイアイエス | 多言語翻訳システム |
US7278100B1 (en) | 2000-07-10 | 2007-10-02 | International Business Machines Corporation | Translating a non-unicode string stored in a constant into unicode, and storing the unicode into the constant |
JP2002041432A (ja) | 2000-07-25 | 2002-02-08 | Oki Electric Ind Co Ltd | チャットシステム,端末装置,サーバ装置及び媒体 |
US20020037767A1 (en) | 2000-08-17 | 2002-03-28 | Steven Ebin | Gambling system and method through a computer network |
US6704699B2 (en) | 2000-09-05 | 2004-03-09 | Einat H. Nir | Language acquisition aide |
JP2002082987A (ja) | 2000-09-06 | 2002-03-22 | Seiko Epson Corp | 文書情報閲読支援装置、ディジタルコンテンツ作成システム、ディジタルコンテンツ配信システム及び記憶媒体 |
US20040205671A1 (en) | 2000-09-13 | 2004-10-14 | Tatsuya Sukehiro | Natural-language processing system |
US6922809B2 (en) * | 2001-01-25 | 2005-07-26 | International Business Machines Corporation | Method and apparatus providing capitalization recovery for text |
US8874431B2 (en) | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US20020169592A1 (en) | 2001-05-11 | 2002-11-14 | Aityan Sergey Khachatur | Open environment for real-time multilingual communication |
US6993474B2 (en) | 2001-05-17 | 2006-01-31 | Curry David G | Interactive conversational speech communicator method and system |
US6711543B2 (en) | 2001-05-30 | 2004-03-23 | Cameronsound, Inc. | Language independent and voice operated information management system |
US20020198699A1 (en) | 2001-06-21 | 2002-12-26 | International Business Machines Corporation | Apparatus, system and method for providing open source language translation |
JP2003006255A (ja) * | 2001-06-22 | 2003-01-10 | Fujitsu Ltd | Hdl自動修正装置およびhdl自動修正プログラム並びに同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2003022265A (ja) | 2001-07-06 | 2003-01-24 | Nec Corp | 言語自動翻訳システム |
JP2003054841A (ja) | 2001-08-10 | 2003-02-26 | Toray Ind Inc | 未延伸糸の交絡繋ぎ方法 |
US6993473B2 (en) | 2001-08-31 | 2006-01-31 | Equality Translation Services | Productivity tool for language translators |
US20030046350A1 (en) | 2001-09-04 | 2003-03-06 | Systel, Inc. | System for transcribing dictation |
US20030101044A1 (en) | 2001-11-28 | 2003-05-29 | Mark Krasnov | Word, expression, and sentence translation management tool |
US20030125927A1 (en) | 2001-12-28 | 2003-07-03 | Microsoft Corporation | Method and system for translating instant messages |
AU2003218097A1 (en) * | 2002-03-11 | 2003-09-29 | University Of Southern California | Named entity translation |
JP3959453B2 (ja) | 2002-03-14 | 2007-08-15 | 沖電気工業株式会社 | 翻訳仲介システム及び翻訳仲介サーバ |
US8856236B2 (en) | 2002-04-02 | 2014-10-07 | Verizon Patent And Licensing Inc. | Messaging response system |
US20050165642A1 (en) | 2002-05-07 | 2005-07-28 | Gabriel-Antoine Brouze | Method and system for processing classified advertisements |
US20040044517A1 (en) | 2002-08-30 | 2004-03-04 | Robert Palmquist | Translation system |
US8972266B2 (en) | 2002-11-12 | 2015-03-03 | David Bezar | User intent analysis extent of speaker intent analysis system |
AU2003287664A1 (en) | 2002-11-22 | 2004-06-18 | Transclick, Inc. | System and method for language translation via remote devices |
US7209875B2 (en) | 2002-12-04 | 2007-04-24 | Microsoft Corporation | System and method for machine learning a confidence metric for machine translation |
US7945674B2 (en) | 2003-04-02 | 2011-05-17 | Aol Inc. | Degrees of separation for handling communications |
US8027438B2 (en) | 2003-02-10 | 2011-09-27 | At&T Intellectual Property I, L.P. | Electronic message translations accompanied by indications of translation |
US8392173B2 (en) | 2003-02-10 | 2013-03-05 | At&T Intellectual Property I, L.P. | Message translations |
JP2004252881A (ja) | 2003-02-21 | 2004-09-09 | Mitsubishi Paper Mills Ltd | テキストデータ修正方法 |
US20040210443A1 (en) | 2003-04-17 | 2004-10-21 | Roland Kuhn | Interactive mechanism for retrieving information from audio and multimedia files containing speech |
CA2426496A1 (en) | 2003-04-24 | 2004-10-24 | Ibm Canada Limited - Ibm Canada Limitee | Processing fixed-format data in a unicode environment |
JP3768205B2 (ja) | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
US20040267527A1 (en) | 2003-06-25 | 2004-12-30 | International Business Machines Corporation | Voice-to-text reduction for real time IM/chat/SMS |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7539619B1 (en) | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
CN1894685A (zh) | 2003-12-17 | 2007-01-10 | 思比驰盖尔公司 | 翻译工具 |
US7480696B2 (en) | 2004-01-07 | 2009-01-20 | International Business Machines Corporation | Instant messaging priority filtering based on content and hierarchical schemes |
JP3790825B2 (ja) | 2004-01-30 | 2006-06-28 | 独立行政法人情報通信研究機構 | 他言語のテキスト生成装置 |
US7424421B2 (en) | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US7478033B2 (en) | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
JP2005301817A (ja) | 2004-04-14 | 2005-10-27 | Ricoh Co Ltd | 翻訳支援システム |
US7783476B2 (en) | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
JP4384939B2 (ja) | 2004-05-31 | 2009-12-16 | 株式会社インパルスジャパン | 言語判別装置、翻訳装置、翻訳サーバ、言語判別方法並びに翻訳処理方法 |
US7389124B2 (en) | 2004-06-02 | 2008-06-17 | Research In Motion Limited | Handheld electronic device with text disambiguation |
US7669135B2 (en) | 2004-07-15 | 2010-02-23 | At&T Mobility Ii Llc | Using emoticons, such as for wireless devices |
FI20041159A0 (fi) | 2004-09-07 | 2004-09-07 | Nokia Corp | Menetelmä viestien suodattamiseksi tietoverkossa |
US7603353B2 (en) | 2004-10-27 | 2009-10-13 | Harris Corporation | Method for re-ranking documents retrieved from a multi-lingual document database |
US7711781B2 (en) | 2004-11-09 | 2010-05-04 | International Business Machines Corporation | Technique for detecting and blocking unwanted instant messages |
US7822768B2 (en) | 2004-11-23 | 2010-10-26 | International Business Machines Corporation | System and method for automating data normalization using text analytics |
US7827026B2 (en) | 2004-12-21 | 2010-11-02 | Xerox Corporation | Bilingual authoring assistant for the “tip of the tongue” problem |
US7451188B2 (en) | 2005-01-07 | 2008-11-11 | At&T Corp | System and method for text translations and annotation in an instant messaging session |
US8027832B2 (en) | 2005-02-11 | 2011-09-27 | Microsoft Corporation | Efficient language identification |
US8087068B1 (en) | 2005-03-08 | 2011-12-27 | Google Inc. | Verifying access to a network account over multiple user communication portals based on security criteria |
JP2006277103A (ja) | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文書翻訳方法および文書翻訳装置 |
US20060242232A1 (en) | 2005-03-31 | 2006-10-26 | International Business Machines Corporation | Automatically limiting requests for additional chat sessions received by a particula user |
JP2006302091A (ja) | 2005-04-22 | 2006-11-02 | Konica Minolta Photo Imaging Inc | 翻訳装置及びそのプログラム |
US7548849B2 (en) | 2005-04-29 | 2009-06-16 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US8249854B2 (en) | 2005-05-26 | 2012-08-21 | Microsoft Corporation | Integrated native language translation |
JP2006350628A (ja) | 2005-06-15 | 2006-12-28 | Movida Holdings株式会社 | コミュニケーションシステム及びコミュニケーション方法 |
US20070011132A1 (en) * | 2005-06-17 | 2007-01-11 | Microsoft Corporation | Named entity translation |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US20060287848A1 (en) | 2005-06-20 | 2006-12-21 | Microsoft Corporation | Language classification with random feature clustering |
GB0514031D0 (en) | 2005-07-08 | 2005-08-17 | Nokia Corp | Multi-user services in a communications system |
US20070016399A1 (en) | 2005-07-12 | 2007-01-18 | International Business Machines Corporation | Method and apparatus for detecting data anomalies in statistical natural language applications |
CN100488139C (zh) | 2005-08-10 | 2009-05-13 | 华为技术有限公司 | 建立聊天室数据传输通道实现聊天消息传送的方法 |
US20070077975A1 (en) | 2005-08-15 | 2007-04-05 | Roswitha Warda | Software application for conducting online knowledge-based competitions |
US7653531B2 (en) | 2005-08-25 | 2010-01-26 | Multiling Corporation | Translation quality quantifying apparatus and method |
US20090276500A1 (en) | 2005-09-21 | 2009-11-05 | Amit Vishram Karmarkar | Microblog search engine system and method |
CN100483399C (zh) | 2005-10-09 | 2009-04-29 | 株式会社东芝 | 训练音译模型、切分统计模型的方法和装置 |
US20070088793A1 (en) | 2005-10-17 | 2007-04-19 | Landsman Richard A | Filter for instant messaging |
US20070124202A1 (en) | 2005-11-30 | 2007-05-31 | Chintano, Inc. | Systems and methods for collecting data and measuring user behavior when viewing online content |
US20070130258A1 (en) | 2005-12-06 | 2007-06-07 | John Almberg | Web-based public messaging system |
WO2007070558A2 (en) | 2005-12-12 | 2007-06-21 | Meadan, Inc. | Language translation using a hybrid network of human and machine translators |
US20070143410A1 (en) | 2005-12-16 | 2007-06-21 | International Business Machines Corporation | System and method for defining and translating chat abbreviations |
US20080270553A1 (en) | 2006-01-11 | 2008-10-30 | Lunjian Mu | Method and System for Instant Notification of Communication Block Information |
US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
US8065286B2 (en) | 2006-01-23 | 2011-11-22 | Chacha Search, Inc. | Scalable search system using human searchers |
US7949538B2 (en) | 2006-03-14 | 2011-05-24 | A-Life Medical, Inc. | Automated interpretation of clinical encounters with cultural cues |
US8170868B2 (en) | 2006-03-14 | 2012-05-01 | Microsoft Corporation | Extracting lexical features for classifying native and non-native language usage style |
US9931571B2 (en) | 2006-03-17 | 2018-04-03 | Nintendo Co., Ltd. | Systems, methods and techniques for safely and effectively coordinating video game play and other activities among multiple remote networked friends and rivals |
CN100452069C (zh) | 2006-03-17 | 2009-01-14 | 腾讯科技(深圳)有限公司 | 一种网络游戏中防止作弊的方法及系统 |
US8185376B2 (en) | 2006-03-20 | 2012-05-22 | Microsoft Corporation | Identifying language origin of words |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US8688451B2 (en) | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
US20080005319A1 (en) | 2006-05-16 | 2008-01-03 | Anderholm Eric J | Monitoring computer use through a calendar interface |
US8166418B2 (en) | 2006-05-26 | 2012-04-24 | Zi Corporation Of Canada, Inc. | Device and method of conveying meaning |
US20080005325A1 (en) | 2006-06-28 | 2008-01-03 | Microsoft Corporation | User communication restrictions |
US8886518B1 (en) * | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7899816B2 (en) | 2006-08-24 | 2011-03-01 | Brian Kolo | System and method for the triage and classification of documents |
US8626486B2 (en) | 2006-09-05 | 2014-01-07 | Google Inc. | Automatic spelling correction for machine translation |
US8010474B1 (en) | 2006-09-05 | 2011-08-30 | Aol Inc. | Translating paralinguisitic indicators |
US8423908B2 (en) | 2006-09-08 | 2013-04-16 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
US7885807B2 (en) | 2006-10-18 | 2011-02-08 | Hierodiction Software Gmbh | Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient Egyptian |
JP4259564B2 (ja) | 2006-10-24 | 2009-04-30 | セイコーエプソン株式会社 | サーバ装置、サーバ装置における方法、および、コンピュータプログラム |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8204739B2 (en) | 2008-04-15 | 2012-06-19 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US7895576B2 (en) | 2006-11-10 | 2011-02-22 | International Business Machines Corporation | Method for automating internationalization software testing |
US9462070B2 (en) | 2006-11-17 | 2016-10-04 | Synchronica Plc | Protecting privacy in group communications |
US8010338B2 (en) | 2006-11-27 | 2011-08-30 | Sony Ericsson Mobile Communications Ab | Dynamic modification of a messaging language |
US7552045B2 (en) | 2006-12-18 | 2009-06-23 | Nokia Corporation | Method, apparatus and computer program product for providing flexible text based language identification |
US8204182B2 (en) | 2006-12-19 | 2012-06-19 | Nuance Communications, Inc. | Dialect translator for a speech application environment extended for interactive text exchanges |
US20080177528A1 (en) | 2007-01-18 | 2008-07-24 | William Drewes | Method of enabling any-directional translation of selected languages |
US20080176655A1 (en) | 2007-01-19 | 2008-07-24 | James Terry L | System and Method for Implementing an Interactive Online Community Utilizing an Activity Monitor |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8140322B2 (en) | 2007-01-31 | 2012-03-20 | Translations.Com | Method of managing error risk in language translation |
US8078978B2 (en) | 2007-10-19 | 2011-12-13 | Google Inc. | Method and system for predicting text |
US7912847B2 (en) | 2007-02-20 | 2011-03-22 | Wright State University | Comparative web search system and method |
TWI502380B (zh) | 2007-03-29 | 2015-10-01 | Nokia Corp | 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品 |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8601386B2 (en) | 2007-04-20 | 2013-12-03 | Ingenio Llc | Methods and systems to facilitate real time communications in virtual reality |
US20080274694A1 (en) | 2007-05-01 | 2008-11-06 | William David Castell | System and Method for Multi-Channel Blocking |
US9141607B1 (en) | 2007-05-30 | 2015-09-22 | Google Inc. | Determining optical character recognition parameters |
KR20100029221A (ko) | 2007-06-01 | 2010-03-16 | 구글 인코포레이티드 | 명칭 엔터티와 신규 단어를 검출하는 것 |
US20080320086A1 (en) | 2007-06-20 | 2008-12-25 | Sean Callanan | System and method for updating instant message transcripts |
US20090234635A1 (en) | 2007-06-29 | 2009-09-17 | Vipul Bhatt | Voice Entry Controller operative with one or more Translation Resources |
JP5017013B2 (ja) | 2007-08-08 | 2012-09-05 | 株式会社コナミデジタルエンタテインメント | ネットワークゲームシステム、ネットワークゲームシステムの制御方法及びプログラム |
US20110219084A1 (en) | 2007-08-17 | 2011-09-08 | MTV Networks, a division of Viacom International, Inc. | Parental control for multiple virtual environments of a user |
US20090049513A1 (en) | 2007-08-17 | 2009-02-19 | Root Jason E | System and method for controlling a virtual environment of a user |
US20090068984A1 (en) | 2007-09-06 | 2009-03-12 | Burnett R Alan | Method, apparatus, and system for controlling mobile device use |
US7890525B2 (en) | 2007-11-14 | 2011-02-15 | International Business Machines Corporation | Foreign language abbreviation translation in an instant messaging system |
JP5205658B2 (ja) | 2007-11-14 | 2013-06-05 | シャープ株式会社 | 電子機器、制御プログラム、記録媒体および制御方法 |
JP5340584B2 (ja) | 2007-11-28 | 2013-11-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 電子メッセージの読解を支援する装置及び方法 |
JP2009140073A (ja) | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 用語難易度変換装置および用語難易度変換プログラム |
US8935147B2 (en) | 2007-12-31 | 2015-01-13 | Sap Se | Runtime data language selection in object instance |
US20090204407A1 (en) | 2008-02-08 | 2009-08-13 | Shields T Russell | System and method for processing a spoken request from a user |
US8000956B2 (en) * | 2008-02-08 | 2011-08-16 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
US20090221338A1 (en) | 2008-02-29 | 2009-09-03 | Benjamin Stewart | Physical exercise video game method and apparatus |
WO2009134903A1 (en) | 2008-04-29 | 2009-11-05 | City 17, Llc | Method, system, and storage device for user matching and communication facilitation |
US8270606B2 (en) | 2008-05-01 | 2012-09-18 | International Business Machines Corporation | Open architecture based domain dependent real time multi-lingual communication service |
US7912852B1 (en) | 2008-05-02 | 2011-03-22 | Amazon Technologies, Inc. | Search-caching and threshold alerting for commerce sites |
US8107671B2 (en) | 2008-06-26 | 2012-01-31 | Microsoft Corporation | Script detection service |
US20100036661A1 (en) | 2008-07-15 | 2010-02-11 | Nu Echo Inc. | Methods and Systems for Providing Grammar Services |
US20100015581A1 (en) | 2008-07-16 | 2010-01-21 | Delaurentis Semina | Language arts game |
KR20100037813A (ko) | 2008-10-02 | 2010-04-12 | 삼성전자주식회사 | 통계적 자동 번역 장치 및 방법 |
US8731588B2 (en) | 2008-10-16 | 2014-05-20 | At&T Intellectual Property I, L.P. | Alert feature for text messages |
WO2010046782A2 (en) * | 2008-10-24 | 2010-04-29 | App Tek | Hybrid machine translation |
US8548797B2 (en) | 2008-10-30 | 2013-10-01 | Yahoo! Inc. | Short text language detection using geographic information |
US8489388B2 (en) * | 2008-11-10 | 2013-07-16 | Apple Inc. | Data detection |
JP2010129057A (ja) | 2008-12-01 | 2010-06-10 | Ricoh Co Ltd | 情報処理装置、表示データ翻訳方法、及びプログラム |
US8494835B2 (en) | 2008-12-02 | 2013-07-23 | Electronics And Telecommunications Research Institute | Post-editing apparatus and method for correcting translation errors |
US8364766B2 (en) | 2008-12-04 | 2013-01-29 | Yahoo! Inc. | Spam filtering based on statistics and token frequency modeling |
JP2010152785A (ja) | 2008-12-26 | 2010-07-08 | Dainippon Printing Co Ltd | 専門用語の置換編集方法、システム、プログラム、記録媒体 |
US8244567B2 (en) | 2008-12-31 | 2012-08-14 | Synnex Corporation | Business goal incentives using gaming rewards |
US8442813B1 (en) | 2009-02-05 | 2013-05-14 | Google Inc. | Methods and systems for assessing the quality of automatically generated text |
US8326601B2 (en) | 2009-02-11 | 2012-12-04 | Microsoft Corporation | Queue based mechanism to support multi-language chat rooms |
US8095893B2 (en) | 2009-03-16 | 2012-01-10 | Xennsoft Llc | Providing an interactive and customizable organization tree having communication options |
KR20100113749A (ko) | 2009-04-14 | 2010-10-22 | 한국전자통신연구원 | 클라이언트 단말기, 게임 서비스 장치 및 게임 서비스 시스템 및 그 방법 |
US8473555B2 (en) | 2009-05-12 | 2013-06-25 | International Business Machines Corporation | Multilingual support for an improved messaging system |
US8533203B2 (en) * | 2009-06-04 | 2013-09-10 | Microsoft Corporation | Identifying synonyms of entities using a document collection |
US8326602B2 (en) | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
US20170300453A1 (en) | 2009-06-12 | 2017-10-19 | Google Inc. | System and method of providing notification of suspicious access attempts |
US9547642B2 (en) | 2009-06-17 | 2017-01-17 | Empire Technology Development Llc | Voice to text to voice processing |
US8352244B2 (en) | 2009-07-21 | 2013-01-08 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
US20110040824A1 (en) | 2009-08-13 | 2011-02-17 | Google Inc. | Shared Server-Side Macros |
US8473501B2 (en) * | 2009-08-25 | 2013-06-25 | Ontochem Gmbh | Methods, computer systems, software and storage media for handling many data elements for search and annotation |
KR101263332B1 (ko) | 2009-09-11 | 2013-05-20 | 한국전자통신연구원 | 모바일 기기에서 사용자 상호작용을 이용한 자동 번역 장치 및 그 방법 |
US20110071817A1 (en) | 2009-09-24 | 2011-03-24 | Vesa Siivola | System and Method for Language Identification |
US8832204B1 (en) | 2009-09-24 | 2014-09-09 | Sprint Communication Company L.P. | Text message spam solutions |
US8364463B2 (en) | 2009-09-25 | 2013-01-29 | International Business Machines Corporation | Optimizing a language/media translation map |
US8655644B2 (en) | 2009-09-30 | 2014-02-18 | International Business Machines Corporation | Language translation in an environment associated with a virtual application |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
WO2011041672A1 (en) | 2009-10-02 | 2011-04-07 | Massachusetts Institute Of Technology | Translating text to, merging, and optimizing graphical user interface tasks |
US9292493B2 (en) | 2010-01-07 | 2016-03-22 | The Trustees Of The Stevens Institute Of Technology | Systems and methods for automatically detecting deception in human communications expressed in digital form |
US20110184736A1 (en) | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US8566078B2 (en) | 2010-01-29 | 2013-10-22 | International Business Machines Corporation | Game based method for translation data acquisition and evaluation |
CN102725790B (zh) | 2010-02-05 | 2014-04-16 | 三菱电机株式会社 | 识别词典制作装置及声音识别装置 |
US8949128B2 (en) | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
JP5014449B2 (ja) | 2010-02-26 | 2012-08-29 | シャープ株式会社 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
US20110238406A1 (en) | 2010-03-23 | 2011-09-29 | Telenav, Inc. | Messaging system with translation and method of operation thereof |
US8606297B1 (en) | 2010-03-24 | 2013-12-10 | Grindr LLC | Systems and methods for providing location-based cascading displays |
JP4940325B2 (ja) | 2010-03-29 | 2012-05-30 | 株式会社東芝 | 文書校正支援装置、方法およびプログラム |
US8311800B1 (en) | 2010-04-01 | 2012-11-13 | Symantec Corporation | Systems and methods for detecting incorrect translations of terms in a computing string |
WO2011131785A1 (en) | 2010-04-21 | 2011-10-27 | Université Catholique de Louvain | Normalisation of noisy typewritten texts |
US9600823B2 (en) | 2010-04-22 | 2017-03-21 | Ebay Inc. | Data mining system |
US8527521B2 (en) | 2010-06-09 | 2013-09-03 | One Hour Translation, Inc. | System and method for evaluating the quality of human translation through the use of a group of human reviewers |
US9082140B2 (en) | 2010-06-09 | 2015-07-14 | Ebay Inc. | Systems and methods to extract and utilize textual semantics |
US20110313779A1 (en) | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Augmentation and correction of location based data through user feedback |
US8543374B2 (en) | 2010-08-12 | 2013-09-24 | Xerox Corporation | Translation system combining hierarchical and phrase-based models |
US8688435B2 (en) | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US8965751B2 (en) | 2010-11-01 | 2015-02-24 | Microsoft Corporation | Providing multi-lingual translation for third party content feed applications |
US20120173502A1 (en) | 2010-11-09 | 2012-07-05 | Harsha Prem Kumar | System and method for displaying, enabling exploration and discovery, recommending, and playing back media files based on user preferences |
JP5672487B2 (ja) | 2010-11-11 | 2015-02-18 | 株式会社国際電気通信基礎技術研究所 | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム |
US8682918B2 (en) | 2010-11-22 | 2014-03-25 | Salesforce.Com, Inc. | Method and system for making content-based recommendations |
US20120156668A1 (en) | 2010-12-20 | 2012-06-21 | Mr. Michael Gregory Zelin | Educational gaming system |
US8738355B2 (en) | 2011-01-06 | 2014-05-27 | Qualcomm Incorporated | Methods and apparatuses for providing predictive translation information services to mobile stations |
US8112497B1 (en) | 2011-01-11 | 2012-02-07 | Social IT Pty Ltd | Online educational software |
US8990065B2 (en) | 2011-01-11 | 2015-03-24 | Microsoft Technology Licensing, Llc | Automatic story summarization from clustered messages |
US9552353B2 (en) | 2011-01-21 | 2017-01-24 | Disney Enterprises, Inc. | System and method for generating phrases |
US9558267B2 (en) | 2011-02-11 | 2017-01-31 | International Business Machines Corporation | Real-time data mining |
US8671019B1 (en) | 2011-03-03 | 2014-03-11 | Wms Gaming, Inc. | Controlling and rewarding gaming socialization |
US20120240039A1 (en) | 2011-03-15 | 2012-09-20 | Walker Digital, Llc | Systems and methods for facilitating translation of documents |
US8938670B2 (en) | 2011-03-27 | 2015-01-20 | Brian Andrew Kolo | Methods and systems for automated language identification |
US9098488B2 (en) | 2011-04-03 | 2015-08-04 | Microsoft Technology Licensing, Llc | Translation of multilingual embedded phrases |
US8849628B2 (en) | 2011-04-15 | 2014-09-30 | Andrew Nelthropp Lauder | Software application for ranking language translations and methods of use thereof |
US20120277003A1 (en) | 2011-04-28 | 2012-11-01 | Nichola Eliovits | Platform-independent international gaming framework |
US20120290288A1 (en) * | 2011-05-09 | 2012-11-15 | Xerox Corporation | Parsing of text using linguistic and non-linguistic list properties |
US8538742B2 (en) | 2011-05-20 | 2013-09-17 | Google Inc. | Feed translation for a social network |
US8762128B1 (en) | 2011-05-20 | 2014-06-24 | Google Inc. | Back-translation filtering |
US20120303355A1 (en) | 2011-05-27 | 2012-11-29 | Robert Bosch Gmbh | Method and System for Text Message Normalization Based on Character Transformation and Web Data |
US8825467B1 (en) | 2011-06-28 | 2014-09-02 | Google Inc. | Translation game |
US8788259B1 (en) | 2011-06-30 | 2014-07-22 | Google Inc. | Rules-based language detection |
US20150161114A1 (en) | 2011-06-30 | 2015-06-11 | Google Inc. | Rules-based language detection |
US9298698B2 (en) | 2011-06-30 | 2016-03-29 | Google Inc. | Language detection based upon a social graph |
US8838437B1 (en) | 2011-06-30 | 2014-09-16 | Google Inc. | Language classifiers for language detection |
US8928591B2 (en) | 2011-06-30 | 2015-01-06 | Google Inc. | Techniques for providing a user interface having bi-directional writing tools |
US9104744B2 (en) | 2011-06-30 | 2015-08-11 | Google Inc. | Cluster-based language detection |
US8713037B2 (en) | 2011-06-30 | 2014-04-29 | Xerox Corporation | Translation system adapted for query translation via a reranking framework |
US8825469B1 (en) | 2011-08-04 | 2014-09-02 | Google Inc. | Techniques for translating documents including tags |
US8510328B1 (en) | 2011-08-13 | 2013-08-13 | Charles Malcolm Hatton | Implementing symbolic word and synonym English language sentence processing on computers to improve user automation |
US9646001B2 (en) * | 2011-09-19 | 2017-05-09 | Nuance Communications, Inc. | Machine translation (MT) based spoken dialog systems customer/machine dialog |
US9785628B2 (en) | 2011-09-29 | 2017-10-10 | Microsoft Technology Licensing, Llc | System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication |
US20130084976A1 (en) | 2011-10-01 | 2013-04-04 | Microsoft Corporation | Game paradigm for language learning and linguistic data generation |
US8924853B2 (en) | 2011-10-07 | 2014-12-30 | Blackberry Limited | Apparatus, and associated method, for cognitively translating media to facilitate understanding |
US8954315B2 (en) | 2011-10-10 | 2015-02-10 | Ca, Inc. | System and method for mixed-language support for applications |
US9501759B2 (en) | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
US8494838B2 (en) | 2011-11-10 | 2013-07-23 | Globili Llc | Systems, methods and apparatus for dynamic content management and delivery |
US8983825B2 (en) | 2011-11-14 | 2015-03-17 | Amadou Sarr | Collaborative language translation system |
US9656169B2 (en) | 2011-11-17 | 2017-05-23 | Disney Enterprises, Inc. | Characterization of player type by visual attributes |
US8862462B2 (en) | 2011-12-09 | 2014-10-14 | Chrysler Group Llc | Dynamic method for emoticon translation |
US8990066B2 (en) | 2012-01-31 | 2015-03-24 | Microsoft Corporation | Resolving out-of-vocabulary words during machine translation |
US9330082B2 (en) | 2012-02-14 | 2016-05-03 | Facebook, Inc. | User experience with customized user dictionary |
US9465797B2 (en) | 2012-02-23 | 2016-10-11 | Google Inc. | Translating text using a bridge language |
US8744771B2 (en) | 2012-03-26 | 2014-06-03 | Navteq B.V. | Reverse natural guidance |
US9141606B2 (en) | 2012-03-29 | 2015-09-22 | Lionbridge Technologies, Inc. | Methods and systems for multi-engine machine translation |
US8903726B2 (en) | 2012-05-03 | 2014-12-02 | International Business Machines Corporation | Voice entry of sensitive information |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US20130339859A1 (en) | 2012-06-15 | 2013-12-19 | Muzik LLC | Interactive networked headphones |
US8918308B2 (en) | 2012-07-06 | 2014-12-23 | International Business Machines Corporation | Providing multi-lingual searching of mono-lingual content |
US20140142917A1 (en) | 2012-11-19 | 2014-05-22 | Lindsay D'Penha | Routing of machine language translation to human language translator |
US8914395B2 (en) | 2013-01-03 | 2014-12-16 | Uptodate, Inc. | Database query translation system |
US8682529B1 (en) * | 2013-01-07 | 2014-03-25 | Ford Global Technologies, Llc | Methods and apparatus for dynamic embedded object handling |
US9235567B2 (en) | 2013-01-14 | 2016-01-12 | Xerox Corporation | Multi-domain machine translation model adaptation |
US9241245B2 (en) | 2013-01-15 | 2016-01-19 | Apple Inc. | Management of unwanted calls and/or text messages |
US8996353B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996355B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
GB2513644A (en) | 2013-05-02 | 2014-11-05 | Rolonews Lp | Content distribution |
CN104239286A (zh) | 2013-06-24 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 同义短语的挖掘方法和装置及搜索相关内容的方法和装置 |
US20150006148A1 (en) | 2013-06-27 | 2015-01-01 | Microsoft Corporation | Automatically Creating Training Data For Language Identifiers |
US20150088511A1 (en) * | 2013-09-24 | 2015-03-26 | Verizon Patent And Licensing Inc. | Named-entity based speech recognition |
US9471561B2 (en) | 2013-12-26 | 2016-10-18 | International Business Machines Corporation | Adaptive parser-centric text normalization |
RU2665239C2 (ru) * | 2014-01-15 | 2018-08-28 | Общество с ограниченной ответственностью "Аби Продакшн" | Автоматическое извлечение именованных сущностей из текста |
US9444773B2 (en) | 2014-07-31 | 2016-09-13 | Mimecast North America, Inc. | Automatic translator identification |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10388270B2 (en) | 2014-11-05 | 2019-08-20 | At&T Intellectual Property I, L.P. | System and method for text normalization using atomic tokens |
US10936584B2 (en) * | 2014-12-19 | 2021-03-02 | Samsung Electronics Co., Ltd. | Searching and accessing application-independent functionality |
US10229674B2 (en) * | 2015-05-15 | 2019-03-12 | Microsoft Technology Licensing, Llc | Cross-language speech recognition and translation |
US9836453B2 (en) * | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
US9984064B2 (en) * | 2015-11-11 | 2018-05-29 | International Business Machines Corporation | Reduction of memory usage in feature generation |
-
2016
- 2016-01-07 US US14/990,540 patent/US10765956B2/en not_active Expired - Fee Related
-
2017
- 2017-01-04 CN CN201780005970.2A patent/CN108463815A/zh active Pending
- 2017-01-04 WO PCT/US2017/012102 patent/WO2017120172A1/en active Application Filing
- 2017-01-04 AU AU2017205328A patent/AU2017205328A1/en not_active Abandoned
- 2017-01-04 EP EP17701607.8A patent/EP3400536A1/en not_active Withdrawn
- 2017-01-04 JP JP2018535374A patent/JP2019505913A/ja active Pending
- 2017-01-04 CA CA3010157A patent/CA3010157A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352774A (zh) * | 1999-04-08 | 2002-06-05 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US20090319257A1 (en) * | 2008-02-23 | 2009-12-24 | Matthias Blume | Translation of entity names |
US20130173247A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and Method for Interactive Auromatic Translation |
CN103558908A (zh) * | 2012-04-30 | 2014-02-05 | 谷歌公司 | 帮助用户以多种不同语言将实体的名称文本输入到用户设备的技术 |
US20140163951A1 (en) * | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
Non-Patent Citations (1)
Title |
---|
MASSIMILIANO CIARAMITA等: ""Named-Entity Recognition in Novel Domains with External Lexical Knowledge"", 《PROCEEDINGS OF THE NIPS WORKSHOP ON ADVANCES IN STRUCTURED LEARNING FOR TEXT AND SPEECH PROCESSING》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059189A (zh) * | 2019-04-11 | 2019-07-26 | 厦门点触科技股份有限公司 | 一种游戏平台消息的分类系统及方法 |
CN111091002A (zh) * | 2019-11-26 | 2020-05-01 | 华东师范大学 | 一种中文命名实体的识别方法 |
CN111091002B (zh) * | 2019-11-26 | 2023-06-09 | 华东师范大学 | 一种中文命名实体的识别方法 |
CN111144111A (zh) * | 2019-12-30 | 2020-05-12 | 北京世纪好未来教育科技有限公司 | 翻译方法、装置、设备及存储介质 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111222339B (zh) * | 2020-01-13 | 2023-05-23 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US10765956B2 (en) | 2020-09-08 |
US20170197152A1 (en) | 2017-07-13 |
JP2019505913A (ja) | 2019-02-28 |
WO2017120172A1 (en) | 2017-07-13 |
CA3010157A1 (en) | 2017-07-13 |
AU2017205328A1 (en) | 2018-07-12 |
EP3400536A1 (en) | 2018-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108463815A (zh) | 聊天数据的命名实体识别 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
US20170213138A1 (en) | Determining user sentiment in chat data | |
US11227342B2 (en) | Recommending friends in automated chatting | |
CN105408891B (zh) | 用于多用户多语言通信的系统和方法 | |
CN103493045B (zh) | 对在线问题的自动回答 | |
CN109313650B (zh) | 在自动聊天中生成响应 | |
AU2017408800B2 (en) | Method and system of mining information, electronic device and readable storable medium | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
US20210365837A1 (en) | Systems and methods for social structure construction of forums using interaction coherence | |
CN112685550B (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
CN106462564A (zh) | 在文档内提供实际建议 | |
US12086715B2 (en) | Generating neural network outputs using insertion commands | |
CN108491380B (zh) | 用于口语理解的对抗多任务训练方法 | |
CN107111607A (zh) | 用于语言检测的系统和方法 | |
EP2915067A1 (en) | Text analysis | |
Goldwasser et al. | A theory of unsupervised translation motivated by understanding animal communication | |
Büyük et al. | Learning from mistakes: Improving spelling correction performance with automatic generation of realistic misspellings | |
CN113656566B (zh) | 智能对话处理方法、装置、计算机设备及存储介质 | |
CN113177399B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Michel | Learning neural models for natural language processing in the face of distributional shift | |
CN114282540B (zh) | 构建语言模型及语音识别的方法、装置、设备及存储介质 | |
CN110929530B (zh) | 一种多语言垃圾文本的识别方法、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180828 |
|
WD01 | Invention patent application deemed withdrawn after publication |