CN108463815A - 聊天数据的命名实体识别 - Google Patents

聊天数据的命名实体识别 Download PDF

Info

Publication number
CN108463815A
CN108463815A CN201780005970.2A CN201780005970A CN108463815A CN 108463815 A CN108463815 A CN 108463815A CN 201780005970 A CN201780005970 A CN 201780005970A CN 108463815 A CN108463815 A CN 108463815A
Authority
CN
China
Prior art keywords
language
word
received
word string
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780005970.2A
Other languages
English (en)
Inventor
尼基希尔·博亚
S·卡纳安
P·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mz Intellectual Property Holding Co Ltd
MZ IP Holdings LLC
Original Assignee
Mz Intellectual Property Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mz Intellectual Property Holding Co Ltd filed Critical Mz Intellectual Property Holding Co Ltd
Publication of CN108463815A publication Critical patent/CN108463815A/zh
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

提供了方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于接收第一语言的多个词串,每个接收的词串包括多个词,使用利用包括多个特征的训练数据训练的统计分类器识别每个接收的词串中的一个或多个命名实体,其中特征之一是词形状特征,其包括用于相应词的每个字母的相应标记,其中每个标记表示该字母的大小写或该字母是否为数字,并且将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。

Description

聊天数据的命名实体识别
相关申请的交叉引用
本申请要求2016年1月7日提交的美国专利申请No.14/990,540的优先权,其全部内容通过引用结合于本申请中。
背景技术
本说明书涉及语言翻译,且更具体地说,涉及将在线游戏聊天消息翻译成不同的语言。
在线聊天是交换通过互联网传输的文本信息的参与者之间的对话。参与者可以从客户端软件应用程序的用户界面(例如,web浏览器、消息传递应用程序)加入聊天会话,并且在聊天会话中向其它参与者发送消息和从其它参与者接收消息。
在线游戏是电子游戏,游戏参与者通过互联网或其它计算机网络相互对抗或与服务器计算机对抗来进行游戏。参与者可以从客户端软件应用程序—诸如,例如网络浏览器或游戏应用程序,其发送和接收游戏数据(例如,游戏状态、用户动作)并且在用户界面中显示游戏图形—的用户界面加入游戏会话。游戏的用户界面还可以包括聊天用户界面,其中游戏参与者可以在与游戏交互时发送和接收聊天消息。在大型多人在线游戏中,来自多个国家的许多参与者可以加入游戏会话并以多种语言交换聊天消息。一种语言的聊天消息可以使用软件自动翻译成另一种语言。例如,参与者A可以向参与者B发送英文消息,其中英文消息在被呈现给参与者B之前被自动翻译成法语。自动语言翻译通常被称为机器翻译。
发明内容
大体上,本说明书中描述的主题的一个方面可以体现在如下方法中,其包括由一个或多个计算机执行的动作,接收第一语言的多个词串,每个接收的词串包括多个词,使用统计分类器来识别每个接收的词串中的一个或多个命名实体,该统计分类器使用包括多个特征的训练数据来训练,其中这些特征之一是词形状特征,词形状特征包括用于相应词的每个字母的相应标记,其中每个标记表示该字母的大小写或该字母是否是数字,并且将所接收的词串从第一语言翻译成第二语言,包括在翻译期间保存每个接收的词串中的相应的识别的命名实体。这个方面的其它实施例包括相应的系统、设备和计算机程序。
这些和其它方面可以可选地包括以下特征中的一个或多个。将所接收的词串从第一语言翻译成第二语言可以包括:对于特定的接收的词串,选择第一语言的相应模板,该相应模板包括用于所识别的命名实体的一个或多个占位符并且具有第二语言的保留占位符的对应翻译模板;以及通过用其识别的命名实体替换第二语言的对应翻译模板中的占位符来翻译特定的接收到的词串。第一语言的相应模板还可以包括第一语言的词,其根据字典被翻译成对应翻译模板中的第二语言的词。字典可以包括第一语言的词,以及对应于第一语言的每个词的第二语言的一个或多个词。第一语言的相应模板可以进一步包括在特定的接收的词串中的计数超过指定阈值的特定词。特定的命名实体可以包含一个或多个名词。该多个特征还可以包括以下特征中的一个或多个:前缀、后缀、词性标记和字类型。特定词的词类型特征可以描述特定词的词形状特征是否包括相同类型的标记。特定的特征可以用m长窗口内的n元语法来识别,其中m大于n。统计分类器可以专用于第一语言。统计分类器可以包括条件随机字段分类器,其被配置为识别词串中的一个或多个命名实体。
本说明书中描述的主题的特定实施方式可以被实施为实现以下优点中的一个或多个。这里描述的系统接收第一语言的移动游戏聊天消息。系统通过使用统计分类器来识别每个收到的消息中的命名实体。统计分类器通过包含一组特征的训练数据来训练。训练数据中的特定特征是识别词形状的词形状特征。可以使用表示词的每个字母是大写字母、小写字母、数字还是符号的标记来描述词的形状特征。词形状特征在识别移动游戏聊天消息中的命名实体时是有用的,因为移动游戏聊天消息中的命名实体通常不是专有名词,但是具有通常的词形状。在识别接收到的聊天消息中的命名实体之后,系统将接收到的聊天消息翻译成第二语言,同时在翻译期间保留所识别的命名实体,因为翻译对于所识别的命名实体来说大多不是必需的。
在本说明书中描述的主题的一个或多个实施方式的细节在附图和下面的描述中阐述。主题的其它特征、方面和优点将从描述,附图和权利要求中变得显而易见。
附图说明
图1示出了用于在线游戏的示例系统。
图2是用于在线游戏聊天翻译的示例方法的流程图。
图3是用于在线游戏聊天翻译的另一示例方法的流程图。
在各个附图中类似的参考数字和名称表示类似的元件。
具体实施方式
图1示出了用于在线游戏的示例系统。在图1中,服务器系统122提供用于在线游戏聊天翻译的功能。例如,服务器系统122包括可以在一个或多个地理位置的一个或多个数据中心121处部署的软件组件和数据库。服务器系统122软件组件包括游戏服务器132、聊天主机134、翻译管理器135、统计分类器136、模板创建器138和特征提取器140。服务器系统122数据库包括游戏数据数据库151、用户数据数据库152、聊天数据数据库154、翻译模板数据库156和训练数据数据库158。数据库可以驻留在一个或多个物理存储系统中。下面将进一步描述软件组件和数据库。
在图1中,在线游戏玩家或用户(例如,102a,102b等)的客户端设备(例如,104a,104b等)可以通过一个或多个数据通信网络113以诸如,例如互联网—连接到服务器系统122。这里使用的客户端设备可以是智能手机、智能手表、平板电脑、个人电脑、游戏机或车载媒体系统。客户端设备的其它示例也是可行的。各个用户可以通过在用户的客户端设备上运行的客户端软件应用程序(例如,105a,105b等)的图形用户界面(例如,106a,106b等)访问(播放)由游戏服务器132托管的一个或多个在线游戏。客户端软件应用程序可以是网络浏览器或专用软件应用程序,例如游戏应用程序。用于访问由游戏服务器132托管的在线游戏的其它类型的客户端软件应用程序是可行的。另外,游戏的图形用户界面(例如,106a,106b等)可以包括聊天用户界面(例如,108a,108b等)。用户(例如,102a)在玩在线游戏时,可以通过加入游戏的聊天会话以及在游戏的用户界面(例如,106a)中的聊天用户界面(例如,108a)中发送和接收消息而与在线游戏的其它用户(例如,102b,102d)交互(“聊天”)。
游戏服务器132是托管一个或多个在线游戏的服务器系统。游戏服务器132可以将在线游戏的最近的游戏数据(例如,游戏的当前状态)发送给参与游戏的用户(玩家),以显示在用户的相应的图形用户界面(例如,106a,106b)中。例如,游戏服务器132可以从用户的客户端设备(例如,104d)接收用户的用户动作并更新游戏的状态。游戏服务器132可以将游戏的当前状态和参与游戏的用户的标识符存储在游戏数据数据库151中。游戏服务器132还可以在用户数据数据库152中存储用户的数据(例如,标识符、语言设置、玩过的游戏)。
聊天主机134是建立并维持由游戏服务器132托管的在线游戏的用户之间的聊天会话的软件组件。聊天主机134可以接收从用户(例如,102d)发送的消息并将该消息发送给一个或多个接收者(例如,102a,102c),以及将该消息存储在聊天数据数据库154中。如果聊天消息的发送者和接收者具有不同的语言设置(例如,存储在用户数据数据库152中),则翻译管理器135可以首先将消息从发送者的语言翻译成接收者的语言。例如,聊天主机134然后可以将翻译好的信息发送接收者。聊天主机134还可以将翻译的消息存储在聊天数据数据库154中。翻译管理器135可以使用一种或多种机器翻译方法将消息从一种语言翻译成另一种语言(例如,通过经由应用程序编程接口或API访问机器翻译软件程序)。机器翻译方法的示例包括规则(例如语言规则)和基于字典的机器翻译以及统计机器翻译。统计机器翻译可以基于统计模型,统计模型预测一种语言(“目标”)中的文本串的概率是来自另一种语言(“源”)中的另一文本串的翻译。
消息或句子中的命名实体是人名(例如John Smith)、地名(例如,旧金山、西雅图)或组织名(例如MICROSOFT)。在将消息从一种语言翻译成另一种语言期间,可以保留消息中的命名实体而不进行翻译,而将消息的其余部分翻译成另一种语言。一个例外可为国家名称(例如,英语中的“德国”可以被翻译成德语中的“Deutschland”)。在正式英语(例如,写成符合英语语法)的句子或段落中,命名实体可以很容易地识别,因为它们通常是专有名词,并且在第一个字母或整个词中大写,或者可以容易地从字典或句子的上下文识别。然而,在在线游戏的聊天消息中,至少因为以下原因可能难以识别命名实体:
·聊天消息通常是自由格式(或没有格式)。
·聊天消息通常很短,缺乏足够的上下文。
·聊天消息通常包含拼写错误(打字错误)。
·聊天消息通常包含专用于文本消息或专用于特定在线游戏的聊天俚语词(例如,俚语,缩写,或字母,数字、符号或表情符号的组合)。
·在线游戏的聊天消息通常包含用于呈现游戏玩家(例如,伪名称)的常用名字(例如,狼、女王、征服者)。
·聊天消息通常包含表情图示和表情符号。
以示意的方式,下面列出了来自在线游戏的示例聊天消息,每条消息中的命名实体都带有下划线。
Ben in here?
Bye ghost
Good morning john.
And owner said they were joint to attack me but mgt backed down
Scotch knows my plan now.
LOL CnD failed
r u there bob1
Heading to San Francisco
i’ve met rich b4
如上面的例子中所示,在线游戏聊天消息可以是词串(一串词)。每个词可以是以空格或其它分隔符(例如标点符号)为边界的字符串。在线游戏聊天消息中的命名实体可以是与人、地点或组织相关的词(或多个相邻词)。在线游戏聊天消息中的命名实体不一定是专有名词,或被正确地大写。在线游戏聊天消息中的命名实体可以是缩写。在线游戏聊天消息中的命名实体可以包括数字、符号、表情图示或表情符号。在线聊天消息中的命名实体可以是包括字母串的词,其中多于一个但不是所有字母都是大写字母。
这里描述的特定实施方式描述了用于翻译在线游戏聊天消息的方法。特定实施方式使用统计分类器来识别在线游戏聊天消息中的命名实体。但是,也构想了其它类型的分类器。更具体地说,统计分类器使用通过使用包括一组特征的训练数据来经训练的统计分类模型。特定的特征是词形状特征,它使用标记,该标记均于在线游戏聊天消息中标识单词的字母的大小写,或者该字母是否是数字,如下面进一步描述的。
统计分类器136是使用统计分类模型来识别在线游戏聊天消息中的命名实体的软件组件。例如,统计分类模型可以基于条件随机字段分类算法来识别在线游戏聊天消息中的命名实体。
统计分类器136可以用在线游戏聊天消息的训练集来训练。例如,统计分类器136可以利用存储在聊天数据数据库154中的一组10,000个英语聊天消息来训练。训练消息可以使用软件应用程序(诸如基于规则和基于字典的翻译软件应用程序)而被处理和翻译(例如,通过翻译管理器135或服务器系统122的另一个软件组件)为另一种语言,如法语。例如,字典通常可以将英语中的单词或短语(两个或更多个单词)映射到法语单词或短语。翻译可以由人进一步检查和更新。
模板创建器138是由训练消息创建翻译模板的软件组件。模板创建器138通过首先标记训练消息中的命名实体来创建翻译模板。例如,如果特定词不是“禁用词”,例如在训练消息中出现超过阈值次数(例如,三次)的普通动词(例如,是、做、进行),或者如果特定词未使用字典来翻译,则模板创建器138可以将训练消息中的特定词标记为命名实体。例如,模板创建器138然后通过用占位符替换训练消息中的标记的词(命名实体)来创建英语翻译模板和其法语对应模板。例如,模板创建器138可以在训练消息“John,What's new?”和其法语翻译“John,quoi de neuf?”中将词“John”标记为命名实体。模板创建器138然后将标记的词用占位符替换,并创建英语的翻译模板“$placeholder,what's new?”和相应的法语的模板“$placeholder,quoi de neuf?”。模板创建器138可以将创建的模板存储在翻译模板数据库156中。当稍后将消息“Julie,what's new?”从英语翻译成法语时,翻译管理器135可以确定该消息与存储在翻译管理器135中的英语翻译模板“$placeholder,what’s new?”匹配。然后,翻译管理器135通过使用法语模板同时保留命名实体“Julie”(即,用命名实体“Julie”替换占位符)来将消息“Julie,what's new?”从英语翻译成法语:“Julie,quoi deneuf?”。由模板创建器138创建的翻译模板可以由人进一步检查和更新。
特征提取器140是识别训练消息中的特征的软件组件。例如,特征提取器可以识别训练消息中的单词的词词形状的特征。词形状特征使用一个或多个标记,该一个或多个标记表示词中的字母是大写、小写、数字还是符号。例如,对于大写字母,标记可以是“U”,对于小写字母,标记可以是“L”,或者对于数字,标记可以是“D”。词形状特征的其它类型的标记是可行的。例如,可以通过标记“ULL”指定词“Ben”。可以通过标记“ULU”指定词“AnD”。可以通过标记“LLLL”指定词“here”。如果训练数据中(因此对于一般的在线游戏聊天消息)的命名标识—如果特定类型的标记序列(例如,“ULU”)通常表示出现在训练数据中的特定类型的命名实体,则词形状特征可以是有用的。词类型特征可以描述训练消息中的词是否包括相同类型的标记。例如,词类型特征可为词是否包括全部大写字母、全部数字、全部符号、全部大写字母和数字、全部大写字母和符号、全部数字和符号等等。
对于训练消息中的字,其它特征是可行的。例如,特征可以描述词的前缀或后缀。特征还可以描述词的词性标记,该词性标记指示在包含该词的训练消息中该词的语法功能。例如,词性标记可以是用于专有名词的NNP,用于介词的IN,用于名词的NN,用于基本形式的动词的VB,用于过去时的动词的VBD,等等。下表列出了用于训练消息中词的示例特征。参考训练消息“Ben in here?”描述了示例特征。
在下表中,训练消息的特征可以用m元语法(m-gram)窗口内的n元语法来识别,其中m可以大于n。这里,n元语法是来自给定文本序列的n个项目的连续序列。例如,下表中的特征word__u示例表示在5元语法(5个字)的窗口中的词1元语法(1元语法或一个词)。
特征提取器140可以针对训练集的每个训练消息提取一个或多个特征,并将提取的特征与训练消息一起存储在训练数据数据库158中。所提取的特征可以由人检查和更新。
统计分类器136可在存储在训练数据数据库158中的训练数据上训练。例如,统计分类器136可使用条件随机场模型作为统计分类模型。条件随机场模型是一种统计方法,其在给定条件X(即X是已知的)的情况下对随机变量Y的条件概率分布p(Y|X)进行建模。例如,X可以是聊天消息,Y可以是聊天消息X中的特定词。p(Y|X)可以是给定聊天消息X时Y是命名实体的概率。统计分类器136可运行(例如,执行操作)实现条件随机场模型的算法,其中训练数据及其提取的特征作为算法的输入。统计分类器136可以运行(即,训练)算法,直到确定了条件随机场模型的参数(例如,当使用梯度下降方法在迭代之后每个参数的值收敛在指定阈值内时)。
例如,训练消息中的每个提取的特征可以对应于条件随机场模型中的特征函数fj。特征函数fj可以是条件概率函数,其描述给定一个或多个条件情况下与训练消息中的特定词(或多个词)的提取特征相关联的概率。例如,条件概率函数可以描述这样的概率:即给定特定词在训练消息中的位置或者特定词在训练消息中相对于另一词(例如动词,问候语或带有另一个提取的特征的词)的位置的条件下,具有提取的特征的特定词是命名实体的概率。条件概率函数的其它条件是可能的。该模型可以通过特征函数的加权求和来计算预测该特定词是否是命名实体的分数:
分数=Σλj〃fj
其中,模型参数λj是模型中特征函数的相应权重。总和可以在训练消息中的所有提取的特征上添加。总和也可以在训练信息中的所有词上添加。条件随机场模型的其它公式也是可行的。
由于统计分类模型可以在不同语言的不同训练数据组(聊天消息)上训练,所以对于不同语言的聊天消息,模型可以是不同的(例如,具有不同的参数组)。
服务器系统122可以使用经训练的统计分类模型和如上所述存储在翻译模板数据库156中的翻译模板来翻译新的在线游戏聊天消息。图2是用于在线游戏聊天翻译的示例方法的流程图。例如,聊天主机136从第一用户接收聊天消息(例如,词串)(步骤202)。聊天主机136确定聊天消息是用英语组成的,并且意图以法语用于第二用户。聊天主机136将聊天消息和将聊天消息从英语翻译成法语的指令传递给翻译管理器135。翻译管理器135向统计分类器136发送请求以识别聊天消息中的一个或多个命名实体。统计分类器136可以使用经训练的统计分类模型来识别聊天消息中的一个或多个命名实体(步骤204)。例如,统计分类器136可以将聊天消息作为输入提供给经训练的统计分类模型,该统计分类模型又输出聊天消息中的一个或多个命名实体。然后,统计分类器136将所识别的命名实体返回到翻译管理器135。
然后,翻译管理器135基于所识别的命名实体访问翻译模板156以寻找聊天消息的可能的匹配模板(步骤206)。如果找到匹配的模板,则翻译管理器135通过将所识别的命名实体插入匹配的英语模板的相应法语模板中的占位符(用于命名实体)来将聊天消息翻译成法语(步骤208)。注意,使用匹配模板(存储或缓存在翻译模板数据库156中)可以减少计算时间,因为命名实体和聊天消息的其余部分不需要翻译(例如,通过经由API访问翻译软件应用程序)。
如果找不到匹配的模板,则翻译管理器135可以例如通过经由API访问英语-法语机器翻译软件来将聊天消息翻译成法语(步骤210)。翻译管理器135可以向翻译软件提供指令,以在翻译期间保留所识别的命名实体(例如,跳过对所识别的命名实体的翻译)。这里,如之前所述,模板创建器138可以通过在英语聊天消息以及其法语翻译中用占位符替换所识别的命名实体来创建英语和法语的新翻译模板,并将新翻译模板存储在翻译模板数据库156供以后使用。
翻译管理器135可以将翻译的聊天消息(法语)传递给聊天主机134。聊天主机然后将翻译的聊天消息发送给第二用户(步骤212)。
图3是用于在线游戏聊天翻译的另一示例方法的流程图。该方法可以使用例如服务器系统122的软件组件来实施。该方法通过以第一语言接收多个词串(例如,聊天消息)开始,每个接收的词串包括多个词(步骤302;例如,聊天主机134)。该方法使用统计分类器识别每个接收到的词串中的一个或多个命名实体,该统计分类器使用包括多个特征的训练数据训练,其中特征之一是词形状特征,其包括用于相应词的每个字母的相应标记,其中每个标记表示该字母的大小写或该字母是否是数字(步骤304;例如统计分类器136)。该方法将所接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体(步骤306;例如,翻译管理器135)。
该主题的实现方式和在本说明书描述的操作可以在数字电子电路中或在计算机软件、固件或硬件中实现,包括在本说明书中公开的结构及其结构等同物,或者以它们中的一个或多个的组合来实现。本说明书中描述的主题的实现方式可以被实现为编码在计算机存储介质上的一个或多个计算机程序,即计算机程序指令的一个或多个模块,以用于由数据处理设备执行或者控制数据处理设备的操作。备选地或另外地,程序指令可以编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以编码信息,以便传输到合适的接收器设备来由数据处理设备执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基质、随机或串行存取存储器阵列或设备、或者它们中的一个或多个的组合,或者可以被包括在其中。此外,尽管计算机存储介质不是传播信号,但计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其它存储设备)或被包括在其中。
本说明书中描述的操作可以被实现为由数据处理设备对存储于一个或多个计算机可读存储设备上或从其它源接收的数据执行的操作。
术语“数据处理设备”包括用于处理数据的所有类型的装置、设备和机器,例如包括可编程处理器、计算机、芯片上系统、或多个芯片上系统、或前述内容的组合。装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其中一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础结构,例如Web服务、分布式计算和网格计算基础结构。
计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以任何编程语言形式编写,包括编译或解释语言、声明或过程语言,且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序、对象或适用于计算环境的其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其它程序或数据(例如,存储在标记语言资源中的一个或多个脚本)的文件的一部分中、在专用于所讨论的程序的单个文件中、或者在多个协调文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在位于一个站点处或跨多个站点分布并通过通信网络互连的一台计算机或多台计算机上执行。
本说明书中描述的过程和逻辑流可以通过一个或多个可编程处理器执行,该一个或多个可编程处理器执行一个或多个计算机程序,以通过在输入数据上进行操作并产生输出来执行动作。过程和逻辑流也可以由专用逻辑电路来执行,并且该装置也可以被实现为专用逻辑电路,专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于执行计算机程序的处理器例如包括通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括一个或多个大容量存储设备,或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传递至一个或多个大容量存储设备,或者二者兼而有之,以便存储数据,例如磁盘、磁光盘或光盘。但是,计算机不需要具有这样的设备。此外,可以将计算机嵌入到另一设备中,例如,仅举几例,智能电话、智能手表、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器)。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备,例如包括半导体存储设备,例如EPROM,EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入其中。
为了提供与用户的交互,本说明书中描述的主题的实施方式可以在计算机上实现,该计算机具有:显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器),用于向用户显示信息;和键盘以及指示设备(例如鼠标或跟踪球),用户可通过其向计算机提供输入。其它类型的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送资源和从该设备接收资源来与用户交互;例如通过响应于从网络浏览器接收到的请求,将网页发送到用户的客户端设备上的网络浏览器。
本说明书中描述的主题的实施方式可以在计算系统中实现,该计算系统包括后端组件,例如作为数据服务器;或者包括中间件组件,例如应用服务器;或者包括前端组件,例如具有图形用户界面或Web浏览器的客户端计算机,用户可以通过其与本说明书中描述的主题相交互;或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的实例包括局域网(“LAN”)和广域网(“WAN”)、网间网络(例如因特网)和点对点网络(例如,特设点对点网络)。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系由于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中,服务器将数据(例如,HTML页面)传输到客户端设备(例如,用于向与客户端设备交互的用户显示数据和从该用户接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
一个或多个计算机的系统可以被配置为通过具有安装在系统上的软件、固件、硬件或它们的组合来执行特定的操作或动作,它们在操作中使系统执行动作。一个或多个计算机程序可以被配置为通过包括在由数据处理装置执行时使该装置执行动作的指令来执行特定的操作或动作。
虽然本说明书包含许多具体的实现细节,但是这些不应该被解释作为对任何发明或可能要求保护的内容的范围的限制,而是作为专用于特定发明的特定实施方式的特征的描述。本说明书中在单独的实施方式的上下文中描述的某些特征也可以在单个实施方式中组合实现。相反,在单个实施方式的上下文中描述的多个特征也可以单独地或以任何合适的子组合在多个实施方式中实现。此外,尽管特征在上面可以描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以涉及子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描绘了操作,但是这不应该被理解为要求以所示出的特定顺序或按次序顺序执行这样的操作,或者所有示出的操作都被执行,以实现合乎需要的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施方式中的各种系统组件的分离不应被理解为在所有实施方式中都需要这种分离,并且应当理解,所描述的程序组件和系统通常可以在单个软件产品中集成在一起或者被打包到多个软件产品中。
因此,已经描述了主题的特定实施方式。其它实施方式在所附的权利要求的范围内。在一些情况下,权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。另外,附图中描绘的过程不一定需要所示的特定顺序或按次序顺序来实现期望的结果。在某些实施方式中,多任务和并行处理可能是有利的。

Claims (30)

1.一种方法,包括:
由一个或多个计算机执行:
接收第一语言的多个词串,每个接收的词串包括多个词;
使用利用包括多个特征的训练数据训练的统计分类器识别每个接收的词串中的一个或多个命名实体,其中,所述特征中的一个特征是词形状特征,所述词形状特征包括用于相应词的每个字母的相应标记,其中,每个标记表示该字母的大小写或该字母是否是数字;以及识别
将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
2.如权利要求1所述的方法,其中,将所述接收的词串从所述第一语言翻译成第二语言包括:
对于特定的接收的词串:
选择所述第一语言的相应模板,所述相应模板包括用于识别的命名实体的一个或多个占位符并具有第二语言的保留所述占位符的对应翻译模板;以及
通过在第二语言的所述对应翻译模板中的所述占位符中替换其识别的命名实体来翻译该特定的接收的词串。
3.如权利要求2所述的方法,其中,所述第一语言的相应模板还包括第一语言的词,所述词根据字典被翻译成对应翻译模板中的第二语言的词。
4.如权利要求3所述的方法,其中,所述字典包括:
所述第一语言的词;以及
对应于所述第一语言的每个词的所述第二语言的一个或多个词。
5.如权利要求2所述的方法,其中,所述第一语言的相应模板还包括特定词,所述特定词在所述特定的接收的词串中的计数超过指定阈值。
6.如权利要求1所述的方法,其中,特定命名实体包括一个或多个专有名词。
7.如权利要求1所述的方法,其中,所述多个特征还包括以下特征中的一个或多个:前缀、后缀、词性标记和词类型。
8.如权利要求7所述的方法,其中,特定词的词类型特征描述特定词的词形状特征是否包括相同类型的标记。
9.如权利要求1所述的方法,其中,用m长度窗口内的n元语法来识别特定特征,其中,m大于n。
10.如权利要求1所述的方法,其中,所述统计分类器专用于所述第一语言。
11.如权利要求1所述的方法,其中,所述统计分类器包括被配置为识别词串中的一个或多个命名实体的条件随机场分类器。
12.一种系统,包括:
被编程为执行操作的一个或多个计算机,所述操作包括:
接收第一语言的多个词串,每个接收的词串包括多个词;
使用利用包括多个特征的训练数据进行训练的统计分类器来识别每个接收的词串中的一个或多个命名实体,其中,所述特征中的一个特征是包括用于相应词的每个字母的相应标记的词形状特征,其中,每个标记表示所述字母的大小写或所述字母是否是数字;以及
将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
13.如权利要求12所述的系统,其中,将所述接收的词串从第一语言翻译成第二语言包括:
对于特定的接收的词串:
选择第一语言的相应模板,所述相应模板包括用于标识的命名实体的一个或多个占位符并具有保留所述占位符的第二语言的对应翻译模板;以及
通过在第二语言的所述对应翻译模板中的占位符中替换其识别的命名实体来翻译该特定的接收的词串。
14.如权利要求13所述的系统,其中,所述第一语言的相应模板还包括第一语言的词,所述词根据字典被翻译成所述对应翻译模板中的第二语言的词。
15.如权利要求14所述的系统,其中,所述字典包括:
所述第一语言的词;以及
对应于所述第一语言的每个词的第二语言的一个或多个词。
16.如权利要求13所述的系统,其中,所述第一语言的相应模板还包括特定词,所述特定词在所述特定的接收的词串中的计数超过指定阈值。
17.如权利要求12所述的系统,其中,特定命名实体包括一个或多个专有名词。
18.如权利要求12所述的系统,其中,所述多个特征还包括以下特征中的一个或多个:前缀、后缀、词性标记和词类型。
19.如权利要求18所述的系统,其中,特定词的词类型特征描述特定词的词形状特征是否包括相同类型的标记。
20.如权利要求12所述的系统,其中,用m长度窗口内n元语法识别特定特征,其中,m大于n。
21.如权利要求12所述的系统,其中,所述统计分类器专用于所述第一语言。
22.如权利要求1所述的系统,其中,所述统计分类器包括被配置为识别词串中的一个或多个命名实体的条件随机字段分类器。
23.一种存储设备,所述存储设备具有存储在其上的指令,所述指令在由一个或多个计算机执行时执行操作,所述操作包括:
接收第一语言的多个词串,每个接收的词串包括多个词;
使用利用包括多个特征的训练数据训练的统计分类器来识别每个接收的词串中的一个或多个命名实体,其中,所述特征中的一个特征是词形状特征,所述词形状特征包括用于相应词的每个字母的相应标记,其中,每个标记表示该字母的大小写或该字母是否是数字;以及
将接收的词串从第一语言翻译成第二语言,包括在翻译期间保留每个接收的词串中的相应的识别的命名实体。
24.如权利要求23所述的存储设备,其中,将所述接收的词串从所述第一语言翻译成第二语言包括:
对于特定的接收的词串:
选择第一语言的相应模板,所述相应模板包括用于识别的命名实体的一个或多个占位符并具有保留所述占位符的第二语言的对应翻译模板;以及
通过在第二语言的所述对应翻译模板中的占位符中替换其识别的命名实体来翻译该特定的接收的词串。
25.如权利要求24所述的存储设备,其中,所述第一语言的相应模板还包括第一语言的词,所述词根据字典被翻译成所述对应翻译模板中的第二语言的词。
26.如权利要求25所述的存储设备,其中,所述字典包括:
所述第一语言的词;以及
对应于所述第一语言的每个词的第二语言的一个或多个词。
27.如权利要求24所述的存储设备,其中,所述第一语言的相应模板还包括特定词,所述特定词在所述特定的接收的词串中的计数超过指定阈值。
28.如权利要求23所述的存储设备,其中,特定命名实体包括一个或多个专有名词。
29.如权利要求23所述的存储设备,其中,所述多个特征还包括以下特征中的一个或多个:前缀、后缀、词性标记和词类型。
30.如权利要求29所述的存储设备,其中,特定词的词类型特征描述特定词的词形状特征是否包括相同类型的标记。
CN201780005970.2A 2016-01-07 2017-01-04 聊天数据的命名实体识别 Pending CN108463815A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/990,540 US10765956B2 (en) 2016-01-07 2016-01-07 Named entity recognition on chat data
US14/990,540 2016-01-07
PCT/US2017/012102 WO2017120172A1 (en) 2016-01-07 2017-01-04 Named entity recognition on chat data

Publications (1)

Publication Number Publication Date
CN108463815A true CN108463815A (zh) 2018-08-28

Family

ID=57890910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780005970.2A Pending CN108463815A (zh) 2016-01-07 2017-01-04 聊天数据的命名实体识别

Country Status (7)

Country Link
US (1) US10765956B2 (zh)
EP (1) EP3400536A1 (zh)
JP (1) JP2019505913A (zh)
CN (1) CN108463815A (zh)
AU (1) AU2017205328A1 (zh)
CA (1) CA3010157A1 (zh)
WO (1) WO2017120172A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059189A (zh) * 2019-04-11 2019-07-26 厦门点触科技股份有限公司 一种游戏平台消息的分类系统及方法
CN111091002A (zh) * 2019-11-26 2020-05-01 华东师范大学 一种中文命名实体的识别方法
CN111144111A (zh) * 2019-12-30 2020-05-12 北京世纪好未来教育科技有限公司 翻译方法、装置、设备及存储介质
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6709963B2 (ja) * 2016-09-09 2020-06-17 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
US10841257B1 (en) * 2016-10-25 2020-11-17 Twitter, Inc. Determining engagement scores for sub-categories in a digital domain by a computing system
US10380263B2 (en) * 2016-11-15 2019-08-13 International Business Machines Corporation Translation synthesizer for analysis, amplification and remediation of linguistic data across a translation supply chain
US10860800B2 (en) * 2017-10-30 2020-12-08 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
US11580129B2 (en) * 2018-04-20 2023-02-14 Microsoft Technology Licensing, Llc Quality-aware data interfaces
US11295083B1 (en) * 2018-09-26 2022-04-05 Amazon Technologies, Inc. Neural models for named-entity recognition
CN109861904B (zh) * 2019-02-19 2021-01-05 天津字节跳动科技有限公司 姓名标签显示方法和装置
US11170170B2 (en) * 2019-05-28 2021-11-09 Fresh Consulting, Inc System and method for phonetic hashing and named entity linking from output of speech recognition
US11341340B2 (en) * 2019-10-01 2022-05-24 Google Llc Neural machine translation adaptation
CN111079418B (zh) * 2019-11-06 2023-12-05 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
US11687732B2 (en) * 2020-04-06 2023-06-27 Open Text Holdings, Inc. Content management systems for providing automated translation of content items
CN111881669B (zh) * 2020-06-24 2023-06-09 百度在线网络技术(北京)有限公司 同义文本获取方法、装置、电子设备及存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
US20230161962A1 (en) * 2021-11-23 2023-05-25 Microsoft Technology Licensing, Llc System for automatically augmenting a message based on context extracted from the message

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352774A (zh) * 1999-04-08 2002-06-05 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
US20090319257A1 (en) * 2008-02-23 2009-12-24 Matthias Blume Translation of entity names
US20130173247A1 (en) * 2011-12-28 2013-07-04 Bloomberg Finance L.P. System and Method for Interactive Auromatic Translation
CN103558908A (zh) * 2012-04-30 2014-02-05 谷歌公司 帮助用户以多种不同语言将实体的名称文本输入到用户设备的技术
US20140163951A1 (en) * 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition

Family Cites Families (299)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
JPS5748159A (en) 1980-09-03 1982-03-19 Sharp Corp Electronic interpreter
JPS57201958A (en) 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
US5289375A (en) 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
JP2836159B2 (ja) 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
FR2681750A1 (fr) 1991-09-20 1993-03-26 Thomson Csf Procede de compression d'images.
US6278967B1 (en) 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US5603031A (en) * 1993-07-08 1997-02-11 General Magic, Inc. System and method for distributed computation based upon the movement, execution, and interaction of processes in a network
US6304841B1 (en) 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US6292769B1 (en) 1995-02-14 2001-09-18 America Online, Inc. System for automated translation of speech
JP3161942B2 (ja) 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
US6425119B1 (en) 1996-10-09 2002-07-23 At&T Corp Method to produce application oriented languages
US6182029B1 (en) 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
GB9625284D0 (en) 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
US5884246A (en) 1996-12-04 1999-03-16 Transgate Intellectual Properties Ltd. System and method for transparent translation of electronically transmitted messages
US6292770B1 (en) 1997-01-22 2001-09-18 International Business Machines Corporation Japanese language user interface for messaging system
US5991710A (en) 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
US6415250B1 (en) 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6157905A (en) 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
TW463503B (en) 1998-08-26 2001-11-11 United Video Properties Inc Television chat system
US6285978B1 (en) 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6269189B1 (en) 1998-12-29 2001-07-31 Xerox Corporation Finding selected character strings in text and providing information relating to the selected character strings
US6770572B1 (en) 1999-01-26 2004-08-03 Alliedsignal Inc. Use of multifunctional si-based oligomer/polymer for the surface modification of nanoporous silica films
JP4718687B2 (ja) 1999-03-19 2011-07-06 トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング ワークフロー管理システム
US7475343B1 (en) 1999-05-11 2009-01-06 Mielenhausen Thomas C Data processing apparatus and method for converting words to abbreviations, converting abbreviations to words, and selecting abbreviations for insertion into text
WO2000074240A1 (en) 1999-05-27 2000-12-07 America Online Keyboard system with automatic correction
US9053500B2 (en) 1999-06-30 2015-06-09 Blackboard Inc. Internet-based education support system and method with multi-language capability
US6278969B1 (en) 1999-08-18 2001-08-21 International Business Machines Corp. Method and system for improving machine translation accuracy using translation memory
US6722989B1 (en) 1999-10-07 2004-04-20 Sony Computer Entertainment Inc. Virtual pet game in which the virtual pet can converse with the player and learn new words and phrases from these conversations
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
JP2003529845A (ja) 2000-03-31 2003-10-07 アミカイ・インコーポレイテッド ネットワーク経由の多言語翻訳を提供する方法と装置
US20020046018A1 (en) 2000-05-11 2002-04-18 Daniel Marcu Discourse parsing and summarization
US8489669B2 (en) 2000-06-07 2013-07-16 Apple Inc. Mobile data processing system moving interest radius
US7865358B2 (en) 2000-06-26 2011-01-04 Oracle International Corporation Multi-user functionality for converting data from a first form to a second form
JP3982736B2 (ja) 2000-06-30 2007-09-26 沖電気工業株式会社 翻訳システム
JP4011268B2 (ja) 2000-07-05 2007-11-21 株式会社アイアイエス 多言語翻訳システム
US7278100B1 (en) 2000-07-10 2007-10-02 International Business Machines Corporation Translating a non-unicode string stored in a constant into unicode, and storing the unicode into the constant
JP2002041432A (ja) 2000-07-25 2002-02-08 Oki Electric Ind Co Ltd チャットシステム,端末装置,サーバ装置及び媒体
US20020037767A1 (en) 2000-08-17 2002-03-28 Steven Ebin Gambling system and method through a computer network
US6704699B2 (en) 2000-09-05 2004-03-09 Einat H. Nir Language acquisition aide
JP2002082987A (ja) 2000-09-06 2002-03-22 Seiko Epson Corp 文書情報閲読支援装置、ディジタルコンテンツ作成システム、ディジタルコンテンツ配信システム及び記憶媒体
US20040205671A1 (en) 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
US6922809B2 (en) * 2001-01-25 2005-07-26 International Business Machines Corporation Method and apparatus providing capitalization recovery for text
US8874431B2 (en) 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US20020169592A1 (en) 2001-05-11 2002-11-14 Aityan Sergey Khachatur Open environment for real-time multilingual communication
US6993474B2 (en) 2001-05-17 2006-01-31 Curry David G Interactive conversational speech communicator method and system
US6711543B2 (en) 2001-05-30 2004-03-23 Cameronsound, Inc. Language independent and voice operated information management system
US20020198699A1 (en) 2001-06-21 2002-12-26 International Business Machines Corporation Apparatus, system and method for providing open source language translation
JP2003006255A (ja) * 2001-06-22 2003-01-10 Fujitsu Ltd Hdl自動修正装置およびhdl自動修正プログラム並びに同プログラムを記録したコンピュータ読取可能な記録媒体
JP2003022265A (ja) 2001-07-06 2003-01-24 Nec Corp 言語自動翻訳システム
JP2003054841A (ja) 2001-08-10 2003-02-26 Toray Ind Inc 未延伸糸の交絡繋ぎ方法
US6993473B2 (en) 2001-08-31 2006-01-31 Equality Translation Services Productivity tool for language translators
US20030046350A1 (en) 2001-09-04 2003-03-06 Systel, Inc. System for transcribing dictation
US20030101044A1 (en) 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
US20030125927A1 (en) 2001-12-28 2003-07-03 Microsoft Corporation Method and system for translating instant messages
AU2003218097A1 (en) * 2002-03-11 2003-09-29 University Of Southern California Named entity translation
JP3959453B2 (ja) 2002-03-14 2007-08-15 沖電気工業株式会社 翻訳仲介システム及び翻訳仲介サーバ
US8856236B2 (en) 2002-04-02 2014-10-07 Verizon Patent And Licensing Inc. Messaging response system
US20050165642A1 (en) 2002-05-07 2005-07-28 Gabriel-Antoine Brouze Method and system for processing classified advertisements
US20040044517A1 (en) 2002-08-30 2004-03-04 Robert Palmquist Translation system
US8972266B2 (en) 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
AU2003287664A1 (en) 2002-11-22 2004-06-18 Transclick, Inc. System and method for language translation via remote devices
US7209875B2 (en) 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
US7945674B2 (en) 2003-04-02 2011-05-17 Aol Inc. Degrees of separation for handling communications
US8027438B2 (en) 2003-02-10 2011-09-27 At&T Intellectual Property I, L.P. Electronic message translations accompanied by indications of translation
US8392173B2 (en) 2003-02-10 2013-03-05 At&T Intellectual Property I, L.P. Message translations
JP2004252881A (ja) 2003-02-21 2004-09-09 Mitsubishi Paper Mills Ltd テキストデータ修正方法
US20040210443A1 (en) 2003-04-17 2004-10-21 Roland Kuhn Interactive mechanism for retrieving information from audio and multimedia files containing speech
CA2426496A1 (en) 2003-04-24 2004-10-24 Ibm Canada Limited - Ibm Canada Limitee Processing fixed-format data in a unicode environment
JP3768205B2 (ja) 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
US20040267527A1 (en) 2003-06-25 2004-12-30 International Business Machines Corporation Voice-to-text reduction for real time IM/chat/SMS
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7539619B1 (en) 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
CN1894685A (zh) 2003-12-17 2007-01-10 思比驰盖尔公司 翻译工具
US7480696B2 (en) 2004-01-07 2009-01-20 International Business Machines Corporation Instant messaging priority filtering based on content and hierarchical schemes
JP3790825B2 (ja) 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
US7424421B2 (en) 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7478033B2 (en) 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
JP2005301817A (ja) 2004-04-14 2005-10-27 Ricoh Co Ltd 翻訳支援システム
US7783476B2 (en) 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
JP4384939B2 (ja) 2004-05-31 2009-12-16 株式会社インパルスジャパン 言語判別装置、翻訳装置、翻訳サーバ、言語判別方法並びに翻訳処理方法
US7389124B2 (en) 2004-06-02 2008-06-17 Research In Motion Limited Handheld electronic device with text disambiguation
US7669135B2 (en) 2004-07-15 2010-02-23 At&T Mobility Ii Llc Using emoticons, such as for wireless devices
FI20041159A0 (fi) 2004-09-07 2004-09-07 Nokia Corp Menetelmä viestien suodattamiseksi tietoverkossa
US7603353B2 (en) 2004-10-27 2009-10-13 Harris Corporation Method for re-ranking documents retrieved from a multi-lingual document database
US7711781B2 (en) 2004-11-09 2010-05-04 International Business Machines Corporation Technique for detecting and blocking unwanted instant messages
US7822768B2 (en) 2004-11-23 2010-10-26 International Business Machines Corporation System and method for automating data normalization using text analytics
US7827026B2 (en) 2004-12-21 2010-11-02 Xerox Corporation Bilingual authoring assistant for the “tip of the tongue” problem
US7451188B2 (en) 2005-01-07 2008-11-11 At&T Corp System and method for text translations and annotation in an instant messaging session
US8027832B2 (en) 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
US8087068B1 (en) 2005-03-08 2011-12-27 Google Inc. Verifying access to a network account over multiple user communication portals based on security criteria
JP2006277103A (ja) 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文書翻訳方法および文書翻訳装置
US20060242232A1 (en) 2005-03-31 2006-10-26 International Business Machines Corporation Automatically limiting requests for additional chat sessions received by a particula user
JP2006302091A (ja) 2005-04-22 2006-11-02 Konica Minolta Photo Imaging Inc 翻訳装置及びそのプログラム
US7548849B2 (en) 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8249854B2 (en) 2005-05-26 2012-08-21 Microsoft Corporation Integrated native language translation
JP2006350628A (ja) 2005-06-15 2006-12-28 Movida Holdings株式会社 コミュニケーションシステム及びコミュニケーション方法
US20070011132A1 (en) * 2005-06-17 2007-01-11 Microsoft Corporation Named entity translation
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US20060287848A1 (en) 2005-06-20 2006-12-21 Microsoft Corporation Language classification with random feature clustering
GB0514031D0 (en) 2005-07-08 2005-08-17 Nokia Corp Multi-user services in a communications system
US20070016399A1 (en) 2005-07-12 2007-01-18 International Business Machines Corporation Method and apparatus for detecting data anomalies in statistical natural language applications
CN100488139C (zh) 2005-08-10 2009-05-13 华为技术有限公司 建立聊天室数据传输通道实现聊天消息传送的方法
US20070077975A1 (en) 2005-08-15 2007-04-05 Roswitha Warda Software application for conducting online knowledge-based competitions
US7653531B2 (en) 2005-08-25 2010-01-26 Multiling Corporation Translation quality quantifying apparatus and method
US20090276500A1 (en) 2005-09-21 2009-11-05 Amit Vishram Karmarkar Microblog search engine system and method
CN100483399C (zh) 2005-10-09 2009-04-29 株式会社东芝 训练音译模型、切分统计模型的方法和装置
US20070088793A1 (en) 2005-10-17 2007-04-19 Landsman Richard A Filter for instant messaging
US20070124202A1 (en) 2005-11-30 2007-05-31 Chintano, Inc. Systems and methods for collecting data and measuring user behavior when viewing online content
US20070130258A1 (en) 2005-12-06 2007-06-07 John Almberg Web-based public messaging system
WO2007070558A2 (en) 2005-12-12 2007-06-21 Meadan, Inc. Language translation using a hybrid network of human and machine translators
US20070143410A1 (en) 2005-12-16 2007-06-21 International Business Machines Corporation System and method for defining and translating chat abbreviations
US20080270553A1 (en) 2006-01-11 2008-10-30 Lunjian Mu Method and System for Instant Notification of Communication Block Information
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US7949538B2 (en) 2006-03-14 2011-05-24 A-Life Medical, Inc. Automated interpretation of clinical encounters with cultural cues
US8170868B2 (en) 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
US9931571B2 (en) 2006-03-17 2018-04-03 Nintendo Co., Ltd. Systems, methods and techniques for safely and effectively coordinating video game play and other activities among multiple remote networked friends and rivals
CN100452069C (zh) 2006-03-17 2009-01-14 腾讯科技(深圳)有限公司 一种网络游戏中防止作弊的方法及系统
US8185376B2 (en) 2006-03-20 2012-05-22 Microsoft Corporation Identifying language origin of words
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8688451B2 (en) 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
US20080005319A1 (en) 2006-05-16 2008-01-03 Anderholm Eric J Monitoring computer use through a calendar interface
US8166418B2 (en) 2006-05-26 2012-04-24 Zi Corporation Of Canada, Inc. Device and method of conveying meaning
US20080005325A1 (en) 2006-06-28 2008-01-03 Microsoft Corporation User communication restrictions
US8886518B1 (en) * 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7899816B2 (en) 2006-08-24 2011-03-01 Brian Kolo System and method for the triage and classification of documents
US8626486B2 (en) 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US8010474B1 (en) 2006-09-05 2011-08-30 Aol Inc. Translating paralinguisitic indicators
US8423908B2 (en) 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US7885807B2 (en) 2006-10-18 2011-02-08 Hierodiction Software Gmbh Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient Egyptian
JP4259564B2 (ja) 2006-10-24 2009-04-30 セイコーエプソン株式会社 サーバ装置、サーバ装置における方法、および、コンピュータプログラム
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8204739B2 (en) 2008-04-15 2012-06-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US7895576B2 (en) 2006-11-10 2011-02-22 International Business Machines Corporation Method for automating internationalization software testing
US9462070B2 (en) 2006-11-17 2016-10-04 Synchronica Plc Protecting privacy in group communications
US8010338B2 (en) 2006-11-27 2011-08-30 Sony Ericsson Mobile Communications Ab Dynamic modification of a messaging language
US7552045B2 (en) 2006-12-18 2009-06-23 Nokia Corporation Method, apparatus and computer program product for providing flexible text based language identification
US8204182B2 (en) 2006-12-19 2012-06-19 Nuance Communications, Inc. Dialect translator for a speech application environment extended for interactive text exchanges
US20080177528A1 (en) 2007-01-18 2008-07-24 William Drewes Method of enabling any-directional translation of selected languages
US20080176655A1 (en) 2007-01-19 2008-07-24 James Terry L System and Method for Implementing an Interactive Online Community Utilizing an Activity Monitor
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8140322B2 (en) 2007-01-31 2012-03-20 Translations.Com Method of managing error risk in language translation
US8078978B2 (en) 2007-10-19 2011-12-13 Google Inc. Method and system for predicting text
US7912847B2 (en) 2007-02-20 2011-03-22 Wright State University Comparative web search system and method
TWI502380B (zh) 2007-03-29 2015-10-01 Nokia Corp 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8601386B2 (en) 2007-04-20 2013-12-03 Ingenio Llc Methods and systems to facilitate real time communications in virtual reality
US20080274694A1 (en) 2007-05-01 2008-11-06 William David Castell System and Method for Multi-Channel Blocking
US9141607B1 (en) 2007-05-30 2015-09-22 Google Inc. Determining optical character recognition parameters
KR20100029221A (ko) 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
US20080320086A1 (en) 2007-06-20 2008-12-25 Sean Callanan System and method for updating instant message transcripts
US20090234635A1 (en) 2007-06-29 2009-09-17 Vipul Bhatt Voice Entry Controller operative with one or more Translation Resources
JP5017013B2 (ja) 2007-08-08 2012-09-05 株式会社コナミデジタルエンタテインメント ネットワークゲームシステム、ネットワークゲームシステムの制御方法及びプログラム
US20110219084A1 (en) 2007-08-17 2011-09-08 MTV Networks, a division of Viacom International, Inc. Parental control for multiple virtual environments of a user
US20090049513A1 (en) 2007-08-17 2009-02-19 Root Jason E System and method for controlling a virtual environment of a user
US20090068984A1 (en) 2007-09-06 2009-03-12 Burnett R Alan Method, apparatus, and system for controlling mobile device use
US7890525B2 (en) 2007-11-14 2011-02-15 International Business Machines Corporation Foreign language abbreviation translation in an instant messaging system
JP5205658B2 (ja) 2007-11-14 2013-06-05 シャープ株式会社 電子機器、制御プログラム、記録媒体および制御方法
JP5340584B2 (ja) 2007-11-28 2013-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 電子メッセージの読解を支援する装置及び方法
JP2009140073A (ja) 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 用語難易度変換装置および用語難易度変換プログラム
US8935147B2 (en) 2007-12-31 2015-01-13 Sap Se Runtime data language selection in object instance
US20090204407A1 (en) 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
US8000956B2 (en) * 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
US20090221338A1 (en) 2008-02-29 2009-09-03 Benjamin Stewart Physical exercise video game method and apparatus
WO2009134903A1 (en) 2008-04-29 2009-11-05 City 17, Llc Method, system, and storage device for user matching and communication facilitation
US8270606B2 (en) 2008-05-01 2012-09-18 International Business Machines Corporation Open architecture based domain dependent real time multi-lingual communication service
US7912852B1 (en) 2008-05-02 2011-03-22 Amazon Technologies, Inc. Search-caching and threshold alerting for commerce sites
US8107671B2 (en) 2008-06-26 2012-01-31 Microsoft Corporation Script detection service
US20100036661A1 (en) 2008-07-15 2010-02-11 Nu Echo Inc. Methods and Systems for Providing Grammar Services
US20100015581A1 (en) 2008-07-16 2010-01-21 Delaurentis Semina Language arts game
KR20100037813A (ko) 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
US8731588B2 (en) 2008-10-16 2014-05-20 At&T Intellectual Property I, L.P. Alert feature for text messages
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
US8548797B2 (en) 2008-10-30 2013-10-01 Yahoo! Inc. Short text language detection using geographic information
US8489388B2 (en) * 2008-11-10 2013-07-16 Apple Inc. Data detection
JP2010129057A (ja) 2008-12-01 2010-06-10 Ricoh Co Ltd 情報処理装置、表示データ翻訳方法、及びプログラム
US8494835B2 (en) 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
US8364766B2 (en) 2008-12-04 2013-01-29 Yahoo! Inc. Spam filtering based on statistics and token frequency modeling
JP2010152785A (ja) 2008-12-26 2010-07-08 Dainippon Printing Co Ltd 専門用語の置換編集方法、システム、プログラム、記録媒体
US8244567B2 (en) 2008-12-31 2012-08-14 Synnex Corporation Business goal incentives using gaming rewards
US8442813B1 (en) 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8326601B2 (en) 2009-02-11 2012-12-04 Microsoft Corporation Queue based mechanism to support multi-language chat rooms
US8095893B2 (en) 2009-03-16 2012-01-10 Xennsoft Llc Providing an interactive and customizable organization tree having communication options
KR20100113749A (ko) 2009-04-14 2010-10-22 한국전자통신연구원 클라이언트 단말기, 게임 서비스 장치 및 게임 서비스 시스템 및 그 방법
US8473555B2 (en) 2009-05-12 2013-06-25 International Business Machines Corporation Multilingual support for an improved messaging system
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US8326602B2 (en) 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US20170300453A1 (en) 2009-06-12 2017-10-19 Google Inc. System and method of providing notification of suspicious access attempts
US9547642B2 (en) 2009-06-17 2017-01-17 Empire Technology Development Llc Voice to text to voice processing
US8352244B2 (en) 2009-07-21 2013-01-08 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US20110040824A1 (en) 2009-08-13 2011-02-17 Google Inc. Shared Server-Side Macros
US8473501B2 (en) * 2009-08-25 2013-06-25 Ontochem Gmbh Methods, computer systems, software and storage media for handling many data elements for search and annotation
KR101263332B1 (ko) 2009-09-11 2013-05-20 한국전자통신연구원 모바일 기기에서 사용자 상호작용을 이용한 자동 번역 장치 및 그 방법
US20110071817A1 (en) 2009-09-24 2011-03-24 Vesa Siivola System and Method for Language Identification
US8832204B1 (en) 2009-09-24 2014-09-09 Sprint Communication Company L.P. Text message spam solutions
US8364463B2 (en) 2009-09-25 2013-01-29 International Business Machines Corporation Optimizing a language/media translation map
US8655644B2 (en) 2009-09-30 2014-02-18 International Business Machines Corporation Language translation in an environment associated with a virtual application
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
WO2011041672A1 (en) 2009-10-02 2011-04-07 Massachusetts Institute Of Technology Translating text to, merging, and optimizing graphical user interface tasks
US9292493B2 (en) 2010-01-07 2016-03-22 The Trustees Of The Stevens Institute Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
US20110184736A1 (en) 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8566078B2 (en) 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
CN102725790B (zh) 2010-02-05 2014-04-16 三菱电机株式会社 识别词典制作装置及声音识别装置
US8949128B2 (en) 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
JP5014449B2 (ja) 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US20110238406A1 (en) 2010-03-23 2011-09-29 Telenav, Inc. Messaging system with translation and method of operation thereof
US8606297B1 (en) 2010-03-24 2013-12-10 Grindr LLC Systems and methods for providing location-based cascading displays
JP4940325B2 (ja) 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US8311800B1 (en) 2010-04-01 2012-11-13 Symantec Corporation Systems and methods for detecting incorrect translations of terms in a computing string
WO2011131785A1 (en) 2010-04-21 2011-10-27 Université Catholique de Louvain Normalisation of noisy typewritten texts
US9600823B2 (en) 2010-04-22 2017-03-21 Ebay Inc. Data mining system
US8527521B2 (en) 2010-06-09 2013-09-03 One Hour Translation, Inc. System and method for evaluating the quality of human translation through the use of a group of human reviewers
US9082140B2 (en) 2010-06-09 2015-07-14 Ebay Inc. Systems and methods to extract and utilize textual semantics
US20110313779A1 (en) 2010-06-17 2011-12-22 Microsoft Corporation Augmentation and correction of location based data through user feedback
US8543374B2 (en) 2010-08-12 2013-09-24 Xerox Corporation Translation system combining hierarchical and phrase-based models
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8965751B2 (en) 2010-11-01 2015-02-24 Microsoft Corporation Providing multi-lingual translation for third party content feed applications
US20120173502A1 (en) 2010-11-09 2012-07-05 Harsha Prem Kumar System and method for displaying, enabling exploration and discovery, recommending, and playing back media files based on user preferences
JP5672487B2 (ja) 2010-11-11 2015-02-18 株式会社国際電気通信基礎技術研究所 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム
US8682918B2 (en) 2010-11-22 2014-03-25 Salesforce.Com, Inc. Method and system for making content-based recommendations
US20120156668A1 (en) 2010-12-20 2012-06-21 Mr. Michael Gregory Zelin Educational gaming system
US8738355B2 (en) 2011-01-06 2014-05-27 Qualcomm Incorporated Methods and apparatuses for providing predictive translation information services to mobile stations
US8112497B1 (en) 2011-01-11 2012-02-07 Social IT Pty Ltd Online educational software
US8990065B2 (en) 2011-01-11 2015-03-24 Microsoft Technology Licensing, Llc Automatic story summarization from clustered messages
US9552353B2 (en) 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
US9558267B2 (en) 2011-02-11 2017-01-31 International Business Machines Corporation Real-time data mining
US8671019B1 (en) 2011-03-03 2014-03-11 Wms Gaming, Inc. Controlling and rewarding gaming socialization
US20120240039A1 (en) 2011-03-15 2012-09-20 Walker Digital, Llc Systems and methods for facilitating translation of documents
US8938670B2 (en) 2011-03-27 2015-01-20 Brian Andrew Kolo Methods and systems for automated language identification
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US8849628B2 (en) 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US20120277003A1 (en) 2011-04-28 2012-11-01 Nichola Eliovits Platform-independent international gaming framework
US20120290288A1 (en) * 2011-05-09 2012-11-15 Xerox Corporation Parsing of text using linguistic and non-linguistic list properties
US8538742B2 (en) 2011-05-20 2013-09-17 Google Inc. Feed translation for a social network
US8762128B1 (en) 2011-05-20 2014-06-24 Google Inc. Back-translation filtering
US20120303355A1 (en) 2011-05-27 2012-11-29 Robert Bosch Gmbh Method and System for Text Message Normalization Based on Character Transformation and Web Data
US8825467B1 (en) 2011-06-28 2014-09-02 Google Inc. Translation game
US8788259B1 (en) 2011-06-30 2014-07-22 Google Inc. Rules-based language detection
US20150161114A1 (en) 2011-06-30 2015-06-11 Google Inc. Rules-based language detection
US9298698B2 (en) 2011-06-30 2016-03-29 Google Inc. Language detection based upon a social graph
US8838437B1 (en) 2011-06-30 2014-09-16 Google Inc. Language classifiers for language detection
US8928591B2 (en) 2011-06-30 2015-01-06 Google Inc. Techniques for providing a user interface having bi-directional writing tools
US9104744B2 (en) 2011-06-30 2015-08-11 Google Inc. Cluster-based language detection
US8713037B2 (en) 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8825469B1 (en) 2011-08-04 2014-09-02 Google Inc. Techniques for translating documents including tags
US8510328B1 (en) 2011-08-13 2013-08-13 Charles Malcolm Hatton Implementing symbolic word and synonym English language sentence processing on computers to improve user automation
US9646001B2 (en) * 2011-09-19 2017-05-09 Nuance Communications, Inc. Machine translation (MT) based spoken dialog systems customer/machine dialog
US9785628B2 (en) 2011-09-29 2017-10-10 Microsoft Technology Licensing, Llc System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication
US20130084976A1 (en) 2011-10-01 2013-04-04 Microsoft Corporation Game paradigm for language learning and linguistic data generation
US8924853B2 (en) 2011-10-07 2014-12-30 Blackberry Limited Apparatus, and associated method, for cognitively translating media to facilitate understanding
US8954315B2 (en) 2011-10-10 2015-02-10 Ca, Inc. System and method for mixed-language support for applications
US9501759B2 (en) 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
US8494838B2 (en) 2011-11-10 2013-07-23 Globili Llc Systems, methods and apparatus for dynamic content management and delivery
US8983825B2 (en) 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
US9656169B2 (en) 2011-11-17 2017-05-23 Disney Enterprises, Inc. Characterization of player type by visual attributes
US8862462B2 (en) 2011-12-09 2014-10-14 Chrysler Group Llc Dynamic method for emoticon translation
US8990066B2 (en) 2012-01-31 2015-03-24 Microsoft Corporation Resolving out-of-vocabulary words during machine translation
US9330082B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
US9465797B2 (en) 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
US8744771B2 (en) 2012-03-26 2014-06-03 Navteq B.V. Reverse natural guidance
US9141606B2 (en) 2012-03-29 2015-09-22 Lionbridge Technologies, Inc. Methods and systems for multi-engine machine translation
US8903726B2 (en) 2012-05-03 2014-12-02 International Business Machines Corporation Voice entry of sensitive information
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20130339859A1 (en) 2012-06-15 2013-12-19 Muzik LLC Interactive networked headphones
US8918308B2 (en) 2012-07-06 2014-12-23 International Business Machines Corporation Providing multi-lingual searching of mono-lingual content
US20140142917A1 (en) 2012-11-19 2014-05-22 Lindsay D'Penha Routing of machine language translation to human language translator
US8914395B2 (en) 2013-01-03 2014-12-16 Uptodate, Inc. Database query translation system
US8682529B1 (en) * 2013-01-07 2014-03-25 Ford Global Technologies, Llc Methods and apparatus for dynamic embedded object handling
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9241245B2 (en) 2013-01-15 2016-01-19 Apple Inc. Management of unwanted calls and/or text messages
US8996353B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8990068B2 (en) 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996355B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
GB2513644A (en) 2013-05-02 2014-11-05 Rolonews Lp Content distribution
CN104239286A (zh) 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
US20150006148A1 (en) 2013-06-27 2015-01-01 Microsoft Corporation Automatically Creating Training Data For Language Identifiers
US20150088511A1 (en) * 2013-09-24 2015-03-26 Verizon Patent And Licensing Inc. Named-entity based speech recognition
US9471561B2 (en) 2013-12-26 2016-10-18 International Business Machines Corporation Adaptive parser-centric text normalization
RU2665239C2 (ru) * 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
US9444773B2 (en) 2014-07-31 2016-09-13 Mimecast North America, Inc. Automatic translator identification
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10388270B2 (en) 2014-11-05 2019-08-20 At&T Intellectual Property I, L.P. System and method for text normalization using atomic tokens
US10936584B2 (en) * 2014-12-19 2021-03-02 Samsung Electronics Co., Ltd. Searching and accessing application-independent functionality
US10229674B2 (en) * 2015-05-15 2019-03-12 Microsoft Technology Licensing, Llc Cross-language speech recognition and translation
US9836453B2 (en) * 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
US9984064B2 (en) * 2015-11-11 2018-05-29 International Business Machines Corporation Reduction of memory usage in feature generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352774A (zh) * 1999-04-08 2002-06-05 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
US20090319257A1 (en) * 2008-02-23 2009-12-24 Matthias Blume Translation of entity names
US20130173247A1 (en) * 2011-12-28 2013-07-04 Bloomberg Finance L.P. System and Method for Interactive Auromatic Translation
CN103558908A (zh) * 2012-04-30 2014-02-05 谷歌公司 帮助用户以多种不同语言将实体的名称文本输入到用户设备的技术
US20140163951A1 (en) * 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MASSIMILIANO CIARAMITA等: ""Named-Entity Recognition in Novel Domains with External Lexical Knowledge"", 《PROCEEDINGS OF THE NIPS WORKSHOP ON ADVANCES IN STRUCTURED LEARNING FOR TEXT AND SPEECH PROCESSING》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059189A (zh) * 2019-04-11 2019-07-26 厦门点触科技股份有限公司 一种游戏平台消息的分类系统及方法
CN111091002A (zh) * 2019-11-26 2020-05-01 华东师范大学 一种中文命名实体的识别方法
CN111091002B (zh) * 2019-11-26 2023-06-09 华东师范大学 一种中文命名实体的识别方法
CN111144111A (zh) * 2019-12-30 2020-05-12 北京世纪好未来教育科技有限公司 翻译方法、装置、设备及存储介质
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111222339B (zh) * 2020-01-13 2023-05-23 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法

Also Published As

Publication number Publication date
US10765956B2 (en) 2020-09-08
US20170197152A1 (en) 2017-07-13
JP2019505913A (ja) 2019-02-28
WO2017120172A1 (en) 2017-07-13
CA3010157A1 (en) 2017-07-13
AU2017205328A1 (en) 2018-07-12
EP3400536A1 (en) 2018-11-14

Similar Documents

Publication Publication Date Title
CN108463815A (zh) 聊天数据的命名实体识别
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US20170213138A1 (en) Determining user sentiment in chat data
US11227342B2 (en) Recommending friends in automated chatting
CN105408891B (zh) 用于多用户多语言通信的系统和方法
CN103493045B (zh) 对在线问题的自动回答
CN109313650B (zh) 在自动聊天中生成响应
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
JP5379138B2 (ja) 領域辞書の作成
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
US20210365837A1 (en) Systems and methods for social structure construction of forums using interaction coherence
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN106462564A (zh) 在文档内提供实际建议
US12086715B2 (en) Generating neural network outputs using insertion commands
CN108491380B (zh) 用于口语理解的对抗多任务训练方法
CN107111607A (zh) 用于语言检测的系统和方法
EP2915067A1 (en) Text analysis
Goldwasser et al. A theory of unsupervised translation motivated by understanding animal communication
Büyük et al. Learning from mistakes: Improving spelling correction performance with automatic generation of realistic misspellings
CN113656566B (zh) 智能对话处理方法、装置、计算机设备及存储介质
CN113177399B (zh) 文本处理方法、装置、电子设备及存储介质
Michel Learning neural models for natural language processing in the face of distributional shift
CN114282540B (zh) 构建语言模型及语音识别的方法、装置、设备及存储介质
CN110929530B (zh) 一种多语言垃圾文本的识别方法、装置和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180828

WD01 Invention patent application deemed withdrawn after publication