CN114462415A - 上下文感知机器语言识别 - Google Patents

上下文感知机器语言识别 Download PDF

Info

Publication number
CN114462415A
CN114462415A CN202111302817.0A CN202111302817A CN114462415A CN 114462415 A CN114462415 A CN 114462415A CN 202111302817 A CN202111302817 A CN 202111302817A CN 114462415 A CN114462415 A CN 114462415A
Authority
CN
China
Prior art keywords
lemmas
density
context
pos
sememes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111302817.0A
Other languages
English (en)
Other versions
CN114462415B (zh
Inventor
王帆
曹立
王锐
高磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114462415A publication Critical patent/CN114462415A/zh
Application granted granted Critical
Publication of CN114462415B publication Critical patent/CN114462415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本公开涉及上下文感知机器语言识别。一种机器翻译系统、ChatOps系统、用于上下文感知语言机器识别的方法和计算机程序产品。机器翻译系统的一个实施例可包括密度计算器。密度计算器可以适于计算输入文本中的多个词元的词性(POS)密度,计算所述多个词元的知识密度,以及使用POS密度和知识密度来计算所述多个词元的信息密度。在一些实施例中,机器翻译系统还可以包括义素附加器和上下文翻译器。

Description

上下文感知机器语言识别
技术领域
本公开涉及自然语言处理,更具体地,涉及用于会话系统的自然语言处理。
背景技术
1948年的EDVAC系统的开发经常被引用为计算机时代的开始。自那时起,计算机系统已经发展成极其复杂的设备。今天的计算机系统通常包括复杂的硬件和软件组件、应用程序、操作系统、处理器、总线、存储器、输入/输出设备等的组合。由于半导体工艺和计算机架构的进步将性能推向越来越高,甚至更先进的计算机软件已经发展成利用这些能力的更高性能,从而导致今天的计算机系统比仅仅几年前强大得多。
自然语言处理是这些改进的能力的一种众所周知的应用。今天,许多用户遇到向本地和互联网内容提供自然语言接口的应用,诸如虚拟代理和聊天机器人。这些应用可采用对话提示来与最终用户交互以实现面向目标的任务,诸如在线交易。
虽然这样的应用提供巨大的潜在价值,但是由于应用的自然语言理解的缺陷以及难以针对每个潜在用户期望生成接口,它们受限于它们提供的信息和帮助的类型。因此,这些系统通常将对话提示限制为对用户请求的直接和静态响应,并且通常无法提供关于为什么产生系统响应的适当上下文或解释。此外,除非系统设计者预期,否则聊天机器人将常常缺乏致力于终端用户反馈内的特定项目的能力。
Wang等人(2017)描述了一种用于利用神经机器翻译的跨句子上下文的方法。它提出了跨句子、上下文感知的方法并且调查了历史上下文信息对神经机器翻译(NMT)的性能的影响。首先,以分层方式总结该历史。然后,它将历史表示以两种策略整合到NMT中:1)编码器和解码器状态的热启动,以及2)用于更新解码器状态的辅助上下文源。
发明内容
根据本公开的实施例,一种机器翻译系统包括密度计算器。密度计算器可以适于计算输入文本中的多个词元(word token)的词性(POS)密度,计算所述多个词元的知识密度,以及使用POS密度和知识密度计算所述多个词元的信息密度。在一些实施例中,密度计算器可以进一步适于将输入文本词元化成多个词元,通过POS对知识密度进行分级,并且返回所述多个词元的词信息密度。在一些实施例中,系统还可以包括义素(sememe)附加器,其适于使用其相应的POS密度和知识密度来为所述多个词元中的一个或多个词元生成一个或多个相应的义素,并且将该一个或多个相应的义素附加到所述一个或多个词元。在一些实施例中,机器翻译系统可以进一步包括上下文翻译器,其适于通过停止词将输入文本划分成多个更小的块,所述多个更小的块包括具有附加至其的一个或多个对应义素的一个或多个词元,使用所述一个或多个对应的义素来为所述更小的块中的一个或多个更小的块生成语义上下文,以及使用所述语义上下文来翻译所述输入文本。
根据本公开的实施例,一种ChatOps系统包括多个客户端设备和可操作地连接到所述多个客户端设备的机器翻译系统。在一些实施例中,机器翻译系统可包括密度计算器、义素附加器和上下文翻译器。密度计算器可以适于将输入文本词元化成多个词元,计算输入文本中的多个词元的词性(POS)密度,计算所述多个词元的知识密度,其中所述知识密度由POS分级,使用所述POS密度和所述知识密度来计算所述多个词元的信息密度,以及返回所述多个词元的词信息密度。该义素附加器可适于对输入文本进行词形还原(lemmatize),使用其相应的POS密度和知识密度为所述多个词元中的一个或多个词元生成POS下的一个或多个对应的义素,将所述一个或多个对应的义素附加到所述一个或多个词元,并且返回所述多个词元的义素的列表。上下文翻译器可适于通过停止词将输入文本划分成多个更小的块,所述多个更小的块包括具有附加至其的一个或多个对应义素的一个或多个词元,使用对应的义素来聚类所述一个或多个词元,确定所聚类的词元的涵义,将所述涵义与对应的义素合并以生成所述块中的一个的语义上下文,使用所述语义上下文来将所述多个更小的块翻译成目标语言,以及返回所述输入文本的翻译。
根据本公开的实施例,一种用于上下文感知语言机器识别的方法。一个实施例可以包括使得密度计算器能够通过词性(POS)密度和知识密度来确定词的信息密度,使义素附加器能够使用词的POS密度和知识密度来选择相应的义素列表并将其附加到所述词,以及使得上下文翻译器能够通过停止词将输入文本划分成更小的块,以及使用与对应的义素相关联的语义上下文来翻译更小的块。
根据本公开的实施例,一种用于机器翻译系统的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其实施的程序指令。程序指令可由处理器执行以致使处理器计算输入文本中的多个词元的词性POS密度,计算所述多个词元的知识密度,以及使用所述POS密度和所述知识密度来计算所述多个词元的信息密度。
以上概述并不旨在描述本公开的每个例示的实施例或每个实现方式。
附图说明
包括在本申请中的附图被结合到说明书中并且形成说明书的一部分。它们例示了本公开的实施例,并且与说明书一起用于解释本公开的原理。这些附图仅说明某些实施例并且不限制本公开。
图1例示了根据一些实施例的数据处理系统(DPS)的实施例。
图2描绘了根据一些实施例的云计算环境。
图3描绘了根据一些实施例的抽象模型层。
图4是根据一些实施例的语言识别服务的高级系统图。
图5是示出根据一些实施例的密度计算器确定加权信息密度的操作的流程图。
图6是示出了根据一些实施例的义素附加器通过词性(POS)和知识密度为词元建立义素列表的操作的流程图。
图7是示出了根据一些实施例的上下文翻译器在生成和更新语义上下文时翻译输入文本的操作的流程图。
虽然本发明可以进行各种修改和替代形式,但是其细节已经通过举例在附图中示出并且将进行详细描述。然而,应当理解,本发明并非旨在将本发明限制于所描述的具体实施例。相反,本发明将覆盖落入本发明的精神和范围内的所有修改、等同物和替代。
具体实施方式
本公开的各方面涉及自然语言处理;更具体的方面涉及用于会话系统的自然语言处理。虽然本公开不一定限于这样的应用,但是可以通过使用该上下文的不同示例的讨论来领会本公开的各个方面。
精确机器翻译通常是指计算语言学领域,其调查软件的使用以将文本从一种自然语言翻译到另一种自然语言。存在两种主要类型的精确机器翻译。第一主要类型的机器翻译是基于规则的机器翻译,其使用语言和语法规则加上常用词的字典的组合来将语料库从一种语言翻译成另一种语言(语料库是多个版本的语料库,其是书面文本的集合,尤其是特定作者的全部作品或关于特定主题的写作正文)。基于规则的系统可被进一步分类为使用词嵌入来提供能够捕捉相似性的表示,以及使用注意机制来确定每个词的重要性以提取每个词周围的附加上下文。
另一主要类型的机器翻译是统计机器翻译;这种类型的机器翻译不知道语言规则。代替地,统计机器翻译通过分析源和目标语言(包括但不限于双语和单语文本)的大量数据来“学习”翻译。两种主要类型的精确机器翻译可以产生类似的结果;然而,统计机器翻译可以递送更流畅合理的翻译,但是代价是与翻译较不一致。
在本技术的核心,精密机器翻译将一种自然语言中的词和短语替换为另一种语言中的词和短语。然而,单单该核心通常不能产生文本的质量翻译,因为词或短语的上下文影响其应当如何被翻译。例如,考虑以下句子:
示例1A:
人:“翻译“Use a fluffy roller barely dipped in lighter paint todelicately roll over the dark wall.”
一个朴素系统会将改句子翻译成中文为:
示例1B:
计算机:“使用蓬松的滚筒,几乎不浸在较轻的油漆,细腻地滚动在黑暗的墙壁”
或翻译为:
示例1C:
计算机:“用一个毛茸茸的滚筒轻轻地蘸上浅色的油漆,在黑暗的墙壁上轻轻地滚动”
然而,这些翻译是质量差的,因为该陈述的上下文是关于使用滚筒来涂刷墙壁。在示例1B中,词语“轻”可以描述在颜色方面“更亮”或“更淡”以及在重量方面“较不重”。翻译较轻是针对重量。细腻将事物描述为“精细”、“平滑”或“人对于感知情感敏感。”这里,翻译应当使用需要敏感或仔细处理的含义。在示例1C中,毛茸茸大体相当于furry,这对于描述工具是不理想的。黑暗的墙壁的字面翻译是dark wall,但黑暗更被刻画为悲剧、不幸或不悦,并且没有颜色,因为不反射许多光或在色度上接近黑色,这使得深色成为更合适的选择。基于以上,使用上下文的更好的翻译可能是:
示例1D:
计算机:“使用蓬松柔软的滚筒轻蘸浅色油漆,在深色墙壁上仔细抹平”
“ChatOps”是精确机器翻译的一个说明性应用。ChatOps通常是指将人、工具、过程和自动化连接到透明工作流中的协作模型,诸如信息技术(IT)管理。该模型可以连接所需的工作、正在发生的工作、以及在配备了人、机器人和相关工具的持久位置完成的工作。ChatOps可以用于各种各样的领域,包括信息技术(IT)、产品开发、产品支持、政府、医疗保健、法律、以及金融。
团队成员可将命令和评论两者键入到ChatOps系统中的聊天室中,团队成员可使用其相应客户端设备(例如,个人计算机、智能电话、平板计算机等)访问ChatOps系统。ChatOps系统继而可以被配置为通过定制脚本和插件来识别和运行命令。例如,在IT领域中,命令的范围可以从代码部署到安全事件响应到团队成员通知。作为来自IT空间的说明性示例会话,系统的管理员可以键入:
示例2A:
人:“/h deploy paipu to staging”
并且计算机可回复:
示例2B:
计算机:“Deployed paipu-app-staging”
计算机:“heroku/paipu-repo–ref:master–SHA:576d16a9-duration:43s”
有利地,ChatOps可以允许整个团队在运行命令时协作。以此方式,ChatOps是向更协作的方式来执行操作的转移的一部分。具体地,ChatOps可以使用协作工具来创建环境,其中主题专家(SME)和其他利益相关者可以在其涉及正在进行的问题时在字面上是“在同一页面上”。因此,例如,代替使用传统的帮助票证(help ticket)工具,SME(包括安全、网络和基础设施专家)可使用持久的即时消息收发工具来彼此通信和与他们使用的工具通信以完成他们的工作。
许多ChatOp部署和潜在部署可受益于高机器翻译准确性,即,系统可区分用户请求与文本聊天并将它们转换成适当的可执行命令。虽然一些ChatOps部署可能能够利用词向量和别名来提供期望的准确性,但是其他部署可能需要处理大量的并行数据和/或匹配通常都是严格的并且包括具有类似含义的选项的规则。在后一类别中,一些ChatOp部署可以利用神经机器翻译来将其翻译策略调整到当前语义上下文。例如:
示例3:
人:I want to end jobs in the risk group 106.
计算机:bkill-g/risk_group 106(即,杀死risk_group 106中的作业)
人:But I mean to end for a while not to kill.
计算机:bstop-g/risk_group 106(即,暂停risk_group 106中的作业)
第一个提出的命令将是不正确的翻译,如由最终用户的意图判断的。然而,该示例中的计算机能够响应于来自用户的校正而产生适当的命令,以及经由上下文将来自该用户的多个语句结合在一起。
更一般地,随着近年来的快速发展,神经机器翻译(NMT)在许多情况下可以胜过传统模型,但是可能缺乏上下文感知方法来知道文本被放置在哪个场景下。如何以高精度识别上下文特定的文本意图是并且将是更急迫的,因为语言识别任务处理更复杂或精细的情况。
因而,本公开的各方面可包含一种语言识别方法以支持神经机器翻译,具有使用表示含义的单位的语义来检测和更新语义上下文的特征,而不是仅将全局上下文存储或标记为语料训练结果。以此方式,一些实施例可提供处理句子语义上下文的准确性的能力。
当发起翻译任务时,一些实施例首先通过输入文本的每个词的词性(POS)密度和知识密度来确定句子信息密度。一些实施例然后分析域特定的义素,添加其涵义作为新维度以增强词向量,并为具有较高密度的每个词元选择对应的义素。输入文本可以被停止词划分成块,并且附加的义素可以被翻译成语义上下文并且作为报头被添加到上下文向量以辅助神经机器翻译。
一些实施例可包括支持具有信息密度分析的神经机器翻译、具有词向量增强的义素选择、以及语义上下文翻译的方法。这些实施例中的一些可利用三个模块:密度计算器、义素附加器和上下文翻译器。相关联的方法也可以被分成三个阶段。在第一阶段中,一些实施例可以对文本进行词元化并且通过POS来定义词性(POS)密度,通过词元在知识领域中的重要性来定义每个词元的知识密度,并且将POS密度与知识密度合并为合并密度。在第二阶段中,可分析域特定的义素并将其作为新维度添加到词向量,同时通过POS和知识密度将义素附加到词元。在第三阶段中,一些实施例可以合并所关注的义素的涵义并且在停止词处更新语义上下文。
数据处理系统
图1例示了根据一些实施例的数据处理系统(DPS)100a的实施例。本实施例中的DPS 100a可以被实现为个人计算机;服务器计算机;便携式计算机,诸如膝上型或笔记本计算机、PDA(个人数字助理)、平板计算机或智能电话;嵌入到较大设备(例如汽车、飞机、电话会议系统、家用电器)中的处理器;智能装置;或任何其他适当类型的电子设备。此外,可以存在除了图1中所示的那些部件之外的部件,并且这样的部件的数量、类型和配置可以改变。此外,图1仅描绘了DPS 100a的代表性的主要部件,并且单独的部件可以具有比图1中所表示的更大的复杂性。
图1中的DPS 100a包括通过系统总线122连接到存储器112的多个中央处理单元110a-110d(这里统称为处理器110或CPU 110)、大容量存储接口114、终端/显示器接口116、网络接口118、以及输入/输出(“I/O”)接口120。在本实施例中,大容量存储接口114将系统总线122连接到一个或多个大容量存储设备,诸如直接存取存储设备140、通用串行总线(“USB”)存储设备141或可读/可写光盘驱动器142。网络接口118允许DPS 100a通过通信介质106与其他DPS 100b通信。存储器112还包含操作系统124、多个应用程序126和程序数据128。
图1中的DPS 100a实施例是通用计算设备。因此,处理器110可以是能够执行存储在存储器112中的程序指令的任何设备,并且其自身可以由一个或多个微处理器和/或集成电路构造。在该实施例中,DPS 100a包含多个处理器和/或处理核,如更大的、更具能力的计算机系统所特有的;然而,在其他实施例中,DPS 100a可以包括单个处理器系统和/或被设计为模拟多处理器系统的单个处理器。进一步,处理器110可以使用多个异构DPS 100a来实现,其中主处理器与辅助处理器一起存在于单个芯片上。作为另一说明性示例,处理器110可以是包含相同类型的多个处理器的对称多处理器系统。
当DPS 100a启动时,关联的处理器110最初执行构成操作系统124的程序指令,操作系统124管理DPS 100a的物理和逻辑资源。这些资源包括存储器112、大容量存储接口114、终端/显示器接口116、网络接口118和系统总线122。关于处理器110,一些DPS 100a实施例可以利用多个系统接口114、116、118、120和总线122,这进而可以各自包括它们自己的分离的完全编程的微处理器。
用于操作系统、应用和/或程序的指令(统称为“程序代码”、“计算机可用程序代码”或“计算机可读程序代码”)可以最初位于通过系统总线122与处理器110通信的大容量存储设备140、141、142中。不同实施例中的程序代码可以实施在不同物理或有形计算机可读介质上,诸如系统存储器112或大容量存储设备140、141、142。在图1的说明性示例中,指令以永久存储的函数形式存储在直接存取存储设备140上。这些指令随后被加载到存储器112中以供处理器110执行。然而,程序代码也可以以函数形式位于计算机可读介质上,该计算机可读介质是可选择性地移除的并且可以被加载到或者传送到DPS 100a用于由处理器110执行。
系统总线122可以是促进处理器110、存储器112以及接口114、116、118、120之间的通信的任何设备。此外,尽管本实施例中的系统总线122是在系统总线122之间提供直接通信路径的相对简单的单个总线结构,但其他总线结构与本公开一致,包括但不限于分级、星形或网状配置中的点到点链路、多个分级总线、并行和冗余路径等。
存储器112和大容量存储设备140、141、142协作地工作以存储操作系统124、应用程序126和程序数据128。在本实施例中,存储器112是能够存储数据和程序的随机存取半导体器件。尽管图1概念性地将该器件描绘为单个单片实体,但是在一些实施例中的存储器112可以是更复杂的布置,诸如高速缓存和其他存储器设备的层级。例如,存储器112可存在于多级高速缓存中,且这些高速缓存可进一步按功能划分,使得一个高速缓存保持指令,而另一高速缓存保持由处理器使用的非指令数据。存储器112可以进一步分布并且与不同的处理器110或多组处理器110相关联,如各种所谓的非一致存储器访问(NUMA)计算机架构中的任一种架构中已知的。此外,一些实施例可以利用虚拟寻址机制,其允许DPS 100a表现为好像它能够访问大的单个存储实体,而不是访问多个较小的存储实体,例如存储器112和大容量存储设备140、141、142。
尽管操作系统124、应用程序126和程序数据128被例示为包含在存储器112内,但是在一些实施例中,它们中的一些或全部可以在物理上位于不同的计算机系统上,并且可以例如经由通信介质106被远程访问。由此,虽然操作系统124、应用程序126和程序数据128被图示为包含在存储器112内,但是这些元件不必同时全部完全包含在相同的物理设备中,并且甚至可以驻留在其他DPS(例如DPS 100b)的虚拟存储器中。
系统接口114、116、118、120支持与各种存储和I/O设备的通信。大容量存储接口114支持一个或多个大容量存储设备140、141、142的附加,所述大容量存储设备140、141、142通常是旋转磁盘驱动器存储设备、使用集成电路组件作为存储器来持久存储数据(通常使用闪存)的固态存储设备(SSD)、或两者的组合。然而,大容量存储设备140、141、142还可以包括其他设备,包括被配置成对于主机看起来是单个大型存储设备的磁盘驱动器阵列(通常称为RAID阵列)和/或归档存储介质,诸如硬盘驱动器、磁带(例如,迷你DV)、可写致密盘(例如,CD-R和CD-RW)、数字通用盘(例如,DVD、DVD-R、DVD+R、DVD+RW、DVD-RAM)、全息存储系统、蓝色激光盘、IBM Millipede装置等。
终端/显示接口116用于将诸如监视器180的一个或者多个显示单元直接连接到DPS 100a。这些显示单元180可以是非智能(即,哑)终端,诸如LED监视器,或者本身可以是用于允许IT管理员和客户与DPS 100a通信的完全可编程工作站。然而,注意,虽然提供显示接口116来支持与一个或多个显示单元180的通信,但是DPS 100a不一定需要显示单元180,因为所有需要的与客户的交互和其他过程可以经由网络接口118发生。
通信介质106可以是任何适当的网络或网络的组合,并且可以支持适合于向/从多个DPS 100a、100b传送数据和/或代码的任何适当的协议。因此,网络接口118可以是促进这种通信的任何设备,而不管网络连接是使用当今的模拟和/或数字技术还是经由未来的某联网机制形成的。合适的通信介质106包括但不限于使用“InfiniBand”或IEEE(电气和电子工程师协会)802.3x“以太网”规范中的一个或多个实现的网络;蜂窝传输网络;使用IEEE802.11x、IEEE 802.16、通用分组无线电服务(“GPRS”)、FRS(家庭无线电服务)或蓝牙规范之一实现的无线网络;超宽带(“UWB”)技术,如在FCC 02-48中所描述的技术;等等。本领域技术人员将认识到许多不同的网络和传输协议可以用于实现通信介质106。传输控制协议/互联网协议(“TCP/IP”)套件包含合适的网络和传输协议。
云计算
图2示出了根据一些实施例的包含一个或多个DPS 100a、100b的云环境。应当理解,尽管本公开包括关于云计算的详细描述,但是本文所记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问,所述可配置计算资源可以用最小的管理努力或与服务提供者的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可按需自动地单方面供应计算能力,诸如服务器时间和网络存储,而无需与服务的提供者的人类交互。
广泛的网络接入:能力在网络上是可用的并且通过标准机制来访问,所述标准机制促进由异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池化:提供者的计算资源被池化以使用多租户模型服务于多个消费者,其中不同的物理和虚拟资源根据需要被动态地指派和重新指派。存在位置独立性的涵义,因为消费者通常对所提供资源的确切位置不具有控制或知识,但可能能够在较高抽象层级(例如,国家、州或数据中心)处指定位置。
快速弹性:可以快速且弹性地提供能力(在一些情况下,自动地)以快速缩小并且快速释放以快速放大。对于消费者,可用于供应的能力通常显得不受限制,并且可以在任何时间以任何数量购买。
测量的服务:云系统通过利用适于服务类型(例如,存储、处理、带宽和活动的客户账户)的某一抽象级别的计量能力来自动控制和优化资源使用。可监视、控制和报告资源使用,从而为所利用的服务的提供者和消费者两者提供透明度。
业务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至个体应用能力的底层云基础结构,可能的例外是有限的消费者特定的应用配置设置。
平台即服务(PaaS):向消费者提供的能力是在云基础结构上部署消费者创建或获取的应用,所述应用是使用提供者所支持的编程语言和工具来创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构,但是具有对所部署的应用以及可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供消费者能够部署和运行可包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础结构,而是具有对操作系统、存储、所部署的应用的控制,以及对所选联网组件(例如,主机防火墙)的可能有限的控制。
部署模型如下:
私有云:云基础结构仅为组织操作。它可由组织或第三方管理,并且可存在于场所内或场所外。
社区云:云基础结构由若干组织共享并且支持具有共享的关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可由组织或第三方管理,并且可存在于场所内或场所外。
公共云:使云基础结构对公众或大型产业组可用并且由销售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公共的)的组成,这些云保持唯一实体但通过标准化或专有技术来绑定在一起,这些技术实现数据和应用便携性(例如,用于云之间的负载平衡的云突发)。
云计算环境是面向服务的,关注于无状态、低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图2,描绘了说明性云计算环境50。如图所示,云计算环境50包括一个或多个云计算节点10,云消费者使用的本地计算设备(诸如个人数字助理(PDA)或移动电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可与云计算节点10通信。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础结构、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应理解,图2中所示的计算装置54A-N的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化装置通信。
现在参见图3,示出了由云计算环境50(图2)提供的一组功能抽象层。应预先理解,图3中所示的部件、层和功能旨在仅是说明性的,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可提供下文所描述的功能。资源供应81提供用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价82在云计算环境内利用资源时提供成本跟踪,并针对这些资源的消费进行计费或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及对数据和其他资源的保护。客户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)计划和履行85提供云计算资源的预安排和采购,根据SLA预期该云计算资源的未来要求。
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟教室教育交付93;数据分析处理94;交易处理95;以及语言识别服务96。
语言识别系统
图4是根据一些实施例的语言识别服务96的高级系统图400。图4中的语言识别服务96包括密度计算器410、义素附加器420和上下文翻译器430。在操作中,可通过终端用户和/或通过另一计算机过程(例如,ChatOps、翻译服务等)将第一语言的输入文本405输入到语言识别服务96中。密度计算器410可以逐词地评估输入文本,以生成POS密度得分和知识密度得分。POS密度和知识密度可被组合以形成加权密度得分。
然后,义素附加器可以找到具有高于阈值得分和/或高于输入文本的平均加权密度得分的POS密度和/或知识密度的词的一个或多个义素。这可以包括使用义素字典数据库450来查找所选择的词。上下文翻译器430然后可使用义素生成和/或更新用于输入文本的上下文。上下文翻译器430然后可以向使用生成/更新的上下文提交所述输入文本的用户或过程输出不同于第一语言的第二语言的输入文本的翻译版本435。
密度计算器
图5是示出根据一些实施例的密度计算器410确定加权信息密度的操作的流程图500。图5中的这个密度计算器410可以在操作505处通过将输入文本词元化(例如,将输入文本分解成单独的词和/或短语)而开始。密度计算器410然后可在操作512-516处通过词性(POS密度)计算每个词元的初始模糊性。这可包括在操作512处使用适当的POS标记算法(诸如基于规则的POS标记、基于变换的标记、和随机标记等)用POS标签来标识和标记每个词元。POS标签的合适系统继而显示在表1中。
表1:
CC 并列连词
CD 基数
DT 限定词
EX 存在
FW 外来词
IN 介词或从属连词
JJ 形容词
JJR 形容词,比较级
JJS 形容词,最高级
LS 列表项标记
MD 情态动词
NN 名词,单数或物质(mass)
NNS 名词,复数
NNP 专有名词,单数
NNPS 专有名词,复数
PDT 前置限定词
POS 所有格结尾
PRP 人称代词
PRP$ 物主代词
RB 副词
RBR 副词,比较级
RBS 副词,最高级
RP 小品词
SYM 符号
TO 至
UH 叹词
VB 动词,原式
VBD 动词,过去时
VBG 动词,动名词、或现在分词
VBN 动词,过去分词
VBP 动词,非第三人称单数
VBZ 动词,第三人称单数
WDT Wh限定词
WP Wh代词
WPS 物主wh代词
WRB Wh副词
在操作514,密度计算器410可随后根据POS密度乘数和POS标签来计算每个词元的POS密度。在表2中示出了一个说明性POS密度乘数。
表2:
3:对于含义表示的高重要性,
例如,POS标签NN、NNP、NNPS、NNS、VB、VBD、VBG、VBN、VBP、VBZ
2:对于含义表示的中等重要性,例如形容词、数字,
例如,POS标签JJ、JJR、JJS、RB、RBR、RBS
1:对于含义表示的低重要性,例如,介词,……
例如,POS标签CC、CD、DT、EX、IN……
0:标点符号
然后,在操作516,密度计算器419可以用初始POS密度来标记词元。
接下来,密度计算器410使用每个词元的知识密度因子来更新初始模糊性。在一个实施例中,在操作522-524处,知识密度因子可以与按照POS分级的每个词元的定义的数量有关(例如,与POS的平均值相比)。这可包括在操作522处导入域特定的词向量和别名的列表和/或定义知识密度框架。接下来,在操作524处,密度计算器410可以计算通过所识别的POS加权的每个词元的知识密度。在表3中示出了一个说明性知识密度乘数。
表3:
0.3:对于含义表示的高重要性,
例如,
“use”:6个定义/每个动词平均4个定义
“Roller”:定义/每个名词平均5个定义
0.2:对于含义表示的中等重要性
例如,
“Fluffy”:1个定义/每个形容词平均3个定义
0.1:对于含义表示的低重要性,
例如,
“a”:1个定义/每个限定词平均2个定义
0.0:标点符号
接下来,在操作530,密度计算器410可将所计算的POS密度与所计算的知识密度合并,以产生每个词元的加权含义密度。例如,使用以上示例1中的输入短语,密度计算器410可以创建以下加权密度阵列:
示例4:
1.a[词元] Use、a、fluffy、roller、barely、dipped、in、lighter、paint。
1.b[词性] VB、DT、JJ、NN、RB、VBD、IN、JJ、NN,
1.c[POS密度] 3、1、2、3、2、3、1、2、3、0
2[知识密度] 0.3、0.1、0.2、0.3、0.2、0.3、0.1、0.2、0.3、0.0
3[加权密度] 0.9、0.1、0.4、0.9、0.4、0.9、0.1、0.4、0.9、0.0
类似地,使用上述示例2中的输入短语,密度计算器410可以创建以下加权密度阵列:
示例5:
1.a[词元] I、want、to、end、jobs、in、the、risk、group、106。
1.b[词性] PRP、VBP、TO、VB、NNS、IN、DT、NN、NN、CD。
1.c[POS密度] 1、3、1、3、3、1、1、2、3、2、0
2[知识密度] 0.1、0.1、0.1、0.3、0.3、0.1、0.1、0.2、0.3、0.2、0.0
3[加权密度] 0.1、0.3、0.1、0.9、0.9、0.1、0.1、0.4、0.9、0.4、0.0
在操作540,密度计算器410可以返回输入文本中的每个词元的标记的POS、POS密度、知识密度和加权密度。
义素附加器
图6是示出了根据一些实施例的义素附加器420通过POS和知识密度为词元建立义素列表的操作的流程图600。这些实施例可能是合乎需要的,因为它们可包括更多信息密集词的上下文以改善准确性。在操作602中,一些实施例中的义素附加器420可首先对每个词元进行词形还原(例如,将词的屈折变化形式分组在一起,使得它们可被作为单个项进行分析)。然后,在操作604,义素附加器420可以识别用于每个词元或具有相对校高密度的词元的一个或多个义素。这可包括使用基于规则的系统等查询字典以寻找与特定词元相关联的义素。继续以上的说明性示例1和2,操作604可以针对以上示例1中的词元“paint”产生示例6中的义素列表:
示例6:
绘画(paint) 词性(POS):动词 ID:080257
涂抹(paint) 词性(POS):动词 ID:163262
油漆(paint) 词性(POS):名词 ID:194479
……
类似地,操作604可以针对以上示例2中的词元“end”产生示例7中的义素列表:
示例7:
结束(end) 词性(POS):动词 ID:090975
末(end) 词性(POS):名词 ID:118949
完毕(end) 词性(POS):动词 ID:165819
终结(end) 词性(POS):名词 ID:208560
终止(end) 词性(POS):动词 ID:208643
卒(end) 词性(POS):名词 ID:214868
卒(end) 词性(POS):动词 ID:214869
……
接下来,在操作612-616,义素附加器420可将域特定的义素与词向量集成。这可包括在操作612使用对义素列表(在操作604处识别)的聚类分析来识别相似词元。然后,在操作614,义素附加器420可使用相似词元聚类来生成对应于义素聚类的一个或多个涵义(例如,语义字段)。然后,在操作616,义素附加器420可以将所确定的涵义作为新的维度向量添加到词元。
接下来,在操作622-626,义素附加器420可通过POS和通过知识密度将义素和所识别的涵义附加到词元。这可包括在操作622处按词元的POS选择义素。然后,在624,义素附加器420可使用词元的知识密度来确定要附加的义素的长度。然后在操作626,义素附加器420可将义素列表和涵义附加到词元。
继续以上两个说明性示例,流程图600中的方法可以得到:
示例8:
[词元] use,a,fluffy,roller,barely,dipped,in,lighter,paint。
[词性] VB、DT、JJ、NN、RB、VBD、IN、JJ、NN、.
[密度] 0.9、0.1、0.4、0.9、0.4、0.9、0.1、0.4、0.9、0.0
[义素] [动作][/][*纹理][*工具] [方式] [动作] [/]
[视野][*材料]
take light grind only,just put,into
visible coating
hold air[机器]short,sink,liquid
bright surface
consume press,route simple
[颜色]spread
pale
示例9:
[词元] I、want、to、end、jobs、in、the、risk、group、106。
[词性] PRP、VBP、TO、VB、NNS、IN、DT、NN、NN、CD。
[密度] 0.1、0.3、0.1、0.9、0.9、0.1、0.1、0.4、0.9、0.4、0.0
[义素] [/][动作][/][动作][*作业][/][/][*名称][*组]
[编号]
request finish plural risk single 106
terminate
其中,*纹理、*工具、*材料、*作业、*名称、以及*组分别表示fluffy、roller、paint、jobs、risk、以及material的涵义。
上下文翻译器
图7是示出了根据一些实施例的上下文翻译器430在生成和更新语义上下文时翻译输入文本的操作的流程图700。在操作712-718处,上下文翻译器430可产生子上下文且在停止词处更新上下文。这可以包括在操作712将输入文本中的句子划分成更小的块。可以在原始文本中的停止词(例如,连词、介词)处划分这些块。接下来,在操作714,上下文翻译器430可使用标记的POS、加权密度和义素来为更小的块生成语义上下文。这可以进一步包括合并所识别的涵义作为块的附加向量。在操作716处,语义上下文可选地还可以作为上下文向量的头部被添加到所识别的块。
上下文翻译器430可随后在操作718处通过上下文相似性来识别匹配的上下文。这可包括通过词使用(频繁的跟随者/前任者)来识别上下文,其中更多关注任何名词。继续说明性示例,上下文翻译器的输出可以是:
示例10:
[词元] Use,a,fluffy,roller,barely,dipped,in,lighter,paint。
[词性] VB、DT、JJ、NN、RB、VBD、IN、JJ、NN、.
[子上下文] [动作] [*纹理,*工具] [方式,动作] [颜色,*材料]
[语义上下文]take、hold->(纹理工具)light、grind->(方式动作)simple、short、put、into、sink->(颜色)pale、coating、spread
翻译 使用->蓬松柔软的滚筒->轻蘸->浅色油漆
示例11:
[词元] I、want、to、end、jobs、in、the、risk、group、106。
[词性] PRP、VBP、TO、VB、NNS、IN、DT、NN、NN、CD。
[义素] [/][动作][/][动作][*作业][/][/][*名称][*组]
[编号]
request finish plural risk single 106
terminate
[子上下文] [动作] [动作,*作业] [*名称,*组]
[语义上下文] request->(作业动作)terminate jobs->(作业组)risk group106
命令(请求)[bstop(终止,停止)|bkill(杀死,完成,终止)]–g(作业组)/risk_group 106(作业组名称)
在操作730,上下文翻译器430可返回目标语言的匹配义素的翻译。
计算机程序产品
本发明可以是任何可能的集成技术细节水平的系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质,所述计算机可读程序指令用于致使处理器执行本发明的方面。
计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下:便携式计算机盘,硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存),静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM),数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构),以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,集成电路的配置数据,或以一种或多种编程语言的任何组合编写的源代码或目标代码,包括面向对象的Smalltalk、C++等编程语言,以及过程式编程语言,例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的方面。
本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机的处理器或其他可编程数据处理装置以产生机器,使得指令经由计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质中,可编程数据处理装置,和/或以特定方式起作用的其他设备,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置上,或使得在计算机上执行一系列操作步骤的其他装置,其他可编程装置或其他设备,以产生计算机实现的过程,使得在计算机上执行的指令,其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图图示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实施例中,框中所标注的功能可以不以图中所标注的次序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以作为一个步骤完成、同时执行、基本同时地、以部分或全部时间上重叠的方式执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。
一般的
在本说明书中使用的任何特定程序命名法仅为了方便起见,因此本发明不应限于仅在由这种命名法识别和/或暗示的任何特定应用中使用。因此,例如,被执行以实现本发明的实施例的例程(无论是被实现为操作系统还是特定应用、组件、程序、模块、对象、或指令序列的一部分)可以被称为“程序”、“应用”、“服务器”、或其他有涵义的命名法。实际上,在不脱离本发明的范围的情况下,可以使用其他替代硬件和/或软件环境。
因此,期望在此描述的实施例在所有方面都被认为是说明性的而非限制性的,并且参考所附权利要求来确定本发明的范围。

Claims (29)

1.一种机器翻译系统,包括:
密度计算器,所述密度计算器适于:
计算输入文本中的多个词元的词性(POS)密度;
计算所述多个词元的知识密度;以及
使用所述POS密度和所述知识密度来计算所述多个词元的信息密度。
2.根据权利要求1所述的机器翻译系统,其中所述密度计算器还适于将所述输入文本词元化成所述多个词元。
3.根据权利要求1所述的机器翻译系统,其中所述密度计算器还适于通过POS来对所述知识密度进行分级。
4.根据权利要求1所述的机器翻译系统,其中所述密度计算器还适于返回所述多个词元的词信息密度。
5.根据权利要求1所述的机器翻译系统,还包括义素附加器,所述义素附加器适于:
使用所述多个词元中的一个或多个词元的相应POS密度和知识密度来生成所述一个或多个词元的一个或多个对应的义素;并且
将所述一个或多个对应的义素附加到所述一个或多个词元。
6.根据权利要求5所述的机器翻译系统,其中所述义素附加器还适于对所述输入文本进行词形还原。
7.根据权利要求5所述的机器翻译系统,其中所述义素附加器还适于在其POS下生成所述一个或多个对应的义素。
8.根据权利要求5所述的机器翻译系统,其中所述义素附加器还适于返回所述多个词元的义素列表。
9.根据权利要求1所述的机器翻译系统,还包括上下文翻译器,所述上下文翻译器适于:
通过停止词将所述输入文本划分成多个更小的块,所述多个更小的块包括具有所附加的一个或多个对应的义素的一个或多个词元;
使用所述一个或多个对应的义素来为所述更小的块中的一个或多个生成语义上下文;并且
使用所述语义上下文来翻译所述输入文本。
10.根据权利要求9所述的机器翻译系统,其中所述上下文翻译器还适于通过词使用来识别上下文。
11.根据权利要求9所述的机器翻译系统,其中所述上下文翻译器还适于返回目标语言的翻译匹配义素。
12.根据权利要求9所述的机器翻译系统,其中所述上下文翻译器还适于:
使用对应的义素来聚类词元;以及
确定所聚类的词元的涵义。
13.根据权利要求12所述的机器翻译系统,其中所述上下文翻译器还适于:
将所述涵义与对应的义素合并,以生成所述块中的一个的语义上下文;并且
使用所述语义上下文来翻译所述块。
14.根据权利要求11所述的机器翻译系统,还包括ChatOps系统,所述ChatOps系统适于从终端用户接收所述输入文本并且从所述输入文本生成命令。
15.一种ChatOps系统,包括:
多个客户端设备;以及
可操作地连接到所述多个客户端设备的机器翻译系统,所述机器翻译系统包括:
密度计算器,所述密度计算器适于:
将输入文本词元化成多个词元;
计算所述输入文本中的多个词元的词性(POS)密度;
计算所述多个词元的知识密度,其中所述知识密度是按POS分级的;
使用所述POS密度和所述知识密度来计算所述多个词元的信息密度;并且
返回所述多个词元的词信息密度;
义素附加器,所述义素附加器适于:
对输入文本进行词形还原;
使用所述多个词元中的一个或多个词元的相应POS密度和知识密度来生成所述一个或多个词元的所述POS下的一个或多个对应的义素;
将所述一个或多个对应的义素附加到所述一个或多个词元;
返回所述多个词元的义素列表;以及
上下文翻译器,所述上下文翻译器适于:
通过停止词将所述输入文本划分成多个更小的块,所述多个更小的块包括具有所附加的一个或多个对应的义素的一个或多个词元;
使用对应的义素来聚类所述一个或多个词元;
确定所聚类的词元的涵义;
将所述涵义与对应的义素合并,以生成所述块中的一个的语义上下文;
使用所述语义上下文来将所述多个更小的块翻译成目标语言;并且
返回所述输入文本的翻译。
16.一种用于上下文感知语言机器识别的方法,包括:
使得密度计算器能够通过词性(POS)密度和知识密度来确定词的信息密度;
使得义素附加器能够使用词的POS密度和知识密度来选择相应的义素列表并将其附加到所述词;并且
使得上下文翻译器能够通过停止词将输入文本划分成更小的块,并且能够使用与对应的义素相关联的语义上下文来翻译更小的块。
17.根据权利要求16所述的方法,还包括从对应的义素列表中确定一个或多个涵义,以表示所述输入文本的一部分的语义上下文。
18.根据权利要求17所述的方法,还包括使用所确定的一个或多个涵义来启用跨句子上下文。
19.根据权利要求17所述的方法,还包括:
将标签附加到所述词,所述标签包括所述POS密度、所述知识密度、所述对应的义素列表以及所确定的所述词的涵义;并且
使用所附加的标签来计算所述多个更小的块中的至少一些块的语义上下文。
20.一种用于上下文感知语言机器识别的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有与其一起实现的程序指令,所述程序指令能够由处理器执行以使得所述处理器执行根据权利要求16至19中任一项所述的方法。
21.一种用于上下文感知语言机器识别的计算机系统,包括:
一个或多个计算机处理器、一个或多个计算机可读存储介质、以及存储在所述计算机可读存储介质中的一个或多个上的用于由所述一个或多个处理器中的至少一个执行的程序指令,所述程序指令能够执行根据权利要求16至19中任一项所述的方法。
22.一种用于机器翻译系统的方法,包括:
计算输入文本中的多个词元的词性POS密度;
计算所述多个词元的知识密度;以及
使用所述POS密度和所述知识密度来计算所述多个词元的信息密度。
23.根据权利要求22所述的方法,还包括:
使用所述多个词元中的一个或多个词元的相应POS密度和知识密度来生成所述一个或多个词元的一个或多个对应的义素;
将所述一个或多个对应的义素附加到所述多个词元中的所述一个或多个词元。
24.根据权利要求23所述的方法,还包括:
通过停止词将所述输入文本划分成多个更小的块,所述多个更小的块包括具有附加至其的一个或多个对应的义素的一个或多个词元;
使用所述一个或多个对应的义素来为所述更小的块中的一个或多个生成语义上下文;并且
使用所述语义上下文来翻译所述输入文本。
25.根据权利要求24所述的方法,还包括:
使用对应的义素对所述词元进行聚类;以及
确定所聚类的词元的涵义。
26.根据权利要求25所述的方法,还包括:
将所述涵义与对应的义素合并,以生成所述块中的一个的语义上下文;并且
使用所述语义上下文来翻译所述块。
27.根据权利要求26所述的方法,还包括:为ChatOps系统创建聊天室。
28.一种用于机器翻译系统的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有与其一起实施的程序指令,所述程序指令能够由处理器执行以使得所述处理器执行根据权利要求22至27中任一项所述的方法。
29.一种用于机器翻译的计算机系统,包括:
一个或多个计算机处理器、一个或多个计算机可读存储介质、以及存储在所述计算机可读存储介质中的一个或多个上的用于由所有一个或多个处理器中的至少一个处理器执行的程序指令,所述程序指令能够执行根据权利要求22至27中任一项所述的方法。
CN202111302817.0A 2020-11-10 2021-11-05 上下文感知机器语言识别 Active CN114462415B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/093,879 US11907678B2 (en) 2020-11-10 2020-11-10 Context-aware machine language identification
US17/093,879 2020-11-10

Publications (2)

Publication Number Publication Date
CN114462415A true CN114462415A (zh) 2022-05-10
CN114462415B CN114462415B (zh) 2023-02-14

Family

ID=81405587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111302817.0A Active CN114462415B (zh) 2020-11-10 2021-11-05 上下文感知机器语言识别

Country Status (3)

Country Link
US (1) US11907678B2 (zh)
JP (1) JP2022077022A (zh)
CN (1) CN114462415B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907678B2 (en) 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753553B (zh) * 2020-07-06 2022-07-05 北京世纪好未来教育科技有限公司 语句类型识别方法、装置、电子设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990007159A1 (en) * 1988-12-20 1990-06-28 Kabushiki Kaisha Csk Machine translation system
US20070011154A1 (en) * 2005-04-11 2007-01-11 Textdigger, Inc. System and method for searching for a query
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN101984435A (zh) * 2010-11-17 2011-03-09 百度在线网络技术(北京)有限公司 一种对文本进行分发的方法和装置
TW201135479A (en) * 2010-04-14 2011-10-16 Inst Information Industry Named entity marking apparatus, named entity marking method, and computer program product thereof
CN102622342A (zh) * 2011-01-28 2012-08-01 上海肇通信息技术有限公司 中间语系统、中间语引擎、中间语翻译系统和相应方法
CN104933149A (zh) * 2015-06-23 2015-09-23 郑州悉知信息技术有限公司 一种信息搜索方法及装置
CN105408891A (zh) * 2013-06-03 2016-03-16 机械地带有限公司 用于多用户多语言通信的系统和方法
CN107526834A (zh) * 2017-09-05 2017-12-29 北京工商大学 联合词性与词序的相关因子训练的word2vec改进方法
CN109800308A (zh) * 2019-01-22 2019-05-24 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法
CN110321568A (zh) * 2019-07-09 2019-10-11 昆明理工大学 基于融合词性和位置信息的汉-越卷积神经机器翻译方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7184948B2 (en) * 2001-06-15 2007-02-27 Sakhr Software Company Method and system for theme-based word sense ambiguity reduction
JP3809863B2 (ja) 2002-02-28 2006-08-16 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ
EP1894125A4 (en) 2005-06-17 2015-12-02 Nat Res Council Canada MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION
US7983910B2 (en) 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP4256891B2 (ja) 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
US20090306967A1 (en) * 2008-06-09 2009-12-10 J.D. Power And Associates Automatic Sentiment Analysis of Surveys
US9201927B1 (en) * 2009-01-07 2015-12-01 Guangsheng Zhang System and methods for quantitative assessment of information in natural language contents and for determining relevance using association data
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9852379B2 (en) * 2014-03-07 2017-12-26 Educational Testing Service Systems and methods for constructed response scoring using metaphor detection
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
US9965460B1 (en) * 2016-12-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Keyword extraction for relationship maps
IL252071A0 (en) 2017-05-03 2017-07-31 Google Inc Contextual language translation
US20190213284A1 (en) 2018-01-11 2019-07-11 International Business Machines Corporation Semantic representation and realization for conversational systems
CN110134971B (zh) * 2018-02-08 2022-12-16 腾讯科技(深圳)有限公司 一种机器翻译的方法、设备以及计算机可读存储介质
JP7013970B2 (ja) * 2018-03-16 2022-02-01 富士フイルムビジネスイノベーション株式会社 メッセージ提供装置、プログラム、及び表示制御方法
CN113632092A (zh) * 2020-01-20 2021-11-09 京东方科技集团股份有限公司 实体识别的方法和装置、建立词典的方法、设备、介质
US20210391075A1 (en) * 2020-06-12 2021-12-16 American Medical Association Medical Literature Recommender Based on Patient Health Information and User Feedback
US11907678B2 (en) 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990007159A1 (en) * 1988-12-20 1990-06-28 Kabushiki Kaisha Csk Machine translation system
US20070011154A1 (en) * 2005-04-11 2007-01-11 Textdigger, Inc. System and method for searching for a query
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法
TW201135479A (en) * 2010-04-14 2011-10-16 Inst Information Industry Named entity marking apparatus, named entity marking method, and computer program product thereof
CN101984435A (zh) * 2010-11-17 2011-03-09 百度在线网络技术(北京)有限公司 一种对文本进行分发的方法和装置
CN102622342A (zh) * 2011-01-28 2012-08-01 上海肇通信息技术有限公司 中间语系统、中间语引擎、中间语翻译系统和相应方法
CN105408891A (zh) * 2013-06-03 2016-03-16 机械地带有限公司 用于多用户多语言通信的系统和方法
CN104933149A (zh) * 2015-06-23 2015-09-23 郑州悉知信息技术有限公司 一种信息搜索方法及装置
CN107526834A (zh) * 2017-09-05 2017-12-29 北京工商大学 联合词性与词序的相关因子训练的word2vec改进方法
CN109800308A (zh) * 2019-01-22 2019-05-24 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法
CN110321568A (zh) * 2019-07-09 2019-10-11 昆明理工大学 基于融合词性和位置信息的汉-越卷积神经机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANTONIO TORAL: ""Post-editese: an Exacerbated Translationese"", 《ARXIV.ORG/PDF/1907.00900》 *
李启可: ""融合语言特征的印度英语-汉语神经机器翻译研究"", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 *
熊得意 等: ""基于句法的统计机器翻译综述"", 《中文信息学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907678B2 (en) 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Also Published As

Publication number Publication date
US20220147720A1 (en) 2022-05-12
CN114462415B (zh) 2023-02-14
US11907678B2 (en) 2024-02-20
JP2022077022A (ja) 2022-05-20

Similar Documents

Publication Publication Date Title
US11783131B2 (en) Knowledge graph fusion
US11613008B2 (en) Automating a process using robotic process automation code
US11334721B2 (en) System, method, and recording medium for corpus pattern paraphrasing
US11397954B2 (en) Providing analytics on compliance profiles of type organization and compliance named entities of type organization
US11556938B2 (en) Managing regulatory compliance for an entity
CN114462415B (zh) 上下文感知机器语言识别
US11410184B2 (en) Extraction of compliance named entities of type organization
US11669680B2 (en) Automated graph based information extraction
US20190318362A1 (en) Extraction of a compliance profile for an organization
US20230076923A1 (en) Semantic search based on a graph database
US20220309107A1 (en) Self-supervision in table question answering
JP2022552140A (ja) 階層クラスタリングを使用する希少トピック検出
WO2022048535A1 (en) Reasoning based natural language interpretation
US20220067051A1 (en) Word embedding quality assessment through asymmetry
US20220374209A1 (en) Adaptive user interfacing
US11487938B2 (en) Methods and systems for improving language processing for ambiguous instances
US10592538B2 (en) Unstructured document migrator
CN112528678A (zh) 基于上下文信息的对话系统
US20220188362A1 (en) Decentralized online multi-agent visual question answering
US11971887B2 (en) Identifying and replacing logically neutral phrases in natural language queries for query processing
US11138383B2 (en) Extracting meaning representation from text
US11544466B2 (en) Optimized document score system using sentence structure analysis function
US20230419045A1 (en) Generating goal-oriented dialogues from documents
US11899910B2 (en) Multi-location copying and context based pasting
US20230306022A1 (en) Identifying and replacing logically neutral phrases in natural language queries for query processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant