CN101568917A

CN101568917A - 生成汉语横批

Info

Publication number: CN101568917A
Application number: CNA2007800478609A
Authority: CN
Inventors: L·蒋; M·周; S·郝
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2006-12-20
Filing date: 2007-12-20
Publication date: 2009-10-28

Abstract

公开了用于在给定中文对联的上联句子和下联句子的情况下自动生成横批的实施例。该上联和/或下联句子可由自动计算机系统或由人类来生成(例如，手动生成并且然后提供为对自动化横批生成系统的输入)或者从任何源(例如，书籍)获取并提供为输入。在一个实施例中，利用信息检索过程来标识最佳匹配上联和下联句子的横批候选。在一个实施例中，自动生成候选横批。在一个实施例中，应用排序模型以便对从横批搜索和生成过程中导出的横批候选进行排序。然后从经排序的横批候选中选择一个或多个横批。

Description

生成汉语横批

背景

人工智能是制造智能机器，尤其是计算机程序的科学和工程技术。人工智能的应用包括游戏和语音识别。

被称为“dui4-lian2”(拼音)的中文对联被认为是重要的中国文化遗产。教授对联是几千年来教授传统中文的重要方法。通常，对联包括作为书法写在垂直红幅上的两个短语或句子，其通常被放置在门的两侧或大厅中。这些对联说明性地在诸如婚礼等特殊场合期间或在春节(即，中国新年)期间展示。其他类型的对联包括生日对联、哀悼对联、装饰对联、专业或其他人类相关对联等。

中文对联使用压缩语言，但具有深奥的且有时矛盾的或双重含义。构成对联的两个句子被说明性地称为“上联句子”和“下联句子”。

中文对联的一个示例是“海阔凭鱼跃”和“天高任鸟飞”，其中上联句子是“海阔凭鱼跃”，而下联句子是“天高任鸟飞”。上下联句子的各个词之间的对应关系如下所示：

海---------------天阔---------------高凭---------------任鱼---------------鸟跃---------------飞

对联的长度可以是不同的。短对联可包括一个或两个字符，而较长的对联可达到数百个字符。对联还可具有不同形式或相关含义。例如，一种形式可包括具有相同含义的上联和下联句子。另一种形式可包括具有相反的含义的上下联句子。然而，无论哪种形式，中文对联一般都符合诸如以下规则或原则：

原则1：对联的两个句子一般具有相同的词数和中文字符总数。每一个中文字符在说时都具有一个音节。中文词可具有一个、两个或更多字符，并因此用一个、两个或更多音节来发音。上联句子的每一个词都应具有与下联句子中的相应词相同的中文字符数。

原则2：声调(例如，中文中的“平”和“仄”)一般是调合且协调的。传统习惯是处于上联句子的末端的字符应是“仄”。该声调以急促向下声调来发音。处于下联句子的末端的字符应是“平”。该声调用平声来发音。

原则3：下联句子中的词的发音的各部分应该与上联句子中的相应词一致。换言之，上联句子中的名词应对应于下联句子中的名词。对于动词、形容词、数量词、副词等亦是如此。此外，对应的词必须处于上联句子和下联句子中的相同位置。

原则4：下联句子的内容应与上联句子相互关联，并且内容不能在上联和下联句子中重复。

在某些情况下，对联可伴随横批(也被称为横幅)，其通常水平地放置在门的上方垂直对联之间。横批，最常见的是由4个中文字符组成的短语，用于与对联附连以概括、强调和补充对联的含义。尽管横批的长度可从2个字符到5个或6个字符之间变化，但横批最典型地具有4个字符。对横批的基本要求是其含义应适合上联和下联句子的含义。例如，对联“冬去山明水秀，春来鸟语花香。”的横批是“大地回春”(字面上翻译成“冬天过去了，山是明亮的且河是美丽的；春天来了，于是鸟儿正在歌唱且花很好闻。”)。

然而，无论哪种形式，中文对联的横批一般都符合诸如以下规则或原则：

原则1：横批一般由4个中文字符组成。在少数情况下，横批由2个或3个或5个或更多字符组成。每一个中文字符在说时一般都具有一个音节。

原则2：声调一般是调合且协调的。但通常，在横批和上联句子或下联句子之间的对应关系方面没有严格的要求。

原则3：横批的内容应与上联和下联句子相互关联，并且内容一般不能在上联和下联句子中重复。

作为一种娱乐形式说汉语的人经常参与创造新的对联和横批。一种娱乐形式是一个人给出上联句子并挑战其他人当场对出适当的下联句子。有时作出在给出上联和下联句子后加横批的其他挑战。由此，加横批，类似于对出下联句子，挑战参与者的语言、创造性和其他智力能力。

一般而言，下联句子(例如，给出上联句子)和/或横批(例如，给出上联和下联句子)的自动生成将会是人工智能的适当的且受到推崇的(well-regarded)应用。

提供以上讨论仅用作一般的背景信息，并不旨在帮助确定所要求保护的主题的范围。

概述

此处公开了涉及用于在给定中文对联的上联句子和下联句子的情况下自动生成横批的方法的实施例。该上联和/或下联句子可由自动计算机系统或由人来生成(例如，手动生成并且然后提供为对自动化横批生成系统的输入)或者从任何源(例如，书籍)获取并提供为输入。在一个实施例中，利用信息检索过程来标识最佳地匹配上联和下联句子的横批候选。在一个实施例中，自动生成候选横批。在一个实施例中，应用排序模型以便对从横批搜索和生成过程中导出的横批候选进行排序。然后从经排序的横批候选中选择一个或多个横批。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。

附图简述

图1是计算环境的框图。

图2是用于生成横批的过程的概览。

图3是展示与构造横批分类相关联的步骤的流程图。

图4是展示与对于给定对联找到其最佳匹配的候选横批相关联的步骤的流程图。

图5是展示与横批生成相关联的步骤的流程图。

详细描述

在解决横批生成系统和方法的各个实施例之前，描述可用于实践此处所描述的各实施例的通用计算设备可能是有帮助的。图1示出了可在其中实现各实施例的合适的计算系统环境100的示例。计算系统环境100只是合适计算环境的一个示例，并非旨在对使用范围或功能提出任何限制。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。

各实施例可用于众多其它通用或专用计算系统环境或配置。适用于此处所公开的各实施例的公知的计算系统、环境和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、电话系统、包含上述系统或设备中的任一个的分布式计算环境等。

各实施例可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本领域技术人员可以将此处所提供的描述和附图实现为可在任何形式的计算机可读介质上的编写的处理器可执行指令。

各实施例也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。

参考图1，用于实现各实施例的示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括，但不限于，处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是几种类型的总线结构中的任何一种，包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。作为示例而非局限，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机110访问的任何其它介质。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。以上的任何组合也应包括在计算机可读介质的范围内。

系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，它通常储存在ROM 131中。RAM l32通常包含处理单元120可以立即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非限制，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。程序135被示为可能包括横批生成系统，其实施例将在此处详细描述。这仅仅是环境100中可实现这些系统的地方的一个示例。其他实现(例如，作为程序145或185的一部分)也应被认为是在本发明的范围内。

计算机110还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141，从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151，以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器141通常由不可移动存储器接口，诸如接口140连接至系统总线121，磁盘驱动器151和光盘驱动器155通常由可移动存储器接口，诸如接口150连接至系统总线121。

上文讨论并在图1中示出的驱动器及其相关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中，例如，硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。

用户可以通过诸如键盘162、话筒163以及诸如鼠标、跟踪球或触摸垫等定点设备161等输入设备来将命令和信息输入至计算机110中。其它输入设备(未示出)可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120，但也可以由其它接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由接口，诸如视频接口190连接至系统总线121。除监视器以外，计算机也可以包括其它外围输出设备，诸如扬声器197和打印机196，它们可以通过输出外围接口190连接。

计算机110可使用至一个或多个远程计算机，如远程计算机180的逻辑连接在网络化环境中操作。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点，且一般包括以上关于计算机110描述的多个或所有的元件。图1中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机110通过网络接口或适配器170连接至LAN 171。当在WAN联网环境中使用时，计算机110通常包括调制解调器172或用于通过诸如因特网等WAN 173建立通信的其它装置。调制解调器172可以是内置或外置的，它可以通过用户输入接口160或其它适当的机制连接至系统总线121。在网络化环境中，相对于计算机110所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例，而非限制，图1示出了远程应用程序185驻留在远程计算机180上。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其它手段。

图2是用于生成横批的过程的示意性概览。具有四个字符的横批一般是最常见的。因此，在本说明书中，诸实施例将在四字符横批的上下文中描述。然而，本发明的范围并不限于此。相同或相似的概念可容易地在具有除了四个字符之外的横批的上下文中应用。

根据框202，提供上联和下联句子作为输入。根据框204和206，采用两种不同的方法来产生横批候选。根据框208，应用排序模型以例如支持从所生成的候选中选择N个最佳横批。从N个最佳横批中选择一个或多个输出横批210。

如框204所示，某些横批候选利用基于信息检索的方法来产生。至少由于常见横批的高重现率，值得通过搜索现有横批的数据库来产生横批。

在一个实施例中，在准备搜索过程时，由从外部源(例如，书籍、因特网等)收集的现有横批来构建并填充横批分类。然后，对于给定对联，以对联句子(上联和下联句子)搜索分类以产生一组最佳匹配的候选横批。

图3是展示与构造横批分类相关联的步骤的流程图。在步骤302，收集4字符横批。每一个横批都说明性地使用例如，之前已用作横批的、作为成语的和/或恰好是高频率4字符短语的短语。本领域技术人员可以理解，这些类型的短语可从各种各样不同的源获取。本发明的范围不限于一个特定源或源组合。

在步骤304，为每一个所收集的横批创建特征向量。特征向量说明性地用于标识相关联的含义。在一个实施例中，特征向量的创建涉及首先用web搜索引擎来搜索所收集的横批并收集所返回的前N个片段。这些片段可进一步与从一个或多个其他源(例如，新闻语料库)取得的信息结合以增强覆盖并因此形成新的较大的语料库。一旦语料库完成，则，对于每一个横批，收集同时出现在该语料库中的固定大小的窗口内的词作为特征词。在一个实施例中，每一个特征词的权重都由该特征词和新语料库中的候选横批之间的交互信息(参见以下等式)来决定。

MI (w, c_{i}) = p (w, c_{i}) \log \frac{p (w, c_{i})}{p (w) p (c_{i})}

等式1

其中，ci是横批而w是词，p(w)＝计数(w)/N，并且p(w，ci)＝计数(w，ci)/N。并且其中N是词数方面的训练语料库的大小，计数(w)是词w出现在训练语料库中的频率，而计数(w，ci)是w和ci同时出现在训练语料库中的固定大小的窗口内的频率。

根据步骤306，将所收集的横批分成多个语义类别(例如，14个类别)。在一个实施例中，该分类通过人工干预来完成(例如，分类通过人类专家来完成)。在一个实施例中，类别由人类专家来定义，诸如春节横批、生日横批、结婚典礼横批、庆祝成功的横批等。在一个实施例中，允许单个横批属于多个类别。

根据步骤308，将各类别中的所收集横批自动群集成子类别。在一个实施例中，这使用K均值群集方法来完成。在群集时使用的两个候选横批之间的距离度量被说明性地定义为其特征向量的余弦值。

Cos (V 1, V 2) = \frac{V 1 \cdot V 2}{| V 1 | \times | V 2 |}

等式2

其中，V1和V2分别表示两个横批候选的特征词向量。

根据步骤310，为每一个子类别创建形心特征向量。在一个实施例中，这通过对子类别的成员向量求平均来完成，即，

Vcen = \frac{1}{N} Σ_{i = 1}^{N} Vi

等式3

其中，Vcen是形心特征向量而Vi是子类别中的成员向量中的一个。并且其中N是子类别中的成员数。

图4是展示与使用所构造的分类来对给定对联寻找其最佳匹配的候选横批相关联的步骤的流程图。根据步骤402，使用对联中所包括的词来创建输入对联的特征向量。在一个实施例中，特征向量中的每一个词的权重是该词出现在该对联中的频率。

根据步骤404，计算对联特征向量与横批分类中的每一个子类别的形心特征向量之间的距离。参考等式2，V1和V2分别表示对联特征向量和横批分类中的每一个子类别的形心特征向量。说明性地选择具有最短距离的数量为n的子类别。

根据步骤406，计算对联特征向量与所选n个子类别中的每一个横批的特征向量之间的距离。在此处，V1和V2分别表示对联特征向量和所选n个子类别中的每一个候选横批的特征向量。最后，选择具有最短距离的n个候选横批。所选n个候选横批用于排序模型，其将在以下更详细地描述。

不同于刚才描述的从现有分类中搜索横批的信息检索方法，另一方法涉及使用关于或者由对联系统或者由人类生成的输入句子和下联句子的字符或词来产生横批。图5是在高层次展示与该用于横批生成的第二方法相关联的步骤的流程图。

根据步骤502，使用翻译模型来获取相关词。在一个实施例中，用对联语料库来训练该模型，即p(a|b)。例如，

等式4

其中，计数(a，b)表示a和b在对联的相同位置的出现次数。计数(b)表示b出现在训练数据中的频率。通过使用该翻译模型，对于出现在给定对联中的每一个词wi，如果p(wj|wi)高于阈值，则将词wj选入相关词。

根据步骤504，使用关联强度(AS)模型来增强相关词列表。给定对联C(c1...cn)，词w和对联C之间的关联强度使用以下公式来说明性地逼近：

AS (w, C) \approx Σ_{i = 1}^{n} MI (w, c_{i})

等式5

MI(w，ci)用对联训练数据来说明性地大致估计，即，

MI (w, c_{i}) = p (w, c_{i}) \log \frac{p (w, c_{i})}{p (w) p (c_{i})}

等式6

其中，p(w)＝计数(w)/N，p(w，ci)＝计数(w，ci)/N，N是对联训练数据的大小，计数(W)是包含词w的对联的数量，而计数(w，ci)是包含w和ci两者的对联的数量。基于AS分数，可获取对于给定对联的许多相关词。具体而言，如果AS(w，C)高于阈值，则将词w添加到相关词。

根据步骤506，组合列表中任意数量的词以形成4字符横批候选。这些候选横批中的部分或全部用于排序模型，现在将更详细地描述之。

为了获得最佳横批，可说明性地组合来自以上两个方法的候选并对其进行排序。查看排序过程的一种方式就像选择可接受的横批并排除未接受的候选的分类过程。在一个实施例中，用排序SVM模型来执行排序。

f_{w} * (\overset{&RightArrow;}{x}) = < \overset{&RightArrow;}{w} *, \overset{&RightArrow;}{x} >

等式7

其中

指示横批候选的特征向量而

是SVM模型的权重向量。中所使用的特征说明性地可包括，但不限于(假设B是横批候选)：

1.根据基于对联数据来训练的对联语言模型(LM)的p(B|LMc)

-假设B＝{b1，b2，b3，b4}，其中b1、b2、b3、b4是中文字符，则p(B|LMc)说明性地使用以下公式来计算：

p (B) = p (b_{1}) Π_{i = 2}^{4} p (b_{i} | b_{i - 1})

等式8

2.根据基于横批数据来训练的横批LM的p(B|LMb)(与以上相同)

3.根据基于新闻语料库来训练的通用LM的p(B|LMg)(与以上相同)

4.横批候选和对联之间的关联分数。在一个实施例中，为了计算该分数，首先将横批候选分成各个词。假设该候选横批被分成{w1，w2...wn}，则其关联说明性地使用以下公式来计算：

等式9

其中C是输入对联而AS(wi，C)是wi和C之间的关联强度。

5.横批候选B和对联C之间的上下文相似性。对于使用基于信息检索的方法来获取的候选横批，其上下文相似性已在搜索分类时获取。对于用输入对联方法生成的候选横批，其上下文相似性说明性地用输入对联(例如，使用上述上下文相似性等式)来计算。其特征向量可通过对其分量词的特征向量求和来获取。为了事先获得词汇表中的每一个词的特征向量，说明性地应用类似于为分类中的候选横批创建特征向量的方法。

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于获取与汉语输入对联相关联的输出横批的计算机实现的方法，所述方法包括：

接收所述输入对联(202)；

标识与所述输入对联相关的现有横批集(204)；

生成与所述输入对联相关的横批集(206)；以及

从所述现有横批集或者所生成的横批集中选择所述输出横批(210)。

2.如权利要求1所述的方法，其特征在于，还包括在确定哪一个横批应是所述输出横批(210)时考虑所生成集的和现有集两者的内容。

3.如权利要求1所述的方法，其特征在于，还包括通过应用排序模型(208)以基于与所述输入对联的相关性对所述现有横批集和所生成的横批集进行相对于彼此地排序，来生成经排序的横批。

4.如权利要求3所述的方法，其特征在于，选择所述输出横批(210)包括从所述经排序的横批集中选择所述输出横批(210)。

5.一种用于获取与汉语输入对联相关联的输出横批的计算机实现的方法，所述方法包括：

获取现有横批集(302)；

基于所述现有横批集来构造横批分类(304、306、308、310)；

通过所述横批分类来将所述输入对联与所述现有横批集进行比较(402、404)；

基于所述比较来将所述集合中的至少一个现有横批标识为比所述集合中的另一个现有横批更佳的匹配的候选横批(406)；以及

提供指示作为更佳匹配候选的所述至少一个现有横批的输出。

6.如权利要求5所述的计算机实现的方法，其特征在于，构造横批分类包括为所述现有横批集中的每一个横批创建特征向量(304)。

7.如权利要求5所述的计算机实现的方法，其特征在于，构造横批分类包括基于类别来对所述现有横批集进行分类(306)。

8.如权利要求7所述的计算机实现的方法，其特征在于，还包括进一步将类别中的横批分成子类别(308)。

9.如权利要求8所述的计算机实现的方法，其特征在于，还包括为每一个子类别创建形心特征向量(310)。

10.如权利要求5所述的计算机实现的方法，其特征在于，比较包括创建基于所述输入对联的特征向量(402)。

11.如权利要求5所述的计算机实现的方法，其特征在于，比较包括对所述输入对联进行分类(404)。

12.如权利要求6所述的计算机实现的方法，其特征在于，创建特征向量包括利用搜索引擎来执行基于横批的搜索。

13.如权利要求6所述的计算机实现的方法，其特征在于，创建特征向量包括执行web搜索。

14.一种用于获取与汉语输入对联相关联的输出横批的计算机实现的方法，所述方法包括生成所述输出横批，其中生成所述输出横批包括：

标识与所述输入对联相关的一组词(502)；

组合列表中的词以创建横批候选集(506)；

从所述横批候选集中选择所述输出横批；以及

提供指示所述输出横批的输出。

15.如权利要求14所述的方法，其特征在于，标识一组词包括基于相对于翻译模型进行的分析来标识(502)。

16.如权利要求14所述的方法，其特征在于，还包括对于所述集合中的词确定指示与所述输入对联的关联强度的值(504)。

17.如权利要求14所述的方法，其特征在于，组合所述列表中的词包括组合词以形成4字符横批候选(506)。

18.如权利要求14所述的方法，其特征在于，选择所述输出横批包括对所述横批候选集内所包含的横批候选进行排序。

19.如权利要求14所述的方法，其特征在于，选择所述输出横批包括相对于所述横批候选集中未包含的横批候选来对所述横批候选集中所包含的横批候选进行排序。

20.如权利要求14所述的方法，其特征在于，相对于所述横批候选集中未包含的横批候选来进行排序包括相对于从现有横批的集合中选出的横批候选来进行排序。