CN1770174A - 剖析分层列表和大纲 - Google Patents

剖析分层列表和大纲 Download PDF

Info

Publication number
CN1770174A
CN1770174A CNA2005101161980A CN200510116198A CN1770174A CN 1770174 A CN1770174 A CN 1770174A CN A2005101161980 A CNA2005101161980 A CN A2005101161980A CN 200510116198 A CN200510116198 A CN 200510116198A CN 1770174 A CN1770174 A CN 1770174A
Authority
CN
China
Prior art keywords
information
computer
receives
user
readable medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101161980A
Other languages
English (en)
Inventor
叶明�
P·维奥拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1770174A publication Critical patent/CN1770174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/171Editing, e.g. inserting or deleting by use of digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Character Discrimination (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Feedback Control In General (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了一种用于确定分层信息的系统和方法。各方面包括使用Collins模型用于将非文本信息剖析成分层内容。该系统和过程向行分配指示行如何彼此相关的标签。

Description

剖析分层列表和大纲
技术领域
本发明的各方面涉及计算系统,尤其涉及用于剖析来自所接收信息的分层列表和大纲的过程。
背景技术
人们以各种格式记录信息。有时候,信息以段落来记录。在某些情况下,段落以分层格式按照大纲或项目符号的形式来记录。
计算系统试图识别人们记录信息的格式。该方法导致了剖析信息并试图再现其形式以供稍后的使用或修改的计算机识别系统。当前的系统不能如所需地恰当地剖析所接收的信息。在许多情况下,所接收的信息被不正确地剖析,由此使得所得的分层形式是不可使用的,因为这些形式需要由用户编辑来获得期望的形式。
需要一种改进的剖析系统和过程。
发明内容
本发明的各方面解决了上述一个或多个问题,由此提供了一种用于健壮地剖析分层信息的过程。
附图说明
本发明是作为示例而非限制在附图中示出的,附图中,相同的参考标号表示类似的元素,且附图中:
图1依照本发明的各方面示出了通用计算环境的一个说明性示例。
图2依照本发明的各方面示出了图形输入板计算机的一个说明性示例。
图3-4示出了用于剖析分层信息的各种技术。
图5依照本发明的各方面示出了用于剖析分层信息的另一技术。
图6依照本发明的各方面示出了用于向分层信息分配标签的过程。
图7依照本发明的各方面示出了误差百分比和实现的误差率的比较。
图8-12依照本发明的各方面示出了分层信息的各种示例。
图13依照本发明的各方面示出了用于创建训练示例的用户界面。
图14依照本发明的各方面示出了用于创建训练示例的说明性过程。
具体实施方式
本发明的各方面涉及剖析和识别分层信息。一旦被识别,可分配标签以表示各种分层层次。随后的过程可响应于分配标签,并且例如修改该分层信息。
本文档被划分成若干章节以协助读者。这些章节包括:分层信息、墨迹特征、术语、通用计算环境、用于剖析分层信息的过程、剖析分层信息的示例、以及训练示例。
注意,在以下描述中,在元素之间陈述了各种连接。注意,这些连接一般可以是直接或间接的,除非另外指明,且本说明书并不旨在限制这一方面。
分层信息
分层信息可以采用许多形式,包括笔记、大纲、要完成的事情(to-do)的列表等等。本发明的各方面可应用于旨在被识别为采取某一分层形式的所有信息。一个子集包括如由例如图形输入板PC或个人数字助理(PDA)中存在的数字化表面所捕捉的手写信息。一旦用户具有了分层形式的信息,用户可能希望编辑、更新或导出经剖析的信息到另一程序。此处,重要的是信息的分层结构被自动确定,使得用户能够使用这些信息而无需重大的编辑。
条件随机场(Conditional Random Fields)可用于对1-D序列加标签。本发明的各方面将这些标签应用于分层信息。具体地,本发明的各方面用值(例如,{1,1c,2,2c,…})对行序列加标签。这些值标识了行之间存在的分层关系。
尽管本发明可应用于要被剖析成分层形式的所有信息,但是墨迹结构经常是分层的。在记笔记的情况下,用户通常写出段落,这些段落由行组成,行由单词单词组成,而单词由字符(或笔画)组成。这一分层结构的知识允许复杂的结构编辑,诸如插入行、移动整个段落、或改变段落的边距。当构造一套基于墨迹的用户界面时,将墨迹解释成语法结构的分层分解是相关的。自发的用户笔记的很大一部分是列表的形式(购物列表、要完成的事情的列表、大纲等等)。这些列表中的许多是分层的,且具有一层以上。例如,“要完成的事情的列表”中的每一项由一列步骤或要求组成并非是不常见的。这些结构的自动解释可支持改进的用户界面,其中子树可以被动态地移动或折叠,或被导入到具有适当格式的文档准备系统中。
墨迹特征
如使用墨水笔的用户所知的,物理墨迹(使用带有墨水囊的笔在纸上涂写的那一种)可以比由线段连接的一连串坐标传达更多的信息。例如,物理墨迹可以反映笔的压力(通过墨水的浓度来反映)、笔的角度(通过线段或曲线段的形状和围绕离散点的墨迹的形态来反映)、以及笔尖的速度(通过平直性、线宽、以及随线条或曲线的行进而变化的线宽来反映)。更多的示例包括,墨水被吸收至纸张纤维或它所沉积到其上的其它表面的方式。这些微妙的特征也有助于传达以上列出的属性。因为这些额外的属性,与使用点之间统一线宽相比,能够更瞬时地传达情感、个性、强调等等。
电子墨迹(或墨迹)涉及当用户使用基于指示笔的输入设备时捕捉电子信息和对所捕捉的电子信息的显示。电子墨迹指的是笔画的序列或任意随机集合,其中每一笔划由一连串点组成。笔划可以同时绘制或收集,或者可以在独立的时间和位置上并为独立的原因而绘制或收集。点可以使用各种已知的技术来表示,包括笛卡尔坐标(X,Y)、极坐标(r,Θ)和本领域中已知的其它技术。电子墨迹可以包括对真实墨迹的属性,包括压力、角度、速度、颜色、指示笔大小和墨迹不透明度等的表示。电子墨迹还可以包括其它属性,包括墨迹沉积到页面上的顺序(对大多数西方语言,是从左到右然后向下的光栅图)、时间标记(指示墨迹何时沉积)、墨迹作者的指示、以及始发装置(从其上汲取墨水的机器的标识或用来沉积墨迹的笔的标识中的至少一个)以及其它信息。
在上述特征中,主要使用了笔画的时间顺序和作为一系列坐标的笔画。也可使用所有这些特征。
术语
  术语   定义
  墨迹   具有属性的笔画序列或笔画集。一个笔画序列可包括有序形式的笔画。该序列可以按捕捉时间或按笔画出现在页上的位置来排序,或者在协作的情况下按墨迹的作者来排序。也可以使用其它顺序。笔画集可包括多个笔画序列或未排序笔画序列或其任一组合。此外,某些属性还可对每一笔画或笔画中的点来说
  是唯一的(例如,压力、速度、角度等等)。这些属性可在笔画级或点级储存,而非在墨迹级储存。
  墨迹对象   储存带有属性或不带有属性的墨迹的数据结构。
  笔画   捕捉的点的序列或集合。例如,当呈现时,点的序列可用直线来连接。可选地,笔画可以被表示为点和在下一点的方向上的矢量。简而言之,笔画旨在包含与墨迹相关的点或线段的任一表示,而不考虑点和/或连接点的东西背后隐含的表示是什么。
  点   定义在空间中所处位置的点信息。例如,点可以是相对于捕捉空间(例如,数字化仪上的点)、虚拟墨迹空间(向其中放置捕捉的墨迹的空间中的坐标)和/或显示空间(显示设备的点或像素)来定义。
  文档   具有可查看表示和内容的电子文件。文档可包括网页、文字处理文档、记事页或记事簿、电子表格、可视演示、数据库记录、图像文件、以及它们的组合。
通用计算环境
图1示出了可在其上实现本发明的合适的计算系统环境100的示例。计算系统环境100只是合适的计算环境的一个示例,并不旨在对本发明的使用范围或功能提出任何限制。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。
本发明可用众多其它通用或专用计算系统环境或配置来操作。适合在本发明中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、包括上述系统或设备中的任一个的分布式计算机环境等。
本发明可在诸如由计算机执行的程序模块等计算机可执行指令的通用上下文中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定抽象数据类型。本发明也可以在分布式计算环境中实现,其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
参考图1,用于实现本发明的一个示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括,但不限于,处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干类型的总线结构中的任一种,包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任一种的局部总线。作为示例,而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为Mezzanine总线)。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是能够被计算机110访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机100访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术语“已调制数据信号”指的是这样一种信号,其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例,而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。上述中任一个的组合也应包括在计算机可读介质的范围之内。
系统存储器130包括易失性或非易失性存储器形式的计算机存储介质,诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有助于诸如启动时在计算机110中元件之间传递信息的基本例程,它通常存储在ROM 131中。RAM 132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例,而非限制,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由不可移动存储器接口,诸如接口140连接至系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动存储器接口,诸如接口150连接至系统总线121。
以上描述和在图1中示出的驱动器及其相关联的计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。用户可以通过输入设备,诸如键盘162和定点设备161(通常指鼠标、跟踪球或触摸垫)向计算机110输入命令和信息。其它输入设备(未示出)可以包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由接口,诸如视频接口190连接至系统总线121。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出外围接口195连接。
计算机110可使用至一个或多个远程计算机,诸如远程计算机180的逻辑连接在网络化环境中操作。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见网络节点,且通常包括上文相对于计算机110描述的许多或所有元件,尽管在图1中只示出存储器存储设备181。图1中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这样的网络环境常见于办公室、企业范围计算机网络、内联网和因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至局域网171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172,或用于通过WAN 173,如因特网建立通信的其它装置。调制解调器172可以是内置或外置的,它可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例,而非限制,图1示出了远程应用程序185驻留在存储器设备181上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。
在某些方面,提供了笔数字化仪165和附属的笔或指示笔166以数字化地捕捉手画线输入。尽管示出了笔数字化仪165和用户输入接口160之间的直接连接,但实际上,笔数字化仪165可以使用包括无线技术在内的任何技术直接地、通过并行端口或其它接口以及系统总线130来耦合至处理器单元110。而且,笔166可以具有与其相关联的摄像机,以及用于将由该摄像机所捕捉到的图像信息无线地发送到与总线130交互的接口的收发器。此外,笔可以具有除摄像机之外的或代替摄像机的用于确定电子墨迹的笔划的其它传感系统,包括加速计、磁强计和陀螺仪等。
可以认识到,所示的网络连接是说明性的,可以使用在计算机之间建立通信链路的其它技术。假定存在诸如TCP/IP、以太网、FTP、HTTP等各种公知协议中的任一种或一些,并且系统可以用客户机—服务器的配置来运行,以允许用户从基于网络的服务器检索网页。任何各种常规的网络浏览器可用于显示和操纵网页上的数据。
图2示出了能够根据本发明的各方面使用的说明性图形输入板PC 201。图1的系统中的任何或所有特征、子系统以及功能都能够被包括在图2的计算机中。图形输入板PC 201包括大显示表面202,例如数字化平板显示器,较佳的是液晶显示(LCD)屏,在其上显示多个窗口203。使用指示笔204,用户能够在数字化显示表面202上选择、加亮和/或书写。合适的数字化显示表面202的示例包括诸如Mutoh或Wacom笔数字化仪等电磁笔数字化仪。也可以使用其它类型的笔数字化仪,例如光学数字化仪。图形输入板PC 201解释使用指示笔204做出的手势,以处理数据、输入文本、创建绘图和/或执行诸如电子表格、文字处理程序等常规计算机应用程序任务。
指示笔204可以配备一个或多个按键或其它特征来增加其选择能力。在一个实施例中,指示笔204能够被实现为“铅笔”或“钢笔”,其中,一端构成了书写部分,而另一端构成了“橡皮”端,且当“橡皮”端在显示器上移动时,指示了显示器上要擦除的部分。能够使用其它类型的输入设备,诸如鼠标、跟踪球等。另外,用户自己的手指可以作为指示笔204,且用于在触敏显示器或邻近性敏感显示器上选择和指示所显示的图像的各部分。因此,如此处所使用的术语“用户输入设备”旨在拥有广泛的定义且包括诸如指示笔204等公知输入设备的众多变体。区域205显示允许用户确定指示笔204在哪里与显示表面202接触的反馈区域或接触区域。
在各种实施例中,该系统提供一种墨迹平台,作为应用程序能够用来捕捉、处理和存储墨迹的一组COM(组件对象模型)服务。一种服务使得应用程序能够使用所揭示的墨迹表示来读出和写入墨迹。该墨迹平台也可以包括标记语言,包括如可扩展标记语言XML等语言。而且,该系统可以使用DCOM作为另一种实现。可以使用其它更多的实现,包括微软公司的Win32编程模型和.Net编程模型。
用于剖析分层信息的过程
图3-5示出了剖析分层信息的各种示例。在图3中,剖析分层信息,使得每一行被认为是彼此分离的。尽管查看分层信息的用户可注意到以大纲格式出现的信息,然而图3的剖析器仅单独地标识每一行(301)。这一类型的剖析对于重复使用所剖析的内容是有害的。尽管用户可直接识别从一行换行到下一行的信息,然而剖析器相信每一行是独立的段落。独立的行使得修改或重新打算(例如,转换成文本)变得困难,因为任何新换行将创建新的行,而不是重新格式化现有的行。
在图4中,本示例的剖析系统将行标识成具有相同的分层层次的组(例如,组401、402和404)。然而,该剖析系统未标识与节401、402和404的分层结构有关的节403的内容。尽管用户可容易地看到节403行是如何适合节的分层结构的,然而图4的剖析器仅组合了没有左缩进的行。具有左缩进的行(组403中的行)被认为是独立的,且不是组401、402和404的分层结构的一部分。
在图5中,该剖析系统将每一行标识为与分层结构中的其它行相关联。图5示出了总共18行,其中有7个节点,每一节点是单独的一个段落。段落起始行是行501、504、509、511、512和514(这些行也包括整数标识符{0,1,2,3…N})。剩余的行是此处由前导整数及之后的“c”来表示的延续行。当然,可使用任何其它的标识方案。此处,使用了加标签方案来帮助向用户标识该分层信息是如何被标识的。
所有的分层信息包括一根节点。其它节点形成了表达信息的分层特性的树。此处,树的其它节点包括文本块,并可具有若干子节点。大纲树的呈现对图5所示的观察到的文本添加了某些复杂性。每一节点之前可以有或没有某种形式的项目符号,诸如符号、数字、字母或其组合。树中节点的深度确定了项目符号的选择以及节点中文本的格式。在树中更深的节点通常从左页边距开始缩进。另外,不能在单行上适合的长文本块被换行,以形成“延续”行。延续行没有添加项目符号,并且可具有与最初的添加项目符号的行具有不同的缩进。重要的是强调存在许多可能的呈现同一大纲结构的方式。用户可选择不同类型的项目符号或不同的缩进方案。
该组观察到的项目符号相当大,并且可包括:诸如虚线、星号或点等符号;诸如1、2、3或i、ii、iii等数字;以及诸如A、B、a、b或c等字母,或其组合或替换。项目符号类型的每一个包括修饰,诸如圆括号、句点或冒号。在某些情况下,列表项根本没有标签。
图6示出了用于将所接收到的信息剖析成分层结构的方法。一旦确定了结构,该信息可由其它应用程序和/或用户来操纵。在步骤601接收信息。在步骤602,可旋转所接收到的信息以调整信息行中的任何旋转。此外,该系统可确定所接收到的信息和片段中是否存在图形元素,并移除被假定为图形元素的信息。如果所接收到的信息是墨迹,则假定笔画已经被组合成单词或行。该系统然后将行组合成块。最后,可对注释进行分段并移除注释。
步骤603-606涉及从观察到的信息行确定分层树结构。下文描述了一种学习方法,它是从一组训练示例中训练的,以找出对附加示例加标签所必需的关键规律性。
两种观察结果使得大纲结构的推断变得更加简单。第一种是每一块中的行是在页面上自顶向下自然排序的且树中的节点具有相同的深度优先顺序。第二个观察结果是分层结构可通过向每一行分配一个标签来有效地编码。标签对树中的节点的深度以及该行是否是前一行的延续(见图5)进行编码。给定这两个观察结果,大纲树的推断可以被实现为一种行分类问题,其中每一行被分类成N种深度之一,并且被分类为延续或非延续。从每一行的分类中,可在一遍中计算树结构。问题然后是如何对每一行分类。
每一文本块中的行使用Collins引入的马尔可夫建模框架,此处被称为Collins模型来加标签。Collins模型是隐藏马尔可夫模型的更强大推广。与隐藏马尔可夫模型一样,Collins模型的参数是使用一组训练数据来估算的。
如上所述,Collins模型可用于将墨迹剖析成分层形式。也可使用其它模型。作为一个示例,一种替换模型是基于从单独一行中计算的特征对每一行进行分类、使用以下示例,可对每一行计算若干特征。示例包括:“左缩进”、“右缩进”、“相对于前一行的左缩进”、“是否存在项目符号”等等。使用这些特征,可试图学习将正确地对行的深度和延续进行分类的功能。由于它在各行之间是独立的,因此该简单方案在对行加标签时有难题,因为上下文非常重要。一种简单的扩展被称为“堆栈”。在这一情况下,即将当前行的特征和环绕行的特征用做每一行的分类器的输入(特征被“堆栈”到单个输入矢量中)。尽管这改进了性能,然而未对标签之间的相关性进行建模。
更强大的模型是既对输入特征堆栈又传播标签相关性的模型。隐藏马尔可夫模型对于这一过程是合适的,但是违背了一种技术假设,即观察结果的独立性给出了隐藏状态。由于输入特征被堆栈,因此同一特征值对不同的输入次数出现多次。这是隐藏马尔可夫模型所需的独立性的严重违背。Collins模型解决了这些问题中的某一些。可使用的其它方法包括条件随机场和其它非生成马尔可夫过程。
Collins模型和相关模型已超出了本描述的范围。仅描述涉及模型的训练和操作的理解的细节。
该模型如下操作:给定一观察值序列st,期望一标签序列lt。Collins模型使用了一组特征fi(l′,l″,s,t),它们是标签对、观察值序列s和时间(或序列中的位置)的二元函数。标签序列的成本被定义为:
C ( L , s ) = Σ t Σ i λ i f i ( l t , l t - 1 , s , t )
其中L是时间{lt}中的标签序列,λi是模型参数。给定许多加标签的训练示例{Lk,sk},学习过程试图找出一组权值{λi},使得
L ^ k = arg L min C ( L , s k ) = L k
注意,每一特征仅取决于一对相邻的状态。当然,这可以被修改成包括额外的状态。
作为求和的结果项,它可被划分成独立的组。这导致使用动态编程的有效最小化(该算法本质上等效于HMM的维特比解码)。如上所述的特征是抽象的形式,它不提供关于其操作的更多直觉知识。
为提供对这些特征的目的和意义的更好理解,考虑若干示例是颇有价值的。可考虑一种特定的特征形式,它一起忽略了观察值和时间。这可被重写为fi{lt,lt-1}。例如,一种特定的特征fT14,在lt-1=1且lt=4时返回值1,其它情况下返回值0(即状态从深度为1的行转移到深度为4的行)。为确保该模型从不输出不可能的标签,学习过程可向对应的权值λT14分配非常大的正值。作为结果,包括该转移的任何假定标签序列可被分配一个高成本。相反,fT12(测试从深度1到2的转移)是经常发生的,因此可被分配负的权值或小的正权值。
另一种类型的特征可用于激励特定状态。例如,如果当前状态是1,且当前行的左缩进小于20毫米,则假定特征fs1_ident<20返回1。这是相当常见的事件,且它应当被分配负权值。特征fs1_ident<500是不常见的事件,因此应当被分配大的正权值。
最复杂类型的特征涉及给定观察值的某一属性的情况下的两个标签。例如,如果当前和前一标签都是1,且行之间的相对缩进小于20毫米,则fT1_relindebt<20返回1。这也是常见的事件,且应当被分配负权值。
当然,这些权值中的没有一个是手动分配的。给定一大组特征和一大组示例,Collins模型通过逐步调整权值矢量直到收敛来递归地训练。
以下描述了提取行特征。特征提取器的输入是当前组合的行的块,这些行具有类似的但任意的方向。第一个处理步骤是计算行旋转角度和定义块坐标。然后,可补偿旋转角度,并开始假定所有的行都是水平和竖直的。
本发明的各方面首先确定一组基本的行特征。这些基本行特征可被称为原始特征。它们包括:左、右、上和下行边界、缩进级别和项目符号类型。计算行边界是直接的(尽管需要在计算上和下边界时加以注意,因为墨迹行不是笔直的,且上行字母和下行字母可以相当不规则)。下文描述用于缩进级别估算和项目符号检测的过程。
缩进级别估算:缩进级别是量化的左缩进。尽管缩进长度可以在各示例之间有很大的不同,但是缩进级别是相当稳定的,大致对应于大纲深度(见下文图8-10)。缩进级别估算的动机是提供对深度的近似测量。可将任何标准方法应用于这一量化问题。可使用K均值算法:以聚类矩心的等距数组开始,向最近的矩心分配观察值,用新成员更新该矩心,并迭代直到矩心不再改变。通常在墨迹笔记中观察到同一级别的缩进长度沿页面向下漂移。在这些情况下,量化绝对缩进可在欺骗性检测中直接掩盖实际级别。
为缓和这一问题,可在两遍中实现量化。在第一遍中,可量化相对缩进,并组合具有零相对缩进的相邻行。在第二遍中,可量化行组的平均绝对缩进。或者,不执行量化。
项目符号检测:列表是墨迹笔记中非常常见的结构。项目符号用信号通知列表项(段落)的开始,并且其存在可以很大程度上减少大纲加标签的不确定性。以下描述了基于规则的项目符号检测器,它识别一小组符号和符号修饰图案,并充分利用了项目符号之间的一致性来推进检测置信度。该算法包括四个步骤。首先,对每一行,可从行起始处的笔画聚类中生成若干项目符号列表候选者。其次,对每一候选者,可计算特征(诸如,宽度、高度、高宽比、与行剩余部分的空间和时间距离等等)、试图将其识别为诸如“虚线”或“以圆括号结束”(例如,“1.a)”)等类型中的一种、并向其分配[0,1]中的得分,该得分指示候选者是项目符号的确定性。第三,对每一对候选者计算指示它们之间的相似性程度的[0,1]中的得分。每一候选者的最终得分是其自身得分以及其所有对得分的加权和,这反映了候选者看上去与已知项目符号列表越像,且类似它的其它候选者越多,则该候选者越有可能是实际项目符号。然后可以按最高置信度优先的方式接受候选者并移除所有其冲突候选者,直到处理了所有的候选者或最高得分跌落到某一值之下为止。初步的实验结果示出该方法在检测诸如虚线、点、字母数字点组合甚至是未知类型的项目符号等常见墨迹项目符号时是有效的。它计算的特征也可用于基于学习的项目符号识别。
以下描述了基本行特征。下表示出了可用于产生测试结果的基本行特征。这些特征根据其计算中使用了多少上下文Δt而被划分成三个类别Δt:=0意味着仅使用了行t的原始特征;Δt=1意味着也使用了前一或下一相邻行的原始特征;依此类推。长度特征可以由诸如块中的平均行高度等各种全局统计量来归一化。
  内容   特征   归一化
Δt=0  行高度   0,1
 行宽度   0,1
 左缩进   0,1
 右缩进   0,1
 缩进级别
 是否为块中的第一行
 是否存在项目符号
 是否存在类型X的项目符号
 由块宽度归一化的右缩进
  内容   特征   归一化
Δt=1   相对左缩进   0,1
  相对右缩进   0,1
  行间距   0,1,2,3
  同一“存在项目符号”状态
  同一项目符号类型
  相对缩进级别
  相对缩进级别为正/负
  对的行高度比
  由较大的行宽度归一化的相对右缩进
  内容   特征   归一化
Δt>1  缩进级别是否与其4个相邻行的缩进级别不同
 行是否为列表项的延续
 下一和前一行间距之比
对于该表,归一化方案可包括下列:归一化方案:0-未归一化;1-由平均行高度归一化;2-由最小行间距归一化;3-由中间行间距归一化。使用对一个特征列出的所有方案。
很明显,有许多有意义的方法来组合原始/导出的特征,且表1仅列出了一小部分。以下采用了对该问题的系统方法,而非手动操纵更多特征。
以下描述了如何将基本特征组合成Collins模型特征。可以回想,Collins模型要求形式为fi(l′,l″,s,t)的特征,这取决于当前状态(或状态对)以及观察值序列。这些特征是使用训练集从基本特征形成的。
组合过滤器。基于最初的手动构造的过滤器组,构造了一组组合过滤器。其每一个计算手动构造的过滤器的一个随机子集的随机线性组合。
二元特征。从训练集中估算每一连续值特征的均值和方差。然后将范围划分成6个存储单元(bin),其每一个在宽度上有1个标准偏差。从每一连续特征创建了总共6个二元特征。如果连续特征落入对应的存储单元中,则二元特征的值为1,否则为0。
观察特征。对每一三元组{s,i,v}生成一个特征。如果当前状态是s,且二元特征i=v,则该特征返回1。仅保留对训练集中的某些示例返回1的那些特征。
转移特征。对每一四元组{s,s′,i,v}生成一个特征。如果当前状态是s,前一状态是s′,且二元特征i=v,则该特征返回1。仅保留对训练集中的某些示例返回1的那些特征。
剖析分层信息的示例
以下提供了对在TabletPC上的Windows Journal(微软公司)中创建的522个墨迹文件的集合的实验数据的结果。所有这些文件包含足够的手写体,它们示出了有趣的大纲结果。从该集合中,块中的中间和最大行数分别是15和66。每一大纲块中的笔画被正确地组合成单词和行。每一行用其深度来加标签,且如果它是延续:对标题行加标签为0或0c,对剩余的行加标签为1、2c、2、2c等等。图8-12中给出了5个示例。
每一行的地面实况(ground truth)标签被示为每一标签中的唯一或第一个值。该表可被划分成3个集合:371个用于训练,75个用于评估(观察准确度是否随着迭代的数量而改进),以及76个用于最终的测试,大致按照5∶1∶1的比例。以下参数用于训练:学习速率0.2、衰减速率0.9以及迭代数10。Collins模型使用的过滤器的总数是6058,它包括57个原始行特征、228个“堆栈的”过滤器、1135个二元化的过滤器。剩余的过滤器在OBSERVATION(观察)和TRANSITION(转移)之间平均拆分。所有的实验是在具有2GB RAM的Intel 3GHzPC上执行的。训练对于446个示例花费大约28分钟。解码是快速的,对最大的文件(66行)花费0.9秒。注意,并没有对训练和解码程序优化速度,且没有精细地调整任何参数。
大纲标签的推断可被认为是两个分量的分类问题,一个维度是深度,另一个是延续状态。当仅关注延续维度时,该问题减少为段落分割—将每一行加标签为1(段落起始)或1c(段落继续)。首先执行段落分割,因为找出段落本身是一个重大的问题,且段落特征对于大纲分类可以是非常有用的。如果有良好的段落分割结果可用,则诸如“行是否为列表项的延续”(上文表1)等大纲特征可更可靠地计算。同样,在大纲标签集{0,0c,1,1c,2,2c,…}中也存在某些相关性-3c行变为3c很大程度是由于它在3行之后但是并不与其它延续类有很大的不同。这一相关性将某些数量的模糊性引入到大纲分类结果中。段落分割结果不受相关性的影响,且将它们结合到大纲分类中有助于减轻模糊性。
最后,与大纲推断相比,段落分割是用于算法框架的更合适的试验台,因为存在少得多的加标签模糊性并存在与类别数有关的更多数据,且因此结果能更真实地表示算法性能,
以下描述了段落分割。大纲分类代码可在将地面实况标签从{0,0c,1,1c,2,2c,…}映射到{1,1c}之后直接在段落分割上工作。可按照误分类的行的百分比测量每一示例的错误。在表2中总结了三种类型的错误统计量。图7是在151个评估和测试示例上的已分类错误的曲线图。该曲线保持低且平直,除了朝向末端的尖锐上升之外,意味着该算法在大部分笔记上都运行良好,且错误集中在非常小的一组情况上。
  训练   评估   测试
  示例数   371   75   76
  误分类的行的平均百分比   7.1   11.4   10.4
  具有0%错误的文件的百分比   38.4   28.0   34.2
  具有20%或更少错误的文件的百分比   88.2   80.0   84.2
当检查失败案例时,出现三个因素为错误的主要来源。第一个是项目符号检测错误。图9中的唯一误分类是由于未识别箭头项目符号。第二个原因是当前该系统未考虑大纲结构和页面的剩余部分之间的交互。图10中中间部分周围的错误大部分是由于移除了边侧(虚线多边形中)的图形笔画和注释。第三个原因是由于没有完全识别而引起的模糊性。该技术主要依赖于几何特征,且它仅可与浏览墨迹笔记的技术一样好地运作,而不仔细地读入内容。例如,图8示出了没有错误的示例。粗看一下,结果看上去是正确的。然而,一旦阅读这些句子,就可以清楚第5和第6行应当实际上被加标签为1。这一模糊性情况很难加标签以及推断。细化特征并收集更多的训练数据可以帮助解除某些情况的模糊性。
可能还可以将错误图案结合到UI设计和用户自适应中,以改进剖析准确度和端对端墨迹体验。图7对评估和测试示例上的错误进行分类。82%(151个中的124个)示例具有20%或更少的误分类的行。
以下描述了大纲加标签。通过首先运行段落分割算法,可将某些段落特征添加到大纲加标签系统(表1)中,然后应用同一训练和解码程序。可以包括的一个基本段落特征是“该行是否为段落起始”。再一次,按照误分类的行的百分比对每一示例测量错误,并报告以下表3中的错误统计量。
  训练   评估   测试
  示例数   371   75   76
  误分类的行的平均百分比   32.7   39.6   48.1
  具有0%错误的文件的百分比   17.5   17.3   9.2
  具有20%或更少错误的文件的百分比   43.2   34.7   34.2
图11和12示出了大纲推断示例。地面实况标签被示为第一个或唯一的值。如果预测的标签与地面实况不同,则它们被示在地面实况值后面右侧(如果是所有)。
在大纲结构中存在许多模糊性。它使得数据加标签、训练和性能评估比段落分割问题中的这些要难得多。地面实况数据可以被手动加标签,并且因此是主管的,且包括重大的变化。对不同的示例存在这些替换决策之间的变化。这模糊了类别之间的边界,并使得训练效率较低。图11是几乎正确的示例,而图12是几乎完全错误的示例。然而,更精密的检查显示出这两个文件实际上具有类似的结构和类似的推断结果。出错率中的差异很大部分是由于加标签的模糊性:(i)通过对图12中的标题行加标签为1而非0,大多数结果偏离地面实况一个深度级别;(ii)图11中的第3行要求理解内容来向右剖析;(iii)对第5和第6行的用户意向是不清楚的,即使是在仔细地阅读了地面实况之后且推断的结果看上去是似是而非的。
当通过用户界面展示时,诸如(i)等许多“错误”可能甚至不会被用户注意到。这是由于标签可能不被显示,而仅显示由所保存的标签建立的关系。另外,用户的容错随着模糊性的数量而增加;诸如(ii)和(iii)等错误不可能导致很多麻烦。可以用于产生表3中的数字的简单化的错误度量不能很好地反映用户体验,并且应小心解释。
分层大纲结构通常出现在用户笔记中。用户希望一种用于编辑这些大纲,且可能用于将它们导出到文字处理程序中的方案。上文的描述描述了一种解释手写大纲并自动用良好的可靠性提取正确的结构的系统。
所描述的系统试图用文本块中的每一行在大纲树中的“深度”对该行加标签,并且对于这些行是否是同一树节点的一部分加标志。由Collins引入的马尔可夫模型用于对行进行分类。该模型组合了诸如缩进和长度等可用的行特征,以找出行标签的全局一致分配。Collins模型的参数可从训练数据集中获知。作为结果,该系统比手动操纵的系统更健壮。最后,行标签的计算是快速的,在典型的墨迹页面上需要少于0.1秒。
训练示例
图13和14设计训练示例的创建。图13示出了可用于创建训练示例的说明性用户界面,其中训练示例可有助于调整上述算法的模型参数。
参考图13,用户可使用允许用户向呈现的信息添加标签的界面。该标签预期类似于理想剖析系统的结果。用户界面被示为显示1301。显示1301显示了信息1302。此处,信息1302是手写墨迹。剖析系统剖析各种信息行,并允许用户对这些行添加标签。例如,选择第一信息行1303。该选择可以被加亮显示或不加亮显示,或者被可视地修改以指示用户的选择。此处,第一信息行1303由边界框包围,且强调了墨迹。用户然后输入分层标签1304。为协助用户,可与信息行并列显示或不显示区域1317。区域1317可向用户提供一可视指示,指示用户的输入分层信息将与当前选中的行相关联。用户然后可移动到其它信息行(使用鼠标、笔、键盘、跟踪球或其它输入设备),并输入额外的分层标签(例如,标签1305-1307)。除硬件输入设备之外,用户可使用软件生成的箭头键1308或其它软件导航技术来导航所接受的信息行1302。
图13反映了信息1302的大纲模式1309。其它模式可包括加标签模式1310、项目符号模式1311和/或阅读顺序和方向模式1312。图13还示出了系统如何加亮显示或不加亮显示信息行。例如,第一行用边界框1313加亮显示。其它边界框(1314-1316)可以与其它行相关联。
图14示出了用于向接收到的信息添加标签以创建训练示例的说明性过程,其中训练示例然后可用于调整加标签算法的模型参数。在步骤1404,接收信息。信息可以是墨迹、绘图或图形信息(非ASCII信息)。该信息可来自存储1401(本地或远程)、直接来自用户1402、或由计算机1403生成(例如,系统可生成随机信息以允许用户将生成的信息剖析成分层形式)。
在步骤1405,剖析系统将接收到的信息剖析成行。步骤1405用虚线框示出以加亮显示这一事实:将信息剖析成行可在接收步骤1404之前或之后发生。例如,在步骤1404接收的信息可在之前被剖析并储存在存储1401中、可在之前通过用户在步骤1402中输入信息来剖析、或者可作为步骤1403中的单独行来生成。
在步骤1406,该过程接收用户输入,其中该输入是指定所接收信息行的分层层次的标签。在步骤1407,该过程将分配的标签与各自的信息行相关联。下一步,在步骤1408,该过程至少储存所得的关联,作为训练示例的至少一部分。步骤1408可跟随步骤1407中的每一关联,或者可跟随步骤1407的若干关联。在某些实施例中,该过程可在步骤1407完成之后返回到步骤1406,直到对所接收到的信息中的每一行加了标签。可以容易地理解,与个别地储存相比,关联组可成批储存。
步骤1408中创建的训练示例(或从步骤1408创建的训练示例的集合)然后可用于训练一算法以更准确地对分层信息加标签。
本发明是按照其较佳和示例性实施例来描述的。在阅读本说明书之后,本领域的普通技术人员可以明白所附权利要求书中的范围和精神之内的众多其它实施例、修改和变化。

Claims (72)

1.一种用于识别所接收的非文本信息的分层内容的过程,包括以下步骤:
接收非文本信息;
确定原始特征信息;
从所述原始特征信息中确定额外特征;以及
对所接收的信息中的每一行计算标签。
2.如权利要求1所述的过程,其特征在于,所述确定额外特征步骤还包括以下步骤:
确定主要行特征。
3.如权利要求1所述的过程,其特征在于,还包括以下步骤:
预处理所接收的信息。
4.如权利要求1所述的过程,其特征在于,所述预处理步骤还包括以下步骤:
旋转所接收的信息。
5.如权利要求1所述的过程,其特征在于,所述计算步骤包括应用Collins模型。
6.如权利要求1所述的过程,其特征在于,所述计算步骤包括应用已用训练数据训练的Collins模型。
7.一种用于确定非文本信息的分层结构的过程,包括以下步骤:
接收非文本信息;
将非文本信息行处理为观察值序列st
处理所述观察值序列st以找出标签序列lt,使得标签序列的成本为:
C ( L , s ) = Σ t Σ i λ i f i ( l t , l t - 1 , s , t ) ,
其中L是以时间表示的标签序列,s是观察值序列,t是序列中的位置,而{lt}和{λi}是模型参数。
8.如权利要求7所述的过程,其特征在于,所述模型参数是通过调整所述模型参数以对训练示例中的标签收敛来确定的。
9.如权利要求7所述的过程,其特征在于,还包括以下步骤:
使用训练示例{Lk,sk},通过找出一组权值{λi},使得
L ^ k = arg L min C ( L , s k ) = L k ,
来确定模型参数。
10.如权利要求7所述的过程,其特征在于,每一行被确定为包括多个特征,并且其中,所述特征用于向所述行分配标签。
11.如权利要求10所述的过程,其特征在于,还包括以下步骤:
对每一行估算缩进级别,所述缩进级别是特征。
12.如权利要求10所述的过程,其特征在于,还包括以下步骤:
确定行中是否存在项目符号,所述项目符号的存在是特征。
13.一种用于识别接收的非文本信息的分层内容的系统,包括:
用于接收非文本信息的装置;
用于确定原始特征信息的装置;
用于从所述原始特征信息中确定附加特征的装置;以及
用于对所接收的信息中的每一行计算标签的装置。
14.如权利要求13所述的系统,其特征在于,用于确定附加特征的所述装置还包括:
用于确定主要行特征的装置。
15.如权利要求13所述的系统,其特征在于,还包括:
用于预处理所接收的信息的装置。
16.如权利要求13所述的系统,其特征在于,用于预处理的所述装置还包括:
用于旋转所接收信息的装置。
17.如权利要求13所述的系统,其特征在于,用于计算的所述装置包括应用Collins模型。
18.如权利要求13所述的系统,其特征在于,用于计算的所述装置包括应用已用训练数据训练的Collins模型。
19.一种用于确定非文本信息的分层结构的系统,其特征在于,包括:
用于接收非文本信息的装置;
用于将非文本信息行处理为观察值序列st的装置;
用于处理所述观察值序列st以找出标签序列lt,使得所述标签序列的成本为: C ( L , s ) = Σ t Σ i λ i f i ( l t , l t - 1 , s , t ) 的装置,
其中L是以时间表示的标签序列,s是观察值序列,t是序列中的位置,而{lt}和λi是模型参数。
20.如权利要求19所述的系统,其特征在于,所述模型参数是通过调整所述模型参数以对训练示例中的标签收敛来确定的。
21.如权利要求19所述的系统,其特征在于,还包括:
用于使用训练示例{Lk,sk},通过找出一组权值{λi},使得
L ^ k = arg L min C ( L , s k ) = L k
来确定模型参数的装置。
22.一种用于将非文本信息剖析成分层形式的系统,包括:
接收非文本信息的输入;
使用条件随机场将标签应用于所述非文本信息行的处理器;
输出与所述非文本信息行相关联的标签的输出,其中,所述标签描述了所述非文本信息的分层形式。
23.如权利要求22所述的系统,其特征在于,用于确定所述标签的条件随机场是:
C ( L , s ) = Σ t Σ i λ i f i ( l t , l t - 1 , s , t ) ,
其中,L是以时间表示的标签序列,s是观察值序列,t是序列中的位置,而{lt}和λi是模型参数。
24.如权利要求23所述的系统,其特征在于,所述处理器使用由模型参数使用训练示例{Lk,sk},通过找出一组权值{λi},使得
L ^ k = arg L min C ( L , s k ) = L k
来确定的模型参数。
25.一种其上储存程序的计算机可读介质,所述程序用于识别接收的非文本信息的分层内容,所述程序包括以下步骤:
接收非文本信息;
确定原始特征信息;
从所述原始特征信息中确定额外特征;以及
对所接收的信息中的每一行计算标签。
26.如权利要求25所述的计算机可读介质,其特征在于,所述确定额外特征步骤还包括以下步骤:
确定主要行特征。
27.如权利要求25所述的计算机可读介质,其特征在于,所述程序还包括以下步骤:
预处理所接收的信息。
28.如权利要求25所述的计算机可读介质,其特征在于,所述预处理步骤还包括以下步骤:
旋转所接收的信息。
29.如权利要求25所述的计算机可读介质,其特征在于,所述计算步骤包括应用Collins模型。
30.如权利要求25所述的计算机可读介质,其特征在于,所述计算步骤包括应用已用训练数据训练的Collins模型。
31.一种其上储存程序的计算机可读介质,所述程序用于确定非文本信息的分层结构,所述程序包括以下步骤:
接收非文本信息;
将非文本信息行处理为观察值序列st
处理所述观察值序列st以找出标签序列lt,使得所述标签序列的成本为:
C ( L , s ) = Σ t Σ i λ i f i ( l t , l t - 1 , s , t ) ,
其中L是以时间表示的标签序列,s是观察值序列,t是序列中的位置,而{lt}和λi是模型参数。
32.如权利要求31所述的计算机可读介质,其特征在于,所述模型参数是通过调整所述模型参数以对训练示例中的标签收敛来确定的。
33.如权利要求31所述的计算机可读介质,其特征在于,所述程序还包括以下步骤:
使用训练示例{Lk,sk},通过找出一组权值{λi},使得
L ^ k = arg L min C ( L , s k ) = L k ,
来确定模型参数。
34.如权利要求31所述的计算机可读介质,其特征在于,每一行被确定为包括多个特征,并且其中,所述特征用于向行分配标签。
35.如权利要求34所述的计算机可读介质,其特征在于,所述程序还包括以下步骤:
对每一行估算缩进级别,所述缩进级别是特征。
36.如权利要求34所述的计算机可读介质,其特征在于,所述程序还包括以下步骤:
确定行中是否存在项目符号,所述项目符号的存在是特征。
37.在具有接收信息和存储的计算机系统中,一种在显示器上呈现的用户界面,所述用户界面包括:
第一区域,它显示已被剖析的所述信息;
第二区域,它接收指定所剖析的信息的分层级别的用户输入,
所述计算机系统储存所述用户输入和已被剖析的所述信息之间的关联。
38.如权利要求37所述的用户界面,其特征在于,所接收的信息是非文本信息。
39.如权利要求37所述的用户界面,其特征在于,所接收的信息包括电子墨迹。
40.如权利要求37所述的用户界面,其特征在于,所述计算机系统已剖析了所接收的信息。
41.如权利要求37所述的用户界面,其特征在于,所述计算机系统接收了先前已被剖析的所述信息。
42.如权利要求37所述的用户界面,其特征在于,所述关联用于训练用于为用于分析其它接收信息的条件随机场算法训练模型参数。
43.如权利要求42所述的用户界面,其特征在于,所述条件随机场算法包括Collins模型算法。
44.如权利要求37所述的用户界面,其特征在于,还包括:
第三区域,通过与其交互,在已被剖析的所述信息之中导航。
45.如权利要求37所述的用户界面,其特征在于,还包括:
第三区域,通过与其交互,在已被剖析的所述信息的所述第一区域中提供至少一个替换视图。
46.一种用于将用户输入与剖析的信息相关联的过程,包括以下步骤:
接收信息;
接收与所接收的信息的行相关联的用户输入;
将所述用户输入与所接收信息的所述行相关联;
至少储存所述关联。
47.如权利要求46所述的过程,其特征在于,所储存的关联被用做用于条件随机场算法的训练示例。
48.如权利要求47所述的过程,其特征在于,所述条件随机场算法包括Collins模型算法。
49.如权利要求46所述的过程,其特征在于,所述储存步骤还包括:
储存将用户输入链接到各自的信息行的多个关联。
50.如权利要求46所述的过程,其特征在于,所述接收步骤从存储接收信息。
51.如权利要求46所述的过程,其特征在于,所述接收步骤从用户接收信息。
52.如权利要求46所述的过程,其特征在于,所述接收步骤接收由计算机生成的信息。
53.如权利要求46所述的过程,其特征在于,还包括以下步骤:
将所接收的信息剖析成行。
54.如权利要求46所述的过程,其特征在于,所述接收步骤接收先前已被剖析成行的信息。
55.一种其上储存程序的计算机可读介质,所述程序用于将用户输入与剖析的信息相关联,所述程序包括以下步骤:
接收信息;
接收与所接收的信息的行相关联的用户输入;
将所述用户输入与所接收信息的所述行相关联;
至少储存所述关联。
56.如权利要求35所述的计算机可读介质,其特征在于,所储存的关联被用做用于条件随机场算法的训练示例。
57.如权利要求56所述的计算机可读介质,其特征在于,所述条件随机场算法包括Collins模型算法。
58.如权利要求55所述的计算机可读介质,其特征在于,所述储存步骤还包括:
储存将用户输入链接到各自的信息行的多个关联。
59.如权利要求55所述的计算机可读介质,其特征在于,所述接收步骤从存储接收信息。
60.如权利要求55所述的计算机可读介质,其特征在于,所述接收步骤从用户接收信息。
61.如权利要求55所述的计算机可读介质,其特征在于,所述接收步骤接收由计算机生成的信息。
62.如权利要求55所述的计算机可读介质,其特征在于,所述程序还包括以下步骤:
将所接收的信息剖析成行。
63.如权利要求55所述的计算机可读介质,其特征在于,所述接收步骤接收先前已被剖析成行的信息。
64.一种用于将用户输入与剖析的信息相关联的计算机,包括:
用于接收信息的装置;
用于接收与所接收信息的行相关联的用户输入的装置;
用于将所述用户输入与所接收的信息的所述行相关联的装置;
用于至少储存所述关联的装置。
65.如权利要求64所述的计算机,其特征在于,所储存的关联被用做用于条件随机场算法的训练示例。
66.如权利要求65所述的计算机,其特征在于,所述条件随机场算法包括Collins模型算法。
67.如权利要求64所述的计算机,其特征在于,所述用于储存的装置还包括:
用于储存将用户输入链接到各自的信息行的多个关联的装置。
68.如权利要求64所述的计算机,其特征在于,所述用于接收的装置从存储接收信息。
69.如权利要求64所述的计算机,其特征在于,所述用于接收的装置从用户接收信息。
70.如权利要求64所述的计算机,其特征在于,所述用于接收的装置接收由计算机生成的信息。
71.如权利要求64所述的计算机,其特征在于,所述程序还包括:
用于将所接收的信息剖析成行的装置。
72.如权利要求64所述的计算机,其特征在于,所述用于接收的装置接收先前已被剖析成行的信息。
CNA2005101161980A 2004-10-20 2005-10-20 剖析分层列表和大纲 Pending CN1770174A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/968,813 US20060085740A1 (en) 2004-10-20 2004-10-20 Parsing hierarchical lists and outlines
US10/968,813 2004-10-20

Publications (1)

Publication Number Publication Date
CN1770174A true CN1770174A (zh) 2006-05-10

Family

ID=35929729

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101161980A Pending CN1770174A (zh) 2004-10-20 2005-10-20 剖析分层列表和大纲

Country Status (5)

Country Link
US (2) US20060085740A1 (zh)
EP (1) EP1655670A3 (zh)
JP (1) JP2006146894A (zh)
KR (1) KR20060049081A (zh)
CN (1) CN1770174A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517106A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种列表识别方法与系统
US10031893B2 (en) 2012-07-18 2018-07-24 Microsoft Technology Licensing, Llc Transforming data to create layouts
CN112287654A (zh) * 2019-07-25 2021-01-29 珠海金山办公软件有限公司 一种文档元素对齐方法及装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1669896A3 (en) * 2004-12-03 2007-03-28 Panscient Pty Ltd. A machine learning system for extracting structured records from web pages and other text sources
US7596270B2 (en) * 2005-09-23 2009-09-29 Dynacomware Taiwan Inc. Method of shuffling text in an Asian document image
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
JP4793436B2 (ja) * 2008-12-17 2011-10-12 富士ゼロックス株式会社 画像処理装置及びプログラム
US9159087B2 (en) 2011-01-21 2015-10-13 Flipp Corporation Digital flyer system with contextual information
US8988468B2 (en) 2011-01-21 2015-03-24 Wishabi Inc. Interactive flyer system
US20130117650A1 (en) * 2011-03-29 2013-05-09 C. James MacLennan Generating reproducible reports used in predictive modeling actions
US20120290288A1 (en) * 2011-05-09 2012-11-15 Xerox Corporation Parsing of text using linguistic and non-linguistic list properties
US8467607B1 (en) * 2011-11-21 2013-06-18 Google Inc. Segmentation-based feature pooling for object models
US8990140B2 (en) * 2012-06-08 2015-03-24 Microsoft Technology Licensing, Llc Transforming data into consumable content
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
US10558630B2 (en) * 2014-08-08 2020-02-11 International Business Machines Corporation Enhancing textual searches with executables
US10318613B2 (en) 2015-08-25 2019-06-11 Myscript System and method of digital note taking
US10210383B2 (en) 2015-09-03 2019-02-19 Microsoft Technology Licensing, Llc Interacting with an assistant component based on captured stroke information
US10387034B2 (en) 2015-09-03 2019-08-20 Microsoft Technology Licensing, Llc Modifying captured stroke information into an actionable form
JP6805552B2 (ja) * 2016-05-26 2020-12-23 コニカミノルタ株式会社 情報処理装置及びプログラム
US10380228B2 (en) 2017-02-10 2019-08-13 Microsoft Technology Licensing, Llc Output generation based on semantic expressions
US11587346B2 (en) 2020-12-10 2023-02-21 Microsoft Technology Licensing, Llc Detecting ink gestures based on spatial and image data processing
US11531454B2 (en) * 2020-12-10 2022-12-20 Microsoft Technology Licensing, Llc Selecting content in ink documents using a hierarchical data structure
US12087070B2 (en) 2021-11-12 2024-09-10 Microsoft Technology Licensing, Llc Sequence labeling task extraction from inked content
US20230315271A1 (en) * 2022-03-18 2023-10-05 Sony Group Corporation Collaborative whiteboard for meetings

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPQ055999A0 (en) * 1999-05-25 1999-06-17 Silverbrook Research Pty Ltd A method and apparatus (npage01)
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7203903B1 (en) * 1993-05-20 2007-04-10 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
JPH0877295A (ja) * 1994-09-05 1996-03-22 Hitachi Ltd 手書き情報検索方法及びそれを用いた手書き入力装置
US6202060B1 (en) * 1996-10-29 2001-03-13 Bao Q. Tran Data management system
US6157936A (en) * 1997-09-30 2000-12-05 Unisys Corp. Method for extending the hypertext markup language (HTML) to support a graphical user interface control presentation
US6651218B1 (en) * 1998-12-22 2003-11-18 Xerox Corporation Dynamic content database for multiple document genres
US6565611B1 (en) * 1999-02-26 2003-05-20 Xerox Corporation Automatic index creation for handwritten digital ink notes
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US6889226B2 (en) * 2001-11-30 2005-05-03 Microsoft Corporation System and method for relational representation of hierarchical data
US6970882B2 (en) * 2002-04-04 2005-11-29 International Business Machines Corporation Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US7010165B2 (en) * 2002-05-10 2006-03-07 Microsoft Corporation Preprocessing of multi-line rotated electronic ink
US20030215145A1 (en) * 2002-05-14 2003-11-20 Microsoft Corporation Classification analysis of freeform digital ink input
US7123770B2 (en) * 2002-05-14 2006-10-17 Microsoft Corporation Incremental system for real time digital ink analysis
US7050632B2 (en) * 2002-05-14 2006-05-23 Microsoft Corporation Handwriting layout analysis of freeform digital ink input
MXPA04011507A (es) * 2002-05-20 2005-09-30 Tata Infotech Ltd Identificador de estructura de documento.
US6667700B1 (en) * 2002-10-30 2003-12-23 Nbt Technology, Inc. Content-based segmentation scheme for data compression in storage and transmission including hierarchical segment representation
US7218779B2 (en) * 2003-01-21 2007-05-15 Microsoft Corporation Ink divider and associated application program interface
US20060242180A1 (en) * 2003-07-23 2006-10-26 Graf James A Extracting data from semi-structured text documents
US7502812B2 (en) * 2003-08-21 2009-03-10 Microsoft Corporation Electronic ink processing

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10031893B2 (en) 2012-07-18 2018-07-24 Microsoft Technology Licensing, Llc Transforming data to create layouts
CN104517106A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种列表识别方法与系统
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
CN112287654A (zh) * 2019-07-25 2021-01-29 珠海金山办公软件有限公司 一种文档元素对齐方法及装置

Also Published As

Publication number Publication date
KR20060049081A (ko) 2006-05-18
US20060085740A1 (en) 2006-04-20
EP1655670A3 (en) 2009-05-06
US7698340B2 (en) 2010-04-13
EP1655670A2 (en) 2006-05-10
JP2006146894A (ja) 2006-06-08
US20060085466A1 (en) 2006-04-20

Similar Documents

Publication Publication Date Title
CN1770174A (zh) 剖析分层列表和大纲
US11314969B2 (en) Semantic page segmentation of vector graphics documents
JP5036152B2 (ja) フリーフォームデジタルインク注釈認識
Gennari et al. Combining geometry and domain knowledge to interpret hand-drawn diagrams
JP4745758B2 (ja) テキストおよびグラフィクスの空間認識およびグループ化
US7945097B2 (en) Classifying digital ink into a writing or a drawing
US20140205188A1 (en) Sketch Recognition System
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
Ouyang et al. Recognition of hand drawn chemical diagrams
CN104520877A (zh) 手写绘制设备和方法
CN109740135A (zh) 图表生成方法及装置、电子设备和存储介质
CN111881683A (zh) 关系三元组的生成方法、装置、存储介质和电子设备
CN107844531B (zh) 答案输出方法、装置和计算机设备
Lyu et al. The early Japanese books reorganization by combining image processing and deep learning
Schönfelder et al. Deep learning-based text detection and recognition on architectural floor plans
EP4336379A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
Boillet et al. Confidence estimation for object detection in document images
Zhang et al. Computational method for calligraphic style representation and classification
MXPA05012152A (es) Alternantes de analisis en arboles de contexto.
CN117859122A (zh) 包括用于自动化文档处理的技术的ai增强的审计平台
CN109933788B (zh) 类型确定方法、装置、设备和介质
Kumar et al. ChartParser: Automatic Chart Parsing for Print-Impaired
Bai et al. Adaptive Correcting Strokes Extracted from Chinese Characters in Digital Ink of Non-native Writers Based on Comprehensive Visualization
CN112329744B (zh) 一种图片文字识别方法和装置
US20240087064A1 (en) Detecting reliability across the internet after scraping

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060510