CN105074693B - 语句解析校正系统 - Google Patents

语句解析校正系统 Download PDF

Info

Publication number
CN105074693B
CN105074693B CN201380066610.5A CN201380066610A CN105074693B CN 105074693 B CN105074693 B CN 105074693B CN 201380066610 A CN201380066610 A CN 201380066610A CN 105074693 B CN105074693 B CN 105074693B
Authority
CN
China
Prior art keywords
signal
cursor
expandable container
image
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380066610.5A
Other languages
English (en)
Other versions
CN105074693A (zh
Inventor
兰德尔·C·沃克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Walker Reading Technologies Inc
Original Assignee
Walker Reading Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Walker Reading Technologies Inc filed Critical Walker Reading Technologies Inc
Publication of CN105074693A publication Critical patent/CN105074693A/zh
Application granted granted Critical
Publication of CN105074693B publication Critical patent/CN105074693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

一种在计算机显示屏上提供计算机化的方法所产生的初始解析的图形图像的系统。单个从句被封装在可扩展容器中,并且用户可以在屏幕上使用鼠标或其他光标控制设备来移动所述容器以及重新调整其大小,由此改进初始解析。

Description

语句解析校正系统
相关申请的交叉引用
本申请是依照35U.S.C.§363提交的国际申请,根据35U.S.C.§119(e)(1),本申请要求享有先前于2012年10月25日根据35U.S.C.§111(b)提交的临时申请61/718,553的优先权。
背景技术
自动语句解析处理具有从一种语言到另一种语言的翻译到语音识别的诸多用途。“解析处理”包括将一个句子拆分成其构成短语:名词短语、动词短语和介词短语。短语的定义是构成一个组成部分并且由此充当句子句法中的单个单元的一个或多个单词的群组。短语始终包括语言(speech)的标题部分,并且经常还会包含其他单词。通常,任一短语都可以包括其他短语,也就是嵌套短语。
短语可被合并成从句。并且一个或多个从句可被合并成一个句子。句子可以单独由拼写术语来限定,也就是被限定成是大写字母与句点(句号)之间的内容。从句既可以包含也可以不包含通常但并不是始终为句子所有的名词、动词和宾语。
此类解析处理中的一个具体问题是解决歧义。设想这样一个句子“The old ladyhit the thief with her purse”。这个句子可以是指“老妇人用她的手提包打小偷”。或者它也可以是指“老妇人打了拿她的手提包的小偷”。毫无疑问,这两种含义的差别是很大的。
在这种时候,自动解析处理将无法轻易地解决这些歧义。实际上,即使是人也不能始终做到这一点,然而,人们往往能够通过参考相邻的句子乃至全文来做出有根据乃至非常精确的推测。
举个例子,如果以上这个句子的前一个句子是“老妇人拿着棒球棍和手提包沿街行走”,那么人们会准确地假设这个老妇人是用棒球棍打小偷的。另一方面,如果后面一句话是“小偷倒在地上,老妇人继续行走,手提包没有丢”,那么比较稳妥的假设是她用她的手提包打了小偷。
申请人的先前专利所描述的系统使用的是用于产生非常精确的分析处理的算法。这些专利包括以下序号的美国专利:
1998年09月01日发布的5,802,533
2001年08月21日发布的6,279,017
2006年04月25日发布的7,036,075
2010年07月27日发布的7,765,471
2010年12月28日发布的7,861,163
这些算法产生的是依照构成从句来对文本中的每个句子进行解析的层次列表。如果精确解析句子至关重要,并且可以通过延迟最终的列表来允许通过人工输入校正任何可能出现的错误,那么可以通过直接的人工编辑来校正这些列表。作为示例,如果解析处理是用于实时翻译的系统的一部分,那么将无法实施人工输入。
层次列表有可能会很复杂。与所有基于文本的信息呈现一样,此类列表很容易被误解,并且很难精确地检查出错误。检查此类列表的人往往会在一段时间之后丧失注意力,并且将无法精确地纠正存在错误的表,甚至会完全漏掉错误。相应地,以更多图形和较少文本的方式来显示句子结构的系统将允许更精确地校正此类列表。
发明内容
一种改进的语句解析系统具有:计算机,用于从计算机接收显示信号的显示屏,所述显示信号形成显示屏上的多个显示对象以及显示屏上的光标图像,以及受用户控制的光标控制部件。作为示例,所述光标控制部件可以是计算机鼠标。
光标控制部件向计算机提供用于指定光标在显示屏上的位置的光标控制信号,以及具有分别允许用户将下方对象附着于光标和将光标与下方对象分离的附着和分离状态的光标动作信号。在光标动作信号处于附着状态期间,对象是可以用光标移动的。响应于光标控制信号的分离状态而将对象与光标分离,将下方的对象在当前的位置放下。
计算机接收用于对构成句子的字符进行编码的输入语句信号,并且依照预先选择的解析算法来提供用于编码所述句子中的名词、动词和介词短语的初始解析版本的初始解析语句信号。然而,在一些情况中,初始解析版本并不足够精确。本发明则提供了一种手段来帮助校对者解决这个问题。
计算机首先配置成显示部件,所述显示部件接收初始解析语句信号,并且产生用于显示屏的解析图像显示信号。在显示屏上创建的解析图像显示信号显示依照初始顺序排列的语句文本,其中该语句文本具有处于连续行的句子中的名词、动词和介词短语,其间的关系是用缩进或水平偏移指定的。
然后,计算机配置成接收解析语句信号的格式化部件,该部件以可扩展容器(excon)格式来为句子中的每个短语创建excon图像。这其中的每个图像都包括短语以及短语特有的装饰。然后,格式化部件将excon图像编码在excon格式信号中,该信号定义了每个excon图像的形状以及指定初始解析的每个excon图像与其他excon图像的初始拓扑关系。
最后,计算机配置成校正部件,该校正部件接收excon格式信号以及光标控制和动作信号,并且响应于此来将光标附着于excon图像。然后,用户通过操作光标控制部件来移动光标和excon图像。
一旦将excon图像置于用户预期的位置,则用户会将光标与excon图像分离,由此将excon图像留在该预期位置。在光标移动的同时,校正部件会提供依照所述附着、移动和分离活动来创建图像的显示信号。响应于光标动作信号从附着到分离状态的变化,该校正部件产生最终解析图像显示信号,该信号会在显示屏上创建每个excon图像与其他excon图像之间的最终拓扑关系,并且所述关系指定经更改的解析。编码在最终解析图像显示信号中的语句文本具有处于连续行列的句子中的名词、动词和介词短语,并且这些短语具有指示最终解析的缩进。
该系统中的装饰可以包括处于excon内部的图案,并且短语是能够通过该图案而被看到的。举例来说,该图案可以包括能在显示屏上看到的线条。Excon图像内部的每条线都可以具有相似的类型,并且与该excon图像内部的其他线条是隔开的。至少一个excon图像内部的线条可以是实线,并且另一个excon图像内部的线条可以是虚线。
优选地,该格式化部件包括线条合并部件,其中由两个重叠的excon图像定义的显示屏上的区域会显示这两个重叠的excon图像所特有的线条。
在另一个版本中,所述装饰包括颜色,并且短语是能够透过该颜色阅读的。在这个版本中,格式化部件优选包括颜色合并部件,其中由两个重叠的excon图像定义的显示屏上的区域会显示与这两个重叠的excon图像特有的颜色不同的颜色。由两个重叠的excon图像所定义的显示屏上的区域的颜色与这两个重叠的excon图像中的每种颜色都可以具有光谱关系。
校正部件可以发布响应于该信号的分离状态来指定文本在附着于光标的excon图像内部的缩进的信号。该校正部件可以发布响应于光标和动作信号来改变至少一个excon图像的尺寸的显示信号。
该计算机还可以配置成转换部件,该部件接收最终解析图像信号并将其转换成关于原始语句的线性文本列表中的标记标签集合。然后,该转换部件将标记标签集合编码到最终的元标签列表信号中。
附图说明
图1是构成本发明的功能部件的框图。
图2是包含了用于显示关于样本语句的初始解析的屏幕显示的计算机系统的框图。
图3显示的是图2中的计算机系统的框图,其中该屏幕显示展示的是使用本发明作为辅助来改善样本语句解析的第一个阶段。
图4显示的是图2中的计算机系统的框图,其中该屏幕显示展示的是使用本发明作为辅助来改善样本语句解析的第二个阶段。
图5显示的是图2中的计算机系统的框图,其中该屏幕显示展示的是使用本发明作为辅助来改善样本语句解析的最终阶段。
具体实施方式
图1显示的是用户用来校正解析语句的图形图像的系统10的框图。其目的是在执行了机器解析处理之后,允许用户通过排列和重新排列单个短语来更精确地反映句子的实际意义,而不会改变句子短语的初始顺序。
申请人现在应该解决的是“软件”发明的问题。与某些人所想的相反,基于软件或固件的发明是具有物理结构的。在将被设计成实施一项发明的软件加载到微处理器或其他类型的指令处理器中并执行该软件时,该指令处理器其实会变成一台与加载和执行指令之前的机器不同的机器。
本发明的指令会促使指令处理器的单个电子组件(逻辑门、导线、放大器、存储器部件、时钟等等)以一种在执行指令之前无法实施的方式来进行交互。这些组件在导线上接收和发送与这些组件在运行本发明的指令之前所接收和发送的信号不同的信号。本发明的软件促使各种指令处理器组件进行协作和交互,以便形成包含了本发明的功能部件。随着指令的继续运行,这些组件中的单个组件可以在不同的时间形成这其中的两个或更多功能部件的一些部分。
诚然,我们不能直接看到本发明的指令执行时所在的指令处理器中的单个组件。这些组件深深地埋藏在构成指令处理器的微芯片的内部。其实在任何情况下,这些组件的物理尺寸多半都是几微米甚至更小。在充当本发明的功能部件的时候,指令处理器中的组件接收和发送的信号是无法直接测量的。
然而,专利法并没有要求一项专利的组件是可视的。此外在专利法中也没有禁止单个组件充当一项发明中的两个或更多功能组件的一部分。并且专利法也没有要求权利要求所限定的发明中的组件所产生的信号是能被人工检测的。
由此,将软件视为包含了一组功能部件的发明是完全恰当的。这些功能部件是通过运行本发明的软件而在指令处理器内部临时创建的物理结构。这些功能部件发送和接收的信号构成了这些功能部件之间的功能关系。在运行本发明的软件的时候,指令处理器实际变成了其实是本发明自身的专用硬件。
在每一种这样的情况下,人们都可能用更高的代价来设计和构造用于准确地重新创建“软件”发明的硬件。然而在软件以几分之一的代价即可实现相同结果的时候,人们怎么会希望实施这种昂贵的方法?既然如此,为什么法律会拒绝向发明人授予最有效的实施方式是作为在指令处理器内部运行的软件或固件而不是硬件的发明。出于常识和公平性的需要,应该以对待硬件的方式相同的方式来对待软件。
现在,在一些情况下,带有计算器或纸笔的人也可以执行本发明所执行的操作。申请人不会为任何这样的人类活动(human enveador)施加负担。在大多数的情况下,要想执行软件在数毫秒内执行的相同计算需要耗费假想的数个人年。申请人不会使用专利来阻止这种希望以手动的方式来重现本发明的功能的人。
图2-5显示的是形成了系统10的一部分的显示屏30。图2-5显示了一系列的图像,这些图像代表的是用于实施本发明的系统10的屏幕抓图。
系统10包括一个向显示屏30提供视频信号的计算机67。参见图4和5,鼠标64允许用户控制光标61在屏幕30上的位置。位于75的存储器部件M接收输入数据信号并在软件的控制下记录编码于其中的数据。所记录的数据可以在输出数据信号中被取回。所有这些组件都是常规组件。当然,计算机67还包括通常会在现代的个人计算机中找到的其他组件,例如键盘和外部设备的通信。
图2-5中的屏幕30显示都是典型的屏幕抓图的图像,其显示了系统10如何在用户校正初始机器解析的时候做出响应。在本论述中,方便起见使用了背景技术部分论述的相同的有歧义的句子“The old lady hit the thief with her purse”。
在图1中,所要解析的句子被编码在信号路径22上传送的初始语句信号中。该信号的来源可以包括与计算机67相连的键盘,先前记录了所要解析的文本的外部存储器等等。
图2显示的是将编码在路径22上的信号中的句子记录在存储器部件75中的功能部件25。然后,部件25开始解析句子中的短语。该解析的最终结果可以是元标签列表1:
元标签列表1:
<S><N>P1_The little old lady</NP><VP><V1>P2_angrily hit</V1>
<NP>P3_the thief><PP>P5_with her purse</PP></NP></VP>.</S>
计算机67产生一个将该初始解析字串存入存储器75的信号。在初始解析字串中,单个标签具有如下含义:
<XX>和</XX>——用于解析标签的起始和结束分隔符。
S——句子开端
N——名词
P1、P2等等——短语指示符
VP——动词短语
PP——介词短语
/——所指示的字符串的末尾
水平定位
功能部件28接收对构成句子的字符进行编码的输入语句信号,并且依照预先选择的解析算法来提供对句子的名词、动词和介词短语的解析版本进行编码的解析语句信号。对于每个短语中的第一个单词的位置来说,其位置的初始布局指示可以如下所示。为同一短语中的名词和动词之类的新的相等层次添加两个空格;为另一个层次内的每一个层次等级标签添加三个空格;当在较大的层次内存在多个等价层次时,以最远的分段为开端并且为每一个邻近的分段添加两个空格。
该处理会为作为示例的句子产生如下在表1中显示的元标签列表:
表1
水平偏移(缩进)是通过为每个名词短语(NP)指定大小为1的偏移以及为每个动词短语和介词短语指定大小为3的偏移而被确定的。表1中的这些水平偏移的值对应于短语中的第一个单词的第一个字母在图2中所在的列(x的值)。这些偏移是累积的。该排列的目的是为用户提供针对单个短语的更清楚的访问。
图2中的显示30反映了这种组织,其中单个短语被指示成33、36、39和42。应该注意的是,图2中的每个短语的起始字母的水平偏移与如上所示的水平偏移相对应。
功能部件31接收用于编码图2中的屏幕图案的信号,并且创建分别装入了单个短语文本33、36、39和42的封闭容器47、51、54和57。容器47、51、54和57类似于用户可以用诸如构成Word的一部分的绘图软件创建的矩形。该软件会自动放大或者重新调整这些容器的大小,以便在用户将容器移入或移出其他容器的时候收容多个短语,与使用常规绘图软件改变对象大小的方式相类似。如果使用缩写词“excon图像”或是简写“excon”来引用这些扩展或是可重调大小的文本容器,那么将会是非常方便的。
虽然在屏幕30上没有显示,然而应该理解,经历这种变更的每一个句子都处于其初始从中选出该句子的文本内部。这样做允许用户在检查初始解析的精确度的同时快速掌握句子的上下文。
显示屏30从计算机67接收显示信号,并且该显示信号会促使excon图像47、51、54和57和光标图像61被显示在屏幕30上。诸如鼠标64之类的光标控制部件可供用户控制光标。在用户操纵鼠标64时,鼠标64会向计算机67提供一个用于指定光标图像61的位置的光标控制信号。
在鼠标64上还具有在用户的控制下提供光标动作信号的按键,并且所述光标动作信号具有用于将光标图像61与光标图像下方的对象、例如excon图像47、51、54和57之一相附着或分离的附着和分离状态。在光标动作信号处于附着状态期间,下方的excon 47、51、54和57可以用光标控制信号所指定的光标图像61移动。光标动作信号的分离状态则会在excon图像47、51、54和57的当前位置将其释放。
由此,用户可以使用鼠标64及其上按键来控制附着于所涉及的excon图像的光标61(参见图4和5),从而改变excon图像47、51、54和57的位置。同样,用户可以改变excon图像47、51、54和57的尺寸,以便依照用户希望来适应更多的(或更少的)短语。
此外,如果在解析校正过程中为excon图像47、51、54和57提供以下被称为装饰的壁纸或背景图案,以便在解析校正期间用户重新排列容器的时候提供帮助,那么将会是非常便利的。在所显示的系统中,所述装饰包括不同类型的平行对角线,由此可以区分重叠或覆盖在一些容器上的其他容器。这些图案应具有透明度,由此,无论特定区域中的重叠容器有多少,都可以区分文本与壁纸图案。
参考图3可以看出,excon图像57具有与excon图像54中的从西南到东北的实线对角线以及excon图像51中的从西北到东南的虚线对角线相重叠的从西南到东北的虚线对角线。每个容器的背景图案所具有的透明特征能使其他excon图案及其内部的文本被清楚地看到。同时,每个图案都很容易与其excon图像47、51、54或57相关联。
在另一个版本中,所述装饰可以具有各种不同的颜色。计算机67可以包含一个颜色合并部件,该部件会促使单个excon图像内部的单个颜色混合或合并,以便产生能使用户快速地学会将其识别成具有特定含义。实际上,单个线条图案可被认为是颜色填充或图案的代表。颜色填充同样处于颜色形式中,其具有足以允许用户看到所涉及的excon内部保持的文本的透明度。当然,颜色和线条图案是可以同时存在于特定的excon内部的。
在一个版本中,颜色重叠的excon图像所具有的颜色将会混合,以便产生在光谱上与这两个重叠图像的颜色相关的新的颜色。作为示例,excon图像54与57相重叠的位置的线条图案表示了这种光谱关系。
功能部件34从功能部件31接收用于定义excon图像47、51、54和57的信号,并且为上表1中论述的短语计算恰当的水平偏移。然后,部件34向功能部件38传送用于编码这些偏移的信号。功能部件38对偏移信号进行处理,并且向显示屏30传送恰当对齐单个excon图像47、51、54和57的定位信号。
功能部件38激活功能部件45。当用户移动鼠标64的位置并且按下其控制按键时,鼠标操作信号将会流向部件45,然后,部件45会将这些信号传送到屏幕30。这些信号会促使光标61的位置(图4和5)依照鼠标64的移动而改变。
解析校正
功能部件48可以使用与在计算机操作系统的控制下抓取和移动任何显示对象的位置的方式相同的方式来允许用户使用鼠标64的按键将光标锁定在excon图像47、51、54或57上,然后依照用户预期来移动excon图像。
参考图4,用户已经通过按下鼠标64发布具有附着状态的光标动作信号而将光标61锁定在了excon图像57上,并且正在从excon图像54上移除excon图像57。应该注意的是,对于excon图像57来说,其在excon图像54外部的装饰与其在excon图像54内部的装饰是不同的。
在一个实施例中,当用户将一个被另一个excon图像封闭的excon图像局部移动到所述封闭excon图像之外时,所述封闭excon图像会自动通过收缩来重新调整尺寸。由此,用户可以将excon图像57完全移动到excon图像54以外,并且将excon图像57置于excon图像51内部。在一个实施例中,如图5所示,如果将excon图像57局部移动到excon图像54以外,那么将会导致excon图像54通过垂直收缩来重调大小,由此为excon 51内部的excon图像57创建空间。
在光标61的移动过程中,功能部件48会从鼠标信号中得到一个编码了excon图像57的新位置的信号。当用户放开将光标61附着在excon图像57上的鼠标按键时,光标动作信号会返回分离状态。然后,excon图像57会保持在该位置。
然后,如图5所示,功能部件52会重新调整excon图像51和54的大小,以便为excon图像57让出空间。功能部件55还会对光标动作信号的分离状态以及新的解析排列做出响应,以便为excon图像54和57中的文本重新计算新的水平(偏移)对齐。
在这个重新定位和重新调整excon 54和57的处理之后,屏幕30会显示用户(假定地)改进的解析,并且会发布一个用于编码新的排列的最终解析信号。将excon 57显示在excon 54以外以及将excon 51与54水平对齐代表的是由用户确定的更恰当的句子含义。
功能部件58接收最终解析信号,并且将excon图像所代表的新的解析排列转换成表2所示的关于元标签、水平偏移和短语的元标签列表。
下表2中的这些水平偏移的值与excon内部的短语中的第一个单词的第一个字母在图5中所处的列(x的值)是对应的。
表2
现在,P4的x值显示(1+2+4-2=5),由此表示将P4移到了P3的左侧,并且P4的水平偏移现在要比P3的水平偏移小2列。与图2中的P3的x值(其中x已经=6)相比,图5中的图形还略微移动了P3的x值(=7),这是excon定位算法中的规则所导致的结果,其中被取走了一个内部excon的excon(例如从用于P3的excon中取出了用于P4的excon)会自动向先前包含其他excon的excon添加一个附加列值,由此将其略微向右突出。这样做会为布局添加更多的空间差异,以使用户更清楚地观察每一个短语头端的列对齐。
然后,部件58将表2转换成列表2所示的文本字串,其中该文本串带有使用来自表2的偏移所修订的层次标签:
元标签列表2
<S><NP>P1_The little old lady</NP><VP><V1>P2_angrily hit</V1>
<NP>P3_the thief></NP><PP>P5_with her purse</PP></VP>.</S>
然后,该列表被编码在最终的元标签列表信号中,并被提供给部分由本发明构成的解析系统以进行更进一步的处理。作为示例,所述最终的元标签列表信号可应用于例如改进的翻译和语音合成这样的事情。该工具还有益于帮助编辑者或校对者检测潜在的歧义和错误句法,然后,作者或编辑者可以校正这些歧义和错误句法。

Claims (12)

1.一种用于改进的语句解析的系统,其具有计算机,用于从所述计算机接收形成显示屏上的多个显示对象以及所述显示屏上的光标图像的显示信号的所述显示屏,以及光标控制部件,所述光标控制部件受用户控制来提供i)指定光标的位置的光标控制信号给所述计算机,以及ii)具有将所述光标与所述光标下方的对象相附着或释放的附着和分离状态的光标动作信号,所述下方的对象能够在所述光标动作信号处于附着状态期间用所述光标移动,以及响应于所述光标动作信号的分离状态来将该对象在其当前位置放下,所述计算机接收用于对构成句子的字符进行编码的输入语句信号,并且从中产生所述句子的元标签列表,以及依照预先选择的解析算法来提供用于编码所述句子中的动词、名词和介词短语的解析版本的初始元标签列表信号,其中所述计算机还包括:
a)显示部件,其接收所述初始元标签列表信号,并且产生用于所述显示屏的初始解析图像显示信号,所述初始解析图像显示信号在所述显示屏上创建依照初始顺序排列的语句文本,并且语句文本具有处于连续行的所述句子中的名词、动词和介词短语,其间的解析关系用缩进指定;
b)格式化部件,其接收解析语句信号,并且以可扩展容器格式来为所述句子中的每个短语创建可扩展容器图像,每个所述图像都包括短语以及该短语特有的装饰,所述装饰包括图案,并且所述短语是能够通过所述图案而被看到的,以及/或者所述装饰包括颜色,并且所述短语是能够透过所述颜色阅读的,以及将可扩展容器格式编码在可扩展容器格式信号中,该可扩展容器格式信号定义每个可扩展容器图像的形状以及指定初始解析的每个可扩展容器图像与其他可扩展容器图像的初始拓扑关系;以及
c)校正部件,其接收所述可扩展容器格式信号以及光标控制和动作信号,并且响应于此来将所述光标附着于可扩展容器图像,移动所述光标和所述可扩展容器图像,以及随后将所述光标与所述可扩展容器图像分离,并且提供依照所述附着、移动和分离活动来创建图像的显示信号,以及响应于光标动作信号从附着到分离状态的变化,产生最终解析图像显示信号,该最终解析图像显示信号在所述显示屏上创建指定经更改的解析的每个可扩展容器图像与其他可扩展容器图像之间的最终拓扑关系,其中语句文本具有处于连续行的所述句子中的名词、动词和介词短语,并且这些短语具有指定最终解析的缩进。
2.如权利要求1所述的系统,其中所述装饰包括图案,并且所述短语是能够透过所述图案看到的。
3.如权利要求2所述的系统,其中所述图案包括能够在所述显示屏上看到的线条,可扩展容器图像内部的每条线都具有相似的类型,并且与该可扩展容器图像内部的其他线条是隔开的。
4.如权利要求3所述的系统,其中至少一个可扩展容器图像内部的线条是实线,并且另一个可扩展容器图像内部的线条是虚线。
5.如权利要求4所述的系统,其中所述格式化部件包括线条合并部件,其中由两个重叠的可扩展容器图像定义的显示屏上的区域显示这两个重叠的可扩展容器图像所特有的线条。
6.如权利要求1所述的系统,其中所述装饰包括颜色,并且所述短语是能够透过所述颜色阅读的。
7.如权利要求6所述的系统,其中所述格式化部件包括颜色合并部件,其中由两个重叠的可扩展容器图像定义的显示屏上的区域显示与这两个重叠的可扩展容器图像特有的颜色不同的颜色。
8.如权利要求7所述的系统,其中由两个重叠的可扩展容器图像所定义的显示屏上的区域的颜色与这两个重叠的可扩展容器图像中的每种颜色具有光谱关系。
9.如权利要求1所述的系统,其中所述校正部件发布响应于该光标动作信号的分离状态来指定附着于光标的可扩展容器图像内部的文本的缩进的信号。
10.如权利要求1所述的系统,其中所述校正部件发布响应于光标控制和动作信号来改变至少一个可扩展容器图像的尺寸的显示信号。
11.如权利要求1所述的系统,其中所述计算机还包括转换部件,其接收最终解析图像信号并将该信号转换成关于原始语句的线性文本列表中的标记标签集合,以及将所述标记标签集合编码到最终的元标签列表信号中。
12.一种用于改进的语句解析的系统,其具有计算机,用于从所述计算机接收形成显示屏上的多个显示对象以及所述显示屏上的光标图像的显示信号的所述显示屏,以及光标控制部件,所述光标控制部件受用户控制来提供i)指定光标的位置的光标控制信号给所述计算机,以及ii)具有将所述光标与所述光标下方的对象相附着或释放的附着和分离状态的光标动作信号,所述下方的对象能够在所述光标动作信号处于附着状态期间用所述光标移动,以及响应于所述光标动作信号的分离状态来将该对象在其当前位置放下,所述计算机接收用于对构成句子的字符进行编码的输入语句信号,并且从中产生所述句子的元标签列表,以及依照预先选择的解析算法来提供用于编码所述句子中的动词、名词和介词短语的解析版本的初始元标签列表信号,其中所述计算机还包括:
a)显示部件,其接收所述初始元标签列表信号,并且产生用于所述显示屏的初始解析图像显示信号,所述初始解析图像显示信号在所述显示屏上创建依照初始顺序排列的语句文本,并且语句文本具有处于连续行的所述句子中的名词、动词和介词短语,其间的解析关系用缩进指定;
b)格式化部件,其接收解析语句信号,并且以可扩展容器格式来为所述句子中的每个短语创建可扩展容器图像,每个所述图像都包括短语以及该短语特有的装饰,所述装饰包括透过其中所述短语是能够看到的图案,所述图案包括能够在所述显示屏上看到的、与该可扩展容器图像内部的其他线条是隔开的线条,并且线条的图案与每个其他所显示的可扩展容器的图案不同,以及将可扩展容器格式编码在可扩展容器格式信号中,该可扩展容器格式信号定义每个可扩展容器图像的形状以及指定初始解析的每个可扩展容器图像与其他可扩展容器图像的初始拓扑关系;以及
c)校正部件,其接收所述可扩展容器格式信号以及光标控制和动作信号,并且响应于此来将所述光标附着于可扩展容器图像,移动所述光标和所述可扩展容器图像,以及随后将所述光标与所述可扩展容器图像分离,并且提供依照所述附着、移动和分离活动来创建图像的显示信号,以及响应于光标动作信号从附着到分离状态的变化,产生最终解析图像显示信号,该最终解析图像显示信号在所述显示屏上创建指定最终解析的每个可扩展容器图像与其他可扩展容器图像之间的最终拓扑关系,其中语句文本具有处于连续行的所述句子中的名词、动词和介词短语,并且这些短语具有指定最终解析的缩进,每个校正部件的所述最终解析图像显示信号响应于该光标动作信号的分离状态来指定附着于光标的可扩展容器图像内部的文本的缩进,并且其中所述显示信号响应于光标控制和动作信号来指定至少一个可扩展容器图像的经改变的尺寸。
CN201380066610.5A 2012-10-25 2013-10-24 语句解析校正系统 Active CN105074693B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261718553P 2012-10-25 2012-10-25
US61/718,553 2012-10-25
PCT/US2013/066635 WO2014066651A2 (en) 2012-10-25 2013-10-24 Sentence parsing correction system

Publications (2)

Publication Number Publication Date
CN105074693A CN105074693A (zh) 2015-11-18
CN105074693B true CN105074693B (zh) 2018-06-12

Family

ID=50545481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380066610.5A Active CN105074693B (zh) 2012-10-25 2013-10-24 语句解析校正系统

Country Status (6)

Country Link
US (2) US9390080B2 (zh)
CN (1) CN105074693B (zh)
AU (1) AU2013334549B2 (zh)
CA (1) CA2889463C (zh)
GB (1) GB2523028A (zh)
WO (1) WO2014066651A2 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650089B1 (en) * 2012-10-25 2020-05-12 Walker Reading Technologies Sentence parsing correction system
US10769375B2 (en) 2017-08-17 2020-09-08 International Business Machines Corporation Domain-specific lexical analysis
US10445423B2 (en) 2017-08-17 2019-10-15 International Business Machines Corporation Domain-specific lexically-driven pre-parser
US11120215B2 (en) 2019-04-24 2021-09-14 International Business Machines Corporation Identifying spans using visual recognition
US11977844B1 (en) 2020-02-05 2024-05-07 Walker Reading Technologies, Inc. Reading assistance sponsorship system and methodolgy
US11170154B1 (en) * 2021-04-09 2021-11-09 Cascade Reading, Inc. Linguistically-driven automated text formatting

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1119755C (zh) * 1998-02-02 2003-08-27 蓝道尔·C·沃克 文本处理器
CN101599915A (zh) * 2008-06-05 2009-12-09 英业达股份有限公司 解析即时消息的语言学习系统及方法
CN101661494A (zh) * 2009-09-29 2010-03-03 莱芜钢铁集团有限公司 一种分布式中间件与数据库数据交互方法
CN102354318A (zh) * 2011-09-22 2012-02-15 用友软件股份有限公司 减少数据库系统中即席查询语句的装置和方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5909666A (en) 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
US5475588A (en) * 1993-06-18 1995-12-12 Mitsubishi Electric Research Laboratories, Inc. System for decreasing the time required to parse a sentence
CN1119755A (zh) 1995-01-17 1996-04-03 李明 非一体工业产品设计、生产、更新方法和装饰表及腰表系列
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
US6823325B1 (en) * 1999-11-23 2004-11-23 Trevor B. Davies Methods and apparatus for storing and retrieving knowledge
US20080195379A1 (en) * 1999-12-02 2008-08-14 Vanderwold Linda B Style-checking method and apparatus for business writing
CA2411038A1 (en) * 2000-06-09 2001-12-13 British Broadcasting Corporation Generation subtitles or captions for moving pictures
US6944603B2 (en) * 2000-06-24 2005-09-13 International Business Machines Corporation Fractal semantic network generator
US6738765B1 (en) * 2000-08-11 2004-05-18 Attensity Corporation Relational text index creation and searching
US6732098B1 (en) * 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US7171349B1 (en) * 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
OA12495A (en) * 2001-02-28 2006-05-24 Voice Insight Natural language query system for accessing an information system.
US20030043213A1 (en) * 2001-08-30 2003-03-06 International Business Machines Corporation Computer controlled user interactive display interface implementation for modifying the scope of selectivity of an on-screen pointer
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US20030125929A1 (en) * 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
US7526424B2 (en) * 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
US7328156B2 (en) * 2003-07-17 2008-02-05 International Business Machines Corporation Computational linguistic statements for providing an autonomic computing environment
WO2005033909A2 (en) 2003-10-08 2005-04-14 Any Language Communications Inc. Relationship analysis system and method for semantic disambiguation of natural language
US20050091036A1 (en) * 2003-10-23 2005-04-28 Hazel Shackleton Method and apparatus for a hierarchical object model-based constrained language interpreter-parser
US8276099B2 (en) * 2004-09-28 2012-09-25 David Arthur Yost System of GUI text cursor, caret, and selection
US7523137B2 (en) * 2005-04-08 2009-04-21 Accenture Global Services Gmbh Model-driven event detection, implication, and reporting system
US20070219773A1 (en) * 2006-03-17 2007-09-20 Xerox Corporation Syntactic rule development graphical user interface
US7962323B2 (en) * 2007-03-07 2011-06-14 Microsoft Corporation Converting dependency grammars to efficiently parsable context-free grammars
US8504374B2 (en) * 2009-02-02 2013-08-06 Jerry Lee Potter Method for recognizing and interpreting patterns in noisy data sequences
US8627207B2 (en) * 2009-05-01 2014-01-07 Apple Inc. Presenting an editing tool in a composite display area
US9110882B2 (en) * 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US20120078906A1 (en) * 2010-08-03 2012-03-29 Pankaj Anand Automated generation and discovery of user profiles
US8935654B2 (en) * 2011-04-21 2015-01-13 Accenture Global Services Limited Analysis system for test artifact generation
US20120290288A1 (en) * 2011-05-09 2012-11-15 Xerox Corporation Parsing of text using linguistic and non-linguistic list properties
US8488916B2 (en) * 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1119755C (zh) * 1998-02-02 2003-08-27 蓝道尔·C·沃克 文本处理器
CN101599915A (zh) * 2008-06-05 2009-12-09 英业达股份有限公司 解析即时消息的语言学习系统及方法
CN101661494A (zh) * 2009-09-29 2010-03-03 莱芜钢铁集团有限公司 一种分布式中间件与数据库数据交互方法
CN102354318A (zh) * 2011-09-22 2012-02-15 用友软件股份有限公司 减少数据库系统中即席查询语句的装置和方法

Also Published As

Publication number Publication date
CA2889463A1 (en) 2014-05-01
US9940317B2 (en) 2018-04-10
AU2013334549A1 (en) 2015-05-14
CA2889463C (en) 2021-08-31
WO2014066651A2 (en) 2014-05-01
US20150286618A1 (en) 2015-10-08
GB2523028A (en) 2015-08-12
US20170011019A1 (en) 2017-01-12
AU2013334549B2 (en) 2019-03-07
CN105074693A (zh) 2015-11-18
US9390080B2 (en) 2016-07-12
GB201508801D0 (en) 2015-07-01
WO2014066651A3 (en) 2014-07-03

Similar Documents

Publication Publication Date Title
CN105074693B (zh) 语句解析校正系统
CN105659201B (zh) 字符串显示装置
US7913191B2 (en) Common input/output interface for application programs
US20140176564A1 (en) Chinese Character Constructing Method and Device, Character Constructing Method and Device, and Font Library Building Method
JP2009500755A (ja) 文書視覚構造の文法的な解析
JP5664174B2 (ja) 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法
CN110427488A (zh) 文档的处理方法及装置
US20220284185A1 (en) Storage medium, information processing method, and information processing device
Zia et al. Urdu word segmentation using conditional random fields (CRFs)
CN114254071A (zh) 从非结构化文档中查询语义数据
KR20240059509A (ko) 디스플레이 방법, 장치, 사전펜, 전자기기 및 저장 매체
US20030046257A1 (en) Meta Normalization for text
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
CN111274761A (zh) 利用svg格式的字体编辑方法、系统及计算机可读记录介质
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
CN103425638A (zh) 一种词语对齐方法及装置
CN102723067B (zh) 一种字符显示方法和装置
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP7160327B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20110296301A1 (en) Document processing apparatus, document processing method, and program
TWI541664B (zh) Computer - aided selection of word - free input
JP2008134954A (ja) 情報処理装置、その制御方法、及びプログラム
JP2004110430A (ja) ドキュメントデザイン評価装置
KR100522797B1 (ko) 아랍어 문자 코드 변환 장치 및 그 변환 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant