CN101796511B - 标识间接引语中的语义关系 - Google Patents

标识间接引语中的语义关系 Download PDF

Info

Publication number
CN101796511B
CN101796511B CN2008801056172A CN200880105617A CN101796511B CN 101796511 B CN101796511 B CN 101796511B CN 2008801056172 A CN2008801056172 A CN 2008801056172A CN 200880105617 A CN200880105617 A CN 200880105617A CN 101796511 B CN101796511 B CN 101796511B
Authority
CN
China
Prior art keywords
semantic
identified
report
document
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008801056172A
Other languages
English (en)
Other versions
CN101796511A (zh
Inventor
R·克鲁奇
M·范登伯格
D·安
O·格尔维奇
B·佩尔
L·波拉尼
S·普雷沃
G·L·蒂奥内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ivalley Holding Co Ltd
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority claimed from US12/201,675 external-priority patent/US8868562B2/en
Publication of CN101796511A publication Critical patent/CN101796511A/zh
Application granted granted Critical
Publication of CN101796511B publication Critical patent/CN101796511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

提供了一种用于将从文档的诸如间接引语或态度报告等内容提炼的词语或一组词语相关联以形成共同地用于生成该内容的语义表示的语义关系的方法和计算机可读介质。语义表示可以包括从该内容的文本部分所标识或解析的元素,其元素可以与共享语义关系的其他元素相关联,诸如施动者、地点、或主题关系。还可以通过关联有关或关于一个元素的另一元素来发展关系,由此允许快速和有效地将在语义表示中找到的关联与从查询导出的关联作比较。该语义关系可以基于诸如该内容的文本部分内的每个元素的潜在含义和语法功能等语义信息来确定。

Description

标识间接引语中的语义关系
背景
在线搜索引擎已经成为用于进行搜索或导航可经由因特网访问的文档的日益重要的工具。通常,在线搜索引擎使用用户所提交的查询来执行用于检测可能的文档或这些文档中的文本的匹配进程。最初,由诸如Google(谷歌)或Yahoo(雅虎)所维护的常规在线搜索引擎提供的匹配进程允许用户在查询中指定一个或多个关键词以描述她/他正在查找的信息。接着,常规在线搜索引擎继续进行来查找包含该关键词的精确匹配的所有文档,但这些文档通常不会提供响应该查询的相关或有意义的结果。
现有常规在线搜索引擎受限于除了匹配进程所产生的精确匹配以外它们不识别所搜索的文档中对应于查询中的关键词的词语。同样,常规在线搜索引擎因用户受限于查询中要匹配的关键词而受到限制,并且因此如果不知道该关键词则不允许用户精确地表达所需信息。因此,只有实现识别查询的关键词与所搜索的文档中的词语之间的语义关系的自然语言搜索引擎才会增加搜索结果的精确度。
概述
提供本概述以便以简化的形式介绍在以下详细描述中进一步描述的一系列概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用作帮助确定所要求保护的主题的范围。
本发明的各实施例涉及一种用于发展从web或某些其他储存库检索到的文档的内容中找到的各个词语以及查询搜索项之间的关联的计算机实现的方法和计算机可读介质。可以用语义表示的内容可以是间接引语或其他态度报告,这样可以将内容的语义表示与接收到的自然语言查询作比较以便向用户提供有意义的且高度相关的结果。可以在特定元素或搜索项之间标识诸如“关于”关系等语义关系以便允许形成特定词语关联。一旦形成语义关系,可以为文档中的内容生成语义表示并且可以为搜索查询生成建议,这两者允许将该建议与一个或多个语义关系进行快速比较以便确定最相关的搜索结果。
附图简述
以下参考附图详细描述了本发明的各实施例,附图中:
图1是适用于实现本发明的各实施例的示例性计算环境的框图;
图2是适用于实现本发明的各实施例的示例性系统体系结构的示意图;
图3是根据本发明的一实施例从文档内的文本部分生成的语义表示的示图;
图4是根据本发明的一实施例从文档内的文本部分生成的语义表示的示图;
图5是根据本发明的一实施例从文档内的文本部分生成的语义表示的示图;
图6是根据本发明的一实施例从文档内的文本部分生成的语义表示的示图;
图7是根据本发明的一实施例从搜索查询生成的建议的示图;
图8是根据本发明的一实施例从文档内的文本部分生成的语义表示的示图,该文本部分包括两个句子;
图9是示出根据本发明的一实施例的用于发展从文档的内容中提炼的元素之间的语义关系的方法的流程图;
图10是示出根据本发明的一实施例的用于响应于接收到查询来创建从该查询提炼的各个项之间的关联以便生成建议的方法的流程图;以及
图11是示出根据本发明的一实施例的用于发展从文档的内容提炼的各元素之间的语义关系的方法的流程图。
详细描述
此处用细节来描述本发明的主题以满足法定的要求。然而,描述本身并非旨在限制本专利的范围。相反,发明人设想所要求保护的主题还可结合其他当前或未来技术按照其他方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,尽管术语“步骤”和/或“框”可在此处用于指示所采用的方法的不同元素,但除非而且仅当明确描述了各个步骤的次序时,该术语不应被解释为意味着此处公开的各个步骤之中或之间的任何特定次序。
因此,在一个方面,提供了一种用于发展从文档的内容提炼的各元素之间的语义关系以生成该内容的语义表示来进行索引的计算机实现的方法。最初,该方法包括标识要索引的文档的文本部分并确定在该文本部分中标识的多个元素的语义信息。该语义信息可以包括所标识的元素的含义或所标识的各元素之间的语法和/或语义关系中的一个或两者。所标识的元素中的至少一个可以被标识为与发言报告或态度报告相对应的报告动作。该方法还包括基于所确定的所标识元素的语义信息来将所标识的元素相关联,以使得所标识的元素的每个关联都表示特定语义关系。此外,该方法包括生成包括所标识的元素的关联的语义表示。
在另一方面,提供了一种用于响应于接收到自然语言查询来创建从该查询提炼的各个项之间的关联以生成建议的计算机实现的方法。该建议可用于询问来自存储在语义索引中的文档的内容的语义表示以便提供相关搜索结果。该方法还包括确定在该查询中找到的一个或多个搜索项的相关联的语义信息。可以在该查询内确定第一报告动作,而可以基于所确定的关于搜索项的至少一个的语义信息来在第一报告动作和该搜索项之间形成语义关系。在第一报告动作和该搜索项之间创建的关联是通过描述该语义关系的相关元素来作出的。最后,可以生成包括所形成的关联的建议并且将其与语义表示做进一步的比较以便确定高度相关的搜索结果。
在又一方面,提供了其上包含用于执行一种发展从文档的内容提炼的各元素之间的语义关系以便生成要索引的内容的语义表示的方法的计算机可使用指令的一个或多个计算机可读介质。最初,该方法包括标识要索引的文档的至少一部分(即文本部分)。随后可以解析该文本部分以标识要用语义表示的元素。除了确定文本部分内一个或多个关联级别之外,还确定所标识的元素潜在含义和它们之间的语法或语义关系。该方法还包括在文本部分内为所确定的一个或多个关联级别中的每一个标识报告动作,以使得第一报告动作可以与所标识的第一组元素相关联。该第一报告动作可以与第一关联级别相关联。相似地,第二关联动作可以与所标识的第二组元素相关联,该第二报告动作与第二关联级别相关联。此外,可以通过描述针对第一报告动作的所标识的第一组元素与针对第二报告动作的所标识的第二组元素之间的关联的相关元素来生成包括各个关联的语义表示。
在简要描述了本发明的各实施例的概览及其某些特征之后,以下描述适用于实现本发明的示例性操作环境。
一般地参考附图并最初具体参考图1,示出用于实现本发明的各实施例的示例性操作环境,并将其概括指定为计算设备100。计算设备100只是合适的计算环境的一个示例,并且不旨在对本发明的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或要求。
本发明可以在计算机代码或机器可使用指令的一般上下文中描述,机器可使用指令包括由计算机或诸如个人数据助理或其它手持式设备等其它机器执行的诸如程序模块等的计算机可执行指令。一般而言,包括例程、程序、对象、组件、数据结构等的程序组件指的是执行特定任务或实现特定抽象数据类型的代码。本发明的各实施例可以在各种系统配置中实施,这些系统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本发明的各实施例也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。
继续参考图1,计算设备100包括直接或间接耦合以下设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出(I/O)端口118、输入/输出组件120和说明性电源122。总线110可以是一条或多条总线(诸如地址总线、数据总线、或其组合)。尽管为了清楚起见用线条示出了图1的各框,但是在实际上,各组件的轮廓并不是那样清楚,并且按比喻的说法,线条更精确地将是灰色的和模糊的。例如,可以将诸如显示设备等呈现组件认为是I/O组件。同样,处理器具有存储器。本发明的发明人认识到,这是本领域的特性,并且重申,图1的图示只是例示可结合本发明的一个或多个实施例来使用的示例性计算设备。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内的并且被称为“计算机”或“计算设备”。
计算设备100通常包括各种计算机可读介质。作为示例而非限制,计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其它存储器技术;CDROM、数字多功能盘(DVD)或其它光或全息介质;磁带盒、磁带、磁盘存储或其它磁存储设备;或可用于对所需信息进行编码并且可由计算设备100访问的任何其它介质。
存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120等各种实体读取数据的一个或更多个处理器。呈现组件116向用户或其它设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。I/O端口118允许计算设备100在逻辑上耦合至包括I/O组件120的其他设备,其中某些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、打印机、无线设备等等。
现在转向图2,示出了根据本发明的实施例的适用于实现本发明的各实施例的示例性系统体系结构200的示意图。本领域普通技术人员可以明白和理解,图2中所示的示例性系统体系结构200只是合适的计算环境的一个示例,并且不旨在对本发明的使用范围或功能提出任何限制。也不应该将示例性系统体系结构200解释为对其中所示出的任何单个组件或各组件的组合有任何依赖性或要求。
如所示的,系统体系结构200可以包括分布式计算环境,其中客户机设备215可以在操作上耦合到自然语言引擎290,后者进而在操作上耦合到数据存储220。在在分布式计算环境中实现的本发明的各实施例中,在操作上耦合是指通过适当的连接将客户机设备215和数据存储220链接到自然语言引擎290和其他在线组件。这些连接可以是有线的或无线的。本发明的范围内的具体有线实施例的示例包括USB连接和通过网络的电缆连接(未示出)或互连单个机器内的各组件的总线或其他信道。本发明的范围内的具体无线实施例包括近程无线网络和射频技术。
应该明白和理解,“近程无线网络”的名称不旨在是限制性的,并且应该被宽泛地解释为至少包括以下技术:协商无线外围(NWP)设备;近程无线空气干扰网络(例如无线个人区域网(wPAN))、无线局域网(wLAN)、无线广域网(wWAN)、蓝牙TM等);无线对等通信(例如超宽带);以及支持设备之间的数据的无线通信的任何协议。此外,熟悉本发明的领域的人员会认识到,近程无线网络可以用各种数据传输方法(例如卫星传输、电信网络等)来实现。因此,要强调的是,在客户机设备215、数据存储220和自然语言引擎290之间的连接的各实施例不限于例如所描述的示例,而是涵盖各种各样的通信方法。在另一实施例中,计算设备可以在内部接纳语义解释组件250的功能,由此减轻对无线或有线连接的依赖。
示例性系统体系结构200包括部分地支持呈现设备275的操作的客户机设备215。在其中客户机设备215例如是移动设备的示例性实施例中,呈现设备(例如触摸屏显示器)可以被设置在客户机设备215上。此外,客户机设备215可以采用各种类型的计算设备的形式。仅作为示例,客户机设备215可以是个人计算设备(例如图1的计算设备100)、手持式设备(例如个人数字助理)、移动设备(例如膝上型计算机、蜂窝电话、媒体播放器)、消费电子设备、各种服务器等等。此外,计算设备可以包括被配置成在其间共享信息的两个或多个电子设备。
在各实施例中,如上所述,客户机设备215包括或在操作上耦合到被配置成在呈现设备275上呈现UI显示295的呈现设备275。呈现设备275可以被配置成能够向用户呈现信息的任何显示设备,诸如监视器、电子显示面板、触摸屏、液晶显示器(LCD)、等离子显示器、一个或多个发光二极管(LED)、白炽灯泡、激光器、电荧光光源、化学光源、弯曲灯线、和/或荧光灯或任何其他显示器类型,或者可以包括在其上投影视觉信息的反射面。虽然以上描述了呈现设备275的若干个不同配置,但是本领域普通技术人员应该明白和理解,可采用呈现信息的各种类型的呈现设备作为呈现设备275,并且本发明的各实施例并不限于所示和所描述的这些呈现设备275。
在一个示例性实施例中,由呈现设备275呈现的UI显示295被配置成呈现与自然语言引擎290和/或内容发布者相关联的网页(未示出)。在各实施例中,网页可以展示接收查询的搜索输入区域和通过使用该查询搜索语义索引而发现的搜索结果。查询可以由用户在搜索输入区域手动地提供,或者可以由软件自动生成。此外,如以下更全面讨论的,查询可以包括一个或多个关键词,当提交时该关键词时调用自然语言引擎290来标识最响应该查询中的关键词的适当的搜索结果。
图2中所示的自然语言引擎290可以采用诸如例如以上参考图1所描述的计算设备100等各种类型的计算设备的形式。仅作为示例而非限制,自然语言引擎290可以是个人计算机、台式计算机、膝上型计算机、消费电子设备、手持式设备(例如个人数字助理)、各种远程服务器(例如在线服务器云)、处理设备等。然而,应该注意,本发明并不限于在这些计算设备上实现,而是可以在处于本发明的各实施例范围内的各种不同类型的计算设备中的任何一个上实现。
此外,在一个实例中,自然语言引擎290被配置成搜索引擎,其被设计成响应于经由客户机设备215提交的查询来在因特网和/或数据存储220上搜索信息以及在搜索范围内从该信息收集搜索结果。在一个实施例中,搜索引擎包括挖掘可经由因特网访问的可用数据(例如新闻组、数据库、开放目录、数据存储220等)并构建包含web地址以及网页或以有意义的格式存储的其他文档的主题的语义索引260的一个或多个web爬行器。在另一实施例中,搜索引擎可用于便于从与所提交的查询内的搜索项相关的语义索引中标识和检索搜索结果(例如列表、表、顺序排列的web地址等)。搜索引擎可由因特网用户通过设置在客户机设备215上web浏览器应用程序访问。因此,用户可以通过在搜索输入区域(例如,出现在由与搜索引擎相关联的web浏览器应用程序生成的UI显示295上)处提交搜索项来进行因特网搜索。在另一配置中,可以进行搜索,其中查询被提交给一个或多个系统索引以便从诸如用户的硬盘等本地信息存储检索内容。
数据存储220一般被配置成存储与具有与之相关联的可搜索内容的在线项和/或材料相关联的信息(例如包括Wikipedia(维基百科)网站的文档)。在各个实施例中,这种信息可以包括但不限于可经由因特网、本地内联网、用户的机器的存储器或硬盘访问的文档、网页/网站的内容、电子材料;以及对搜索引擎可用的其他典型资源。此外,数据存储220可以被配置成可被搜索以获取对所存储信息的合适访问。在一个实例中,允许合适访问包括根据向其提供的准则来选择或过滤数据存储中的文档的子集。
例如,可以搜索数据存储220以选出由自然语言引擎290处理的一个或多个文档。在各实施例中,允许自然语言引擎290自由地检查数据存储以获取最近添加或修改的文档以更新语义索引。该检查过程可以持续地执行、按照预定的间隔进行、或者在指示聚集在数据存储220处的一个或多个文档发生改变时执行。本领域普通技术人员将明白和理解,存储在数据存储220中的信息可以是可配置的,并且可以包括在线搜索范围内的任何信息。这一信息的内容和量决不旨在限制本发明的各实施例的范围。此外,虽然数据存储220被示为单个独立的组件,但是实际上数据存储220可以是多个数据库,例如数据库簇,其各部分可以驻留在客户机设备215、自然语言引擎290、另一外部计算设备(未示出)、和/或其任何组合上。
一般而言,自然语言引擎290提供了一种用于对希望浏览并寻找在线信息的用户进行帮助的工具。在各实施例中,该工具通过应用自然语言处理技术来计算诸如从数据存储220得到的文档等文档集中的各段落的含义来操作。这些含义被存储在当执行索引时进行引用的语义索引260中。最初,当用户将查询输入到搜索输入区域中时,查询搜索流水线205分析用户的查询(例如字符串、完整词语、短语、字母数字组合、符号、或问题)并且使用语义关系将该查询转换成结构表示。该表示(下文中被称为“建议”)可以被用于询问存储在语义索引260中的信息以获取相关搜索结果。
在一个实例中,存储在语义索引260中的信息包括从在数据存储220处维护的文档或涵盖在在线搜索的范围内的任何其他材料中提取的表示。该表示(下文中称为“语义表示”)涉及从普通文本提炼的内容的直观含义,并且可以被存储在语义索引260中。在各实施例中,该语义表示是利用一系列有序的项重写规则或相关领域公知的任何其他试探法来从语义结构中导出的。在各实施例中,“语义结构”是由部分地利用词汇语义语法规则将文档的内容转换成该语义结构的文档解析组件在分析流水线的中间阶段生成的。
语义索引260的体系结构允许将所存储的语义表示和所导出的建议进行快速比较以找出匹配该建议的语义表示并且检索映射到与所提交的查询相关的语义表示的文档。因此,自然语言引擎290可以从提交到搜索界面(例如,出现在UI显示295上的搜索输入区域)的查询中确定用户的查询要求的含义,并接着筛选大量的信息以找出满足这些要求的对应的搜索结果。
在各实施例中,以上过程可以由执行用于发现相关搜索结果的一个或多个步骤的各种功能元件来实现。这些功能元件包括查询解析组件235、文档解析组件240、语义解释组件245、语义解释组件250、语法规范组件255、语义索引260、匹配组件265、和排序组件270。这些功能组件235、240、245、250、255、260、265和270一般指动态地链接和预备与其他组件或设备一起使用的各个模块化软件例程及其相关联的硬件。
最初,数据存储220、文档解析组件240和语义解释组件250构成索引流水线210。在操作中,索引流水线210用于从在数据存储220处访问的文档内的内容中提炼语义表示,并且在收集这些语义表示后构造语义索引260。如上所述,当被聚集以形成语义索引260时,语义表示可以保留到从中导出它们的文档230和/或文档230内的内容的位置的映射。换言之,语义索引260对语义解释组件250所生成和传达的(从在文档解析组件240处创建的语义结构导出的)语义表示进行编码。然而,在其他实施例中,文档解析组件240和语义解释组件250可以被配置成不将自然语言处理分成两个阶段(即LFG解析和语义解释)的单个元件,而是改为在单个步骤中产生语义表示,而没有在其中产生语义结构的分开阶段。
一般而言,文档解析组件240被配置成收集对自然语言引擎290可用的数据。在一个实例中,收集数据包括检查数据存储220以扫描存储在其中的文档的230的内容或其他信息。因为数据存储220内的信息可以被持续地更新,所以可以按定期的间隔、连续地、或在通知对文档230中的一个或多个做出更新时执行收集数据的过程。
当从文档230或其他可用源收集内容时,文档解析组件240执行各种过程以准备对其进行语义分析的内容。这些过程可以包括文本提取、实体识别、以及解析。文本提取过程基本上涉及从文档230的内容提取数据的表、图像、模板、以及文本部分,以及将它们从原始在线格式转换成可用格式(例如,超文本标记语言(HTML)),同时保存到从中提取它们文档230的链接以便于映射。可用格式的内容接着可以被拆分成各个句子。在一个实例中,将内容分成各个句子涉及将字符串组合成输入、应用一组规则以测试该字符串的具体特性、并且基于该具体特性将内容分成各个句子。仅作为示例,被测试的内容的具体特性可以包括标点符号和大写以便确定句子的起始和结束。一旦确定了一系列句子,则检查每个单独句子以检测其中的词语并可能将每个词语识别为宾语(例如“兴登堡”)、事件(例如“第二次世界大战”)、时间(例如“九月”)、动词、或可用于提出词语之间的区别或用于理解本句的含义的词语的任何其他的词语类别。
实体识别过程协助识别哪些词语是名称,因为它们向查询的问题相关关键词(例如谁、哪里、何时)提供具体答案。在各实施例中,识别词语包括将词语识别为名称和使用标签来注释该词语以便于在询问语义索引260时进行检索。在一个实例中,将词语标识为名称包括在预定义的名称列表中查找这些词语以确定是否存在匹配。如果不存在匹配,则可以使用统计信息来猜测该词语是否是名称。例如,统计信息可以协助识别诸如“USS企业”等可具有若干常用拼写变体的复杂名称的变体。
解析过程在被实现时提供对以上所标识的句子的结构的洞察。在一个实例中,这些洞察是通过应用在语法规范组件255的框架中维护的规则来提供的。当被应用时,这些规则或语法加速分析句子以提炼句子中的各词语之间的关系表示。如上所述,这些表示被称为语义结构,并允许语义解释组件250捕捉有关句子的语法结构的关键信息(例如动词、主语、宾语等)。
语义解释组件250一般被配置成通过识别词语之间的语义关系来诊断由文档解析组件240生成的语义结构中的每个词语的角色。最初,诊断可以包括分析语义结构的语法组织并且将其分成每一个都表达分立的观点和具体事实的各个逻辑断言。可以进一步分析这些逻辑断言以确定构成断言的词语序列中的每一个词语的功能。在一个实例中,确定词语序列的功能包括利用一系列有序的项重写规则或相关领域公知的任何其他试探法。
如果适当,可以基于每个词语的功能或角色来扩展词语序列中的一个或多个词语以包括同义词(即链接到对应于所扩展的词语的特定含义的其他词语)或上位词(即链接到一般地涉及所扩展的词语的一般含义的其他词语)。这种对词语的扩展、每个词语在表达式中起到的功能(如上所述)、词语序列中的每一个词语的语法关系、以及语义解释组件250所识别的有关语义表示的任何其他信息组成了可以作为语义表示来存储在语义索引260处的语义表示。
语义索引260用于存储由索引流水线210的一个或多个组件所导出的语义表示并且可以按相关领域中任何公知方式来配置。作为示例,语义索引可以被配置成在结构上类似于常规搜索引擎索引的倒排索引。在该示例性实施例中,倒排索引是其条目是具有指向词语所出现的文档230以及其中位置的指针的那些词语的可快速搜索的数据库。因此,当将语义结构写入到语义索引260中时,索引每个词语和相关联的功能连同指向其中出现语义词语的文档中的句子的指针。语义索引260的该框架允许匹配组件265高效地访问、导航和匹配所存储的信息以取得与所提交的查询对应的有意义的搜索结果。
客户机设备215、查询解析组件235、以及语义解释组件245构成查询调节流水线205。类似于索引流水线210,查询调节流水线205从词语序列中提炼有意义的信息。然而,与处理文档230内的段落不同,查询调节流水线205处理在查询225中提交的词语。例如,查询解析组件235接收查询225并执行准备词语以对其进行语义分析的各种过程。这些过程可类似于诸如文本提取、实体识别和解析等由文档解析组件240采用的过程。此外,查询225的结构可以通过应用在语法规范组件225和语义解释组件245的框架中维护的规则来标识,由此导出查询225的有意义的表示或建议。
在各实施例中,语义解释组件245能以与语义解释组件250解释从文档230中的文本段落中导出语义结构基本上相同的方式来处理查询语义表示。在其他实施例中,语义解释组件245可以标识构成查询225的关键词串(例如问题或短语)中的各关键词的语法和/或语义关系。作为示例,标识语法和/或语义关系包括标识词语或短语是否担当主语(动作的施动者)、宾语、谓语、间接宾语、或查询225的建议的时间地点。在另一实例中,评估该建议以标识与每个关键词相关联的逻辑语言结构。作为示例,评估可以包括以下步骤中的一个或多个:确定至少一个关键词的功能;基于该功能,用涵盖多个含义的逻辑变量替换关键词(例如,将该功能与多个含义相关联);以及将这些含义写入到查询的建议中。查询225的该建议、关键词、以及从该建议和/或关键词提炼的信息接着被发送给匹配组件265以供与从文档230提取并且存储在语义索引260中的语义表示作比较。
在一示例性实施例中,匹配组件265将查询225的建议与语义索引260处的语义表示作比较以查明相匹配的语义表示。通过关联从中导出这些相匹配的语义表示的文档230和其中的位置,可以将这些语义表示映射回从中提取它们的文档230。排序组件270搜集并且排序由相关联的位置瞄准的这些文档230。排序能以相关领域中任何公知方法来执行,并且可以包括但不限于根据匹配的紧密程度进行排序、基于所返回的文档230的流行度来列出、或基于提交查询225的用户的属性来排序。这些经排序的文档230包括搜索结果285并且可以被传达给呈现设备275以便以适当的格式呈现在UI显示295上。
继续参考图2,该示例性系统体系结构200仅是可以实现来执行本发明的各方面的合适环境的一个示例,而并非旨在对本发明的使用范围或功能提出任何限制。也不应将所示的示例性系统体系结构200或自然语言引擎290解释为对所示出组件235、240、245、250、255、260、265和270中的任一个或其组合有任何依赖性或要求。在某些实施例中,组件235、240、245、250、255、260、265和270中的一个或多个可以被实现为独立设备。在其他实施例中,组件235、240、245、250、255、260、265和270中的一个或多个可以被直接集成到客户机设备215中。本领域普通技术人员可以理解,图2中所示的组件235、240、245、250、255、260、265和270在本质上和数量上是示例性的并且不应被解释为限制性的。
因此,可采用任何数量的组件来实现本发明的各实施例的范围内的所需功能。尽管为了清楚起见用线条示出了图2的各组件,但是在实际上,各组件的轮廓并不是那样清楚,并且按比喻的说法,线条更精确地将是灰色的和模糊的。此外,虽然图2的某些组件被描述为单个框,但是这些描述在本质上和数量上是示例性的,且并不被解释为限制性的(例如,虽然仅示出了一个呈现设备275,但是多得多的呈现设备可以在通信上耦合到客户机设备215)。
现在转向图3,示出了根据本发明的一实施例从文档内的文本部分生成的语义表示的示图300。可以从例如存储在数据存储中以供在索引期间容易地访问的一个或多个文档的内容中提取文本部分。在一个实施例中,从中提取文本部分的文档是web文档,但是在其他实施例中,文档可以是来自任何类型的文档集合的任何类型的基于文本的文档。本领域普通技术人员会清楚,可以检索任何类型的文档,诸如可以从任何文档集合检索的文档或者甚至是对于集合内的具体文档的分析。文本部分可以包括间接引语和其他态度报告,其可以由在该文本部分找到的多个词语来标识,诸如但当然不限于声明公开指责、说、相信、希望、拒绝等。在态度报告中标识这些词语是因为它们描述了个人对特定主题的态度。间接引语可以采用从个人直接引用的形式或者可以是第二手的间接引语。如以下示例所示和所描述的,各种形式的间接引语和其他态度报告,包括上述间接引语和态度报告,会变得显而易见。
语义表示一般涵盖三个主要目的,包括但不限于各个词语的含义、词语之间的关系、以及上下文。语义表示允许对文本更加彻底的理解,而非仅依赖于例如来自与文档(例如web文档)中的词语相匹配的查询的关键词。此处,确定关系以允许对文本进行更深入的分析。示图300包括文本部分305、第一关联级别310、第二关联级别320和第三关联级别330。关联级别310、320和330中的每一个包含一个或多个元素和一个或多个相关元素。在图3的实施例中,相关元素由项312、314、316、322、332和334来表示。元素包括词语“公开指责”、“布什”、“华盛顿”、“呼吁”、“撤军”、“美国”和“伊拉克”。也对每个关联级别示出了报告动作,此处为词语“公开指责”、“呼吁”、“撤军”。这样,在某些实施例中,可以存在作为元素但是也被分类成报告动作的某些词语,诸如“公开指责”、“呼吁”和“撤军”。
为了清楚地示出图3的实施例,示出了文本部分305的语义表示,其如下所示:“在华盛顿,乔治布什公开指责美国从伊拉克撤军的呼吁。”应该注意,图3是下文中再现的语义表示的示图。仅是出于说明的目的来同时以示图格式和作为语义表示提供本示例。在某些实施例中,语义表示被生成并存储在诸如图2的语义索引260等语义索引中,但是不生成示图。在这些实施例中,仅是为了说明和示例的目的而再现示图。
上下文(顶层):DNC(公开指责)施动者:B
上下文(顶层):DNC主题:上下文(3)
上下文(顶层):DNC地点:W(华盛顿)
上下文(3):CL(呼吁)主题:上下文(5)
上下文(5):WTHD(撤军)施动者:U(美国)
上下文(5):WTHD地点:I(伊拉克)
词语:B  [乔治布什,人]上下文(顶层)
词语:DNC[公开指责,批评,说]上下文(顶层)
词语:W  [华盛顿特区”,城市,地点]上下文(顶层)
词语:CL[呼吁,说]上下文(3)
词语:WTHD[撤军,移动]上下文(5)
词语:U  [美利坚合众国,国家,地点]上下文(5)
词语:I  [伊拉克,国家,地点]上下文(5)
如所示的,在文本部分(即图3的项305)中标识了三个关联级别,本文中也被称为上下文。这些关联级别(即上下文)是上下文(顶层)、上下文(3)和上下文(5)。这些关联级别被标识为报告动作的主题,它们一般是动作词语,并且在某些实施例中是动词。此处,“公开指责”是与第一关联级别310相关联的报告动作。第二关联级别320可以被认为是在第一关联级别310中标识的报告动作“公开指责”的主题。相似地,第三关联级别330可以是在第二关联级别320中标识的报告动作“呼吁”的主题。
形成各关联级别以便将全部以相同的方式保持成立的大量关系聚集在一起。诸如上下文(顶层)等顶层关联级别可以是根据句子的每个问题都保持成立的关联。例如,在图3的实施例中,布什在华盛顿做出声明可能是真的,而不论他公开指责什么。布什公开指责的声明是嵌入上下文,而在该实施例中该嵌入上下文是“呼吁美国从伊拉克撤军”。根据该示例,因为从伊拉克撤军没有发生,所以该声明位于第二关联级别,其在此处可以被称为假设上下文。使用以上所概述的上下文结构或关联级别,可以将不同的语义关系标识为在不同的情况下或以不同的方式保持成立。
可以基于多个因素来确定报告动作,并且可以为每个关联级别标识报告动作。在某些实例中,报告动作是动作词语,诸如在图3的实施例中的“公开指责”、“呼吁”和“撤军”。报告动作可以是例如动词、名词等,并且通常由周围文本或该词语在句子中是如何使用的来确定。这种类型的语法信息可以例如通过应用一组规则来确定,该组规则可以在例如图2的语法规范组件255的框架中维护。通过应用一组规则或语法,确定词语的关系,这导致对报告动作的标识。
如图3所示,报告动作被链接到诸如词语或短语等元素或者可以被链接到不同的关联级别。报告动作被标识为事件的各个角色,这在该示例中可以被称为公开指责事件。例如,“公开指责”被标识为第一关联级别310的报告动作。词语“公开指责”被链接到词“语布什”和词语“华盛顿”,两者都出现在被进行语义分析的文本部分中。由于布什实际上进行了公开指责,所以“公开指责”被链接到“布什”,因为“布什”是词语“公开指责”的施动者。因此,施动者312是将两个词语链接到一起并由此形成语义关系的相关元素。同样,地点314是将包括“公开指责”和“华盛顿”的两个词语链接在一起的相关元素。为了将相关元素与不同层次的上下文内的词语相链接,可寻找将这两者链接到一起的主题。例如,可确定正在公开指责什么事件并且这可以是报告动作“公开指责”的主题。此处,呼吁某事可以是“公开指责”的主题316,而进一步地,美国从伊拉克撤军可以被标识为第二关联级别内的报告动作“呼吁”的主题322(即呼吁事件。在第三关联级别330中,“美国”被标识为撤军的施动者332,而“伊拉克”是撤军的地点334。
元素是从原始内容中解析的并且在此处包括诸如“公开指责”、“布什”、“华盛顿”、“呼吁”、“撤军”、“美国”和“伊拉克”等词语。这些词语中的一个或多个可以具有在语义表示中由逻辑变量表示的相似含义。该逻辑变量可以表示具有与该元素相似的含义的多个同义词、该元素所适合的类别,并且也可以表示该元素可能具有的多个含义。某些元素比其他元素更容易确定正确的含义。在一个实例中,可以基于该元素是如何在文本部分的上下文中使用的来确定含义。如上所示,“布什”被标识为“乔治布什”,其被标识为人。报告动作“公开指责”与在此处仅为了示例性目的而提供的“批评”和“说”相关联。可以存在具有与“公开指责”相似含义的多个其他词语并且该多个词语也可被确定为与其相关联。同样,“华盛顿”与包括城市和地点的类别相关联。“撤军”与“移动”相关联,而“美国”和“伊拉克”两者都被归类为国家和地点。
诸如在图3中所示的,语义表示允许在接收和分析用户的查询之后将更好、更精确或更相关的搜索结果返回给用户。例如,通过解析文本(例如目标语句)“在华盛顿,乔治布什公开指责d美国从伊拉克撤军的呼吁”并且如上所述发展语义关系,可以在接收到诸如“布什关于伊拉克说了什么,”而非“布什关于华盛顿说了什么”的自然语言查询时将该文本返回给用户。假设传统的关键词搜索可以将“公开指责”标识为一种形式的“说”,则它将给予目标句子中的项“华盛顿”、“美国”和“伊拉克”相同的突出性,从而导致它按诸如“说布什 华盛顿”等关键词查询来检索。一种将项“公开指责”链接到其直接论点“呼吁”而不进一步深入的更高级的索引方案将不能检测到该公开指责是关于伊拉克的。除了地点314的报告动作之外,项“华盛顿”被排斥在链接到“公开指责”之外,因为它未被标识为嵌入在正被分析的文本部分内。
图4是示出根据本发明的一实施例从文档内的文本部分生成的语义表示的示图400。同样,文本部分可以包括间接引语和其他态度报告,它们可以由在文本部分中找到的多个词语来标识,这些词语诸如但是当然不限于公开指责、说、相信、希望、拒绝等。虽然图3的实施例提供了语义表示作为分析词语之间的语义关系的结果,但是该表示可以用有关动词“公开指责”的哪些论点传达该公开指责的内容的信息来补充。可以添加其他词汇信息以指示该公开指责是关于什么的。以下是与图3中所使用的同一文本的语义表示,其如下:“在华盛顿,乔治布什公开指责美国从伊拉克撤军的呼吁”。然而,此处除了图3的实施例中形成的关系之外还形成了“关于(about)”关系以便在接收到查询之后提供更加相关的搜索结果。
上下文(顶层):DNC施动者:B
上下文(顶层):DNC主题:上下文(3)
上下文(顶层):DNC地点:W
上下文(顶层):DNC关于:CL
上下文(顶层):DNC关于:WTHD
上下文(顶层):DNC关于:U
上下文(顶层):DNC关于:I
上下文(3):CL主题:上下文(5)
上下文(5):WTHD施动者:U
上下文(5):WTHD地点:I
词语:B  [乔治布什,人]上下文(顶层)
词语:DNC  [公开指责,批评,说]上下文(顶层)
词语:W:[华盛顿特区,城市,地点]上下文(顶层)
词语:CL  [呼吁,说]上下文(3)
词语:WTHD  [撤军,移动]上下文(5)
词语:U  [美利坚合众国,国家,地点]上下文(5)
词语:I  [伊拉克,国家,地点]上下文(5)
存在多种可用于计算和记录“关于性(aboutness)”链接的方法。一种方式是计算从主题论点开始的上下文和论点链接的传递闭包,并且将该闭包中的任何项标记为报告所关于的项。这在以上的语义表示中示出,并且也在图4中示出。
图4示出了在语义上表示的文本部分405。与图3一样,图4示出了三个关联级别,它们是第一关联级别410、第二关联级别430和第三关联级别440。“公开指责”是第一关联级别410的报告动作,“呼吁”是第二关联级别430的报告动作,而“撤军”是第三关联级别440的报告动作。如所示的,“公开指责”现在比它在图3的实施例中所具有的更多的语义关系,如除了先前的关系之外现在示出的“关于”关系。已经确定了“公开指责”与带有相关元素施动者412的“布什”、带有相关元素地点414的“华盛顿”以及带有该公开指责事件的相关元素主题416第二关联层430中的每一个之间的语义关系。此外,第三关联层440是呼吁的主题432,“美国”是撤军的施动者442,而“伊拉克”是撤军的地点444。
除了这些关系之外,示出了若干个“关于”关系,包括链接到第三关联层440中的“撤军”的关于418、链接到第二关联层430中的“呼吁”的关于420、链接到第三关联层440中的“美国”的关于422、以及链接到同样在第三关联层440中的“伊拉克”的关于424。这样,该公开指责事件是关于撤均的、是关于呼吁的、是关于美国的、以及是关于伊拉克的。如所示的,该公开指责事件并非关于布什的,也不是关于华盛顿的。例如,确定这些“关于”关系并且避免与布什和华盛顿的“关于”关系消除了将不相关的搜索结果返回给用户。
参考图5,示出根据本发明的一实施例从文档内的文本部分生成的语义表示的示图500。该实施例的语义表示在下文中是对于以下的文本部分505示出的:“在华盛顿,乔治布什公开指责美国从伊拉克撤军的呼吁”。
上下文(顶层):DNC施动者:B
上下文(顶层):DNC主题:上下文(3)
上下文(顶层):DNC地点:W
上下文(3):CL主题:上下文(5)
上下文(3):CL讲话:DNC
上下文(5):WTHD施动者:U
上下文(5):WTHD地点:I
上下文(5):WTHD讲话:DNC
词语:B  [乔治布什,人]上下文(顶层)
词语:DNC  [公开指责,批评,说]上下文(顶层)
词语:W:[华盛顿特区,城市,地点]上下文(顶层)
词语:CL  [呼吁,说]上下文(3)
词语:WTHD  [撤军,移动]上下文(5)
词语:U  [美利坚合众国,国家,地点]上下文(5)
词语:I  [伊拉克,国家,地点]上下文(5)
如以上所示,索引仅标记每一报告事实的头部,而非如图4中的情况标记报告所关于的每个元素。例如,图5示出了“公开指责”已经被标识为第一关联级别510的报告动作,并且被链接到各个元素,诸如由相关元素施动者512链接到“布什”以及由相关元素地点514链接到“华盛顿”。此外,“公开指责”的主题516被标识为“呼吁美国从伊拉克撤军”,其部分包含在第二关联级别530内并且部分包含在第三关联级别540内。“呼吁”由相关元素主题532链接到第三关联级别540。在第三关联级别540中,“撤军”分别由相关元素施动者542和地点544链接到“美国”和“伊拉克”两者。
作为以上定义的关系的补充并且作为“关于”关系的替换,存在两个被称为为讲话(spoken)的元素,并且它们被示为链接到“撤军”的讲话518和链接到“呼吁”的讲话520。该框架仍然允许在“公开指责”和“撤军”、“美国”以及甚至是“伊拉克”之间的连接。不同之处在于图5的实施例中的这些关系是间接关系而非直接关系。如上所述,使用该实施例的折衷是减少在索引内对存储器的使用,但是增加在接收到查询之后用于计算所需的时间。继续参考图5,例如,示出了图4的实施例的替换实施例,其示出了空间-时间折衷的概念。如可以通过比较图4的示图和图5的示图所看到的,图5的示图看起来较为简单,因为它并不显式地包含任何使用“关于”相关元素的“关于”关系。由于图5包含较少的标识关系,因此它在索引内占用较小量的空间,并且由此占用较小量的存储该索引的数据存储。虽然可以针对图5的实施例使用较少的存储器和存储空间,但是可能需要更多的时间来将查询建议于索引内的语义表示相匹配,因为还未标识“关于”关系。换言之,没有在索引内显式地对“关于”关系编码以允许快速比较。这要求在后端进行多得多的计算,这样对于用户可能导致增加的等待时间。另选地,图4的实施例在前端显式地计算“关于”关系并且将这些关系存储在索引中,这允许将查询建议与语义表示进行快速比较,从而使得在用户输入查询之后需要较少的时间来进行计算。
图6示出根据本发明的一实施例从文档内的文本部分生成的语义表示的图示600。图6的实施例示出了与图3和图4的实施例相似的、但更加简单的示例。文本部分605表述如下:“约翰相信玛丽去了华盛顿”。以下是文本部分605的语义表示。
上下文(顶层):BEL(相信)施动者:J(约翰)
上下文(顶层):BEL主题:上下文(2)
上下文(顶层):BEL关于:G(去)
上下文(顶层):BEL关于:M(玛丽)
上下文(顶层):BEL关于:W(华盛顿)
上下文(2):G施动者:M
上下文(2):G地点:W
词语:J  [约翰,人]上下文(顶层)
词语:BEL[相信]上下文(顶层)
词语:W  [华盛顿特区,城市,地点]上下文(2)
词语:G  [去,移动]上下文(2)
词语:M  [玛丽,人]上下文(2)
从原始内容解析的元素包括“约翰”、“相信”、“去”、“玛丽”以及“华盛顿”。“相信”被标识为第一关联级别610内的报告动作,而“去”是第二关联级别630内的报告动作。如上所定义的相关元素将各元素链接在一起并且描述关联的类型,包括施动者612、主题614、关于616、关于618、关于620、施动者632以及地点634。第二关联级别630是“相信”的主题,而存在“关于”“相信”的报告动作的三个词语。“相信”是关于“玛丽”的,玛丽“去了”(例如,去)哪里以及玛丽去了哪里(例如“华盛顿”)。同样,在某些实施例中,逻辑变量可以用元素代替,并且该逻辑变量可以与多个同义词、该元素或词语的各个含义等相关联。
现在转向图7,示出了根据本发明的一实施例从搜索查询生成的建议的示图700。以与语义表示类似的方式生成建议(例如从web文档导出的内容的表示)。此处,查询705如下所示:“谁说了关于伊拉克的某事?”以下示出了建议。
上下文(顶层):SY-2(说)施动者:P-2(人)
上下文(顶层):SY-2主题:E-2(元素)
上下文(顶层):SY-2关于:I-2(伊拉克)
词语:P-2  [人]上下文(顶层)
词语:SY-2  [说]上下文(顶层)
词语:E-2  [*]上下文(顶层)
词语:I-2  [伊拉克,国家,地点]上下文(顶层)
解析查询以及对其执行语义分析通常比对文档内容执行相同的分析要简单得多,因为查询一般在长度上较短并且可能仅包含一个关联级别,如图7中所示。关联级别710包含已经被解析和标识的多个元素,包括“人”、“说”以及“伊拉克”。存在附加元素,但是它类似于通配符,因为它可以是许多事物而非仅仅是一个词语。该附加元素表示来自该查询的词语“某事”。在一个实施例中,当解析查询时可以从该查询中提取诸如“某事”等可以匹配任何事物的元素,以免在将建议与语义表示相匹配时造成限制。
除了若干个相关元素之外,图7中所示的建议还包括报告动作“说”。施动者712将“人”链接到“说”。关于714将“说”链接到“伊拉克”,而主题716将“是”链接到通配符元素,该通配符元素如上所述可以是任何事物。如所示的,词语“谁”在建议中被“人”代替。
可以将诸如以上关于图3和4所示的从文档(例如web文档)的内容生成的语义表示和从诸如以上关于图6所示的从查询生成的建议相匹配或链接,以从接收到的查询中确定最相关的搜索结果。例如,以下语义表示示出了语义表示和建议的匹配。各匹配被彼此相邻地示出。
上下文(顶层):DNC施动者:B  上下文(顶层):SY-2施动者:P-2
上下文(顶层):DNC主题:上下文(3)  上下文(顶层):SY-2主题:E-2
上下文(顶层):DNC地点:W
上下文(顶层):DNC关于:CL
上下文(顶层):DNC关于:WTHD
上下文(顶层):DNC关于:U
上下文(顶层):DNC关于:I     上下文(顶层):SY-2关于:I-2
上下文(3):CL主题:上下文(5)
上下文(5):WTHD施动者:U
上下文(5):WTHD地点:I
词语:B[乔治布什,人]上下文(顶层)  词语:P-2[人]上下文(顶层)
词语:DNC[公开指责,批评,说]上下文(顶层)  词语:SY-2  [说]上下文(顶层)
词语:W[华盛顿特区,城市,地点]上下文(顶层)
词语:CL  [呼吁,说]上下文(3)  词语:E-2[*]上下文(顶层)
词语:WTHD  [撤军,移动]上下文(5)
词语:U[美利坚合众国,国家,地点]上下文(5)
词语:I[伊拉克,国家,地点]上下文(5)  词语:I-2[伊拉克,国家,地点]上下文(顶层)
如果存在相关元素的匹配,诸如施动者与施动者的匹配,则接着检查与相关元素相关联的元素以便确定词语是否相同或者甚至相似。以上,提到了“公开指责”与“说”相关联以便拓宽搜索,而出于相同的原因“布什”与“人”相关联。因此,在上下文(顶层):DNC施动者:B和上下文(顶层):SY-2施动 者:P-2之间发现匹配。
图8示出了根据本发明的一实施例从文档内的文本部分生成的语义表示的示图800,其中该文本部分包括两个句子。图8的实施例示出了可以在单个语义表示中表示不止一个句子,尤其是在各句子相关的情况下。此处,两个句子是由同一人布什创作的。因此,将两个句子放在单个表示中是有意义的且相关的。应当注意,可以将任何数量的句子或甚至短语分组在一起来生成语义表示。例如,解析从文档(例如web文档)提取的内容的过程可以通过应用一组规则以测试字符串的诸如使用的标点符号和大写等具体特性来执行。通过理解这些特性,这组规则能够确定属于一起的各个句子或短语,诸如在图8中作为文本部分805和810所示出的那些。该过程可以由诸如图2的组件240等文档解析组件执行。
对于第一文本部分805,示出了两个关联级别。第一关联级别820(例如顶层上下文(t))和第二关联级别840(例如上下文(上下文-7))由位于第一关联级别820内的报告动作“说”直接链接。“说”和第二关联级别840由主题相关元素824相关联,使得句子“呼吁撤军是有害的”成为布什所说的主题。还形成多个“关于”关系,并且如上所述,这些关系允许搜索结果的更高准确度。在第一关联级别830中,“说”通过施动者相关元素822链接到“布什”,因为布什是讲或说这些词语的人或施动者。此外,关于相关元素826、828和830分别是从“说”链接到“撤军”、“呼吁”和“有害的”。这些“关于”关系或关联允许有效的且高效的将这些关系与在查询建议中找到的相似关系相匹配。此外,在第二关联层840中,报告动作“呼吁”由相关元素主题842直接链接到“撤军”,并且由相关元素修饰语844直接链接到“有害的”。
应当注意,存在多种可以通过与第一文本部分805相关联的示图向下操作的方式。例如,为了到达“撤军”,一条路径是通过使用“关于性”关系(例如相关元素关于826)从“说”直接到“撤军”。另一路径通过首先使用相关元素关于828到达“呼吁”,并接着由相关元素主题842链接到“撤军”来间接地到达“撤军”,因为“撤军”是“呼吁”的主题。此外,使用相关元素主题824,可以到达第二关联层840,其中在该第二关联层840中找到“撤军”。
与第一文本部分分开看第二文本部分810,为该文本部分标识报告动作“留”。该文本部分相当地简单且简短,并且因此仅标识一个关联级别850(例如上下文(上下文-12))。“留”通过相关元素施动者858与“美国”相关联或链接,并且通过相关元素地点862与“伊拉克”相关联。此外,在文本部分810内找到项“应当”。出于语言上的目的,“应当”可以被称为语气词,其是宽泛地与可能性和必要性的概念相关联的表达。这样,在该实施例中,语气词(例如,应当)被用作相关元素860,并且与“留”相关联。现在可以将两个文本部分805和810缠结以确定第一文本部分805和第二文本部分810之间的“关于性”关系。图8示出了“关于”关系是分别通过相关元素关于852、关于854和关于856在“说”和“美国”、“留”以及“伊拉克“之间形成的。
现在参考图9,示出了根据本发明的一实施例的一种用于发展从文档的内容提炼的各元素之间的语义关系以生成该内容的语义表示的方法。最初,在步骤910处标识文档的文本部分,这允许索引所标识的文本部分并将其存储在例如图2的语义索引260中。文本部分可以从诸如网页等一个或多个文档的内容中导出,该文档可以存储在诸如图2的数据存储220等数据存储中。当从文档提取内容时,该内容的格式可以是需要转换的原始在线格式。在一个实施例中,该内容从原始在线格式转换成超文本标记语言(HTML)以生成文本部分。内容能以一个或多个句子或短语、表、模板或多个数据等形式来提取。文本部分可以包括间接引语和其他态度报告,它们可以由在该文本部分中找到的多个词语来标识,诸如但当然不限于公开指责、说、相信、希望、拒绝等。在态度报告中标识这些词语是因为它们描述了个人对特定主题的态度。间接引语可以采用从个人直接引用的形式,或者可以是二手的间接引语。
在一个实施例中,可以解析文本部分以便标识要在语义上表示以便进行进一步索引的一个或多个元素。解析还可以包括文本提取和实体识别,其中实体是例如通过搜索存储在数据存储220中的预定义的词语列表来识别的。该过程协助识别可能是人或事物的名称的词语。在步骤920处,确定所标识的每个元素的语义信息。过语义信息可以包括其中所标识的元素的一个或多个含义和/或语法功能。在一个实施例中,还可以确定同义词或上位词,并且包括它们来作为语义信息。此外,在某些实施例中,一个或多个词语可以具有相似的含义,并且可以通过用逻辑变量替换特定元素来由该逻辑变量在语义表示中表示这些词语和含义。该逻辑变量可以表示具有与该元素相似含义的多个同义词、元素所适合的类别,并且还可以表示该元素可具有的多个含义,这允许扩展的但是更加精确的搜索。逻辑变量可以存储在数据存储中。
在步骤930处,所标识的元素中的至少一个被标识为与发言报告或态度报告相对应的报告动作。步骤940指示所标识的元素彼此相关联以便形成语义关系,并且所形成的关联是基于在以上步骤920处确定的语义信息的。在一个实施例中,可以确定一个或多个关联级别(即上下文),并且每个关联级别可以包括所标识的元素中的一个或多个。不同关联级别内的元素可以彼此相关联,并且可以经由报告动作相关联。报告动作可以是例如动词、名词等,并且通常由周围文本或词语是如何在句子中使用的来确定。这种类型的语法信息可以例如通过应用一组规则来确定,该组规则可以在例如图2的语法规范组件255的框架中维护。仅出于示例性目的,假设文本部分叙述:“在华盛顿,布什公开指责美国从伊拉克撤军的呼吁”。此处,可以标识三个关联级别,每个关联级别包含一报告动作。三个相应的关联级别的报告动作可以被标识为“公开指责”、“呼吁”和“撤军”。
除了关联级别(例如上下文)和报告动作之外,还可以确定相关元素,这些元素描述了报告动作与元素或关联级别之间的关系。例如,继续参考以上示例,“布什”可以通过相关元素施动者来关联或链接到“公开指责”,因为布什是做出该公开指责的施动者。相关元素可以采用各种形式的关系,但是可以是诸如但不限于施动者、地点、主题、或关于等词语。“关于”关系指示报告动作是指什么或它是关于什么的。在步骤950处,生成包括上述所标识的元素的关联的语义表示。该语义表示接着可以被存储在诸如图2的语义索引260等索引中。
图10展示了示出根据本发明的一实施例的一种用于响应于接收到查询来创建从该查询提炼的各个项之间的关联以便生成建议的方法,该建议被用于询问存储在索引中的信息以便提供相关搜索结果。建议是用于询问来自文档的内容的语义表示所包含的语义关系的查询的概念含义的逻辑表示。从查询生成建议的过程非常类似于此处所描述的用于生成文档的内容的语义表示的过程。最初,接收来自用户的查询作为输入,并且在一个实施例中,解析所接收到的查询以确定该查询内的一个或多个搜索项。搜索项类似于在文本部分中标识的元素。
在步骤1010处,确定一个或多个搜索项的每一个的语义信息,并且该语义信息可以包括其中的搜索项的一个或多个含义和/或语法功能。除了确定语义信息之外,可以标识逻辑变量,并且可以将其与搜索项中的一个或多个相关联或甚至可以替代搜索项中的一个或多个。逻辑变量可以是数字、字母、或两者的序列或组合,并且可以表示具有与搜索项相似的含义的多个词语。这允许将扩展的,然而更加相关的搜索结果返回给用户。在步骤1020处,在查询内标识第一报告动作。报告动作可以是动词、名词、或任何其他词性,并且可以包括诸如“是”、“呼吁”、“公开指责”、“相信”等动作。在一个实施例中,可以在查询内标识不止一个报告动作,诸如第二报告动作。
可以确定每一报告动作与另一搜索项之间语义关系,以便创建词语之间的关联,其在步骤1030处示出。如上所述,语义关系可以是基于所确定的语义信息的。关联由相关元素链接,后者描述了诸如但不限于施动者、地点、主题、或关于等关联。其他相关元素当然也是构想在本发明的范围内的。在步骤1040处,生成包括在每个报告动作与从查询中解析的搜索项中的一个或多个之间所形成的关联的建议。一旦生成建议,则将该建议(例如在任务内的关联)与例如存储在语义索引260中的一个或多个语义表示做比较或做匹配,以确定对于该建议而言最相关的匹配。在一个实施例中,如上所述,查询可以包含不止一个关联级别,并且由此可以为每个关联级别标识报告动作。
转向图11,展现了根据本发明的一实施例的示出一种用于发展从文档的内容提炼的各元素之间的语义关系以便生成该内容的语义表示进而允许索引该内容的的方法的流程图1100。在步骤1110处,标识要索引的文档(例如web文档)的至少一部分。在步骤1120处示出解析该文档的文本部分以标识要用语义表示的元素。在步骤1130处,访问数据存储以确定所标识的元素的潜在含义和语法功能。
继续参考图11,在步骤1140处,确定文本部分内的一个或多个关联级别。在步骤1150处示出为一个或多个所确定的关联级别的每一个标识文本部分内的报告动作。接着在步骤1160处,第一报告动作与第一组所标识的元素相关联,这是通过分析在以上步骤1120处确定元素和所确定的报告动作之间的语义关系来确定的。第一报告动作与第一关联级别相关联。在步骤1170处,第二报告动作与第二组所标识的元素相关联,而第二报告动作与第二关联级别相关联。接着可以在步骤1180处生成关联的语义表示,这样使得它可以被存储在例如语义索引260中以供进一步分析,该分析包括如上所述的与查询建议的比较。
参考各具体实施例描述了本发明,各具体实施例在所有方面都旨在是说明性的而非限制性的。在不背离本发明范围的情况下各替换实施例对本发明所属领域的普通技术人员将变得显而易见。
从前述内容可知,本发明很好地适用于实现前述的所有目的和目标,并且具有对于该方法是显而易见且固有的其它优点。还可理解,特定的特征和子组合是有用的,并且可以加以利用而无需参考其它特征和子组合。这落入在权利要求书的范围内并由其所构想。

Claims (18)

1.一种用于发展从文档的内容提炼的各元素之间的语义关系以便生成所述内容的语义表示的计算机实现的方法,所述方法包括:
标识(910)所述文档的文本部分;
为在所述文本部分中标识的多个元素确定(920)语义信息,所述语义信息包括所标识的元素的含义或所标识的元素的语法功能中的一个或多个;
将所标识的元素中的至少一个标识(930)为与发言报告或态度报告相对应的报告动作;
基于为所标识的元素确定的语义信息,关联(940)所标识的元素,以使得所标识的元素的每一关联表示特定语义关系,其中关联所标识的元素包括:标识所述文本部分内的一个或多个关联级别,所述一个或多个关联级别的每一个包括所标识的元素中的一个或多个;
为所确定的所述一个或多个关联级别中的每个标识所述文本部分内的报告动作;以及
生成(950)包括所标识的元素的关联的语义表示。
2.如权利要求1所述的方法,其特征在于,所述文本部分包括一个或多个句子、表、模板、或多个数据中的至少一个。
3.如权利要求1所述的方法,其特征在于,还包括:
访问数据存储以便从所述文档检索所述内容的至少一部分。
4.如权利要求1所述的方法,其特征在于,还包括:
解析所述文档的文本部分以便标识要包括在所述语义表示中的多个元素。
5.如权利要求1所述的方法,其特征在于,还包括:
识别所述文本部分内的一个或多个实体,其中所述一个或多个实体是通过搜索存储在数据存储中的预定义的词语列表来识别的。
6.如权利要求1所述的方法,其特征在于,还包括:
将所标识的元素的每一个与具有相似含义的多个词语相关联。
7.如权利要求1所述的方法,其特征在于,还包括:
为所述一个或多个关联级别中的至少一个标识报告动作;以及
将第一报告动作与第一组所标识的元素相关联,其中所述第一报告动作与第一关联级别相关联。
8.如权利要求7所述的方法,其特征在于,还包括:
将第二报告动作与第二组所标识的元素中的每一个相关联,其中所述第二报告动作与第二关联级别相关联。
9.如权利要求7所述的方法,其特征在于,所述第一报告动作和所述第一组所标识的元素的每一个是通过描述所述关联的相关元素来关联的。
10.如权利要求9所述的方法,其特征在于,还包括:
索引所述语义表示,其中包括所标识的元素和所述相关元素的所述语义表示被存储在索引中以供检索,并且其中所述索引是可搜索的。
11.如权利要求10所述的方法,其特征在于,所述索引包括从所述语义表示到存储在数据存储中的其相关联的文本部分的指针。
12.一种用于响应于接收到查询来创建从所述查询提炼的各个项之间的关联以便生成建议的计算机实现的方法,所述建议被用于询问来自存储在语义索引中的文档的内容的语义表示以提供相关搜索结果,其中所述语义表示包括一个或多个关联级别,并且为所述一个或多个关联级别中的每个标识了报告动作,所述方法包括:
为一个或多个搜索项确定(1010)语义信息;
标识(1020)所述查询内的第一报告动作;
基于为所述一个或多个搜索项确定的语义信息,确定(1030)所述第一报告动作与所述一个或多个搜索项中的至少一个之间的语义关系,由此经由描述所述语义关系的相关元素来创建关联;
生成(1040)所述建议,所述建议包括所述第一报告动作与所述一个或多个搜索项中的至少一个之间的关联;以及
将所述建议的关联与存储在所述语义索引中的所述语义表示中的一个或多个的一个或多个关联级别作比较,以便确定一个或多个匹配对。
13.如权利要求12所述的方法,其特征在于,还包括:
解析所述查询以确定其中的一个或多个搜索项。
14.如权利要求12所述的方法,其特征在于,所述语义信息包括所标识的元素的含义或所标识的元素的语法功能中的一个或多个。
15.如权利要求12所述的方法,其特征在于,还包括:
将所述一个或多个搜索项的每一个与具有同所述一个或多个搜索项中的至少一个相似含义的多个词语相关联。
16.如权利要求12所述的方法,其特征在于,所述建议是用于询问来自所述文档的内容的语义表示内所包含的语义关系的查询的含义的逻辑表示。
17.如权利要求12所述的方法,其特征在于,还包括:
标识所述查询内的第二报告动作;以及
基于为所述一个或多个搜索项确定的语义信息,确定所述第二报告动作与所述一个或多个搜索项中的至少一个之间的语义关系,由此经由描述所述语义关系的相关元素来创建关联。
18.一种用于发展从文档的内容提炼的各元素之间的语义关系以生成所述内容的语义表示,进而允许索引所述内容的方法,所述方法包括:
标识(1110)要索引的所述文档的至少一部分,所述文档的该至少一部分是文本部分;
解析(1120)所述文档的文本部分以标识要用语义表示的元素;
访问(1130)数据存储以确定所标识的元素的潜在含义和语法功能;
确定(1140)所述文本部分内的一个或多个关联级别;
为所确定的一个或多个关联级别的每一个标识(1150)所述文本部分内的报告动作,所述报告动作与发言报告或态度报告相对应;
将第一报告动作与第一组所标识的元素相关联(1160),其中所述第一报告动作是第一关联级别相关联;
将第二报告动作与第二组所标识的元素相关联(1170),其中所述第二报告动作是第二关联级别相关联;以及
经由描述针对所述第一报告动作的第一组所标识的元素与针对所述第二报告动作的第二组所标识的元素之间的关联的相关元素来生成(1180)包括所述关联的语义表示。
CN2008801056172A 2007-08-31 2008-08-29 标识间接引语中的语义关系 Active CN101796511B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US96943407P 2007-08-31 2007-08-31
US60/969,434 2007-08-31
US12/201,675 2008-08-29
US12/201,675 US8868562B2 (en) 2007-08-31 2008-08-29 Identification of semantic relationships within reported speech
PCT/US2008/074938 WO2009029905A2 (en) 2007-08-31 2008-08-29 Identification of semantic relationships within reported speech

Publications (2)

Publication Number Publication Date
CN101796511A CN101796511A (zh) 2010-08-04
CN101796511B true CN101796511B (zh) 2012-11-14

Family

ID=42041477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801056172A Active CN101796511B (zh) 2007-08-31 2008-08-29 标识间接引语中的语义关系

Country Status (11)

Country Link
EP (1) EP2183686A4 (zh)
JP (1) JP5501967B2 (zh)
KR (1) KR101524889B1 (zh)
CN (1) CN101796511B (zh)
AU (1) AU2008292781B2 (zh)
BR (1) BRPI0816088A2 (zh)
CA (1) CA2698105C (zh)
IL (1) IL204108A (zh)
MX (1) MX2010002350A (zh)
RU (1) RU2488877C2 (zh)
WO (1) WO2009029905A2 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
WO2012135157A2 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
JP6176017B2 (ja) * 2013-09-17 2017-08-09 富士通株式会社 検索装置、検索方法、およびプログラム
RU2544739C1 (ru) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Способ преобразования структурированного массива данных
KR20170102262A (ko) * 2014-12-10 2017-09-08 킨디 인코포레이티드 가중화된 하위기호 데이터 인코딩
US10503832B2 (en) * 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
CN107818076B (zh) * 2016-09-12 2021-11-12 微软技术许可有限责任公司 针对自然语言的语义处理
US10798027B2 (en) * 2017-03-05 2020-10-06 Microsoft Technology Licensing, Llc Personalized communications using semantic memory
JP7176233B2 (ja) * 2018-06-04 2022-11-22 富士通株式会社 検索方法、検索プログラムおよび検索装置
CN110895657B (zh) * 2018-09-11 2023-05-26 慧捷(上海)科技股份有限公司 一种基于口语对话特征的语义逻辑表达和分析方法
US11630824B2 (en) * 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606004A (zh) * 2003-10-06 2005-04-13 微软公司 从文本标识语义结构的方法和装置
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
CN1658188A (zh) * 2004-02-17 2005-08-24 微软公司 提供计算机生成文档中识别文本串上自动化的行动

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
EP0962873A1 (en) * 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6901402B1 (en) 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
US7424420B2 (en) * 2003-02-11 2008-09-09 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on context
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
CN1606004A (zh) * 2003-10-06 2005-04-13 微软公司 从文本标识语义结构的方法和装置
CN1658188A (zh) * 2004-02-17 2005-08-24 微软公司 提供计算机生成文档中识别文本串上自动化的行动

Also Published As

Publication number Publication date
MX2010002350A (es) 2010-07-30
CA2698105A1 (en) 2009-03-05
JP2010538375A (ja) 2010-12-09
RU2488877C2 (ru) 2013-07-27
WO2009029905A3 (en) 2009-05-14
RU2010107150A (ru) 2011-09-10
AU2008292781B2 (en) 2012-08-09
CA2698105C (en) 2016-07-05
IL204108A (en) 2013-09-30
KR101524889B1 (ko) 2015-06-01
WO2009029905A2 (en) 2009-03-05
CN101796511A (zh) 2010-08-04
EP2183686A4 (en) 2018-03-28
KR20100075454A (ko) 2010-07-02
AU2008292781A1 (en) 2009-03-05
BRPI0816088A2 (pt) 2015-03-03
EP2183686A2 (en) 2010-05-12
JP5501967B2 (ja) 2014-05-28

Similar Documents

Publication Publication Date Title
CN101796511B (zh) 标识间接引语中的语义关系
US9449081B2 (en) Identification of semantic relationships within reported speech
US8639708B2 (en) Fact-based indexing for natural language search
US8346795B2 (en) System and method for guiding entity-based searching
US7509313B2 (en) System and method for processing a query
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
US8713035B2 (en) Identifying conceptually related terms in search query results
US20040243554A1 (en) System, method and computer program product for performing unstructured information management and automatic text analysis
US20060031207A1 (en) Content search in complex language, such as Japanese
US20110301941A1 (en) Natural language processing method and system
US20090222441A1 (en) System, Method and Computer Program Product for Performing Unstructured Information Management and Automatic Text Analysis, Including a Search Operator Functioning as a Weighted And (WAND)
US20040243645A1 (en) System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
CA2701171A1 (en) System and method for processing a query with a user feedback
CN103250129A (zh) 使用具有受限结构的文本提供具有延迟类型评估的问答
De Virgilio et al. A reverse engineering approach for automatic annotation of Web pages
Charton et al. A disambiguation resource extracted from Wikipedia for semantic annotation.
Vickers Ontology-based free-form query processing for the semantic web
CA2914398A1 (en) Identification of semantic relationships within reported speech
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
CN101796510A (zh) 搜索索引中单词的索引角色分层结构
Marjalaakso Implementing Semantic Search to a Case Management System
Vertan et al. Crosslingual retrieval in an eLearning environment
NZ575720A (en) Natural language processing method and system
Manov et al. D2. 6.1 Massive Automatic Annotation
Feldman Search and Discovery Technologies: An Overview

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150423

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150423

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160622

Address after: Grand Cayman, Georgetown, Cayman Islands

Patentee after: IValley Holding Co., Ltd.

Address before: Washington State

Patentee before: Micro soft technique license Co., Ltd