CN106462606A - 合成问题的制定 - Google Patents

合成问题的制定 Download PDF

Info

Publication number
CN106462606A
CN106462606A CN201580025153.4A CN201580025153A CN106462606A CN 106462606 A CN106462606 A CN 106462606A CN 201580025153 A CN201580025153 A CN 201580025153A CN 106462606 A CN106462606 A CN 106462606A
Authority
CN
China
Prior art keywords
composition
candidate
composition problem
user
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580025153.4A
Other languages
English (en)
Inventor
耶艾尔·马雷克
阿维娃·梅杰尔
伊丹·斯泽佩克托尔
丹·佩尔吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Inc
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of CN106462606A publication Critical patent/CN106462606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

简而言之,本文所公开的实施例例如可以涉及响应于搜索查询制定合成问题。例如,在实施例中,可以向用户呈现候选合成问题,其中该用户可以至少部分通过选择一个或多个候选合成问题来发起搜索。

Description

合成问题的制定
相关申请
该PCT申请要求2014年5月21日递交的美国非临时专利申请No.14/284,180的优先权,其全部内容通过引用并入本文。
背景技术
领域
本文所公开的主题可以涉及例如响应于搜索查询制定合成问题。
信息
随着诸如互联网之类的网络获得极大的普及,以及随着诸如页面和/或其它文档和/或其他媒体内容和/或应用之类的大量内容变得对用户可用(例如,经由万维网(web)),期望可以提供更高效和/或更精简的方法来将例如可能受用户期望和/或对用户有用的内容(例如,数字内容)进行聚集、组织和/或显示。诸如Yahoo!之类的互联网类型的业务实体例如可以提供广泛的内容(例如,应用和/或其他数字内容),这些内容经由Web被提供给用户。在一些情况下,例如,在确定要显示(例如,经由web页面向用户显示)哪些内容时可能会面临挑战。除此之外,搜索的内容可能尚不存在。
附图说明
在说明书的结论部分中特别指出并明确要求保护的主题。然而,如果与附图一起阅读,通过参考以下详细描述可以最好地理解组织和/或操作方法以及其目的、特征和/或优点其中:
图1根据实施例示出了描述示例合成问题的示例web页面显示;
图2根据实施例示出了描述示例被选择的问题的示例web页面显示;
图3根据实施例示出了描述示例合成问题的示例web页面显示;
图4是根据实施例示出用于生成合成问题的示例过程的示意图;
图5是根据实施例示出用于生成合成问题的示例过程的示意图;
图6是根据实施例描述用于生成合成问题的示例系统的示意图;
图7是根据实施例示出示例计算设备的示意图;
图8根据实施例示出了词类标记和/或依赖性解析树的示例部分。
在下面的详细描述中参考形成本文一部分的附图,其中相同的附图标记始终指向相同的部分,以指示相应的和/或类似的组件。应理解的是,例如为了说明的简单和/或清楚,图中所示的组件不一定按比例绘制。例如,一些组件的尺寸可能相对于其他组件被夸大。此外,应理解的是,可以使用其他实施例。此外,可以进行结构性和/或其它改变,而不背离所要求保护的主题。还应注意的是,方向和/或参考(例如,向上、向下、顶部、底部等)可以用于辅助附图的讨论,和/或不旨在限制所要求保护的主题的应用。因此,以下详细描述不被用于限制所要求保护的主题和/或等同物。
具体实施方式
在以下的详细描述中,阐述了许多具体细节以提供对所要求保护的主题的透彻理解。出于解释的目的,例如,阐述了具体的数目、系统和/或配置。然而,应对受益于本公开的相关领域技术人员显而易见的是,可以在没有具体细节的情况下实践所要求保护的主题。在其他实例中,可以省略和/或简化公知的特征以免使所要求保护的主题难以理解。在本文示出和/或描述某些特征的同时,所属领域技术人员可能会想到许多修改、替代、改变和/或等同物。因此,应理解的是,所附权利要求旨在覆盖落入所要求保护的主题范围内的任何以及所有修改和/或改变。
贯穿本说明书,对一个实施方案、实施方案、一个实施例、实施例和/或类似物的引用可以意味着结合特定实施方案或特定实施例描述的特定的特征、结构或特性可以被包括在所要求保护的主题的至少一个实施方案或实施例中。因此,例如贯穿本说明书的各种地方出现这种短语未必旨在指代相同的实施方式或者所描述的任何一个特定实施方案。此外,应理解的是,所描述的特定的特征、结构或特性可以以各种方式在一个或多个实施方案中被组合。当然,一般地,这些以及其他问题可以随上下文变化而变化。因此,描述或使用的具体上下文可以提供关于要得到的论断的有帮助的指导。
例如与网络(例如,通信网络)相关联的操作和/或处理可以包括对物理量的物理操纵。虽然不一定,这些物理量通常可以采取例如能够被存储、转换、组合、处理、比较和/或以其他方式被操纵的电信号和/或磁信号的形式。已证明的是,有时主要出于习惯用语的原因,将这些信号称为位、数据、值、元素、符号、字符、词、数目、数字和/或其他类似物是十分方便的。然而应理解的是,所有这些或者类似的术语应与适合的物理量相关联,并且仅旨在作为方便的标签。
同样地,在此上下文中,可以使用术语“耦接”、“连接”和/或类似的术语。应理解的是,这些术语并不作为同义词。更确切地说,“连接”例如可以用于指示两个或者更多元件或其他组件直接物理和/或电接触;同时,“耦接”可以指两个或更多组件直接物理或电接触;然而,“耦接”也可以指两个或更多组件不是直接接触,而是合作或者相互作用。例如,在适合的上下文中,也可以将术语耦接理解成间接地连接。
本文所使用的术语“和”、“或者”、“和/或”和/或其他类似的术语可以包括各种含义,该含义也被期望至少部分取决于使用这种术语的特定上下文。通常,如果“或者”被用于关联列表,例如A、B或者C,它旨在不但可以指A、B和C(这里用于包含的意义),而且可以指A、B或C(这里用于排他的意义)。除此之外,术语“一个或多个”和/或类似的术语可以用于描述单数形式的任何特征、结构和/或特性,和/或用于描述多个特征、结构和/或特性或者特征、结构和/或特性的一些其他其组合。虽然如此,应注意的是,这仅是示意性的示例,并且所要求保护的主题不限于此示例。再次,描述或使用的具体上下文可以提供关于要得到的论断的有帮助的指导。
应理解的是,为便于描述,网络设备根据计算设备被实现和/或描述。然而,还应理解的是,这种描述应该绝不被解释为所要求保护的主题限于诸如计算设备或者网络设备之类的一个实施例,并且相反,它可以作为各种设备或者其组合被实现,例如包括一个或多个示意性的示例。
在此上下文中,术语网络设备指能够经由网络和/或作为网络的一部分进行通信的任何设备。网络设备可以能够发送和/或接收(例如,经由有线或无线网络)诸如信号分组之类的信号、可以能够执行算术和/或逻辑运算、处理和/或存储信号(例如,在存储器中作为物理存储器状态)和/或例如可以作为服务器运行。能够作为服务器或者以其他方式运行的网络设备例如可以包括专用机架式服务器、台式计算机、膝上型计算机、机顶盒、平板计算机、上网本、智能电话、组合前述设备的两个或更多特征的集成设备、类似物或者任何其组合。
网络可以包括两个或更多网络设备和/或可以与网络设备耦接使得信号通信(例如,以信号分组形式)例如可以被交换,例如,在服务器和客户端设备和/或其他类型的网络设备间(包括在经由无线网络耦接的无线设备间)被交换。应注意的是,术语服务器、服务器设备、服务器计算设备、服务器计算平台和/或类似的术语可被互换使用。类似地,术语客户端、客户端设备、客户端计算设备、客户端计算平台和/或类似术语也可被互换使用。然而,为便于描述,在一些实例中这些术语可以以单数形式被使用,例如通过指代“客户端设备”或“服务器设备”,该描述旨在包括一个或多个客户端设备或者一个或多个服务器设备,视情况而定。沿着类似的思路,对“数据库”的引用被理解为指一个或多个数据库和/或其一部分,视情况而定。
网络也可以包括现在已知的或者以后开发的布置、衍生物和/或改进,包括例如过去、现在和/或将来的大容量存储设备,例如,网络附加存储设备(NAS)、存储区域网络(SAN)和/或其他形式的计算机和/或机器可读介质。网络可以包括互联网、一个或多个局域网(LAN)、一个或多个广域网(WAN)、有线类型连接、无线类型连接、其他连接或者任何其组合。因此,网络可以是世界范围和/或程度的。同样地,例如可以使用不同架构或者可以与诸如通信协议(例如,网络通信协议)之类的不同协议相符和/或兼容的子网络可以在更大的网络内交互操作。各种类型的设备可以变得可用,使得设备的互操作性被实现,和/或在至少一些实例中,可以对于设备透明。在此上下文中,术语透明是指设备经由网络进行通信(其中设备能够经由中间设备进行通信),但是通信设备不必指定一个或多个中间设备,和/或可以包括就如同通信传输中不涉及中间设备一样进行通信。例如,路由器可以在原本单独的和/或独立的LAN间提供链路。在此上下文中,私有网络是指特定、有限集的网络设备,该网络设备例如能够与该特定、有限集中的其他网络设备进行通信(例如,经由信号分组传输),而不必对这种通信进行重新路由和/或重新定向。私有网络可以包括独立的网络;然而,私有网络例如也可以包括更大网络(例如,,但不限于,互联网)的子集。因此,例如,“云中”的私有网络例如可以指包括互联网子集的私有网络。虽然信号分组传输可以使用中间设备来对信号分组传输进行交换,这些中间设备可以通过不作为一个或多个信号分组传输的源或终点而不必被包括在私有网络内。作为另一示例,逻辑广播域可以包括私有网络的示例。在此上下文中,应理解的是,私有网络可以向不在私有网络中的设备提供传出的通信,但是这种私有网络外的设备可能不可以将入站通信定向到包括在私有网络内的设备。
互联网是指互操作网络的分散的全球网络,包括作为这些互操作网络一部分的设备。互联网包括局域网(LAN)、广域网(LAN)、无线网和/或长距公共网络(例如,可以允许信号分组在LAN间被传递)。也可以使用术语万维网(WWW)、web和/或类似的术语,虽然术语“WWW”和/或“web”指代遵守超文本传输协议或者HTTP的互联网的子部分。应当注意的是,存在若干种版本的超文本传输协议。信号分组也可以被称为信号分组传输,可以在网络的节点间被传递,其中节点例如可以包括一个或多个网络设备。作为示意性的示例,但不限于该示例,节点可以包括一个或多个使用局域网地址的站点。同样地,诸如网络设备之类的设备可以与该节点相关联。例如,可以从经由接入节点耦接到互联网的站点经由通信信道或者通信路径(包括互联网)传递信号分组。同样地,可以经由网络节点将信号分组转发到例如耦接到局域网的目标站点。经由例如互联网传递的信号分组可以经由包括有一个或多个网关、服务器等的路径被路由,其例如可以根据目标地址以及网络节点的网络路径的可用性将信号分组路由到目标地址。
虽然也存在其他方法,但可以将经由硬件桥与网络物理地连接作为一个示例。然而,硬件桥通常不包括经由更高级别的网络协议实现互操作性的能力。网络协议是指针对网络中的设备(通常是网络设备)间或设备中的通信的一组信令约定;网络设备例如为实质遵守协议的设备或者实质兼容协议的设备。在此上下文中,术语“之间”和/或类似术语如果适用于特定的使用应被理解为包括“之中”。同样地,在此上下文中,术语“兼容”、“遵守”和/或类似的术语应被理解为包括实质兼容和实质遵守。
通常网络协议具有若干层。这些层在这里可以被称为通信栈。各种类型的通信可能跨各个层发生。例如,当一个通信在通信栈中移动的更高,通过在这些更高层处发送兼容和/或遵守特定网络协议的通信,额外的功能可以变得可用。相比之下,虚拟私有网络(VPN)可以使远程设备能够经由局域网进行通信。路由器例如可以允许发生以传输形式(例如,信号分组)的、从远程设备到局域网上的VPN服务器的通信。远程设备可以被认证,并且VPN服务器例如可以在局域网和远程设备间通过介于中间的路由器创建特殊的路由。
虽然所要求保护的主题的范围并不尤其限于互联网或web,出于说明的目的,它可以提供有用的实施例示例而不限于此。如所指示的,互联网可以包括互操作网络的全球系统,包括这些网络内的设备。互联网已演进为公共的、自我维持的设施,可供全世界数千万或更多的人使用。同样,在实施例中,并且如上所述,术语“WWW”和/或“web”指遵守超文本传输协议或者HTTP的互联网的子部分。因此在此上下文中,web可以包括通过使用例如超媒体来对所存储的内容(例如,文本、图像、视频等)进行组织的互联网服务。例如,超文本标记语言(“HTML”)可以被用于指定超媒体类型内容的格式和/或内容,例如以文件或者“电子文档”(例如,web页面)的形式。在实施例中,可扩展标记语言(XML)也可以被用于指定超媒体类型内容的格式和/或内容,例如以文件或者“电子文档”(例如,web页面)的形式。当然,HTML和XML仅是作为说明而提供的示例语言。当然,所要求保护的主题不旨在限于作为说明提供的示例。
在一个实施例中,本文所使用的“web站点”可以指相关web页面的集合。在示例实施例中,本文所使用的“web页面”也可以指任何电子文件或者电子文档,例如可通过针对经由web的可访问性指定URL来经由网络访问。如上所要求保护的,在一个或多个实施例中,web页面可以包括使用一种或多种语言(例如,HTML和/或XML)编码的内容,虽然所要求保护的主题不限于这方面的范围。另外,在一个或多个实施例中,应用开发者例如可以以诸如JavaScript的形式编写代码以提供内容来填充一个或多个模板,例如针对应用。然而,JavaScript仅是示例编程语言。如上所述,所要求保护的主题不限于示例或说明。
本文所使用的术语“条目”、“电子条目”、“文档”、“电子文档”、“内容”、“数字内容”、“项”和/或类似的术语意在指以诸如数字格式之类的格式的信号和/或状态,在该信号和/或状态被诸如数字设备(例如,计算设备)之类的设备显示和/或以其他方式播放的情况下可以被用户感知。针对一个或多个实施例,电子文档可以包括以标记语言(例如,HTML(超文本标记语言))编码的web页面。在另一实施例中,电子文档可以包括web页面的一部分或一片区域。然而,所要求保护的主题不限于这些方面。另外,针对一个或多个实施例,电子文档或电子条目可以包括多个组件。在一个或多个实施例中的组件可以包括例如文本,其可以被显示在web页面上。同样,针对一个或多个实施例,组件可以包括诸如图像(例如,数字图像)之类的图形对象和/或诸如其属性之类的子对象。在实施例中,数字内容可以包括例如数字图像、数字音频、数字视频、和/或其他类型的电子文档。
如上所提到的,随着诸如互联网之类的网络获得极大的普及,以及随着大量的页面和/或其它文档和/或其他内容(例如,媒体内容)和/或应用变得对用户可用(例如,经由万维网(web)),期望可以提供更高效和/或更精简的方法来将用户期望的和/或对用户有用的内容(例如,数字内容)进行聚集、组织和/或显示。诸如Yahoo!之类的互联网类型的业务实体例如可以提供可经由Web变成对用户可用的大范围内容,例如,应用和/或其他数字内容。在一些情况下,例如,在确定要经由web页面显示(例如,向用户)哪些内容时,会面临挑战。
一般地,诸如搜索引擎的传统内容检索系统可能倾向于注重用户体验,其中用户尽可能明确地详细说明他或者她的意图,并且该系统可以检索到试图满足用户所表达意图的结果。该结果可以根据各种标准被排序,也可以作为列表被呈现给用户。例如,用户可以通过提交包括一个或多个搜索词的查询来发起web搜索,并且内容检索服务通常可以经由通过网络的客户端-服务器类型交互(例如,互联网)通过向用户计算平台递送已排序的超链接列表作为响应。在一些情况下,如果内容检索系统能够向用户呈现相对小数目的结果并同时仍至少部分满足用户所表达的意图,则该系统可以被判断为成功的。
诸如搜索引擎的传统检索系统可能在该系统无法足够充分地抓取、索引和/或排序相关内容来满足用户所表达意图的情形下不太令人满意和/或不能很好地执行。传统的检索系统还可能在用户没有适当地表达他或她的意图的情形下(例如,在用户还没能精确地知道他或她正在查找什么的情形下)不太令人满意和/或不能很好地执行。例如,该情形可以包括内容“浏览”和/或动态搜索的情形,其中,用户可能期望在理解如何以有意义的方式表达意图之前被更广泛地教导。传统的检索系统不太令人满意和/或不能很好地执行的其他情形可以包括例如在用户查询时web上不存在与用户的指定意图相关的内容的情形。
在诸如搜索引擎的传统检索系统无法在web上容易地找到针对用户指定内容的相关内容的情形下,用户可以利用社区问答(CQA)站点,例如Yahoo!Answers。为了使用CQA站点,用户可以制定旨在能被其他人阅读和理解的问题。形成有效的问题以引出来自其他用户的回答并不是无关紧要的工作,尤其是若用户例如只具有关于主题的浅层的知识。此外,一般地,例如,在其中用户对生成搜索查询有经验的搜索范例可能不提供用于针对社区问题站点制定问题的适合的技能。因此,本文所述实施例可以涉及帮助用户制定问题,更具体地,例如可以涉及例如帮助用户制定可以更好地表达用户意图和/或更好地从其他用户引出有意义的回答的问题。例如,诸如本文所描述的这些实施例可以鼓励用户例如在CQA站点上提问,而不是只是寻求响应于查询提交而由自动搜索引擎提供的结果。
一般地,例如,用户可以向诸如互联网搜索引擎的搜索引擎提交查询。至少部分响应于查询的提交,在实施例中可以生成一个或多个合成问题。此外,在实施例中,可以向用户显示生成的合成问题。在此上下文中,术语合成问题指至少部分基于一个或多个模板问题形式并且至少部分基于在所提交的搜索查询中所使用的词而生成的问题。合成问题的模板问题形式以下将作更详细的讨论。然而,作为示例,合成的模板问题形式可以包括“我可以如何T1我的T2 T3?”,其中示例中的T1、T2和T3可以包括来自搜索查询的词。例如,合成问题可以帮助用户获得通过传统查询类型的搜索难以获得的或者不可获得的内容,其更多细节也将在以下描述。在实施例中,生成的合成问题可以连同查询类型的搜索结果一起显示给用户以鼓励用户例如将他或她的研究扩大到CQA站点。同样地,合成问题可以帮助用户注重和/或更有意义地表达查询。
在一个示例说明性实施例中,例如可以通过在用户计算设备上执行的浏览器应用将一组合成问题展示给用户,并且用户可以选择合成问题的一个或多个。即,作为一个示例,合成问题可以经由服务器被生成,其中该服务器经由客户端浏览器向用户提供生成的问题。当然,也可以使用其他机制来提供生成的合成问题,例如在移动设备上执行的移动应用和/或其他方法。同样地,在实施例中,用户可以通过选择合成问题中的一个或多个向CQA站点发起对所选问题(例如,或者不止一个所选问题)的展示,虽然所要求保护的主题的范围不限于这些方面。同样,在实施例中,合成问题可以被生成为基本上语法正确的和/或可以采用足够自然的语言以使人容易理解,其更多细节也将在以下描述。
此外,在实施例中,可以以例如提供所呈现问题间的改进的多样性的方式来生成一组合成问题。在实施例中,可以至少部分地通过不包括近似重复的和/或重复的问题来实现合成问题间更强的多样性,以下将更详细地解释。同样地,在实施例中,可以生成问题质量分数。质量分数可以不必呈现给用户,但是结合所生成问题的生成和/或呈现可以十分有用。例如,质量分数可以在实施例中用于问题过滤和/或用于确定是否呈现合成问题。
图1根据实施例示出了描述示例合成问题的示例web页面显示。在实施例中,用户可以通过用户计算设备上执行的浏览器应用例如经由客户端-服务器类型网络交互提交一个或多个查询词(例如,查询110“ideas for a great novel(好的小说构思)”)。至少部分响应于用户提交一个或多个查询词(例如,查询110),用户计算设备可以向web服务器发送查询词。web服务器可以检索到一个或多个搜索结果并且可以向用户计算设备发送包括有搜索结果的web页面(例如,web页面100)。在实施例中,用户计算设备可以通过浏览器应用向用户显示包括有搜索结果的web页面(例如,web页面100)。
同样,在实施例中,web服务器和/或另一网络实体可以至少部分响应于接收一个或多个查询词(例如,查询110)生成多个合成问题(例如,合成问题120),并且可以向用户计算设备发送合成问题,例如用于显示给用户。在实施例中,用户可以通过用户-设备交互技术(例如,通过点击鼠标和/或通过触摸屏显示器)选择一个或多个合成问题(例如,合成问题120)以进一步精炼用户的搜索和/或寻求额外的内容。
在实施例中,通过选择一个或多个合成问题,用户例如可以向CQA站点发起对一个或多个所选问题的展示,虽然所要求保护的主题的范围不限于这些方面。同样,在实施例中,合成问题也可以被生成为基本上语法正确的和/或具有足够自然的语言以使人容易理解。如前所述,问题例如可以被生成和/或呈现给用户以试图帮助用户获得期望的内容,例如,帮助用户更有效地访问一个或多个CQA站点。
图2根据实施例示出了描述示例所选合成问题的示例web页面显示。图2对示出了针对用户提交的查询词110的搜索结果的示例web页面100进行描述,例如以上结合图1所讨论的。如上所述,内容检索系统可以至少部分基于用户所提交的一个或多个查询词(例如,查询110)生成多个合成问题。如上所述,在实施例中,也可以将合成问题(例如,合成问题120)显示给用户,并且用户可以选择一个或多个问题。在实施例中,例如可以将所选合成问题(例如,合成问题120的一个或多个)发布到CQA站点(例如,Yahoo!Answers 130)以帮助用户扩大他或她的针对期望内容的搜索。
例如,用户可以搜索ideas for a great novel。因此,用户可以通过浏览器应用向搜索引擎提交查询(例如,查询110“ideas for a great novel”)。作为响应,内容检索系统例如可以向用户显示用户查询类型搜索结果的列表。在实施例中,内容检索系统也可以生成一个或多个合成问题,在实施例中例如用于呈现给用户。当然,实施例的一方面例如可以包括至少部分基于所生成的质量分数来评估是否呈现所生成的合成问题,。
然而,针对图1和图2描述的示例,内容检索系统可以提供合成问题120“What aregood ideas for a great novel?(什么是好的小说的好的构思?)”、“What are somegreat ideas for novel?(哪些是好的小说的构思?)”以及“Do you have any ideas forgreat novel?(你有任何好的小说的构思么?)”。在实施例中,一组合成问题中的特定合成问题可以至少部分地和彼此相关。然而,在实施例中期望不包括重复或近似重复。
如图2所描述,至少部分响应于内容检索系统接收用户对合成问题(例如,“Do youhave any ideas for great novel?”)的选择,内容检索系统可以将所选问题(例如,所选问题140)发布到CQA站点,例如,如样本web页面130所描绘的。此外,因为合成问题(例如,合成问题120)以基本上语法正确的方式和/或以要被读者理解的方式被生成,在实施例中,用户例如可以免于制定问题以发布到CQA站点,这可能是个挑战或者至少是件繁琐的事务。因此,用户能够继续搜索相关内容,和/或可以通过合成问题的生成至少部分地被引导到相关内容。
图3根据实施例示出了描述示例合成问题的示例web页面显示。在实施例中,用户可以在浏览web时登录CQA站点,例如Yahoo!Answers。例如,响应于一个或多个查询词的提交,搜索引擎例如可以经由已提交的搜索查询将用户定向到CQA(例如,CQA站点300)。在实施例中,CQA站点300可以显示一个或多个合成问题(例如,合成问题310)来鼓励搜索的精炼。以这种方式,用户可以变成内容搜索和/或检索过程的更积极的参与者,并且用户可以更有可能地找到与特定意图充分相关的内容。
图4是根据实施例示出了生成合成问题的示例过程的示意图,如流程图400所描述。如框410所描述,可以例如获得来自用户的查询。例如,在实施例中用户可以向搜索引擎提交一个或多个查询词。在框500处,诸如内容检索系统的系统可以生成一组一个或多个合成问题。例如,在实施例中可以至少部分基于用户的查询生成一个或多个合成问题。此外,在实施例中,如框430所描述,可以提供合成问题。在一个实施例中,将所生成的问题从诸如内容检索系统的系统发送到诸如用户计算设备的计算设备以显示给用户。同样地,可替代地,例如可以经由来自诸如URL之类的位置的用户检索提供问题。在框440处,诸如内容检索系统的系统可以获得对该组合成问题的一个或多个特定合成问题的选择。当然,可以以各种方式传递选择,并且所要求保护的主题的范围不限于特定方法。在实施例中,用户可以选择合成问题,例如通过用鼠标进行“点击”。在另一示例实施例中,用户可以通过与触摸屏显示器(例如,平板显示器)交互来选择合成问题。如所述,可以采用任何用户-设备交互方法。同样地,例如,通信可以经由在用户设备上执行的浏览器或者经由另一正被执行的应用程序。此外,在框450处,内容检索系统可以至少部分基于一个或多个所选问题执行搜索。在实施例中,搜索可以包括将一个或多个合成问题发布到CQA站点或其他地方以引出例如来自其他用户的响应。在另一实施例中,搜索可以包括搜索引擎执行的web搜索。然而,所要求保护的主题的范围不限于本文公开的特定示例。
根据所要求保护的主题的实施例可以包括全部、多于或者少于框410、500、430、440和/或450。此外,框410、500、430、440和/或450的顺序仅是示例顺序,所要求保护的主题的范围不限于这方面。
图5是根据实施例示出用于生成合成问题的示例过程500的示意图。当然,所要求保护的主题不限于诸如图5之类的说明性实施例。如在框510处所描述的,在实施例中,可以生成一组候选问题。例如,可以至少部分根据一个或多个查询词(例如,由用户提供的)生成一组候选问题。此外,在实施例中,可以对该组候选问题进行排序。例如,在实施例中,对该组候选问题进行排序来确定已被确定为与用户的查询充分相关的问题子集。
在实施例中,例如在框520处所描述的,对一组候选问题进行排序可以包括至少部分根据机器学习排序函数对该组候选问题进行排序。此外,在实施例中,对一组候选问题进行排序可以包括至少部分根据自然语言函数进行排序。在实施例中,自然语言函数例如可以包括例如至少部分基于词类标记和/或针对一组候选问题的各个问题生成的依赖树来对一组候选问题进行排序。应注意的是,使用机器学习排序函数和/或自然语言函数的附加益处可以包括一种合成问题质量分数,以下将更充分地讨论。
此外,在实施例中,例如可以在候选合成问题组上执行多样性函数(例如在框530处所描述的),以移除重复的和/或近似重复的问题。此外,在实施例中,多样性函数可以包括从候选问题的至少一个子集中标识冗余的和/或近似冗余的问题。例如,标识冗余的问题可以包括在候选问题的至少一个子集上使用编辑距离(edit-distance)过滤,以下是对其更完整的描述,虽然所要求保护的主题的范围不限于这方面。此外,在候选问题组上执行多样性函数可以包括对候选问题的子集使用第一词语过滤,虽然,再次,所要求保护的主题的范围不限于这方面。
如前所述,使用机器学习排序函数和/或自然语言函数的额外益处可以包括一种合成问题质量分数。例如,在实施例中,如在框540处所述,可以在候选合成问题组上执行质量评估函数。例如,在完成机器学习工具的训练后,作为使用机器学习的结果,可以给候选问题分配分数。因此,作为示例,可以使用一个或多个阈值,使得没有得到足够高分数的问题不被使用和/或不被呈现给用户。
根据所要求保护的主题的实施例可以包括全部、少于或者多于框510至540。此外,框510至540的顺序仅是示例顺序,所要求保护的主题不限于这方面。
图6是根据实施例描述用于生成合成问题的示例系统的示意图。在实施例中,系统(例如,系统600)可以包括模板提取组件(例如,模板提取组件620)以及合成问题生成组件(例如,合成问题生成组件630)。用户可以与计算设备(例如,计算设备660)进行交互以经由网络(例如,网络650)向系统(例如,系统600)提交查询。在实施例中,网络(例如,网络650)可以包括互联网,并且系统(例如,系统600)可以是万维网的一部分,虽然所要求保护的主题不限于这些方面。
在实施例中,可以至少部分通过从查询/问题对的数据集(例如,从诸如查询/问题数据库640之类的查询/问题数据库)提取问题模板来生成多个问题模板。在实施例中,可以通过用一个或多个相应的其他词替换在来自查询/问题数据库(例如,数据库640)的问题中标识的一个或多个查询词来提取问题模板。例如,来自查询/问题数据库(例如,数据库640)的查询/问题对可以包括问题“我如何修理我的旧车?”,并且包括查询词“修理,旧的,车”。在实施例中,可以用词T1、T2和T3替换来自问题“我如何修理我的旧车?”的查询词“修理,旧的,车”以形成问题模板“我如何T1我的T2 T3?”。在实施例中,可以以这种方式评估相当大数目的查询/问题对,并且多个合成问题模板可以被提取和/或被生成以及被存储在数据库中(例如,合成问题模板数据库610)。同样,在实施例中,也可以对一组问题模板执行过滤函数。例如,在实施例中,数据库(例如,合成问题模板数据库610)可以存储与十个或更多查询相关联的合成问题模板,并且丢弃与少于十个查询相关联的合成问题模板,虽然十仅是非限制性的示例。在示例合成问题模板数据库(例如,合成问题模板数据库610)中,例如约40000个合成问题模板可以与它们相应的查询一起存储。然而,所要求保护的主题的范围不限于这些方面。
至少部分响应于从计算设备620接收查询,合成问题生成组件630可以生成一个或多个合成问题。在实施例中,至少部分基于从计算设备(例如,计算设备620)接收的一个或多个查询词,可以从合成问题模板数据库检索到一个或多个候选合成问题模板。在实施例中,可以针对给定的查询生成一组可能的候选合成问题,并且可以对各个候选合成问题进行彼此间的比较排序。同样,在实施例中,各个候选合成问题也可表示为“特征向量”,在该特征向量中,例如,候选合成问题的特性可以表示为多维向量的元素。
对候选合成问题进行排序可以包括确定各个候选合成问题的基线排序分数,并且也可以包括随后的合成问题的重新排序。在实施例中,在执行用于简化计算的进一步排序之前可以执行基线排序。例如,基线排序可以用于标识候选合成问题的“顶部”子集,并且候选合成问题的子集可以经受重新排序操作。
在实施例中,基线排序可以包括第一方面,该第一方面包括可能性分数。例如,至少部分通过对新查询q和n个与模板tj相关联的相似查询qi间的相似性分数sim(q;qi)求平均数,可以计算出查询/模板对(qi;tj)的可能性分数。在实施例中,各个相似性分数可以被计算为两个查询中相应位置中的词之间的词相似性的乘积。例如,sim(q;qi)=Πksim(qk),其中qk分别包括查询q和qi的第k个词。在实施例中,可以通过两个词各自上下文向量的余弦相似度来测量它们之间的相似度sim(qk)。在示例查询/问题数据库中,可以对数百万个查询进行处理来计算上下文向量,虽然所要求保护的主题的范围当然不限于这方面。
基线排序的第二方面可以包括确定各个候选合成问题的语言模型分数。在实施例中,语言模型分数可以表示对相应的候选合成问题的语法正确性的指示。在实施例中,可以至少部分基于对来自CQA站点Yahoo!Answers的约一千五百万个英文问题的采样来训练机器学习语言模型,虽然所要求保护的主题的范围当然不限于这方面。在实施例中,候选合成问题可以由向量单独地表示,如上所述。线性模型可以用于对候选合成问题池μ·Φ(Q)的各个候选合成问题向量进行评分,其中μ包括模型权重向量,并且Φ(Q)包括候选合成问题Q的特征向量。例如,在实施例中,被动攻击(PA)在线学习过程的平均变体可以用于训练权重,虽然所要求保护的主题的范围不限于这方面。
在实施例中,作为示例方法,基于上述两个示例方面的基线分数可以表达为:
基线分数=λ可能性(查询,模板)+(1-λ)语言模型(问题) (1)
如上所述,作为示例合成问题生成操作的一部分,一组候选合成问题的各个候选合成问题的基线排序分数可以用于选择将被重新排序的候选合成问题的子集。例如,在实施例中,为了对所选择的候选合成问题的子集进行重新排序,可以用词类标记(POS)来标记各个候选合成问题,和/或可以生成针对各个候选合成问题的依赖性解析树。同样,在实施例中,上述用于训练语言模型的来自CQA站点Yahoo!Answers的相同或近似相同的一千五百万个英文问题可以用于训练POS机器学习语言模型,虽然所要求保护的主题的范围不限于这方面。
除了POS标记,重新排序可以包括依赖性关系评估。在实施例中,可以至少部分地使用斯坦福自然语言处理(NLP)工具来完成候选合成问题的POS标记和/或依赖性分析,虽然所要求保护的主题的范围不限于这方面。在对候选合成问题执行依赖性关系评估时,可以生成针对各个候选合成问题的解析树。作为示例,在图8处示出了针对示例候选合成问题“我应该修理我的旧车么?”的解析树。在实施例中,可以从诸如图8示出的示例解析树派生出特征‘应该->修理’、‘我->修理’、‘车->修理’、‘MD->VB’、‘PRP->VB’、‘NN->VB’、‘M->V’、‘P->V’和‘N->V’。解析树特征可以捕捉诸如动词选择偏好之类的语义一致性。在实施例中,解析树特征的优势可以包括指示使用传统语言模型一般无法评估的太不相似的词语之间的关系的能力。例如,在实施例中,如解析树的最主要元素所描述,根词及其依赖词之间的关系可以反映候选合成问题的整体质量水平。
在实施例中,除了提供与用户感兴趣的区域相关的一组合成问题,例如,如用户查询指定的,在实施例中,期望向用户提供一组至少部分更多样的合成问题,使得用户可以在更可能反映潜在意图的问题范围中做选择。在实施例中,可以至少部分通过减少冗余的和/或相似的合成问题来实现改进的多样化。在另一实施例中,可以至少部分通过以不同的合成问题形式生成合成问题来实现更多样化。
关于通过生成不同的问题形式实现问题的多样性,示例实施例可以选择以不同词语(例如,问题词语“白名单”)开头的合成问题来向用户显示。例如,如果两个候选问题以不同词语开头,则其潜在含义也更有可能不同。在实施例中,可以从顶部开始检查经排序的候选问题列表,并且如果候选问题被确定为以与先前的候选问题相同的词语开头,则可以排除将该特定的候选问题作为要显示给用户的合成问题的候选。在实施例中,如上所述,用于选择以具有不同的第一词语的候选问题的过程实施例在本文可以被称为“第一词语”过滤。
如上所述,在实施例中,可以至少部分通过减少冗余和/或相似的问题来实现合成问题的更多样化。本文所使用的术语“冗余的问题”可以指其区别是几个可互换词(例如,可以彼此交换而不显著改变其问题含义的词)的问题。在实施例中,例如,可以生成和/或维护可互换词对列表,并且可以至少部分通过词类型编辑距离度量来测量问题间的冗余。例如,在实施例中,可以通过将成本“1”分配给低成本的编辑操作(例如,两个可互换词之间的替换)来确定编辑距离度量。另外,在实施例中,将成本无穷大分配给其他更复杂的编辑操作。在实施例中,如果两个问题间的编辑距离低于指定阈值,则这两个问题可以被认为是冗余的。例如,如果编辑距离冗余阈值被指定为三,则区别是两个或更少个可互换词的问题可以被认为是冗余的,反之,问题被认为是不冗余的。当然,这仅是一个示例实施例,并且所要求保护的主题的范围不限于此特定示例。
然而,在实施例中,继续采用示例方法来确定候选合成问题的编辑距离度量,这有利于存储可互换词对的数据库。可互换词的采样被提供,如下表1。
能够/可以 可以/应该 能够/要 一个/这个
词/词语 类型/种类 取得/下载 买/取得
酷/可爱 有趣的/很好的 好的/正常的 可能的/合法的
u/你 计算机/pc 好/好的 站点/网站
要/不要 坏的/好的 女孩/家伙 我的/你的
真的/- 精确地/- 经常/- 总是/-
表1-可互换对示例
在实施例中,可以以能够经由计算设备被实施的方式从一组问题中提取词对来提高效率。例如,可以至少部分地基于这样的假设来对词进行提,即:出现在相对大量的不同问题中的相同和/或相似的上下文中的词可以被认为是可互换的。例如,针对单独查询,可以评估顶部(top)生成的问题并且可以对区别是一个词的问题对进行标识。对应的词对可以针对其各自的出现而被记录和/或存储。除此之外,在实施例中,在删除操作的情形下,可以将词替换成空白,并且这样的配对也被认为是可互换的。此外,如果词对被观察到相对大量的单独查询,则该词对中的两个词被认为是可互换的。在实施例中,冗余对的结果数据库可以包括约500对可互换词,一些示例在表1中被示出。然而,所要求保护的主题的范围不限于本文所描述的特定示例。
如上所述,在实施例中,可以至少部分地基于逻辑数学函数来评估候选问题的质量。另外,在实施例中,可以至少部分地通过机器学习工具的线下训练来确定逻辑数学函数的参数。例如,在实施例中,查询的测试集可以被采样,并且针对单独查询,一个或多个人类用户可以对排序高于指定阈值的多个问题进行分析。同样,在实施例中,人类用户可以给合成问题的一个或多个方面分配等级。例如,在实施例中,人类用户可以基于问题与查询的相关性提供与合成问题的内容相关的等级,和/或可以提供与合成问题的语法正确性相关的等级。例如,人类用户可以将“好的”或者“差的”等级分配给特定问题的内容和/或语法。另外,如上所述,在实施例中,由人类用户针对与测试集查询相关的合成问题提供的等级可以用于训练机器学习工具,并且该机器学习工具可以用于确定逻辑数学函数的一个或多个参数,其中,该逻辑数学函数可以用于评估候选问题的质量。
在实施例中,各个候选问题可以由特征向量表示。例如,候选问题可以由描述候选问题的一个或多个特性的特征向量表示,其中该特性包括但不限于例如与问题的长度、语言模型分数、模板匹配分数、问题类型、排序位置、查询词是否保留在问题中、查询词在问题中是否按顺序保留、查询长度、候选问题是否与其他候选问题相似相关的特性。当然,所要求保护的主题的范围不限于这些方面。
再参照图6,在实施例中,根据以上所述的示例过程从排在顶部的候选问题中选择的一个或多个合成问题可以被从合成问题组件630发送到计算设备660。此外,在实施例中,可以将一个或多个合成问题存储在问题/查询数据库640中。当然,系统600仅作为示例系统,并且所要求保护的主题的范围不限于这方面。
图7是根据实施例示出了包括有经由网络耦接的多个计算设备的示例系统的框图。出于说明的目的,图7示出了可以用于客户端-服务器类型交互的计算平台或者计算设备704的实施例,如下文所述。在图7中,例如,包括有服务器计算设备特征的计算设备704可以与包括有客户端设备特征的计算设备702相连接。例如,在其他实施例中,计算设备704可以包括客户端计算设备,并且计算设备702可以包括服务器计算设备。例如,在实施例中,通信接口730、处理器(例如,处理单元)720和可以包括有主存储器724和次级存储器726的存储器722可以通过通信总线702进行通信。在图7中,计算设备704可以存储各种形式的内容,例如,各种类型的内容(例如,以物理状态或信号形式的视频、图像、文本、音频等)的模拟、未压缩数字、无损压缩数字或者有损压缩数字格式。例如,计算设备704可以通过联网连接经由互联网708与计算设备702和/或计算设备706进行通信。虽然图7的计算设备704示出以上标识的组件,但所要求保护的主题不限于只有这些组件的计算平台,因为其他实施方式可包括可替换的布置,其中该布置可以包括额外的组件、更少的组件或者功能不同但其实现相似结果的组件。相反,示例仅作为说明而提供。并不意图将所要求保护的主题的范围限制为说明性示例。
处理器720可以代表执行至少部分计算程序或过程的一个或多个电路(例如,数字电路)。作为示例而非限制,处理器720可以包括一个或多个处理器,例如,控制器、微处理器、微控制器、专用集成电路、数字信号处理器、可编程逻辑设备、现场可编程门阵列和类似物或者其任何组合。例如,在实施方案中,处理器720可以执行信号处理以操纵或者构造信号或状态。
存储器722可以代表任何存储机制。例如,存储器722可以包括主存储器724和次级存储器726,而额外的存储电路、机制或者其组合可以被使用。存储器722可以包括例如随机访问存储器、只读存储器或者一个或多个数据存储设备或系统,仅举几个例子,例如磁盘驱动、光盘驱动、磁带驱动、固态存储器驱动。作为示例,存储器722可以用于存储程序。存储器722也可以包括用于访问计算机可读介质740的存储控制器,其中该计算机可读介质740可以载送和/或提供可访问的内容、代码和/或指令(例如,可由处理器720或者能够执行指令的一些其他控制器或处理器执行)。在实施例中,存储器722也可以存储例如本地数据库缓存。
在处理器720的指导下,存储器(例如,存储物理状态的单元,该物理状态例如表示程序)可以由处理器720执行,并且所生成的信号可以例如经由互联网传输。处理器720还可以从服务器704接收数字编码的信号。
网络708可以包括一个或多个通信链路、进程和/或资源以支持客户端与服务器(例如,可以包括多个服务器(未示出))之间交换通信信号。作为示例但不限于此,网络708可以包括无线和/或有线通信链路、电话或电信系统、Wi-Fi网络、Wi-MAX网络、互联网、web、局域网(LAN)、广域网(WAN)或任何其组合。
本文所使用的术语“计算设备”指包括有处理和/或存储以信号和/或状态形式的数据的能力的系统和/或设备,例如,计算机。因此,在此上下文中,计算设备可以包括硬件、软件、固件或任何其组合(除了软件本身)。如图7所示,计算设备704仅作为一个这样的示例,并且所要求保护主题的范围不限于此特定的示例。针对一个或多个实施例,计算设备可以包括大范围的数字电子设备中的任何一种,包括但不限于个人台式计算机或者笔记本计算机、高分辨率电视、数字通用磁盘(DVD)播放器和/或记录器、游戏机、卫星电视接收器、蜂窝电话、个人数字助理、移动音频和/或视频回放和/或记录设备,或者以上各项的任何组合。此外,除非另有具体说明,本文参考流程图和/或其他方式所描述的过程也可以全部或部分地由计算设备执行和/或实现。
存储器722可以存储与一个或多个用户相关的cookie,并且也可以包括可以载送和/或提供可访问的内容、代码和/或指令(例如,可由处理器720或者能够执行指令的一些其他控制器或处理器执行的)的计算机可读介质。用户可以使用输入设备,例如,计算机鼠标、触控笔、轨迹球、键盘或者能够从用户接收输入的其他任何设备。
关于与通信或者计算网络有关的方面,无线网络可以将客户端设备与网络耦接。无线网络可以使用独立的自组织网络、网状网络、无线LAN(WLAN)网络、蜂窝网络或其类似物。无线网络还可以包括通过无线无线电链路和/或类似物耦接的终端、网关、路由器或其类似物的系统,其可以自由、随意地移动或者任意地组织自己,使得网络拓扑可以改变,有时甚至迅速地改变。无线网络还可以使用多种网络接入技术,包括长期演进(LTE)、WLAN、无线路由(WR)网、或者第二代、第三代或第四代(2G、3G或4G)蜂窝技术、或者其他技术、或者其类似物。网络接入技术例如可以实现设备(例如,具有不同程度移动性的客户端设备)的广域覆盖。
网络可以经由网络接入技术实现射频或者无线类型的通信,网络接入技术例如为全球移动通信系统(GSM)、通用移动通信系统(UMTS)、通用分组无线业务(GPRS)、增强数据的GSM演进(EDGE)、3GPP长期演进(LTE)、高级LTE、宽带码分多址移动(WCDMA)、蓝牙、802.11b/g/n、或其他、或者其类似物。无线网络几乎可以包括现已知的或将开发的任何类型的无线通信机制,并且通过该无线通信机制,信号可以在设备间(例如,客户端设备或计算设备)、在网络间或网络内(或类似物)被传递。
计算设备和无线网络之间的通信可以根据已知的或者将开发的蜂窝电话通信网络协议,包括例如全球移动通信系统(GSM)、增强数据率的GSM演进(EDGE)和全球微波接入互操作性(WiMAX)。计算设备也可以具有订户身份模块(SIM)卡,该SIM卡可以包括例如存储用户的订阅信息并且还可以存储用户联系人列表的可分离的智能卡。例如,用户可以拥有计算设备或者可以作为其主要用户。无线或有线电话网络运营商或者网络服务提供者(ISP)可以给计算设备分配地址。例如,地址可以包括国内或国际电话号码、互联网协议(IP)地址和/或一个或多个标识符。在其他实施例中,通信网络可以体现为有线网络、无线网络或者其组合。
计算设备可以在能力或特征方面不同。所要求保护的主题旨在覆盖广泛的潜在变形。例如,网络设备可以包括数字键盘或功能有限的其他显示器,例如用于显示文本的单色液晶显示器(LCD)。相反,然而,作为另一示例,web使能的计算设备可以包括物理或虚拟键盘、大容量存储设备、一个或多个加速度计、一个或多个陀螺仪、全球定位系统(GPS)或者其他位置识别类型的能力、和/或具有更高级别的功能的显示器(例如,触敏彩色2D或3D显示器)。
计算设备可以包括或可以执行各种已知或将开发的操作系统或者衍生物和/或版本,包括个人计算机操作系统(例如,Windows、iOS或Linux)或移动操作系统(例如,iOS、安卓、WindowsMobile),或者其类似物。计算设备可以包括或可以执行各种可能的应用,例如实现与其他设备的通信的客户端软件应用,例如传递一个或多个信息(例如经由邮件、短信服务(SMS)、或者多媒体消息服务(MMS)),包括经由网络,例如社交网络,包括但不限于Facebook、LinkedIn、Twitter、Flickr或者Google+,仅提供几个示例。计算设备也可以包括或执行软件应用来传递内容(例如,文本内容、多媒体内容或其类似物)。计算设备也可以包括或执行软件应用来执行各种可能的任务,例如浏览、搜索、播放各种形式的内容,包括本地存储或流送的视频或者游戏,例如但不限于梦幻体育联盟。以上仅为了说明所要求保护的主题旨在包括广泛的可能特征或能力而被提供。
例如,包括有计算设备的网络也可以扩展到作为另一网络的一部分例如经由虚拟私有网络(VPN)进行通信的另一设备。为了支持VPN,传输可以被转发到VPN设备。例如,软件隧道被创建。隧道式业务可以被或不被加密,并且隧道协议基本遵守或基本兼容任何以下协议的过去、现在或将来的任何版本:IPSec、传输层安全、数据报传输层安全、微软点对点加密、微软安全套接字隧道协议、多路径虚拟私有网络、安全外壳VPN、或者另一现有的协议、或者另一将被开发的协议。
网络可以但不限于与以下任何网络协议栈的已知的、或将被开发的、过去的、现在的或将来的版本兼容:ARCNET、Apple Talk、ATM、蓝牙、DECnet、以太网、FDDI、帧中继、HIPPI、IEEE 1394、IEEE 802.11、IEEE-488、互联网协议组、IPX、Myrinet、OSI协议组、QsNet、RS-232、SPX、系统网络架构、令牌环、USB或者X.25。网络可以使用例如TCP/IP、UDP、DECnet、NetBEUI、IPX、Apple talk、其他或者类似物。互联网协议(IP)的版本可以包括IPv4、IPv6、其他、和/或类似物。
当然应理解的是,虽然特定实施例将被描述,但所要求保护的主题的范围并不限于特定实施例或实施方案。例如,一个实施例可以在硬件中,例如被实施为在设备或设备的组合上操作,而另一实施例可以在软件中。同样地,实施例可以在固件中实施,或者作为硬件、软件和/或固件的任何组合(软件本身除外)。同样地,虽然所要求保护的主题的范围不限于这方面,但是一个实施例可以包括一个或多个物品,例如存储介质或存储媒介。存储媒介(例如一个或多个CD-ROM和/或盘)可以在其上存储可由系统(例如,计算机系统、计算平台或其他系统)执行的指令,其可以导致正被执行的根据所要求保护的主题的方法的实施例,例如先前描述的实施例;虽然如此,当然,所要求保护的主题不限于先前描述的实施例。作为一个潜在的示例,计算平台可以包括一个或多个处理单元或处理器、能够输入/输出的一个或多个设备(例如显示器、键盘和/或鼠标)和/或一个或多个存储器(例如,静态随机存取存储器、动态随机存取存储器、闪存和/或硬盘驱动)。
在前面的详细描述中,已经阐述许多具体细节以提供对所要求保护的主题的透彻理解。然而,所属领域技术人员应理解,可以在没有这些具体细节的情况下实践所要求保护的主题。在其他实例中,没有对所属领域技术人员已知的方法和/或设备进行详细描述,以免混淆所要求保护的主题。已根据例如存储在特定装置或专用计算设备或平台的存储器内的二进制信号或状态上的操作的逻辑、算法和/或符号表示呈现先前详细描述的一些部分。在该特定说明书的上下文中,术语特定装置或其类似物包括通用计算设备(例如,当被编程为依照来自程序软件的指令执行特定功能时的通用计算机)。
算法描述和/或符号表示是信号处理和/或相关领域的技术人员用于将其工作的实质传达给所属领域其他技术人员的技术的示例。算法在这里并且通常被认为是导致期望结果的自相一致的操作序列和/或类似的信号处理。在此上下文中,操作和/或处理涉及物理量的物理操纵。通常,尽管不是必须的,这样的量可以采取电和/或磁信号和/或状态的形式,其能够被存储、传送、组合、比较、处理或以其他方式被操纵为表示信息的电子信号和/或状态。已证明的是,有时主要出于习惯用语的原因,将这些信号称为位、数据、值、元素、符号、字符、词、数目、数字、信息和/或类似物是十分方便的。然而,应理解的是,所有这些或者类似的词应与适合的物理量相关联,并且仅作为方便的标签。除非另有特别说明,以下讨论显而易见的是,应理解在整个说明书讨论中,对术语例如“处理”、“计算”、“确定”、“建立”、“获得”、“识别”、“选择”、“生成”和/或类似物的使用可以指代特定装置(例如,专用计算机和/或类似的专用计算设备)的动作和/或过程,因此,在本说明书的上下文中,专用计算机和/或类似的专用计算设备能够处理、操纵和/或变换信号和/或状态,其通常表示为专用计算机和/或类似专用计算设备的存储器、寄存器和/或其他信息存储设备、传输设备和/或显示设备内的物理电子和/或磁性量。在如上所述的此特定专利申请的上下文中,术语“特定装置”可以包括通用计算设备(例如,当被编程为依据来自程序软件的指令执行特定功能时的通用计算机)。
在一些情况下,例如,存储器设备的操作(例如,从二进制一到二进制零的状态改变或反之)可包括诸如物理变换之类的变换。采用特定类型的存储器设备,这种物理变换可以包括物品到不同状态或事物的物理变换。例如但不限于,针对一些类型的存储器设备,状态的改变可以涉及电荷的累积和/或存储,或者已存电荷的释放。同样地,在其它存储器设备中,状态改变可以包括物理改变,例如,磁取向中的变换和/或分子结构中的物理变化或变换(例如,从结晶到非结晶或反之)。仍然在其它存储器设备中,物理状态的改变可涉及量子机械现象,例如,可能涉及例如量子位(量子位)的叠加、纠缠和/或其类似物。上述内容不旨在详尽列出全部示例,其中,在存储器设备中从二进制一到二进制零或反之的状态改变可以包括变换,例如物理变换。相反,前述旨在作为说明性示例。
虽然已经示出和/或描述了目前被认为是示例特征的内容,但是相关领域的技术人员应理解,可以做出各种其他修改和/或可以用等价物替换,而不背离所要求保护的主题。除此之外,可以做出许多修改以使特定情况适应所要求保护的主题的教导,而不背离本文所描述的一个或多个中心概念。因此,期望所要求保护的主题不限于所公开的特定示例,并且还可以包括落入所附权利要求和/或其等同物内的所有方面。

Claims (21)

1.一种方法,包括:
至少部分基于搜索查询生成多个合成问题;以及
提供从所生成的所述多个合成问题对一个或多个合成问题的用户选择。
2.如权利要求1所述的方法,还包括:
从所述多个合成问题获得来自所述用户的所述用户选择;以及
将所述用户选择提交到一个或多个社区问答站点。
3.如权利要求1所述的方法,其中所述生成所述多个合成问题包括:
生成一组候选合成问题;以及
对该组候选合成问题进行排序。
4.如权利要求3所述的方法,其中所述对该所述候选合成问题进行排序包括至少部分根据机器学习排序函数和/或至少部分根据自然语言函数对该候选问题进行排序。
5.如权利要求4所述的方法,其中,所述至少部分根据所述机器学习排序函数和/或至少部分根据所述自然语言函数对该组候选问题进行排序包括至少部分基于词类标记和/或针对该组候选合成问题的各个合成问题生成的依赖树对该组候选合成问题进行排序。
6.如权利要求3所述的方法,其中,所述生成所述多个合成问题包括对所述候选合成问题的至少一个子集执行多样性函数。
7.如权利要求6所述的方法,其中所述多样性函数包括从所述候选合成问题的所述至少一个子集中标识冗余的合成问题。
8.如权利要求7所述的方法,其中所述标识冗余的问题包括对所述候选合成问题的所述至少一个子集使用编辑距离过滤。
9.如权利要求6所述的方法,其中所述多样性函数包括对所述候选合成问题的所述至少一个子集使用第一词语过滤。
10.如权利要求3所述的方法,其中所述生成所述多个合成问题包括对所述候选合成问题的至少一个子集执行质量评估函数。
11.如权利要求10所述的方法,还包括至少部分基于逻辑数学函数的一个或多个参数来执行所述质量评估函数,其中所述一个或多个参数是至少部分通过机器学习工具的训练确定的。
12.一种物品,包括非暂时性存储介质,该非暂时性存储介质上存储有可由计算平台的处理器执行的指令,用于:
至少部分基于搜索查询生成多个合成问题;以及
向用户计算设备发送所述多个合成问题。
13.如权利要求12所述的物品,其中所述存储介质上存储有可由所述计算平台的所述处理器执行的进一步指令,用于:
获得所述用户对所述多个合成问题中的一个或多个的选择;以及
将所述用户选择提交到一个或多个社区问答站点。
14.如权利要求12所述的物品,其中所述存储介质上存储有可由所述计算平台的所述处理器执行的进一步指令来至少部分通过以下操作生成所述多个合成问题:
生成一组候选合成问题;以及
对该组候选合成问题进行排序。
15.如权利要求14所述的物品,其中所述存储介质上存储有可由所述计算平台的所述处理器执行的进一步指令来至少部分根据机器学习排序函数和/或至少部分根据自然语言函数对该组候选合成问题进行排序。
16.如权利要求15所述的物品,其中所述存储介质上存储有可由所述计算平台的所述处理器执行的进一步指令来至少部分基于词类标记和/或针对该组候选合成问题的各个问题生成的依赖树的一部分对该组候选合成问题进行排序。
17.如权利要求14所述的方法,其中所述存储介质上还存储有可由所述计算平台的所述处理器执行的进一步指令来至少部分通过对所述候选合成问题的至少一个子集执行多样性函数以生成所述多个合成问题。
18.如权利要求17所述的物品,其中所述多样性函数包括从所述候选合成问题的所述至少一个子集中标识冗余的问题。
19.如权利要求14所述的物品,其中所述存储介质上存储有可由所述计算平台的所述处理器执行的进一步指令以生成所述多个合成问题,以便对所述候选合成问题的至少一个子集执行质量评估函数。
20.一种装置,包括:
用于至少部分基于搜索查询生成多个合成问题的装置;
用于向客户端计算装置发送所述多个合成问题的装置。
21.如权利要求20所述的装置,还包括用于至少部分根据机器学习排序函数和/或至少部分根据自然语言函数对该组合成问题进行排序的装置。
CN201580025153.4A 2014-05-21 2015-05-19 合成问题的制定 Pending CN106462606A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/284,180 2014-05-21
US14/284,180 US9830556B2 (en) 2014-05-21 2014-05-21 Synthetic question formulation
PCT/US2015/031453 WO2015179326A1 (en) 2014-05-21 2015-05-19 Synthetic question formulation

Publications (1)

Publication Number Publication Date
CN106462606A true CN106462606A (zh) 2017-02-22

Family

ID=54554599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580025153.4A Pending CN106462606A (zh) 2014-05-21 2015-05-19 合成问题的制定

Country Status (5)

Country Link
US (1) US9830556B2 (zh)
EP (1) EP3127021A4 (zh)
CN (1) CN106462606A (zh)
TW (1) TWI628550B (zh)
WO (1) WO2015179326A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268650B2 (en) 2014-08-22 2019-04-23 Facebook, Inc. Systems and methods for providing communications to and from verified entities
GB2529860A (en) * 2014-09-04 2016-03-09 Ibm Method and device for guided keyword-based exploration of data
US10102275B2 (en) * 2015-05-27 2018-10-16 International Business Machines Corporation User interface for a query answering system
CN106469169A (zh) 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置
US10146858B2 (en) 2015-12-11 2018-12-04 International Business Machines Corporation Discrepancy handler for document ingestion into a corpus for a cognitive computing system
US9842161B2 (en) 2016-01-12 2017-12-12 International Business Machines Corporation Discrepancy curator for documents in a corpus of a cognitive computing system
US10176250B2 (en) 2016-01-12 2019-01-08 International Business Machines Corporation Automated curation of documents in a corpus for a cognitive computing system
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
CN107301163B (zh) * 2016-04-14 2020-11-17 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
US10339167B2 (en) 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10339168B2 (en) 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US11238111B2 (en) * 2016-10-24 2022-02-01 International Business Machines Corporation Response generation
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
US10423649B2 (en) 2017-04-06 2019-09-24 International Business Machines Corporation Natural question generation from query data using natural language processing system
US11010656B2 (en) 2017-10-30 2021-05-18 Clinc, Inc. System and method for implementing an artificially intelligent virtual assistant using machine learning
US10572801B2 (en) 2017-11-22 2020-02-25 Clinc, Inc. System and method for implementing an artificially intelligent virtual assistant using machine learning
US10303978B1 (en) * 2018-03-26 2019-05-28 Clinc, Inc. Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
JP7149560B2 (ja) * 2018-04-13 2022-10-07 国立研究開発法人情報通信研究機構 リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
US10783141B2 (en) * 2018-04-19 2020-09-22 International Business Machines Corporation Natural language processing social-based matrix refactorization
KR102128549B1 (ko) * 2018-09-19 2020-07-08 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
WO2020123109A1 (en) 2018-12-13 2020-06-18 Clinc, Inc Systems and methods for automatically configuring training data for training machine learning models of a machine learning-based dialogue system
US10880331B2 (en) * 2019-11-15 2020-12-29 Cheman Shaik Defeating solution to phishing attacks through counter challenge authentication
JP7131720B2 (ja) 2019-12-26 2022-09-06 日本電気株式会社 情報提供方法
US11741371B2 (en) * 2020-03-20 2023-08-29 International Business Machines Corporation Automatically generating diverse text
JP2022050973A (ja) * 2020-09-18 2022-03-31 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム
US11921712B2 (en) * 2020-10-05 2024-03-05 MeetKai, Inc. System and method for automatically generating question and query pairs

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617205B2 (en) * 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US20090281997A1 (en) * 2006-07-25 2009-11-12 Pankaj Jain Method and a system for searching information using information device
US8135712B1 (en) * 2008-06-27 2012-03-13 Google Inc. Posting questions from search queries
US20130282704A1 (en) * 2012-04-20 2013-10-24 Microsoft Corporation Search system with query refinement

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192168A1 (en) * 2006-02-15 2007-08-16 Leviathan Entertainment, Llc Map and Inventory-Based On-Line Purchases
US9477755B2 (en) * 2013-04-09 2016-10-25 International Business Machines Corporation Question-related identification of relevant social communities
US9342608B2 (en) * 2013-08-01 2016-05-17 International Business Machines Corporation Clarification of submitted questions in a question and answer system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617205B2 (en) * 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US20090281997A1 (en) * 2006-07-25 2009-11-12 Pankaj Jain Method and a system for searching information using information device
US8135712B1 (en) * 2008-06-27 2012-03-13 Google Inc. Posting questions from search queries
US20130282704A1 (en) * 2012-04-20 2013-10-24 Microsoft Corporation Search system with query refinement

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GIDEON DROR 等: "From query to question in one click: suggesting synthetic questions to searchers", 《WWW "13 PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 *

Also Published As

Publication number Publication date
EP3127021A4 (en) 2017-11-29
EP3127021A1 (en) 2017-02-08
WO2015179326A1 (en) 2015-11-26
US9830556B2 (en) 2017-11-28
TW201610726A (zh) 2016-03-16
US20150339590A1 (en) 2015-11-26
TWI628550B (zh) 2018-07-01

Similar Documents

Publication Publication Date Title
CN106462606A (zh) 合成问题的制定
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
CN104462547A (zh) 一种可配置的网页数据采集的方法及系统
US20160117604A1 (en) Information discovery system
CN103605808A (zh) 基于搜索的ugc推荐的方法及系统
US9037568B1 (en) Factual query pattern learning
JP2014081918A (ja) 検索語自動完成機能と連動する推薦結果の提供方法
CN103581224A (zh) 推送信息的方法和装置
Al-Saqaf Mecodify: a tool for big data analysis & visualization with twitter as a case study
CN105893396B (zh) 基于附近位置来解释用户查询
CN104915438B (zh) 一种获取特定话题微博中pcu关联数据的方法
US20160188721A1 (en) Accessing Multi-State Search Results
KR20200013843A (ko) 챗봇 기반의 제품 매뉴얼 제공 시스템 및 그 방법
Liu et al. An ergonomics evaluation to chatbot equipped with knowledge-rich mind
Wasim et al. Extracting and modeling user interests based on social media
US20150154292A1 (en) Recirculating on-line traffic, such as within a special purpose search engine
Mfenyana et al. Development of a Facebook crawler for opinion trend monitoring and analysis purposes: case study of government service delivery in Dwesa
CN109948035A (zh) 信息共享方法、装置及系统
US10242106B2 (en) Enhance search assist system's freshness by extracting phrases from news articles
JP7003481B2 (ja) ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング
US11150871B2 (en) Information density of documents
CN104915361A (zh) 一种数据信息的展示方法及装置
Stuart FOAF within UK academic web space: a webometric analysis of the semantic web
AC et al. Development of a Covid-19 Information Dashboard to Access the Health Care Resources and Requirements Online

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170222