CN110291520A - 用自然语言对话支持交互式文本挖掘处理 - Google Patents
用自然语言对话支持交互式文本挖掘处理 Download PDFInfo
- Publication number
- CN110291520A CN110291520A CN201780086417.6A CN201780086417A CN110291520A CN 110291520 A CN110291520 A CN 110291520A CN 201780086417 A CN201780086417 A CN 201780086417A CN 110291520 A CN110291520 A CN 110291520A
- Authority
- CN
- China
- Prior art keywords
- statistical analysis
- analysis
- natural language
- document
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
在包括至少一个处理器和至少一个存储器的数据处理系统中提供了一种机制,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备。接受模块接受自然语言句子。提取模块从自然语言句子中提取第一方面。统计分析模块对一组文档执行关于第一方面的第一统计分析,并且响应于从自然语言句子提取的信息,基于第一统计分析的结果确定第一方面的值,该信息要求进行第二统计分析。统计分析模块使用第一方面的值执行该组文档的第二统计分析。用户界面呈现基于第二统计分析的结果确定的第二方面。
Description
技术领域
本申请一般涉及改进的数据处理设备和方法,并且更具体地涉及用于关于方面(facet)的文档的统计分析机制。
背景技术
文本挖掘是用于从文档的大量非结构化文本数据获取知识而不必阅读文档的整个内容的技术。文本挖掘系统可以分析非结构化文本数据,并提取方面,方面是表示文档特征的单词或短语集。此外,文本挖掘系统可以利用查询缩小文档(例如,自然语言句子搜索中的查询,方面搜索中的查询),并且对关于方面的当前文档(缩小的文档)执行各种统计分析。
为了获得文本挖掘的重要结果,一个分析过程是不充分的并且需要执行两个分析过程。这两个分析过程可以包括将文档缩小为感兴趣(interesting)文档并识别特定于感兴趣文档的单词的第一分析过程,以及识别单词出现原因的第二分析过程。
然而,由于通常假设仅执行第一分析过程,因此出现用户不太可能获得文本挖掘的显著结果的问题。
因此,本领域需要解决上述问题。
发明内容
从第一方面来看,本发明提供了一种方法,在包括至少一个处理器和至少一个存储器的数据处理系统中,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使得所述至少一个处理器,用于实现文档分析设备,用于对关于方面的文档进行统计分析,该方法包括:由在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;统计分析模块利用第一方面的值对该组文档进行第二统计分析;并且,由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。
从另一方面来看,本发明提供了一种用于对关于方面执行文档的统计分析的装置,该装置包括:处理器;和耦合到处理器的存储器,其中存储器包括指令,该指令当由处理器执行时,使得处理器实现文档分析设备,用于执行关于方面的文档的统计分析,其中该指令使处理器:通过在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块,执行关于第一方面的一组文档的第一统计分析;通过统计分析模块,基于响应于从自然语言句子中提取的信息的第一统计分析的结果,确定第一方面的值,该信息请求第二统计分析;统计分析模块利用第一方面的值对该组文档进行第二次统计分析;并且,由处理器执行的用户界面,呈现基于第二统计分析的结果确定的第二方面。
从另一方面来看,本发明提供了一种用于对关于方面执行文档的统计分析的计算机程序产品,该计算机程序产品包括可由处理电路读取并存储用于执行的指令的计算机可读存储介质。通过处理电路执行用于执行本发明的步骤的方法。
从另一方面来看,本发明提供了一种存储在计算机可读介质上并可加载到数字计算机的内部存储器中的计算机程序,包括当所述程序在计算机上运行时用于执行本发明的步骤的软件代码部分。
在一个说明性实施例中,提供了一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现文档分析设备,用于对关于方面的文档执行统计分析。该方法包括由在文档分析设备内执行的接受模块接受自然语言句子。该方法还包括由在文档分析设备内执行的提取模块从自然语言句子中提取第一方面。该方法还包括由在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析。该方法还包括由统计分析模块基于响应于从自然语言句子提取的信息的第一统计分析的结果,确定第一方面的值,该信息请求第二统计分析。该方法还包括由统计分析模块使用第一方面的值执行该组文档的第二统计分析。该方法还包括由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。
在其他说明性实施例中,提供了一种计算机程序产品,包括具有计算机可读程序的计算机可用或可读介质。当在计算设备上执行时,计算机可读程序使计算设备执行以上关于方法说明性实施例概述的操作中的各种和组合。
在又一个说明性实施例中,提供了一种系统/装置。该系统/装置可以包括一个或多个处理器和耦合到一个或多个处理器的存储器。存储器可以包括指令,当由一个或多个处理器执行时,使得一个或多个处理器执行以上关于方法说明性实施例概述的操作中的各种操作和组合。
鉴于以下对本发明的示例实施例的详细描述,本发明的这些和其他特征和优点将对本领域普通技术人员变得明显。
附图说明
当结合附图阅读时,通过参考说明性实施例的以下详细描述,将最好地理解本发明以及优选的使用模式及其进一步的目的和优点,其中:
图1描绘了根据现有技术的实际分析过程的示例,并且其中可以实现本发明的优选实施例;
图2描绘了根据说明性实施例的文档分析系统的框图;
图3描绘了根据说明性实施例的输入屏幕的示例;
图4描绘了根据说明性实施例的挖掘(mining)图形屏幕的示例;
图5描绘了根据说明性实施例的当自然语言句子中包括自动分析指定时显示的挖掘图形屏幕的示例;
图6描绘了根据说明性实施例的除了挖掘图形屏幕之外还显示的方面屏幕的示例;
图7描绘了根据说明性实施例在紧接在调用细节分析屏幕之前显示的挖掘图形屏幕的示例;
图8描绘了根据说明性实施例的细节分析屏幕的示例;
图9A和图9B描绘了表示根据说明性实施例的文档分析的操作的示例的流程图;
图10描绘了根据现有技术的示例分布式数据处理系统的图形表示,并且其中可以实现本发明的优选实施例;和
图11是根据现有技术的仅一个示例数据处理系统的框图,并且其中可以实现本发明的优选实施例。
具体实施方式
说明性实施例提供了一种系统和用户界面,以支持具有自然语言对话的交互式文本挖掘过程。系统识别用户的分析并执行自动分析和帮助。可以用自然语言句子描述用户希望执行的分析。系统理解自然语言句子的分析步骤并协助分析。更具体地,系统自动执行分析步骤,同时通过与用户的交互适当地存储所需信息并显示分析屏幕。
用户界面允许分析情况,单词之间的关系,和使用分析输入屏幕以直观地理解的分析内容,用于显示自然语言句子输入和自然语言句子样本,以及用于实际挖掘的挖掘屏幕。挖掘屏幕由用于可视化交互式挖掘过程的挖掘图形屏幕、用于显示来自当前文档集合和待分析的方面的最佳分析仪表板的分析屏幕、以及用于列出可用方面的方面屏幕组成。
在开始讨论说明性实施例的各个方面之前,首先应当理解,在整个说明书中,术语“机制”(mechanism)将用于指代执行各种操作,功能和本发明的元件。喜欢。这里使用的术语“机制”可以是装置,过程或计算机程序产品形式的说明性实施例的功能或方面的实现。在过程的情况下,该过程由一个或多个设备,装置,计算机,数据处理系统等实现。在计算机程序产品的情况下,由计算机代码或包含在计算机程序产品中或计算机程序产品上的指令表示的逻辑由一个或多个硬件设备执行,以便实现功能或执行与特定“机制”相关联的操作。“因此,这里描述的机制可以实现为专用硬件,在通用硬件上执行的软件,存储在介质上的软件指令,使得指令易于由专用或通用硬件执行,用于执行功能的过程或方法,或任何上述的组合。
本说明书和权利要求关于说明性实施例的特定特征和元素可以使用术语“一个”,“至少一个”和“一个或多个”。应当理解,这些术语和短语旨在表明在特定说明性实施例中存在至少一个特定特征或元素,但是也可以存在多于一个。也就是说,这些术语/短语不旨在将描述或权利要求限制为存在单个特征/元素或者要求存在多个这样的特征/元素。相反,这些术语/短语仅需要至少单个特征/元素连同多个这样的特征/元素的可能性在说明书和权利要求的范围内。
另外,应当理解,以下描述对说明性实施例的各种元件使用多个各种示例,以进一步说明说明性实施例的示例实现,并有助于理解说明性实施例的机制。这些实施例旨在是非限制性的,并非穷举实现说明性实施方案的机制的各种可能性。鉴于本说明书,本领域普通技术人员将清楚,对于这些各种元件存在许多其他替代实施方式,其可以在不脱离本文提供的示例的情况下使用,或者替代本文提供的示例而不脱离本发明的范围。
图1示出了实际分析过程的示例。在该示例中,假设用户分析关于车辆故障的文档以找出车辆模型中经常发生的问题(下文中简称为“模型”)以及问题的原因。
在过程(process)#1中,用户可以首先使用要分析的模型(在该示例中为“ABC”)作为查询词来缩小文档,如节点31所示。即,用户可以使用方面“模型”的值“ABC”来执行方面搜索。在下文中,将方面的值称为“方面值”。接下来,用户可以选择要分析的方面“组件”并且执行当前文档相对于方面的相关性分析。在图1中,假设相关性分析的结果表明,如节点32所示,方面值“Brake”(刹车)与方面“Component”(组件)的方面值中的模型“ABC”高度相关。因此,用户可以使用方面值“Brake”进一步缩小当前文档的范围,以找出刹车出现问题的原因。也就是说,用户可以使用方面“组件”的方面值“Brake”来执行方面搜索。
在过程#2中,用户可以使用方面值“Brake”缩小当前文档的范围,如上所述关于过程#1的最后分析步骤。接下来,用户可以针对各个方面(例如,名词,状态等)执行当前文档的相关性分析。在图1中,假设相关性分析的结果表明,如节点33所示,方面值“Rust”(锈)与方面“Noun”(名词)的方面值中的方面值“Brake”高度相关。此外,结果为假设相关性分析揭示了一个方面值“Northern”(北方的)与方面“State”(状态)的方面值中的方面值“Brake”高度相关,如节点34所示。这是因为盐被喷洒以防止路面在北部各州冻结,这使刹车生锈。
然而,假设前述文本挖掘系统应用于这种分析过程,则需要在各个方面进行改进。例如,如果关于方面执行统计分析,则期望上述文本挖掘系统建议认为有用的方面。此外,由于通过缩小和统计分析获得的单词和短语之间的关系是重要的,因此期望上述文本挖掘系统使用户能够理解这些关系。
鉴于此,示例性实施例可以提供一种系统,该系统识别用户分析文档的意图,自动分析文档,并帮助用户分析文档。该系统还可以包括用户界面,该用户界面使用户能够直观地理解分析情况,分析的单词或短语之间的关系以及分析结果。
图2示出了根据说明性实施例的文档分析系统的框图。如图所示,文档分析系统可以包括文档分析设备10和用户界面20。文档分析设备10可以识别用户分析文档的意图,自动分析文档,并帮助用户分析文档。
也就是说,文档分析设备10可以使用户能够描述用户希望在自然语言句子中执行的分析。文档分析设备10可以从自然语言句子理解分析步骤并帮助用户进行分析。更具体地,文档分析设备10可以自动执行分析步骤,同时通过与用户的交互适当地补充所需信息并显示分析屏幕。
例如,在上述示例中,用户可以向文档分析设备10输入自然语言句子“什么组件与ABC模型高度相关以及为什么?”。文档分析设备10可以理解自然语言句子,并自动执行过程#1。此外,文档分析装置10可以将处理前进到过程#2,如果可能相对于方面检测到高相关性,则建议方面作为分析轴的候选,并且在分析屏幕上显示该方面。
如图2所示,文档分析装置10可以包括接受模块11,提取模块12,缩小模块13,统计分析模块14,选择模块15,建议模块16和细节分析模块17。
接受模块11可以具有可理解的自然语言句子的预定义模式,并且可以通过模式匹配来理解给定自然语言句子的含义。自然语言句子基本上可以代表交互式文本挖掘的一个分析过程。因此,自然语言句子可以包括要分析的方面(下文中称为“分析方面”),要使用的统计分析的类型(下文中称为“统计分析类型”),并且,如果必要的,用于缩小文档的查询词或短语(以下称为“查询”)。分析方面可以以分析方面的名称的形式包括在自然语言句子中。假设用户预先向系统提供分析方面的名称列表。注意,包括在自然语言句子中的分析方面用作第一方面的一个示例。统计分析类型也可以以统计分析的名称的形式包括在自然语言句子中。注意,包括在自然语言句子中的类型的统计分析用作第一统计分析的一个示例。
如果自然语言句子包括模糊查询,则接受模块11可以显示用于允许用户解决模糊的屏幕。例如,如果自然语言句子包括查询“ABC”,则接受模块11可以显示用户的屏幕以确定方面“模型”的查询中的哪一个,方面“名词”的查询,以及查询简单文本搜索是包含在自然语言句子中的查询“ABC”。
在许多分析中,一个分析过程不足以进行交互式文本挖掘,并且通常执行两个分析过程。这两个分析过程可以包括将文档缩小为感兴趣的文档并识别特定于感兴趣的文档的字的第一分析过程(对应于图1的过程#1),以及识别出现的原因的第二分析过程。单词(对应于图1的过程#2)。因此,在优选的示例性实施例中,自然语言句子可以包括用于指定自动分析的特定单词或短语。在下文中,用于指定自动分析的特定单词或短语被称为“自动分析指定”。自动分析指定可指定系统执行第一分析过程并呈现如果关于第二分析过程中的方面执行统计分析可被认为有用的分析方面。例如,诸如“和为什么?”之类的短语可以用作自动分析指定。
提取模块12可以提取分析方面,统计分析类型和查询。此外,如果提取模块12包括在自然语言句子中,则提取模块12可以从自然语言句子中提取自动分析指定。例如,提取模块12可以从自然语言句子“什么组件与模型高度相关”中提取分析方面“组件”,统计分析类型“相关分析”和方面“模型”的查询“ABC”。提取模块12可以提取分析方面“组件”,统计分析类型“相关分析”,方面“模型”的查询“ABC”,以及来自自然语言句子“什么组件与模型ABC高度相关,和为什么?”的自动分析指定“和为什么”。提取模块12可以从自然语言句子“什么产品具有最佳情绪?”中提取分析方面“产品”和统计分析类型“情感分析”。
缩小模块13可以利用从自然语言句子中提取的查询来缩小文档的范围,并将缩小的文档视为当前文档。如果没有从自然语言句子中提取查询,则缩小模块13可以将所有文档视为当前文档。
假设统计分析模块14保持统计分析类型和与统计分析类型相关联的单词或短语的列表。例如,如果在自然语言句子中包括单词“相关”或其派生单词,则统计分析模块14可以识别相关性分析,并且如果在自然语言句子中包括单词“情绪”则识别情绪分析。如果未从自然语言句子中提取自动分析指定,则统计分析模块14可以对从自然语言句子提取的分析方面执行统计分析,并在分析屏幕上显示统计分析的结果。如果从自然语言句子中提取自动分析指定,则统计分析模块14可以对从自然语言句子提取的分析方面执行统计分析,并自动进行到下一个分析处理。
选择模块15可以使用预定算法基于统计分析的结果选择方面值,并使用所选方面值缩小当前文档。注意,一些算法可以找到用于方面值的多个候选,并且选择模块15可以显示提示用户选择其中一个的屏幕。选择模块15可以使用自然语言句子中的信息来选择算法。具体地,选择模块15可以使用形容词或短语,状语词或短语等,其修饰与统计分析类型相关联的词或短语。例如,如果在自然语言句子中包括短语“最高相关性”,则选择模块15可以基于相关性分析的结果选择具有最高相关性指标的方面值。如果在自然语言句子中包括短语“高度相关”,则选择模块15可以获得具有前三个相关指示符的方面值并将该方面值呈现给用户。如果在自然语言句子中包括短语“经验相关”,则选择模块15可以基于软件处理的结果(例如,过去统计分析的机器学习)选择经验上重要的方面值。
建议模块16可以关于方面执行当前文档的统计分析。统计分析可以是由系统定义的默认统计分析。此外,可以针对由系统定义的每个方面执行统计分析。建议模块16可以呈现分析方面,每个分析方面包括具有高统计指标的许多方面值作为分析轴。尽管假设通过简单的强力算法执行统计分析,即相对于由系统定义的所有方面中的每一个,建议模块16可以使用另一算法。注意,由建议模块16执行的统计分析用作第二统计分析的一个示例,并且由建议模块16呈现的分析方面用作第二方面的一个示例。
细节分析模块17可以在细节分析屏幕上显示统计分析的详细结果。分析过程可以通过在细节分析屏幕上选择的方面值进一步缩小当前文档来进行到第三分析过程,第四分析过程等。在这种情况下,细节分析模块17可以使选择模块15和建议模块16执行与第二分析处理中相同的处理。
用户界面20可以使用户能够直观地理解分析情况,分析的单词或短语之间的关系以及分析结果。如图2所示,用户界面20可以包括输入屏幕21和挖掘屏幕22。输入屏幕21可以显示由用户输入的自然语言句子和预先存储在系统中的自然语句样本。输入屏幕21可以显示为初始屏幕,并且响应于通过自然语言句子的分析指定而改变到挖掘屏幕22。
可以操作挖掘屏幕22以用于实际挖掘。挖掘屏幕22可以包括挖掘图形屏幕23,方面屏幕24和细节分析屏幕25。挖掘图形屏幕23可以显示用于可视化交互式文本挖掘过程的挖掘图形。方面屏幕24可以显示可用方面的列表。细节分析屏幕25可以显示从当前文档和分析方面获得的仪表板。尽管挖掘屏幕22最初具有如图2所示的布局,例如,可以改变布局。
图3示出了根据说明性实施例的输入屏幕21的示例。如图所示,输入屏幕21可以包括输入区域211和样本显示区域212a至212c。用户可以通过向输入区域211输入自然语言句子,或者通过选择在样本显示区域212a至212c中的任何一个中显示的自然语言句子样本来开始分析。当用户将自然语言句子输入到输入区域211时,可以针对系统保持的句型来验证自然语言句子,并且可以在样本显示区域212a至212c中显示与匹配的句子模式对应的自然语言句子样本作为自然语言句子的候选人。用户可以从候选中选择一个自然语言句子样本。当输入区域211变为空白时,可以在样本显示区域212a至212c中显示自然语言句子样本的初始列表。尽管假设自然语言句子基本上在输入屏幕21上显示在文本中,但是可以在视觉上突出显示特定关键字,例如方面的名称。此外,可以提供用户界面,在该用户界面上可以简单地将表示方面名称或统计分析名称的单词改变为另一单词。
图4示出了根据说明性实施例的挖掘图形屏幕23的示例。如图所示,挖掘图屏幕23可以包括控制台231和挖掘树232。控制台231可以发出关于系统的当前处理情况的通知。挖掘树232可以使当前分析情况可视化。一旦在图3的输入屏幕21上选择了一个自然语言句子样本,可以显示该挖掘图形屏幕23。每当分析过程改变时,可以改变控制台231和挖掘树232的内容。
例如,当选择自然语言句子“什么组件与模型ABC高度相关并且为什么?”时,应该显示图4的挖掘树232。挖掘树232可以包括节点233a和233b,每个节点指示具有在该步骤处使用的查询的分析步骤,并且节点233c至233e每个指示具有在该步骤处建议的方面值的分析步骤。可以与节点233a至233e中的每一个相关联地显示诸如文档数量,统计指示符,统计分析类型等的附加信息。
挖掘树232可以包括节点233a和233b之间的链接234b。该链接234b用实线示出,以指示文档已经用对应于节点233b的查询缩小。挖掘树232还可以包括分别在节点233b和节点233c至233e之间的链路234c至234e。这些链接234c至234e用虚线示出以指示当前文档正在关于方面进行分析,并且方面被呈现为分析方面,每个方面具有具有高统计指标的方面值。尽管假设在默认情况下由系统建议,但是分析方面可以由用户指定,或者用现有的方法替换。
图4的挖掘树232指示用户已经使用方面“模型”的查询“ABC”缩小了文档,并且进一步缩小了具有方面“组件”的方面值“Frame”的当前文档。图4的挖掘树232指示正在分析当前文档并且建议分析方面“否定”、“状态”和“模型年”。注意,尽管假设在图4中的节点233b所指示的分析步骤中仅选择一个方面,但是可以在该步骤中选择多个方面。此外,尽管假设在图4中的节点233b指示的分析步骤中仅选择一个方面值,但是可以在该步骤中选择多个方面值。
可以在挖掘图形屏幕23上改变分析的内容。可以允许用户通过选择节点来容易地识别节点的另一个值。诸如弹出窗口的用户界面可用于标识节点的另一个值。通过改变已经用于缩小文档的查询,处理可以分支到新的分析过程。例如,可以将方面“组件”的方面值“框架”改变为方面“组件”的方面值“刹车”,并且可以开始新的分析过程。在这种情况下,可以从方面“模型”的方面值“ABC”建立新链接,并且可以将对应于该链接的分析处理视为新的分析过程。
图5示出了当自动分析指定包括在自然语言句子中时显示的挖掘图形屏幕23的示例。可以自动执行第一分析过程。如果自然分析指定包括在自然语言中,则基本上可以自动执行第二分析处理。然而,系统使用的一些算法要求用户选择多个方面值中的一个。在这种情况下,可以在节点周围呈现分析结果的简单显示以允许用户的选择。例如,图5示出了工具提示235,用于提示用户从前三个方面值中选择一个方面值,在自然语言句子“什么组件与模型ABC高度相关并且为什么?”的情况下。
图6示出了根据说明性实施例的除了挖掘图形屏幕23之外还显示的方面屏幕24的示例。在方面屏幕24上,可以显示方面列表。如果方面配置树结构,则可以显示树结构。方面屏幕24可以通过拖放操作提供要添加到挖掘图形屏幕23上已经显示的分析方面的新方面。例如,在图6中,通过拖放操作将分析方面233f添加到分析方面233c至233e,如箭头236所示。或者,方面屏幕24可以提供新的方面,已经显示的分析方面将在挖掘图形屏幕23上被替换。已经显示的分析方面可以通过通过拖放操作将其重叠在已经显示的分析方面上来替换为新的方面。注意,当用户感觉建议的分析方面没有用或者希望分析自由选择的方面时,可以执行这样的操作。因此,与已经显示的分析方面一样,表示新方面的节点可以在具有高统计指标的新方面的方面值上显示在挖掘图形屏幕23上。
参考图7,示出了根据说明性实施例在调用细节分析屏幕25之前立即显示的挖掘图形屏幕23的示例。当用户通过点击操作选择表示要详细分析的一个或多个分析方面的一个或多个节点并且激活用于转换到一个或多个分析方面的详细分析的触发时,可以显示细节分析屏幕25。在图7中,假设用于打开细节分析屏幕25的按钮237以如粗圆线所示选择节点233c至233f的状态显示。注意,在响应于自然语言句子分析文档之后,可以自动选择由挖掘树232的最右边的节点表示的分析方面,并将其显示在细节分析屏幕25上。
或者,当用户通过点击操作选择一个或多个分析方面的一个或多个方面值时,可以显示细节分析屏幕25,尽管这种情况未在图中示出。在这种情况下,在显示细节分析屏幕25之前,可以用所选择的一个或多个方面值缩小当前文档。例如,假设选择分析方面“负面”的方面值“孔”,可以用方面值“孔”缩小当前文档,并且随后可以显示细节分析屏幕25。
图8示出了根据说明性实施例的细节分析屏幕25的示例。细节分析屏幕25可以是仪表板,在该仪表板上显示关于所选分析方面的统计分析的结果。在图8中,显示了单词集251,条形图252,圆形图253和地图254。例如,地图254可用于显示关于指示地名的分析方面的统计分析的结果。注意,假设系统提供将分析方面与关于分析方面的统计分析结果的显示模式相关联的特定规则。
可以通过将方面从方面屏幕24拖放到该细节分析屏幕25来改变分析方面。此外,可以通过任意用户界面可选地改变统计分析类型。
如果用户希望关于在细节分析屏幕25上显示的方面值进一步分析当前文档,则用户可以通过选择方面值并缩小当前文档来进行下一个分析步骤。因此,系统可以更新挖掘树232,并将一个或多个方面显示为下一个分析轴。
在图2中,假设挖掘屏幕22被划分以与挖掘图形屏幕23一起显示细节分析屏幕25。然而,细节分析屏幕25可以以各种显示模式显示。例如,细节分析屏幕25可以作为对话框显示在挖掘图形屏幕23上。或者,可以显示细节分析屏幕25,以便将挖掘图形屏幕23改变为细节分析屏幕25。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如JAVA、Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
图9A和图9B示出了表示根据说明性实施例的文档分析设备10的操作的示例的流程图。注意,假设要分析的文档存储在文档分析设备10的存储器中;然而,取决于说明性实施例的实现,文档可以远程地从文档分析设备10存储。
如图9A所示,接受模块11可以在输入屏幕21的样本显示区域212a至212c中显示自然语言句子样本(步骤101)。然后,接受模块11可以确定是否在输入屏幕21的输入区域211中新输入了自然语言句子(步骤102)。如果在输入区域211中新输入了自然语言句子,则接受模块11可以进一步确定自然语言句子是否具有歧义(步骤103)。特别地,接受模块11可以确定自然语言句子中的查询是否具有歧义。如果自然语言句子具有歧义,则接受模块11可以解决交互屏幕上的歧义(步骤104),并且将处理返回到步骤101,其中基于输入的自然语言句子更新自然语言句子样本。另一方面,如果在步骤103,自然语言句子没有歧义,则接受模块11可以将处理返回到步骤101,其中基于输入的自然语言句子更新自然语言句子样本而不解决任何歧义。
同时,如果在步骤102,在输入区域211中没有新输入自然语言句子,则接受模块11可以确定是否已从显示在输入屏幕21的样本显示区域212a至212c的多个自然语言句子样本中选择了自然语言句子(步骤105)。如果没有选择自然语言句子,则接受模块11可以将处理返回到步骤101。
另一方面,如果在步骤105选择了自然语言句子,则提取模块11可以从自然语言句子中提取分析方面,统计分析类型,查询和自动分析指定(步骤106)。注意,如果提取模块11包括在自然语言句子中,则提取模块11可以提取自动分析指定。然后,提取模块11可以将输入屏幕21改变为挖掘屏幕22(步骤107)。
接下来,文档分析设备10可以执行第一分析过程(步骤108)。具体地,缩小模块13可以利用从自然语言句子中提取的查询来缩小文档的范围。然后,统计分析模块14可以执行从自然语言句子提取的类型的统计分析,并且在挖掘图形屏幕23上显示与第一分析处理对应的挖掘树232的一部分。
随后,如图9B所示,选择模块15可以确定是否已经从自然语言句子中提取了自动分析指定(步骤151)。如果已经从自然语言句子中提取了自动分析指定,则选择模块15可以执行自动分析算法(步骤152)。可以基于修改自然语言句子中的统计分析类型的特定单词或短语来确定该自动分析算法。然后,选择模块15可以确定自动分析算法是否需要用户选择(步骤153)。如果自动分析算法需要用户选择,则选择模块15可以显示用于用户选择的附加屏幕(步骤154)。例如,附加屏幕可以包括从自然语言句子中提取的分析方面的多个方面值。响应于用户对方面值的选择,选择模块15可以用所选择的方面值缩小当前文档(步骤155)。如果在步骤153,自动分析算法不需要用户选择,则选择模块15可以利用其自身选择的方面值缩小当前文档,而不需要在步骤155中进行用户选择。
接下来,建议模块16可以选择要建议的至少一个分析方面(步骤156)。具体地,建议模块16可以针对由文档分析设备10准备的每个方面对当前文档执行预定的统计分析。然后,建议模块16可以选择至少一个方面,每个方面包括许多具有高统计指标的方面值。之后,建议模块16可以更新挖掘图形屏幕23上的挖掘树232(步骤157)。返回步骤151,如果尚未从自然语言句子中提取自动分析指定,则操作进行到步骤157,其中建议模块16可以在挖掘图形屏幕23上更新挖掘树232。
在这种状态下,对挖掘树232进行各种操作。因此,接受模块11可以确定所选择的分析方面是否已经改变(步骤158)。具体地,接受模块11可以确定用户是否在方面屏幕24上选择了新的分析方面而不是在步骤156选择的分析方面。如果所选择的分析方面已经改变,则接受模块11可以将处理返回到步骤157。如果在步骤158没有改变所选择的分析方面,则接受模块11可以进一步确定所选择的方面值是否已经改变(步骤159)。具体地,接受模块11可以确定用户是否在挖掘树232上选择了新的方面值而不是在步骤154选择的方面值。如果所选择的方面值已经改变,则接受模块11可以将处理返回到步骤155。如果在步骤159,所选择的方面值没有改变,则接受模块11可以将处理前进到步骤160。
也就是说,细节分析模块17可以在细节分析屏幕25上显示详细的分析结果(步骤160)。例如,详细分析模块17可以响应于细节分析屏幕25上的按钮的点击操作显示详细分析结果。或者,细节分析模块17可以响应于建议的一个或多个分析方面的一个或多个方面值的点击操作而显示详细分析结果。在这种情况下,在详细分析屏幕25上显示详细分析结果之前,可以用一个或多个方面值缩小当前文档。
同样在该状态下,对详细分析结果进行各种操作。因此,接受模块11可以确定是否已经选择了方面值(步骤161)。具体地,接受模块11可以确定用户是否在详细分析屏幕25上选择了新的方面值而不是在步骤154中选择的方面值。如果已经选择了方面值,则接受模块11可以将处理返回到步骤155。如果在步骤161中没有选择方面值,则接受模块11可以结束处理。
在第一替换示例性实施例中,假设自然语言句子不包括修改统计分析类型的特定单词或短语。在这种情况下,选择模块15可以执行由系统定义的默认自动分析算法。例如,选择模块15可以基于相关性分析的结果选择具有最高相关性指标的方面值。或者,选择模块15可以获得具有前三个相关指示符的方面值,并将方面值呈现给用户。此外,选择模块15可以基于软件处理的结果(例如,过去统计分析的机器学习)来选择经验上重要的方面值。
接下来,将描述第二替代示例性实施例。在第二替代示例性实施例中,假设建议模块16执行除系统定义的默认统计分析之外的统计分析。例如,建议模块16可以基于多种类型的统计分析的结果来执行从多种类型中选择的类型的统计分析。或者,建议模块16可以执行与从自然语言句子中提取的统计分析类型相同类型的统计分析。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
可以在许多不同类型的数据处理环境中利用说明性实施例。为了提供说明性实施例的特定元件和功能的描述的上下文,以下提供图10和图11作为其中可以实现说明性实施例的各方面的示例环境。应该理解的是,图10和图11仅是示例,并非旨在声明或暗示关于可以实现本发明的方面或实施例的环境的任何限制。在不脱离本发明的范围的情况下,可以对所描绘的环境进行许多修改。
图10描绘了示例分布式数据处理系统的图形表示,其中可以实现说明性实施例的各方面。分布式数据处理系统1000可以包括计算机网络,其中可以实现说明性实施例的各方面。分布式数据处理系统1000包含至少一个网络1002,其是用于在分布式数据处理系统1000内连接在一起的各种设备和计算机之间提供通信链路的介质。网络1002可以包括连接,例如有线,无线通信链路或光纤电缆。
在所描绘的示例中,服务器1004和服务器1006连同存储单元1008连接到网络1002。此外,客户端1010,1012和1014也连接到网络1002。这些客户端1010,1012和1014可以是,例如,个人计算机,网络计算机等。在所描绘的示例中,服务器1004向客户端1010,1012和1014提供诸如引导文件,操作系统映像和应用之类的数据。在所描绘的示例中,客户端1010,1012和1014是服务器1004的客户端。分布式数据处理系统1000可以包括附加服务器,客户端和未示出的其他设备。
在所描绘的示例中,分布式数据处理系统1000是因特网,其中网络1002表示使用传输控制协议/网际协议(TCP/IP)协议组彼此通信的全球网络和网关集合。互联网的核心是主要节点或主机之间的高速数据通信线路的骨干,由数千个路由数据和消息的商业,政府,教育和其他计算机系统组成。当然,分布式数据处理系统1000还可以实现为包括多种不同类型的网络,例如内联网,局域网(LAN),广域网(WAN)等。如上所述,图10旨在作为示例,而不是对于本发明的不同实施例的架构限制,因此,图10中示出的特定元件不应被视为对于示例性实施例的可以实现本发明的实施例的环境的限制。
如图10所示,一个或多个计算设备(例如,服务器104)可以被具体配置为实现系统和用户界面以支持具有自然语言对话的交互式文本挖掘过程。计算设备的配置可以包括提供应用专用硬件,固件等,以便于执行操作的执行以及关于说明性实施例在此描述的输出的生成。计算设备的配置还可以或替代地包括提供存储在一个或多个存储设备中并加载到计算设备(例如服务器104)的存储器中的软件应用程序,用于使计算设备的一个或多个硬件处理器执行配置处理器以执行操作并生成本文关于说明性实施例描述的输出的软件应用程序。此外,在不脱离说明性实施例的范围的情况下,可以使用在硬件上执行的应用专用硬件,固件,软件应用等的任何组合。
应当理解,一旦以这些方式之一配置计算设备,计算设备就变成专门配置成实现说明性实施例的机制并且不是通用计算设备的专用计算设备。此外,如下所述,说明性实施例的机制的实现改进了计算设备的功能,并提供了有助于利用自然语言对话进行交互式文本挖掘的有用且具体的结果。
如上所述,说明性实施例的机制利用特定配置的计算设备或数据处理系统来执行用于利用自然语言对话来支持交互式文本挖掘过程的操作。这些计算设备或数据处理系统可以包括各种硬件元件,这些硬件元件通过硬件配置,软件配置或硬件和软件配置的组合来具体配置,以实现这里描述的一个或多个系统/子系统。图11是仅可以实现说明性实施例的各方面的数据处理系统的一个示例的框图。数据处理系统1100是计算机的示例,例如图10中的服务器1004,其中可以定位和/或执行实现本发明的说明性实施例的过程和方面的计算机可用代码或指令,以便实现如本文所述的说明性实施例的操作,输出和外部效果。
在所描绘的示例中,数据处理系统1100采用包括北桥和存储器控制器集线器(NB/MCH)1102以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)1104的集线器架构。处理单元1106,主存储器1108和图形处理器1110连接到NB/MCH 1102。图形处理器1110可以通过加速图形端口(AGP)连接到NB/MCH 1102。
在所描绘的示例中,局域网(LAN)适配器1112连接到SB/ICH 1104。音频适配器1116,键盘和鼠标适配器1120,调制解调器1122,只读存储器(ROM)1124,硬盘驱动器(HDD)1126,CD-ROM驱动器1130,通用串行总线(USB)端口和其他通信端口1132,以及PCI/PCIe设备1134通过总线1138和总线1140连接到SB/ICH 1104。PCI/PCIe设备可包括例如用于笔记本电脑的以太网适配器,附加卡和PC卡。PCI使用卡总线控制器,而PCIe则不使用。ROM 1124可以是例如闪存基本输入/输出系统(BIOS)。
HDD 1126和CD-ROM驱动器1130通过总线1140连接到SB/ICH 1104。HDD 1126和CD-ROM驱动器1130可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备1136可以连接到SB/ICH 1104。
操作系统在处理单元1106上运行。操作系统协调并提供对图11中的数据处理系统1100内的各种组件的控制。作为客户端,操作系统可以是商业上可用的操作系统,例如Windows面向对象的编程系统,例如JavaTM编程系统,可以与操作系统一起运行,并从JavaTM程序或在数据处理系统1100上执行的应用程序提供对操作系统的调用。
作为服务器,数据处理系统1100可以是,例如,IBM eServerTMSystem计算机系统,基于PowerTM处理器的计算机系统等,运行高级交互执行操作系统或者操作系统。数据处理系统1100可以是对称多处理器(SMP)系统,其包括处理单元1106中的多个处理器。或者,可以采用单个处理器系统。
用于操作系统、面向对象的编程系统和应用程序或程序的指令位于诸如HDD 1126的存储设备上,并且可以被加载到主存储器1108中以供处理单元1106执行。用于说明的过程本发明的实施例可以由处理单元1106使用计算机可用程序代码来执行,该计算机可用程序代码可以位于存储器中,例如主存储器1108,ROM 1124,或者位于一个或多个外围设备1126和1130中,用于例。
诸如图11中所示的总线1138或总线1140的总线系统可以包括一个或多个总线。当然,总线系统可以使用任何类型的通信结构或体系结构来实现,该通信结构或体系结构提供在连接到结构或体系结构的不同组件或设备之间的数据传输。通信单元,例如图11的调制解调器1122或网络适配器1112,可以包括用于发送和接收数据的一个或多个设备。存储器可以是例如主存储器1108,ROM 1124或诸如在图11中的NB/MCH 1102中找到的高速缓存。
如上所述,在一些说明性实施例中,说明性实施例的机制可以实现为应用特定硬件,固件等,存储在诸如HDD 1126的存储设备中并且加载到存储器中的应用软件,诸如主存储器1108,用于由诸如处理单元1106等的一个或多个硬件处理器执行。这样,图11中所示的计算设备变得具体配置为实现说明性实施例的机制,并且具体地配置为执行操作并生成下文关于用自然语言对话支持交互式文本挖掘的机制的输出。
本领域普通技术人员将理解,图10和图11中的硬件可以根据实现而变化。除了图10和图11中所示的硬件之外或代替图10和11中所示的硬件,可以使用其他内部硬件或外围设备,例如闪存,等效的非易失性存储器或光盘驱动器等。除了前面提到的SMP系统之外,说明性实施例可以应用于多处理器数据处理系统,而不脱离本发明的范围。
此外,数据处理系统1100可以采用多种不同数据处理系统中的任何一种的形式,包括客户端计算设备,服务器计算设备,平板计算机,膝上型计算机,电话或其他通信设备,个人数字助理(PDA)等。在一些说明性示例中,数据处理系统1100可以是便携式计算设备,其配置有闪存以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。本质上,数据处理系统1100可以是没有架构限制的任何已知或以后开发的数据处理系统。
如上所述,应当理解,说明性实施例可以采用完全硬件实施例,完全软件实施例或包含硬件和软件元素的实施例的形式。在一个示例实施例中,说明性实施例的机制以软件或程序代码实现,其包括但不限于固件,驻留软件,微代码等。
适于存储和/或执行程序代码的数据处理系统将包括至少一个处理器,其通过通信总线(例如系统总线)直接或间接耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间使用的本地存储器,大容量存储器和高速缓冲存储器,其提供至少一些程序代码的临时存储,以便减少在执行期间必须从大容量存储器检索代码的次数。存储器可以是各种类型,包括但不限于ROM,PROM,EPROM,EEPROM,DRAM,SRAM,闪存,固态存储器等。
输入/输出或I/O设备(包括但不限于键盘,显示器,指示设备等)可以直接或通过中间有线或无线I/O接口和/或控制器耦合到系统等等。I/O设备可以采用除传统键盘,显示器,指示设备等之外的许多不同形式,例如通过有线或无线连接耦合的通信设备,包括但不限于智能电话,平板电脑,触摸屏设备,语音识别设备等。任何已知的或以后开发的I/O设备都旨在落入说明性实施例的范围内。
网络适配器还可以耦合到系统,以使数据处理系统能够通过中间私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器,电缆调制解调器和以太网卡只是当前可用于有线通信的网络适配器类型中的一小部分。还可以使用基于无线通信的网络适配器,包括但不限于802.11a/b/g/n无线通信适配器,蓝牙无线适配器等。任何已知的或以后开发的网络适配器都在本发明的范围内。
已经出于说明和描述的目的给出了对本发明的描述,并且不旨在穷举或将本发明限于所公开的形式。在不脱离所描述的实施例的范围的情况下,许多修改和变化对于本领域普通技术人员来说是明显的。选择和描述实施例是为了最好地解释本发明的原理,实际应用,并且使本领域普通技术人员能够理解本发明的各种实施例,其具有适合于预期的特定用途的各种修改。选择这里使用的术语是为了最好地解释实施例的原理,实际应用或对市场中发现的技术的技术改进,或者使本领域其他技术人员能够理解本文公开的实施例。
Claims (22)
1.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备,该方法包括:
通过在文档分析设备内执行的接受模块接受自然语言句子;
通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;
通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;
响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;
由统计分析模块利用第一方面的值对该组文档进行第二统计分析;和
通过由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。
2.根据权利要求1所述的方法,其中从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取查询词或短语,并且其中执行所述第一统计分析包括使用从自然语言句子中提取的所述查询词或短语缩小所述文档组。
3.如前述权利要求中任一项所述的方法,其中从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取所述第一统计分析的类型,并且其中执行所述第一统计分析包括执行从自然语言句子中提取的类型的所述第一统计分析。
4.根据前述权利要求中任一项所述的方法,其中从所述自然语言句子中提取所述第一方面包括提取用于确定所述第一方面的值的算法,并且其中确定所述第一方面的值包括使用从自然语言句子中提取的算法确定所述第一方面的值。
5.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括从所述第一方面的多个值中选择所述第一方面的值,所述选定值使得所述第一统计分析的结果为最高。
6.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括从用户接收经由所述用户界面从所述第一方面的多个值中对所述第一方面的值的选择。
7.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括:通过在所述文档分析设备内执行的建议模块,从所述第一方面的多个值中选择所述第一方面的值。
8.如前述权利要求中任一项所述的方法,其中所述第二统计分析是预定类型的统计分析。
9.根据前述权利要求中任一项所述的方法,其中,所述第二统计分析是基于所述多种类型的统计分析的结果从所述多种类型中选择的类型的统计分析。
10.根据前述权利要求中任一项所述的方法,其中,所述第二统计分析是与所述第一统计分析的类型相同的统计分析。
11.一种用于对关于方面执行文档的统计分析的装置,所述装置包括:
处理器;和
耦合到处理器的存储器,其中存储器包括指令,所述指令当由处理器执行时,使得处理器实现文档分析设备,用于执行关于方面的文档的统计分析,其中所述指令使处理器:
通过在文档分析设备内执行的接受模块接受自然语言句子;
通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;
通过在文档分析设备内执行的统计分析模块,执行关于第一方面的一组文档的第一统计分析;
通过统计分析模块,基于响应于从自然语言句子中提取的信息的第一统计分析的结果,确定第一方面的值,该信息请求第二统计分析;
统计分析模块利用第一方面的值对该组文档进行第二统计分析;和
通过由处理器执行的用户界面,呈现基于第二统计分析的结果确定的第二方面。
12.如权利要求11所述的装置,其中,所述指令使所述处理器:从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取查询词或短语;并且执行第一统计分析,包括使用从自然语言句子中提取的查询词或短语缩小该组文档。
13.如权利要求11或12所述的装置,其中所述指令使所述处理器:从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取所述第一统计分析的类型;和
执行第一统计分析包括执行从自然语言句子中提取的类型的第一统计分析。
14.根据权利要求11至13中任一项所述的装置,其中,所述指令使所述处理器:
从自然语言句子中提取第一方面包括提取用于确定第一方面的值的算法;和
确定第一方面的值包括使用从自然语言句子中提取的算法确定第一方面的值。
15.根据权利要求11至14中任一项所述的装置,其中,所述指令使所述处理器:
确定第一方面的值,包括从第一方面的多个值中选择第一方面的值,所选择的值使得第一统计分析的结果最高。
16.根据权利要求11至15中任一项所述的装置,其中,所述指令使所述处理器:
确定第一方面的值包括从用户接收经由用户界面从第一方面的多个值中选择第一方面的值。
17.根据权利要求11至16中任一项所述的装置,其中,所述指令使所述处理器:
确定第一方面的值包括通过在文档分析设备内执行的建议模块从第一方面的多个值中选择第一方面的值。
18.根据权利要求11至17中任一项所述的装置,其中,所述第二统计分析是预定类型的统计分析。
19.根据权利要求11至18中任一项所述的装置,其中,所述第二统计分析是基于所述多种类型的统计分析的结果从多种类型中选择的类型的统计分析。
20.根据权利要求11至19中任一项所述的装置,其中,所述第二统计分析是与所述第一统计分析的类型相同的统计分析。
21.一种用于对关于方面执行文档的统计分析的计算机程序产品,所述计算机程序产品包括:
一种计算机可读存储介质,其可由处理电路读取并存储用于由处理电路执行的指令,用于执行根据权利要求1至10中任一项所述的方法。
22.一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,包括软件代码部分,当所述程序在计算机上运行时,用于执行权利要求1到10中任一项的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/473,949 | 2017-03-30 | ||
US15/473,949 US9996527B1 (en) | 2017-03-30 | 2017-03-30 | Supporting interactive text mining process with natural language and dialog |
US15/626,838 US10282418B2 (en) | 2017-03-30 | 2017-06-19 | Supporting interactive text mining process with natural language and dialog |
US15/626,838 | 2017-06-19 | ||
PCT/IB2017/057876 WO2018178760A1 (en) | 2017-03-30 | 2017-12-13 | Supporting interactive text mining process with natural language dialog |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110291520A true CN110291520A (zh) | 2019-09-27 |
CN110291520B CN110291520B (zh) | 2023-05-23 |
Family
ID=62455041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780086417.6A Active CN110291520B (zh) | 2017-03-30 | 2017-12-13 | 用自然语言对话支持交互式文本挖掘处理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9996527B1 (zh) |
JP (1) | JP7038136B2 (zh) |
CN (1) | CN110291520B (zh) |
DE (1) | DE112017007361T5 (zh) |
GB (1) | GB2575580A (zh) |
WO (1) | WO2018178760A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118026A (zh) * | 2020-08-28 | 2022-03-01 | 北京仝睿科技有限公司 | 文档自动化生成方法、装置及计算机存储介质、电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7013334B2 (ja) * | 2018-06-25 | 2022-01-31 | 株式会社東芝 | 表示システム、プログラム、及び記憶媒体 |
US10956470B2 (en) * | 2018-06-26 | 2021-03-23 | International Business Machines Corporation | Facet-based query refinement based on multiple query interpretations |
US10740381B2 (en) | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
US11361030B2 (en) | 2019-11-27 | 2022-06-14 | International Business Machines Corporation | Positive/negative facet identification in similar documents to search context |
JP7412307B2 (ja) * | 2020-08-28 | 2024-01-12 | 株式会社日立製作所 | 作成支援装置、作成支援方法、および作成支援プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
JP2011192059A (ja) * | 2010-03-15 | 2011-09-29 | Omron Corp | テキスト解析システムおよびテキスト解析方法 |
US20130096909A1 (en) * | 2011-10-13 | 2013-04-18 | Xerox Corporation | System and method for suggestion mining |
CN104915793A (zh) * | 2015-06-30 | 2015-09-16 | 北京西塔网络科技股份有限公司 | 基于大数据分析挖掘的公共信息智能分析平台 |
US20150302084A1 (en) * | 2014-04-17 | 2015-10-22 | Robert Stewart | Data mining apparatus and method |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
US6532469B1 (en) * | 1999-09-20 | 2003-03-11 | Clearforest Corp. | Determining trends using text mining |
JP2001318939A (ja) | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書処理方法及び装置並びにその処理プログラムを記憶した媒体 |
US7003517B1 (en) * | 2000-05-24 | 2006-02-21 | Inetprofit, Inc. | Web-based system and method for archiving and searching participant-based internet text sources for customer lead data |
US6714893B2 (en) * | 2002-02-15 | 2004-03-30 | International Business Machines Corporation | Enhanced concern indicator failure prediction system |
US7287025B2 (en) * | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
JP4423004B2 (ja) * | 2003-10-03 | 2010-03-03 | 三菱電機株式会社 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
US20060106793A1 (en) * | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
JP2006171931A (ja) * | 2004-12-14 | 2006-06-29 | Mitsubishi Electric Corp | テキストマイニング装置およびテキストマイニングプログラム |
US7788087B2 (en) * | 2005-03-01 | 2010-08-31 | Microsoft Corporation | System for processing sentiment-bearing text |
US20080033587A1 (en) * | 2006-08-03 | 2008-02-07 | Keiko Kurita | A system and method for mining data from high-volume text streams and an associated system and method for analyzing mined data |
US7660783B2 (en) * | 2006-09-27 | 2010-02-09 | Buzzmetrics, Inc. | System and method of ad-hoc analysis of data |
US20090119156A1 (en) * | 2007-11-02 | 2009-05-07 | Wise Window Inc. | Systems and methods of providing market analytics for a brand |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
US20100104645A1 (en) | 2008-06-16 | 2010-04-29 | Bind Biosciences, Inc. | Methods for the preparation of targeting agent functionalized diblock copolymers for use in fabrication of therapeutic targeted nanoparticles |
US8280838B2 (en) | 2009-09-17 | 2012-10-02 | International Business Machines Corporation | Evidence evaluation system and method based on question answering |
US20110125734A1 (en) | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US8738362B2 (en) | 2010-09-28 | 2014-05-27 | International Business Machines Corporation | Evidence diffusion among candidate answers during question answering |
US8738617B2 (en) | 2010-09-28 | 2014-05-27 | International Business Machines Corporation | Providing answers to questions using multiple models to score candidate answers |
US9208217B2 (en) | 2010-10-06 | 2015-12-08 | Linguamatics Ltd. | Providing users with a preview of text mining results from queries over unstructured or semi-structured text |
US8601030B2 (en) | 2011-09-09 | 2013-12-03 | International Business Machines Corporation | Method for a natural language question-answering system to complement decision-support in a real-time command center |
CN104054075A (zh) | 2011-12-06 | 2014-09-17 | 派赛普申合伙公司 | 文本挖掘、分析和输出系统 |
GB201217334D0 (en) | 2012-09-27 | 2012-11-14 | Univ Swansea | System and method for data extraction and storage |
JP2014130498A (ja) * | 2012-12-28 | 2014-07-10 | International Business Maschines Corporation | ファセットを提示する装置及び方法 |
JP6229665B2 (ja) | 2013-01-11 | 2017-11-15 | 日本電気株式会社 | テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム |
CN104123298B (zh) * | 2013-04-26 | 2017-09-29 | 华为技术有限公司 | 产品缺陷的分析方法和设备 |
US9424344B2 (en) | 2014-05-07 | 2016-08-23 | Bank Of America Corporation | Method and apparatus for natural language search for variables |
US10552994B2 (en) * | 2014-12-22 | 2020-02-04 | Palantir Technologies Inc. | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items |
-
2017
- 2017-03-30 US US15/473,949 patent/US9996527B1/en active Active
- 2017-06-19 US US15/626,838 patent/US10282418B2/en active Active
- 2017-12-13 WO PCT/IB2017/057876 patent/WO2018178760A1/en active Application Filing
- 2017-12-13 CN CN201780086417.6A patent/CN110291520B/zh active Active
- 2017-12-13 GB GB1915103.4A patent/GB2575580A/en not_active Withdrawn
- 2017-12-13 DE DE112017007361.8T patent/DE112017007361T5/de active Pending
- 2017-12-13 JP JP2019551606A patent/JP7038136B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
JP2011192059A (ja) * | 2010-03-15 | 2011-09-29 | Omron Corp | テキスト解析システムおよびテキスト解析方法 |
US20130096909A1 (en) * | 2011-10-13 | 2013-04-18 | Xerox Corporation | System and method for suggestion mining |
US20150302084A1 (en) * | 2014-04-17 | 2015-10-22 | Robert Stewart | Data mining apparatus and method |
CN104915793A (zh) * | 2015-06-30 | 2015-09-16 | 北京西塔网络科技股份有限公司 | 基于大数据分析挖掘的公共信息智能分析平台 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118026A (zh) * | 2020-08-28 | 2022-03-01 | 北京仝睿科技有限公司 | 文档自动化生成方法、装置及计算机存储介质、电子设备 |
CN114118026B (zh) * | 2020-08-28 | 2022-07-19 | 北京仝睿科技有限公司 | 文档自动化生成方法、装置及计算机存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US10282418B2 (en) | 2019-05-07 |
DE112017007361T5 (de) | 2019-12-19 |
JP7038136B2 (ja) | 2022-03-17 |
GB2575580A (en) | 2020-01-15 |
US20180285341A1 (en) | 2018-10-04 |
US9996527B1 (en) | 2018-06-12 |
GB201915103D0 (en) | 2019-12-04 |
WO2018178760A1 (en) | 2018-10-04 |
CN110291520B (zh) | 2023-05-23 |
JP2020516985A (ja) | 2020-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110291520A (zh) | 用自然语言对话支持交互式文本挖掘处理 | |
US10650356B2 (en) | Intelligent self-service delivery advisor | |
US10853566B2 (en) | Systems and methods for automatically creating tables using auto-generated templates | |
US10678824B2 (en) | Method of searching for relevant node, and computer therefor and computer program | |
US20210241893A1 (en) | Dashboard Usage Tracking and Generation of Dashboard Recommendations | |
US20200073996A1 (en) | Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms | |
US10102191B2 (en) | Propagation of changes in master content to variant content | |
WO2015009586A2 (en) | Performing an operation relative to tabular data based upon voice input | |
CN1983173B (zh) | 图形用户界面设计方法和设备 | |
EP3151135A1 (en) | Organization and visualization of content from multiple media sources | |
CN104102720A (zh) | 高效输入的预测方法和装置 | |
CN113657113B (zh) | 文本处理方法、装置和电子设备 | |
US11188193B2 (en) | Method and system for generating a prioritized list | |
US11663407B2 (en) | Management of text-item recognition systems | |
US20230154220A1 (en) | Pre-processing a table in a document for natural language processing | |
US9607216B2 (en) | Identifying updated content in images | |
US10614140B2 (en) | Keyword based data crawling | |
US20230059946A1 (en) | Artificial intelligence-based process documentation from disparate system documents | |
CN105446711B (zh) | 获取用于软件开发任务的上下文信息的方法及装置 | |
JP2009199576A (ja) | 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体 | |
EP4328764A1 (en) | Artificial intelligence-based system and method for improving speed and quality of work on literature reviews | |
JP2006221047A (ja) | 地図情報システムを異なる電子地図に移行する方法 | |
US9501274B1 (en) | Qualitative feedback correlator | |
CN116894093A (zh) | 知识图驱动内容生成 | |
CA2862955C (en) | Kernel based string descriptors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |