CN104050096B - 缓存深度结构以用于有效解析的方法和系统 - Google Patents

缓存深度结构以用于有效解析的方法和系统 Download PDF

Info

Publication number
CN104050096B
CN104050096B CN201410087802.0A CN201410087802A CN104050096B CN 104050096 B CN104050096 B CN 104050096B CN 201410087802 A CN201410087802 A CN 201410087802A CN 104050096 B CN104050096 B CN 104050096B
Authority
CN
China
Prior art keywords
gram
computer processor
deep analysis
frequently occurred
word sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410087802.0A
Other languages
English (en)
Other versions
CN104050096A (zh
Inventor
M.布德罗
B.穆尔
A.莫萨德
C.M.特里姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104050096A publication Critical patent/CN104050096A/zh
Application granted granted Critical
Publication of CN104050096B publication Critical patent/CN104050096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种解析方法和系统。所述方法包括生成域的n元语法模型和计算与所述n元语法模型的n元语法相关联的tf‑idf频率。生成基于所述tf‑idf频率的包括频繁出现的n元语法组的列表。所述频繁出现的n元语法组被传送到深度解析器组件并生成来自深度解析器组件的深度解析输出。所述深度解析输出被存储在缓存内,并且处理器验证所述深度解析输出的指定文本字序列在缓存中是否可用。

Description

缓存深度结构以用于有效解析的方法和系统
技术领域
本发明的一个或多个实施例一般涉及缓存(caching)深度结构的方法,具体地,涉及解析所缓存的深度结构的方法和相关系统。
背景技术
对数据进行分类包括具有很少灵活性的不准确的进程。检索已分类的数据可能包括耗时且需要大量资源的复杂的进程。相应地,本领域存在克服上述缺陷和限制中的至少一些的需求。
发明内容
本发明的第一实施例提供了一种方法,包括:由计算系统的计算机处理器生成域的n元语法模型(n-gram model);由所述计算机处理器计算与所述n元语法模型的n元语法相关联的tf-idf频率;由所述计算机处理器基于所述tf-idf频率确定所述n元语法的频繁出现的n元语法组;由所述计算机处理器生成包含所述频繁出现的n元语法组的列表;由所述计算机处理器将所述频繁出现的n元语法组传送至所述计算系统的深度解析器组件;通过关于所述频繁出现的n元语法组执行深度解析器组件的所述计算机处理器生成深度解析输出,该深度解析输出包含关于所述频繁出现的n元语法组执行深度解析器组件的结果;由计算机处理器将所述深度解析输出存储在缓存(cache)中;以及由所述计算机处理器验证所述深度解析输出的指定文本字(word)序列在所述缓存中是否可用。
本发明的第二实施例提供了一种计算机程序产品,包括存储计算机可读程序代码的计算机可读硬件存储设备,所述计算机可读程序代码包括当由计算机系统的计算机处理器执行时实现方法的算法,所述方法包括:由所述计算机处理器生成域的n元语法模型;由所述计算机处理器计算与所述n元语法模型的n元语法相关联的tf-idf频率;由所述计算机处理器基于所述tf-idf频率确定所述n元语法的频繁出现的n元语法组;由所述计算机处理器生成包含所述频繁出现的n元语法组的列表;由所述计算机处理器将所述频繁出现的n元语法组传送至所述计算系统的深度解析器组件;通过关于所述频繁出现的n元语法组执行深度解析器组件的所述计算机处理器生成深度解析输出,该深度解析输出包含关于所述频繁出现的n元语法组执行深度解析器组件的结果;由计算机处理器将所述深度解析输出存储在缓存中;以及由所述计算机处理器验证所述深度解析输出的指定文本字序列在所述缓存中是否可用。
本发明的第三实施例提供了一种包括与计算机可读存储器单元耦接的计算机处理器的计算机系统,所述存储器单元包括当由计算机处理器执行时实现方法的指令,所述方法包括:由所述计算机处理器生成域的n元语法模型;由所述计算机处理器计算与所述n元语法模型的n元语法相关联的tf-idf频率;由所述计算机处理器基于所述tf-idf频率确定所述n元语法的频繁出现的n元语法组;由所述计算机处理器生成包含所述频繁出现的n元语法组的列表;由所述计算机处理器将所述频繁出现的n元语法组传送至所述计算系统的深度解析器组件;通过关于所述频繁出现的n元语法组执行深度解析器组件的所述计算机处理器生成深度解析输出,该深度解析输出包含关于所述频繁出现的n元语法组执行深度解析器组件的结果;由计算机处理器将所述深度解析输出存储在缓存中;以及由所述计算机处理器验证所述深度解析输出的指定文本字序列在所述缓存中是否可用。
本发明的第四实施例提供了一种支持计算基础架构的进程(process),所述进程包括:为在包括计算机处理器的计算机中创建、整合、主持(hosting)、维护和部署计算机可读代码中的至少一个提供至少一个支持服务,其中所述计算机处理器执行包含在所述代码中的指令以使得计算机执行包括以下步骤的方法:由所述计算机处理器生成域的n元语法模型;由所述计算机处理器计算与所述n元语法模型的n元语法相关联的tf-idf频率;由所述计算机处理器基于所述tf-idf频率确定所述n元语法的频繁出现的n元语法组;由所述计算机处理器生成包含所述频繁出现的n元语法组的列表;由所述计算机处理器将所述频繁出现的n元语法组传送至所述计算系统的深度解析器组件;通过关于所述频繁出现的n元语法组执行深度解析器组件的所述计算机处理器生成深度解析输出,该深度解析输出包含关于所述频繁出现的n元语法组执行深度解析器组件的结果;由计算机处理器将所述深度解析输出存储在缓存中;以及由所述计算机处理器验证所述深度解析输出的指定文本字序列在所述缓存中是否可用。
本发明有利地提供了能够分类数据的简单方法和相关系统。
附图说明
图1表示根据本发明实施例的用于缓存使能有效解析进程的深度结构的系统2。
图2表示根据本发明实施例的与样本输入文本相关联的树型库(treebank)。
图3表示根据本发明实施例的详细说明由图1的系统使能的进程流程的算法。
图4表示根据本发明实施例的、用于缓存使能有效解析进程的深度结构的、由图1的系统使用的计算机设备。
具体实施方式
图1表示根据本发明的实施例的、用于缓存使能有效解析进程的深度结构的系统2。系统2使能自然语言处理(NLP)进程。NLP进程这里被定义为摄取和理解非结构数据的技术。NLP进程使能NLP解析器,以提供深度解析进程。深度解析进程包括为输入文本创建树型库(树结构)。
图1的系统2包括通过网络7连接至计算系统14的计算机5a…5n。网络7可以包括任意类型的网络和其他事物,包括局域网(LAN)、广域网(WAN)、因特网、无线网等等。计算机5a…5n可以包括任意类型的计算系统和其他事物,包括计算机(PC)、膝上计算机、平板计算机、服务器、PDA、智能手机等等。计算系统14可以包括任意类型的计算系统和其他事物,包括计算机(PC)、膝上计算机、平板计算机、服务器等等。计算系统14包括存储器系统8。存储器系统8可以包括单一存储器系统。或者,存储器系统8可以包括多个存储器系统。存储器系统8包括软件17,软件17包括解析器组件17a。软件17使能深度解析进程。
经由域的n元语法分析驱动缓存进程(由系统2使能)。N元语法分析包括定位令牌序列和相关频率的语言建模的表格。例如,系统2可以确定诸如“the happy dog(快乐狗)”或“brown fox(棕色的狐狸)”(如,分别是三元和二元)的序列在一个域内非常常见。一旦构建了相关联的语言模型,系统2定位最频繁的n元语法,并将其通过解析器组件17a来运行。深度解析进程的结果被存储在缓存(如,数据库缓存,文件支持的缓存,等等),并由所述n元语法索引。在运行时,解析器组件17a将每个识别到的令牌序列与所述缓存内容相比较。如果所述缓存包括预计算的结构,所述预计算的结构会被解析器组件17a使用,而不是在运行时被创建。另外,系统2使用语言模型来预缓存频繁的n元语法的变化。例如,在语义叠加的场景(如,rational software architect(合理软件建造者))中,系统2会选择最长的可应用的序列。在建模域(和事先计算预缓存结构)的进程期间,系统2可以识别序列:“RationalSoftware Architect”作为常见的三元,并计算所述结构。另外,系统2可以识别序列:“Rational Software Architect for Web8.0.3”作为常见的六元,并计算这个序列的结构。因此,在运行时,如果用户键入序列“rational software architect for Web”,所述序列不会被缓存执行。所述缓存可以检索这个实体的前三个令牌的结构,并部分分解要求的计算结构。所述整个结构在缓存机制中是不可检索的,因为这个实体不包括版本令牌:(8.0.3)。另外,系统2可以引入域特定的变化。例如,如果确定所检索的产品可以包括后缀,该后缀包括版本令牌,所述缓存可以被预加载不包括令牌的序列的变型。通过使用这个技术计算所述缓存中预计算的结构的可能变型,系统2可以以更精确的方式解释用户输入的变型。
图2表示根据本发明的实施例的、与样本输入文本相关联的树型库200。所述样本输入文本包括序列:“The Quick Brown Fox jumped over the happy dog(快速的棕色狐狸从快乐狗的身上跳过)”。块202a-202f包括指示短语的首字母缩略词(如,块202b包括NP=名词短语,块202c包括VP=动词短语,等等)。块205a-205h包括每个令牌旁的语音的实际部分(如,块205f包括DT=限定词,块205g包括JJ=形容词,块205h包括NN=名词)。图1的系统2可以使能计算文集内高频n元语法、结构化n元语法、缓存n元语法和在应用运行时从缓存检索所述n元语法的进程,以应用于树型库200。这个进程的使用消除了计算高频出现的序列的结构(即,通过解析器)的需要。
图3表示根据本发明的实施例的、详细说明由图1的系统2使能的、用于为有效解析进程而缓存深度结构的进程流程的算法。图3的算法中的每个步骤可以被执行计算机代码的计算机处理器使能和执行。在步骤300,生成域的n元语法模型。n元语法模型这里被定义为预测序列中的下一个条目的概率语言模型,其包括(n-1)阶Markov模型的形式。在步骤302,计算与(在步骤300生成的)n元语法模型的n元语法相关联的词条频率-反转文档频率(tf-idf)。tf-idf频率这里被定义为反映字(word)关于集合或文集中的文档的重要性的数值统计。tf-idf频率可以被用作信息检索和文本挖掘中的加权因子。tf-idf值与字在文档中出现的次数呈正比地增加,但被字在文集中的频率补偿(offset)。tf-idf包括两个统计量的乘积:词条频率和反转文档频率。词条频率tf(t,d)可以通过确定词条在文档中的原始频率(即,词条t在文档d中出现的次数)而确定。如果t的原始频率被定义为f(t,d),则条目频率tf(t,d)包括:tf(t,d)=f(t,d)。idf包括一个词条在所有文档之间是否常见或稀少的测度。idf可以通过用包括词条的文档个数除文档的总数并对得到的商取对数得到。
在步骤304,基于所述tf-idf频率确定(步骤302的n元语法的)频繁出现的n元语法组。在步骤308,生成包括频繁出现的n元语法组的列表。在步骤310,所述频繁出现的n元语法组被传送到计算系统的深度解析器组件。在步骤314,生成深度解析输出。所述深度解析输出包括关于所述频繁出现的n元语法组执行深度解析器组件的结果。在步骤318,所述深度解析输出被存储。在步骤324,验证所述深度解析输出的指定文本字序列在缓存中是否可用。如果在步骤324,验证所述深度解析输出的指定文本字序列在所述缓存中可用,则在步骤328中,从所述缓存检索所述指定的文本字序列,以及在步骤330,应用所述指定的文本字序列至解析树。如果在步骤324,验证所述深度解析输出的指定文本字序列在缓存中不可用,则在步骤332,深度解析所述指定的文本字序列。
图4表示根据本发明的实施例的、用于缓存使能有效解析进程的深度结构的、由图1的系统2使用的计算机设备90(如,图1的计算系统14)。所述计算系统90包括处理器91、与处理器91耦接的输入设备92、与处理器91耦接的输出设备93以及分别与处理器91耦接的存储器设备94和95。所述输入设备92可以是键盘、鼠标,等等。所述输出设备93可以是打印机、绘图机、计算机屏幕、磁带、可移除硬盘、软盘等等。所述存储器设备94和95可以是硬盘、软盘、磁带、诸如光盘(CD)或数字视频盘(DVD)的光存储、动态随机存取存储(DRAM)、只读存储器(ROM)等等。所述存储器设备95包括计算机代码97。所述计算机代码97包括缓存使能有效解析进程的深度结构的算法(如,图3的算法)。所述处理器91执行计算机代码97。所述存储器设备94包括输入数据96。所述输入数据96包括计算机代码97要求的输入。所述输出设备93显示来自计算机代码97的输出。存储器设备94和95中的一个或两个(或者图4中未显示的一个或多个附加的存储设备)可以包括图3中的算法,以及可以被用作计算机可用介质(或计算机可读介质或程序存储设备),其中存储有计算机可读程序代码和/或存储的其他数据,其中所述计算机可读程序代码包括计算机代码97。一般地,计算机系统90的计算机程序产品(或替代地,产品)可以包括计算机可用介质(或程序存储设备)。
然而,本发明的任意组件可以由向缓存提供使能有效解析进程的深度结构的服务提供者创建、整合、主持、维持、部署、管理、服务等等。因此,本发明公开了用于部署、创建、整合、主持、维持的进程,和/或整合计算基础架构,包括整合计算机可读代码到计算机系统90,其中所述代码与计算机系统90结合能够执行缓存使能有效解析进程的深度结构的方法。在另一个实施例中,本发明提供了在订阅、广告和/或费用基础上执行本发明的进程步骤的商业方法。也即,服务提供者,诸如解决方案集成商,可以向缓存提供使能有效的解析进程的深度结构。在这种情况下,服务提供者可以为一个或多个客户创建、维护、支持执行本发明的进程步骤的计算机基础架构。作为回报,所述服务提供者可以在订阅和/或费用协议下接收来自客户的费用,和/或所述服务提供者可以从将广告内容销售给一个或多个第三方而接收付款。
虽然图4显示了计算机系统90作为具体的硬件和软件配置,但是本领域的技术人员所知的任意硬件和软件配置都可以联合图4的具体计算机系统90来用于前述目的。例如,存储器设备94和95可以是单个存储器设备的一部分,而不是各个独立的存储器设备。
尽管这里已经为说明的目的而描述了本发明的各个实施例,但是许多变化和修改对本领域的技术人员来说都是明显的。因此,所附的权利要求意欲包含这些修改和变化,它们落入本发明的真实的精神和范围内。

Claims (10)

1.一种解析方法,包括:
由计算系统的计算机处理器生成域的n元语法模型;
由所述计算机处理器计算与所述n元语法模型的n元语法相关联的词条频率-反转文档频率(tf-idf);
由所述计算机处理器基于所述词条频率-反转文档频率(tf-idf)确定所述n元语法的频繁出现的n元语法组;
由所述计算机处理器生成包含所述频繁出现的n元语法组的列表;
由所述计算机处理器将所述频繁出现的n元语法组传送至所述计算系统的深度解析器组件;
通过关于所述频繁出现的n元语法组执行所述深度解析器组件的所述计算机处理器生成深度解析输出,所述深度解析输出包含所述关于所述频繁出现的n元语法组执行所述深度解析器组件的结果;
由所述计算机处理器将所述深度解析输出存储在缓存中;
所述频繁出现的n元语法组索引所述深度解析输出;
由所述计算机处理器验证所述深度解析输出的指定文本字序列在所述缓存中是否可用,其中所述验证包括:
如果确定所检索的产品包括后缀,该后缀包括版本令牌,计算所述缓存中所述指定文本字序列的可能变形。
2.如权利要求1所述的方法,其中所述验证的结果指示所述指定文本字序列在所述缓存中可用,以及其中所述方法还包括:
由所述计算机处理器从所述缓存中检索所述指定文本字序列;以及
由所述计算机处理器应用所述指定文本字序列至解析树。
3.如权利要求1所述的方法,其中所述验证的结果指示所述指定文本字序列在所述缓存中不可用,以及其中所述方法还包括:
由计算机处理器深度解析所述指定文本字序列。
4.如权利要求1所述的方法,其中所述频繁出现的n元语法组的每个n元语法包括缓存关键字。
5.如权利要求1所述的方法,其中深度解析输出包括缓存值。
6.一种解析系统,包括与计算机可读存储器单元耦接的计算机处理器,所述存储器单元包括当由计算机处理器执行时实现方法的指令,所述方法包括:
由所述计算机处理器生成域的n元语法模型;
由所述计算机处理器计算与所述n元语法模型的n元语法相关联的词条频率-反转文档频率(tf-idf);
由所述计算机处理器基于所述词条频率-反转文档频率(tf-idf)确定所述n元语法的频繁出现的n元语法组;
由所述计算机处理器生成包含所述频繁出现的n元语法组的列表;
由所述计算机处理器将所述频繁出现的n元语法组传送至计算系统的深度解析器组件;
通过关于所述频繁出现的n元语法组执行所述深度解析器组件的所述计算机处理器生成深度解析输出,所述深度解析输出包含所述关于所述频繁出现的n元语法组执行所述深度解析器组件的结果;
由所述计算机处理器将所述深度解析输出存储在缓存中;以及
所述频繁出现的n元语法组索引所述深度解析输出;
由所述计算机处理器验证所述深度解析输出的指定文本字序列在所述缓存中是否可用,其中所述验证包括:
如果确定所检索的产品包括后缀,该后缀包括版本令牌,计算所述缓存中所述指定文本字序列的可能变形。
7.如权利要求6所述的解析系统,其中所述验证的结果指示所述指定文本字序列在所述缓存中可用,以及其中所述方法还包括:
由所述计算机处理器从所述缓存中检索所述指定文本字序列;以及
由所述计算机处理器应用所述指定文本字序列至解析树。
8.如权利要求6所述的解析系统,其中所述验证的结果指示所述指定文本字序列在所述缓存中不可用,以及其中所述方法还包括:
由所述计算机处理器深度解析所述指定文本字序列。
9.如权利要求6所述的解析系统,其中所述频繁出现的n元语法组的每个n元语法包括缓存关键字。
10.如权利要求6所述的解析系统,其中深度解析输出包括缓存值。
CN201410087802.0A 2013-03-11 2014-03-11 缓存深度结构以用于有效解析的方法和系统 Active CN104050096B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/792,403 US9092444B2 (en) 2013-03-11 2013-03-11 Caching of deep structures for efficient parsing
US13/792,403 2013-03-11

Publications (2)

Publication Number Publication Date
CN104050096A CN104050096A (zh) 2014-09-17
CN104050096B true CN104050096B (zh) 2017-08-15

Family

ID=51385723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410087802.0A Active CN104050096B (zh) 2013-03-11 2014-03-11 缓存深度结构以用于有效解析的方法和系统

Country Status (3)

Country Link
US (3) US9092444B2 (zh)
CN (1) CN104050096B (zh)
DE (1) DE102014103072A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092444B2 (en) 2013-03-11 2015-07-28 International Business Machines Corporation Caching of deep structures for efficient parsing
US9898455B2 (en) * 2014-12-01 2018-02-20 Nuance Communications, Inc. Natural language understanding cache
CN109511000B (zh) * 2018-11-06 2021-10-15 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
US11392772B2 (en) 2018-12-25 2022-07-19 Microsoft Technology Licensing, Llc Coding information extractor
CN111885035B (zh) * 2020-07-15 2022-02-22 中国科学院深圳先进技术研究院 一种网络异常检测方法、系统、终端以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566997A (zh) * 2008-02-13 2009-10-28 富士通株式会社 确定与给定的词集相关的词

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024351B2 (en) 2001-08-21 2006-04-04 Microsoft Corporation Method and apparatus for robust efficient parsing
US7089541B2 (en) 2001-11-30 2006-08-08 Sun Microsystems, Inc. Modular parser architecture with mini parsers
US8682646B2 (en) 2008-06-04 2014-03-25 Microsoft Corporation Semantic relationship-based location description parsing
US9189475B2 (en) 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
US8572126B2 (en) * 2010-06-25 2013-10-29 Educational Testing Service Systems and methods for optimizing very large n-gram collections for speed and memory
US9092444B2 (en) 2013-03-11 2015-07-28 International Business Machines Corporation Caching of deep structures for efficient parsing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566997A (zh) * 2008-02-13 2009-10-28 富士通株式会社 确定与给定的词集相关的词

Also Published As

Publication number Publication date
US20150205826A1 (en) 2015-07-23
US20140258314A1 (en) 2014-09-11
US9092444B2 (en) 2015-07-28
US9507767B2 (en) 2016-11-29
US20160124938A1 (en) 2016-05-05
CN104050096A (zh) 2014-09-17
US9275064B2 (en) 2016-03-01
DE102014103072A1 (de) 2014-09-11

Similar Documents

Publication Publication Date Title
Albalawi et al. Using topic modeling methods for short-text data: A comparative analysis
US10360308B2 (en) Automated ontology building
US10019437B2 (en) Facilitating information extraction via semantic abstraction
CN102214208B (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
CN104050096B (zh) 缓存深度结构以用于有效解析的方法和系统
US10956469B2 (en) System and method for metadata correlation using natural language processing
US20200223061A1 (en) Automating a process using robotic process automation code
Avasthi et al. Processing large text corpus using N-gram language modeling and smoothing
Habbat et al. Topic modeling and sentiment analysis with lda and nmf on moroccan tweets
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
Tayal et al. Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop
On et al. Efficient sentiment-aware web crawling methods for constructing sentiment dictionary
Riadsolh et al. Cloud-Based Sentiment Analysis for Measuring Customer Satisfaction in the Moroccan Banking Sector Using Na? ve Bayes and Stanford NLP
WO2023103814A1 (en) Extracting query-related temporal information from unstructured text documents
US20230297217A1 (en) Multi-location copying and context based pasting
US11928180B2 (en) Automatic ground truth selection
Guo et al. Query expansion based on semantic related network
US20210073335A1 (en) Methods and systems for semantic analysis of table content
Khan Processing big data with natural semantics and natural language understanding using brain-like approach
Chen et al. Sentimental analysis of Chinese new social media for stock market information
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
Masuda et al. Syntactic rules of extracting test cases from software requirements
Yang et al. Event related document retrieval based on bipartite graph
Unnikrishnan et al. A Literature Review of Sentiment Evolution
Karageorgou Just-in-time Sentiment Analysis for Multilingual Streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant