CN103324604A - 用于域特定的自然语言标准化的方法和系统 - Google Patents

用于域特定的自然语言标准化的方法和系统 Download PDF

Info

Publication number
CN103324604A
CN103324604A CN2013100720864A CN201310072086A CN103324604A CN 103324604 A CN103324604 A CN 103324604A CN 2013100720864 A CN2013100720864 A CN 2013100720864A CN 201310072086 A CN201310072086 A CN 201310072086A CN 103324604 A CN103324604 A CN 103324604A
Authority
CN
China
Prior art keywords
territory
text
text set
natural language
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100720864A
Other languages
English (en)
Other versions
CN103324604B (zh
Inventor
S.阿尔希纳维
G.D.卡达克
E.S.萨弗恩
J.M.韦伯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103324604A publication Critical patent/CN103324604A/zh
Application granted granted Critical
Publication of CN103324604B publication Critical patent/CN103324604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施例提供一种用于文本集的域特定标准化的方法、系统和计算机程序产品。在本发明的一个实施例中,提供了一种用于文本集的域特定标准化的方法,包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定用于所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后,所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中,通过基于已经存在于所述文本集中的词的推断而确定所述域。在本实施例的另一方面中,基于与所述文本集一起提供的元数据确定所述域。

Description

用于域特定的自然语言标准化的方法和系统
技术领域
本发明涉及自然语言处理,更具体地涉及文本简化。
背景技术
自然语言处理是人工智能的分支,其涉及人类自然使用的语言的分析、理解和生成,以便使用自然的人类语言代替计算机语言来以书面和口头的上下文与计算机相接。自然语言处理是一般的概括术语,其包含许多不同种类的研究,范围从自然语言理解和语音识别到语音标签和文本提取的部分。在自然语言处理的总括之下的一个感兴趣的种类是文本简化。
文本简化涉及对文本集(corpus)中的文本的修改的缩减,以便在语法和语言学复杂度方面简化文本集,或者仅减小文本集的大小。一般地,文本简化需要首先解析文本集,以识别和索引文本中的不同词,并且根据一个或多个文本简化规则替换或去除索引中的特定词。如此,可以简化文本集,以产生更小的文本集、或者至少更简单的文本集。
发明内容
本发明的实施例解决现有技术中关于自然语言处理的缺陷,并提供一种新颖且非显而易见的方法、系统和计算机程序产品,用于文本集的域特定标准化。在本发明的一个实施例中,提供了一种用于文本集的域特定标准化的方法,包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后,所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中,通过基于已经存在于所述文本集中的词的推断确定所述域。在本实施例的另一方面中,基于与所述文本集一起提供的元数据确定所述域。
在本发明的另一实施例中,一种自然语言数据处理系统可被配置用于文本集的域特定标准化。所述系统可以包括主计算系统,其包括具有存储器和至少一个处理器的至少一个计算机。所述系统还可以包括自然语言处理器,其提供被配置用于在所述计算机的存储器中执行的文本简化的逻辑。最后,所述系统可以包括所述自然语言处理器的域特定标准化模块。所述模块继而可以包括在所述主计算系统中执行的程序代码,其被使得能够加载文本集,以确定用于所述文本集的域,针对所确定的域检索替换词的字典,并指示所述自然语言处理使用所检索的字典对所述文本集进行文本简化。
本发明的附加方面将部分地在以下的描述中被阐明,并且将部分地根据所述描述而显而易见、或者可以通过实践本发明而被学习。将通过在所附权利要求中具体指出的元素和组合实现或获得本发明的各方面。应理解,前面的一般性描述和下面的详细描述都仅是示例性和说明性的,并且不是对所要求权利的发明的限制。
附图说明
合并在此说明书中并构成其一部分的附图例示了本发明的实施例,并与所述描述一起用于说明本发明的原理。这里所述的实施例是当前优选实施例,然而,应理解,本发明不限于所示的精确布置和手段,其中:
图1是用于文本集的域特定标准化的处理的图示;
图2是被配置用于文本集的域特定标准化的自然语言数据处理系统的示意图;以及
图3是用于文本集的域特定标准化的处理的流程图。
具体实施方式
本发明的实施例提供文本集的域特定标准化。根据本发明的实施例,可以接收文本集用于处理,并且可以针对该文本集而确定域,例如,基于文本集的已知上下文,或者替代地通过解析来自文本集的文本、或者通过解析与文本集关联的元数据而对上下文进行的推断确定。在这点上,域可以是用于特定行业的行业域、用于特定地理区域的地理域、用于特定组织的组织域、或用于特定人口统计学特征(诸如年龄、性别、宗教信仰、种族等)的人口统计学域。一旦确定了域,则可以针对所确定的域检索词替换的映射,并可以使用该映射执行文本集的文本简化。以此方式,可以将文本集改变为适合于所确定的域的语言。
在进一步的例示中,图1是用于文本集的域特定标准化的处理的图示。如图1中所示,可以将初始文本集110A提供到自然语言处理系统120,并且可以针对初始文本集110A确定域130。例如,可以基于与初始文本集110A一起提供的元数据、或者从初始文本集110A本身(例如,通过在初始文本集110A中辨识之前与特定域相关的词或短语的存在)确定域130。此后,可以基于所确定的域130选择词汇的域特定字典或域特定映射140,并可以在文本简化处理160期间使用它们,以将初始文本集110A转换为经简化的文本集110B。一旦已经产生了经简化的文本集110B,则可以将经简化的文本集110B传递到终端用户150A、150B、150C,例如作为网页、声音响应脚本、或文档等的一部分。
可以在自然语言数据处理系统内实施关于图1所描述的处理。在再一图示中,图2是被配置用于文本集的域特定标准化的自然语言数据处理系统的示意图。图2的系统可以包括主计算系统210,其包括一个或多个计算机,每个计算机包括存储器和至少一个处理器。主计算系统310可以通过计算机通信网络240通信地连接到不同的客户端220,每个客户端220支持内容用户界面230(诸如网页浏览器,通过其可以查看网页内容)、或音频接口(诸如电话接口,通过其可以支持与语音识别系统的语音交互)的执行。
众所周知,自然语言处理器260可以在主计算系统210的存储器中执行。自然语言处理器260可以被配置用于对文本集执行自然语言处理,包括解析以及自然语言理解。此外,文本简化逻辑270可以连接至自然语言处理器260,并被使得能够根据映射数据存储设备250内部署的词的映射或字典而对文本集执行文本简化。
在此点上,映射数据存储设备250可以包括固定存储器,其包括用于不同域的不同映射,每个域具有针对该域的词的对应字典。此外,映射至少是输入的本文集中的词或多个词与适用于与该映射关联的特定域的零个或多个替换词之间的关联。具体地,在映射数据存储设备250中提供的映射所针对的域可以例如包括特定于分别不同的行业的一个或多个行业域、特定于分别不同的组织的一个或多个组织域、特定于一个或多个人口统计学分组(诸如年龄、性别、宗教信仰、种族、以及政治隶属)的一个或多个人口统计学域、以及一个或多个地理域。
重要地,域标准化模块300可以连接到自然语言处理器260。域标准化模块300可以包括程序代码,于是,当在主计算系统210的存储器中执行该程序代码时,能够使得主计算系统210为初始文本集确定对应的域,并指示使用与符合所确定的域的映射将初始文本集的文本简化为经简化的文本集。以此方式,通过使用符合所确定的域的语言的文本集中的语言,可以将文本集的内容从一般形式转换为所确定的域的个体熟悉的形式。
众所周知,可以关于单个终端用户或关于多个终端用户创建映射。例如,可以根据不同终端用户的个人输入而将不同替换词汇映射到源词汇。每个替换词汇可以被分配相对于源词汇的复杂度的复杂度值。可以为源词汇针对不同终端用户贡献的不同替换词汇而计算复杂度值的平均,并且可以选择与复杂度值的平均最一致的词汇作为针对该源词汇而映射的替换词汇。以此方式,在映射中被映射至对应源词汇的替换词汇可以根据不同终端用户对该映射的动态贡献而动态地改变。
在域标准化模块300的操作的再一图示中,图3是示出用于文本集的域特定标准化的处理的流程图。从方框310开始,可以将文本集加载到存储器中。在方框320,可以针对该文本集确定域,例如通过检查与文本集一起提供的元数据,或者通过对文本集的自然语言理解分析而推断域。此后,在方框330,可以检索对应于所确定的域的映射。最后,在方框340,可以使用映射对文本集进行文本简化,并且可以将经简化的文本集返回,用于在必要的内容用户界面中在视觉上和/或听觉上呈现。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、射频等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言和传统过程式程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上面已经参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。在这一点上,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。例如,流程图或框图中的每个方框可以代表代码的模块、片段或部分,其包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在某些替代实现中,方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如,连续示出的两个方框实际上可以基本并行地执行,或者所述方框有时可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的基于专用硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
最后,这里使用的术语仅是为了描述特定实施例的目的,而不意欲限制本发明。如这里所使用的,单数形式“一”、“一个”和“该”也意在包括复数形式,除非上下文清楚表明并非如此。还将理解,术语“包括”和/或“包含”当在该说明书中使用时表示所述的特征、整数、步骤、操作、元素和/或组件的存在,而不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或它们的组合的存在或添加。
所附权利要求中所有装置或步骤加功能的元素的对应结构、材料、动作和等同物意在包括用于与具体要求权利的其它权利要求元素组合地执行功能的任意结构、材料或动作。已经为了说明和描述的目的呈现了本发明的描述,但这些描述不意在是穷尽的、或限制为所公开的形式的本发明。对于本领域的普通技术人员而言,在不偏离本发明的范围和精神的情况下,许多修改和改变将是明显的。选择和描述了所述实施例,以便最好地说明本发明的原理和实际应用,以及使得本领域的其它普通技术人员能够对具有适合于所构思的特定用途的各种修改的各种实施例而理解本发明。
已经详细地并参照本申请的实施例而如此描述了本申请的发明,很明显,可以在不偏离所附权利要求限定的本发明的范围的情况下进行修改和改变。

Claims (14)

1.一种用于文本集的域特定标准化的方法,所述方法包括:
将文本集加载在计算机的存储器中;
确定用于所述文本集的域;
针对所确定的域而检索替换词的字典;以及
使用所检索的字典对所述文本集进行文本简化。
2.如权利要求1所述的方法,其中所述域是行业域。
3.如权利要求1所述的方法,其中所述域是组织域。
4.如权利要求1所述的方法,其中所述域是人口统计学域。
5.如权利要求1所述的方法,其中所述域是地理域。
6.如权利要求1所述的方法,其中通过基于已经存在于所述文本集中的词的推断而确定所述域。
7.如权利要求1所述的方法,其中基于与所述文本集一起提供的元数据确定所述域。
8.一种被配置用于文本集的域特定标准化的自然语言数据处理系统,所述系统包括:
主计算系统,包括具有存储器和至少一个处理器的至少一个计算机;
自然语言处理器,提供被配置用于在所述计算机的存储器中执行的文本简化的逻辑;并且
所述自然语言处理器的域特定标准化模块包括在所述主计算系统中执行的程序代码,其被使得能够加载文本集,确定用于所述文本集的域,针对所确定的域检索替换词的字典,并指示所述自然语言处理器使用所检索的字典对所述文本集进行文本简化。
9.如权利要求8所述的系统,其中所述域是行业域。
10.如权利要求8所述的系统,其中所述域是组织域。
11.如权利要求8所述的系统,其中所述域是人口统计学域。
12.如权利要求8所述的系统,其中所述域是地理域。
13.如权利要求8所述的系统,其中所述模块的程序代码通过基于已经存在于所述文本集中的词的推断而确定所述域。
14.如权利要求8所述的系统,其中所述替换词的字典包括一组源词汇,所述源词汇中的至少一个被映射到多个不同替换词汇中具有与所述多个不同替换词汇的平均复杂度值一致的复杂度值的一个替换词汇。
CN201310072086.4A 2012-03-07 2013-03-07 用于域特定的自然语言标准化的方法和系统 Active CN103324604B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/414,687 2012-03-07
US13/414,687 US9122673B2 (en) 2012-03-07 2012-03-07 Domain specific natural language normalization

Publications (2)

Publication Number Publication Date
CN103324604A true CN103324604A (zh) 2013-09-25
CN103324604B CN103324604B (zh) 2016-04-27

Family

ID=48048639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310072086.4A Active CN103324604B (zh) 2012-03-07 2013-03-07 用于域特定的自然语言标准化的方法和系统

Country Status (3)

Country Link
US (2) US9122673B2 (zh)
CN (1) CN103324604B (zh)
GB (1) GB2502853A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107003998A (zh) * 2014-12-08 2017-08-01 微软技术许可有限责任公司 任意语言资产和资源的本地化复杂度

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US9122673B2 (en) * 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
GB2542288A (en) * 2014-04-25 2017-03-15 Mayo Foundation Enhancing reading accuracy, efficiency and retention
US10282468B2 (en) * 2015-11-05 2019-05-07 International Business Machines Corporation Document-based requirement identification and extraction
US20170154029A1 (en) * 2015-11-30 2017-06-01 Robert Martin Kane System, method, and apparatus to normalize grammar of textual data
US9720981B1 (en) * 2016-02-25 2017-08-01 International Business Machines Corporation Multiple instance machine learning for question answering systems
US10354009B2 (en) 2016-08-24 2019-07-16 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
US10318633B2 (en) 2017-01-02 2019-06-11 International Business Machines Corporation Using multilingual lexical resources to improve lexical simplification
US10318634B2 (en) 2017-01-02 2019-06-11 International Business Machines Corporation Enhancing QA system cognition with improved lexical simplification using multilingual resources
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11386276B2 (en) 2019-05-24 2022-07-12 International Business Machines Corporation Method and system for language and domain acceleration with embedding alignment
US11222176B2 (en) 2019-05-24 2022-01-11 International Business Machines Corporation Method and system for language and domain acceleration with embedding evaluation
FR3110740A1 (fr) 2020-05-20 2021-11-26 Seed-Up Procédé de conversion automatique de fichiers numériques
US20220138422A1 (en) * 2020-10-30 2022-05-05 Microsoft Technology Licensing, Llc Determining lexical difficulty in textual content

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243557A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a weighted and (WAND)
EP1969490A2 (en) * 2005-12-16 2008-09-17 Emil Ltd. A text editing apparatus and method
CN101346717A (zh) * 2003-07-03 2009-01-14 怀特斯莫克公司 用于语言处理的方法和装置
CN101382866A (zh) * 2008-09-26 2009-03-11 腾讯科技(深圳)有限公司 修正输入文字的系统及方法
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
EP2183685A2 (en) * 2007-08-01 2010-05-12 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
EP2259197A1 (en) * 2002-07-23 2010-12-08 Research In Motion Limited System and method of using a custom word list
EP2313835A1 (en) * 2008-07-31 2011-04-27 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6154757A (en) 1997-01-29 2000-11-28 Krause; Philip R. Electronic text reading environment enhancement method and apparatus
JP3166689B2 (ja) 1997-11-18 2001-05-14 富士ゼロックス株式会社 シソーラス検索合成システム
CA2398608C (en) 1999-12-21 2009-07-14 Yanon Volcani System and method for determining and controlling the impact of text
WO2001075662A2 (en) 2000-03-31 2001-10-11 Amikai, Inc. Method and apparatus for providing multilingual translation over a network
WO2002086737A1 (en) 2001-04-20 2002-10-31 Wordsniffer, Inc. Method and apparatus for integrated, user-directed web site text translation
US7003725B2 (en) 2001-07-13 2006-02-21 Hewlett-Packard Development Company, L.P. Method and system for normalizing dirty text in a document
US7191119B2 (en) 2002-05-07 2007-03-13 International Business Machines Corporation Integrated development tool for building a natural language understanding application
US20050138556A1 (en) * 2003-12-18 2005-06-23 Xerox Corporation Creation of normalized summaries using common domain models for input text analysis and output text generation
US20090132496A1 (en) 2007-11-16 2009-05-21 Chen-Kun Chen System And Method For Technique Document Analysis, And Patent Analysis System
US20090199079A1 (en) 2008-01-31 2009-08-06 Microsoft Corporation Embedded cues to facilitate application development
JP5290218B2 (ja) 2010-02-25 2013-09-18 日本放送協会 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
US8521748B2 (en) * 2010-06-14 2013-08-27 Infobright Inc. System and method for managing metadata in a relational database
US9122673B2 (en) * 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2259197A1 (en) * 2002-07-23 2010-12-08 Research In Motion Limited System and method of using a custom word list
US20040243557A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a weighted and (WAND)
CN101346717A (zh) * 2003-07-03 2009-01-14 怀特斯莫克公司 用于语言处理的方法和装置
EP1969490A2 (en) * 2005-12-16 2008-09-17 Emil Ltd. A text editing apparatus and method
EP2183685A2 (en) * 2007-08-01 2010-05-12 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US20110184720A1 (en) * 2007-08-01 2011-07-28 Yael Karov Zangvil Automatic context sensitive language generation, correction and enhancement using an internet corpus
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
EP2313835A1 (en) * 2008-07-31 2011-04-27 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
CN101382866A (zh) * 2008-09-26 2009-03-11 腾讯科技(深圳)有限公司 修正输入文字的系统及方法
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107003998A (zh) * 2014-12-08 2017-08-01 微软技术许可有限责任公司 任意语言资产和资源的本地化复杂度

Also Published As

Publication number Publication date
GB201302916D0 (en) 2013-04-03
US20150331854A1 (en) 2015-11-19
CN103324604B (zh) 2016-04-27
US20130238313A1 (en) 2013-09-12
GB2502853A (en) 2013-12-11
US9424253B2 (en) 2016-08-23
US9122673B2 (en) 2015-09-01

Similar Documents

Publication Publication Date Title
CN103324604A (zh) 用于域特定的自然语言标准化的方法和系统
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US20210232761A1 (en) Methods and systems for improving machine learning performance
CN107357772A (zh) 表单填写方法、装置和计算机设备
US11573954B1 (en) Systems and methods for processing natural language queries for healthcare data
WO2020261234A1 (en) System and method for sequence labeling using hierarchical capsule based neural network
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN111178076B (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
US11586689B2 (en) Electronic apparatus and controlling method thereof
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN106796525B (zh) 按需加载动态脚本语言代码以减少内存使用
CN107169021A (zh) 用于预测应用功能标签的方法和设备
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
US20180137098A1 (en) Methods and systems for providing universal portability in machine learning
Kuriyozov et al. Construction and evaluation of sentiment datasets for low-resource languages: The case of Uzbek
CN110851797A (zh) 基于区块链的作品创作方法及装置、电子设备
CN113836945B (zh) 意图识别方法、装置、电子设备和存储介质
WO2014117072A1 (en) Systems and methods for semantic url handling
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN102063501B (zh) 一种互联网网页转换的方法及装置
CN115357697A (zh) 数据处理方法、装置、终端设备以及存储介质
CN111159339A (zh) 一种文本匹配处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant