CN108197099A - 一种文本信息提取方法及计算机可读存储介质 - Google Patents

一种文本信息提取方法及计算机可读存储介质 Download PDF

Info

Publication number
CN108197099A
CN108197099A CN201711251951.6A CN201711251951A CN108197099A CN 108197099 A CN108197099 A CN 108197099A CN 201711251951 A CN201711251951 A CN 201711251951A CN 108197099 A CN108197099 A CN 108197099A
Authority
CN
China
Prior art keywords
amount information
text
payment
payment method
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711251951.6A
Other languages
English (en)
Inventor
朱敬华
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201711251951.6A priority Critical patent/CN108197099A/zh
Publication of CN108197099A publication Critical patent/CN108197099A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本处理技术领域,本发明提供了一种文本信息提取方法,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;从所述付款方式相关的语句中提取出所述付款方式,包括:对所述付款方式相关的语句进行句法分析;在所述句法分析结果上进行语义角色标注;基于预设的推理逻辑获取所述付款方式。通过所述方法可保证合同文本付款信息的提取的准确性。

Description

一种文本信息提取方法及计算机可读存储介质
技术领域
本发明关于文本处理技术领域,尤其涉及一种文本信息提取方法及计算机可读存储介质。
背景技术
书面语言是指人们在书写和阅读文章时所使用的语言,它是在口语的基础上发展来的,是在文字产生之后才出现的,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。
文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。广义“文本”:任何由书写所固定下来的任何话语。狭义“文本”:由语言文字组成的文学实体,代指“作品”,相对于作者、世界构成一个独立、自足的系统。简单来说,人们日常工作生活中使用到的使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。
文本也是计算机的一种文档类型,该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。常见的文本文档的扩展名有.txt、.doc.、.docx、.wps等。
计算机技术的应用范围越来越广泛和深入,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等,都可以从网络上获取到同类型的范本,再根据实际应用情况进行调整,用户便可进行使用。
随着大数据时代的到来,数据的处理和分析都需依赖于历史文本数据,对于上述有固定格式要求的文书来说,不仅需要提取出同类型文本的结构化特征,以整体梳理相关的信息,还需针对用户自行填写或者补充的信息进行获取和识别,才能清晰识别每一份文本的特征。
面临这种复杂的处理技术,有许多技术难题需要解决,其中,如何准确识别用户输入的信息内容,以更正确、清晰的对文本内容进行识别就是其中一个急需解决的难题。尤其在合同文本领域,其中涉及的金额、数量、付款方式等根据实际情况填写的内容,往往会由于各用户的用语习惯、表述方式不同,而出现同一概念对应不同内容的问题,若只是单纯的对相应内容进行提取,而不进行识别,可能会发生很多错误。
发明内容
基于上述技术问题,本发明提供了一种文本信息提取方法,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:
从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;
从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;
从所述付款方式相关的语句中提取出所述付款方式,包括:
对所述付款方式相关的语句进行句法分析;
在所述句法分析结果上进行语义角色标注;
基于预设的推理逻辑获取所述付款方式。
在一实施例中,所述从所述金额信息相关的语句中提取出所述金额信息更包含确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。
在一实施例中,所述预设条件随机场模型是通过合同文本样本对条件随机场算法训练得出。
在一实施例中,所述基于特定标注获取所述金额信息具体包含从所述序列化标注后的各元素中查找获得标注为数字和单位的元素,分别确认为所述金额信息中的金额数量和货币单位。
在一实施例中,所述预设的推理逻辑包含预先设定的固定推理逻辑。
在一实施例中,所述预设的推理逻辑包含基于本体知识库的逻辑推理引擎。
在一实施例中,所述基于预设的推理逻辑获取所述付款方式具体包含基于预设的推理逻辑和所述付款方式相关语句的上下文语句,获取所述付款方式。
此外,本发明还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述文本信息提取方法。
通过本发明所提供的文本信息提取方法,可从合同文本中正确的提取出金额信息和付款进度。这重要两项信息对合同文本的语义理解非常重要,且相对其他,如合同标题、生效日期等表述方式相对规范的信息而言,用户对其的表述可能包含多种情况,本发明所提供的技术方法,结合句法分析、短文本分类器、条件随机场模型等技术可提取出金额信息,并基于语义角色标注和设定的推理逻辑来实现付款方式的提取,不仅可准确获取文本中的相关信息,而且能按照固定的格式进行统一输出,便于后续的统计、归类处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1绘示本发明一较佳实施例所提供的文本信息提取方法流程图;
图2绘示本图1所示实施例中步骤S105的方法流程;
图3绘示图1所示实施例步骤S105中句法分析和语义角色标注过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参照图1,图1绘示本发明一较佳实施例所提供的文本信息提取方法流程图。如图1所示,所述方法主要应用于合同文本中付款信息的提取,其中付款信息包含金额信息及付款方式,具体包含以下步骤:
S101,从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句。
具体而言,合同文本具有一定的固定结构,但每个结构部分所包含的具体内容有所差异,一般而言,同类合同文本中,各部分包含的具体内容有些是固定的,而有些则需要通过用户基于实际情况进行输入,例如甲方、乙方的身份信息、合同生效日期、金额信息和付款方式等。
如此一来,可先对用户录入信息进行定位来提取合同文本中的金额信息和付款方式,具体的提取方式可包含多样,本发明不做限制。
S103,从所述金额信息相关的语句中提取出所述金额信息。
具体而言,金额信息包含金额分类、金额数量和货币单位,以语句“本合同含税总金额:74245元”为例,其中,“总额”表示金额分类,“74245”表示金额数量,“元”表示货币单位,那么从该语句从提取出的金额信息为“总额74245元”。由于合同中表示金额的方式有多种,通过提取出这三类信息,则可明确具体的金额信息,具体可参照表1,如下:
表1
如表1所示,各合同中的金额信息相关语句表述方式会存在差异,例如“总金额”、“总计”、“合计”等均表示金额分类为:总额。而语句“汽车配件销售(轮胎)元/个1850”总并没有直接与金额分类相关的词语,但可理解其表示的金额分类为:单价。
本实施例中,确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。其中预设的短文本分类器是基于大量合同文本训练得出的。
具体而言,通过句法分析可对语句的词语语法进行分析,再基于预设的短文本分类器对相关词语进行归类分析,从而确定语句中的金额分类。由于预设的短文本分类器是基于大量合同文本训练得出,故可更准确的对词语进行分类分析,从而得出更贴近实际的分析结果。
如上文所述,金额信息中更包含金额数量和货币单位,而该部分信息的提取主要借助条件随机场模型来实现。
具体而言,首先基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,之后基于特定标注获取金额信息,其中基于特定标注获取所述金额信息具体包含从所述序列化标注后的各元素中查找获得标注为数字和单位的元素,分别确认为所述金额信息中的金额数量和货币单位。其中,预设条件随机场模型是通过合同文本样本对条件随机场算法训练得出。
举例而言,语句“本合同含税总金额:74245元”,经过条件随机场模型进行序列化标注后得到结果“本/pron合同/noun含税/finance总金额/amount:/colon 74245/number元/unit”,其中标注“number”对应的元素为金额数量,“unit”对应的元素为货币单位,由此可从语句中提取出金额数量和货币单元。
如此一来,经过上述处理,可合同相关语句中提取出准确的金额信息,并使用统一的表达方式进行整理输出。
S105,从所述付款方式相关的语句中提取出所述付款方式。具体的,可参见图2,图2绘示本图1所示实施例中步骤S105的方法流程。
如图2所示,从付款方式相关的语句中提取出所述付款方式的方法具体包括以下步骤:
S201,对所述付款方式相关的语句进行句法分析。
S202,在所述句法分析结果上进行语义角色标注。
S203,基于预设的推理逻辑获取所述付款方式。
具体的,以合同文本中的付款方式相关语句为例,具体语句内容如下:
“1、付款方式,选择第1种
1)甲方交货并经乙方验收合格,甲方开具由国家税务局监制的正式发票后3个工作日内,乙方通过银行转账一次性付清货款。
2)签订合同后,预付定金30000元整,甲方交货并经乙方验收合格后3个工作日内付清尾款。
3)其他约定。”
首先,对“1、付款方式,选择第1种”这个句子,进行句法分析,再基于句法分析结果进行语义角色标注,详细过程可参见图3,图3绘示图1所示实施例步骤S105中句法分析和语义角色标注过程示意图。
基于上述语义角色标注可推断出付款方式为“第1种”,再基于预设的推理逻辑从下文中获取“第一种”所指代的具体内容为:“1)甲方交货并经乙方验收合格,甲方开具由国家税务局监制的正式发票后3个工作日内,乙方通过银行转账一次性付清货款。”
其中预设的推理逻辑可以是基于对样本的分析后得出的固定推理逻辑,也可以是基于本体知识库的逻辑推理引擎来实现。
如此一来,通过步骤S105可从相关语句中提取出正确、具体的付款方式。
综上所述,通过本发明所提供的文本信息提取方法,可从合同文本中正确的提取出付款信息,包括金额信息和付款进度。这重要两项信息对合同文本的语义理解非常重要,且相对其他,如合同标题、生效日期等表述方式相对规范的信息而言,用户对其的表述可能包含多种情况,本发明所提供的技术方法,结合句法分析、短文本分类器、条件随机场模型等技术可提取出金额信息,并基于语义角色标注和设定的推理逻辑来实现付款方式的提取,不仅可准确获取文本中的相关信息,而且能按照固定的格式进行统一输出,便于后续的统计、归类处理。
基于同样的发明构思,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现图1所示实施例中的所述的文本录入点定位方法。
本发明所提供的文本信息提取技术完全基于计算机来实现,较于传统的人工模式,处理效率大幅度提升,节省了人力成本。
值得注意的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文本信息提取方法,其特征在于,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:
从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;
从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;
从所述付款方式相关的语句中提取出所述付款方式,包括:
对所述付款方式相关的语句进行句法分析;
在所述句法分析结果上进行语义角色标注;
基于预设的推理逻辑获取所述付款方式。
2.如权利要求1所述的文本信息提取方法,其特征在于,所述从所述金额信息相关的语句中提取出所述金额信息更包含确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。
3.如权利要求1所述的文本信息提取方法,其特征在于,所述预设条件随机场模型是通过合同文本样本对条件随机场算法训练得出。
4.如权利要求1所述的文本信息提取方法,其特征在于,所述基于特定标注获取所述金额信息具体包含从所述序列化标注后的各元素中查找获得标注为数字和单位的元素,分别确认为所述金额信息中的金额数量和货币单位。
5.如权利要求1所述的文本信息提取方法,其特征在于,所述预设的推理逻辑包含预先设定的固定推理逻辑。
6.如权利要求1所述的文本信息提取方法,其特征在于,所述预设的推理逻辑包含基于本体知识库的逻辑推理引擎。
7.如权利要求5或6所述的文本信息提取方法,其特征在于,所述基于预设的推理逻辑获取所述付款方式具体包含基于预设的推理逻辑和所述付款方式相关语句的上下文语句,获取所述付款方式。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述文本信息提取方法。
CN201711251951.6A 2017-12-01 2017-12-01 一种文本信息提取方法及计算机可读存储介质 Pending CN108197099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711251951.6A CN108197099A (zh) 2017-12-01 2017-12-01 一种文本信息提取方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711251951.6A CN108197099A (zh) 2017-12-01 2017-12-01 一种文本信息提取方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108197099A true CN108197099A (zh) 2018-06-22

Family

ID=62573299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711251951.6A Pending CN108197099A (zh) 2017-12-01 2017-12-01 一种文本信息提取方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108197099A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446511A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN110020424A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110046345A (zh) * 2019-03-12 2019-07-23 同盾控股有限公司 一种数据提取方法和装置
CN111310423A (zh) * 2020-02-28 2020-06-19 中科鼎富(北京)科技发展有限公司 一种文本信息生成方法及装置
CN111353271A (zh) * 2020-02-28 2020-06-30 中科鼎富(北京)科技发展有限公司 一种合同文本的处理方法、装置、存储介质和电子设备
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
CN112668323A (zh) * 2019-10-14 2021-04-16 北京慧点科技有限公司 基于自然语言处理的文本要素提取方法及其文本审查系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080030383A1 (en) * 2006-08-07 2008-02-07 International Characters, Inc. Method and Apparatus for Lexical Analysis Using Parallel Bit Streams
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN106815203A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 一种裁判文书中的金额解析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080030383A1 (en) * 2006-08-07 2008-02-07 International Characters, Inc. Method and Apparatus for Lexical Analysis Using Parallel Bit Streams
CN106815203A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 一种裁判文书中的金额解析方法及装置
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郭茂盛等: "文本蕴含关系识别与知识获取研究进展及展望", 《计算机学报》 *
黄念娥等: "本体与条件随机场结合的涉农商品名称抽取与类别标注", 《计算机应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446511B (zh) * 2018-09-10 2022-07-08 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN109446511A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN110020424A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110020424B (zh) * 2019-01-04 2023-10-31 创新先进技术有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110046345A (zh) * 2019-03-12 2019-07-23 同盾控股有限公司 一种数据提取方法和装置
CN112668323A (zh) * 2019-10-14 2021-04-16 北京慧点科技有限公司 基于自然语言处理的文本要素提取方法及其文本审查系统
CN112668323B (zh) * 2019-10-14 2024-02-02 北京慧点科技有限公司 基于自然语言处理的文本要素提取方法及其文本审查系统
CN111310423A (zh) * 2020-02-28 2020-06-19 中科鼎富(北京)科技发展有限公司 一种文本信息生成方法及装置
CN111353271A (zh) * 2020-02-28 2020-06-30 中科鼎富(北京)科技发展有限公司 一种合同文本的处理方法、装置、存储介质和电子设备
CN111310423B (zh) * 2020-02-28 2023-11-03 鼎富智能科技有限公司 一种文本信息生成方法及装置
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN108197099A (zh) 一种文本信息提取方法及计算机可读存储介质
KR102699233B1 (ko) 문서 간 지능형 저작 및 처리 보조기
US20190171692A1 (en) Adapting tabular data for narration
US10049100B2 (en) Financial event and relationship extraction
CN108170715B (zh) 一种文本结构化处理方法
Koch et al. Type-aware distantly supervised relation extraction with linked arguments
US9645988B1 (en) System and method for identifying passages in electronic documents
Biswas et al. Scope of sentiment analysis on news articles regarding stock market and GDP in struggling economic condition
Derczynski et al. Gate-time: Extraction of temporal expressions and event
KR20230169538A (ko) 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램
KR20190093439A (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
Ansari et al. Cross Script Hindi English NER Corpus from Wikipedia
Tschirschwitz et al. A dataset for analysing complex document layouts in the digital humanities and its evaluation with Krippendorff’s alpha
Rehman et al. Automatically solving two‐variable linear algebraic word problems using text mining
Manandise Towards unlocking the narrative of the united states income tax forms
CN108170668A (zh) 一种文本录入点定位方法及计算机可读存储介质
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
Mahato et al. Heuristic algorithm for resolving pronominal anaphora in Hindi dialects
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
Mechti et al. Improving native language identification model with syntactic features: Case of arabic
Mariyah et al. A multi-strategy approach for information extraction of financial report documents
Dal Molin et al. Cross-media sentiment analysis in brazilian blogs
Smith Morphological analysis of historical languages
Garst et al. OCR Language Models with Custom Vocabularies
Rocha Automation of companies’ recruitment process: development of an algorithm capable of ranking CVs according to job offers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180622

RJ01 Rejection of invention patent application after publication