CN106502969A - 司法案件涉案金额的归一化方法 - Google Patents

司法案件涉案金额的归一化方法 Download PDF

Info

Publication number
CN106502969A
CN106502969A CN201610920152.2A CN201610920152A CN106502969A CN 106502969 A CN106502969 A CN 106502969A CN 201610920152 A CN201610920152 A CN 201610920152A CN 106502969 A CN106502969 A CN 106502969A
Authority
CN
China
Prior art keywords
case
money
amount
text
judicial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610920152.2A
Other languages
English (en)
Inventor
史墨轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201610920152.2A priority Critical patent/CN106502969A/zh
Publication of CN106502969A publication Critical patent/CN106502969A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/111Mathematical or scientific formatting; Subscripts; Superscripts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

一种司法案件涉案金额的归一化方法,包括以下步骤:步骤一:文本的预处理;步骤二:提取单位;步骤三:文本分类;步骤四:根据类型进行数字的格式化。本发明中提出了一种司法案件涉案金额的归一化方法,能将司法案件中提取出的金额进行转化,使得计算机能够识别该金额,并同时提供了该金额的单位,为后续案件的进一步处理提供了数据保障。整个识别方法基于金额模型分类,覆盖面广,基本能覆盖现有司法案件中使用的所有金额文本类型,识别高效,不易出错,可干预性强,容易获得良好的结果。

Description

司法案件涉案金额的归一化方法
技术领域
本发明涉及信息处理领域,具体涉及一种司法案件涉案金额的归一化方法。
背景技术
各类司法网站公布的司法案件都包含涉案金额一项,但各类司法网站的开发人员不同,编辑人员不同,标准不同,导致各个司法网站的涉案金额内容格式都不尽相同,为计算机解读带来困难。计算机无法识别数字,涉案金额就无法进行大小的对比,排序,汇总,统计等有价值的加工和分析,人工进行数字的转换低效而且容易出错,如何使得识别的数字内容让计算机认识,知道这是数字并知道是多少,是一个有待解决的问题。
发明内容
本发明的目的是针对现有的技术存在的不足,提出了一种工作效率高的司法案件涉案金额的归一化方法。
本发明所解决的技术问题采用以下技术方案来实现一种司法案件涉案金额的归一化方法,包括以下步骤:步骤一:文本的预处理;步骤二:提取单位;步骤三:文本分类;步骤四:根据类型进行数字的格式化。
本发明的有益效果为:提出了一种司法案件涉案金额的归一化方法,能将司法案件中提取出的金额进行转化,使得计算机能够识别该金额,并同时提供了该金额的单位,为后续案件的进一步处理提供了数据保障。整个识别方法基于金额模型分类,覆盖面广,基本能覆盖现有司法案件中使用的所有金额文本类型,识别高效,不易出错,可干预性强,容易获得良好的结果。
具体实施方式
下面结合具体实施例对本发明的技术方案作详细说明:一种司法案件涉案金额的归一化方法,包括以下步骤:
1.文本的预处理
主要包含全半角的转换,如将“9”替换为“9”,保证文本中出现的数字都是半角形式的数字。
2.提取单位
将文本进行拆分,将与数字相关的文字剔除,如“0”“一”“贰”“千”“亿”等,剔除数字后剩余的文本就认为这是这个数字的单位。
3.文本分类
这个阶段我们挨个字符考察整个文本,将文本分为四类:
a)完全由阿拉伯数字和单位组成的文本
如:1255554元。
b)由数字小数点数字分隔符和单位组成的文本
如:123,456.1元。
c)文本由阿拉伯数字中文数字混合组成的文本
如:2.1万元,12万元。
d)文本由中文数字组成的文本
如:壹仟万零伍佰壹拾玖元捌角陆分。
4.根据四种类型分别进行数字的格式化:
a)第一种类型:
i.去除单位后直接转换为数字。
b)第二种类型:
i.移出数字文本中的数学分隔符,如:123,456.1=123456.1。
ii.将移出数学分隔符的文本转换为数字。
c)第三种类型:
i.将阿拉伯数字与中文数字分离,如:12,万。
ii.分段将“万”,“千”等数目词转换为对应的数量,如:万=10000。
iii.与修饰的数字进行乘积,如:12万=12*10000。
iv.求和,如:12万2千=12*10000+2*1000=122000。
d)第四种类型:
i.将文本中的“零”全部替去除,如:壹仟万零伍佰壹拾玖元捌角陆分=壹仟万伍佰壹拾玖元捌角陆分。
ii.从前往后从高数目开始拆分文本,如:壹仟万零伍佰壹拾玖元捌角陆分=壹仟万,伍佰,壹拾,玖元,捌角,陆分。
iii.将各部分的数词替换为阿拉伯数字,如:壹仟万,伍佰,壹拾,玖元,捌角,陆分=1仟万,5佰,1拾,9元,8角,6分。
iv.每一部分采用第三种类型的方法进行内部运算,如:1仟万,5佰,1拾,9元,8角,6分=10000000,500,10,6,0.8,0.06。
v.各部分求和,10000000+500+10+6+0.8+0.06=10000516.86。
所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种司法案件涉案金额的归一化方法,其特征在于包括以下步骤:
步骤一:文本的预处理;
步骤二:提取单位;
步骤三:文本分类;
步骤四:根据类型进行数字的格式化。
CN201610920152.2A 2016-10-21 2016-10-21 司法案件涉案金额的归一化方法 Pending CN106502969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610920152.2A CN106502969A (zh) 2016-10-21 2016-10-21 司法案件涉案金额的归一化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610920152.2A CN106502969A (zh) 2016-10-21 2016-10-21 司法案件涉案金额的归一化方法

Publications (1)

Publication Number Publication Date
CN106502969A true CN106502969A (zh) 2017-03-15

Family

ID=58318364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610920152.2A Pending CN106502969A (zh) 2016-10-21 2016-10-21 司法案件涉案金额的归一化方法

Country Status (1)

Country Link
CN (1) CN106502969A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287818A (zh) * 2018-01-03 2018-07-17 小草数语(北京)科技有限公司 裁判文书中金额的提取方法、装置和电子设备
CN110457657A (zh) * 2019-08-15 2019-11-15 中国银行股份有限公司 金额字段格式化的方法及装置
WO2019242124A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 金额信息的提取方法、装置、终端设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN105446990A (zh) * 2014-07-04 2016-03-30 阿里巴巴集团控股有限公司 一种业务数据处理方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN105446990A (zh) * 2014-07-04 2016-03-30 阿里巴巴集团控股有限公司 一种业务数据处理方法及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287818A (zh) * 2018-01-03 2018-07-17 小草数语(北京)科技有限公司 裁判文书中金额的提取方法、装置和电子设备
WO2019242124A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 金额信息的提取方法、装置、终端设备及介质
CN110457657A (zh) * 2019-08-15 2019-11-15 中国银行股份有限公司 金额字段格式化的方法及装置
CN110457657B (zh) * 2019-08-15 2023-08-22 中国银行股份有限公司 金额字段格式化的方法及装置

Similar Documents

Publication Publication Date Title
Xu et al. Layoutxlm: Multimodal pre-training for multilingual visually-rich document understanding
CN106202032B (zh) 一种面向微博短文本的情感分析方法及其系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
Tuggener et al. Deep watershed detector for music object recognition
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
Tian et al. Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering
CN105139041A (zh) 基于图像的语种识别方法及装置
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN103186560B (zh) 一种数据排序方法以及相关装置
CN106502969A (zh) 司法案件涉案金额的归一化方法
CN102542061A (zh) 一种产品的智能分类方法
CN106776880A (zh) 一种基于图文识别的论文重查系统及其方法
Mishchenko et al. Chart image understanding and numerical data extraction
CN104751148A (zh) 一种版式文件中识别科学公式的方法
CN108876452A (zh) 用电客户需求信息获取方法、装置以及电子设备
CN106407392A (zh) 一种基于标记语言的节点映射关系抽取方法及系统
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN104252446A (zh) 计算装置、文件内容一致性验证系统及方法
CN110399432A (zh) 一种表的分类方法、装置、计算机设备及存储介质
CN103455527A (zh) 手写文件检索装置、方法以及记录介质
CN105335446A (zh) 一种基于词矢量的短文本分类模型生成方法与分类方法
Wilkinson et al. A novel word segmentation method based on object detection and deep learning
Nguyen TableSegNet: a fully convolutional network for table detection and segmentation in document images
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统
CN105573968A (zh) 基于规则的文本标引方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170315

WD01 Invention patent application deemed withdrawn after publication