CN110489739B - 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置 - Google Patents

一种基于crf算法的公安案件及口供文本的命名提取方法及其装置 Download PDF

Info

Publication number
CN110489739B
CN110489739B CN201910593309.9A CN201910593309A CN110489739B CN 110489739 B CN110489739 B CN 110489739B CN 201910593309 A CN201910593309 A CN 201910593309A CN 110489739 B CN110489739 B CN 110489739B
Authority
CN
China
Prior art keywords
case
text
public security
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910593309.9A
Other languages
English (en)
Other versions
CN110489739A (zh
Inventor
麦家健
莫毅宇
朱凌峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Shuhui Big Data Co ltd
Original Assignee
Dongguan Shuhui Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Shuhui Big Data Co ltd filed Critical Dongguan Shuhui Big Data Co ltd
Priority to CN201910593309.9A priority Critical patent/CN110489739B/zh
Publication of CN110489739A publication Critical patent/CN110489739A/zh
Application granted granted Critical
Publication of CN110489739B publication Critical patent/CN110489739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体公开了一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置,方法包括获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;将案件文本及案件口供对应整合形成的文本数据进行实体词标注;进行词性标注,根据标注提取特征以建立基本特征模板;将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;建立公安监控范围内城市街道情况的信息数据表;通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取,提高办公效率。

Description

一种基于CRF算法的公安案件及口供文本的命名提取方法及 其装置
技术领域
本发明涉及自然语言处理技术领域,具体公开了一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置。
背景技术
随着自然语言处理技术的快速发展,该技术已经广泛应用于搜索引擎等相关行业中,而公安机构在长期信息化进程中积累了大量的案件文本数据信息,公安部门需要投入越来越多的人力去对案件文本和口供文本的分析和分类。
目前,由于众多案件和口供经由不同的警务人员描述和记录,用语上存在主观上的差异,而且没有规范描述用语,为了能准确地查阅到相关的信息,需要公安人员花费更多的时间和精力,在查阅过程中大大加重了公安人员的工作压力和用人成本,办公效率大大降低;而且当公安人员需要提取一些案件信息时,需通过查阅案件并浏览案件全文内容后获取,并不能直观地了解案件的重要信息,从而造成公安人员分析案件的效率低下。
因此,行业内需要一种能解决上述问题的方法和装置。
发明内容
为了克服现有技术中存在的缺点和不足,本发明的目的在于提供一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置,以此能使公安人员在办公过程中能快速准确地了解到案件的相关信息。
为实现上述目的,本发明采用如下方案。
一种基于CRF算法的公安案件及口供文本的命名提取方法,包括:
获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;
将案件文本及案件口供对应整合形成的文本数据进行实体词标注;
进行词性标注,根据标注提取特征以建立基本特征模板,具体包括:
采用jieba分词法对语料进行分词,采用jieba.posseg进行词性标注;
根据分词及词性标注,利用BIEOS标注模型对每个分词进行标注以获取其对应的标签,其中标签中B表示词部位首部,I表示词部位内部,E表示词部位尾部,O表示无关词,S表示单体词;
对语料进行特征提取以建立基本特征模板,其中特征包括词性特征、实体词特征及标签;将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;
建立公安监控范围内城市街道情况的信息数据表;
通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。
进一步地,所述建立基本特征模板是以u-gram为基础的自定义特征模板包括:
建立特征模板:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,1]
U06:%x[-1,1]
U07:%x[0,1]
U08:%x[1,1]
U09:%x[2,1]
U10:%x[-2,0]/%x[-1,0]/%x[0,0]
U11:%x[-1,0]/%x[0,0]/%x[1,0]
U12:%x[0,0]/%x[1,0]/%x[2,0]
U13:%x[-2,0]/%x[-1,1]
U14:%x[0,0]/%x[1,0]
U15:%x[-1,0]/%x[0,0]
U16:%x[1,1]/%x[2,1]
U17:%x[-1,1]/%x[0,1]
U18:%x[0,1]/%x[1,1]
其中,U00至U09分别表示各自位置的特征分词;U10至U18则表示由特征分词组成的语料;
将词性特征、实体词特征及标签代入自定义特征模板分配特征分词的位置及语料组成。
进一步地,所述实体词包括案发场所地点、损失物品、涉案工具、涉案手段;所述词性包括名词、动词、形容词、代词、介词。
进一步地,还包括在输入CRF算法模型进行训练进行预处理,具体为:
利用公安系统数据,分别构建案发场所地点数据表、损失物品种类数据表及涉案工具数据表;
将公安案件文本及案件口供的语料转化成CRF算法模型的输入格式,其中每一条语料格式表示为<词,词性特征,损失物品特征,涉案工具特征,地点特征,标签>;
遍历语料中的每一个词,若损失物品特征、涉案工具特征、地点特征出现在其对应的数据表中则标记为1,若未出现则标记为0。
进一步地,所述城市街道情况的信息包括城市街道地址信息及其对应的房屋、单位、场所、人员信息。
一种移动装置,包括:
整合案件文本和口供文本数据模块,用于获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据;
数据库模块,用于记录城市街道情况的信息;
处理器,适于执行程序指令;
存储装置,适于存储程序指令,所述程序指令适于有处理器加载并执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。
一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。
一种基于CRF算法的公安案件及口供文本的命名提取系统,服务器;
服务器包括处理器和存储设备;
处理器,适于执行程序指令;
存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。
本发明的有益效果:提供一种基于CRF算法的公安案件及口供文本的分类提取方法及其装置,通过获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行实体词标注几词性标注,完成标注后可通过标注进行特征的提取建立基本特征模板,然后再将基本特征模板和公安案件文本及案件口供信息输入至CRF算法的模型训练,从而获得一个通用的命名提取模型,同时建立公安监控范围内城市街道情况的信息数据表,当有新增的公安案件文本及案件口供的数据信息时,将其通入命名提取模型中识别出新增公安案件文本及案件口供的关键信息,方便公安人员的对案件信息的查询,同时映射至城市街道情况的信息数据表并反馈给公安人员,使得案件提取信息更为全面准确。而且本方案通过样本训练建立一个通用的命名提取模型,可以适应不同的警务人员描述和记录用语上的差异,能准确地查阅到相关的信息,大大提高办案效率。
附图说明
图1为本发明实施例的流程示意图。
图2为本发明实施例的装置示意图。
图3为本发明实施例的语料训练格式的示意图。
图4为本发明实施例BIEOS模型标注的示意图。
图5为本发明实施例提取地址信息的示意图。
实施方式
为了便于本领域技术人员的理解,下面结合实施例及附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
本发明提供了一种基于CRF算法的公安案件及口供文本的命名提取方法,如图1所示, 为了能建立一个适用于公安案件文本及案件口供信息的通过模型,首先需要对现有公安系统中的公安案件文本及案件口供信息进行一定量的样本训练,从而使得该模型能适应不同的警务人员描述和记录用语上的差异,并准确地查询到相应的信息以提高办公效率。因此先从公安系统中获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,以此可以将统一个案件文本及案件口供对应上,同时为了方便后续的标注,将其存储一数据表中。
将案件文本及案件口供对应整合形成的文本数据进行实体词标注,其中实体词主要包括案发场所地点、损失物品、涉案工具、涉案手段;上述几个实体词是办公过程中常见的关键信息,这也是为了提取关键信息,而不是案件全文或一大段信息,以此公安办公人员无需再从一大段信息中再人为提取,增加效率。但上述信息只是作为一个实施例,可以根据不同公安办公的要求,可以适当增加其它实体词信息。实体词标注可以采用人工标注,或者系统标注,或者系统标注而人工核对,在此不做限制。
进行词性标注,主要是为了区别包括但不限于名词、动词、形容词、代词、介词,比如为了针对同一个词既可以作为名词也可以作为动词的情况,避免后续通过建立的命名提取模型提取时出现混淆的问题。
如图3及图4所示,进行词性标注时,先采用jieba分词法对语料进行分词,也就是把一个长句划分成多个分词,比如“东莞市寮埗镇东坑路口交界处准备坐车回家”分词成“东莞市/ 寮/ 埗/ 镇/ 东坑/ 路口/ 交界/ 处/ 准备/ 坐车/ 回家”,然后采用jieba.posseg进行词性标注;再根据分词及词性标注,利用BIEOS标注模型对每个分词进行标注以获取其对应的标签,其中标签中B表示词部位首部,I表示词部位内部,E表示词部位尾部,O表示无关词,S表示单体词;比如图3中东莞市标签为B-PLACE,通过这样的标注有利于后续的特征提取,加快建立基本特征模板的速度。
随后,对语料进行特征提取以建立基本特征模板,该特征模板相当于一个空内容的模板,只包括记录需要训练的特征,这些特征包括上述有提到的词性特征、实体词特征及标签。
本实施例中,建立基本特征模板是以U-gram为基础的自定义特征模板,包括,自定义特征模板格式为%U[row,col],由于采用U-gram类型模板,因此开头字母为U;row表示当前位置的行,col对应的是列。以下每一行代表一个模板:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,1]
U06:%x[-1,1]
U07:%x[0,1]
U08:%x[1,1]
U09:%x[2,1]
U10:%x[-2,0]/%x[-1,0]/%x[0,0]
U11:%x[-1,0]/%x[0,0]/%x[1,0]
U12:%x[0,0]/%x[1,0]/%x[2,0]
U13:%x[-2,0]/%x[-1,1]
U14:%x[0,0]/%x[1,0]
U15:%x[-1,0]/%x[0,0]
U16:%x[1,1]/%x[2,1]
U17:%x[-1,1]/%x[0,1]
U18:%x[0,1]/%x[1,1]
其中,U00至U09分别表示各自位置的特征分词;U10至U18则表示由特征分词组成的语料,而且上述数字只是一个代指,并不是实际的位置坐标,不应作为本发明的限制;将词性特征、实体词特征及标签代入自定义模板分配特征分词的位置及语料组成。
为了更清楚地说明,结合BIEOS标注及分词举例说明但并作为本发明的限制,比如
东莞市 寮 埗 镇 东坑 路口 交界 处 准备 坐车 回家 丢失 金钱
B I I I I I I I E O O O B E
其中的B I E O S的含义前面有提到,在此不作累叙。
假设当前词为“东坑”,U02:%x[0,0]对应“东坑”字,则U00:%x[-2,0]表示“埗”字,U01:%x[1,0]表示“路口”字,U05:%x[-1,0]/%x[0,0]/%x[1,0]表示“镇/东坑/路口”,如此类推。
然后将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型,该过程类似将案件信息按照基本特征模板的规定对公安案件文本及案件口供的内容进行模板的填充以便进行样本训练,获得命名提取模型。
本实施例中 ,为了更好地适应CRF算法模型,在输入CRF算法模型进行训练进行预处理,具体为:
利用公安系统数据,分别构建案发场所地点数据表place_data、损失物品种类数据表hings_data及涉案工具数据表tools_data;
如图3所示,将公安案件文本及案件口供的语料转化成CRF算法模型的输入格式,其中每一条语料格式表示为<词,词性特征,损失物品特征,涉案工具特征,地点特征,标签>;遍历语料中的每一个词,若损失物品特征、涉案工具特征、地点特征出现在其对应的数据表中则标记为1,若未出现则标记为0,以此更加能直观地反映出信息。
在完成命名提取模型建立后,可以直接对新增案件的信息提取和查询了,但是本申请为了保障获取的信息更为准确,符合公安办公严谨的要求,还建立公安监控范围内城市街道情况的信息数据表,该数据信息表示基于公安系统的数据来建立的,所述城市街道情况的信息包括城市街道地址信息及其对应的房屋、单位、场所、人员信息。该信息表主要是国家提倡的“二标四实”信息。二标包括标准地址库、标准作业图;四实包括实有人口、实有房屋、实有单位、实有设施。也就是说,通过命名提取模型识别出的关键信息后,可以将其映射至城市街道情况的信息表中,系统可以作一个核对,比如通过命名提取模型提取出来发场所地点、损失物品、涉案工具、涉案手段的信息,假设该事件是商场丢失金钱事件,而城市街道情况信息表中记载是居民房,则系统可以识别到有误,对该案件信息重新进行提取,大大提高准确性。更具体地,如图5所示,将提取到的地址信息“广东省东莞市塘厦镇环市东路***号”(由于数据为敏感数据,已作脱敏处理),映射值公安部门“二标四实”表中,根据表中信息可以反馈处该地址的性质实出租屋。
此外,如图2所示,本发明还提供一种移动装置,包括:
整合案件文本和口供文本数据模块,用于获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据;
数据库模块,用于记录城市街道情况的信息;
处理器,适于执行程序指令;
存储装置,适于存储程序指令,所述程序指令适于有处理器加载并执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。
本发明又提供一种计算机可读存储设备,存储有计算机程序,其特征在于,所述计算机程序被处理器执行上述的基于CRF算法的公安案件及口供文本的命名提取方法。
本发明还提供一种基于CRF算法的公安案件及口供文本的命名提取系统,其特征在于,服务器;
服务器包括处理器和存储设备;
处理器,适于执行程序指令;
存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,包括:
获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;
将案件文本及案件口供对应整合形成的文本数据进行实体词标注;
进行词性标注,根据标注提取特征以建立基本特征模板,具体包括:
采用jieba分词法对语料进行分词,采用jieba.posseg进行词性标注;
根据分词及词性标注,利用BIEOS标注模型对每个分词进行标注以获取其对应的标签,其中标签中B表示词部位首部,I表示词部位内部,E表示词部位尾部,O表示无关词,S表示单体词;
对语料进行特征提取以建立基本特征模板,其中特征包括词性特征、实体词特征及标签;
将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;
建立公安监控范围内城市街道情况的信息数据表;
通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。
2.根据权利要求1所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述建立基本特征模板是以U-gram为基础的自定义特征模板包括:
建立自定义特征模板:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,1]
U06:%x[-1,1]
U07:%x[0,1]
U08:%x[1,1]
U09:%x[2,1]
U10:%x[-2,0]/%x[-1,0]/%x[0,0]
U11:%x[-1,0]/%x[0,0]/%x[1,0]
U12:%x[0,0]/%x[1,0]/%x[2,0]
U13:%x[-2,0]/%x[-1,1]
U14:%x[0,0]/%x[1,0]
U15:%x[-1,0]/%x[0,0]
U16:%x[1,1]/%x[2,1]
U17:%x[-1,1]/%x[0,1]
U18:%x[0,1]/%x[1,1]
其中,U00至U09分别表示各自位置的特征分词;U10至U18则表示由特征分词组成的语料;
将词性特征、实体词特征及标签代入自定义特征模板分配特征分词的位置及语料组成。
3.根据权利要求1所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述实体词包括案发场所地点、损失物品、涉案工具、涉案手段;所述词性包括名词、动词、形容词、代词、介词。
4.根据权利要求3所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,还包括在输入CRF算法模型进行训练进行预处理,具体为:
利用公安系统数据,分别构建案发场所地点数据表、损失物品种类数据表及涉案工具数据表;
将公安案件文本及案件口供的语料转化成CRF算法模型的输入格式,其中每一条语料格式表示为<词,词性特征,损失物品特征,涉案工具特征,地点特征,标签>;
遍历语料中的每一个词,若损失物品特征、涉案工具特征、地点特征出现在其对应的数据表中则标记为1,若未出现则标记为0。
5.根据权利要求1-4任一项所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述城市街道情况的信息包括城市街道地址信息及其对应的房屋、单位、场所、人员信息。
6.一种移动装置,其特征在于,包括:
整合案件文本和口供文本数据模块,用于获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据;
数据库模块,用于记录城市街道情况的信息;
处理器,适于执行程序指令;
存储装置,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现权利要求1-5任意一项所述的基于CRF算法的公安案件及口供文本的命名提取方法。
7.一种计算机可读存储设备,存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现权利要求1-5任意一项所述的基于CRF算法的公安案件及口供文本的命名提取方法。
8.一种基于CRF算法的公安案件及口供文本的命名提取系统,其特征在于,服务器;
服务器包括处理器和存储设备;
处理器,适于执行程序指令;
存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现权利要求1至5任意一项所述的基于CRF算法的公安案件及口供文本的命名提取方法。
CN201910593309.9A 2019-07-03 2019-07-03 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置 Active CN110489739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910593309.9A CN110489739B (zh) 2019-07-03 2019-07-03 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910593309.9A CN110489739B (zh) 2019-07-03 2019-07-03 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置

Publications (2)

Publication Number Publication Date
CN110489739A CN110489739A (zh) 2019-11-22
CN110489739B true CN110489739B (zh) 2023-06-20

Family

ID=68546041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910593309.9A Active CN110489739B (zh) 2019-07-03 2019-07-03 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置

Country Status (1)

Country Link
CN (1) CN110489739B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925919A (zh) * 2021-03-03 2021-06-08 曲阜师范大学 一种知识图谱驱动的个性化作业布置方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US20120330971A1 (en) * 2011-06-26 2012-12-27 Itemize Llc Itemized receipt extraction using machine learning
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
CN109190110B (zh) * 2018-08-02 2023-08-22 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置

Also Published As

Publication number Publication date
CN110489739A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
CN112035653B (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109582861B (zh) 一种数据隐私信息检测系统
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
WO2021208696A1 (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN107357765B (zh) Word文档碎片化方法及装置
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN110489739B (zh) 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN107577674B (zh) 识别企业名称的方法及装置
CN114331316A (zh) 基于ai和rpa的订单信息录入方法、装置、设备和介质
CN117332761A (zh) 一种pdf文档智能识别标注系统
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN113240562A (zh) 一种基于nlp的产学研项目推荐匹配方法与系统
CN102207947B (zh) 一种直接引语素材库的生成方法
CN114936271A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant