CN109886270B - 一种面向电子卷宗笔录文本的案件要素识别方法 - Google Patents

一种面向电子卷宗笔录文本的案件要素识别方法 Download PDF

Info

Publication number
CN109886270B
CN109886270B CN201910043617.4A CN201910043617A CN109886270B CN 109886270 B CN109886270 B CN 109886270B CN 201910043617 A CN201910043617 A CN 201910043617A CN 109886270 B CN109886270 B CN 109886270B
Authority
CN
China
Prior art keywords
speech
identifying
model
phrases
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910043617.4A
Other languages
English (en)
Other versions
CN109886270A (zh
Inventor
孙媛媛
刘海顺
李春楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910043617.4A priority Critical patent/CN109886270B/zh
Publication of CN109886270A publication Critical patent/CN109886270A/zh
Application granted granted Critical
Publication of CN109886270B publication Critical patent/CN109886270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明涉及自然语言处理技术领域,一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:(1)电子卷宗数据预处理,(2)结合自定义词典进行分词和词性标注,(3)识别时间、物品、重量、金额四类案件要素,(4)识别人物、地点、机构三类案件要素。本发明方法充分考虑了不同案件要素的特点,有针对性地采取不同的处理方法,对于电子卷宗笔录这种特殊的文本,能在缺少人工标注数据的情况下,准确地对重要案件要素进行识别和标注,可以使用本发明的案件要素识别结果迭代产生高质量的标注数据,从而训练更加可靠的案件要素识别模型。

Description

一种面向电子卷宗笔录文本的案件要素识别方法
技术领域
本发明涉及一种面向电子卷宗笔录文本的案件要素识别方法,属于自然语言处理技术领域。
背景技术
电子卷宗以电子文档的形式记录和保存案件办理过程中产生的所有卷宗,电子卷宗以其卷宗保密性强、统计分析方便、信息共享率高等特点,在我国司法系统中得到深入而广泛的应用。随着我国“智慧司法”信息化建设的不断推进,电子卷宗系统逐步完善,相应的电子卷宗数据也急剧增加。检察机关的办案人员需要审阅大量的电子卷宗,对电子卷宗数据的处理方式仍然是人工分析处理的方式,方法和手段极度落后,特别是在数据量激增的情况下,该方式已经无法满足现代检察工作的要求。显然,从电子卷宗数据中分析出办案人员所关注的时间、物品、重量、金额、人物、地点、机构这些案件要素,能够为笔录差异性分析、证据体系完整性分析等业务工作提供重要的支持信息,可以辅助办案人员快速阅卷和厘清案情,能进一步促进和提升基层检察院司法工作的效率与信息化应用水平。这使得面向电子卷宗笔录文本的案件要素识别成为电子卷宗智能处理和分析中一项重要的核心技术。
本发明中的案件要素不同于司法术语中的案件要素,指在电子卷宗笔录文本中出现的时间、物品、重量、金额、人物、地点、机构类的语义要素。案件要素识别可以为电子卷宗智能分析的上层应用提供支撑。对于时间、物品、重量、金额可以使用词典结合规则的方法进行识别,对于人物、地点、机构可以使用命名实体识别的方法进行识别。但目前的命名实体识别多是面向科技文档、新闻报道等规范化的文本,而电子卷宗笔录文本具有语言表达口语化、语法不规范、语句形式多样等特点,因此现有的命名实体识别方法不能直接应用于案件要素识别。现有的命名实体识别方法需要大量人工标注的数据训练模型,人工标注数据是一项极为费事费力的工作,而电子卷宗的智能分析处理尚处于起步阶段,没有相关的人工标注的标准数据集。目前,还没有针对电子卷宗笔录文本的命名实体识别方法,即没有案件要素识别方法。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种面向电子卷宗笔录文本的案件要素识别方法。该识别方法能够准确高效地识别出电子卷宗笔录文本中重要的语义信息,并极大摆脱了缺少人工标注数据的限制,可以识别的案件要素包括时间、物品、重量、金额、人物、地点、机构等。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:
步骤1、电子卷宗数据预处理:电子卷宗的数据格式为PDF,经预处理将其转为纯文本格式,并从中筛选出笔录文本,再对笔录文本进行数据清洗,具体包括以下子步骤:
子步骤(a)、电子卷宗数据OCR识别,使用OCR识别软件对电子卷宗数据进行识别,将其由PDF格式转为TXT纯文本格式;
子步骤(b)、筛选笔录文本,电子卷宗中包含笔录文本和其他文本,笔录文本的特征在于文本内容是若干个问答对,问句开头包括“问”,答句开头包括“答”,通过判断一个文档是否同时含有“问”、“答”两个字符串,确定该文档是否属于笔录文本,以此将笔录文本筛选出来;
子步骤(c)、对笔录文本数据进行清洗,通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符;
步骤2、结合自定义词典进行分词和词性标注:通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注,得到词序列和对应的词性序列集合,具体包括以下子步骤:
子步骤(a)、自定义词典,包括物品名称词典、货币单位词典、重量单位词典,词典的格式为“词-空格符-词性”集合;
子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器,对笔录文本进行分词和词性标注,将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m;
子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里,保存格式为“词-,-词性”;
步骤3、识别时间、物品、重量、金额四类案件要素:这四类案件要素具有明显的语法结构特征,使用词典结合规则的方法对其进行识别,具体包括以下子步骤:
子步骤(a)、识别时间,时间由一个或多个时间短语组成,其时间短语的词性为nt,对步骤2中得到的分词和词性列表进行遍历,将连续且相邻的一个或多个时间短语识别为时间;
子步骤(b)、识别物品,物品由一个或多个物品名称短语组成,其物品名称短语的词性为nth,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个物品名称短语识别为物品;
子步骤(c)、识别重量,重量由一个或多个数字短语和重量单位短语所组成,其中数字短语的词性为m,重量单位短语的词性为nw,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和重量单位短语识别为重量;
子步骤(d)、识别金额,金额由一个或多个数字短语和货币单位短语所组成,其中数字短语的词性为为m,货币单位短语的词性为nc,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和货币单位短语识别为金额;
步骤4、识别人物、地点、机构三类案件要素:这三类案件要素是通用领域命名实体识别模型的主要识别对象,将模型直接用在电子卷宗数据上准确率会有明显降低,运用通用领域模型进行初步识别,然后经人工校对构造数据集,再利用数据集训练新的针对笔录文本的案件要素识别模型,对这三类案件要素进行最终识别,具体包括以下子步骤:
子步骤(a)、构造训练数据集,使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素,选择识别准确率最高的模型对三类案件要素进行初步识别,人工校对识别结果,根据初步识别结果构造训练数据集;
子步骤(b)、建立基于神经网络的案件要素识别模型,采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF,初始化模型的权值和阈值参数,采用梯度下降算法优化模型;
子步骤(c)、训练基于神经网络的案件要素识别模型,采用训练数据训练神经网络模型,以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据,输入神经网络系统,构建神经网络模型;然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据,输入神经网络系统,计算模型的正确率;模型的权值参数由模型自学习得到,通过人工调节确定使得模型具有最高正确率的阈值参数;
子步骤(d)、利用新的针对笔录文本的命名实体识别模型,对人物、地点、机构三类案件要素进行最终识别。
本发明有益效果是:一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:(1)电子卷宗数据预处理,(2)结合自定义词典进行分词和词性标注,(3)识别时间、物品、重量、金额四类案件要素,(4)识别人物、地点、机构三类案件要素。与已有技术相比,本发明方法充分考虑了不同案件要素的特点,有针对性地采取不同的处理方法,对于电子卷宗笔录这种特殊的文本,能在缺少人工标注数据的情况下,准确地对重要案件要素进行识别和标注,可以使用本发明的案件要素识别结果迭代产生高质量的标注数据,从而训练更加可靠的案件要素识别模型。
附图说明
图1是本发明方法步骤流程图。
图2是本发明基于神经网络的案件要素识别模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:
步骤1、电子卷宗数据预处理:电子卷宗的数据格式为PDF,经预处理将其转为纯文本格式,并从中筛选出笔录文本,再对笔录文本进行数据清洗,具体包括以下子步骤:
子步骤(a)、电子卷宗数据OCR识别,使用OCR(光学字符识别)识别软件对电子卷宗数据进行识别,将其由PDF格式转为TXT纯文本格式;
子步骤(b)、筛选笔录文本,电子卷宗中包含笔录文本和其他文本,笔录文本的特征在于文本内容是若干个问答对,问句开头包括“问”,答句开头包括“答”,通过判断一个文档是否同时含有“问”、“答”两个字符串,确定该文档是否属于笔录文本,以此将笔录文本筛选出来;
子步骤(c)、对笔录文本数据进行清洗,通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符,并对标点符号进行统一的全半角替换;
步骤2、结合自定义词典进行分词和词性标注:通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注,得到词序列和对应的词性序列集合,具体包括以下子步骤:
子步骤(a)、自定义词典,包括物品名称词典、货币单位词典、重量单位词典,词典的格式为“词-空格符-词性”集合;其中物品词典可根据电子卷宗具体所属案件类型确定,例如对于涉毒类案件,物品名称为毒品名称,可选择地,根据《国家非法药物折算表》制作。可选择地,货币单位词典根据《世界国家货币名称一览表》制作。可选择地,货币单位词典根据《计量单位表》制作。
子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器,对笔录文本进行分词和词性标注,将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m;可选地,分词器为jieba分词、ansj分词或ltp分词;
子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里,保存格式为“词-,-词性”;
步骤3、识别时间、物品、重量、金额四类案件要素:这四类案件要素具有明显的语法结构特征,使用词典结合规则的方法对其进行识别,具体包括以下子步骤:
子步骤(a)、识别时间,时间由一个或多个时间短语组成,其时间短语的词性为nt,对步骤2中得到的分词和词性列表进行遍历,将连续且相邻的一个或多个时间短语识别为时间;例如“2017年”,“6月”,“23日”是三个连续且相邻的时间短语,三个短语的词性都是nt,它们被识别为一个时间案件要素;
子步骤(b)、识别物品,物品由一个或多个物品名称短语组成,其物品名称短语的词性为nth,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个物品名称短语识别为物品;例如“冰毒”是一个物品短语,它的词性都是nth,与它相邻的词的词性均不是nth,所以“冰毒”这个词被识别为一个物品案件要素;
子步骤(c)、识别重量,重量由一个或多个数字短语和重量单位短语所组成,其中数字短语的词性为m,重量单位短语的词性为nw,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和重量单位短语识别为重量;例如“0.5”的词性是m,“克”的词性是mw,这两个词是相邻的,与“0.5”这个词相邻的词没有词性是m的,所以“0.5”和“克”被识别为一个重量案件要素;
子步骤(d)、识别金额,金额由一个或多个数字短语和货币单位短语所组成,其中数字短语的词性为为m,货币单位短语的词性为nc,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和货币单位短语识别为金额;例如“200”的词性是m,“元”的词性是mc,这两个词是相邻的,与“200”这个词相邻的词没有词性是m的,所以“200”和“元”被识别为一个金额案件要素;
步骤4、识别人物、地点、机构三类案件要素:这三类案件要素是通用领域命名实体识别模型的主要识别对象,将模型直接用在电子卷宗数据上准确率会有明显降低,运用通用领域模型进行初步识别,然后经人工校对构造数据集,再利用数据集训练新的针对笔录文本的案件要素识别模型,对这三类案件要素进行最终识别,具体包括以下子步骤:
子步骤(a)、构造训练数据集,使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素,选择识别准确率最高的模型对三类案件要素进行初步识别,人工校对识别结果,根据初步识别结果构造训练数据集;
子步骤(b)、建立基于神经网络的案件要素识别模型,采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF,模型结构如图2所示,初始化模型的权值和阈值参数,采用梯度下降算法优化模型;
子步骤(c)、训练基于神经网络的案件要素识别模型,采用训练数据训练神经网络模型,以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据,输入神经网络系统,构建神经网络模型;然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据,输入神经网络系统,计算模型的正确率;模型的权值参数由模型自学习得到,通过人工调节确定使得模型具有最高正确率的阈值参数;
子步骤(d)、利用新的针对笔录文本的命名实体识别模型,对人物、地点、机构三类案件要素进行最终识别。

Claims (1)

1.一种面向电子卷宗笔录文本的案件要素识别方法,其特征在于包括以下步骤:
步骤1、电子卷宗数据预处理:电子卷宗的数据格式为PDF,经预处理将其转为纯文本格式,并从中筛选出笔录文本,再对笔录文本进行数据清洗,具体包括以下子步骤:
子步骤(a)、电子卷宗数据OCR识别,使用OCR识别软件对电子卷宗数据进行识别,将其由PDF格式转为TXT纯文本格式;
子步骤(b)、筛选笔录文本,电子卷宗中包含笔录文本和其他文本,笔录文本的特征在于文本内容是若干个问答对,问句开头包括“问”,答句开头包括“答”,通过判断一个文档是否同时含有“问”、“答”两个字符串,确定该文档是否属于笔录文本,以此将笔录文本筛选出来;
子步骤(c)、对笔录文本数据进行清洗,通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符;
步骤2、结合自定义词典进行分词和词性标注:通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注,得到词序列和对应的词性序列集合,具体包括以下子步骤:
子步骤(a)、自定义词典,包括物品名称词典、货币单位词典、重量单位词典,词典的格式为“词-空格符-词性”集合;
子步骤(b)、将步骤2子步骤(a)中的自定义的词典载入外部分词器,对笔录文本进行分词和词性标注,将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m;
子步骤(c)、将步骤2子步骤(b)中得到的分词和词性标注结果保存到列表里,保存格式为“词-,-词性”;
步骤3、识别时间、物品、重量、金额四类案件要素:这四类案件要素具有明显的语法结构特征,使用词典结合规则的方法对其进行识别,具体包括以下子步骤:
子步骤(a)、识别时间,时间由一个或多个时间短语组成,其时间短语的词性为nt,对步骤2中得到的分词和词性列表进行遍历,将连续且相邻的一个或多个时间短语识别为时间;
子步骤(b)、识别物品,物品由一个或多个物品名称短语组成,其物品名称短语的词性为nth,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个物品名称短语识别为物品;
子步骤(c)、识别重量,重量由一个或多个数字短语和重量单位短语所组成,其中数字短语的词性为m,重量单位短语的词性为nw,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和重量单位短语识别为重量;
子步骤(d)、识别金额,金额由一个或多个数字短语和货币单位短语所组成,其中数字短语的词性为m,货币单位短语的词性为nc,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和货币单位短语识别为金额;
步骤4、识别人物、地点、机构三类案件要素:这三类案件要素是通用领域命名实体识别模型的主要识别对象,将模型直接用在电子卷宗数据上准确率会有明显降低,运用通用领域模型进行初步识别,然后经人工校对构造数据集,再利用数据集训练新的针对笔录文本的案件要素识别模型,对这三类案件要素进行最终识别,具体包括以下子步骤:
子步骤(a)、构造训练数据集,使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素,选择识别准确率最高的模型对三类案件要素进行初步识别,人工校对识别结果,根据初步识别结果构造训练数据集;
子步骤(b)、建立基于神经网络的案件要素识别模型,采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF,初始化模型的权值和阈值参数,采用梯度下降算法优化模型;
子步骤(c)、训练基于神经网络的案件要素识别模型,采用训练数据训练神经网络模型,以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据,输入神经网络系统,构建神经网络模型;然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据,输入神经网络系统,计算模型的正确率;模型的权值参数由模型自学习得到,通过人工调节确定使得模型具有最高正确率的阈值参数;
子步骤(d)、利用新的针对笔录文本的命名实体识别模型,对人物、地点、机构三类案件要素进行最终识别。
CN201910043617.4A 2019-01-17 2019-01-17 一种面向电子卷宗笔录文本的案件要素识别方法 Active CN109886270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910043617.4A CN109886270B (zh) 2019-01-17 2019-01-17 一种面向电子卷宗笔录文本的案件要素识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910043617.4A CN109886270B (zh) 2019-01-17 2019-01-17 一种面向电子卷宗笔录文本的案件要素识别方法

Publications (2)

Publication Number Publication Date
CN109886270A CN109886270A (zh) 2019-06-14
CN109886270B true CN109886270B (zh) 2022-03-01

Family

ID=66926153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910043617.4A Active CN109886270B (zh) 2019-01-17 2019-01-17 一种面向电子卷宗笔录文本的案件要素识别方法

Country Status (1)

Country Link
CN (1) CN109886270B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489524A (zh) * 2019-08-05 2019-11-22 北京市律典通科技有限公司 涉刑案件数据智能审查方法及装置
CN110516203B (zh) * 2019-08-28 2023-08-04 北京市律典通科技有限公司 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN110825872B (zh) * 2019-09-11 2023-05-23 成都数之联科技股份有限公司 一种提取和分类诉讼请求信息的方法及系统
CN111177401A (zh) * 2019-12-12 2020-05-19 西安交通大学 一种电网自由文本知识抽取方法
CN111178172A (zh) * 2019-12-13 2020-05-19 北京工业大学 实验鼠嗅探动作识别方法、模块及系统
CN111460258B (zh) * 2020-03-30 2023-08-29 上海交通大学 司法鉴定信息提取方法、系统、设备及存储介质
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN111459973B (zh) * 2020-06-16 2020-10-23 四川大学 一种基于案情三元组信息的类案检索方法及系统
CN112434531A (zh) * 2020-10-27 2021-03-02 西安交通大学 一种有格式法律文书的命名实体和属性识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326408A (zh) * 2016-08-23 2017-01-11 王志强 一种通过检索和分析生成笔录的方法、系统和终端
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN207037546U (zh) * 2017-08-01 2018-02-23 南京数哲维信息科技有限公司 一种法院电子卷宗生成自助终端
CN108846257A (zh) * 2018-05-09 2018-11-20 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100501413B1 (ko) * 2003-10-23 2005-07-18 한국전자통신연구원 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법
EP1843276A1 (en) * 2006-04-03 2007-10-10 Océ-Technologies B.V. Method for automated processing of hard copy text documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326408A (zh) * 2016-08-23 2017-01-11 王志强 一种通过检索和分析生成笔录的方法、系统和终端
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN207037546U (zh) * 2017-08-01 2018-02-23 南京数哲维信息科技有限公司 一种法院电子卷宗生成自助终端
CN108846257A (zh) * 2018-05-09 2018-11-20 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Named Entity Recognition and Resolution in Legal Text;Christopher Dozier etal.;《https://www.researchgate.net/publication/220745968》;20140605;全文 *
林志宏等.基于卷积神经网络的公安案件文本语义特征提取方法研究.《数学的实践与认识》.2017,第47卷(第17期), *

Also Published As

Publication number Publication date
CN109886270A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
Chalkidis et al. Obligation and prohibition extraction using hierarchical RNNs
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110990525A (zh) 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115718792A (zh) 一种基于自然语义处理和深度学习的敏感信息提取方法
CN110688856B (zh) 一种裁判文书信息提取方法
CN111143571A (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN110188340B (zh) 一种研报文本实体名词自动识别方法
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、系统及存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant