CN109886270A - 一种面向电子卷宗笔录文本的案件要素识别方法 - Google Patents
一种面向电子卷宗笔录文本的案件要素识别方法 Download PDFInfo
- Publication number
- CN109886270A CN109886270A CN201910043617.4A CN201910043617A CN109886270A CN 109886270 A CN109886270 A CN 109886270A CN 201910043617 A CN201910043617 A CN 201910043617A CN 109886270 A CN109886270 A CN 109886270A
- Authority
- CN
- China
- Prior art keywords
- speech
- sub
- phrase
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及自然语言处理技术领域,一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:(1)电子卷宗数据预处理,(2)结合自定义词典进行分词和词性标注,(3)识别时间、物品、重量、金额四类案件要素,(4)识别人物、地点、机构三类案件要素。本发明方法充分考虑了不同案件要素的特点,有针对性地采取不同的处理方法,对于电子卷宗笔录这种特殊的文本,能在缺少人工标注数据的情况下,准确地对重要案件要素进行识别和标注,可以使用本发明的案件要素识别结果迭代产生高质量的标注数据,从而训练更加可靠的案件要素识别模型。
Description
技术领域
本发明涉及一种面向电子卷宗笔录文本的案件要素识别方法,属于自然语言处理技术领域。
背景技术
电子卷宗以电子文档的形式记录和保存案件办理过程中产生的所有卷宗,电子卷宗以其卷宗保密性强、统计分析方便、信息共享率高等特点,在我国司法系统中得到深入而广泛的应用。随着我国“智慧司法”信息化建设的不断推进,电子卷宗系统逐步完善,相应的电子卷宗数据也急剧增加。检察机关的办案人员需要审阅大量的电子卷宗,对电子卷宗数据的处理方式仍然是人工分析处理的方式,方法和手段极度落后,特别是在数据量激增的情况下,该方式已经无法满足现代检察工作的要求。显然,从电子卷宗数据中分析出办案人员所关注的时间、物品、重量、金额、人物、地点、机构这些案件要素,能够为笔录差异性分析、证据体系完整性分析等业务工作提供重要的支持信息,可以辅助办案人员快速阅卷和厘清案情,能进一步促进和提升基层检察院司法工作的效率与信息化应用水平。这使得面向电子卷宗笔录文本的案件要素识别成为电子卷宗智能处理和分析中一项重要的核心技术。
本发明中的案件要素不同于司法术语中的案件要素,指在电子卷宗笔录文本中出现的时间、物品、重量、金额、人物、地点、机构类的语义要素。案件要素识别可以为电子卷宗智能分析的上层应用提供支撑。对于时间、物品、重量、金额可以使用词典结合规则的方法进行识别,对于人物、地点、机构可以使用命名实体识别的方法进行识别。但目前的命名实体识别多是面向科技文档、新闻报道等规范化的文本,而电子卷宗笔录文本具有语言表达口语化、语法不规范、语句形式多样等特点,因此现有的命名实体识别方法不能直接应用于案件要素识别。现有的命名实体识别方法需要大量人工标注的数据训练模型,人工标注数据是一项极为费事费力的工作,而电子卷宗的智能分析处理尚处于起步阶段,没有相关的人工标注的标准数据集。目前,还没有针对电子卷宗笔录文本的命名实体识别方法,即没有案件要素识别方法。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种面向电子卷宗笔录文本的案件要素识别方法。该识别方法能够准确高效地识别出电子卷宗笔录文本中重要的语义信息,并极大摆脱了缺少人工标注数据的限制,可以识别的案件要素包括时间、物品、重量、金额、人物、地点、机构等。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:
步骤1、电子卷宗数据预处理:电子卷宗的数据格式为PDF,经预处理将其转为纯文本格式,并从中筛选出笔录文本,再对笔录文本进行数据清洗,具体包括以下子步骤:
子步骤(a)、电子卷宗数据OCR识别,使用OCR识别软件对电子卷宗数据进行识别,将其由PDF格式转为TXT纯文本格式;
子步骤(b)、筛选笔录文本,电子卷宗中包含笔录文本和其他文本,笔录文本的特征在于文本内容是若干个问答对,问句开头包括“问”,答句开头包括“答”,通过判断一个文档是否同时含有“问”、“答”两个字符串,确定该文档是否属于笔录文本,以此将笔录文本筛选出来;
子步骤(c)、对笔录文本数据进行清洗,通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符;
步骤2、结合自定义词典进行分词和词性标注:通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注,得到词序列和对应的词性序列集合,具体包括以下子步骤:
子步骤(a)、自定义词典,包括物品名称词典、货币单位词典、重量单位词典,词典的格式为“词-空格符-词性”集合;
子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器,对笔录文本进行分词和词性标注,将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m;
子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里,保存格式为“词-,-词性”;
步骤3、识别时间、物品、重量、金额四类案件要素:这四类案件要素具有明显的语法结构特征,使用词典结合规则的方法对其进行识别,具体包括以下子步骤:
子步骤(a)、识别时间,时间由一个或多个时间短语组成,其时间短语的词性为nt,对步骤2中得到的分词和词性列表进行遍历,将连续且相邻的一个或多个时间短语识别为时间;
子步骤(b)、识别物品,物品由一个或多个物品名称短语组成,其物品名称短语的词性为nth,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个物品名称短语识别为物品;
子步骤(c)、识别重量,重量由一个或多个数字短语和重量单位短语所组成,其中数字短语的词性为m,重量单位短语的词性为nw,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和重量单位短语识别为重量;
子步骤(d)、识别金额,金额由一个或多个数字短语和货币单位短语所组成,其中数字短语的词性为为m,货币单位短语的词性为nc,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和货币单位短语识别为金额;
步骤4、识别人物、地点、机构三类案件要素:这三类案件要素是通用领域命名实体识别模型的主要识别对象,将模型直接用在电子卷宗数据上准确率会有明显降低,运用通用领域模型进行初步识别,然后经人工校对构造数据集,再利用数据集训练新的针对笔录文本的案件要素识别模型,对这三类案件要素进行最终识别,具体包括以下子步骤:
子步骤(a)、构造训练数据集,使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素,选择识别准确率最高的模型对三类案件要素进行初步识别,人工校对识别结果,根据初步识别结果构造训练数据集;
子步骤(b)、建立基于神经网络的案件要素识别模型,采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF,初始化模型的权值和阈值参数,采用梯度下降算法优化模型;
子步骤(c)、训练基于神经网络的案件要素识别模型,采用训练数据训练神经网络模型,以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据,输入神经网络系统,构建神经网络模型;然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据,输入神经网络系统,计算模型的正确率;模型的权值参数由模型自学习得到,通过人工调节确定使得模型具有最高正确率的阈值参数;
子步骤(d)、利用新的针对笔录文本的命名实体识别模型,对人物、地点、机构三类案件要素进行最终识别。
本发明有益效果是:一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:(1)电子卷宗数据预处理,(2)结合自定义词典进行分词和词性标注,(3)识别时间、物品、重量、金额四类案件要素,(4)识别人物、地点、机构三类案件要素。与已有技术相比,本发明方法充分考虑了不同案件要素的特点,有针对性地采取不同的处理方法,对于电子卷宗笔录这种特殊的文本,能在缺少人工标注数据的情况下,准确地对重要案件要素进行识别和标注,可以使用本发明的案件要素识别结果迭代产生高质量的标注数据,从而训练更加可靠的案件要素识别模型。
附图说明
图1是本发明方法步骤流程图。
图2是本发明基于神经网络的案件要素识别模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种面向电子卷宗笔录文本的案件要素识别方法,包括以下步骤:
步骤1、电子卷宗数据预处理:电子卷宗的数据格式为PDF,经预处理将其转为纯文本格式,并从中筛选出笔录文本,再对笔录文本进行数据清洗,具体包括以下子步骤:
子步骤(a)、电子卷宗数据OCR识别,使用OCR(光学字符识别)识别软件对电子卷宗数据进行识别,将其由PDF格式转为TXT纯文本格式;
子步骤(b)、筛选笔录文本,电子卷宗中包含笔录文本和其他文本,笔录文本的特征在于文本内容是若干个问答对,问句开头包括“问”,答句开头包括“答”,通过判断一个文档是否同时含有“问”、“答”两个字符串,确定该文档是否属于笔录文本,以此将笔录文本筛选出来;
子步骤(c)、对笔录文本数据进行清洗,通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符,并对标点符号进行统一的全半角替换;
步骤2、结合自定义词典进行分词和词性标注:通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注,得到词序列和对应的词性序列集合,具体包括以下子步骤:
子步骤(a)、自定义词典,包括物品名称词典、货币单位词典、重量单位词典,词典的格式为“词-空格符-词性”集合;其中物品词典可根据电子卷宗具体所属案件类型确定,例如对于涉毒类案件,物品名称为毒品名称,可选择地,根据《国家非法药物折算表》制作。可选择地,货币单位词典根据《世界国家货币名称一览表》制作。可选择地,货币单位词典根据《计量单位表》制作。
子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器,对笔录文本进行分词和词性标注,将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m;可选地,分词器为jieba分词、ansj分词或ltp分词;
子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里,保存格式为“词-,-词性”;
步骤3、识别时间、物品、重量、金额四类案件要素:这四类案件要素具有明显的语法结构特征,使用词典结合规则的方法对其进行识别,具体包括以下子步骤:
子步骤(a)、识别时间,时间由一个或多个时间短语组成,其时间短语的词性为nt,对步骤2中得到的分词和词性列表进行遍历,将连续且相邻的一个或多个时间短语识别为时间;例如“2017年”,“6月”,“23日”是三个连续且相邻的时间短语,三个短语的词性都是nt,它们被识别为一个时间案件要素;
子步骤(b)、识别物品,物品由一个或多个物品名称短语组成,其物品名称短语的词性为nth,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个物品名称短语识别为物品;例如“冰毒”是一个物品短语,它的词性都是nth,与它相邻的词的词性均不是nth,所以“冰毒”这个词被识别为一个物品案件要素;
子步骤(c)、识别重量,重量由一个或多个数字短语和重量单位短语所组成,其中数字短语的词性为m,重量单位短语的词性为nw,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和重量单位短语识别为重量;例如“0.5”的词性是m,“克”的词性是mw,这两个词是相邻的,与“0.5”这个词相邻的词没有词性是m的,所以“0.5”和“克”被识别为一个重量案件要素;
子步骤(d)、识别金额,金额由一个或多个数字短语和货币单位短语所组成,其中数字短语的词性为为m,货币单位短语的词性为nc,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和货币单位短语识别为金额;例如“200”的词性是m,“元”的词性是mc,这两个词是相邻的,与“200”这个词相邻的词没有词性是m的,所以“200”和“元”被识别为一个金额案件要素;
步骤4、识别人物、地点、机构三类案件要素:这三类案件要素是通用领域命名实体识别模型的主要识别对象,将模型直接用在电子卷宗数据上准确率会有明显降低,运用通用领域模型进行初步识别,然后经人工校对构造数据集,再利用数据集训练新的针对笔录文本的案件要素识别模型,对这三类案件要素进行最终识别,具体包括以下子步骤:
子步骤(a)、构造训练数据集,使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素,选择识别准确率最高的模型对三类案件要素进行初步识别,人工校对识别结果,根据初步识别结果构造训练数据集;
子步骤(b)、建立基于神经网络的案件要素识别模型,采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF,模型结构如图2所示,初始化模型的权值和阈值参数,采用梯度下降算法优化模型;
子步骤(c)、训练基于神经网络的案件要素识别模型,采用训练数据训练神经网络模型,以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据,输入神经网络系统,构建神经网络模型;然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据,输入神经网络系统,计算模型的正确率;模型的权值参数由模型自学习得到,通过人工调节确定使得模型具有最高正确率的阈值参数;
子步骤(d)、利用新的针对笔录文本的命名实体识别模型,对人物、地点、机构三类案件要素进行最终识别。
Claims (1)
1.一种面向电子卷宗笔录文本的案件要素识别方法,其特征在于包括以下步骤:
步骤1、电子卷宗数据预处理:电子卷宗的数据格式为PDF,经预处理将其转为纯文本格式,并从中筛选出笔录文本,再对笔录文本进行数据清洗,具体包括以下子步骤:
子步骤(a)、电子卷宗数据OCR识别,使用OCR识别软件对电子卷宗数据进行识别,将其由PDF格式转为TXT纯文本格式;
子步骤(b)、筛选笔录文本,电子卷宗中包含笔录文本和其他文本,笔录文本的特征在于文本内容是若干个问答对,问句开头包括“问”,答句开头包括“答”,通过判断一个文档是否同时含有“问”、“答”两个字符串,确定该文档是否属于笔录文本,以此将笔录文本筛选出来;
子步骤(c)、对笔录文本数据进行清洗,通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符;
步骤2、结合自定义词典进行分词和词性标注:通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注,得到词序列和对应的词性序列集合,具体包括以下子步骤:
子步骤(a)、自定义词典,包括物品名称词典、货币单位词典、重量单位词典,词典的格式为“词-空格符-词性”集合;
子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器,对笔录文本进行分词和词性标注,将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m;
子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里,保存格式为“词-,-词性”;
步骤3、识别时间、物品、重量、金额四类案件要素:这四类案件要素具有明显的语法结构特征,使用词典结合规则的方法对其进行识别,具体包括以下子步骤:
子步骤(a)、识别时间,时间由一个或多个时间短语组成,其时间短语的词性为nt,对步骤2中得到的分词和词性列表进行遍历,将连续且相邻的一个或多个时间短语识别为时间;
子步骤(b)、识别物品,物品由一个或多个物品名称短语组成,其物品名称短语的词性为nth,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个物品名称短语识别为物品;
子步骤(c)、识别重量,重量由一个或多个数字短语和重量单位短语所组成,其中数字短语的词性为m,重量单位短语的词性为nw,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和重量单位短语识别为重量;
子步骤(d)、识别金额,金额由一个或多个数字短语和货币单位短语所组成,其中数字短语的词性为为m,货币单位短语的词性为nc,对步骤2中的词和词性列表进行遍历,将连续且相邻的一个或多个数字短语和货币单位短语识别为金额;
步骤4、识别人物、地点、机构三类案件要素:这三类案件要素是通用领域命名实体识别模型的主要识别对象,将模型直接用在电子卷宗数据上准确率会有明显降低,运用通用领域模型进行初步识别,然后经人工校对构造数据集,再利用数据集训练新的针对笔录文本的案件要素识别模型,对这三类案件要素进行最终识别,具体包括以下子步骤:
子步骤(a)、构造训练数据集,使用多个公开的通用领域命名实体识别模型分别识别这三类案件要素,选择识别准确率最高的模型对三类案件要素进行初步识别,人工校对识别结果,根据初步识别结果构造训练数据集;
子步骤(b)、建立基于神经网络的案件要素识别模型,采用双向长短期记忆神经网络结合条件随机场的神经网络模型BiLSTM+CRF,初始化模型的权值和阈值参数,采用梯度下降算法优化模型;
子步骤(c)、训练基于神经网络的案件要素识别模型,采用训练数据训练神经网络模型,以步骤4子步骤(a)中产生的训练数据集中的前4/5的数据作为训练数据,输入神经网络系统,构建神经网络模型;然后以步骤4子步骤(a)中产生的训练数据集中的后1/5的数据作为测试数据,输入神经网络系统,计算模型的正确率;模型的权值参数由模型自学习得到,通过人工调节确定使得模型具有最高正确率的阈值参数;
子步骤(d)、利用新的针对笔录文本的命名实体识别模型,对人物、地点、机构三类案件要素进行最终识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043617.4A CN109886270B (zh) | 2019-01-17 | 2019-01-17 | 一种面向电子卷宗笔录文本的案件要素识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043617.4A CN109886270B (zh) | 2019-01-17 | 2019-01-17 | 一种面向电子卷宗笔录文本的案件要素识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109886270A true CN109886270A (zh) | 2019-06-14 |
CN109886270B CN109886270B (zh) | 2022-03-01 |
Family
ID=66926153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910043617.4A Active CN109886270B (zh) | 2019-01-17 | 2019-01-17 | 一种面向电子卷宗笔录文本的案件要素识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109886270B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489524A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 涉刑案件数据智能审查方法及装置 |
CN110516203A (zh) * | 2019-08-28 | 2019-11-29 | 北京市律典通科技有限公司 | 争议焦点分析方法、装置、电子设备及计算机可存储介质 |
CN110825872A (zh) * | 2019-09-11 | 2020-02-21 | 成都数之联科技有限公司 | 一种提取和分类诉讼请求信息的方法及系统 |
CN111178172A (zh) * | 2019-12-13 | 2020-05-19 | 北京工业大学 | 实验鼠嗅探动作识别方法、模块及系统 |
CN111177401A (zh) * | 2019-12-12 | 2020-05-19 | 西安交通大学 | 一种电网自由文本知识抽取方法 |
CN111460258A (zh) * | 2020-03-30 | 2020-07-28 | 上海交通大学 | 司法鉴定信息提取方法、系统、设备及存储介质 |
CN111459973A (zh) * | 2020-06-16 | 2020-07-28 | 四川大学 | 一种基于案情三元组信息的类案检索方法及系统 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN112434531A (zh) * | 2020-10-27 | 2021-03-02 | 西安交通大学 | 一种有格式法律文书的命名实体和属性识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091081A1 (en) * | 2003-10-23 | 2005-04-28 | Soo Jun Park | Apparatus and method for recognizing biological named entity from biological literature based on UMLS |
US20070230787A1 (en) * | 2006-04-03 | 2007-10-04 | Oce-Technologies B.V. | Method for automated processing of hard copy text documents |
CN106326408A (zh) * | 2016-08-23 | 2017-01-11 | 王志强 | 一种通过检索和分析生成笔录的方法、系统和终端 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN207037546U (zh) * | 2017-08-01 | 2018-02-23 | 南京数哲维信息科技有限公司 | 一种法院电子卷宗生成自助终端 |
CN108846257A (zh) * | 2018-05-09 | 2018-11-20 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
-
2019
- 2019-01-17 CN CN201910043617.4A patent/CN109886270B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091081A1 (en) * | 2003-10-23 | 2005-04-28 | Soo Jun Park | Apparatus and method for recognizing biological named entity from biological literature based on UMLS |
US20070230787A1 (en) * | 2006-04-03 | 2007-10-04 | Oce-Technologies B.V. | Method for automated processing of hard copy text documents |
CN106326408A (zh) * | 2016-08-23 | 2017-01-11 | 王志强 | 一种通过检索和分析生成笔录的方法、系统和终端 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN207037546U (zh) * | 2017-08-01 | 2018-02-23 | 南京数哲维信息科技有限公司 | 一种法院电子卷宗生成自助终端 |
CN108846257A (zh) * | 2018-05-09 | 2018-11-20 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
Non-Patent Citations (2)
Title |
---|
CHRISTOPHER DOZIER ETAL.: "Named Entity Recognition and Resolution in Legal Text", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/220745968》 * |
林志宏等: "基于卷积神经网络的公安案件文本语义特征提取方法研究", 《数学的实践与认识》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489524A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 涉刑案件数据智能审查方法及装置 |
CN110516203A (zh) * | 2019-08-28 | 2019-11-29 | 北京市律典通科技有限公司 | 争议焦点分析方法、装置、电子设备及计算机可存储介质 |
CN110825872A (zh) * | 2019-09-11 | 2020-02-21 | 成都数之联科技有限公司 | 一种提取和分类诉讼请求信息的方法及系统 |
CN111177401A (zh) * | 2019-12-12 | 2020-05-19 | 西安交通大学 | 一种电网自由文本知识抽取方法 |
CN111178172A (zh) * | 2019-12-13 | 2020-05-19 | 北京工业大学 | 实验鼠嗅探动作识别方法、模块及系统 |
CN111460258A (zh) * | 2020-03-30 | 2020-07-28 | 上海交通大学 | 司法鉴定信息提取方法、系统、设备及存储介质 |
CN111460258B (zh) * | 2020-03-30 | 2023-08-29 | 上海交通大学 | 司法鉴定信息提取方法、系统、设备及存储介质 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN111459973A (zh) * | 2020-06-16 | 2020-07-28 | 四川大学 | 一种基于案情三元组信息的类案检索方法及系统 |
CN112434531A (zh) * | 2020-10-27 | 2021-03-02 | 西安交通大学 | 一种有格式法律文书的命名实体和属性识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109886270B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886270A (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN112417880B (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
WO2019214145A1 (zh) | 文本情绪分析方法、装置及存储介质 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN108319666A (zh) | 一种基于多模态舆情分析的供电服务评估方法 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN110807328A (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN108595643A (zh) | 基于多分类节点卷积循环网络的文本特征提取及分类方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN106096664A (zh) | 一种基于社交网络数据的情感分析方法 | |
CN108664474A (zh) | 一种基于深度学习的简历解析方法 | |
CN111222338A (zh) | 基于预训练模型和自注意力机制的生物医学关系抽取方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN109086340A (zh) | 基于语义特征的评价对象识别方法 | |
CN112417132B (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类系统及方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN110119443A (zh) | 一种面向推荐服务的情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |