CN114461779A - 一种案件笔录要素抽取方法 - Google Patents
一种案件笔录要素抽取方法 Download PDFInfo
- Publication number
- CN114461779A CN114461779A CN202111628616.XA CN202111628616A CN114461779A CN 114461779 A CN114461779 A CN 114461779A CN 202111628616 A CN202111628616 A CN 202111628616A CN 114461779 A CN114461779 A CN 114461779A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- training
- case
- element extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种案件笔录要素抽取方法,首先利用现有案件的人工笔录要素数据,构建序列标注数据集;对序列标注数据集内每条文本进行数据预处理后,用于对文本要素提取模型进行训练,获得用于对案件笔录要素提取的文本要素提取模型;最后在预测阶段,笔录文本预处理后输入已完成训练的文本要素提取模型,将文本数据进行序列标注后,对目标要素进行提取,完成案件笔录要素抽取。利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关,完成进行结果校验。该方法能够自动提取案件笔录文本中的要素,辅助用户实现智能化数据分析。
Description
技术领域
本发明属于计算机应用领域,具体涉及一种案件笔录要素抽取方法。
背景技术
案件笔录文本的要素提取目的是将笔录文本进行结构化,将笔录数据中被关注的要素进行抽取。目前,由于笔录文本数据结构复杂,信息量大,目前没有成熟的解决方案能够对笔录实现全文的自动要素提取分析,主流的算法是采用关键词库匹配、正则表达式、LSTM+CRF模型等方式针对一小段案件文本片段进行要素提取。
随着大规模自然语言处理模型的发展与落地,BERT等NLP模型已取代了传统的神经网络,实现了机器模型对文本数据的深层理解。上亿级别的模型参数量能够拟合人理解文本的过程,学习到文本内在的逻辑与表达。在要素提取任务上,BERT+CRF模型能获得最优的效果,以BERT模型产生的词向量能够精确地表征文本的含义,优于传统的词向量生成模式。
发明内容
发明目的:本发明的目的在于提供一种案件笔录要素抽取方法。
技术方案:本发明所述的一种案件笔录要素抽取方法,该方法包括步骤如下:
(1)利用现有案件的人工笔录要素数据,构建序列标注数据集;
(2)对序列标注数据集内每条文本进行数据预处理后,用于对文本要素提取模型进行训练,获得用于对案件笔录要素提取的文本要素提取模型;
(3)在预测阶段,笔录文本预处理后输入已完成训练的文本要素提取模型,将文本数据进行序列标注后,对目标要素进行提取,完成案件笔录要素抽取。
优选的,步骤(1)中获取现有案件每条笔录文本对应的待抽取要素,并标记每种要素的类型,将每条笔录文本与其对应的要素文本进行匹配,利用BIO 标注模式将笔录文本每一个字符打上对应的要素标签。
优选的,当笔录文本与其对应的要素文本进行匹配时,若存在若干要素文本与同一笔录文本匹配,则选取字符长度最长的要素文本与笔录文本完成匹配。
优选的,步骤(2)中文本要素提取模型包括Longformer模型,预处理后的序列标注数据集内的笔录文本输入随机参数初始化的Longformer模型中对模型进行预训练,用于使Longformer模型学习笔录文本数据内的语言逻辑。
优选的,预训后的Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层连接,形成用于判别每个位置要素类别的文本要素提取模型,将预处理后的要素标注数据输入文本要素提取模型对Longformer 模型参数进行微调,直至模型损失满足设定要求。
优选的,对序列标注数据集内每条文本进行Token编码处理,并对每一句文本进行截断和补零处理直至每一句文本的长度相同。
优选的,案件笔录文本包括若干问答文本结构,训练完成的文本要素提取模型对案件笔录要素进行抽取后,利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关,完成进行结果校验。
优选的,关联模型采用BERT预训练模型,所述的BERT预训练模型的训练步骤如下:
(a)针对数据集中的每篇笔录文本按照问和答的相关关键字进行分割,形成问题文本与回答文本集合,将每个回答文本中的要素文本进行抽取,判断对应的要素类型,形成要素类型集合,将要素类型与对应的问题文本组合拼接,形成标签为1的训练正样本;
(b)将每一个要素类型分别与两个随机问题文本配对拼接,去除其中的正样本,形成标签为0的训练负样本;
(c)将训练正样本与训练负样本随机乱序,输入BERT预训练模型中进行微调训练,训练过程中,将BERT预训练模型的输出叠加全连接网络,经过softmax 函数,输出标签为1或标签为0的分值,与真实的标签计算loss误差,利用梯度下降算法,更新模型权重,得到训练完成的BERT预训练模型。
优选的,训练完成的BERT预训练模型用于对文本要素提取模型的结果集进行校验,将抽取得到的各要素文本的要素类型与所在问句文本进行文本拼接,输入BERT预训练模型,若BERT预训练模型输出的匹配分值小于设定值,则在结果集中删除该要素文本。
进一步的,首先获取海量案件笔录文本,用于对LongFormer模型进行训练,案件笔录要素提取是一种序列标注任务,首先抽取每条现有笔录文本对应的地点、角色姓名、身份证号、住址、户籍地等待抽取要素,分别用英文字母标记每种要素的类型,例如将某一角色的姓名标记为“XYR_NAME”;再将笔录文本与要素文本进行匹配,用“BIO标注”的方式,将笔录文本每一个字符打上对应的要素标签,若有两个要素文本都与同一段笔录文本匹配重合,采用最长字符匹配策略,以字符长度较长的要素文本为准。
进一步的,Longformer模型预训练过程中,将笔录文本数据放入随机参数初始化的Longformer模型中,进行Mask LM和Next Sentence Prediction两类任务的训练,对模型进行预训练,目的是让Longformer模型学习到笔录数据的内在语言逻辑和表达。Longformer模型采用的注意力头个数为12、隐层神经元维度为768,注意力窗口尺寸为512,transformer层数为12,最大句子长度为4096 个字符;通过滑动窗口注意力机制结合全局空洞注意力机制,能够有效地对笔录类长文本进行整体模型训练,克服传统的预训练模型的长度限制,能够契合笔录文本的业务场景。
将要素标注数据输入文本要素提取模型对Longformer模型参数进行微调过程中,对之前Longformer模型预训练得到的参数进行fine-tune微调,模型以交叉熵作为损失函数,学习率随时间动态递减,利用反向梯度下降算法优化模型中的参数,所述的要素标注数据为完成要素标注的文本数据,而预训练过程中的文本数据为单纯的笔录文本。
文本要素提取模型中Longformer模型用于提取长文本序列的语义特征,将每一个token进行语义embedding处理;CRF模型用于将每一个字符的embedding 向量转化为对每一个序列标签类型的预测,softmax层用于将模型对标签的预测多分类结果以概率的形式展现出来。
训练好的文本要素提取模型在预测阶段,将待提取要素的案件笔录文本输入文本要素提取模型进行序列标注,将打上“B_”开头标签的字符以及后面连续的“I_”开头标签的字符进行抽取拼接,形成机器预测的笔录要素文本。
进一步的,针对案件笔录文本为一问一答的文本结构,考虑到问题文本与回答文本之间的关联性,利用问题文本与要素文本之间关联性,对文本要素提取模型的输出结果进行验证,利用训练好的BERT预训练模型对问题文本与要素文本之间关联性进行预测。
在训练BERT预训练模型时,问和答的相关关键字可以为“问:”和“答:”等;构建训练样本时,要素类型与问题文本配对拼接时中间以[SEP]标记作为分割,构建的训练正样本表示问题与要素类型匹配;构建的训练负样本表示问题与要素类型不匹配。
有益效果:本申请所述的技术方案中对文本要素提取模型进行两次训练,其中,第一次训练能够让文本要素提取模型学习到笔录文本数据的内在语言逻辑和表达,第二次微调能够让模型具有判别笔录文本中每一个位置要素类别的能力;训练完成的文本要素提取模型能够自动提取案件笔录文本中的要素,辅助用户实现智能化数据分析。
进一步的,采用要素类型与提问文本之间的关联性,对文本要素提取模型的结果进行验证,极大提高了案件笔录文本要素抽取的准确率。
附图说明
图1为本发明中案件笔录要素抽取方法的工作流程图;
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步详细说明。
一种案件笔录要素抽取方法,该种智能写作方法应用案件笔录文本要素提取业务中,如图1所示,具体步骤如下:
步骤1,从笔录数据库中抽取历史每条笔录文本对应的地点、角色姓名、身份证号、住址、户籍地等待抽取要素,分别用英文字母标记每种要素的类型,本实施例中,将某一角色的姓名标记为“XYR_NAME”。将每一条笔录数据的笔录文本与各要素文本进行匹配,用“BIO标注”的方式,将笔录文本每一个字符打上对应的要素标签。匹配过程中采取最长字符匹配策略,即若有两个要素文本都与同一段笔录文本匹配重合,以长的要素文本为准。
步骤2,利用Longformer模型配合CRF模型构建文本要素提取模型;首先基于原始获得的案件笔录文本数据,对每一条文本数据进行Token编码处理,并对每一句文本进行截断和补零处理,令每一句文本的长度相同;
利用预处理后的案件笔录文本数据,对随机参数初始化的Longformer模型进行Mask LM和Next Sentence Prediction两类任务的训练,完成对Longformer 模型的预训练,使Longformer模型学习到案件笔录数据的内在语言逻辑和表达。本实施例中,Longformer模型采用的注意力头个数为12、隐层神经元维度为768,注意力窗口尺寸为512,transformer层数为12,最大句子长度为4096个字符。
预训练后的Longformer模型的输出端连接一个CRF模型以及输出大小为所有要素类别数量的全链接softmax层形成待训练的文本要素提取模型,以判别文本中每一个位置的要素类别。将预处理后的要素标注数据输入待训练的文本要素提取模型,对Longformer模型的参数进行fine-tune微调,直至文本要素提取模型满足设定要求。本实施例中,文本要素提取模型以交叉熵作为损失函数,学习率随时间动态递减,利用反向梯度下降算法优化模型中的参数。
步骤3,利用BERT模型构造问题文本与要素文本关联性模型;由于案件笔录文本为一问一答的文本结构,问题文本与回答文本之间具有较强的关联性,因此根据问题文本能够判断对应回答文本中抽取的要素类型是否与问题文本强相关,进而完成文本要素提取模型的预测结果校验。
本实施例中,关联性模型训练的具体步骤如下:
步骤3.1,针对现有的的每篇笔录文本,按照关键字“问:”和“答:”将笔录文本进行分割,形成问题文本与回答文本集合;将每个回答文本中的要素文本进行抽取,判断对应的要素类型,形成要素类型集合,将要素类型与对应的问题文本组合拼接,中间以[SEP]标记作为分割,形成训练正样本,样本对应的标签为1,表示问题与要素类型匹配;
步骤3.2,将每一个要素类型分别与两个随机问题文本配对拼接,中间以[SEP] 标记作为分割,去除其中的正样本,形成训练负样本,样本对应的标签为0,表示问题与要素类型不匹配;
步骤3.3,将训练正样本与训练负样本随机乱序,输入BERT模型中进行微调训练,训练过程中,在BERT输出的[CLS]位之后叠加全连接网络,经过softmax 函数,输出标签为1和标签为0的分值,与真实的标签计算loss误差,利用梯度下降算法,更新模型权重,直至BERT模型收敛。
步骤4,完成训练的文本要素提取模型在预测阶段,将待进行要素提取的文本进行预处理,并将预处理后的笔录文本输入文本要素提取模型,对输入的文本进行序列标注,将打上“B_”开头标签的字符以及后面连续的“I_”开头标签的字符进行抽取拼接,形成机器预测的笔录要素文本。
将机器预测的笔录要素类型与所在问句文本进行文本拼接,中间以[SEP]标记作为分割,输入BERT模型,输出匹配分值,若分值小于0.6,则进行过滤;最终完成笔录文本的要素提取。
综上,该方法中分两个阶段对文本要素提取模型进行训练,既能够让 Longformer模型学习到文本数据的内在语言逻辑和表达,又能够对特定领域的文本数据进行针对性训练,使文本要素提取模型在指定领域的识别精准度极大升。进一步的,利用BERT模型通过问句文本与要素类型的二分类任务,对 Longformer的结果集进行校验,提高了要素抽取的准确率。该种案件笔录要素抽取方法能够快速、准确地对案件笔录文本数据进行要素抽取,综合准确率到达 90%以上,能够满足案件笔录类长文本的处理分析需求,辅助用户实现智能化数据分析。
Claims (9)
1.一种案件笔录要素抽取方法,其特征在于:该方法包括步骤如下:
(1)利用现有案件的人工笔录要素数据,构建序列标注数据集;
(2)对序列标注数据集内每条文本进行数据预处理后,用于对文本要素提取模型进行训练,获得用于对案件笔录要素提取的文本要素提取模型;
(3)在预测阶段,笔录文本预处理后输入已完成训练的文本要素提取模型,将文本数据进行序列标注后,对目标要素进行提取,完成案件笔录要素抽取。
2.根据权利要求1所述的一种案件笔录要素抽取方法,其特征在于:所述的步骤(1)中获取现有案件每条笔录文本对应的待抽取要素,并标记每种要素的类型,将每条笔录文本与其对应的要素文本进行匹配,利用BIO标注模式将笔录文本每一个字符打上对应的要素标签。
3.根据权利要求2所述的一种案件笔录要素抽取方法,其特征在于:当笔录文本与其对应的要素文本进行匹配时,若存在若干要素文本与同一笔录文本匹配,则选取字符长度最长的要素文本与笔录文本完成匹配。
4.根据权利要求2所述的一种案件笔录要素抽取方法,其特征在于:所述的步骤(2)中文本要素提取模型包括Longformer模型,预处理后的序列标注数据集内的笔录文本输入随机参数初始化的Longformer模型中对模型进行预训练,用于使Longformer模型学习笔录文本数据内的语言逻辑。
5.根据权利要求4所述的一种案件笔录要素抽取方法,其特征在于:预训后的Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层连接,形成用于判别每个位置要素类别的文本要素提取模型,将预处理后的要素标注数据输入文本要素提取模型对Longformer模型参数进行微调,直至模型损失满足设定要求。
6.根据权利要求4所述的一种案件笔录要素抽取方法,其特征在于:对序列标注数据集内每条文本进行Token编码处理,并对每一句文本进行截断和补零处理直至每一句文本的长度相同。
7.根据权利要求1所述的一种案件笔录要素抽取方法,其特征在于:所述的案件笔录文本包括若干问答文本结构,训练完成的文本要素提取模型对案件笔录要素进行抽取后,利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关,完成进行结果校验。
8.根据权利要求7所述的一种案件笔录要素抽取方法,其特征在于:所述的关联模型采用BERT预训练模型,所述的BERT预训练模型的训练步骤如下:
(a)针对数据集中的每篇笔录文本按照问和答的相关关键字进行分割,形成问题文本与回答文本集合,将每个回答文本中的要素文本进行抽取,判断对应的要素类型,形成要素类型集合,将要素类型与对应的问题文本组合拼接,形成标签为1的训练正样本;
(b)将每一个要素类型分别与两个随机问题文本配对拼接,去除其中的正样本,形成标签为0的训练负样本;
(c)将训练正样本与训练负样本随机乱序,输入BERT预训练模型中进行微调训练,训练过程中,将BERT预训练模型的输出叠加全连接网络,经过softmax函数,输出标签为1或标签为0的分值,与真实的标签计算loss误差,利用梯度下降算法,更新模型权重,得到训练完成的BERT预训练模型。
9.根据权利要求8所述的一种案件笔录要素抽取方法,其特征在于:所述的训练完成的BERT预训练模型用于对文本要素提取模型的结果集进行校验,将抽取得到的各要素文本的要素类型与所在问句文本进行文本拼接,输入BERT预训练模型,若BERT预训练模型输出的匹配分值小于设定值,则在结果集中删除该要素文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111628616.XA CN114461779A (zh) | 2021-12-28 | 2021-12-28 | 一种案件笔录要素抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111628616.XA CN114461779A (zh) | 2021-12-28 | 2021-12-28 | 一种案件笔录要素抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114461779A true CN114461779A (zh) | 2022-05-10 |
Family
ID=81407727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111628616.XA Pending CN114461779A (zh) | 2021-12-28 | 2021-12-28 | 一种案件笔录要素抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461779A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817639A (zh) * | 2022-05-18 | 2022-07-29 | 山东大学 | 基于对比学习的网页图卷积文档排序方法及系统 |
-
2021
- 2021-12-28 CN CN202111628616.XA patent/CN114461779A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817639A (zh) * | 2022-05-18 | 2022-07-29 | 山东大学 | 基于对比学习的网页图卷积文档排序方法及系统 |
CN114817639B (zh) * | 2022-05-18 | 2024-05-10 | 山东大学 | 基于对比学习的网页图卷积文档排序方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781680B (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111444726A (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111694924A (zh) | 一种事件抽取方法和系统 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111177376A (zh) | 一种基于bert与cnn层级连接的中文文本分类方法 | |
CN107316654A (zh) | 基于dis‑nv特征的情感识别方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN111339750A (zh) | 去除停用语并预测句子边界的口语文本处理方法 | |
CN109033073B (zh) | 基于词汇依存三元组的文本蕴含识别方法及装置 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN116932661A (zh) | 一种面向网络安全的事件知识图谱构建方法 | |
CN113239690A (zh) | 基于Bert与全连接神经网络融合的中文文本意图识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN114586038B (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |