CN112732942A - 一种面向用户的多轮问答法律文书实体关系抽取方法 - Google Patents

一种面向用户的多轮问答法律文书实体关系抽取方法 Download PDF

Info

Publication number
CN112732942A
CN112732942A CN202110058268.0A CN202110058268A CN112732942A CN 112732942 A CN112732942 A CN 112732942A CN 202110058268 A CN202110058268 A CN 202110058268A CN 112732942 A CN112732942 A CN 112732942A
Authority
CN
China
Prior art keywords
question
user
answer
vector
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110058268.0A
Other languages
English (en)
Inventor
李参宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Netmarch Technologies Co ltd
Original Assignee
Jiangsu Netmarch Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Netmarch Technologies Co ltd filed Critical Jiangsu Netmarch Technologies Co ltd
Priority to CN202110058268.0A priority Critical patent/CN112732942A/zh
Publication of CN112732942A publication Critical patent/CN112732942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种面向用户的多轮问答法律文书实体关系抽取方法,问题模板引擎提供的问题展示给用户,在获取用到户选择的问题后,判断是否存储过该文书的该问题,若有,直接输出答案;若无,将其问题分析,对该问题进行分析处理,得到答案,输出并存储该文书的问题及答案;将输出的答案传入到前端进行显示,根据答案动态选择之后的问题模板序列;之后重复上述过程直到用户无输入为止;通过分析处理方法实现对法律文书实体的关系处理,满足对法律问答更加贴合用户的需求。

Description

一种面向用户的多轮问答法律文书实体关系抽取方法
技术领域
本发明涉及文本处理技术领域,尤其涉及一种面向用户的多轮问答法律文书实体关系抽取方法。
背景技术
信息抽取是从自然语言文本中,抽取出特定的事件或事实信息,帮助人们将海量内容自动分类、提取和重构。这些信息通常包括实体、关系、事件。例如从法律文本中案件时间、案发地点、关键人物等。
实体抽取和关系抽取是信息抽取中两个关键的子任务,这两个任务合并到一起,就是所谓的实体关系抽取,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。实体关系抽取在机器翻译、机器阅读理解方面具有重要的研究意义。
现有法律文本实体关系抽取技术还有诸多不足之处:难以抽取文本中存在层级性的依赖关系、对实体间距较远的关系抽取效果不好、难以处理实体与关系交叉重叠的一句话。
鉴于此,如何高效合理地抽取法律文本的实体关系,并且这些信息是用户所感兴趣的,从而对法律案件进一步理解与分析,成为法律文本处理领域亟需处理的问题,本发明提供一种面向用户的多轮问答法律文书实体关系抽取方法。
发明内容
本发明的目的在于,提供了一种面向用户的多轮问答法律文书实体关系抽取方法,共同完成满足用户查询需求的实体关系抽取任务。
为实现上述目的,本发明提供如下技术方案:
一种面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:问题模板引擎提供的问题展示给用户,在获取用到户选择的问题后,判断是否存储过该文书的该问题,若有,直接输出答案;若无,将其问题分析,对该问题进行分析处理,得到答案,输出并存储该文书的问题及答案;将输出的答案传入到前端进行显示,根据答案动态选择之后的问题模板序列;之后重复上述过程直到用户无输入为止;其中,分析处理的方法步骤包括:
通过卷积和注意力把问题编码为一个固定的向量,将其拼接到文书的每个词向量中;在词向量中拼接位置向量、人工特征,得到一个混合了问题、文书信息的特征序列;接多层卷积进行编码处理,然后使用BEMO的序列标注方法直接对序列进行标注;每个词的表示反馈给sigmoid层来输出BMEO标签,获得答案的位置标记。
与现有技术相比,本发明一种面向用户的多轮问答法律文书实体关系抽取方法有益效果在于,在实体关系抽取的任务上,将其转换为一个问答的任务,用一种自然且交互友好的方式完成了信息抽取的任务,以多轮问答的形式进行迭代信息抽取的方式能很好地捕捉层级化的依赖关系,通过分析处理方法实现对法律文书实体的关系处理,满足对法律问答更加贴合用户的需求。
附图说明
图1为本发明面向用户的多轮问答法律文书实体关系抽取方法的流程示意图;
图2为本发明面向用户的多轮问答法律文书实体关系抽取方法中分析处理的方法的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为一种面向用户的多轮问答法律文书实体的关系抽取方法的流程图,本发明提供一种面向用户的多轮问答法律文书实体的关系抽取方法包括如下:
问题模板引擎提供的问题展示给用户,在获取用到户选择的问题后,判断是否存储过该文书的该问题,若有,直接输出答案;若无,对其问题分析,对该问题进行分析处理,得到答案,输出并存储该文书的问题及答案;将输出的答案传入到前端进行显示,根据答案动态选择之后的问题模板序列;之后重复上述过程直到用户无输入为止。
详细的,其抽取方法步骤如下:
S1:为用户展示问题列表以及针对用户提出的问题系统提供的回答结果;
具体的,为用户展示法律文书相关问题列表以及针对用户提出的问题系统提供的回答,这个答案同时也是法律文书实体关系的抽取结果。问题列表中的第一条问题通常包含一个实体,比如“案件被害人是谁?”
S2:根据不同案件类型预设的不同问题模板序列,其中问题模板序列中除了第一条问题模板之外,序列中剩余的问题模板都留有至少一个内容嵌入槽,前一问答案的部分内容将会填入这个内容嵌入槽中,从而生成一个新的问题;
除第一条问题外,剩余的问题都和之前问题的答案相关,用户可在界面中根据自己的需要选择下一个问题,系统提供并显示的答案即为用户所希望得到的实体或关系。
具体的,问题模板序列中除了第一条问题模板之外,序列中剩余的问题模板都留有至少一个内容嵌入槽,前一道问题答案的部分内容将会填入这个内容嵌入槽中,从而生成一个新的问题。
问题模板序列将会根据用户与系统的每一轮问答进行动态调整以满足实体关系间的层次联系。
S3:根据用户输入的问题在给定的文本段中抽取输入问题的答案并将其输出,其中答案段的选取是根据序列标注模型及深度神经网络模型来预测答案起始位置和终止位置的索引;
其中,机器阅读分析模块的主要功能是根据用户输入的问题在给定的文本段中抽取输入问题的答案并将其输出。机器阅读分析模块内部的序列标注模型基于BEMO的序列标注方法,即标注这4个标签beginning(表示起始),inside(表示内部),ending(表示终止),outside(表示外部)。如果机器阅读分析模块对于给定的问题没有答案,说明问题所涉及的实体或关系不存在。
答案段的选取是根据机器阅读分析内序列标注模型及深度神经网络模型来预测答案起始位置和终止位置的索引。
S4:为了利用多轮问答的答案对后续的问题及答案都会产生影响这一特性的辅助作用,使用强化学习的方法定义了行为、策略和奖励来进一步提升实体关系抽取的性能;
S5:存储给定的法律文书中用户提出的问题及系统的答案,以针对不同用户对同一法律文本提出同一问题的情况,系统将会提取使用内容。
每一段的多轮问答流程都由一个实体触发,实体关系抽取的顺序是根据问题模板引擎生成的问题模板序列预定义的,每种实体都和一个由问题模板引擎生成的特定类型的问题相联系。
图2为本发明面向用户的多轮问答法律文书实体关系抽取方法中分析处理的方法的流程示意图。在上式步骤3中的分析处理方法包括以下步骤:
步骤31.通过卷积和注意力把问题编码为一个固定的向量,将其拼接到文书的每个词向量中;
卷积方法是基于如下模型的卷积过程完成的:
Figure BDA0002901493620000041
其中,X=[x1,x2,…,xn]是将要处理的向量序列,Conv1D1与Conv1D2是两个卷积核数窗口大小都一样的一维卷积,σ是sigmoid激活函数。
注意力方法是通过如下的卷积过程完成的:
Figure BDA0002901493620000042
Figure BDA0002901493620000043
其中,α,W是可训练参数,Act是激活函数。一般会取tanh函数,也可以考虑swish函数。
步骤32:在词向量中拼接位置向量、人工特征,得到一个混合了问题、文书信息的特征序列;
位置向量构造方法为:
Figure BDA0002901493620000051
上式表示将id为p的位置映射成一个dpos维的位置向量,这个向量的第i个元素的数值记为PEi(p)。
步骤33:接多层卷积进行编码处理,然后使用BEMO的序列标注方法直接对序列进行标注;
步骤34:每个词的表示反馈给sigmoid层来输出BMEO标签,得到答案的位置标记。
S4步骤中,训练过程中,共同训练了提取头部实体和提取尾部实体及关系这两个阶段的目标函数:
Figure BDA0002901493620000052
其中,λ∈[0,1]是控制两个目标函数之间权衡的参数,这个值的大小是在验证集上调整的。
Figure BDA0002901493620000053
表示提取头部实体这一阶段的目标函数,
Figure BDA0002901493620000054
Figure BDA0002901493620000055
表示提取尾部实体和关系这一阶段的目标函数。其中λ相当于超参数,是在实验结果基础上一步步调整的。两个阶段的目标函数都是用如下的目标函数:P(wi∣w1,…,wi-1,wi+1,…,wn);
其中wi表示的是句子中第i个位置的词拼接后的向量表示。
S4步骤的强化学习的主要功能是利用多轮问答的答案对后续的问题及答案都会产生影响这一特性利用强化学习辅助机器阅读分析模块的性能提升。
强化学习中,行为定义为每轮问答选择一个文本段,策略定义为在给定问题和上下文后选择该文本段后的概率。
进一步地,对于基于BEMO标注输出的方法,策略即选择一个文本段{w1,w2,…wn}的概率,定义为一个联合概率:
Figure BDA0002901493620000061
其中,B,E,M为BEMO标记。
强化学习并非从头开始初始化策略网络,而是利用S3步骤内中预训练的头部实体和尾部实体抽取模型。

Claims (6)

1.一种面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:问题模板引擎提供的问题展示给用户,在获取用到户选择的问题后,判断是否存储过该文书的该问题,若有,直接输出答案;若无,将其问题分析,对该问题进行分析处理,得到答案,输出并存储该文书的问题及答案;将输出的答案传入到前端进行显示,根据答案动态选择之后的问题模板序列;之后重复上述过程直到用户无输入为止;其中,分析处理的方法步骤包括:
通过卷积和注意力把问题编码为一个固定的向量,将其拼接到文书的每个词向量中;在词向量中拼接位置向量、人工特征,得到一个混合了问题、文书信息的特征序列;接多层卷积进行编码处理,然后使用BEMO的序列标注方法直接对序列进行标注;每个词的表示反馈给sigmoid层来输出BMEO标签,获得答案的位置标记。
2.如权利要求1所述的面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:卷积方法是基于如下模型的卷积过程完成的:
Figure FDA0002901493610000011
其中,X=[x1,x2,…,xn]是将要处理的向量序列,Conv1D1与Conv1D2是两个卷积核数窗口大小都一样的一维卷积,σ是sigmoid激活函数。
3.如权利要求1所述的面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:
注意力方法是通过如下的卷积过程完成的:
Figure FDA0002901493610000012
Figure FDA0002901493610000013
其中,α,W是可训练参数,Act是激活函数。
4.如权利要求1所述的面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:位置向量构造方法为:
Figure FDA0002901493610000014
上式表示将id为p的位置映射成一个dpos维的位置向量,这个向量的第i个元素的数值记为PEi(p)。
5.如权利要求1所述的面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:通过训练提取头部实体和提取尾部实体及关系这两个阶段的目标函数,进一步提升实体关系抽取性能:
Figure FDA0002901493610000021
其中,λ∈[0,1]是控制两个目标函数之间权衡的参数,
Figure FDA0002901493610000022
表示提取头部实体这一阶段的目标函数,
Figure FDA0002901493610000023
表示提取尾部实体和关系这一阶段的目标函数;两个阶段的目标函数都是用如下的目标函数:P(wi|w1,...,wi-1,wi+1,...,wn);其中wi表示的是句子中第i个位置的词拼接后的向量表示。
6.如权利要求5所述的面向用户的多轮问答法律文书实体关系抽取方法,其特征在于:对于基于BEMO标注输出的方法,即选择一个文本段{w1,w2,...wn}的概率,定义为一个联合概率:
Figure FDA0002901493610000024
其中,B,E,M为BEM0标记。
CN202110058268.0A 2021-01-16 2021-01-16 一种面向用户的多轮问答法律文书实体关系抽取方法 Pending CN112732942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110058268.0A CN112732942A (zh) 2021-01-16 2021-01-16 一种面向用户的多轮问答法律文书实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110058268.0A CN112732942A (zh) 2021-01-16 2021-01-16 一种面向用户的多轮问答法律文书实体关系抽取方法

Publications (1)

Publication Number Publication Date
CN112732942A true CN112732942A (zh) 2021-04-30

Family

ID=75591770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110058268.0A Pending CN112732942A (zh) 2021-01-16 2021-01-16 一种面向用户的多轮问答法律文书实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN112732942A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590776A (zh) * 2021-06-23 2021-11-02 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102623034A (zh) * 2012-03-28 2012-08-01 北京华夏电通科技股份有限公司 视频数据与文本数据互相定位和文字速录的方法及装置
CN108090177A (zh) * 2017-12-15 2018-05-29 上海智臻智能网络科技股份有限公司 多轮问答系统的生成方法、设备、介质及多轮问答系统
CN108509609A (zh) * 2018-04-03 2018-09-07 广州幽联信息技术有限公司 智能人机交互方法、装置、计算机设备及存储介质
CN110795548A (zh) * 2019-10-25 2020-02-14 招商局金融科技有限公司 智能问答方法、装置及计算机可读存储介质
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102623034A (zh) * 2012-03-28 2012-08-01 北京华夏电通科技股份有限公司 视频数据与文本数据互相定位和文字速录的方法及装置
CN108090177A (zh) * 2017-12-15 2018-05-29 上海智臻智能网络科技股份有限公司 多轮问答系统的生成方法、设备、介质及多轮问答系统
CN108509609A (zh) * 2018-04-03 2018-09-07 广州幽联信息技术有限公司 智能人机交互方法、装置、计算机设备及存储介质
CN110795548A (zh) * 2019-10-25 2020-02-14 招商局金融科技有限公司 智能问答方法、装置及计算机可读存储介质
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOYA LI等: "《Entity-relation extraction as multi-turn question answering》", 《ACL2019》, pages 1 - 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590776A (zh) * 2021-06-23 2021-11-02 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质
CN113590776B (zh) * 2021-06-23 2023-12-12 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN111027327B (zh) 机器阅读理解方法、设备、存储介质及装置
CN110301117B (zh) 用于在会话中提供响应的方法和装置
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN110390363A (zh) 一种图像描述方法
CN113822026B (zh) 一种多标签实体标注方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114254129A (zh) 更新知识图谱的方法、装置和可读存储介质
CN112071429A (zh) 一种基于知识图谱的医疗自动问答系统构建方法
CN113946677A (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN112732942A (zh) 一种面向用户的多轮问答法律文书实体关系抽取方法
CN109933787B (zh) 文本关键信息的提取方法、装置及介质
CN115455169A (zh) 一种基于词汇知识和语义依存的知识图谱问答方法和系统
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
WO2021137942A1 (en) Pattern generation
Sharma et al. From Templates to Transformers: A survey of Multimodal Image Captioning Decoders
CN113821605B (zh) 一种事件抽取方法
Litvin et al. Development of natural language dialogue software systems
CN117808923B (zh) 一种图像生成方法、系统、电子设备及可读存储介质
CN117609477B (zh) 一种基于领域知识的大模型问答方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210430

WD01 Invention patent application deemed withdrawn after publication