CN112434138A - 一种基于关键比对的证词矛盾提取方法及系统 - Google Patents
一种基于关键比对的证词矛盾提取方法及系统 Download PDFInfo
- Publication number
- CN112434138A CN112434138A CN202110114389.2A CN202110114389A CN112434138A CN 112434138 A CN112434138 A CN 112434138A CN 202110114389 A CN202110114389 A CN 202110114389A CN 112434138 A CN112434138 A CN 112434138A
- Authority
- CN
- China
- Prior art keywords
- contradiction
- testimony
- comparison
- keyword
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于关键比对的证词矛盾提取方法及系统,包括以下步骤:获取自然语言的文本样例;提取文本样例的多个关键词特征;进行准备矛盾对比的机器学习模型;将上述中提取的多个关键词特征合集输入机器学习模型进行训练,生成矛盾对比模型;将待识别的多份证词输入矛盾对比模型,并将多份证词进行标记对比;分析得出结构化证词文本数据、矛盾事件和矛盾对比结果;可将多份证词转化为结构化证词内容,方便易读;通用性强;提高矛盾分析的准确度和可靠性;解放人力,消除人工分析产生的理解分析不一致,矛盾点不一致,多份证词结合难度大等问题,从而提高矛盾分析工作项的价值,降低时间损耗和消除结果的不确定性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体来说,涉及一种基于关键比对的证词矛盾提取方法及系统。
背景技术
矛盾对比是一项非常基础,但内容繁杂且人工易出差错的工作,矛盾对比需要对多份证词之间的时间,地点,人物,事件经过进行比对,列出其中有出入的内容。其中需要比对的内容全面,尤其在细节上的比对特别重要。
许多矛盾对比的工作,都需要人工通读并理解熟悉证词的每个细节,再通过比对发现其中的矛盾点。实际工作费时费力且准确性因人而异,易对后续的工作产生影响;特别在证词量多时,需要多人协作对比证词,每个人的理解不同,细节掌握不一。对比效果极易受到影响。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于关键比对的证词矛盾提取方法及系统,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:一种基于关键比对的证词矛盾提取方法,包括以下步骤:
S1获取自然语言的文本样例;
S2提取所述文本样例的多个关键词特征;
S3进行准备矛盾对比的机器学习模型;
S4将S2中提取的多个关键词特征合集输入所述机器学习模型进行训练,生成矛盾对比模型;
S5将待识别的多份证词输入所述矛盾对比模型,并将多份证词进行标记对比;
S6分析得出结构化证词文本数据、矛盾事件和矛盾对比结果,其中,所述矛盾对比结果包括:矛盾点、矛盾位置信息、矛盾内容和矛盾特征。
进一步地,在S1中,所述文本样例为带有结构化信息的文档。
进一步地,在S2中,其具体步骤包括:
S21整理文本样例;
S22整理矛盾点标签;
S23根据所述矛盾点标签分别提取文本样例矛盾位置信息、矛盾内容信息、矛盾特征信息和矛盾内容关系;
S24根据S23中提取的矛盾信息,输出矛盾结果集合。
进一步地,在S4中,所述矛盾分析模型通过对证词整理标记出的位置特征、事件特征、语义特征和时间特征进行统计分析得出。
进一步地,在S5中,所述待识别的证词在输入所述矛盾对比模型前为非结构化证词。
进一步地,在S6中,矛盾对比结果的具体步骤包括:
S61将待识别的多份证词输入所述矛盾对比模型;
S62对多份证词进行整理,使证词结构化;
S63标记每份证词的特征信息,将每份证词的关键词信息进行统计分析;
S64将 S63中的关键词信息在矛盾对比模型内进行碰撞对比,以相同特征的标记信息为一组对比;
S66对比结构化证词的关键词标记结果,将其中的矛盾内容输出为矛盾对比结果。
进一步地,在S63中,其具体步骤包括:
S631输入证词内容;
S632分别标记所述证词的时间关键词特征、地点关键词特征、人员关键词特征、事件关键词特征;
S633整理所述证词的整体事件经过特征。
根据本发明的另一方面,提供了一种基于关键比对的证词矛盾提取系统,其特征在于,包括:
结构化文档转换模块,用于将文本样例或待识别的证词转化为结构化内容;
关键词特征提取模块,用于对所述结构化内容进行预处理并抽取出相应的关键词特征;
机器学习模块,用于获取所述关键词特征并训练生成矛盾内容;
矛盾对比模块,用于将所述证词与训练得到的矛盾内容进行对比;
矛盾分析模块,用于对证词的位置特征、事件特征、语义特征、和时间特征进行统计分析。
进一步地,所述机器学习模块对关键词特征进行标记,并将关键词特征的标记结果按照不同的特征项进行分类,得到特征项,将所述特征项和文本样例输入模型进行训练。
进一步地,所述关键词特征提取模块,对证词进行结构化语义分析,得到证词文本和关键词位置并标记,与文本样例中的内容进行对比,得到关键词特征。
本发明的有益效果:可将多份证词转化为结构化证词内容,方便易读;利用机器学习模型实现,只需要获取新的矛盾内容输入机器学习模型学习该矛盾内容即可,通用性强;在分析矛盾关键特征时,通过多个特征为度,可以更丰富全面的分析证词内容,从而提高矛盾分析的准确度和可靠性;分析结果全面,以不同维度展开,易用性更高;解放人力,消除人工分析产生的理解分析不一致,矛盾点不一致,多份证词结合难度大等问题,从而提高矛盾分析工作项的价值,降低时间损耗和消除结果的不确定性。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例所述的一种基于关键比对的证词矛盾提取方法,包括以下步骤:
S1获取自然语言的文本样例;
S2提取所述文本样例的多个关键词特征;
S3进行准备矛盾对比的机器学习模型;
S4将S2中提取的多个关键词特征合集输入所述机器学习模型进行训练,生成矛盾对比模型;
S5将待识别的多份证词输入所述矛盾对比模型,并将多份证词进行标记对比;
S6分析得出结构化证词文本数据、矛盾事件和矛盾对比结果,其中,所述矛盾对比结果包括:矛盾点、矛盾位置信息、矛盾内容和矛盾特征。
在本发明的一个具体实施例中,在S1中,所述文本样例为带有结构化信息的文档。
在本发明的一个具体实施例中,在S2中,其具体步骤包括:
S21整理文本样例;
S22整理矛盾点标签;
S23根据所述矛盾点标签分别提取文本样例矛盾位置信息、矛盾内容信息、矛盾特征信息和矛盾内容关系;
S24根据S23中提取的矛盾信息,输出矛盾结果集合。
在本发明的一个具体实施例中,在S4中,所述矛盾分析模型通过对证词整理标记出的位置特征、事件特征、语义特征和时间特征进行统计分析得出。
在本发明的一个具体实施例中,在S5中,所述待识别的证词在输入所述矛盾对比模型前为非结构化证词。
在本发明的一个具体实施例中,在S6中,矛盾对比结果的具体步骤包括:
S61将待识别的多份证词输入所述矛盾对比模型;
S62对多份证词进行整理,使证词结构化;
S63标记每份证词的特征信息,将每份证词的关键词信息进行统计分析;
S64将 S63中的关键词信息在矛盾对比模型内进行碰撞对比,以相同特征的标记信息为一组对比;
S66对比结构化证词的关键词标记结果,将其中的矛盾内容输出为矛盾对比结果。
在本发明的一个具体实施例中,在S63中,其具体步骤包括:
S631输入证词内容;
S632分别标记所述证词的时间关键词特征、地点关键词特征、人员关键词特征、事件关键词特征;
S633整理所述证词的整体事件经过特征。
根据本发明的另一方面,提供了一种基于关键比对的证词矛盾提取系统,其特征在于,包括:
结构化文档转换模块,用于将文本样例或待识别的证词转化为结构化内容;
关键词特征提取模块,用于对所述结构化内容进行预处理并抽取出相应的关键词特征;
机器学习模块,用于获取所述关键词特征并训练生成矛盾内容;
矛盾对比模块,用于将所述证词与训练得到的矛盾内容进行对比;
矛盾分析模块,用于对证词的位置特征、事件特征、语义特征、和时间特征进行统计分析。
在本发明的一个具体实施例中,所述机器学习模块对关键词特征进行标记,并将关键词特征的标记结果按照不同的特征项进行分类,得到特征项,将所述特征项和文本样例输入模型进行训练。
在本发明的一个具体实施例中,所述关键词特征提取模块,对证词进行结构化语义分析,得到证词文本和关键词位置并标记,与文本样例中的内容进行对比,得到关键词特征。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
本发明实施例所述的基于关键比对的证词矛盾提取方法具体包括以下几个步骤:
结构化文档转换模块,外部获取的文本样例多种多样,包括非结构化数据和结构化数据,将非结构化数据转化为结构化数据,对证词内容进行识别,标记出两份或两份以上证词之间的矛盾内容。
关键词特征提取模块,用于对所述结构化内容进行预处理并抽取出相应的关键词特征;整理样例文本及矛盾点标签,根据矛盾点标签提取矛盾位置信息、矛盾内容信息和矛盾特征信息,以及整理矛盾内容之间的关系。
机器学习模块,当有新的不同类型矛盾内容出现时,只需要获取新的矛盾内容输入机器学习模型即可,不需要针对新的矛盾内容人工修改模型实矛盾点现。
矛盾对比模块,将多份待识别的证词输入矛盾对比模型,对证词进行整理,使证词结构化,使其易读性更高;标记每一份证词的特征信息,并整理出证词中的时间,地点,人物,事件经过等关键内容,并将每份证词的关键词信息进行统计分析;对没份证词整理出的关键词标记信息在不同特征内进行碰撞对比,以相同特征的标记信息为一组对比,使其结果更高效,对比结构化证词的关键词标记结果,将其中的矛盾内容输出为矛盾对比结果。
矛盾分析模块,分析矛盾关键特征时,使用了位置特征、上下文特征、时间特征或语义特征等多个特征维度,分析得到的矛盾特征分多个矛盾点维度,其包括行为结果矛盾、行为描述矛盾、地点描述矛盾、参与人描述矛盾、时间描述矛盾或金钱描述矛盾等十几项矛盾点维度。
本发明使用自然语言处理技术,将证词内容输入矛盾对比的机器学习模型中,使机器学习模型自动标记不同证词之间的矛盾点。通过训练好的矛盾对比模型,自动标记和识别出证词矛盾点,矛盾识别的准确度高。
本申请的基于关键比对的证词矛盾提取方法,获取目标样本,将矛盾对比模型学习所需的目标样本输入模型进行训练,其中,为了提高训练结果的通用性,目标样本应尽可能包含更多的矛盾特征和关键词样式;
对目标样本的关键词进行标记,包括时间,地点,人员,事件经过等关键特征内容;将关键词的标记结果按照不同的特征项进行分类;将特征项和目标样本输入模型进行训练;模型提取目标样本的特征信息,关键词信息,学习矛盾分析的特征内容;对证词进行结构化语义分析,分析后得到证词文本和关键词位置,对标记的证词和关键词,与目标样本中位置信息的内容进行比对,学习关键词特征;将待分析的证词输入模型,运行模型,得到识别标记的矛盾分析结果。
综上所述,借助于本发明的上述技术方案,可将多份证词转化为结构化证词内容,方便易读;通用性强;提高矛盾分析的准确度和可靠性;解放人力,消除人工分析产生的理解分析不一致,矛盾点不一致,多份证词结合难度大等问题,从而提高矛盾分析工作项的价值,降低时间损耗和消除结果的不确定性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于关键比对的证词矛盾提取方法,其特征在于,包括以下步骤:
S1获取自然语言的文本样例;
S2提取所述文本样例的多个关键词特征;
S3进行准备矛盾对比的机器学习模型;
S4将S2中提取的多个关键词特征合集输入所述机器学习模型进行训练,生成矛盾对比模型;
S5将待识别的多份证词输入所述矛盾对比模型,并将多份证词进行标记对比;
S6分析得出结构化证词文本数据、矛盾事件和矛盾对比结果,其中,所述矛盾对比结果包括:矛盾点、矛盾位置信息、矛盾内容和矛盾特征。
2.根据权利要求1所述的一种基于关键比对的证词矛盾提取方法,其特征在于,在S1中,所述文本样例为带有结构化信息的文档。
3.根据权利要求1所述的一种基于关键比对的证词矛盾提取方法,其特征在于,在S2中,其具体步骤包括:
S21整理文本样例;
S22整理矛盾点标签;
S23根据所述矛盾点标签分别提取文本样例矛盾位置信息、矛盾内容信息、矛盾特征信息和矛盾内容关系;
S24根据S23中提取的矛盾信息,输出矛盾结果集合。
4.根据权利要求1所述的一种基于关键比对的证词矛盾提取方法,特征在于,在S4中,矛盾分析模型通过对证词整理标记出的位置特征、事件特征、语义特征和时间特征进行统计分析得出。
5.根据权利要求1所述的一种基于关键比对的证词矛盾提取方法,其特征在于,在S5中,所述待识别的证词在输入所述矛盾对比模型前为非结构化证词。
6.根据权利要求1所述的一种基于关键比对的证词矛盾提取方法,其特征在于,在S6中,矛盾对比结果的具体步骤包括:
S61将待识别的多份证词输入所述矛盾对比模型;
S62对多份证词进行整理,使证词结构化;
S63标记每份证词的特征信息,将每份证词的关键词信息进行统计分析;
S64将 S63中的关键词信息在矛盾对比模型内进行碰撞对比,以相同特征的标记信息为一组对比;
S66对比结构化证词的关键词标记结果,将其中的矛盾内容输出为矛盾对比结果。
7.根据权利要求6所述的一种基于关键比对的证词矛盾提取方法,其特征在于,在S63中,其具体步骤包括:
S631输入证词内容;
S632分别标记所述证词的时间关键词特征、地点关键词特征、人员关键词特征、事件关键词特征;
S633整理所述证词的整体事件经过特征。
8.一种基于关键比对的证词矛盾提取系统,其特征在于,包括:
结构化文档转换模块,用于将文本样例或待识别的证词转化为结构化内容;
关键词特征提取模块,用于对所述结构化内容进行预处理并抽取出相应的关键词特征;
机器学习模块,用于获取所述关键词特征并训练生成矛盾内容;
矛盾对比模块,用于将所述证词与训练得到的矛盾内容进行对比;
矛盾分析模块,用于对证词的位置特征、事件特征、语义特征、和时间特征进行统计分析。
9.根据权利要求8所述的一种基于关键比对的证词矛盾提取系统,其特征在于,所述机器学习模块对关键词特征进行标记,并将关键词特征的标记结果按照不同的特征项进行分类,得到特征项,将所述特征项和文本样例输入模型进行训练。
10.根据权利要求8所述的一种基于关键比对的证词矛盾提取系统,其特征在于,所述关键词特征提取模块,对证词进行结构化语义分析,得到证词文本和关键词位置并标记,与文本样例中的内容进行对比,得到关键词特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110114389.2A CN112434138A (zh) | 2021-01-28 | 2021-01-28 | 一种基于关键比对的证词矛盾提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110114389.2A CN112434138A (zh) | 2021-01-28 | 2021-01-28 | 一种基于关键比对的证词矛盾提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434138A true CN112434138A (zh) | 2021-03-02 |
Family
ID=74697340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110114389.2A Pending CN112434138A (zh) | 2021-01-28 | 2021-01-28 | 一种基于关键比对的证词矛盾提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434138A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
WO2019006115A1 (en) * | 2017-06-30 | 2019-01-03 | Elsevier, Inc. | SYSTEMS AND METHODS FOR EXTRACTING DONOR INFORMATION FROM A TEXT |
CN110222669A (zh) * | 2019-06-17 | 2019-09-10 | 北京市律典通科技有限公司 | 一种案件证据智能审查方法及系统 |
CN110969018A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
-
2021
- 2021-01-28 CN CN202110114389.2A patent/CN112434138A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019006115A1 (en) * | 2017-06-30 | 2019-01-03 | Elsevier, Inc. | SYSTEMS AND METHODS FOR EXTRACTING DONOR INFORMATION FROM A TEXT |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN110969018A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
CN110222669A (zh) * | 2019-06-17 | 2019-09-10 | 北京市律典通科技有限公司 | 一种案件证据智能审查方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111597356B (zh) | 智能化教育知识图谱构建系统与方法 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN112163553B (zh) | 物料价格核算方法、装置、存储介质和计算机设备 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN111143840B (zh) | 一种主机操作指令异常识别的方法及系统 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN112257425A (zh) | 一种基于数据分级模型的电力数据分析方法及系统 | |
Shekhawat | Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach | |
CN114090736A (zh) | 一种基于文本相似度的企业行业识别系统及识别方法 | |
CN111400449B (zh) | 一种正则表达式抽取方法及装置 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111815162A (zh) | 一种数字化审计工具及方法 | |
CN112434138A (zh) | 一种基于关键比对的证词矛盾提取方法及系统 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114757191B (zh) | 基于深度学习的电力舆情领域命名实体识别方法及系统 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 | |
CN105183807A (zh) | 一种基于结构句法的情绪原因事件识别方法及系统 | |
CN110807096A (zh) | 一种小样本集上的信息对匹配方法及系统 | |
CN114780577A (zh) | Sql语句生成方法、装置、设备及存储介质 | |
CN113609848A (zh) | 一种工业产品质量安全监管方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210302 |