CN114490939A - 争议焦点推荐方法及装置 - Google Patents
争议焦点推荐方法及装置 Download PDFInfo
- Publication number
- CN114490939A CN114490939A CN202210089545.9A CN202210089545A CN114490939A CN 114490939 A CN114490939 A CN 114490939A CN 202210089545 A CN202210089545 A CN 202210089545A CN 114490939 A CN114490939 A CN 114490939A
- Authority
- CN
- China
- Prior art keywords
- dispute focus
- dispute
- sentence
- recommended
- focus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种争议焦点推荐方法及装置,用以解决争议焦点推荐准确率低的技术问题。其中,一种争议焦点推荐方案,分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
Description
技术领域
本申请涉及文本推荐技术领域,尤其涉及一种争议焦点推荐方法及装置。
背景技术
争议焦点是整个案件的核心,是在庭审过程中原被告的主要矛盾所在,可以让法官在庭审中快速抓住整个案件的关键点。具体来说,一个案件可以有多个争议点,但争议焦点只是其中的几个关键争议,是原被告之间最大的矛盾点,找到争议焦点对解决整个纠纷有决定性作用。
争议焦点的类别和内容,均是由法律专业工作人员根据诉辩双方的陈述内容,并结合自身的法律工作经验总结而来,具有较强的专业性。争议焦点可以反映出诉辩双方的主要分歧和案件关键点,需要法律工作者投入大量精力进行总结和归纳。
在实现现有技术的过程中,发明人发现:
现有技术大多是利用信息抽取技术,提取法律文书中的高频信息,将其认定为争议焦点。这种提取方法并不智能,容易被无关信息干扰,从而得出错误的判断结果。
因此,需要提供一种争议焦点推荐方案,用以解决争议焦点推荐准确率低的技术问题。
发明内容
本申请实施例提供一种争议焦点推荐方案,用以解决争议焦点推荐准确率低的技术问题。
具体的,一种争议焦点推荐方法,包括以下步骤:
对辩诉内容进行分句,生成元素为句子单元的句子集合;
输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点;
其中,所述句子单元具有若干要素类别。
进一步的,根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
进一步的,根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
其中,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
进一步的,根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
进一步的,根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
本申请实施例还提供一种争议焦点推荐装置。
具体的,一种争议焦点推荐装置,包括:
分句模块,用于对辩诉内容进行分句,生成元素为句子单元的句子集合;
分类模块,用于输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
推荐模块,用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点;
其中,所述句子单元具有若干要素类别。
进一步的,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点,具体用于:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
进一步的,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
其中,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
进一步的,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
进一步的,所述推荐模块用于根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
本申请实施例提供的技术方案,至少具有如下有益效果:
分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种争议焦点推荐方法的流程框图。
图2为本申请实施例提供的步骤S130的详细流程框图。
图3为本申请实施例提供的一种争议焦点推荐装置的结构示意图。
100 争议焦点推荐方法
11 分句模块
12 分类模块
13 推荐模块
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,本申请提供一种争议焦点推荐方法,包括以下步骤:
S110:对辩诉内容进行分句,生成元素为句子单元的句子集合。
可以理解的是,所述辩诉内容是庭审过程中或是诉辩状中诉辩双方所陈述的内容。所述辩诉内容至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。
进一步的,对辩诉内容使用分句模型,可以得到若干句子单元,所述若干句子单元构成句子集合。其中,所述分句模型可以是一种基于语言语法规则的神经网络算法模型,用于识别辩诉内容中的标点符号,并根据辩诉内容中的标点符号对辩诉内容进行分句,生成若干句子单元。例如,所述分句模型可以通过识别辩诉内容中的句号、感叹号、问号,确定任意两种标点符号间的文本作为句子单元。
S120:输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值。
需要指出的是,所述句子单元具有若干要素类别,所述要素类别可以理解为案由。而所述句子单元与要素类别具有归属概率值,所述归属概率值可以理解为是句子单元归属于该要素类别的概率。
进一步的,所述BERT模型(Bidirectional Encoder Representations fromTransformer)是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
本申请采用BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值,实质是采用BERT模型计算句子单元的语句语义值,并根据句子单元的语句语义值,利用BERT模型的预测机制,对句子单元对应若干要素类别的归属概率值进行预测。
S130:根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点。
需要指出的是,现有技术大多是利用信息抽取技术,提取法律文书中的高频信息,将其认定为争议焦点。这种提取方法并不智能,容易被无关信息干扰,从而得出错误的判断结果。
为此,本申请提供的争议焦点推荐方法分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,以提高争议焦点的推荐准确性。
具体的,请参照图2,所述步骤S130包括:
S131:根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点。
S132:根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点。
S133:根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
其中,步骤S131根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体表现为:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点。
可以理解的是,此处将句子单元各种归属要素的类别、句子单元各归属要素类别的最大概率值作为该句子单元的特征属性。则若干句子单元的特征属性可以构成句子特征集合。
将所述句子特征集合输入至训练后的争议焦点预测模型,可以得到第一推荐争议焦点。
需要强调的是,与生成模型需要多次纠错不同,本申请所采用的争议焦点预测模型在于可以通过寻找历史数据之间的自相关性,预测出推荐结果。因此,所述争议焦点预测模型的泛用性强。
在本申请提供的一种优选实施方式中,所述争议焦点预测模型表现为ARMA模型(Autoregressive moving average model,自回归滑动平均模型),可进行人工智能的深度学习。具体的,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
步骤S132根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体表现为:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
可以理解的是,根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别,实质上是除去句子单元归属可能性较低的类别,筛选出句子单元归属可能性较大的类别。
之后对同一类要素的归属概率值进行累加求和,再求出平均数,以作为该要素的归属概率均值。这样可以统计出各要素类别的平均概率值。从而直观看出句子集合整体的要素类别和与要素类别对应的概率分布。
当然,本申请还具有预设的争议焦点数据库。所述争议焦点数据库包括各要素类别对应的争议焦点项目,以及各争议焦点项目的预设权重值。
通过建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,可以得到所述要素类别对应的争议焦点和争议焦点的权重值。
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,可以计算争议焦点对应的置信度。之后以置信度从大到小的顺序排列争议焦点,选出置信度较大的前几项争议焦点作为第二推荐争议焦点。
在本申请提供的优选实施方式中,所述第一预设阈值为0.5,所述置信度TOP-K的元素为置信度前三的争议焦点项目。
步骤S133根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体表现为:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
换句话说,在同时存在第一推荐争议焦点和第二推荐争议焦点的情况下,优先推荐第二推荐争议焦点。当不存在第二推荐争议焦点时,选择ARMA模型预测出的第一推荐争议焦点作为最终争议焦点。
本申请提供的争议焦点推荐方法分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
请参照图3,为支持争议焦点推荐方法,本申请还提供一种争议焦点推荐装置100,包括:
分句模块11,用于对辩诉内容进行分句,生成元素为句子单元的句子集合;
分类模块12,用于输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
推荐模块13,用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点。
可以理解的是,所述辩诉内容是庭审过程中或是诉辩状中诉辩双方所陈述的内容。所述辩诉内容至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。
进一步的,所述分句模块11对辩诉内容进行分句,生成元素为句子单元的句子集合,具体表现为:
所述分句模块11对辩诉内容使用分句模型,可以得到若干句子单元,所述若干句子单元构成句子集合。
其中,所述分句模型可以是一种基于语言语法规则的神经网络算法模型,用于识别辩诉内容中的标点符号,并根据辩诉内容中的标点符号对辩诉内容进行分句,生成若干句子单元。例如,所述分句模型可以通过识别辩诉内容中的句号、感叹号、问号,确定任意两种标点符号间的文本作为句子单元。
进一步的,所述分类模块12输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值。
需要指出的是,所述句子单元具有若干要素类别,所述要素类别可以理解为案由。而所述句子单元与要素类别具有归属概率值,所述归属概率值可以理解为是句子单元归属于该要素类别的概率。
所述BERT模型(Bidirectional Encoder Representations from Transformer)是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
所述分类模块12采用BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值,实质是采用BERT模型计算句子单元的语句语义值,并根据句子单元的语句语义值,利用BERT模型的预测机制,对句子单元对应若干要素类别的归属概率值进行预测。
进一步的,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点。
需要指出的是,现有技术大多是利用信息抽取技术,提取法律文书中的高频信息,将其认定为争议焦点。这种提取方法并不智能,容易被无关信息干扰,从而得出错误的判断结果。
为此,本申请提供的争议焦点推荐装置100在分类模块12预测句子单元的要素类别和与要素类别对应的归属概率值后,所述推荐模块13分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。所述推荐模块13再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,以提高争议焦点的推荐准确性。
具体的,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点。同时,所述推荐模块13还根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点。最后,所述推荐模块13根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
其中,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体表现为:
所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
所述推荐模块13取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
所述推荐模块13输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点。
可以理解的是,此处所述推荐模块13将句子单元各种归属要素的类别、句子单元各归属要素类别的最大概率值作为该句子单元的特征属性。则若干句子单元的特征属性可以构成句子特征集合。
所述推荐模块13将所述句子特征集合输入至训练后的争议焦点预测模型,可以得到第一推荐争议焦点。
需要强调的是,与生成模型需要多次纠错不同,所述推荐模块13所采用的争议焦点预测模型在于可以通过寻找历史数据之间的自相关性,预测出推荐结果。因此,所述争议焦点预测模型的泛用性强。
在本申请提供的一种优选实施方式中,所述争议焦点预测模型表现为ARMA模型(Autoregressive moving average model,自回归滑动平均模型),可进行人工智能的深度学习。具体的,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
进一步的,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体表现为:
所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
所述推荐模块13建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
所述推荐模块13根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
所述推荐模块13确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
可以理解的是,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别,实质上是除去句子单元归属可能性较低的类别,筛选出句子单元归属可能性较大的类别。
之后所述推荐模块13对同一类要素的归属概率值进行累加求和,再求出平均数,以作为该要素的归属概率均值。这样可以统计出各要素类别的平均概率值。从而直观看出句子集合整体的要素类别和与要素类别对应的概率分布。
当然,所述争议焦点推荐装置100还具有预设的争议焦点数据库。所述争议焦点数据库包括各要素类别对应的争议焦点项目,以及各争议焦点项目的预设权重值。
所述推荐模块13通过建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,可以得到所述要素类别对应的争议焦点和争议焦点的权重值。
所述推荐模块13根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,可以计算争议焦点对应的置信度。之后所述推荐模块13以置信度从大到小的顺序排列争议焦点,选出置信度较大的前几项争议焦点作为第二推荐争议焦点。
在本申请提供的优选实施方式中,所述推荐模块13筛选出归属概率值超过0.5的要素类别,并记录这些要素类别对应的归属概率值。
之后所述推荐模块13以置信度从大到小的顺序排列各争议焦点项目,选出置信度前三的争议焦点项目作为第二推荐争议焦点。
进一步的,所述推荐模块13根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体表现为:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,所述推荐模块13选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,所述推荐模块13选择第一推荐争议焦点作为最终争议焦点。
换句话说,在同时存在第一推荐争议焦点和第二推荐争议焦点的情况下,所述推荐模块13优先推荐第二推荐争议焦点。当不存在第二推荐争议焦点时,所述推荐模块13选择ARMA模型预测出的第一推荐争议焦点作为最终争议焦点。
本申请提供的争议焦点推荐装置100分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种争议焦点推荐方法,其特征在于,包括以下步骤:
对辩诉内容进行分句,生成元素为句子单元的句子集合;
输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点;
其中,所述句子单元具有若干要素类别。
2.如权利要求1所述的争议焦点推荐方法,其特征在于,根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
3.如权利要求2所述的争议焦点推荐方法,其特征在于,根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
其中,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
4.如权利要求2所述的争议焦点推荐方法,其特征在于,根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
5.如权利要求2所述的争议焦点推荐方法,其特征在于,根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
6.一种争议焦点推荐装置,其特征在于,包括:
分句模块,用于对辩诉内容进行分句,生成元素为句子单元的句子集合;
分类模块,用于输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
推荐模块,用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点;
其中,所述句子单元具有若干要素类别。
7.如权利要求6所述的争议焦点推荐装置,其特征在于,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点,具体用于:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
8.如权利要求7所述的争议焦点推荐装置,其特征在于,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
其中,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
9.如权利要求7所述的争议焦点推荐装置,其特征在于,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
10.如权利要求7所述的争议焦点推荐装置,其特征在于,所述推荐模块用于根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089545.9A CN114490939B (zh) | 2022-01-25 | 2022-01-25 | 争议焦点推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089545.9A CN114490939B (zh) | 2022-01-25 | 2022-01-25 | 争议焦点推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114490939A true CN114490939A (zh) | 2022-05-13 |
CN114490939B CN114490939B (zh) | 2022-09-02 |
Family
ID=81475657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210089545.9A Active CN114490939B (zh) | 2022-01-25 | 2022-01-25 | 争议焦点推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490939B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988978A (zh) * | 2015-03-04 | 2016-10-05 | 科大讯飞股份有限公司 | 确定文本焦点的方法及系统 |
CN110888927A (zh) * | 2019-11-14 | 2020-03-17 | 东莞理工学院 | 简历信息抽取方法及系统 |
CN112182175A (zh) * | 2020-09-25 | 2021-01-05 | 北京字节跳动网络技术有限公司 | 智能问答方法、装置、设备及可读存储介质 |
CN112613582A (zh) * | 2021-01-05 | 2021-04-06 | 重庆邮电大学 | 一种基于深度学习混合模型的争议焦点检测方法及装置 |
US20210209356A1 (en) * | 2020-01-06 | 2021-07-08 | Samsung Electronics Co., Ltd. | Method for keyword extraction and electronic device implementing the same |
CN113468323A (zh) * | 2021-06-01 | 2021-10-01 | 成都数之联科技有限公司 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
US20210326747A1 (en) * | 2020-04-20 | 2021-10-21 | Microsoft Technology Licensing, Llc. | Machine learned model framework for screening question generation |
-
2022
- 2022-01-25 CN CN202210089545.9A patent/CN114490939B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988978A (zh) * | 2015-03-04 | 2016-10-05 | 科大讯飞股份有限公司 | 确定文本焦点的方法及系统 |
CN110888927A (zh) * | 2019-11-14 | 2020-03-17 | 东莞理工学院 | 简历信息抽取方法及系统 |
US20210209356A1 (en) * | 2020-01-06 | 2021-07-08 | Samsung Electronics Co., Ltd. | Method for keyword extraction and electronic device implementing the same |
US20210326747A1 (en) * | 2020-04-20 | 2021-10-21 | Microsoft Technology Licensing, Llc. | Machine learned model framework for screening question generation |
CN112182175A (zh) * | 2020-09-25 | 2021-01-05 | 北京字节跳动网络技术有限公司 | 智能问答方法、装置、设备及可读存储介质 |
CN112613582A (zh) * | 2021-01-05 | 2021-04-06 | 重庆邮电大学 | 一种基于深度学习混合模型的争议焦点检测方法及装置 |
CN113468323A (zh) * | 2021-06-01 | 2021-10-01 | 成都数之联科技有限公司 | 争议焦点类别及相似判断方法及系统及装置及推荐方法 |
Non-Patent Citations (3)
Title |
---|
HUGO LEONARDO DUARTE-GARCIA等: "Automatic Malware Clustering using Word Embeddings and Unsupervised Learning", 《2019 7TH INTERNATIONAL WORKSHOP ON BIOMETRICS AND FORENSICS (IWBF)》 * |
徐明蔚: "诉辩文本争议焦点识别方法研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》 * |
谭红叶等: "基于外部知识和层级篇章表示的阅读理解方法", 《中文信息学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114490939B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608218B (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN111950285B (zh) | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN113112164A (zh) | 基于知识图谱的变压器故障诊断方法、装置及电子设备 | |
CN113435203B (zh) | 多模态命名实体识别方法、装置以及电子设备 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN108595525B (zh) | 一种律师信息处理方法和系统 | |
CN116701431A (zh) | 一种基于大语言模型的数据检索方法及系统 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN112035652A (zh) | 一种基于机器阅读理解的智能问答交互方法及系统 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN108681548A (zh) | 一种律师信息处理方法和系统 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN118069815B (zh) | 大语言模型反馈信息生成方法、装置、电子设备及介质 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN114461760A (zh) | 案件事实与法条匹配的方法及装置 | |
CN114490939B (zh) | 争议焦点推荐方法及装置 | |
CN116522912A (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN116450855A (zh) | 基于知识图谱的问答机器人的回复生成策略方法及系统 | |
CN116502637A (zh) | 一种结合上下文语义的文本关键词提取方法 | |
CN113901203A (zh) | 一种文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |