CN114490939B - 争议焦点推荐方法及装置 - Google Patents

争议焦点推荐方法及装置 Download PDF

Info

Publication number
CN114490939B
CN114490939B CN202210089545.9A CN202210089545A CN114490939B CN 114490939 B CN114490939 B CN 114490939B CN 202210089545 A CN202210089545 A CN 202210089545A CN 114490939 B CN114490939 B CN 114490939B
Authority
CN
China
Prior art keywords
dispute focus
sentence
dispute
focus
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210089545.9A
Other languages
English (en)
Other versions
CN114490939A (zh
Inventor
李东海
张博文
石崇德
李弘宇
张卫卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huayu Yuandian Information Services Co ltd
Original Assignee
Beijing Huayu Yuandian Information Services Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huayu Yuandian Information Services Co ltd filed Critical Beijing Huayu Yuandian Information Services Co ltd
Priority to CN202210089545.9A priority Critical patent/CN114490939B/zh
Publication of CN114490939A publication Critical patent/CN114490939A/zh
Application granted granted Critical
Publication of CN114490939B publication Critical patent/CN114490939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种争议焦点推荐方法及装置,用以解决争议焦点推荐准确率低的技术问题。其中,一种争议焦点推荐方案,分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。

Description

争议焦点推荐方法及装置
技术领域
本申请涉及文本推荐技术领域,尤其涉及一种争议焦点推荐方法及装置。
背景技术
争议焦点是整个案件的核心,是在庭审过程中原被告的主要矛盾所在,可以让法官在庭审中快速抓住整个案件的关键点。具体来说,一个案件可以有多个争议点,但争议焦点只是其中的几个关键争议,是原被告之间最大的矛盾点,找到争议焦点对解决整个纠纷有决定性作用。
争议焦点的类别和内容,均是由法律专业工作人员根据诉辩双方的陈述内容,并结合自身的法律工作经验总结而来,具有较强的专业性。争议焦点可以反映出诉辩双方的主要分歧和案件关键点,需要法律工作者投入大量精力进行总结和归纳。
在实现现有技术的过程中,发明人发现:
现有技术大多是利用信息抽取技术,提取法律文书中的高频信息,将其认定为争议焦点。这种提取方法并不智能,容易被无关信息干扰,从而得出错误的判断结果。
因此,需要提供一种争议焦点推荐方案,用以解决争议焦点推荐准确率低的技术问题。
发明内容
本申请实施例提供一种争议焦点推荐方案,用以解决争议焦点推荐准确率低的技术问题。
具体的,一种争议焦点推荐方法,包括以下步骤:
对辩诉内容进行分句,生成元素为句子单元的句子集合;
输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点;
其中,所述句子单元具有若干要素类别。
进一步的,根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
进一步的,根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
其中,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
进一步的,根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
进一步的,根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
本申请实施例还提供一种争议焦点推荐装置。
具体的,一种争议焦点推荐装置,包括:
分句模块,用于对辩诉内容进行分句,生成元素为句子单元的句子集合;
分类模块,用于输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
推荐模块,用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点;
其中,所述句子单元具有若干要素类别。
进一步的,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点,具体用于:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
进一步的,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
其中,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
进一步的,所述推荐模块用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体包括:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
进一步的,所述推荐模块用于根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
本申请实施例提供的技术方案,至少具有如下有益效果:
分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种争议焦点推荐方法的流程框图。
图2为本申请实施例提供的步骤S130的详细流程框图。
图3为本申请实施例提供的一种争议焦点推荐装置的结构示意图。
100 争议焦点推荐方法
11 分句模块
12 分类模块
13 推荐模块
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,本申请提供一种争议焦点推荐方法,包括以下步骤:
S110:对辩诉内容进行分句,生成元素为句子单元的句子集合。
可以理解的是,所述辩诉内容是庭审过程中或是诉辩状中诉辩双方所陈述的内容。所述辩诉内容至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。
进一步的,对辩诉内容使用分句模型,可以得到若干句子单元,所述若干句子单元构成句子集合。其中,所述分句模型可以是一种基于语言语法规则的神经网络算法模型,用于识别辩诉内容中的标点符号,并根据辩诉内容中的标点符号对辩诉内容进行分句,生成若干句子单元。例如,所述分句模型可以通过识别辩诉内容中的句号、感叹号、问号,确定任意两种标点符号间的文本作为句子单元。
S120:输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值。
需要指出的是,所述句子单元具有若干要素类别,所述要素类别可以理解为案由。而所述句子单元与要素类别具有归属概率值,所述归属概率值可以理解为是句子单元归属于该要素类别的概率。
进一步的,所述BERT模型(Bidirectional Encoder Representations fromTransformer)是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
本申请采用BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值,实质是采用BERT模型计算句子单元的语句语义值,并根据句子单元的语句语义值,利用BERT模型的预测机制,对句子单元对应若干要素类别的归属概率值进行预测。
S130:根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点。
需要指出的是,现有技术大多是利用信息抽取技术,提取法律文书中的高频信息,将其认定为争议焦点。这种提取方法并不智能,容易被无关信息干扰,从而得出错误的判断结果。
为此,本申请提供的争议焦点推荐方法分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,以提高争议焦点的推荐准确性。
具体的,请参照图2,所述步骤S130包括:
S131:根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点。
S132:根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点。
S133:根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
其中,步骤S131根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体表现为:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点。
可以理解的是,此处将句子单元各种归属要素的类别、句子单元各归属要素类别的最大概率值作为该句子单元的特征属性。则若干句子单元的特征属性可以构成句子特征集合。
将所述句子特征集合输入至训练后的争议焦点预测模型,可以得到第一推荐争议焦点。
需要强调的是,与生成模型需要多次纠错不同,本申请所采用的争议焦点预测模型在于可以通过寻找历史数据之间的自相关性,预测出推荐结果。因此,所述争议焦点预测模型的泛用性强。
在本申请提供的一种优选实施方式中,所述争议焦点预测模型表现为ARMA模型(Autoregressive moving average model,自回归滑动平均模型),可进行人工智能的深度学习。具体的,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
步骤S132根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体表现为:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
可以理解的是,根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别,实质上是除去句子单元归属可能性较低的类别,筛选出句子单元归属可能性较大的类别。
之后对同一类要素的归属概率值进行累加求和,再求出平均数,以作为该要素的归属概率均值。这样可以统计出各要素类别的平均概率值。从而直观看出句子集合整体的要素类别和与要素类别对应的概率分布。
当然,本申请还具有预设的争议焦点数据库。所述争议焦点数据库包括各要素类别对应的争议焦点项目,以及各争议焦点项目的预设权重值。
通过建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,可以得到所述要素类别对应的争议焦点和争议焦点的权重值。
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,可以计算争议焦点对应的置信度。之后以置信度从大到小的顺序排列争议焦点,选出置信度较大的前几项争议焦点作为第二推荐争议焦点。
在本申请提供的优选实施方式中,所述第一预设阈值为0.5,所述置信度TOP-K的元素为置信度前三的争议焦点项目。
步骤S133根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体表现为:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
换句话说,在同时存在第一推荐争议焦点和第二推荐争议焦点的情况下,优先推荐第二推荐争议焦点。当不存在第二推荐争议焦点时,选择ARMA模型预测出的第一推荐争议焦点作为最终争议焦点。
本申请提供的争议焦点推荐方法分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
请参照图3,为支持争议焦点推荐方法,本申请还提供一种争议焦点推荐装置100,包括:
分句模块11,用于对辩诉内容进行分句,生成元素为句子单元的句子集合;
分类模块12,用于输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
推荐模块13,用于根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点。
可以理解的是,所述辩诉内容是庭审过程中或是诉辩状中诉辩双方所陈述的内容。所述辩诉内容至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。
进一步的,所述分句模块11对辩诉内容进行分句,生成元素为句子单元的句子集合,具体表现为:
所述分句模块11对辩诉内容使用分句模型,可以得到若干句子单元,所述若干句子单元构成句子集合。
其中,所述分句模型可以是一种基于语言语法规则的神经网络算法模型,用于识别辩诉内容中的标点符号,并根据辩诉内容中的标点符号对辩诉内容进行分句,生成若干句子单元。例如,所述分句模型可以通过识别辩诉内容中的句号、感叹号、问号,确定任意两种标点符号间的文本作为句子单元。
进一步的,所述分类模块12输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值。
需要指出的是,所述句子单元具有若干要素类别,所述要素类别可以理解为案由。而所述句子单元与要素类别具有归属概率值,所述归属概率值可以理解为是句子单元归属于该要素类别的概率。
所述BERT模型(Bidirectional Encoder Representations from Transformer)是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
所述分类模块12采用BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值,实质是采用BERT模型计算句子单元的语句语义值,并根据句子单元的语句语义值,利用BERT模型的预测机制,对句子单元对应若干要素类别的归属概率值进行预测。
进一步的,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述辩诉内容的争议焦点。
需要指出的是,现有技术大多是利用信息抽取技术,提取法律文书中的高频信息,将其认定为争议焦点。这种提取方法并不智能,容易被无关信息干扰,从而得出错误的判断结果。
为此,本申请提供的争议焦点推荐装置100在分类模块12预测句子单元的要素类别和与要素类别对应的归属概率值后,所述推荐模块13分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。所述推荐模块13再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,以提高争议焦点的推荐准确性。
具体的,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点。同时,所述推荐模块13还根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点。最后,所述推荐模块13根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点。
其中,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点预测模型,得到第一推荐争议焦点,具体表现为:
所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
所述推荐模块13取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
所述推荐模块13输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点。
可以理解的是,此处所述推荐模块13将句子单元各种归属要素的类别、句子单元各归属要素类别的最大概率值作为该句子单元的特征属性。则若干句子单元的特征属性可以构成句子特征集合。
所述推荐模块13将所述句子特征集合输入至训练后的争议焦点预测模型,可以得到第一推荐争议焦点。
需要强调的是,与生成模型需要多次纠错不同,所述推荐模块13所采用的争议焦点预测模型在于可以通过寻找历史数据之间的自相关性,预测出推荐结果。因此,所述争议焦点预测模型的泛用性强。
在本申请提供的一种优选实施方式中,所述争议焦点预测模型表现为ARMA模型(Autoregressive moving average model,自回归滑动平均模型),可进行人工智能的深度学习。具体的,所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
进一步的,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,使用争议焦点生成策略,得到第二推荐争议焦点,具体表现为:
所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
所述推荐模块13建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
所述推荐模块13根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
所述推荐模块13确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二争议焦点。
可以理解的是,所述推荐模块13根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别,实质上是除去句子单元归属可能性较低的类别,筛选出句子单元归属可能性较大的类别。
之后所述推荐模块13对同一类要素的归属概率值进行累加求和,再求出平均数,以作为该要素的归属概率均值。这样可以统计出各要素类别的平均概率值。从而直观看出句子集合整体的要素类别和与要素类别对应的概率分布。
当然,所述争议焦点推荐装置100还具有预设的争议焦点数据库。所述争议焦点数据库包括各要素类别对应的争议焦点项目,以及各争议焦点项目的预设权重值。
所述推荐模块13通过建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,可以得到所述要素类别对应的争议焦点和争议焦点的权重值。
所述推荐模块13根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,可以计算争议焦点对应的置信度。之后所述推荐模块13以置信度从大到小的顺序排列争议焦点,选出置信度较大的前几项争议焦点作为第二推荐争议焦点。
在本申请提供的优选实施方式中,所述推荐模块13筛选出归属概率值超过0.5的要素类别,并记录这些要素类别对应的归属概率值。
之后所述推荐模块13以置信度从大到小的顺序排列各争议焦点项目,选出置信度前三的争议焦点项目作为第二推荐争议焦点。
进一步的,所述推荐模块13根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体表现为:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,所述推荐模块13选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,所述推荐模块13选择第一推荐争议焦点作为最终争议焦点。
换句话说,在同时存在第一推荐争议焦点和第二推荐争议焦点的情况下,所述推荐模块13优先推荐第二推荐争议焦点。当不存在第二推荐争议焦点时,所述推荐模块13选择ARMA模型预测出的第一推荐争议焦点作为最终争议焦点。
本申请提供的争议焦点推荐装置100分别通过预测模型得到第一推荐争议焦点,通过规则策略推荐得到第二推荐争议焦点。再通过预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,提高了争议焦点的推荐准确性。并且,通过使用ARMA模型对争议焦点进行预测,而不是通过生成模型对争议焦点进行提取,优化了预测效果和泛用性。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (4)

1.一种争议焦点推荐方法,其特征在于,包括以下步骤:
对辩诉内容进行分句,生成元素为句子单元的句子集合;
输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点;
其中,所述句子单元具有若干要素类别;
所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
2.如权利要求1所述的争议焦点推荐方法,其特征在于,根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
3.一种争议焦点推荐装置,其特征在于,包括:
分句模块,用于对辩诉内容进行分句,生成元素为句子单元的句子集合;
分类模块,用于输入所述句子集合至BERT模型,预测句子单元的要素类别和与要素类别对应的归属概率值;
推荐模块,用于:
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定所述句子单元对应各要素类别归属概率值的最大值;
取所述句子单元的各要素类别的最大概率值作为对应句子单元的特征属性,生成句子特征集合;
输入所述句子特征集合至训练后的争议焦点预测模型,得到第一推荐争议焦点;
根据所述句子单元的要素类别和与要素类别对应的归属概率值,确定概率值大于第一预设阈值的要素类别;
建立概率值大于第一预设阈值的要素类别在预设争议焦点数据库中的映射,得到所述要素类别对应的争议焦点和争议焦点的权重值;
根据所述要素类别的概率值、与所述要素类别映射的争议焦点、与所述要素类别映射的争议焦点的权重值,计算争议焦点对应的置信度;
确定由若干争议焦点构成的集合中的置信度TOP-K的元素,作为第二推荐争议焦点;
根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点;
其中,所述句子单元具有若干要素类别;
所述争议焦点预测模型通过以下步骤训练获得:
获取句子特征集合;
根据所述句子特征集合并通过神经网络,进行负反馈优化,以对所述争议焦点预测模型进行迭代训练;
所述句子特征集合中的元素为具有特征属性的句子单元;
所述句子单元还具有标签,且标签为争议焦点。
4.如权利要求3所述的争议焦点推荐装置,其特征在于,所述推荐模块用于根据预设选择策略,从所述第一推荐争议焦点和所述第二推荐争议焦点中选择出最终争议焦点,具体包括:
当同时存在第一推荐争议焦点和第二推荐争议焦点时,选择第二推荐争议焦点作为最终争议焦点;
当不存在第二推荐争议焦点时,选择第一推荐争议焦点作为最终争议焦点。
CN202210089545.9A 2022-01-25 2022-01-25 争议焦点推荐方法及装置 Active CN114490939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089545.9A CN114490939B (zh) 2022-01-25 2022-01-25 争议焦点推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089545.9A CN114490939B (zh) 2022-01-25 2022-01-25 争议焦点推荐方法及装置

Publications (2)

Publication Number Publication Date
CN114490939A CN114490939A (zh) 2022-05-13
CN114490939B true CN114490939B (zh) 2022-09-02

Family

ID=81475657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089545.9A Active CN114490939B (zh) 2022-01-25 2022-01-25 争议焦点推荐方法及装置

Country Status (1)

Country Link
CN (1) CN114490939B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988978A (zh) * 2015-03-04 2016-10-05 科大讯飞股份有限公司 确定文本焦点的方法及系统
CN110888927A (zh) * 2019-11-14 2020-03-17 东莞理工学院 简历信息抽取方法及系统
CN112182175A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN112613582A (zh) * 2021-01-05 2021-04-06 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN113468323A (zh) * 2021-06-01 2021-10-01 成都数之联科技有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076441A (zh) * 2020-01-06 2021-07-06 北京三星通信技术研究有限公司 关键词抽取方法、装置、电子设备及计算机可读存储介质
US11710070B2 (en) * 2020-04-20 2023-07-25 Microsoft Technology Licensing, Llc Machine learned model framework for screening question generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988978A (zh) * 2015-03-04 2016-10-05 科大讯飞股份有限公司 确定文本焦点的方法及系统
CN110888927A (zh) * 2019-11-14 2020-03-17 东莞理工学院 简历信息抽取方法及系统
CN112182175A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN112613582A (zh) * 2021-01-05 2021-04-06 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN113468323A (zh) * 2021-06-01 2021-10-01 成都数之联科技有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automatic Malware Clustering using Word Embeddings and Unsupervised Learning;Hugo Leonardo Duarte-Garcia等;《2019 7th International Workshop on Biometrics and Forensics (IWBF)》;20190621;1-6 *
基于外部知识和层级篇章表示的阅读理解方法;谭红叶等;《中文信息学报》;20200415(第04期);88-94 *
诉辩文本争议焦点识别方法研究与应用;徐明蔚;《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》;20220115(第01期);G120-19 *

Also Published As

Publication number Publication date
CN114490939A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN105608218B (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN113112164A (zh) 基于知识图谱的变压器故障诊断方法、装置及电子设备
CN111125334A (zh) 一种基于预训练的搜索问答系统
CN108595525B (zh) 一种律师信息处理方法和系统
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
US20200073890A1 (en) Intelligent search platforms
CN112100397A (zh) 基于双向门控循环单元的电力预案知识图谱构建方法及系统
WO2023070732A1 (zh) 一种基于深度学习的文本推荐方法、装置及相关介质
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN108681548A (zh) 一种律师信息处理方法和系统
KR20140049680A (ko) 규칙기반 다중 에이전트를 이용한 감성 분류 시스템 및 그 방법
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN111488453B (zh) 资源分级方法、装置、设备及存储介质
CN114676698A (zh) 一种基于知识图谱的设备故障关键信息提取方法及系统
CN116522912B (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN114490939B (zh) 争议焦点推荐方法及装置
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN116450855A (zh) 基于知识图谱的问答机器人的回复生成策略方法及系统
CN116432653A (zh) 一种多语种数据库的构建方法、装置、存储介质及设备
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant