CN112650838A

CN112650838A - 一种基于历史案件大数据的智能问答方法及系统

Info

Publication number: CN112650838A
Application number: CN202011635050.9A
Authority: CN
Inventors: 陈贵龙; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co Ltd
Current assignee: Nanjing Inspector Intelligent Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-13
Anticipated expiration: 2040-12-31
Also published as: CN112650838B

Abstract

本发明公开了一种基于历史案件大数据的智能问答方法及系统，其中该方法包括：步骤1，利用倒排索引建立法律法规、规章制度的法律库，构建倒排索引法律库，步骤3，构建法律与诉求问题的适用度计算模型，选取适用法律，步骤4，结合问题主题描述T计算优化系数，步骤5，返回适合问题Question答案；通过产品自动回答申请人或使用者的问题，帮助申请人智能解决问题，解放相关工作部门的人力物力；通过对匹配效率的提示使得系统能够实时回答，优化使用者体验。此外，本系统考虑到了申请人的情感状态，能够更好的安抚申请人情绪，避免出现情绪激动所产生的不理性行为。

Description

一种基于历史案件大数据的智能问答方法及系统

技术领域

本发明涉及涉及自然语言处理、知识图谱和智能案件处理领域，具体涉及一种基于历史案件大数据的智能问答方法及系统。

背景技术

目前的案件处理仍然是传统的申请人员通过线下/线上的方式提交请求申请，相关工作部门根据相关法律法规、工作规范、案例经验等形成相应的解决方案反馈给申请人。申请人缺乏有效的智能自助工具无法判断自身请求的合理合法性以及获取法律法规所规定的解决方案，部分申请人在难以快速获取有效的反馈时会采取不理性的措施。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：申请人缺乏自主问答系统，对于自身诉求无法获取可以参考的法律条文、规章制度，无法提前了解自身诉求的合理性以及解决方案。此外，申请人的口语化描述与法律条文的书面化描述存在较大差异，普通的检索系统无法准确回答相关问题且检索效率低下。无法根据申请人的使用体验进行系统优化。

发明内容

为了克服现有技术的不足，本公开实施例提供了一种基于历史案件大数据的智能问答方法及系统，提高了法律条文与问题适用度的准确性；提高使用者的满意度；帮助申请人智能解决问题，解放相关工作部门的人力物力；技术方案如下：

提供了一种基于历史案件大数据的智能问答方法，所述方法包括如下步骤：

步骤1，利用倒排索引建立法律法规、规章制度的法律库，构建倒排索引法律库

存储案件处理需要的法律法规文本、规章制度文本中每一章或每一节或每一条的文本数据，通过倒排索引建立法律库，

具体的，倒排索引是指将文本进行分词，通过词a构建文档集合S(a)＝{文档1，文档2，文档3，…}，文档集合S(a)中的每个文档是包含词a的一条法律条文，词a就是索引词语，而集合S(a)就是对应的值。

步骤2，提取请求人语音问题的文本

通过语音识别技术识别请求人通过语音方式描述的诉求问题的主题及具体问题，将描述的诉求问题转换为主题描述T和问题文本描述Q，对文本描述Q 进行细粒度分词得到分词结果segment(Q){Q1,Q2,Q3,....}；

步骤3，构建法律与诉求问题的适用度计算模型，选取适用法律。

通过分词结果segment(Q)，对于segment(Q)中的每个词语Qi(i＝1,2,3,…)，从倒排索引法律库获取包含词语Qi的文档S(Qi)，对于S(Qi)中的每个文档也就是法律条文L，根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用度，适用度越高的法律条文越适合作为问题的答案；

步骤4，结合问题主题描述T计算优化系数。

通过对问题主题描述T在不分词的基础上，优化适用度计算模型，设计主题描述T与法律条文L的优化系数

len(T),len(L)分别是主题描述T,法律条文L的字数

在优化系数设计时，当主题描述T字数越长，且法律条文L越短时，法律条文L包含了主题描述T的可能性越低，所以此种情况下法律条文L包含了主题描述T的适用度应当给予更高的值，γ(T,L)的表达式满足了这一点，且设置了上限阈值，避免优化系数过大。

步骤5，返回适合问题Question答案。

结合步骤3和步骤4的结果，得到问题Question与法律条文L的适用度：

Score(L,Question)＝Score(L,Q)*γ(T,L)

通过与问题的适用度计算，得到适用度从高到低的法律条文，根据需求选取其中一定数量适用度最高的法律条文作为答案。

优选的，步骤1还包括对于倒排索引中的索引词语，根据拼音首字母按顺序排序。

进一步的，步骤1所述将文本进行分词为：采用细粒度的分词技术，提取出文本中所有的词语。

优选的，步骤2还包括提取请求人的情感，根据语音的情感分析方法识别申请人描述问题时的情感状态类别，具体的，情感状态类别包括正面、中度、负面、极端激动。

优选的，当步骤2中问题文本描述Q过长时，先通过自动文摘提取技术筛选出问题描述的文摘，对文摘进行细粒度分词。

进一步的，提取技术筛选出问题描述的文摘，具体为:将问题文本描述Q以标点符号为间隔拆分为若干个句子，对于每个句子Sent，去除句子中的语气词、形容词，保留名词、动词、专有名词作为句子的保留词，统计这些词的总字数后除以句子自身字数得到句子的分值R(Sent)，

通过迭代更新分值的过程来计算最终每个句子作为文摘中句子的可能性：

对于每一轮更新过程，是从问题文本描述Q的第一个句子开始直至最后一个句子，依次更新每个句子Sent的分值R(Sent)为：

α+β＝1,α>0,β>0

是Sent相邻的K个句子，当β较大时，则反映了相邻句子的影响力较大，进行若干轮次的更新，直到更新轮次达到指定次数或每个句子的分值变化幅度小于给定百分比阈值，此时得到最后一轮更新后的每个句子的分值；

选取最后一轮更新后分值最高的若干句子，并按照在原问题描述中的顺序依次组合即形成原问题描述的文摘。

优选的，步骤3根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用度，具体为：

(1)记法律条文L与词语Qi的词频为TF值，法律条文L与词语Qi的逆词频IDF值；分别设计词频TF值的获取方法和设计逆词频IDF值的获取方法；

(2)计算法律条文L与Qi词语的使用者点击次数以及评分rate(L,Qi)，

在本智能问答系统中，使用者提问后，会返回不同的法律条文供查看，对于不同的条文结果，使用者可以根据是否解决自身问题提供相应的1～5的5个等级评分，5分表示该条法律条文最适用，1分表示该条法律条文用处低；通过使用者的评分，不断迭代优化计算算法，从而使得本系统能够动态改进，使用者认为有用的法律条文会不断提升其适用度分数；

在初始时，定义法律条文L与Qi词语的的评价分为3分，当后续使用者在提问的文本描述中出现Qi词语时，根据使用者对回答的条文L的新打分 new_socre，过去已经评分的次数rate_no，迭代更新法律条文L与Qi词语的的评价分rate(L,Qi)：

(3)法律条文L与Qi词语的适用度分值

Score(L,Qi)＝TF*IDF*rate(L,Qi)

(4)词语Qi与问题文本描述Q的权重

(5)法律条文L与问题文本描述Q的适用度总分

Score(L,Q)＝∑ω(Qi)*Score(L,Qi)Qi∈segment(Q)

进一步的，设计词频TF值的获取方法如下：

其中freq是Qi在L中出现的次数，出现次数越大则认为越相关，k是常数，可以取为2.0。len(L)是法律条文L的总字数，average length是法律库所有法律条文的平均字数；

设计逆词频IDF值的获取方法：

其中N是法律库中所有文档即法律条文的个数，n是法律库中包含词语Qi 的文档个数。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过对词频的平滑化处理以及将问题答案文本长度纳入考虑，计算了法律条文与问题词语的适用度，提供最适用的法律条文作为答案；通过主题优化系数，提高了法律条文与问题适用度的准确性；通过用户点击评分迭代更新使得系统能够不断优化，提高使用者的满意度；通过情感分析使得回答结果能够更好地安抚申请人情绪；通过建立倒排索引法律库使得检索效率得到提高。通过产品自动回答申请人或使用者的问题，帮助申请人智能解决问题，解放相关工作部门的人力物力；通过不断迭代优化的机制使得回答结果能够与时俱进，解决大部分人的问题；通过对匹配效率的提示使得系统能够实时回答，优化使用者体验。此外，本系统考虑到了申请人的情感状态，能够更好的安抚申请人情绪，避免出现情绪激动所产生的不理性行为。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。

第一方面，本公开实施例提供了一种基于历史案件大数据的智能问答方法，所述方法包括如下步骤：

具体的，倒排索引是指将文本进行分词，通过词a构建文档集合S(a)＝{文档1，文档2，文档3，…}，文档集合S(a)中的每个文档是包含词a的一条法律条文，词a就是索引词语，而集合S(a)就是对应的值。通过建立倒排索引，在检索词语时，可以快速地定位到包含检索词语的文档，而不需要遍历所有文档并依次判断是否包含检索词语，从而极大地减少了检索时间，提高了检索效率。

进一步的，对于倒排索引中的索引词语，根据拼音首字母按顺序排序，从而在检索时可以通过高效率的二分查找进一步节约检索时间。

优选的，将文本进行分词，采用细粒度的分词技术，提取出文本中所有的词语；需要说明的是分词后的词语之间可以存在重叠的字或词；分词方法上，区别于传统的中文分词，传统分词本质上是对句子进行截断，互不重叠，这会使得部分词语无法拆分出来。

步骤2，提取请求人语音问题的文本

考虑到申请人使用的便捷性，本智能问答系统不需要申请人输入大量文本，而是通过语音描述上诉问题以及诉求；

优选的，步骤2还包括提取请求人的情感，根据语音的情感分析方法识别申请人描述问题时的情感状态类别，具体的，情感状态类别包括正面、中度、负面、极端激动；

通过语音输入使得申请人更加方面的描述问题，而不需要写大量文字，此外通过语音可以更好地判断申请人的情绪，通过情感分析使得智能问答的结果更加人性化，有利于安抚申请人的情绪；

优选的，当步骤2中问题文本描述Q过长时，先通过自动文摘提取技术筛选出问题描述的文摘，对文摘进行细粒度分词；

当问题过于复杂或者过长时，步骤2中分词后会有大量的非关键的语气词等冗余词汇，其中某些冗余词汇甚至会出现较多次，从而使得步骤3中通过词频计算相似度的结果精准度下降；此外，当问题复杂或者篇幅较长时也会使得步骤4中的主题提取难度较大，所以当问题描述超过一定长度时，需要先通过自动文摘技术提取出对问题的摘要描述；通过自动文摘技术，进一步过滤提取了问题中的有用信息，避免无用的语气词等语句对结果产生干扰。

分值R(Sent)越高反映了保留词占比越大，说明了句子中的名词、动词、专有名词这些有价值的信息占比越大，也就是更可能作为文摘中的句子。

除了句子自身包含的词语信息外，在一个长篇中文文本中，每个句子之间往往是存在潜在逻辑和关联性的，如果一个句子是文章中的中心句，那其相邻的句子也更有可能是与文章中心思想相关联的。

α+β＝1,α>0,β>0

优选的，根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用度，具体为：

进一步的，设计词频TF值的获取方法如下：

其中freq是Qi在L中出现的次数，出现次数越大则认为越相关，k是常数，可以取为2.0。len(L)是法律条文L的总字数，average length是法律库所有法律条文的平均字数；传统的tf-idf算法计算公式中计算tf时直接使用词语出现的次数作为词频值，出现的次数越多认为越相关，而本技术方案中通过非线性变换，使得词频值存在一定阈值，且当词语出现次数很大时，变化更加平缓。且传统tf-idf算法没有考虑文档本身长度的影响，而本技术方案词频TF的计算方法中，通过将长度len(L)加入公式则会使得字数更少的相关度更高，当文档本身字数较大时，出现词语Qi的机会更多，此时在freq相同的情况下，较长文档的相关性应当比较短文档的相关性更弱。通过改进的词频计算公式，使得词频计算能够考虑到问题描述和法律条文的长度，并进行了非线性化平滑化的处理，避免出现某些非关键的常用词的词频值过大。

设计逆词频IDF值的获取方法：

其中N是法律库中所有文档即法律条文的个数，n是法律库中包含词语Qi 的文档个数，同样根据步骤1建立的倒排索引，很容易得到n的值就是词Qi索引对应文档集合的文档个数。

(3)法律条文L与Qi词语的适用度分值

Score(L,Qi)＝TF*IDF*rate(L,Qi)

(4)词语Qi与问题文本描述Q的权重

(5)法律条文L与问题文本描述Q的适用度总分

Score(L,Q)＝∑ω(Qi)*Score(L,Qi)Qi∈segment(Q)

这里没有简单对(4)中计算的法律条文与词语的分值求和，而是在(5) 中进一步计算了问题文本描述中每个词的权重，从而体现了不同词语在问题描述中的重要性。

通过步骤3的(1)～(6)步，计算得到了对于问题文本描述Q，法律条文库中不同法律条文对于问题文本描述Q的适用度，适用度越高的法律条文越适合作为问题的答案。并且通过使用者的评分，会不断优化系统的回答结果，使得返回的条文答案不断精准。

步骤4，结合问题主题描述T计算优化系数。

在获取不同法律条文L与词语Qi的适用度时，在其中对问题描述使用了分词处理，并且通过倒排索引建立了法律库提高检索效率，但是问题描述文本一般较长，词语较多，当法律文档中大量出现了其中某个不重要词汇时，容易影响结果准确率，例如问题是“公积金的钱”是更偏向公司管理的问题，但是某些金融类监管法律由于出现了大量“钱”这个词，会使得由于适用度较高而被错误返回。所以，通过对问题主题描述T在不分词的基础上进一步优化适用度计算模型，问题主题描述通常较为简短，当法律库的法律条文中同样完全出现了主题描述T，自然地会认为此时应当给予更高的适用度。

len(T),len(L)分别是主题描述T,法律条文L的字数

通过计算主题描述的优化系数，进一步提高了相似度计算的合理性，使得返回结果更加契合问题的主题，并且优化系数考虑到了主题字数和法律条文字数的影响。

步骤5，返回适合问题Question答案。

Score(L,Question)＝Score(L,Q)*γ(T,L)

根据心理常用知识，存储对不同情感状态下的常用语句，例如当使用者情绪极端激动时，答案中添加情绪安抚的语句，并提示可以人工进行相关安抚。通过步骤1中获取的使用者情感状态使用相应的情感常用语句，将法律条文通过口语化的描述输出，并且依据相应的法律条文提供合法/不合法诉求的结论。

第二方面，本公开实施例提供了一种基于历史案件大数据的智能问答系统，该系统包括获取单元、提取单元、计算单元、优化单元、输出单元；

所述获取单元，用于执行所有可能的实现方式中任一项所述的一种基于历史案件大数据的智能问答方法的步骤1的步骤；

所述提取单元，用于执行所有可能的实现方式中任一项所述的一种基于历史案件大数据的智能问答方法的步骤2的步骤；

所述计算单元，用于执行所有可能的实现方式中任一项所述的一种基于历史案件大数据的智能问答方法的步骤3的步骤；

所述优化单元，用于执行所有可能的实现方式中任一项所述的一种基于历史案件大数据的智能问答方法的步骤4的步骤；

所述输出单元，用于执行所有可能的实现方式中任一项所述的一种基于历史案件大数据的智能问答方法的步骤5的步骤。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于历史案件大数据的智能问答方法，其特征在于，该方法包括如下步骤：

具体的，倒排索引是指将文本进行分词，通过词a构建文档集合S(a)＝{文档1，文档2，文档3，…}，文档集合S(a)中的每个文档是包含词a的一条法律条文，词a就是索引词语，而集合S(a)就是对应的值；

步骤2，提取请求人语音问题的文本

通过语音识别技术识别请求人通过语音方式描述的诉求问题的主题及具体问题，将描述的诉求问题转换为主题描述T和问题文本描述Q，对文本描述Q进行细粒度分词得到分词结果segment(Q){Q1,Q2,Q3,....}；

步骤3，构建法律与诉求问题的适用度计算模型，选取适用法律；

步骤4，结合问题主题描述T计算优化系数；

len(T),len(L)分别是主题描述T,法律条文L的字数

在优化系数设计时，当主题描述T字数越长，且法律条文L越短时，法律条文L包含了主题描述T的可能性越低，所以此种情况下法律条文L包含了主题描述T的适用度应当给予更高的值，γ(T,L)的表达式满足了这一点，且设置了上限阈值，避免优化系数过大；

步骤5，返回适合问题Question答案；

Score(L,Question)＝Score(L,Q)*γ(T,L)

2.根据权利要求1所述的一种基于历史案件大数据的智能问答方法，其特征在于，步骤1还包括对于倒排索引中的索引词语，根据拼音首字母按顺序排序。

3.根据权利要求1所述的一种基于历史案件大数据的智能问答方法，其特征在于，步骤1所述将文本进行分词为：采用细粒度的分词技术，提取出文本中所有的词语。

4.根据权利要求1-3任一项所述的一种基于历史案件大数据的智能问答方法，其特征在于，步骤2还包括提取请求人的情感，根据语音的情感分析方法识别申请人描述问题时的情感状态类别，具体的，情感状态类别包括正面、中度、负面、极端激动。

5.根据权利要求1-3任一项所述的一种基于历史案件大数据的智能问答方法，其特征在于，当步骤2中问题文本描述Q过长时，先通过自动文摘提取技术筛选出问题描述的文摘，对文摘进行细粒度分词。

6.根据权利要求5所述的一种基于历史案件大数据的智能问答方法，其特征在于，提取技术筛选出问题描述的文摘，具体为，将问题文本描述Q以标点符号为间隔拆分为若干个句子，对于每个句子Sent，去除句子中的语气词、形容词，保留名词、动词、专有名词作为句子的保留词，统计这些词的总字数后除以句子自身字数得到句子的分值R(Sent)，