CN112650838A - 一种基于历史案件大数据的智能问答方法及系统 - Google Patents

一种基于历史案件大数据的智能问答方法及系统 Download PDF

Info

Publication number
CN112650838A
CN112650838A CN202011635050.9A CN202011635050A CN112650838A CN 112650838 A CN112650838 A CN 112650838A CN 202011635050 A CN202011635050 A CN 202011635050A CN 112650838 A CN112650838 A CN 112650838A
Authority
CN
China
Prior art keywords
legal
question
word
words
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011635050.9A
Other languages
English (en)
Other versions
CN112650838B (zh
Inventor
陈贵龙
周金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202011635050.9A priority Critical patent/CN112650838B/zh
Publication of CN112650838A publication Critical patent/CN112650838A/zh
Application granted granted Critical
Publication of CN112650838B publication Critical patent/CN112650838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Technology Law (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于历史案件大数据的智能问答方法及系统,其中该方法包括:步骤1,利用倒排索引建立法律法规、规章制度的法律库,构建倒排索引法律库,步骤3,构建法律与诉求问题的适用度计算模型,选取适用法律,步骤4,结合问题主题描述T计算优化系数,步骤5,返回适合问题Question答案;通过产品自动回答申请人或使用者的问题,帮助申请人智能解决问题,解放相关工作部门的人力物力;通过对匹配效率的提示使得系统能够实时回答,优化使用者体验。此外,本系统考虑到了申请人的情感状态,能够更好的安抚申请人情绪,避免出现情绪激动所产生的不理性行为。

Description

一种基于历史案件大数据的智能问答方法及系统
技术领域
本发明涉及涉及自然语言处理、知识图谱和智能案件处理领域,具体涉及一 种基于历史案件大数据的智能问答方法及系统。
背景技术
目前的案件处理仍然是传统的申请人员通过线下/线上的方式提交请求申请, 相关工作部门根据相关法律法规、工作规范、案例经验等形成相应的解决方案反 馈给申请人。申请人缺乏有效的智能自助工具无法判断自身请求的合理合法性以 及获取法律法规所规定的解决方案,部分申请人在难以快速获取有效的反馈时会 采取不理性的措施。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:申请人缺 乏自主问答系统,对于自身诉求无法获取可以参考的法律条文、规章制度,无法 提前了解自身诉求的合理性以及解决方案。此外,申请人的口语化描述与法律条 文的书面化描述存在较大差异,普通的检索系统无法准确回答相关问题且检索效 率低下。无法根据申请人的使用体验进行系统优化。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于历史案件大数据 的智能问答方法及系统,提高了法律条文与问题适用度的准确性;提高使用者 的满意度;帮助申请人智能解决问题,解放相关工作部门的人力物力;技术方 案如下:
提供了一种基于历史案件大数据的智能问答方法,所述方法包括如下步 骤:
步骤1,利用倒排索引建立法律法规、规章制度的法律库,构建倒排索引 法律库
存储案件处理需要的法律法规文本、规章制度文本中每一章或每一节或每 一条的文本数据,通过倒排索引建立法律库,
具体的,倒排索引是指将文本进行分词,通过词a构建文档集合S(a)={文 档1,文档2,文档3,…},文档集合S(a)中的每个文档是包含词a的一条法律 条文,词a就是索引词语,而集合S(a)就是对应的值。
步骤2,提取请求人语音问题的文本
通过语音识别技术识别请求人通过语音方式描述的诉求问题的主题及具体 问题,将描述的诉求问题转换为主题描述T和问题文本描述Q,对文本描述Q 进行细粒度分词得到分词结果segment(Q){Q1,Q2,Q3,....};
步骤3,构建法律与诉求问题的适用度计算模型,选取适用法律。
通过分词结果segment(Q),对于segment(Q)中的每个词语Qi(i=1,2,3,…), 从倒排索引法律库获取包含词语Qi的文档S(Qi),对于S(Qi)中的每个文档也就 是法律条文L,根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用 度,适用度越高的法律条文越适合作为问题的答案;
步骤4,结合问题主题描述T计算优化系数。
通过对问题主题描述T在不分词的基础上,优化适用度计算模型,设计主 题描述T与法律条文L的优化系数
Figure BDA0002880946050000021
len(T),len(L)分别是主题描述T,法律条文L的字数
在优化系数设计时,当主题描述T字数越长,且法律条文L越短时,法律 条文L包含了主题描述T的可能性越低,所以此种情况下法律条文L包含了主 题描述T的适用度应当给予更高的值,γ(T,L)的表达式满足了这一点,且设置 了上限阈值,避免优化系数过大。
步骤5,返回适合问题Question答案。
结合步骤3和步骤4的结果,得到问题Question与法律条文L的适用度:
Score(L,Question)=Score(L,Q)*γ(T,L)
通过与问题的适用度计算,得到适用度从高到低的法律条文,根据需求选 取其中一定数量适用度最高的法律条文作为答案。
优选的,步骤1还包括对于倒排索引中的索引词语,根据拼音首字母按顺 序排序。
进一步的,步骤1所述将文本进行分词为:采用细粒度的分词技术,提取 出文本中所有的词语。
优选的,步骤2还包括提取请求人的情感,根据语音的情感分析方法识别 申请人描述问题时的情感状态类别,具体的,情感状态类别包括正面、中度、 负面、极端激动。
优选的,当步骤2中问题文本描述Q过长时,先通过自动文摘提取技术筛 选出问题描述的文摘,对文摘进行细粒度分词。
进一步的,提取技术筛选出问题描述的文摘,具体为:将问题文本描述Q以 标点符号为间隔拆分为若干个句子,对于每个句子Sent,去除句子中的语气 词、形容词,保留名词、动词、专有名词作为句子的保留词,统计这些词的总 字数后除以句子自身字数得到句子的分值R(Sent),
通过迭代更新分值的过程来计算最终每个句子作为文摘中句子的可能性:
对于每一轮更新过程,是从问题文本描述Q的第一个句子开始直至最后一 个句子,依次更新每个句子Sent的分值R(Sent)为:
Figure BDA0002880946050000031
α+β=1,α>0,β>0
Figure BDA0002880946050000032
是Sent相邻的K个句子,当β较大时,则反映了相邻句子的影响力较 大,进行若干轮次的更新,直到更新轮次达到指定次数或每个句子的分值变化 幅度小于给定百分比阈值,此时得到最后一轮更新后的每个句子的分值;
选取最后一轮更新后分值最高的若干句子,并按照在原问题描述中的顺序 依次组合即形成原问题描述的文摘。
优选的,步骤3根据tf-idf算法设计模型计算不同法律条文L与词语Qi的 适用度,具体为:
(1)记法律条文L与词语Qi的词频为TF值,法律条文L与词语Qi的逆 词频IDF值;分别设计词频TF值的获取方法和设计逆词频IDF值的获取方法;
(2)计算法律条文L与Qi词语的使用者点击次数以及评分rate(L,Qi),
在本智能问答系统中,使用者提问后,会返回不同的法律条文供查看,对 于不同的条文结果,使用者可以根据是否解决自身问题提供相应的1~5的5个 等级评分,5分表示该条法律条文最适用,1分表示该条法律条文用处低;通 过使用者的评分,不断迭代优化计算算法,从而使得本系统能够动态改进,使 用者认为有用的法律条文会不断提升其适用度分数;
在初始时,定义法律条文L与Qi词语的的评价分为3分,当后续使用者在 提问的文本描述中出现Qi词语时,根据使用者对回答的条文L的新打分 new_socre,过去已经评分的次数rateno,迭代更新法律条文L与Qi词语的的 评价分rate(L,Qi):
Figure BDA0002880946050000041
(3)法律条文L与Qi词语的适用度分值
Score(L,Qi)=TF*IDF*rate(L,Qi)
(4)词语Qi与问题文本描述Q的权重
Figure BDA0002880946050000042
(5)法律条文L与问题文本描述Q的适用度总分
Score(L,Q)=∑ω(Qi)*Score(L,Qi)Qi∈segment(Q)
进一步的,设计词频TF值的获取方法如下:
Figure BDA0002880946050000043
其中freq是Qi在L中出现的次数,出现次数越大则认为越相关,k是常 数,可以取为2.0。len(L)是法律条文L的总字数,average length是法律库所 有法律条文的平均字数;
设计逆词频IDF值的获取方法:
Figure BDA0002880946050000044
其中N是法律库中所有文档即法律条文的个数,n是法律库中包含词语Qi 的文档个数。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通 过对词频的平滑化处理以及将问题答案文本长度纳入考虑,计算了法律条文与 问题词语的适用度,提供最适用的法律条文作为答案;通过主题优化系数,提 高了法律条文与问题适用度的准确性;通过用户点击评分迭代更新使得系统能 够不断优化,提高使用者的满意度;通过情感分析使得回答结果能够更好地安 抚申请人情绪;通过建立倒排索引法律库使得检索效率得到提高。通过产品自 动回答申请人或使用者的问题,帮助申请人智能解决问题,解放相关工作部门 的人力物力;通过不断迭代优化的机制使得回答结果能够与时俱进,解决大部 分人的问题;通过对匹配效率的提示使得系统能够实时回答,优化使用者体 验。此外,本系统考虑到了申请人的情感状态,能够更好的安抚申请人情绪, 避免出现情绪激动所产生的不理性行为。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步 的详细描述。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此 不再一一赘述。
本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似 描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解 这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能 够以除了在这里描述的那些以外的顺序实施。
第一方面,本公开实施例提供了一种基于历史案件大数据的智能问答方法, 所述方法包括如下步骤:
步骤1,利用倒排索引建立法律法规、规章制度的法律库,构建倒排索引 法律库
存储案件处理需要的法律法规文本、规章制度文本中每一章或每一节或每 一条的文本数据,通过倒排索引建立法律库,
具体的,倒排索引是指将文本进行分词,通过词a构建文档集合S(a)={文 档1,文档2,文档3,…},文档集合S(a)中的每个文档是包含词a的一条法律 条文,词a就是索引词语,而集合S(a)就是对应的值。通过建立倒排索引,在 检索词语时,可以快速地定位到包含检索词语的文档,而不需要遍历所有文档 并依次判断是否包含检索词语,从而极大地减少了检索时间,提高了检索效 率。
进一步的,对于倒排索引中的索引词语,根据拼音首字母按顺序排序,从 而在检索时可以通过高效率的二分查找进一步节约检索时间。
优选的,将文本进行分词,采用细粒度的分词技术,提取出文本中所有的 词语;需要说明的是分词后的词语之间可以存在重叠的字或词;分词方法上, 区别于传统的中文分词,传统分词本质上是对句子进行截断,互不重叠,这会 使得部分词语无法拆分出来。
步骤2,提取请求人语音问题的文本
考虑到申请人使用的便捷性,本智能问答系统不需要申请人输入大量文 本,而是通过语音描述上诉问题以及诉求;
通过语音识别技术识别请求人通过语音方式描述的诉求问题的主题及具体 问题,将描述的诉求问题转换为主题描述T和问题文本描述Q,对文本描述Q 进行细粒度分词得到分词结果segment(Q){Q1,Q2,Q3,....};
优选的,步骤2还包括提取请求人的情感,根据语音的情感分析方法识别 申请人描述问题时的情感状态类别,具体的,情感状态类别包括正面、中度、 负面、极端激动;
通过语音输入使得申请人更加方面的描述问题,而不需要写大量文字,此 外通过语音可以更好地判断申请人的情绪,通过情感分析使得智能问答的结果 更加人性化,有利于安抚申请人的情绪;
优选的,当步骤2中问题文本描述Q过长时,先通过自动文摘提取技术筛 选出问题描述的文摘,对文摘进行细粒度分词;
当问题过于复杂或者过长时,步骤2中分词后会有大量的非关键的语气词 等冗余词汇,其中某些冗余词汇甚至会出现较多次,从而使得步骤3中通过词 频计算相似度的结果精准度下降;此外,当问题复杂或者篇幅较长时也会使得 步骤4中的主题提取难度较大,所以当问题描述超过一定长度时,需要先通过 自动文摘技术提取出对问题的摘要描述;通过自动文摘技术,进一步过滤提取 了问题中的有用信息,避免无用的语气词等语句对结果产生干扰。
进一步的,提取技术筛选出问题描述的文摘,具体为:将问题文本描述Q以 标点符号为间隔拆分为若干个句子,对于每个句子Sent,去除句子中的语气 词、形容词,保留名词、动词、专有名词作为句子的保留词,统计这些词的总 字数后除以句子自身字数得到句子的分值R(Sent),
分值R(Sent)越高反映了保留词占比越大,说明了句子中的名词、动词、专 有名词这些有价值的信息占比越大,也就是更可能作为文摘中的句子。
除了句子自身包含的词语信息外,在一个长篇中文文本中,每个句子之间 往往是存在潜在逻辑和关联性的,如果一个句子是文章中的中心句,那其相邻 的句子也更有可能是与文章中心思想相关联的。
通过迭代更新分值的过程来计算最终每个句子作为文摘中句子的可能性:
对于每一轮更新过程,是从问题文本描述Q的第一个句子开始直至最后一 个句子,依次更新每个句子Sent的分值R(Sent)为:
Figure BDA0002880946050000071
α+β=1,α>0,β>0
Figure BDA0002880946050000072
是Sent相邻的K个句子,当β较大时,则反映了相邻句子的影响力较 大,进行若干轮次的更新,直到更新轮次达到指定次数或每个句子的分值变化 幅度小于给定百分比阈值,此时得到最后一轮更新后的每个句子的分值;
选取最后一轮更新后分值最高的若干句子,并按照在原问题描述中的顺序 依次组合即形成原问题描述的文摘。
步骤3,构建法律与诉求问题的适用度计算模型,选取适用法律。
通过分词结果segment(Q),对于segment(Q)中的每个词语Qi(i=1,2,3,…), 从倒排索引法律库获取包含词语Qi的文档S(Qi),对于S(Qi)中的每个文档也就 是法律条文L,根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用 度,适用度越高的法律条文越适合作为问题的答案;
优选的,根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用 度,具体为:
(1)记法律条文L与词语Qi的词频为TF值,法律条文L与词语Qi的逆 词频IDF值;分别设计词频TF值的获取方法和设计逆词频IDF值的获取方法;
进一步的,设计词频TF值的获取方法如下:
Figure BDA0002880946050000073
其中freq是Qi在L中出现的次数,出现次数越大则认为越相关,k是常 数,可以取为2.0。len(L)是法律条文L的总字数,average length是法律库所 有法律条文的平均字数;传统的tf-idf算法计算公式中计算tf时直接使用词语 出现的次数作为词频值,出现的次数越多认为越相关,而本技术方案中通过非 线性变换,使得词频值存在一定阈值,且当词语出现次数很大时,变化更加平 缓。且传统tf-idf算法没有考虑文档本身长度的影响,而本技术方案词频TF的 计算方法中,通过将长度len(L)加入公式则会使得字数更少的相关度更高,当 文档本身字数较大时,出现词语Qi的机会更多,此时在freq相同的情况下,较长文档的相关性应当比较短文档的相关性更弱。通过改进的词频计算公式,使 得词频计算能够考虑到问题描述和法律条文的长度,并进行了非线性化平滑化 的处理,避免出现某些非关键的常用词的词频值过大。
设计逆词频IDF值的获取方法:
Figure BDA0002880946050000081
其中N是法律库中所有文档即法律条文的个数,n是法律库中包含词语Qi 的文档个数,同样根据步骤1建立的倒排索引,很容易得到n的值就是词Qi索 引对应文档集合的文档个数。
(2)计算法律条文L与Qi词语的使用者点击次数以及评分rate(L,Qi),
在本智能问答系统中,使用者提问后,会返回不同的法律条文供查看,对 于不同的条文结果,使用者可以根据是否解决自身问题提供相应的1~5的5个 等级评分,5分表示该条法律条文最适用,1分表示该条法律条文用处低;通 过使用者的评分,不断迭代优化计算算法,从而使得本系统能够动态改进,使 用者认为有用的法律条文会不断提升其适用度分数;
在初始时,定义法律条文L与Qi词语的的评价分为3分,当后续使用者在 提问的文本描述中出现Qi词语时,根据使用者对回答的条文L的新打分 new_socre,过去已经评分的次数rateno,迭代更新法律条文L与Qi词语的的 评价分rate(L,Qi):
Figure BDA0002880946050000082
(3)法律条文L与Qi词语的适用度分值
Score(L,Qi)=TF*IDF*rate(L,Qi)
(4)词语Qi与问题文本描述Q的权重
Figure BDA0002880946050000083
(5)法律条文L与问题文本描述Q的适用度总分
Score(L,Q)=∑ω(Qi)*Score(L,Qi)Qi∈segment(Q)
这里没有简单对(4)中计算的法律条文与词语的分值求和,而是在(5) 中进一步计算了问题文本描述中每个词的权重,从而体现了不同词语在问题描 述中的重要性。
通过步骤3的(1)~(6)步,计算得到了对于问题文本描述Q,法律条 文库中不同法律条文对于问题文本描述Q的适用度,适用度越高的法律条文越 适合作为问题的答案。并且通过使用者的评分,会不断优化系统的回答结果, 使得返回的条文答案不断精准。
步骤4,结合问题主题描述T计算优化系数。
在获取不同法律条文L与词语Qi的适用度时,在其中对问题描述使用了分 词处理,并且通过倒排索引建立了法律库提高检索效率,但是问题描述文本一 般较长,词语较多,当法律文档中大量出现了其中某个不重要词汇时,容易影 响结果准确率,例如问题是“公积金的钱”是更偏向公司管理的问题,但是某 些金融类监管法律由于出现了大量“钱”这个词,会使得由于适用度较高而被 错误返回。所以,通过对问题主题描述T在不分词的基础上进一步优化适用度 计算模型,问题主题描述通常较为简短,当法律库的法律条文中同样完全出现 了主题描述T,自然地会认为此时应当给予更高的适用度。
通过对问题主题描述T在不分词的基础上,优化适用度计算模型,设计主 题描述T与法律条文L的优化系数
Figure BDA0002880946050000091
len(T),len(L)分别是主题描述T,法律条文L的字数
在优化系数设计时,当主题描述T字数越长,且法律条文L越短时,法律 条文L包含了主题描述T的可能性越低,所以此种情况下法律条文L包含了主 题描述T的适用度应当给予更高的值,γ(T,L)的表达式满足了这一点,且设置 了上限阈值,避免优化系数过大。
通过计算主题描述的优化系数,进一步提高了相似度计算的合理性,使得 返回结果更加契合问题的主题,并且优化系数考虑到了主题字数和法律条文字 数的影响。
步骤5,返回适合问题Question答案。
结合步骤3和步骤4的结果,得到问题Question与法律条文L的适用度:
Score(L,Question)=Score(L,Q)*γ(T,L)
通过与问题的适用度计算,得到适用度从高到低的法律条文,根据需求选 取其中一定数量适用度最高的法律条文作为答案。
根据心理常用知识,存储对不同情感状态下的常用语句,例如当使用者情绪 极端激动时,答案中添加情绪安抚的语句,并提示可以人工进行相关安抚。通过 步骤1中获取的使用者情感状态使用相应的情感常用语句,将法律条文通过口 语化的描述输出,并且依据相应的法律条文提供合法/不合法诉求的结论。
第二方面,本公开实施例提供了一种基于历史案件大数据的智能问答系统, 该系统包括获取单元、提取单元、计算单元、优化单元、输出单元;
所述获取单元,用于执行所有可能的实现方式中任一项所述的一种基于历 史案件大数据的智能问答方法的步骤1的步骤;
所述提取单元,用于执行所有可能的实现方式中任一项所述的一种基于历 史案件大数据的智能问答方法的步骤2的步骤;
所述计算单元,用于执行所有可能的实现方式中任一项所述的一种基于历 史案件大数据的智能问答方法的步骤3的步骤;
所述优化单元,用于执行所有可能的实现方式中任一项所述的一种基于历 史案件大数据的智能问答方法的步骤4的步骤;
所述输出单元,用于执行所有可能的实现方式中任一项所述的一种基于历 史案件大数据的智能问答方法的步骤5的步骤。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的 限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或 者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的, 均在本发明的保护范围之内。

Claims (9)

1.一种基于历史案件大数据的智能问答方法,其特征在于,该方法包括如下步骤:
步骤1,利用倒排索引建立法律法规、规章制度的法律库,构建倒排索引法律库
存储案件处理需要的法律法规文本、规章制度文本中每一章或每一节或每一条的文本数据,通过倒排索引建立法律库,
具体的,倒排索引是指将文本进行分词,通过词a构建文档集合S(a)={文档1,文档2,文档3,…},文档集合S(a)中的每个文档是包含词a的一条法律条文,词a就是索引词语,而集合S(a)就是对应的值;
步骤2,提取请求人语音问题的文本
通过语音识别技术识别请求人通过语音方式描述的诉求问题的主题及具体问题,将描述的诉求问题转换为主题描述T和问题文本描述Q,对文本描述Q进行细粒度分词得到分词结果segment(Q){Q1,Q2,Q3,....};
步骤3,构建法律与诉求问题的适用度计算模型,选取适用法律;
通过分词结果segment(Q),对于segment(Q)中的每个词语Qi(i=1,2,3,…),从倒排索引法律库获取包含词语Qi的文档S(Qi),对于S(Qi)中的每个文档也就是法律条文L,根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用度,适用度越高的法律条文越适合作为问题的答案;
步骤4,结合问题主题描述T计算优化系数;
通过对问题主题描述T在不分词的基础上,优化适用度计算模型,设计主题描述T与法律条文L的优化系数
Figure FDA0002880946040000011
len(T),len(L)分别是主题描述T,法律条文L的字数
在优化系数设计时,当主题描述T字数越长,且法律条文L越短时,法律条文L包含了主题描述T的可能性越低,所以此种情况下法律条文L包含了主题描述T的适用度应当给予更高的值,γ(T,L)的表达式满足了这一点,且设置了上限阈值,避免优化系数过大;
步骤5,返回适合问题Question答案;
结合步骤3和步骤4的结果,得到问题Question与法律条文L的适用度:
Score(L,Question)=Score(L,Q)*γ(T,L)
通过与问题的适用度计算,得到适用度从高到低的法律条文,根据需求选取其中一定数量适用度最高的法律条文作为答案。
2.根据权利要求1所述的一种基于历史案件大数据的智能问答方法,其特征在于,步骤1还包括对于倒排索引中的索引词语,根据拼音首字母按顺序排序。
3.根据权利要求1所述的一种基于历史案件大数据的智能问答方法,其特征在于,步骤1所述将文本进行分词为:采用细粒度的分词技术,提取出文本中所有的词语。
4.根据权利要求1-3任一项所述的一种基于历史案件大数据的智能问答方法,其特征在于,步骤2还包括提取请求人的情感,根据语音的情感分析方法识别申请人描述问题时的情感状态类别,具体的,情感状态类别包括正面、中度、负面、极端激动。
5.根据权利要求1-3任一项所述的一种基于历史案件大数据的智能问答方法,其特征在于,当步骤2中问题文本描述Q过长时,先通过自动文摘提取技术筛选出问题描述的文摘,对文摘进行细粒度分词。
6.根据权利要求5所述的一种基于历史案件大数据的智能问答方法,其特征在于,提取技术筛选出问题描述的文摘,具体为,将问题文本描述Q以标点符号为间隔拆分为若干个句子,对于每个句子Sent,去除句子中的语气词、形容词,保留名词、动词、专有名词作为句子的保留词,统计这些词的总字数后除以句子自身字数得到句子的分值R(Sent),
通过迭代更新分值的过程来计算最终每个句子作为文摘中句子的可能性:
对于每一轮更新过程,是从问题文本描述Q的第一个句子开始直至最后一个句子,依次更新每个句子Sent的分值R(Sent)为:
Figure FDA0002880946040000021
α+β=1,α>0,β>0
Figure FDA0002880946040000022
是Sent相邻的K个句子,当β较大时,则反映了相邻句子的影响力较大,进行若干轮次的更新,直到更新轮次达到指定次数或每个句子的分值变化幅度小于给定百分比阈值,此时得到最后一轮更新后的每个句子的分值;
选取最后一轮更新后分值最高的若干句子,并按照在原问题描述中的顺序依次组合即形成原问题描述的文摘。
7.根据权利要求6所述的一种基于历史案件大数据的智能问答方法,其特征在于,
步骤3根据tf-idf算法设计模型计算不同法律条文L与词语Qi的适用度,具体为:
(1)记法律条文L与词语Qi的词频为TF值,法律条文L与词语Qi的逆词频IDF值;分别设计词频TF值的获取方法和设计逆词频IDF值的获取方法;
(2)计算法律条文L与Qi词语的使用者点击次数以及评分rate(L,Qi),
在本智能问答系统中,使用者提问后,会返回不同的法律条文供查看,对于不同的条文结果,使用者可以根据是否解决自身问题提供相应的1~5的5个等级评分,5分表示该条法律条文最适用,1分表示该条法律条文用处低;通过使用者的评分,不断迭代优化计算算法,从而使得本系统能够动态改进,使用者认为有用的法律条文会不断提升其适用度分数;
在初始时,定义法律条文L与Qi词语的的评价分为3分,当后续使用者在提问的文本描述中出现Qi词语时,根据使用者对回答的条文L的新打分new_socre,过去已经评分的次数rateno,迭代更新法律条文L与Qi词语的的评价分rate(L,Qi):
Figure FDA0002880946040000031
(3)法律条文L与Qi词语的适用度分值
Score(L,Qi)=TF*IDF*rate(L,Qi)
(4)词语Qi与问题文本描述Q的权重
Figure FDA0002880946040000032
(5)法律条文L与问题文本描述Q的适用度总分
Score(L,Q)=∑ω(Qi)*Score(L,Qi)Qi∈segment(Q)。
8.根据权利要求7所述的一种基于历史案件大数据的智能问答方法,其特征在于,
设计词频TF值的获取方法如下:
Figure FDA0002880946040000041
其中freq是Qi在L中出现的次数,出现次数越大则认为越相关,k是常数,可以取为2.0;len(L)是法律条文L的总字数,average length是法律库所有法律条文的平均字数;
设计逆词频IDF值的获取方法:
Figure FDA0002880946040000042
其中N是法律库中所有文档即法律条文的个数,n是法律库中包含词语Qi的文档个数。
9.一种基于历史案件大数据的智能问答系统,其特征在于,该系统包括获取单元、提取单元、计算单元、优化单元、输出单元;
所述获取单元,用于执行权利要求1-8任一项所述的一种基于历史案件大数据的智能问答方法的步骤1的步骤;
所述提取单元,用于执行权利要求1-8任一项所述的一种基于历史案件大数据的智能问答方法的步骤2的步骤;
所述计算单元,用于执行权利要求1-8任一项所述的一种基于历史案件大数据的智能问答方法的步骤3的步骤;
所述优化单元,用于执行权利要求1-8任一项所述的一种基于历史案件大数据的智能问答方法的步骤4的步骤;
所述输出单元,用于执行权利要求1-8任一项所述的一种基于历史案件大数据的智能问答方法的步骤5的步骤。
CN202011635050.9A 2020-12-31 2020-12-31 一种基于历史案件大数据的智能问答方法及系统 Active CN112650838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011635050.9A CN112650838B (zh) 2020-12-31 2020-12-31 一种基于历史案件大数据的智能问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011635050.9A CN112650838B (zh) 2020-12-31 2020-12-31 一种基于历史案件大数据的智能问答方法及系统

Publications (2)

Publication Number Publication Date
CN112650838A true CN112650838A (zh) 2021-04-13
CN112650838B CN112650838B (zh) 2023-07-14

Family

ID=75367139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011635050.9A Active CN112650838B (zh) 2020-12-31 2020-12-31 一种基于历史案件大数据的智能问答方法及系统

Country Status (1)

Country Link
CN (1) CN112650838B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101310274A (zh) * 2005-11-14 2008-11-19 马克森斯公司 知识相关性搜索引擎
US20120035906A1 (en) * 2010-08-05 2012-02-09 David Lynton Jephcott Translation Station
US20150088502A1 (en) * 2000-05-31 2015-03-26 Voicefill Llc Voice Recognition System For Interactively Gathering Information To Generate Documents
CN107133349A (zh) * 2017-05-24 2017-09-05 北京无忧创新科技有限公司 一种对话机器人系统
CN107220912A (zh) * 2017-06-12 2017-09-29 上海市高级人民法院 诉讼服务智能系统及机器人
CN109086368A (zh) * 2018-07-20 2018-12-25 吴怡 一种基于人工智能云平台的法律咨询机器人
CN109447048A (zh) * 2018-12-25 2019-03-08 苏州闪驰数控系统集成有限公司 一种人工智能预警系统
CN110209777A (zh) * 2018-02-13 2019-09-06 北京三星通信技术研究有限公司 问答的方法及电子设备
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
US20190369957A1 (en) * 2017-05-30 2019-12-05 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
CN110647618A (zh) * 2018-06-27 2020-01-03 奥多比公司 对话查询应答系统
CN110765246A (zh) * 2019-09-29 2020-02-07 平安直通咨询有限公司上海分公司 基于智能机器人的问答方法、装置、存储介质和智能设备
CN110851692A (zh) * 2018-07-27 2020-02-28 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110955762A (zh) * 2019-11-01 2020-04-03 上海百事通信息技术股份有限公司 一种智能问答平台
CN110970021A (zh) * 2018-09-30 2020-04-07 航天信息股份有限公司 一种问答控制方法、装置及系统
CN111274779A (zh) * 2020-02-29 2020-06-12 重庆百事得大牛机器人有限公司 基于用户体验预测的法律文书生成系统及方法
CN111324721A (zh) * 2020-03-16 2020-06-23 云南电网有限责任公司信息中心 一种智能问答知识库的构建方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150088502A1 (en) * 2000-05-31 2015-03-26 Voicefill Llc Voice Recognition System For Interactively Gathering Information To Generate Documents
CN101310274A (zh) * 2005-11-14 2008-11-19 马克森斯公司 知识相关性搜索引擎
US20120035906A1 (en) * 2010-08-05 2012-02-09 David Lynton Jephcott Translation Station
CN107133349A (zh) * 2017-05-24 2017-09-05 北京无忧创新科技有限公司 一种对话机器人系统
US20200334008A1 (en) * 2017-05-30 2020-10-22 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
US20190369957A1 (en) * 2017-05-30 2019-12-05 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
CN107220912A (zh) * 2017-06-12 2017-09-29 上海市高级人民法院 诉讼服务智能系统及机器人
CN110209777A (zh) * 2018-02-13 2019-09-06 北京三星通信技术研究有限公司 问答的方法及电子设备
CN110647618A (zh) * 2018-06-27 2020-01-03 奥多比公司 对话查询应答系统
CN109086368A (zh) * 2018-07-20 2018-12-25 吴怡 一种基于人工智能云平台的法律咨询机器人
CN110851692A (zh) * 2018-07-27 2020-02-28 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110970021A (zh) * 2018-09-30 2020-04-07 航天信息股份有限公司 一种问答控制方法、装置及系统
CN109447048A (zh) * 2018-12-25 2019-03-08 苏州闪驰数控系统集成有限公司 一种人工智能预警系统
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110765246A (zh) * 2019-09-29 2020-02-07 平安直通咨询有限公司上海分公司 基于智能机器人的问答方法、装置、存储介质和智能设备
CN110955762A (zh) * 2019-11-01 2020-04-03 上海百事通信息技术股份有限公司 一种智能问答平台
CN111274779A (zh) * 2020-02-29 2020-06-12 重庆百事得大牛机器人有限公司 基于用户体验预测的法律文书生成系统及方法
CN111324721A (zh) * 2020-03-16 2020-06-23 云南电网有限责任公司信息中心 一种智能问答知识库的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘周颖等: "基于语音互动的付费知识问答社区运营模式初探——以分答和值乎为例", 《图书与情报》, pages 38 - 46 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法

Also Published As

Publication number Publication date
CN112650838B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN112131863A (zh) 一种评论观点主题抽取方法、电子设备及存储介质
Zahoor et al. Twitter sentiment analysis using lexical or rule based approach: a case study
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN110188174B (zh) 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN113821605B (zh) 一种事件抽取方法
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN112650838B (zh) 一种基于历史案件大数据的智能问答方法及系统
Koka et al. Automatic identification of keywords in lecture video segments
CN112395862A (zh) 一种基于数据挖掘的环境风险感知评价方法
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN109298796B (zh) 一种词联想方法及装置
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
Muralidharan et al. Analyzing ELearning platform reviews using sentimental evaluation with SVM classifier
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN117077632B (zh) 一种用于资讯主题的自动生成方法
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant