CN111538830B - 法条检索方法、装置、计算机设备及存储介质 - Google Patents

法条检索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111538830B
CN111538830B CN202010350649.1A CN202010350649A CN111538830B CN 111538830 B CN111538830 B CN 111538830B CN 202010350649 A CN202010350649 A CN 202010350649A CN 111538830 B CN111538830 B CN 111538830B
Authority
CN
China
Prior art keywords
candidate
model
queried
text
bars
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010350649.1A
Other languages
English (en)
Other versions
CN111538830A (zh
Inventor
邵韵秋
毛佳昕
张敏
马为之
刘奕群
马少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010350649.1A priority Critical patent/CN111538830B/zh
Publication of CN111538830A publication Critical patent/CN111538830A/zh
Application granted granted Critical
Publication of CN111538830B publication Critical patent/CN111538830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及计算机技术领域,尤其涉及一种法条检索方法、装置、计算机设备及存储介质。所述方法包括:根据待查询案例的案情描述文本,生成待查询的文本摘要;获取候选法条集合;根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分;根据多个候选法条各自对应的评分,显示至少两个候选法条。本公开实施例通过基于待查询案例的案情描述文本,计算机设备可以自动生成对应的文本摘要以进行检索,提高了检索的便利性。并且,通过调用预设检索模型得到多个候选法条各自对应的评分,由于评分用于指示候选法条与文本摘要之间的相关性,进而能够快速的确定出与文本摘要相关的法条,提高了检索的准确性。

Description

法条检索方法、装置、计算机设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种法条检索方法、装置、计算机设备及存储介质。
背景技术
现有的法律法规数量较多,每个法律法规里面涉及到的法条也很多,社会公众或一些初级律师对法律法规的了解程度通常止于表面,当案件发生时,依据案件详情较难准确的找到法律依据或者无法判断适用的法条。
相关技术中,通过采用根据关键词进行法条的检索的方式,即用户需要输入案情关键词,但是对于社会公众或一些初级律师来说,很难把握案件关键词,进而无法准确的检索出符合需求的法条。
因此,相关技术中尚未提供一种准确且有效的法条检索方式。
发明内容
有鉴于此,本公开提出了一种法条检索方法、装置、计算机设备及存储介质。所述技术方案包括:
根据本公开的一方面,提供了一种法条检索方法,用于计算机设备中,所述方法包括:
根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取候选法条集合,所述候选法条集合包括多个候选法条各自对应的文档内容;
根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,所述评分用于指示所述候选法条与所述文本摘要之间的相关性;
根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条。
在一种可能的实现方式中,所述根据待查询案例的案情描述文本,生成待查询的文本摘要,包括:
获取所述待查询案例的所述案情描述文本;
根据所述案情描述文本,采用预设的摘要提取算法输出得到所述文本摘要,所述文本摘要为长度小于预设长度阈值的摘要;
对所述文本摘要进行文本预处理得到待查询的所述文本摘要。
在另一种可能的实现方式中,所述获取待检索的候选法条集合,包括:
获取多个所述候选法条各自对应的法条内容,所述法条内容包括所述候选法条的标题内容和描述文本;
对多个所述候选法条各自对应的所述法条内容进行文本预处理;
对于多个所述候选法条中的每个所述候选法条,将预处理后的所述标题内容和所述描述文本进行拼接得到所述候选法条的所述文档内容。
在另一种可能的实现方式中,所述预设检索模型包括多元语言模型、向量空间模型、BM25模型与向量空间模型的组合模型中的任意一种。
在另一种可能的实现方式中,所述预设检索模型包括多元语言模型,所述根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,包括:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述预设检索模型通过如下公式计算得到所述候选法条的评分scoreLM(q,dj):
其中,所述q为待查询的所述文本摘要,所述dj为所述候选法条集合中第j个所述候选法条的所述文档内容,所述ti-1ti为在所述q中出现的双字,所述P(ti-1ti|dj)为根据训练完成的所述多元语言模型预估得到的ti-1ti出现的概率,所述i、所述j均为正整数。
在另一种可能的实现方式中,所述方法,还包括:
获取训练样本集,所述训练样本集包括多个样本法条;
根据所述样本法条中每个单字的概率分布,采用线性平滑方式得到基于单字的一元语言模型,并根据所述样本法条中每个双字的概率分布,采用所述线性平滑方式得到基于双字的二元语言模型;
将所述一元语言模型与所述二元语言模型采用线性加权方式相结合,得到所述多元语言模型。
在另一种可能的实现方式中,所述预设检索模型包括BM25模型与向量空间模型的组合模型,所述根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,包括:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述向量空间模型计算得到所述候选法条的第一分数,并调用所述BM25模型计算得到所述候选法条的第二分数;
对于多个所述候选法条中的每个所述候选法条,将所述候选法条的第一分数和所述第二分数采用线性加权方式计算得到所述候选法条的评分。
在另一种可能的实现方式中,所述评分与所述相关性呈正相关关系,所述根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条,包括:
根据多个所述候选法条各自对应的评分从大到小的顺序,将多个所述候选法条进行排序得到排序后的至少两个所述候选法条;
显示排序后的至少两个所述候选法条。
根据本公开的另一方面,提供了一种法条检索装置,用于计算机设备中,所述装置包括:
生成模块,用于根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取模块,用于获取候选法条集合,所述候选法条集合包括多个候选法条各自对应的文档内容;
检索模块,用于根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,所述评分用于指示所述候选法条与所述文本摘要之间的相关性;
显示模块,用于根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条。
在一种可能的实现方式中,所述生成模块,还用于:
获取所述待查询案例的所述案情描述文本;
根据所述案情描述文本,采用预设的摘要提取算法输出得到所述文本摘要,所述文本摘要为长度小于预设长度阈值的摘要;
对所述文本摘要进行文本预处理得到待查询的所述文本摘要。
在另一种可能的实现方式中,所述获取模块,还用于:
获取多个所述候选法条各自对应的法条内容,所述法条内容包括所述候选法条的标题内容和描述文本;
对多个所述候选法条各自对应的所述法条内容进行文本预处理;
对于多个所述候选法条中的每个所述候选法条,将预处理后的所述标题内容和所述描述文本进行拼接得到所述候选法条的所述文档内容。
在另一种可能的实现方式中,所述预设检索模型包括多元语言模型、向量空间模型、BM25模型与向量空间模型的组合模型中的任意一种。
在另一种可能的实现方式中,所述预设检索模型包括多元语言模型,所述检索模块,还用于:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述预设检索模型通过如下公式计算得到所述候选法条的评分scoreLM(q,dj):
其中,所述q为待查询的所述文本摘要,所述dj为所述候选法条集合中第j个所述候选法条的所述文档内容,所述ti-1ti为在所述q中出现的双字,所述P(ti-1ti|dj)为根据训练完成的所述多元语言模型预估得到的ti-1ti出现的概率,所述i、所述j均为正整数。
在另一种可能的实现方式中,所述装置,还包括:模型训练模块,所述模型训练模块,用于:
获取训练样本集,所述训练样本集包括多个样本法条;
根据所述样本法条中每个单字的概率分布,采用线性平滑方式得到基于单字的一元语言模型,并根据所述样本法条中每个双字的概率分布,采用所述线性平滑方式得到基于双字的二元语言模型;
将所述一元语言模型与所述二元语言模型采用线性加权方式相结合,得到所述多元语言模型。
在另一种可能的实现方式中,所述预设检索模型包括BM25模型与向量空间模型的组合模型,所述检索模块,还用于:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述向量空间模型计算得到所述候选法条的第一分数,并调用所述BM25模型计算得到所述候选法条的第二分数;
对于多个所述候选法条中的每个所述候选法条,将所述候选法条的第一分数和所述第二分数采用线性加权方式计算得到所述候选法条的评分。
在另一种可能的实现方式中,所述评分与所述相关性呈正相关关系,所述显示模块,还用于:
根据多个所述候选法条各自对应的评分从大到小的顺序,将多个所述候选法条进行排序得到排序后的至少两个所述候选法条;
显示排序后的至少两个所述候选法条。
根据本公开的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取候选法条集合,所述候选法条集合包括多个候选法条各自对应的文档内容;
根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,所述评分用于指示所述候选法条与所述文本摘要之间的相关性;
根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的法条检索方法。
本公开实施例通过计算机设备根据待查询案例的案情描述文本,生成待查询的文本摘要,并获取候选法条集合;根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分;根据多个候选法条各自对应的评分,显示至少两个候选法条。相对于相关技术,一方面,基于待查询案例的案情描述文本,计算机设备可以自动生成对应的文本摘要以进行检索,用户若需要检索,可以简单的输入一段案情描述文本即可,提高了检索的便利性。另一方面,通过调用预设检索模型得到多个候选法条各自对应的评分,由于评分用于指示候选法条与文本摘要之间的相关性,进而能够快速的确定出与文本摘要相关的法条,提高了检索的准确性。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出了本公开实施例涉及的计算机设备的结构示意图;
图2示出了本公开一个示例性实施例提供的法条检索方法的流程图;
图3示出了本公开另一个示例性实施例提供的法条检索方法的流程图;
图4示出了本公开一个示例性实施例提供的法条检索装置的结构示意图;
图5是根据一示例性实施例示出的一种终端的框图;
图6是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
首先,对本公开涉及的一些名词进行解释说明。
在本公开实施例中,预设检索模型包括多元语言模型(language model,LM)、向量空间模型(vector space model,VSM)、BM25模型与向量空间模型的组合模型中的任意一种。
1、多元语言模型:主要考虑由文档生成查询的概率,该概率值越高则表示检索文本与查询文本的相关性越高。该概率值是由语言模型估计得到的。
在本公开实施例中,除单字外也综合考虑双字,将语意因素考虑进去,并且使用加权因子进行权重调整,加权因子越小,则倾向于考虑更多双字的因素。使用查询文本中词的频率估计词的概率分布,使用线性平滑的方式,基于线性平滑因子进行调整。在该语言模型中,加权因子和线性平滑因子为两个需要学习的模型参数。因此,预先使用训练样本集以网格搜索的方式对该语言模型进行训练即进行参数学习,得到训练好的多元语言模型,以供之后测试和排序使用。
其中,单字为单个字,双字为连续的两个字。
2、向量空间模型:基于词袋模型,将每个检索文本根据其中的词,转化为向量。检索文本与查询文本之间的相似度,使用文档向量与查询向量的余弦相似度进行指示。在向量空间模型中,在向量空间的相似度越高,则表示检索文本与查询文本之间的相关度越高。该模型不需要进行额外的参数调整。
3、BM25模型:为传统检索的经典模型,主要关注在检索文本与查询文本中共同出现的词,以及这些词的分布和重要性上。在基于短查询或者关键词的传统网页检索中,该模型有着优秀的表现。
以案情描述文本的文本摘要作为查询文本的情况下,查询本身的复杂度削弱了其性能。因此在本公开实施例中,考虑将BM25模型与向量空间模型相结合,通过权重参数进行线性加权得到组合模型。与多元语言模型类似,使用训练样本集以网格搜索的方式训练模型即进行参数学习,将学习到的值作为训练好的组合模型的模型参数。
在对本公开实施例进行解释说明之前,先对本公开实施例的应用场景进行说明。请参考图1,其示出了本公开实施例涉及的计算机设备的结构示意图。
该计算机设备包括终端或者服务器。比如,终端是手机或者平板电脑或者膝上型便携计算机或者台式计算机。本公开实施例对此不加以限定。
该计算机设备包括:处理器11、接收器12、发送器13、存储器14和总线15。接收器12、发送器13、存储器14分别通过总线与处理器11连接。
处理器11包括一个或者一个以上处理核心,处理器11通过运行软件程序以及模块以执行本公开实施例提供的传输配置方法中接入网设备所执行的方法。
接收器12和发送器13可以实现为一个通信组件,该通信组件可以是一块通信芯片,通信芯片中可以包括接收模块、发射模块和调制解调模块等,用于对信息进行调制和/或解调,并通过无线信号接收或发送该信息。
存储器14可用于存储软件程序以及模块。
存储器14可存储至少一个功能所述的应用程序模块16。
接收器12用于执行本公开实施例中有关接收步骤的功能;处理器11用于执行本公开实施例中有关处理步骤的功能;发送器13用于执行本公开实施例中有关发送步骤的功能。
此外,存储器14可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
下面,仅采用示例性的实施例对本公开提供的法条检索方法进行介绍。
请参考图2,其示出了本公开一个示例性实施例提供的法条检索方法的流程图。本实施例以该法条检索方法应用于图1所示的计算机设备中来举例说明。该法条检索方法包括:
步骤201,根据待查询案例的案情描述文本,生成待查询的文本摘要。
计算机设备获取输入的待查询案例的案情描述文本,根据该案情描述文本,生成该案情描述文本对应的文本摘要。
案情描述文本为对待查询案例的案情进行描述和介绍的文本。文本摘要为案情描述文本的文本内容梗概。在本公开实施例中,文本摘要为计算机设备根据输入的案情描述文本自动生成的摘要。
文本摘要的生成方式包括抽取式和生成式。即计算机设备生成文本摘要的方式包括但不限于如下两种可能的实现方式:
在一种可能的实现方式中,计算机设备从案情描述文本中提取关键词和/或关键句子,根据提取的关键词和/或关键句子得到文本摘要。
在另一种可能的实现方式中,计算机设备建立案情描述文本对应的语义表示,通过自然语言生成技术生成文本摘要。
步骤202,获取候选法条集合,候选法条集合包括多个候选法条各自对应的文档内容。
在一种可能的实现方式中,计算机设备获取预先设置的候选法条集合。其中,候选法条集合包括多个候选法条各自对应的文档内容。
在另一种可能的实现方式中,计算机设备根据文本摘要确定法律文件类型,根据预设对应关系获取与该法律文件类型对应的候选法条集合。其中,预设对应关系包括法律文件类型与候选法条集合之间的对应关系,候选法条集合包括多个候选法条各自对应的文档内容。
法律文件类型可以按照国家地区进行划分,还可以按照法律体系进行划分。
可选的,计算机设备根据文本摘要的语言种类确定与该语言种类对应的法律文件类型。比如,语言种类为汉语,则确定法律文件类型为中国的成文法条。
可选的,计算机设备根据文本摘要的关键字确定与该关键字对应的法律文件类型。比如,法律文件类型为宪法及宪法相关法、民法、商法、行政法、经济法、社会法、刑法、诉讼与非诉讼程序法中的一种。本公开实施例对此不加以限定。
需要说明的是,步骤201和步骤202可以并列执行,也可以分先后顺序执行,本公开实施例对此不加以限定。
步骤203,根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分,评分用于指示候选法条与文本摘要之间的相关性。
计算机设备获取预设检索模型,根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分。
计算机设备获取训练好的预设检测模型。在一种可能的实现方式中,当计算机设备为终端时,终端获取自身存储的训练好的预设检测模型,或者从服务器中获取训练好的预设检测模型。在另一种可能的实现方式中,当计算机设备为服务器时,服务器获取自身存储的训练好的预设检测模型。
预设检测模型为采用样本文本摘要和正确评分信息对原始参数模型进行训练完成的模型。其中,正确评分信息为与样本文本摘要对应的多个候选法条各自对应的正确评分,正确评分是预先标注的。
预设检测模型是具有在文本摘要的查询下对候选法条的评分进行计算的模型。预设检测模型用于将输入的候选法条转化为评分。
预设检测模型用于表示文本摘要、候选法条与候选法条的评分之间的相关关系。
预设检测模型为预设的数学模型,该预设检测模型包括文本摘要、候选法条与评分之间的模型系数。模型系数可以为固定值,也可以是随时间动态修改的值,还可以是随着使用场景动态修改的值。
计算机设备根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分。其中,评分用于指示候选法条与文本摘要之间的相关性。
步骤204,根据多个候选法条各自对应的评分,显示至少两个候选法条。
计算机设备根据多个候选法条各自对应的评分,显示多个候选法条中全部或者部分的候选法条。即显示的至少两个候选法条为多个候选法条的子集。
计算机设备根据多个候选法条各自对应的评分对多个候选法条进行排序,显示排序后的至少两个候选法条。可选地,计算机设备显示排序后位于前n个的候选法条,n为正整数。本公开实施例对多个候选法条的显示方式不加以限定。
综上所述,本公开实施例通过计算机设备根据待查询案例的案情描述文本,生成待查询的文本摘要,并获取候选法条集合;根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分;根据多个候选法条各自对应的评分,显示至少两个候选法条。相对于相关技术,一方面,基于待查询案例的案情描述文本,计算机设备可以自动生成对应的文本摘要以进行检索,用户若需要检索,可以简单的输入一段案情描述文本即可,提高了检索的便利性。另一方面,通过调用预设检索模型得到多个候选法条各自对应的评分,由于评分用于指示候选法条与文本摘要之间的相关性,进而能够快速的确定出与文本摘要相关的法条,提高了检索的准确性。
请参考图3,其示出了本公开另一个示例性实施例提供的法条检索方法的流程图。本实施例以该法条检索方法应用于图1所示的计算机设备中来举例说明。该法条检索方法包括:
步骤301,获取待查询案例的案情描述文本。
计算机设备获取输入的待查询案例的案情描述文本。
步骤302,根据案情描述文本,采用预设的摘要提取算法输出得到文本摘要,文本摘要为长度小于预设长度阈值的摘要。
计算机设备根据案情描述文本,采用预设的摘要提取算法输出得到文本摘要,比如,摘要提取算法为TextRank算法。
TextRank算法为一种抽取式的方式。TextRank算法是一种图排序算法。TextRank算法用于将文本分割成若干单元(比如句子、单词)并建立图模型,利用投票对文本中的重要成分进行排序。
在一种可能的实现方式中,摘要提取算法为TextRank算法。计算机设备将案情描述文本按照句子进行分割得到多个句子,以句子为节点,计算句子之间的相关性,构建图模型,计算每个句子的TextRank值,根据TextRank值对多个句子进行排序,将排序后位于位于前m个的句子确定为文本摘要,其中m为正整数。
该TextRank算法首先将案情描述文本按照句子进行分割,并且以句子为节点建立无向图模型G(V,E)。边的权重以句子之间的相似度衡量,两个句子之间的相似度Sim(Si,Sj)通过如下公式进行计算:
其中,Si和Sj分别表示两个句子,wk表示这两个句子中共同出现的词。根据给定的阈值,可以去掉相似度低于相似度阈值的两节点之间边的连接,从而得到图模型G(V,E)。TextRank值的计算公式如下所示:
其中,WS为迭代计算的TextRank值,ωji为计算出的节点之间的相似度作为边的权重,d为阻尼系数,d的经验值为0.85。通过节点迭代计算,直到收敛,可以得到每个节点所代表的句子的TextRank值。
文本摘要为长度小于预设长度阈值的摘要。比如,预设长度阈值为200个单词。本公开实施例对此不加以限定。
步骤303,对文本摘要进行文本预处理得到待查询的文本摘要。
计算机设备对文本摘要进行文本预处理,得到预处理后的文本摘要,将该预处理后的文本摘要作为待查询的文本摘要。
可选的,计算机设备对文本摘要进行文本预处理得到待查询的文本摘要,包括但不限于以下几个步骤:计算机设备根据正则表达式,去除所有的标点,并将文本摘要按照空格分割成多个单词;将分割后的多个单词均转换成小写;利用自然语言工具包(NaturalLanguage Toolkit,NLTK)中的POS_TAG自动标记方法对多个单词各自对应的词性进行标记,去除被标记的词性为连词、介词的单词;根据正则表达式,识别出数字以及包含数字的单词,将这些词删除;根据NLTK中的英文停用词词表,去除文本摘要中的所有停用词;调用NLTK的词干化工具,对剩余单词进行词干化处理。将该预处理后的文本摘要作为待查询的文本摘要。
步骤304,获取多个候选法条各自对应的法条内容,法条内容包括候选法条的标题内容和描述文本。
计算机设备获取多个候选法条各自对应的法条内容,每个候选法条的法条内容包括该候选法条的标题内容和描述文本。
步骤305,对多个候选法条各自对应的法条内容进行文本预处理。
对于多个候选法条中的每个候选法条,计算机设备对该候选法条的法条内容进行文本预处理得到预处理后的标题内容和描述文本。
需要说明的是,计算机设备对候选法条的法条内容进行文本预处理的方式可类比参考上述对文本摘要进行文本预处理的过程,在此不再赘述。
步骤306,对于多个候选法条中的每个候选法条,将预处理后的标题内容和描述文本进行拼接得到候选法条的文档内容。
对于多个候选法条中的每个候选法条,计算机设备将预处理后的标题内容和描述文本进行拼接得到候选法条的文档内容,多个候选法条各自对应的文档内容构成待检索的候选法条集合。
需要说明的是,步骤301至步骤303得到预处理后的文本摘要作为待查询的文本摘要,步骤304至步骤306得到预处理后的候选法条的文档内容作为待检索的候选法条集合,可以并列执行,也可以分先后顺序执行,本公开实施例对此不加以限定。
步骤307,根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分,评分用于指示候选法条与文本摘要之间的相关性。
计算机设备获取预先训练好的预设检索模型,根据待查询的文本摘要和候选法条,调用该预设检索模型输出得到多个候选法条各自对应的评分。
可选的,预设检索模型包括多元语言模型、向量空间模型、BM25模型与向量空间模型的组合模型中的任意一种。
在一种可能的实现方式中,预设检索模型包括多元语言模型。对于多个候选法条中的每个候选法条,计算机设备根据待查询的文本摘要和候选法条,调用预设检索模型通过如下公式计算得到候选法条的评分scoreLM(q,dj):
其中,q为待查询的文本摘要,dj为候选法条集合中第j个候选法条的文档内容,ti-1ti为在q中出现的双字,P(ti-1ti|dj)为根据训练完成的多元语言模型预估得到的ti-1ti出现的概率,i、j均为正整数。
可选地,计算机设备获取训练完成的多元语言模型,包括:计算机设备获取训练样本集,训练样本集包括多个样本法条;根据样本法条中每个单字的概率分布,采用线性平滑方式得到基于单字的一元语言模型,并根据样本法条中每个双字的概率分布,采用线性平滑方式得到基于双字的二元语言模型;将一元语言模型与二元语言模型采用线性加权方式相结合,得到多元语言模型。
可选地,计算机设备根据样本法条中每个单字或双字的概率分布,采用线性平滑方式得到语言模型P(t|d),计算方式如下;
P(t|d)=λPmle(t|Md)+(1-λ)Pmle(t|Mc);
其中,t表示一个单字或者双字,d为样本法条的文档内容,λ为线性平滑因子,λ为小于或者等于1的非负数,Pmle(t|Md)表示d中t出现的频率,Pmle(t|Mc)表示在训练样本集中t出现的频率。
可选地,计算机设备将一元语言模型与二元语言模型采用线性加权方式相结合,得到多元语言模型P(ti-1ti|d),计算方式如下;
P(ti-1ti|d)=μP1(ti|d)+(1-μ)P2(ti-1ti|d);
其中,ti-1ti表示在q中出现的双字,P1(ti|d)为基于单字的一元语言模型的输出值,所述P2(ti-1ti|d)为基于双字的二元语言模型的输出值,μ为加权因子,μ为小于或者等于1的非负数。
可选地,训练样本集为候选法条集合,或者,训练样本集与候选法条集合存在交集,或者,训练样本集与候选法条集合不存在交集。当训练样本集为候选法条集合时,样本法条也称为候选法条。
在另一种可能的实现方式中,预设检索模型包括向量空间模型。
可选地,计算机设备在调用预设检索模型之前,计算候选文档集合中各个词的逆文档频率(Inverse Document Frequency,IDF)。其中,逆文档频率用于指示关键词的普遍程度,当一个词越普遍即有多个文档内容中均包含这个词时,这个词的逆文档频率越低;反之,则该这次的逆文档频率越高。
可选地,计算机设备通过如下公式计算得到候选文档集合中词的逆文档频率idft
其中,t为候选文档集合中的每一个单字,|D|表示候选文档集合中多个候选法条的数量,|{d′∈D|t∈d′}|表示包含词t的候选法条的数量。
在向量空间模型中,计算机设备通过如下公式计算每个词的权重ωt,d
ωt,d=tft,d·idft
其中,tft,d为词t在候选法条的文档内容d中出现的频率,如果词t在候选法条的文档内容d中没有出现过,则tft,d=0,idft为词t的逆文档频率。
以候选文档集合中的所有单字作为字典,每一个位置表示一个单字,对于文档内容dj就可以得到该文档内容的一个向量表示,每一维的值即为t为该位置代表的单字。类似的,对于待查询的文本摘要q,也可以表示成向量的形式,每一维的值由ωt,q=tft,q·idft计算得到,其中tft,q为词t在q中出现的频率,idft为该词t的逆文档频率。
计算机设备采用余弦相似度确定候选法条与文本摘要之间的相似度,通过如下公式计算候选法条的评分scoreVSM(q,dj):
其中,为根据文档内容dj计算出的词t的第一权重,ωt,q为根据待查询的文本摘要q计算出的词t的第二权重,N为词表的大小。
在另一种可能的实现方式中,预设检索模型包括BM25模型与向量空间模型的组合模型。对于多个候选法条中的每个候选法条,计算机设备根据待查询的文本摘要和候选法条,调用向量空间模型计算得到候选法条的第一分数,并调用BM25模型计算得到候选法条的第二分数;对于多个候选法条中的每个候选法条,将候选法条的第一分数和第二分数采用线性加权方式计算得到候选法条的评分。
可选地,计算机设备根据待查询的文本摘要和候选法条,调用向量空间模型计算得到候选法条的第一分数的过程可参考上述采用余弦相似度计算评分的方式,在此不再赘述。
可选地,计算机设备调用BM25模型通过如下公式计算得到候选法条的第二分数scoreBM25(q,dj):
其中,n表示待查询的文本摘要q的长度,qi表示文本摘要q中的第i个单字,分别表示qi在文档内容dj和文本摘要q中出现的频率,/>为词qi的逆文档频率,如果qi在所有文档内容中均没有出现过,则跳过这个词,|dj|表示文档内容dj的长度,avgdl表示所有文档内容的平均长度,k1、k2和b为预设值。比如,根据经验值,设定参数k1=k2=1.0,b=0.75。本公开实施例对此不加以限定。
对于多个候选法条中的每个候选法条,计算机设备将候选法条的第一分数和第二分数采用线性加权方式计算得到候选法条的评分,计算公式如下:
scoreCM(q,dj)=α·scoreVSM(q,dj)+(1-α)·scoreBM25(q,dj);
其中,scoreVSM(q,dj)为调用向量空间模型计算得到的候选法条的第一分数,scoreBM25(q,dj)为调用BM25模型计算得到的候选法条的第二分数,α为权重参数,α为小于或者等于1的非负数。
可选地,计算机设备在调用BM25模型与向量空间模型的组合模型的之前,采用包括多个样本法条的训练样本集对该组合模型进行训练。示意性的,计算机设备在预设区间内,以预设步长对权重参数α进行网格搜索,以预设参数作为评价指标,确定组合模型中的模型参数。比如,预设区间为[0,1],预设步长为0.1,预设参数为召回率,确定的权重参数α为0.7。本公开实施例对此不加以限定。
步骤308,根据多个候选法条各自对应的评分从大到小的顺序,将多个候选法条进行排序得到排序后的多个候选法条。
每个候选法条的评分用于指示候选法条与待查询的文本摘要之间的相关性。
可选的,候选法条的评分与相关性呈正相关关系,即候选法条的评分越高,则表示该候选法条与文本摘要之间的相关性越大。因此,计算机设备根据多个候选法条各自对应的评分从大到小的顺序,将多个候选法条进行排序得到排序后的多个候选法条。
步骤309,显示排序后的至少两个候选法条。
在将多个候选法条进行排序得到排序后的多个候选法条之后,计算机设备显示排序后的至少两个候选法条。显示的排序后的至少两个候选法条为排序后的多个候选法条的子集。
可选地,计算机设备显示排序后位于前n个的候选法条,n为正整数。
可选地,计算机设备显示排序后的至少两个候选法条的同时,显示至少两个候选法条各自对应的评分。本公开实施例对候选法条的显示方式不加以限定。
在一个示意性的例子中,以印度的判例和制定法为例,目前存在50个查询,即50个待查询案例的案情描述文本,预先设置的候选法条集合包括197条印度的成文法条。对50个查询中的前10个查询进行数据标注,作为训练样本集,以便对模型进行训练。50个查询中的剩余40个查询作为测试数据。标注的内容为查询与所有候选法条的相关性二值打分,若候选法条与查询相关,评分为1;若候选法条与查询无关,则评分为0。并采用P@10、平均精度均值(Mean Average Precision,MAP)、二元偏好(Binary preference,BPREF),倒数排名(reciprocal rank),RR)作为评价指标。
在模型训练过程中,计算机设备采用已标注的前10个查询作为训练样本集,对本公开实施例提供的多元语言模型或者组合模型中的模型参数进行训练,以recall@10和recall@20作为评价指标,最终设定多元语言模型中λ=0.1,μ=0.1,组合模型中α=0.7。并以上述设定的模型参数,在剩余的40个查询上进行测试,提交每个查询下多个候选法条的相关度排序。本公开实施例提供的三个预设检索模型对应的评价指标的数值如表一所示:
表一
综上所述,本公开实施例还通过利用TextRank算法自动获取案情描述文本的文本摘要;通过对文本摘要的文本预处理得到待查询的文本摘要,对候选法条的法条内容的文本预处理得到待检索的候选法条集合;利用多元语言模型、向量空间模型、BM25模型与向量空间模型的组合模型中的任意一种,计算某个待查询的文本摘要下候选法条的评分,从而根据该查询下候选法条的评分得到与该案情描述文本相关的法条的排序,进一步提高了检索的有效性和准确性。
以下为本公开实施例的装置实施例,对于装置实施例中未详细阐述的部分,可以参考上述方法实施例中公开的技术细节。
请参考图4,其示出了本公开一个示例性实施例提供的法条检索装置的结构示意图。该法条检索装置可以通过软件、硬件以及两者的组合实现成为计算机设备的全部或一部分。该装置包括:生成模块410、获取模块420、检索模块430和显示模块440。
生成模块410,用于根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取模块420,用于获取候选法条集合,候选法条集合包括多个候选法条各自对应的文档内容;
检索模块430,用于根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分,评分用于指示候选法条与文本摘要之间的相关性;
显示模块440,用于根据多个候选法条各自对应的评分,显示至少两个候选法条。
在一种可能的实现方式中,生成模块410,还用于:
获取待查询案例的案情描述文本;
根据案情描述文本,采用预设的摘要提取算法输出得到文本摘要,文本摘要为长度小于预设长度阈值的摘要;
对文本摘要进行文本预处理得到待查询的文本摘要。
在另一种可能的实现方式中,获取模块420,还用于:
获取多个候选法条各自对应的法条内容,法条内容包括候选法条的标题内容和描述文本;
对多个候选法条各自对应的法条内容进行文本预处理;
对于多个候选法条中的每个候选法条,将预处理后的标题内容和描述文本进行拼接得到候选法条的文档内容。
在另一种可能的实现方式中,预设检索模型包括多元语言模型、向量空间模型、BM25模型与向量空间模型的组合模型中的任意一种。
在另一种可能的实现方式中,预设检索模型包括多元语言模型,检索模块430,还用于:
对于多个候选法条中的每个候选法条,根据待查询的文本摘要和候选法条,调用预设检索模型通过如下公式计算得到候选法条的评分scoreLM(q,dj):
其中,q为待查询的文本摘要,dj为候选法条集合中第j个候选法条的文档内容,ti-1ti为在q中出现的双字,P(ti-1ti|dj)为根据训练完成的多元语言模型预估得到的ti-1ti出现的概率,i、j均为正整数。
在另一种可能的实现方式中,装置,还包括:模型训练模块,模型训练模块,用于:
获取训练样本集,训练样本集包括多个样本法条;
根据样本法条中每个单字的概率分布,采用线性平滑方式得到基于单字的一元语言模型,并根据样本法条中每个双字的概率分布,采用线性平滑方式得到基于双字的二元语言模型;
将一元语言模型与二元语言模型采用线性加权方式相结合,得到多元语言模型。
在另一种可能的实现方式中,预设检索模型包括BM25模型与向量空间模型的组合模型,检索模块430,还用于:
对于多个候选法条中的每个候选法条,根据待查询的文本摘要和候选法条,调用向量空间模型计算得到候选法条的第一分数,并调用BM25模型计算得到候选法条的第二分数;
对于多个候选法条中的每个候选法条,将候选法条的第一分数和第二分数采用线性加权方式计算得到候选法条的评分。
在另一种可能的实现方式中,评分与相关性呈正相关关系,显示模块440,还用于:
根据多个候选法条各自对应的评分从大到小的顺序,将多个候选法条进行排序得到排序后的至少两个候选法条;
显示排序后的至少两个候选法条。
根据本公开的另一方面,提供了一种计算机设备,计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取候选法条集合,候选法条集合包括多个候选法条各自对应的文档内容;
根据待查询的文本摘要和候选法条集合,调用预设检索模型输出得到多个候选法条各自对应的评分,评分用于指示候选法条与文本摘要之间的相关性;
根据多个候选法条各自对应的评分,显示至少两个候选法条。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的法条检索方法。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供了一种计算机设备,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:实现上述各个方法实施例中由计算机设备执行的步骤。
可选地,计算机设备为终端或者服务器。本公开实施例对此不加以限定。
本公开实施例还提供了提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述各个方法实施例中的方法。
图5是根据一示例性实施例示出的一种终端500的框图。例如,终端500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,终端500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制终端500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在终端500的操作。这些数据的示例包括用于在终端500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为终端500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为终端500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述终端500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当终端500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为终端500提供各个方面的状态评估。例如,传感器组件514可以检测到终端500的打开/关闭状态,组件的相对定位,例如所述组件为终端500的显示器和小键盘,传感器组件514还可以检测终端500或终端500一个组件的位置改变,用户与终端500接触的存在或不存在,终端500方位或加速/减速和终端500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于终端500和其他设备之间有线或无线方式的通信。终端500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器504,上述计算机程序指令可由终端500的处理器520执行以完成上述方法。
图6是根据一示例性实施例示出的一种服务器600的框图。服务器600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述方法。
服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理,一个有线或无线网络接口650被配置为将服务器600连接到网络,和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器632,上述计算机程序指令可由服务器600的处理组件622执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (9)

1.一种法条检索方法,其特征在于,用于计算机设备中,所述方法包括:
根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取候选法条集合,所述候选法条集合包括多个候选法条各自对应的文档内容;
根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,所述评分用于指示所述候选法条与所述文本摘要之间的相关性,所述预设检索模型包括多元语言模型或组合模型,所述组合模型为BM25模型与向量空间模型的组合模型;
根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条;
当所述预设检索模型包括所述多元语言模型时,所述根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,包括:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述预设检索模型通过如下公式计算得到所述候选法条的评分scoreLM(q,dj):
其中,所述q为待查询的所述文本摘要,所述dj为所述候选法条集合中第j个所述候选法条的所述文档内容,所述ti-1ti为在所述q中出现的双字,所述P(ti-1ti|dj)为根据训练完成的所述多元语言模型预估得到的ti-1ti出现的概率,所述i、所述j均为正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据待查询案例的案情描述文本,生成待查询的文本摘要,包括:
获取所述待查询案例的所述案情描述文本;
根据所述案情描述文本,采用预设的摘要提取算法输出得到所述文本摘要,所述文本摘要为长度小于预设长度阈值的摘要;
对所述文本摘要进行文本预处理得到待查询的所述文本摘要。
3.根据权利要求1所述的方法,其特征在于,所述获取待检索的候选法条集合,包括:
获取多个所述候选法条各自对应的法条内容,所述法条内容包括所述候选法条的标题内容和描述文本;
对多个所述候选法条各自对应的所述法条内容进行文本预处理;
对于多个所述候选法条中的每个所述候选法条,将预处理后的所述标题内容和所述描述文本进行拼接得到所述候选法条的所述文档内容。
4.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取训练样本集,所述训练样本集包括多个样本法条;
根据所述样本法条中每个单字的概率分布,采用线性平滑方式得到基于单字的一元语言模型,并根据所述样本法条中每个双字的概率分布,采用所述线性平滑方式得到基于双字的二元语言模型;
将所述一元语言模型与所述二元语言模型采用线性加权方式相结合,得到所述多元语言模型。
5.根据权利要求1所述的方法,其特征在于,当所述预设检索模型包括所述组合模型时,所述根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,包括:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述向量空间模型计算得到所述候选法条的第一分数,并调用所述BM25模型计算得到所述候选法条的第二分数;
对于多个所述候选法条中的每个所述候选法条,将所述候选法条的第一分数和所述第二分数采用线性加权方式计算得到所述候选法条的评分。
6.根据权利要求1至5任一所述的方法,其特征在于,所述评分与所述相关性呈正相关关系,所述根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条,包括:
根据多个所述候选法条各自对应的评分从大到小的顺序,将多个所述候选法条进行排序得到排序后的至少两个所述候选法条;
显示排序后的至少两个所述候选法条。
7.一种法条检索装置,其特征在于,用于计算机设备中,所述装置包括:
生成模块,用于根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取模块,用于获取候选法条集合,所述候选法条集合包括多个候选法条各自对应的文档内容;
检索模块,用于根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,所述评分用于指示所述候选法条与所述文本摘要之间的相关性,所述预设检索模型包括多元语言模型或组合模型,所述组合模型为BM25模型与向量空间模型的组合模型;
显示模块,用于根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条;
当所述预设检索模型包括所述多元语言模型时,所述检索模块,还用于:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述预设检索模型通过如下公式计算得到所述候选法条的评分scoreLM(q,dj):
其中,所述q为待查询的所述文本摘要,所述dj为所述候选法条集合中第j个所述候选法条的所述文档内容,所述ti-1ti为在所述q中出现的双字,所述P(ti-1ti|dj)为根据训练完成的所述多元语言模型预估得到的ti-1ti出现的概率,所述i、所述j均为正整数。
8.一种计算机设备,其特征在于,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据待查询案例的案情描述文本,生成待查询的文本摘要;
获取候选法条集合,所述候选法条集合包括多个候选法条各自对应的文档内容;
根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,所述评分用于指示所述候选法条与所述文本摘要之间的相关性,所述预设检索模型包括多元语言模型或组合模型,所述组合模型为BM25模型与向量空间模型的组合模型;
根据多个所述候选法条各自对应的评分,显示至少两个所述候选法条;
当所述预设检索模型包括所述多元语言模型时,所述根据待查询的所述文本摘要和所述候选法条集合,调用预设检索模型输出得到多个所述候选法条各自对应的评分,包括:
对于多个所述候选法条中的每个所述候选法条,根据待查询的所述文本摘要和所述候选法条,调用所述预设检索模型通过如下公式计算得到所述候选法条的评分scoreLM(q,dj):
其中,所述q为待查询的所述文本摘要,所述dj为所述候选法条集合中第j个所述候选法条的所述文档内容,所述ti-1ti为在所述q中出现的双字,所述P(ti-1ti|dj)为根据训练完成的所述多元语言模型预估得到的ti-1ti出现的概率,所述i、所述j均为正整数。
9.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的法条检索方法。
CN202010350649.1A 2020-04-28 2020-04-28 法条检索方法、装置、计算机设备及存储介质 Active CN111538830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350649.1A CN111538830B (zh) 2020-04-28 2020-04-28 法条检索方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350649.1A CN111538830B (zh) 2020-04-28 2020-04-28 法条检索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111538830A CN111538830A (zh) 2020-08-14
CN111538830B true CN111538830B (zh) 2023-09-05

Family

ID=71978888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350649.1A Active CN111538830B (zh) 2020-04-28 2020-04-28 法条检索方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111538830B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204567B (zh) * 2021-05-31 2022-12-23 山东政法学院司法鉴定中心 大数据司法案件分析处理系统
CN113535933B (zh) * 2021-06-01 2023-07-25 科大讯飞股份有限公司 案例检索方法及装置和电子设备、存储装置
CN114153949B (zh) * 2021-12-11 2022-12-13 北京信立方科技发展股份有限公司 一种分词检索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11243955B2 (en) * 2017-11-29 2022-02-08 International Business Machines Corporation Latent token representations for passage and answer scoring in question answering systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Also Published As

Publication number Publication date
CN111538830A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
US10831796B2 (en) Tone optimization for digital content
US9411830B2 (en) Interactive multi-modal image search
CN110008401B (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
US9720904B2 (en) Generating training data for disambiguation
JP2018504727A (ja) 参考文書の推薦方法及び装置
CN111247778A (zh) 使用web智能的对话式/多回合的问题理解
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN110019675B (zh) 一种关键词提取的方法及装置
US20140379719A1 (en) System and method for tagging and searching documents
CN111984749B (zh) 一种兴趣点排序方法和装置
US20160335261A1 (en) Ranking for efficient factual question answering
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
WO2019173085A1 (en) Intelligent knowledge-learning and question-answering
CN111708943A (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN108345608A (zh) 一种搜索方法、装置及设备
WO2019109663A1 (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN113407814B (zh) 文本搜索方法、装置、可读介质及电子设备
WO2023061276A1 (zh) 数据推荐方法、装置、电子设备及存储介质
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
CN113033163B (zh) 一种数据处理方法、装置和电子设备
CN107239209B (zh) 一种拍照搜索方法、装置、终端及存储介质
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant