CN109213925A - 法律文本搜索方法 - Google Patents

法律文本搜索方法 Download PDF

Info

Publication number
CN109213925A
CN109213925A CN201810753315.1A CN201810753315A CN109213925A CN 109213925 A CN109213925 A CN 109213925A CN 201810753315 A CN201810753315 A CN 201810753315A CN 109213925 A CN109213925 A CN 109213925A
Authority
CN
China
Prior art keywords
law
weight
law article
original text
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810753315.1A
Other languages
English (en)
Other versions
CN109213925B (zh
Inventor
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Value Online Information Technology Co Ltd
Original Assignee
Shenzhen Value Online Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Value Online Information Technology Co Ltd filed Critical Shenzhen Value Online Information Technology Co Ltd
Priority to CN201810753315.1A priority Critical patent/CN109213925B/zh
Publication of CN109213925A publication Critical patent/CN109213925A/zh
Application granted granted Critical
Publication of CN109213925B publication Critical patent/CN109213925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及互联网搜索技术领域。所提供的法律文本搜索方法,前期先进行了收集并训练语料库保存TF‑IDF分数,然后对法律构建层级索引树,根据所述层级索引树采用后序遍历算法对法律文本生成知识图谱,对所述图元自身属性的第一法条原文R1构建倒序索引表;而后在接收到接收用户输入的文字检索内容,对所述用户输入的文字检索内容进行分词得到第一分词,从所述第一分词中提取第一关键词K1及第一同义词sK1,先计算各法条的权重W5从中选出权重最大的第二法条原文R2,再计算所述第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3按照权重大小排序展示给用户,从而能够更加精准匹配到用户的检索内容。

Description

法律文本搜索方法
技术领域
本发明涉及互联网搜索技术领域,具体涉及法律文本搜索方法。
背景技术
在人们的生活和工作中,均需要遵循相关的法律法规,在遇到相关问题、解决相关问题时,往往需要查找相关的法律法规,以遵循规定办理事务。
由于对于同一事物(具体表现为关键词),往往会出现在多部法律或多款法条之中,这些多部法律甚至会不属于同一领域的法律,由此用户在使用搜索引擎搜索法条的时候,为使搜索结果更加准确,一方面需要用户收入准确的关键词,另一方面还需要搜索引擎具备更加智能的搜索方法。
发明内容
本发明的目的在于提供能够更加精准匹配到用户的检索内容的法条原文的法律文本搜索方法。
为此,本发明采用以下技术方案:
法律文本搜索方法,包括以下步骤:
收集语料库;
采用TF-IDF模型算法对收集的所述语料库进行训练,保存TF-IDF分数;
根据法律文本的层级关系对法律构建层级索引树;
根据所述层级索引树采用后序遍历算法对法律文本生成知识图谱,所述知识图谱包含的信息有图元自身属性、各图元之间的引用关系、各图元之间的层级关系,所述图元自身属性包含的信息有第一法条原文R1、关键词、关键词的权重,所述关键词权重对应所述TF-IDF分数;
对所述图元自身属性的第一法条原文R1构建倒序索引表;
接收用户输入的文字检索内容;
对所述用户输入的文字检索内容进行分词得到第一分词;
从所述第一分词中提取第一关键词K1,并获取所述第一关键词K1的第一同义词sK1;
根据所述第一关键词K1以及所述第一同义词sK1计算所述第一法条原文 R1中的各法条的权重W5,从中选出权重最大的第二法条原文R2;
计算所述第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3,按照权重大小排序展示给用户。
本发明提供的法律文本搜索方法,前期先进行了收集并训练语料库保存 TF-IDF分数,然后对法律构建层级索引树,根据所述层级索引树采用后序遍历算法对法律文本生成知识图谱,对所述图元自身属性的第一法条原文R1构建倒序索引表;而后在接收到接收用户输入的文字检索内容,提取所述用户输入的文字检索内容的第一关键词K1及第一同义词sK1,先计算各法条的权重W5从中选出权重最大的第二法条原文R2,再计算所述第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3按照权重大小排序展示给用户,从而能够更加精准匹配到用户的检索内容。
附图说明
图1为本发明实施例提供的法律文本搜索方法的流程图;
图2为本发明实施例中对某一条法条原文进行分词后,分词的结果;
图3为本发明实施例中滑窗4次的结果。
具体实施方式
以下结合实施例以及附图对本发明作进一步说明。
参照图1。
本实施例提供的法律文本搜索方法,其特征在于,包括以下步骤:
收集语料库;
采用TF-IDF模型算法对收集的所述语料库进行训练,保存TF-IDF分数;
根据法律文本的层级关系对法律构建层级索引树;
根据所述层级索引树采用后序遍历算法对法律文本生成知识图谱,所述知识图谱包含的信息有图元自身属性、各图元之间的引用关系、各图元之间的层级关系,所述图元自身属性包含的信息有第一法条原文R1、关键词、关键词的权重,所述关键词权重对应所述TF-IDF分数;
对所述图元自身属性的第一法条原文R1构建倒序索引表;
接收用户输入的文字检索内容;
对所述用户输入的文字检索内容进行分词得到第一分词;
从所述第一分词中提取第一关键词K1,并获取所述第一关键词K1的第一同义词sK1;
根据所述第一关键词K1以及所述第一同义词sK1计算所述第一法条原文 R1中的各法条的权重W5,从中选出权重最大的第二法条原文R2;
计算所述第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3,按照权重大小排序展示给用户。
采用本实施例提供的法律文本搜索方法,前期先进行了收集并训练语料库保存TF-IDF分数,然后对法律构建层级索引树,根据所述层级索引树采用后序遍历算法对法律文本生成知识图谱,对所述图元自身属性的第一法条原文R1构建倒序索引表;而后在接收到接收用户输入的文字检索内容,对所述用户输入的文字检索内容进行分词得到第一分词,从所述第一分词中提取第一关键词K1 及第一同义词sK1,先计算各法条的权重W5从中选出权重最大的第二法条原文 R2,再计算所述第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3按照权重大小排序展示给用户,从而能够更加精准匹配到用户的检索内容。
进一步的,所述根据所述第一关键词K1以及所述第一同义词sK1计算所述第一法条原文R1中的各法条的权重W5的具体方法为:
其中,W5为所述第一法条原文R1中的各法条的权重;
m1为所述第一关键词K1的个数;
m2为所述第一同义词sK1的个数;
n1为在所述倒序索引表中与所述第一关键词K1关联的第一法条原文R1的条数;
n2为在所述倒序索引表中与所述第一同义词sK1关联的第一法条原文R1 的条数;
W1为采用TF-IDF模型算法计算的所述第一关键词K1的权重;
sW1为采用词向量算法计算的所述第一同义词sK1的权重;
W3为在所述倒序索引表中与所述第一关键词K1关联的第一法条原文R1 中的各法条的权重;
W4为在所述倒序索引表中与所述第一同义词sK1关联的第一法条原文R1 中的各法条的权重。
进一步的,所述计算所述第二法条原文R2中的各法条的权重W6的方法包括:
提取所述第二法条原文R2中的各法条的第二关键词K2,并获取所述第二关键词K2的第二同义词sK2,
采用TF-IDF模型算法计算所述第二关键词K2的权重W2,采用词向量算法计算所述第二同义词sK2的权重sW2;
对所述第二法条原文R2中的各法条进行分词;
采用滑窗算法计算所述第二法条原文R2中的各法条的权重W6。
进一步的,所述采用滑窗算法计算所述第二法条原文R2中的各法条的权重 W6的具体方法为:
其中,W6为所述第二法条原文R2中的各法条的权重;
B为窗口宽度,B=3N,B如果大于30,则取值30;
M为第二分词的个数;
N为第一分词的个数;
L为窗口滑动长度,
C为窗口滑动次数,如果M>B,则否则C=1;
S为所述第二法条原文R2进行分词后,窗口内的所述第一关键词K1的权重W2或所述第一同义词sK1的权重sW2。
本实施例提供的滑窗算法,通过在对所述第二法条原文R2中的各法条进行分词之后通过滑动窗口计算各窗口内的第一关键词K1及其同义词Sk1的权重的方法,可以精准匹配到用户的检索内容的法条原文,从而使检索结果贴合用户的检索需求。
进一步的,所述第一法条原文R1为当前已发布的法律法规的法条原文。
进一步的,所述第二法条原文R2的数量为1000条,所述第三法条原文R3 为100条。
本实施例中所提及的TF-IDF模型算法、构建层级索引树、后序遍历算法、知识图谱、构建倒序索引表、词向量算法均为现有技术,在此不再赘述。
以下对本实施例所提及的滑窗算法作进一步举例说明:
假设:
对所述用户输入的文字检索内容进行分词得到第一分词的个数为3;
从所述第一分词中提取到的第一关键词K1的个数为3,第一关键词K1分别a1、b1、c1;
每个第一关键词K1的同义词的数量为2,a1的同义词为a11、a12,b1的关键词为b11、b12,c1的关键词为c11、c12;
各关键词、同义词的权重分数如下:
a1=0.3,a11=0.25,a12=0.18;
b1=0.4,b11=0.3,b12=0.23;
c1=0.2,c11=0.13,c12=0.08;
对某一条法条原文进行分词后,分词的结果如图2所示,
第二分词的个数M:12;
第一分词的个数N:3;
窗口宽度B:9;
窗口滑动长度L:1;
窗口滑动次数C:4;
滑窗4次的结果如图3所示。
如此,
第1次滑窗的为a11+b1+c12=0.25+0.4+0.08=0.73;
第2次滑窗的为b1+c12+c1=0.4+0.08+0.2=0.68;
第3次滑窗的为b1+c12+c1=0.4+0.08+0.2=0.68;
第4次滑窗的为c12+c1=0.08+0.2=0.28;
W6为0.735×0.685×0.685×0.285=7.542122541490748×10-6
如此,可以算出第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3,按照权重大小排序展示给用户。
以上为本发明举例说明。

Claims (6)

1.法律文本搜索方法,其特征在于,包括以下步骤:
收集语料库;
采用TF-IDF模型算法对收集的所述语料库进行训练,保存TF-IDF分数;
根据法律文本的层级关系对法律构建层级索引树;
根据所述层级索引树采用后序遍历算法对法律文本生成知识图谱,所述知识图谱包含的信息有图元自身属性、各图元之间的引用关系、各图元之间的层级关系,所述图元自身属性包含的信息有第一法条原文R1、关键词、关键词的权重,所述关键词权重对应所述TF-IDF分数;
对所述图元自身属性的第一法条原文R1构建倒序索引表;
接收用户输入的文字检索内容;
对所述用户输入的文字检索内容进行分词得到第一分词;
从所述第一分词中提取第一关键词K1,并获取所述第一关键词K1的第一同义词sK1;
根据所述第一关键词K1以及所述第一同义词sK1计算所述第一法条原文R1中的各法条的权重W5,从中选出权重最大的第二法条原文R2;
计算所述第二法条原文R2中的各法条的权重W6,从中选出权重最大的第三法条原文R3,按照权重大小排序展示给用户。
2.如权利要求1所述的法律文本搜索方法,其特征在于,所述根据所述第一关键词K1以及所述第一同义词sK1计算所述第一法条原文R1中的各法条的权重W5的具体方法为:
其中,W5为所述第一法条原文R1中的各法条的权重;
m1为所述第一关键词K1的个数;
m2为所述第一同义词sK1的个数;
n1为在所述倒序索引表中与所述第一关键词K1关联的第一法条原文R1的条数;
n2为在所述倒序索引表中与所述第一同义词sK1关联的第一法条原文R1的条数;
W1为采用TF-IDF模型算法计算的所述第一关键词K1的权重;
sW1为采用词向量算法计算的所述第一同义词sK1的权重;
W3为在所述倒序索引表中与所述第一关键词K1关联的第一法条原文R1中的各法条的权重;
W4为在所述倒序索引表中与所述第一同义词sK1关联的第一法条原文R1中的各法条的权重。
3.如权利要求1所述的法律文本搜索方法,其特征在于,所述计算所述第二法条原文R2中的各法条的权重W6的方法包括:
对所述第二法条原文R2中的各法条进行分词得到第二分词;
从所述第二分词中提取第二关键词K2,并获取所述第二关键词K2的第二同义词sK2;
采用TF-IDF模型算法计算所述第二关键词K2的权重W2,采用词向量算法计算所述第二同义词sK2的权重sW2;
采用滑窗算法计算所述第二法条原文R2中的各法条的权重W6。
4.如权利要求3所述的法律文本搜索方法,其特征在于,所述采用滑窗算法计算所述第二法条原文R2中的各法条的权重W6的具体方法为:
其中,W6为所述第二法条原文R2中的各法条的权重;
B为窗口宽度,B=3N,B如果大于30,则取值30;
M为第二分词的个数;
N为第一分词的个数;
L为窗口滑动长度,
C为窗口滑动次数,如果M>B,则否则C=1;
S为所述第二法条原文R2进行分词后,窗口内的所述第一关键词K1的权重W2或所述第一同义词sK1的权重sW2。
5.如权利要求1所述的法律文本搜索方法,其特征在于,所述第一法条原文R1为当前已发布的法律法规的法条原文。
6.如权利要求1所述的法律文本搜索方法,其特征在于,所述第二法条原文R2的数量为1000条,所述第三法条原文R3为100条。
CN201810753315.1A 2018-07-10 2018-07-10 法律文本搜索方法 Active CN109213925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810753315.1A CN109213925B (zh) 2018-07-10 2018-07-10 法律文本搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810753315.1A CN109213925B (zh) 2018-07-10 2018-07-10 法律文本搜索方法

Publications (2)

Publication Number Publication Date
CN109213925A true CN109213925A (zh) 2019-01-15
CN109213925B CN109213925B (zh) 2021-08-31

Family

ID=64990016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810753315.1A Active CN109213925B (zh) 2018-07-10 2018-07-10 法律文本搜索方法

Country Status (1)

Country Link
CN (1) CN109213925B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110334178A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110851584A (zh) * 2019-11-13 2020-02-28 成都华律网络服务有限公司 一种法律条文精准推荐系统和方法
CN110928992A (zh) * 2019-11-21 2020-03-27 邝俊伟 文本搜索方法、装置、服务器及存储介质
CN111104500A (zh) * 2019-12-21 2020-05-05 江西省天轴通讯有限公司 一种线索匹配方法、系统、可读存储介质及计算机设备
CN111125332A (zh) * 2019-12-20 2020-05-08 东软集团股份有限公司 计算词的tf-idf值的方法、装置、设备及存储介质
CN111143521A (zh) * 2019-10-28 2020-05-12 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
US20150142771A1 (en) * 2012-06-04 2015-05-21 Amazon Technologies, Inc. Adjusting search result user interfaces based upon query language
CN106815263A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律条文的搜索方法及装置
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
US20150142771A1 (en) * 2012-06-04 2015-05-21 Amazon Technologies, Inc. Adjusting search result user interfaces based upon query language
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
CN106815263A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律条文的搜索方法及装置
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334178A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110334178B (zh) * 2019-03-28 2023-06-20 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110188346B (zh) * 2019-04-29 2023-09-29 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN111143521A (zh) * 2019-10-28 2020-05-12 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN111143521B (zh) * 2019-10-28 2023-08-15 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN110851584A (zh) * 2019-11-13 2020-02-28 成都华律网络服务有限公司 一种法律条文精准推荐系统和方法
CN110851584B (zh) * 2019-11-13 2023-12-15 成都华律网络服务有限公司 一种法律条文精准推荐系统和方法
CN110928992A (zh) * 2019-11-21 2020-03-27 邝俊伟 文本搜索方法、装置、服务器及存储介质
CN111125332A (zh) * 2019-12-20 2020-05-08 东软集团股份有限公司 计算词的tf-idf值的方法、装置、设备及存储介质
CN111104500A (zh) * 2019-12-21 2020-05-05 江西省天轴通讯有限公司 一种线索匹配方法、系统、可读存储介质及计算机设备

Also Published As

Publication number Publication date
CN109213925B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN109213925A (zh) 法律文本搜索方法
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
KR101220557B1 (ko) 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템
CN105843795A (zh) 基于主题模型的文档关键词抽取方法及其系统
CN105893444A (zh) 情感分类方法及装置
CN106503148B (zh) 一种基于多知识库的表格实体链接方法
CN105045826A (zh) 一种基于图模型的实体链接算法
CN101458708B (zh) 检索结果聚类方法及装置
CN105760526B (zh) 一种新闻分类的方法和装置
CN108717410B (zh) 命名实体识别方法及系统
CN106484829B (zh) 一种微博排序模型的建立及微博多样性检索方法
CN104281565B (zh) 语义词典构建方法和装置
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN107943919B (zh) 一种面向会话式实体搜索的查询扩展方法
CN107169043A (zh) 一种基于标准答案的知识点自动提取方法及系统
CN103744956A (zh) 一种关键词的多样化拓展方法
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN106909628A (zh) 一种基于区间的文本相似搜索方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN103927339B (zh) 知识重组系统和知识重组方法
Buitelaar et al. Hot topics and schisms in NLP: Community and trend analysis with saffron on ACL and LREC proceedings
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN109325230B (zh) 一种基于维基百科双向链接的词语语义相关度判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Su Mei

Inventor after: Zhu Jigang

Inventor after: Zhao Yang

Inventor after: Wang Jianhua

Inventor after: Zou Xiaole

Inventor before: Wang Jian Hua

GR01 Patent grant
GR01 Patent grant