CN107153689A - 一种基于主题相似度的案件检索方法 - Google Patents

一种基于主题相似度的案件检索方法 Download PDF

Info

Publication number
CN107153689A
CN107153689A CN201710298924.8A CN201710298924A CN107153689A CN 107153689 A CN107153689 A CN 107153689A CN 201710298924 A CN201710298924 A CN 201710298924A CN 107153689 A CN107153689 A CN 107153689A
Authority
CN
China
Prior art keywords
document
similarity
user
block
query statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710298924.8A
Other languages
English (en)
Inventor
耿伟
周宇
司华建
贾真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Fu Chi Information Technology Co Ltd
Original Assignee
Anhui Fu Chi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Fu Chi Information Technology Co Ltd filed Critical Anhui Fu Chi Information Technology Co Ltd
Priority to CN201710298924.8A priority Critical patent/CN107153689A/zh
Publication of CN107153689A publication Critical patent/CN107153689A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本发明公开了一种基于主题相似度的案件检索方法,属于数据检索技术领域,方法包括以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;将特征倒排索引映射为特征向量,并利用主题相似度模型计算查询语句与文书数据集中各文书的相似度;对查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成文书检索。本发明从司法特征词和司法主题两个维度来描述文书,提高了类案检索的效率和准确性。

Description

一种基于主题相似度的案件检索方法
技术领域
本发明涉及数据检索技术领域,特别涉及一种基于主题相似度的案件检索方法。
背景技术
随着社会信息的公开化、透明化,案件的审判结果也越来越受到社会的关注。对于同一个案件,不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前,及时的推荐以往的相似案件,无疑会起到一个很好的参考作用。
目前的司法类案件检索,普遍采用的是基于tf-idf的向量空间模型相似度计算方法,这种方法以关键词在文本中出现的频率及文本集中出现该词的反文档频率来表征词权重,通过计算向量之间的余弦相似度来计算文本的相似度,进而根据文本的相似度来进行检索。但是,由于以下原因:一、对于司法文书数据集而言,词项的数目和文书数目都很大,采用词频向量模型,必须将文书表示为词项数目和文书数目的矩阵,具有非常高的特征维度。二、特征矩阵极度稀疏,计算效率较低。三、在相似度的计算过程中,无关词项参与相似度模型的计算,造成干扰导致检索效果差。
因此,现有的基于关键词的全文检索方法,具有检索效率低、检索结果不准确以及专业性差等缺点。
发明内容
本发明的目的在于提供一种很基于主题相似度的案件检索方法,以提高案件检索的效率和准确度。
为实现以上目的,本发明提供一种基于主题相似度的案件检索方法,该方法包括:
以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;
基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;
根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;
将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;
对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。
进一步地,主题相似度模型具体为:
其中,Q表示用户查询语句,qj表示Q中第j个关键词,d表示文书,P(qj/Q)=C(qj,Q)/|Q|,C(qj,Q)表示qj在用户查询语句Q中出现的次数,|Q|表示用户查询词语数。
进一步地,将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,具体包括:
利用所述主题相似度模型,分别计算特征向量中主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度;
对同一文书段块的主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度进行加权求和,得到用户查询语句与文书的相似度。
进一步地,在以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块之前,还包括:
基于停用词词典,去除文本中的停用词;
对去除停用词的文书进行分词处理,得到文书的分词结果。
进一步地,在利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前,还包括:
基于停用词词典,去除用户查询语句中的停用词;
对去除停用词后的用户查询语句进行分词处理,得到用户查询语句的分词结果;
基于所述领域词表,对用户查询语句的分词结果进行筛选,得到所述用户查询语句的关键词。
进一步地,该方法还包括:
结合信息点对所述文书数据集中的文书数据进行过滤,得到过滤后的文书数据;
相应地,所述的将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,还包括:
使用所述的主题相似度模型计算用户查询语句与过滤后文书的相似度。
与现有技术相比,本发明存在以下技术效果:第一、本发明在原有的自动抽取算法的基础上,以司法文书的布局和要点词为约束条件,确保文书关键段块抽取的准确性。第二、对关键段块抽取主题词时,采用司法领域的领域词表对段块中的特征词进行筛选,去除了无关词项的干扰,降低了特征词的维度,提高了类案检索效率和检索专业性。第三、从司法主题和司法特征词两个维度来描述司法文书,提高了文书描述的精确度,并且在计算相似度时,兼顾主题词块和非主题词块的相似度计算,极大的提高了类案检索的准确率和召回率。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是本发明一实施例中一种基于主题相似度的案件检索方法的流程示意图;
图2是本发明一实施例中司法文书的描述示意图;
图3是本发明一实施例中司法文书隐含主题层次的结构示意图;
图4是本发明一实施例中离线构建特征词倒排索引的流程示意图;
图5是本发明一实施例中基于主题词相似度对司法类案件进行检索的流程示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于主题相似度的案件检索方法,该方法包括如下步骤S1至S5:
S1、以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;
其中,文书的布局指的是:司法文书在排布时固定的组成部分,一般包括案件事实、争议焦点以及裁判结果等部分,要点词指的是案件事实、争议焦点以及节裁判结果等内容中涉及的重要词汇。
例如,司法文书中案件事实、争议焦点以及裁判结果等组成部分一般有固定的位置,但是由于司法文书种类的不同,上述固定位置可能会出现偏差,此时通过各部分的要点词汇进行进一步限定,可保证司法文书关键段块抽取的准确性。
需要说明的是,本实施例中所抽取的案件事实、争议焦点以及裁判结果三个关键段块仅为举例说明,本领域技术人员可以根据实际情况的需要抽取不同数量、不同组成部分的关键段块。
S2、基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;
需要说明的是,如图2所示,在司法领域,通过领域词表规范的词条来描述专业领域内的主题词。将一篇司法文书中重要的词语挑选出来,使用主题词来表示一个概念、一个方面,这些主题词构成主题词块。主题词块具有清晰的层次结构,依次为文书集合层、主题层和特征词层,司法文书可以由这些主题词和领域词语的条件概率表示。
S3、根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;
具体地,将司法文书建模到司法主题词、司法特征词的二维特征空间,保留描述司法文书的本质特征信息,并采用倒排索引结果存储,有助于高效地处理大规模司法文书数据。
S4、将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;
S5、对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。
本实施例中,如图3至图4所示,基于司法领域的领域词表,从司法裁判的领域业务知识体系出发,构造描述案件的争议焦点、裁判结果和案件事实等关键段块,每个段块由两个词块组成,一个词块是属于领域词表的主题词构成的主题词块,另一个词块是由非主题词构成的非主题词块。
第一方面,主题词块是以司法领域的领域词表匹配得到,去除了无关词项,不仅确保了主题词块的精确性,而且降低了主题词块中特征词的维度,降低了计算量。第二,将司法文书表示为司法主题词块和特征词两个维度,与原有的将司法文书表示为词项数目和文书数目的矩阵相比,降低了特征维度,减小了运算量,实现高效处理大规模司法文书数据的目标。
进一步地,主题相似度模型具体为:
其中,Q表示用户查询语句,qj表示Q中第j个关键词,d表示文书,P(qj/Q)=C(qj,Q)/|Q|,C(qj,Q)表示qj在用户查询语句Q中出现的次数,|Q|表示用户查询词语数。
进一步地,步骤S4:“将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度”,具体包括如下细分步骤:
利用所述主题相似度模型,分别计算特征向量中主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度;
对同一文书段块的主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度进行加权求和,得到用户查询语句与司法文书的相似度。
需要说明的是,本实施例中将司法文书的每一文书段块分割为两个词块即主题词块和非主题词块,在计算主题词块与查询语句的相似度时,通过主题词块和查询语句的相关度来衡量,在计算非主题词块和查询语句的相似度时,利用传统的语言模型进行衡量。然后,将两个词块和查询语句的相似度加权求和,来衡量整个司法文书的相似度,即如下式所示:
其中,表示第i个文书段块的主题词块,表示第i个文书段块的非主题词块,θ表示主题词块的加权系数,(1-θ)表示非主题词块的加权系数,表示查询语句和第i个文书段块的主题词块的相似度,表示查询语句和第i个文书段块的非主题词块的相似度。
进一步地,如图4所示,在步骤S1:“以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块”之前,该方法还包括如下步骤:
基于停用词词典,去除文本中的停用词;
对去除停用词的文书进行分词处理,得到文书的分词结果。
需要说明的是,本实施例中在对司法文书的关键段块进行抽取之前,对司法文书进行预处理,去除文书中停用词,并对文书中的语句进行分词,以便于实现对文书关键段块的准确抽取。
进一步地,如图5所示,在步骤S4中利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前,还包括如下步骤:
基于停用词词典,去除查询语句中的停用词;
对去除停用词后的查询语句进行分词处理,得到查询语句的分词结果;
基于所述领域词表,对查询语句的分词结果进行筛选,得到所述查询语句的关键词。
进一步地,该方法还包括如下步骤:
结合信息点对文书数据进行过滤,得到过滤后的文书数据;
使用主题相似度模型计算用户查询语句与过滤后文书的相似度。
需要说明的是,该处的信息点包括所属区域、法院、审判时间、案件类型等信息,通过结合信息点对司法文书数据进行过滤,可以过滤掉一部分与查询案件无关的文书数据,比如,在用户输入的查询语句中,查询的是某一区域的刑事案件,则结合信息点将不属于该区域的、不是刑事类的案件过滤掉,缩小了查找的范围。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于主题相似度的案件检索方法,其特征在于,包括:
以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块;
基于领域词表,利用主题模型分别抽取各文书段块的主题词,得到各文书段块的主题词块和非主题词块;
根据各文书段块主题词块、非主题词块中的特征词,构建特征倒排索引;
将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度;
对用户查询语句与文书数据集中各文书的相似度进行排序,并输出排序结果完成案件检索。
2.如权利要求1所述的方法,其特征在于,所述的主题相似度模型具体为:
<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>Q</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>/</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>/</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,Q表示用户查询语句,qj表示Q中第j个关键词,d表示文书,P(qj/Q)=C(qj,Q)/|Q|,C(qj,Q)表示qj在用户查询语句Q中出现的次数,|Q|表示用户查询词语数。
3.如权利要求1或2所述的方法,其特征在于,所述的将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,具体包括:
利用所述主题相似度模型,分别计算特征向量中主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度;
对同一文书段块的主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度进行加权求和,得到用户查询语句与文书的相似度。
4.如权利要求2所述的方法,其特征在于,在所述的以文书的布局和要点词为约束条件,利用自动抽取算法,抽取文书的案件事实、争议焦点以及裁判结果三个段块之前,还包括:
基于停用词词典,去除文本中的停用词;
对去除停用词的文书进行分词处理,得到文书的分词结果。
5.如权利要求2所述的方法,其特征在于,在所述的利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前,还包括:
基于停用词词典,去除用户查询语句中的停用词;
对去除停用词后的用户查询语句进行分词处理,得到用户查询语句的分词结果;
基于所述领域词表,对用户查询语句的分词结果进行筛选,得到所述用户查询语句的关键词。
6.如权利要求2所述的方法,其特征在于,还包括:
结合信息点对所述文书数据集中的文书数据进行过滤,得到过滤后的文书数据;
相应地,所述的将特征倒排索引映射为特征向量,并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度,还包括:
使用所述的主题相似度模型计算用户查询语句与过滤后文书的相似度。
CN201710298924.8A 2017-04-29 2017-04-29 一种基于主题相似度的案件检索方法 Pending CN107153689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710298924.8A CN107153689A (zh) 2017-04-29 2017-04-29 一种基于主题相似度的案件检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710298924.8A CN107153689A (zh) 2017-04-29 2017-04-29 一种基于主题相似度的案件检索方法

Publications (1)

Publication Number Publication Date
CN107153689A true CN107153689A (zh) 2017-09-12

Family

ID=59792683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710298924.8A Pending CN107153689A (zh) 2017-04-29 2017-04-29 一种基于主题相似度的案件检索方法

Country Status (1)

Country Link
CN (1) CN107153689A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807962A (zh) * 2017-10-11 2018-03-16 中国软件与技术服务股份有限公司 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN108595547A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于语义抽取的相似案件检索方法
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN109145267A (zh) * 2018-08-20 2019-01-04 六度云计算有限公司 基于主题模型的法律判决案例匹配方法和装置
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110377618A (zh) * 2019-06-17 2019-10-25 平安科技(深圳)有限公司 裁决结果分析方法、装置、计算机设备和存储介质
CN110609821A (zh) * 2018-05-29 2019-12-24 南京大学 一种用于刑罚推断的主题模型ptm
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN110990522A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种法律文书的确定方法和系统
CN111814477A (zh) * 2020-07-06 2020-10-23 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置
CN113468323A (zh) * 2021-06-01 2021-10-01 成都数之联科技有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法
CN101727438A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种数字报刊版面信息的自动提取方法
US20110258195A1 (en) * 2010-01-15 2011-10-20 Girish Welling Systems and methods for automatically reducing data search space and improving data extraction accuracy using known constraints in a layout of extracted data elements
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
CN104050235A (zh) * 2014-03-27 2014-09-17 浙江大学 基于集合选择的分布式信息检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法
CN101727438A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种数字报刊版面信息的自动提取方法
US20110258195A1 (en) * 2010-01-15 2011-10-20 Girish Welling Systems and methods for automatically reducing data search space and improving data extraction accuracy using known constraints in a layout of extracted data elements
CN104050235A (zh) * 2014-03-27 2014-09-17 浙江大学 基于集合选择的分布式信息检索方法
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807962B (zh) * 2017-10-11 2018-11-30 中国软件与技术服务股份有限公司 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN107807962A (zh) * 2017-10-11 2018-03-16 中国软件与技术服务股份有限公司 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019669B (zh) * 2017-10-31 2021-06-29 北京国双科技有限公司 一种文本检索方法及装置
CN108595547A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于语义抽取的相似案件检索方法
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN110609821A (zh) * 2018-05-29 2019-12-24 南京大学 一种用于刑罚推断的主题模型ptm
CN109145267A (zh) * 2018-08-20 2019-01-04 六度云计算有限公司 基于主题模型的法律判决案例匹配方法和装置
CN110990522B (zh) * 2018-09-30 2023-07-04 北京国双科技有限公司 一种法律文书的确定方法和系统
CN110990522A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种法律文书的确定方法和系统
CN110377618A (zh) * 2019-06-17 2019-10-25 平安科技(深圳)有限公司 裁决结果分析方法、装置、计算机设备和存储介质
CN110377618B (zh) * 2019-06-17 2024-01-05 平安科技(深圳)有限公司 裁决结果分析方法、装置、计算机设备和存储介质
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111814477A (zh) * 2020-07-06 2020-10-23 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN113468323A (zh) * 2021-06-01 2021-10-01 成都数之联科技有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN113468323B (zh) * 2021-06-01 2023-07-18 成都数之联科技股份有限公司 争议焦点类别及相似判断方法及系统及装置及推荐方法

Similar Documents

Publication Publication Date Title
CN107153689A (zh) 一种基于主题相似度的案件检索方法
Huang et al. Learning deep structured semantic models for web search using clickthrough data
Xie et al. Detecting duplicate bug reports with convolutional neural networks
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN107807962B (zh) 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
CN107562831A (zh) 一种基于全文检索的精确查找方法
CN106095737A (zh) 文档相似度计算方法及相似文档全网检索跟踪方法
Yin et al. Facto: a fact lookup engine based on web tables
CN107357793A (zh) 信息推荐方法和装置
CN109471933A (zh) 一种文本摘要的生成方法、存储介质和服务器
CN102693316B (zh) 基于线性泛化回归模型的跨媒体检索方法
Alsaaran et al. Classical Arabic named entity recognition using variant deep neural network architectures and BERT
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN112528661A (zh) 实体相似度计算方法
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
Glass et al. Inducing implicit relations from text using distantly supervised deep nets
Salah et al. Extracting debate graphs from parliamentary transcripts: A study directed at uk house of commons debates
Hsieh et al. Ranking online customer reviews with the SVR model
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method
CN114579766A (zh) 知识图谱构建方法、装置、设备、存储介质和程序产品
Asgarnezhad et al. NSE: An effective model for investigating the role of pre-processing using ensembles in sentiment classification
Sun et al. Chinese microblog sentiment classification based on deep belief nets with extended multi-modality features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170912

RJ01 Rejection of invention patent application after publication