CN104572849A - 基于文本语义挖掘的标准化自动建档方法 - Google Patents

基于文本语义挖掘的标准化自动建档方法 Download PDF

Info

Publication number
CN104572849A
CN104572849A CN201410777530.7A CN201410777530A CN104572849A CN 104572849 A CN104572849 A CN 104572849A CN 201410777530 A CN201410777530 A CN 201410777530A CN 104572849 A CN104572849 A CN 104572849A
Authority
CN
China
Prior art keywords
text
information
extraction
file
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410777530.7A
Other languages
English (en)
Inventor
程宏亮
梁栋
卢耀宗
强劲
张兵
刘华兴
张小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Merit Data Technology Co Ltd
Original Assignee
Xi'an Merit Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Merit Data Technology Co Ltd filed Critical Xi'an Merit Data Technology Co Ltd
Priority to CN201410777530.7A priority Critical patent/CN104572849A/zh
Publication of CN104572849A publication Critical patent/CN104572849A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Abstract

本发明涉及一种基于文本语义挖掘的标准化自动建档方法,其特征在于:从网上爬取文件,利用文本语义,对爬取的文件和本地文件进行信息抽取、关键词提取和自动摘要生成,最后存入信息化系统中。所述信息抽取,采用知识工程的方法建立规则集,自动将信息点从文档中抽取出来,形成结构化数据;所述关键词提取,主要是根据词语在文章的位置和语义,提取关键词,生成关键词索引;所述自动摘要,先设定摘要所要包含的内容,然后从文本中提取对应信息,计算句子间的相似度,抽取包含原文档中关键信息的文本。本发明之标准化自动建档方法,可以使业务人员免于阅读大量的文件,节省时间和人力,方便查询和使用。

Description

基于文本语义挖掘的标准化自动建档方法
技术领域
本发明涉及一种文本语义分析技术的工程化应用。具体地说是将文本语义分析相关技术(信息抽取、关键词提取、自动摘要)应用到一类文本(有一定的内容和格式要求)中,形成一种文档标准化自动建档的方法。
背景技术
档案的种类很多,如人事档案、财务档案、技术档案、合同档案、案件档案,等等。档案和档案管理,是各企事业单位、政府部门等不可或缺的一项重要工作。
很多企业、政府部门等,都保有大量的文本文件,特别是一些有格式、内容要求的文本文件(如法院的法律文书、公安部门的犯罪案件信息、企业存放的合同等),这些文件是以自由文本形式存在,传统方法进行查询文本信息时,通常只是根据关键字进行查询,需要花费大量的时间查找所要的文件,但这会检索出大量无用的信息,还需要采用信息抽取技术从这些文件中抽取结构化信息,存入信息化系统中,以便提高查询的效率和查询结果的有效性,方便用户使用。
1.网络爬虫
所谓网络爬虫(Web Spider),是一个自动提取网页的程序,它可以从万维网上自动下载网页,并将收集到的信息存储到本地数据库中。网络爬虫用来从互联网上的海量信息中,抓取网页信息。
传统网络爬虫,包括一个协议处理模块,URL处理模块和内容检测模块。其中,协议处理模块用来提供网络爬虫在爬行时所需的网络协议;URL处理模块负责对采集的URL进行排序;内容检测模块用来处理网络上大量存在、内容重复的页面,以提高网络爬虫的工作效率。
传统的网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。所有被爬虫抓取的网页会被系统存储,进行一定的分析和过滤。目前主流的网页搜索策略主要有三种,即深度优先、广度优先、最佳优先。
2.文本预处理技术
文本预处理是进行后续挖掘的基础,其主要包括以下几个方面:
分词,对文本信息进行分析,便于提取关键词;常用的分词算法包括:基于字符串匹配的算法、基于理解的分词算法、基于统计的分词算法;
文本表示,要使计算机能够高效地处理真实文本,就必须找到一种理想的形式表示方法,这种表示一方面能够真实地反映文档的内容,另一方面,要有对不同文档的区分能力。常用的文本表示方法有向量空间模型、概念模型、概率模型等;
特征选择:特征选择能剔除不相关或冗余的特征,选出能够很好反映文本内容的词,由此降低文本向量空间维数,提高分类器的分类效率和分类精度。目前已有的特征选择方法比较多,常用的有:词频方法、文档频次方法、信息增益法, 统计量法和互信息方法等;
特征约减,综合考虑各特征,通过原始特征的组合(线性)或转换(非线性)得到的新特征,使其具有更好的分类特征。该方法能够较好地处理多义词(降低精度)、同义词(降低召回率)问题。常用的特征约减算法有潜在语义索引、主成分分析和Fisher线性判决分析。
3.信息抽取技术
信息抽取技术,是指从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并存入数据库,供用户查询和使用。信息抽取的主要过程包括:分词和词性标注;句法分析;抽取所需信息,并填入到模板中;指代合并,处理文本中命名实体的指代重复问题。
信息抽取算法主要包括两种,知识工程方法和机器学习方法:
知识工程方法─ 依靠人工编写抽取模式,使系统能够处理特定知识领域的信息抽取问题,这种方法要求编写抽取模式的知识工程师对该知识领域有深入的了解。而且这些规则很难保证具有整体的系统性和逻辑性,且可移植性差。
机器学习方法─ 利用及其学习技术,让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能。常用的方法有:基于特征向量的机器学习方法,如支持向量机和神经网络等;基于统计模型的机器学习方法,如隐马尔可夫模型、最大熵模型和条件随机场模型;基于Kernel的机器学习方法,只需直接使用字符串的原始形式作为处理对象,通过计算对象间的核函数来实现信息抽取。但基于机器学习的方法信息抽取需要大量的训练样本,且结果准确率不高。
4.关键词提取技术
关键词提取算法主要由三类:(1)基于统计特征的方法,如词语频率统计;(2)基于词语网络的方法,根据一定规则将文档映射为词语网络,利用词语网络计算词语的关建度;(3)基于语义的方法,利用词语的语义特征提取关键词。
5.自动摘要技术
自动文本摘要,是指利用计算机从单文档或多文档集合中,自动抽取包含原文档中关键信息的文本。法律文书的自动摘要是基于单文本的自动摘要,即对每个文本都要生成相应的摘要,对其内容进行抽取,并针对应用需求,将文中最重要的内容以压缩的形式呈现给用户。常见的单文档摘要技术包括基于特征的方法、基于词汇链的方法和基于图排序的方法:   
 1)基于特征的方法。文档摘要中常用的文章特征包括词频、特定段落(如首末段)、段落的特定句子等。因此,基于特征的自动摘要方法,主要是根据词的频率、句子位置等,自动生成摘要;
2)基于词汇链的方法。主要是通过对文章内容进行自然语言分析生成摘要。其主要实现过程是:选择候选词的集合;根据与词汇链里成员的相关程度,为每个候选词选择词汇链;若候选词与词汇链相关度高,则把候选词加入词汇链内;
3)基于图排序的方法。一般思想是把文章分解为若干单元(句子或段落等),每个单元对应一个图的顶点,单元间的关系作为边,最后通过图排序的算法得出各顶点的得分,并在此基础上生成文本摘要。
上述三种技术存在的难题和解决的方法:
1.信息抽取
标准化自动建档方法是针对特定文本文件的,这类文件具有一定的格式,但又不完全是固定的格式,对文件所要包含的信息有基本要求,但文件与文件内容之间差距较大,不能采用通过训练文本来获得抽取模式的机器学习方法。而传统的知识工程方法依靠人工编写抽取模式,规则本身的学习和提取成为信息抽取的关键,而信息抽取则退居为次要过程。这种方法要求编写抽取模式的知识工程师对该知识领域有深入的了解。
信息抽取主要存在的问题包括:
(1). 抽取规则的适应性
抽取规则的适应性较差,缺乏健壮性是现有信息抽取技术所面临的难点。同时由于现有技术均采用定制的语言表达抽取规则,缺乏通用性,系统不易升级。如何处理效率与健壮性之间的矛盾是一个重要问题;
(2). 抽取规则的表达方式
目前各类信息抽取技术中生成规则的依据主要有五类:结果特征、位置特征、显示特征、语义特征和引用特征。这些方式各有缺陷,如何将基于结构和基于文本方式有效地结合起来?是信息抽取需要解决的一个问题;
(3). 抽取的自动化处理
性能较好的信息抽取技术需要用户的大量参与,自动化程度不高;而自动化程度高的信息抽取其准确率和适应性较低,实用性较差。两者之间的矛盾也需要解决。
2.关键词提取
基于统计特征的算法虽然操作简单,但是会忽略出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语。基于词语网络的方法,目前主要是将高频词语以及它们在同一窗口的共线关系映射成词语网络。基于语义的方法从语义角度判断词语的重要性,较符合人们的感知逻辑,也是目前关键词提取领域的一个研究热点,但这种方法借助一种中间模型表示文章语义结果,通过分析词语间的语义关系,获取关键词,显然,这类方法需要专业相关的先验知识。
3.自动摘要
对关键信息有一定要求的文本,其所要包含的内容大部分也是固定的,但对内容的描述是不一样的,因此针对普通文本的传统的摘要提取方法是不适用的。
发明内容
本发明的目的在于:克服传统文字档案管理及使用中的缺点,针对企业、政府部门等保有的一些有格式、内容要求的文本文件,提供一种科学建档的新方法。
本发明是这样实现的
本发明的基本技术原理和方法是:从网上爬取(又称“网络爬虫”)相应的文件,利用文本语义分析技术,然后对爬取的文件和本地文件(word、txt格式)进行信息抽取、关键词提取和自动摘要生成,继而存入信息化系统中,方便查询和使用。
1.信息抽取
鉴于所要分析文本信息的特点,采用知识工程的方法,即充分利用内容特点和格式特点的信息,制作规则表来进行信息抽取,采用python语言进行编程。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。
2.关键词提取
针对所要分析文本的特点,其关键词应该是能表达文本主要内容的词语,其主要分布在文章的开头或结尾部分,因此,词语所在文章的位置和所在句子的语义,是决定词语是否是关键词的重要因素。因此,在关键词提取中,需充分考虑词语所在位置和其所处的语义环境。
3.自动摘要
针对所要分析文本的特点,用户设定摘要所要包含的内容,然后从文本中提取信息,对信息进行缩减(计算句子之间的相似度),用较少的文字表达其主要内容,抽取包含原文档中关键信息的文本。
本发明的优点
本发明之基于文本语义挖掘的标准化自动建档方法,针对文件的特点和内容,采用文本语义挖掘的相关技术对其进行信息抽取、关键词提取和自动摘要,使业务人员免于阅读大量的文件,节省时间和人力,方便查询和使用。
网络爬虫可以定期从网站上爬取文件,并存储到数据库中,省去从网络搜集文件的时间和人力,并方便查询和使用;
信息抽取,使文本文件转化为结构化信息,方便后期对其进行知识抽取和统计分析;
关键词提取,可以体现文件的主要内容,可以查看相似文件,对文件进行归档;
自动摘要可以对文件主要内容进行概括,使用户不用阅读整篇文件,就可以了解文件的主要内容。
下面结合附图和实施例,对本发明做进一步说明
附图说明
图1.基于文本语义挖掘的标准化建档方法的整体流程图;
图2.聚焦爬虫之流程的示意框图;
图3.以广度优先搜索策略,采用本发明的爬虫技术,搜索的部分结果;
图4.采用信息抽取技术,得到的信息抽取结果(部分);
图5. 采用关键词提取技术,生成的关键词索引。
具体实施方式:
实施例法院存储案件信息的标准化建档方法
随着各级法院的信息化建设,法院存储的案件信息急剧增长,但仍存在相当一部分的法律文书,以自由文本形式存在,需要信息抽取技术从中抽取结构化信息,存入信息化系统中,方便查询和使用。
本实施例之法院存储案件信息的建档方法、步骤如图1所示。主要是:应用网络爬虫技术,经过网页分析和预处理,从网络上爬取文件,然后对爬取的文件和本地文件(word、txt格式)进行信息抽取、关键词提取和自动摘要生成,并存入信息化系统中,方便查询和使用。
1.从特定网站爬取文书
针对中国裁判文书网的结构,在进行网络爬虫时,输入的是所要爬取文书的省份,爬取结果是各省份的网络文书,记录其URL、文书标题、文书提交时间、板块信息和省份信息,并保存在数据库中。
聚焦爬虫之流程如图2所示,其主要实现步骤如下:
Step1(初始URL):输入初始URL(中国裁判文书网:http://www.court.gov.cn/zgcpwsw/);
Step2(获取网页):获取网页,并抓取新的URL放入URL队列;
Step3(根据分析算法评价网页及URL):采用基于网络拓扑的分析算法——PageRank算法,对网页进行分析,提取内容包括URL、文书标题、文书提交时间、板块信息和省份信息;判断是否满足终止条件,若满足,则结束,若不满足则转Step4;
Step4(根据选择策略选择URL):采用广度优先搜索策略进行下一层次的搜索;转Step2。
通过采用本发明的爬虫技术,得到的部分结果见附图3。
图3为将从网络上爬取的文书保存到数据库中的部分结果,其中ID为文书的编号,URL为文书的网址,TITLE为文书标题、POST_TIME为文书上传时间、BOARD为文书所在版块、CONTENT为文书内容、PROVINCE为省份。
2.信息抽取
采用基于自然语言理解方式的信息抽取。其主要步骤包括:句法分析、语义标注、专有对象的识别(如人物、公司)和抽取规则。具体的说就是把文本分割成多个句子,对一个句子的句子成分进行标记,然后将分析好的句子语法结构和事先定制的语言规则匹配,获得句子的内容。其实就是利用句子结构、短语和句子间的关系建立基于语法和语义的抽取规则实现信息抽取。
信息抽取采用的是半自动化的信息抽取方法,抽取规则手工定制,而抽取规则的结构信息和信息抽取的执行是自动化完成的。规则经人工提取后,采用基于python的正则表达式的方法实现自动化抽取。其主要实现步骤:
Step1(所要提取信息的表格):建立信息抽取表;
Step2(规则抽取):人工抽取规则,建立规则集;
Step3(基于python的正则表达式):把规则用基于python的正则表达式表示;
Step4(信息抽取):自动对文本进行分析,提取信息;
所要提取信息的表格如下(共55个字段,部分如下):
字段名 类型 描述 是否必填 备注
id char(256) 文书id,自增 主键
url char(128) URL  
title char(512) 文书标题  
post_time date 文书提交时间  
board char(32) 版面  
content CLOB 裁判书原文  
court char(128) 审理法院    
type char(32) 文书类型   刑事、民事
case_no char(128) 案号    
case_time char(32) 案号中的时间   例如2013、2014
judge_type number(1) 审判类型   0表示一审,1表示二审
public_prosecution char(128) 公诉机关   刑事一、二审判决书
plaintiff varchar2(2000) 原告/上诉人/自诉人   N|N
p_info varchar2(4000) 原告信息   N|N
p_legal_representative char(256) 原告的法定代表人   民事、行政一、二审判决书、裁定书
plr_info varchar2(512) 原告的法定代表人信息   民事、行政一、二审判决书、裁定书
p_entrusted_agent char(256) 原告的委托代理人   N|N,<=2人,民事、行政一、二审判决书、裁定书
通过采用本发明的信息抽取技术,信息抽取结果(部分)见附图4。
图4为对文书进行信息抽取后的部分结果,其中COURT为文书审理法院、TYPE为文书类型、CASE_NO为案号、CASE_TIME为案号中的时间、JUDGE_TYPE为审判类型、PUBLIC_PROSECUTION为公诉机关、PLAINTIFF为原告/上诉人/自诉人、P_INFO为原告/上诉人/自诉人信息。
3.关键词提取
关键词提取采用的算法是基于语义和统计相结合的方法。其主要步骤是:
Step1(分词、词性标注):对文本进行分词;
Step2(文本预处理):用向量空间模型计算词语的TFIDF值,并标记词语所处的位置和词性;出现在标题、文书开始部分、文书结尾部分的词语比出现在文本中间的词语的重要性高;
Step3(基于HowNet的词语相似度计算):采用基于HowNet的词语相似度计算方法,计算词语间的语义相似度,对于具有高相似度的词语进行合并处理,并统计相似词语的个数;
Step4(计算词语关键度):根据词语的相似个数、TFIDF值、词语所处位置计算词语的关键度。
针对法律文书的特点,其关键词应该是能表达案件类型、案由描述、审判结果等信息的词语,案件类型一般处于文书的开始位置,而审判结果处于文书的结尾部分。
通过采用本发明的关键词提取技术,生成关键词索引,部分结果见附图5。
图5为通过采用本发明的关键词提取技术,生成的关键词索引,其中INDEX_ID为序号,DOC_ID为文书名称,KEYWORD为提取的文书中的关键词。由于一篇文书中可有多个关键词,因此文书名称可重复,文书名称与关键词为一对多的关系。
4.自动摘要
摘要应充分考虑用户关注的内容和能够概括文件主要内容的句子。所提取的摘要具有以下特点:句子能够体现文本的主要内容;句子之间冗余信息较少;用精炼的语句概括了文件的主要内容。
自动摘要提取算法主要分以下几步进行:
Step1(抽取含有摘要信息的句子):从法律文本中提取包含用户关注内容信息的句子;
Step2(对备选摘要句子进行相似度计算):将备选摘要句列表中的句子进行相似性计算,除去相似性较高的句子;
Step3(对句子组合,生成摘要):对剩余句子进行组合,生成摘要。
在法律文书解析中,能够概括文书主要内容的方面包括:原告的诉讼请求、原告和被告的陈述,以及法院认定的事实。
通过采用本发明的自动摘要生成技术,对ID=’201406121435328’的文书,生成的摘要为:申请再审人刘平因与被申请人巴州雷鑫灌溉服务有限公司(以下简称雷鑫公司)、原审第三人巴州恒瑞汽车贸易有限公司(以下简称恒瑞公司)间物权保护纠纷一案,本院认为,刘平的再审申请符合《中华人民共和国民事诉讼法》第二百条第(二)、(六)项规定的情形。

Claims (1)

1.基于文本语义挖掘的标准化自动建档方法, 其特征在于:将文本语义分析相关技术——信息抽取、关键词提取、自动摘要技术,应用到有一定的内容和格式要求的文本中,形成一种文档标准化自动建档的方法;
所述信息抽取,主要是采用自然语言处理方法,首先人工抽取规则,然后对法律文本进行句法和语义分析,采用基于python的正则表达式的方法实现自动化抽取;
所述关键词提取,主要是应用基于语义和统计相结合的方法,用基于HowNet的词语相似度计算词语相似度,筛选后形成关键词,并建立关键词索引;
所述自动摘要,首先从文本中抽取包含摘要信息的句子,然后计算句子间的相似度,合并句子形成摘要信息。
CN201410777530.7A 2014-12-17 2014-12-17 基于文本语义挖掘的标准化自动建档方法 Pending CN104572849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410777530.7A CN104572849A (zh) 2014-12-17 2014-12-17 基于文本语义挖掘的标准化自动建档方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410777530.7A CN104572849A (zh) 2014-12-17 2014-12-17 基于文本语义挖掘的标准化自动建档方法

Publications (1)

Publication Number Publication Date
CN104572849A true CN104572849A (zh) 2015-04-29

Family

ID=53088911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410777530.7A Pending CN104572849A (zh) 2014-12-17 2014-12-17 基于文本语义挖掘的标准化自动建档方法

Country Status (1)

Country Link
CN (1) CN104572849A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183742A (zh) * 2015-06-12 2015-12-23 南京富士通南大软件技术有限公司 一种简历识别方法
CN106649849A (zh) * 2016-12-30 2017-05-10 上海智臻智能网络科技股份有限公司 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN106815201A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN107122348A (zh) * 2017-04-24 2017-09-01 维沃移动通信有限公司 一种信息保存方法及移动终端
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107807917A (zh) * 2017-09-27 2018-03-16 风变科技(深圳)有限公司 文本内容提取方法、装置、系统及存储介质
CN107870966A (zh) * 2017-08-11 2018-04-03 成都萌想科技有限责任公司 一种基于语义模型的招聘简章数据抽取方法
CN107967250A (zh) * 2016-10-19 2018-04-27 中兴通讯股份有限公司 一种信息处理方法及装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108255877A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 裁判文书的存储方法及装置
CN108681977A (zh) * 2018-03-27 2018-10-19 成都律云科技有限公司 一种律师信息处理方法和系统
CN108984159A (zh) * 2018-06-15 2018-12-11 浙江网新恒天软件有限公司 一种基于马尔可夫语言模型的缩略词组扩展方法
CN108984700A (zh) * 2018-07-05 2018-12-11 腾讯科技(深圳)有限公司 数据处理方法及装置、计算机设备及存储介质
CN109033041A (zh) * 2017-06-09 2018-12-18 北京国双科技有限公司 文书相似度的处理方法和装置
CN109040750A (zh) * 2018-09-17 2018-12-18 四川长虹电器股份有限公司 一种智能电视的语音模块的自动化测试系统及方法
CN109033064A (zh) * 2018-05-31 2018-12-18 华中师范大学 一种基于文本摘要的小学语文作文语料标签自动提取方法与装置
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109472722A (zh) * 2017-09-08 2019-03-15 北京国双科技有限公司 获得待生成裁判文书经审理查明段相关信息的方法及装置
CN109508372A (zh) * 2018-06-27 2019-03-22 华北电力大学 一种基于司法领域知识抽取的高效司法文档分类方法
CN109726239A (zh) * 2018-12-25 2019-05-07 厦门市美亚柏科信息股份有限公司 一种对取证数据进行分析的方法、装置及可读存储介质
CN109918656A (zh) * 2019-02-28 2019-06-21 武汉斗鱼鱼乐网络科技有限公司 一种直播热点获取方法、装置、服务器及存储介质
CN110020421A (zh) * 2018-01-10 2019-07-16 北京京东尚科信息技术有限公司 通讯软件的会话信息摘要方法及系统、设备和存储介质
CN110059176A (zh) * 2019-02-28 2019-07-26 南京大学 一种基于规则的通用文本信息抽取和信息生成方法
CN110069622A (zh) * 2017-08-01 2019-07-30 武汉楚鼎信息技术有限公司 一种个股公告摘要智能提取方法
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110532538A (zh) * 2018-05-24 2019-12-03 中国科学院沈阳计算技术研究所有限公司 财产纠纷裁判文书关键实体抽取算法
CN111796830A (zh) * 2020-06-08 2020-10-20 成都数之联科技有限公司 一种协议解析处理方法、装置、设备及介质
CN112364621A (zh) * 2020-09-22 2021-02-12 北京新橙科技有限公司 基于ruta规则语言进行法规文本解析的方法及系统
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及系统
CN113095061A (zh) * 2021-03-31 2021-07-09 京华信息科技股份有限公司 一种公文头抽取方法、系统、装置及存储介质
CN114173019A (zh) * 2021-12-23 2022-03-11 青岛黄海学院 一种多功能档案扫描装置及其工作方法
CN114462384A (zh) * 2022-04-12 2022-05-10 北京大学 一种面向数字对象建模的元数据自动生成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183742A (zh) * 2015-06-12 2015-12-23 南京富士通南大软件技术有限公司 一种简历识别方法
CN106815201A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置
CN106815201B (zh) * 2015-12-01 2021-06-08 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN107967250A (zh) * 2016-10-19 2018-04-27 中兴通讯股份有限公司 一种信息处理方法及装置
CN107967250B (zh) * 2016-10-19 2020-12-29 中兴通讯股份有限公司 一种信息处理方法及装置
CN108021545B (zh) * 2016-11-03 2021-08-10 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108255877A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 裁判文书的存储方法及装置
CN108255877B (zh) * 2016-12-29 2020-11-24 北京国双科技有限公司 裁判文书的存储方法及装置
CN106649849A (zh) * 2016-12-30 2017-05-10 上海智臻智能网络科技股份有限公司 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107122348A (zh) * 2017-04-24 2017-09-01 维沃移动通信有限公司 一种信息保存方法及移动终端
CN109033041A (zh) * 2017-06-09 2018-12-18 北京国双科技有限公司 文书相似度的处理方法和装置
CN110069622A (zh) * 2017-08-01 2019-07-30 武汉楚鼎信息技术有限公司 一种个股公告摘要智能提取方法
CN107870966A (zh) * 2017-08-11 2018-04-03 成都萌想科技有限责任公司 一种基于语义模型的招聘简章数据抽取方法
CN109472722B (zh) * 2017-09-08 2021-08-17 北京国双科技有限公司 获得待生成裁判文书经审理查明段相关信息的方法及装置
CN109472722A (zh) * 2017-09-08 2019-03-15 北京国双科技有限公司 获得待生成裁判文书经审理查明段相关信息的方法及装置
CN107807917A (zh) * 2017-09-27 2018-03-16 风变科技(深圳)有限公司 文本内容提取方法、装置、系统及存储介质
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110020421A (zh) * 2018-01-10 2019-07-16 北京京东尚科信息技术有限公司 通讯软件的会话信息摘要方法及系统、设备和存储介质
CN108681977A (zh) * 2018-03-27 2018-10-19 成都律云科技有限公司 一种律师信息处理方法和系统
CN108681977B (zh) * 2018-03-27 2022-05-31 成都律云科技有限公司 一种律师信息处理方法和系统
CN110532538A (zh) * 2018-05-24 2019-12-03 中国科学院沈阳计算技术研究所有限公司 财产纠纷裁判文书关键实体抽取算法
CN109033064B (zh) * 2018-05-31 2022-06-28 华中师范大学 一种基于文本摘要的小学语文作文语料标签自动提取方法
CN109033064A (zh) * 2018-05-31 2018-12-18 华中师范大学 一种基于文本摘要的小学语文作文语料标签自动提取方法与装置
CN108984159A (zh) * 2018-06-15 2018-12-11 浙江网新恒天软件有限公司 一种基于马尔可夫语言模型的缩略词组扩展方法
CN108984159B (zh) * 2018-06-15 2021-06-15 浙江网新恒天软件有限公司 一种基于马尔可夫语言模型的缩略词组扩展方法
CN109508372B (zh) * 2018-06-27 2023-05-09 华北电力大学 一种基于司法领域知识抽取的高效司法文档分类方法
CN109508372A (zh) * 2018-06-27 2019-03-22 华北电力大学 一种基于司法领域知识抽取的高效司法文档分类方法
CN108984700A (zh) * 2018-07-05 2018-12-11 腾讯科技(深圳)有限公司 数据处理方法及装置、计算机设备及存储介质
CN109344397B (zh) * 2018-09-03 2023-08-08 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109040750B (zh) * 2018-09-17 2020-03-17 四川长虹电器股份有限公司 一种智能电视的语音模块的自动化测试系统及方法
CN109040750A (zh) * 2018-09-17 2018-12-18 四川长虹电器股份有限公司 一种智能电视的语音模块的自动化测试系统及方法
CN109376202B (zh) * 2018-10-30 2021-08-03 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109726239A (zh) * 2018-12-25 2019-05-07 厦门市美亚柏科信息股份有限公司 一种对取证数据进行分析的方法、装置及可读存储介质
CN109918656B (zh) * 2019-02-28 2022-12-23 武汉斗鱼鱼乐网络科技有限公司 一种直播热点获取方法、装置、服务器及存储介质
CN110059176B (zh) * 2019-02-28 2021-07-13 南京大学 一种基于规则的通用文本信息抽取和信息生成方法
CN110059176A (zh) * 2019-02-28 2019-07-26 南京大学 一种基于规则的通用文本信息抽取和信息生成方法
CN109918656A (zh) * 2019-02-28 2019-06-21 武汉斗鱼鱼乐网络科技有限公司 一种直播热点获取方法、装置、服务器及存储介质
CN111796830B (zh) * 2020-06-08 2023-09-19 成都数之联科技股份有限公司 一种协议解析处理方法、装置、设备及介质
CN111796830A (zh) * 2020-06-08 2020-10-20 成都数之联科技有限公司 一种协议解析处理方法、装置、设备及介质
CN112364621A (zh) * 2020-09-22 2021-02-12 北京新橙科技有限公司 基于ruta规则语言进行法规文本解析的方法及系统
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及系统
CN113095061A (zh) * 2021-03-31 2021-07-09 京华信息科技股份有限公司 一种公文头抽取方法、系统、装置及存储介质
CN113095061B (zh) * 2021-03-31 2023-08-29 京华信息科技股份有限公司 一种公文头抽取方法、系统、装置及存储介质
CN114173019A (zh) * 2021-12-23 2022-03-11 青岛黄海学院 一种多功能档案扫描装置及其工作方法
CN114173019B (zh) * 2021-12-23 2023-12-01 青岛黄海学院 一种多功能档案扫描装置及其工作方法
CN114462384A (zh) * 2022-04-12 2022-05-10 北京大学 一种面向数字对象建模的元数据自动生成装置
CN114462384B (zh) * 2022-04-12 2022-07-12 北京大学 一种面向数字对象建模的元数据自动生成装置

Similar Documents

Publication Publication Date Title
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
Wang et al. Mining geographic knowledge using location aware topic model
Vani et al. Detection of idea plagiarism using syntax–semantic concept extractions with genetic algorithm
CN103678412A (zh) 一种文档检索的方法及装置
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN103838796A (zh) 一种网页结构化信息抽取方法
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN103034656B (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN114118089A (zh) 一种基于裁判文书的企业司法诉讼关系的构建方法及系统
Jeon et al. Making a graph database from unstructured text
Albarghothi et al. Automatic construction of e-government services ontology from Arabic webpages
Mastropavlos et al. Automatic acquisition of bilingual language resources
Jutta et al. Linguistic variation in the Austrian Media Corpus. Dealing with the challenges of large amounts of data
Malhotra et al. Web page segmentation towards information extraction for web semantics
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.
Kurmi et al. Text summarization using enhanced MMR technique
Yoon et al. A conference paper exploring system based on citing motivation and topic
Shao et al. An improved approach to the recovery of traceability links between requirement documents and source codes based on latent semantic indexing
Amigud et al. A method for thematic and structural visualization of academic content
CN111753540A (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
Sithole et al. Attributes extraction for fine-grained differentiation of the Internet of Things patterns
Lincheng A large-scale full-text search engine using DotLuence
Kolkur et al. Web Data Extraction Using Tree Structure Algorithms-A Comparison

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 710065 Shaanxi hi tech Zone, Xi'an science and technology zone, No. 68 Xi'an Software Park, Han Yun Ge C501

Applicant after: Merrill Lynch data technology Limited by Share Ltd

Address before: 710075 Shaanxi hi tech Zone, Xi'an science and technology zone, No. 68 Xi'an Software Park, Han Yun Ge C501

Applicant before: XI'AN MERIT DATA TECHNOLOGY CO., LTD.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429

RJ01 Rejection of invention patent application after publication