CN111460258A - 司法鉴定信息提取方法、系统、设备及存储介质 - Google Patents
司法鉴定信息提取方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN111460258A CN111460258A CN202010234216.XA CN202010234216A CN111460258A CN 111460258 A CN111460258 A CN 111460258A CN 202010234216 A CN202010234216 A CN 202010234216A CN 111460258 A CN111460258 A CN 111460258A
- Authority
- CN
- China
- Prior art keywords
- judicial
- organization
- text data
- information extraction
- website webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 90
- 230000007246 mechanism Effects 0.000 claims abstract description 123
- 230000008520 organization Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000009193 crawling Effects 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012797 qualification Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种司法鉴定信息提取方法、系统、设备及存储介质,该方法包括:从目标网站爬取网站网页原始数据;将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构;将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。通过采用本发明,从海量数据中快速有效地提取司法鉴定信息,得到结构化数据,实现司法鉴定信息的信息有效管理机制。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种司法鉴定信息提取方法、系统、设备及存储介质。
背景技术
司法鉴定机构是指在诉讼活动中接受委托人鉴定委托,遵循法律规定的方式、方法、步骤以及相关的规则和标准,对诉讼涉及的专门性问题运用科学技术或者专门知识进行鉴别和判断并提供鉴定意见的机构。现有技术中,由于并没有一种规范化、集中化的司法鉴定机构管理模式,司法机关在选择司法鉴定机构时,具有很大的随机性,无法根据机构差异性有效地选择合适的司法鉴定机构。此外,随着社会的发展,鉴定要求奇特、不是常见类型的案件也越来越多,这类案件可鉴定的机构查找非常困难,给鉴定增加了很大的难度。司法机关需要在海量的司法鉴定信息中查找到合适的司法鉴定机构,十分耗费人力,效率很低。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种司法鉴定信息提取方法、系统、设备及存储介质,从海量数据中快速有效地提取司法鉴定信息,得到结构化数据,实现司法鉴定信息的信息有效管理机制。
本发明实施例提供一种司法鉴定信息提取方法,包括如下步骤:
从目标网站爬取网站网页原始数据;
将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;
将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;
根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构;
将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。
可选地,所述方法还包括采用如下步骤训练所述信息提取模型:
采集用于训练的网站网页文本数据;
采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,得到所述网站网页文本数据中匹配的命名实体;
采用匹配的命名实体对所述网站网页文本数据进行标记后,将所述网站网页文本数据加入训练集;
构建基于机器学习的信息提取模型,采用所述训练集训练所述信息提取模型。
可选地,所述采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,包括如下步骤:
获取当前的机构名单,判断所述网站网页文本数据中是否存在所述机构名单中的机构名称;
如果存在所述机构名单中的机构名称,则采用所述机构名称对所述网站网页文本数据中的对应数据进行机构名称标记;
如果不存在所述机构名单中的机构名称,则采用预设的机构名称上下文信息规则,判断所述网站网页文本数据中是否存在符合所述上下文信息规则的字段,如果是,则将所述字段所对应的部分进行机构名称标记;
获取预设的负面指标的文字编写规则,判断所述网站网页文本数据中是否存在符合所述负面指标的文字编写规则的字段,如果是,则将所述字段所对应的部分进行负面指标名称标记。
可选地,所述采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,还包括如下步骤:
基于预设的领域关键词库,从所述网站网页文本数据中提取对应的领域关键词;
基于所述领域关键词所对应的领域,对所述网站网页文本数据中对应的字段进行领域名称标记;
基于预设的评价关键词库,从所述网站网页文本数据中提取对应的评价关键词,根据所述评价关键词确定评价等级,对所述评价关键词所对应的字段进行评价名称标记。
可选地,所述根据所述实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构之后,还包括如下步骤:
判断所述命名实体集合中是否存在负面指标名称;
如果是,则将所述负面指标名称和对应的司法鉴定机构名称加入负面清单数据库。
可选地,所述根据所述实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构之后,还包括如下步骤:
获取所述命名实体集合中的领域名称;
根据所述机构名称获取所述司法鉴定机构的已记录鉴定领域;
判断所述命名实体集合中的领域名称是否有不在所述已记录鉴定领域的范围之内的;
如果是,则获取所述命名实体集合中的评价名称对应的评价等级,如果所述评价等级高于预设等级阈值,则将不在所述已记录鉴定领域的范围之内的领域名称加入所述司法鉴定机构对应的已记录鉴定领域,并更新所述司法鉴定信息数据库中对应的司法鉴定记录的已记录鉴定领域。
可选地,所述司法鉴定信息提取方法还包括如下步骤:
从用户终端接收到机构查询请求;
从所述机构查询请求中提取领域需求,在所述司法鉴定信息数据库中查询与所述领域需求相匹配的司法鉴定机构;
将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端。
可选地,将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端之前,还包括如下步骤:
判断所述机构查询请求中是否存在负面指标要求,如果是,则在负面清单数据库查找各个所述相匹配的司法鉴定机构的负面指标,将具有所述负面指标要求对应的负面指标的司法鉴定机构筛除。
可选地,所述方法还包括如下步骤:
根据所述司法鉴定信息数据库中各个司法鉴定机构的司法鉴定信息和预设的鉴定信息评分规则,生成各个司法鉴定机构的第一鉴定评分;
根据所述负面清单数据库中各个司法鉴定机构的负面指标和预设的负面数据评分规则,生成各个司法鉴定机构的第二鉴定评分;
根据所述第一鉴定评分和第二鉴定评分生成所述司法鉴定机构的评分;
所述将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端,包括如下步骤:
根据所述司法鉴定机构的评分,将根据所述机构查询请求匹配得到的司法鉴定机构信息进行排序,将排序后的司法鉴定机构信息推送至所述用户终端。
本发明实施例还提供一种司法鉴定信息提取系统,用于实现所述的司法鉴定信息提取方法,所述系统包括:
数据爬取模块,用于从目标网站爬取网站网页原始数据;
文本转换模块,用于将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;
实体提取模块,用于将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;
数据存储模块,用于根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构,以及将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。
可选地,所述司法鉴定信息提取系统还包括:
用户交互模块,用于从用户终端接收到机构查询请求,以及将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端;
机构查询模块,用于从所述机构查询请求中提取领域需求,在所述司法鉴定信息数据库中查询与所述领域需求相匹配的司法鉴定机构,以及判断所述机构查询请求中是否存在负面指标要求,如果是,则在负面清单数据库查找各个所述相匹配的司法鉴定机构的负面指标,将具有所述负面指标要求对应的负面指标的司法鉴定机构筛除。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现所述的司法鉴定信息提取方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的司法鉴定信息提取方法、系统、设备及存储介质具有下列优点:
本发明从海量数据中快速有效地提取司法鉴定信息,得到结构化数据,实现司法鉴定信息的信息有效管理机制,通过采用信息提取模型,提高信息提取效率;进一步地,本发明通过司法鉴定信息的管理,可以响应于司法机关的机构查询请求,为司法机关推荐合适的司法鉴定机构,提高司法鉴定机构选择效率,提高司法鉴定效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的司法鉴定信息提取方法的流程图;
图2是本发明一实施例的训练信息提取模型的流程图;
图3是本发明一实施例的司法鉴定机构查询的流程图;
图4是本发明一实施例的司法鉴定信息提取系统的结构示意图;
图5是本发明一实施例的司法鉴定信息提取设备的结构示意图;
图6是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,为了解决现有技术中的技术问题,本发明实施例了提供一种司法鉴定信息提取方法,所述司法鉴定信息提取方法包括如下步骤:
S110:每隔预设间隔时间从目标网站爬取网站网页原始数据;
S120:将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;
S130:将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;
S140:根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构;
S150:将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。
因此,本发明通过步骤S110自动从目标网站爬取原始数据,并且通过步骤S120~S140对原始数据进行有效信息自动提取,实现了司法鉴定信息提取,从而建立司法鉴定信息管理机制,提高了信息提取效率。
其中,所述步骤S110中的目标网站可以包括各个裁判文书网、行政处罚网和司法鉴定网,采用网络爬虫进行数据爬取。在该实施例中,网络爬虫的入口为预设指定的目标网站导航列表页,网络爬虫下载到网页之后,将网页内容、URL(Uniform Resource Locator,统一资源定位符)、所属类别存储到采集数据库。对于下一级网页的URL(通常为翻页后的链接),匹配不到导航列表和裁判文书页时,则不再进行页面的下载。获取到的网站网页原始数据可能包括html(超文本标记语言)格式、表格格式、图片格式和附录文档等格式的数据。
所述步骤S120中,首先对网站网页原始数据进行格式分类,不同的格式需要采取不同的解析方式,以将网站网页原始数据转换为纯文本,html格式可以直接调用解析函数,图片格式可以通过OCR工具解析,表格格式和附录文档等格式可以采用文本识别。
所述步骤S130中,信息提取模型可以是基于机器学习建立的模型,例如卷积神经网络模型、递归神经网络模型、长短期记忆网络模型等。在该实施例中,以采用BiLSTM+CRF模型结构为例进行说明。在将网站网页文本数据输入到信息提取模型之前,首先去除文本中无意义的字符,例如链接地址、空格符号、转义字符,去除网页中非正文的内容,并对处理后的文本进行统计分析、文本长度分布统计、提取目标字段在文本中的位置分布等。
然后将网站网页文本数据转换为向量,可以采用现有的开源词向量数据,也可以基于预先建立的法律文本专用词向量数据。法律文本专用词向量数据可以采用现有的法律文本数据来训练BERT模型得到。BERT(Bidirectional Encoder Representations fromTransformers)是近期谷歌提出的效果非常好的通用预训练语言表示模型。
在BiLSTM+CRF模型中,将信息的提取看作是一个序列标注的问题。本发明基于BiLSTM+CRF模型识别出网站网页文本数据中的机构名称和负面指标数据,进一步地,还可以识别出网站网页文本数据中的领域名称和机构其他属性的名称(例如资质、地址、人员信息等)。BiLSTM+CRF模型相比于其他的NLP(Natural Language Processing,自然语言处理)模型结构简单稳定,在足够的数据情况下能够保证较高的准确度。首先,在BiLSTM+CRF模型中输入网站网页文本数据转换的词向量,经过双向LSTM(Long Short-Term Memory,长短期记忆网络)结构,LSTM结构能够充分学习到相关文本的上下文信息,最后一层CRF(条件随机场)实现最终的标记,对目标提取信息进行标注抽取。
如图2所示,在该实施例中,所述司法鉴定信息提取方法还包括S200:训练信息提取模型,具体地,采用如下步骤训练所述信息提取模型:
S210:采集用于训练的网站网页文本数据,其中网站网页文本数据的获取和处理可以采用如上步骤S110和步骤S120方式获得;
S220:采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,得到所述网站网页文本数据中匹配的命名实体;
S230:采用匹配的命名实体对所述网站网页文本数据进行标记后,将所述网站网页文本数据加入训练集;
S240:构建基于机器学习的信息提取模型,采用所述训练集训练所述信息提取模型。
在该实施例中,所述步骤S220:采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,包括如下步骤:
获取当前的机构名单,判断所述网站网页文本数据中是否存在所述机构名单中的机构名称;
如果存在所述机构名单中的机构名称,则采用所述机构名称对所述网站网页文本数据中的对应数据进行机构名称标记;
如果不存在所述机构名单中的机构名称,则采用预设的机构名称上下文信息规则,判断所述网站网页文本数据中是否存在符合所述上下文信息规则的字段,如果是,则将所述字段所对应的部分进行机构名称标记;例如,设定机构名称上下文信息规则包括上文信息中含有“名称为”的字段,或者下文信息中含有“此机构”的字段等;
获取预设的负面指标的文字编写规则,判断所述网站网页文本数据中是否存在符合所述负面指标的文字编写规则的字段,如果是,则将所述字段所对应的部分进行负面指标名称标记。
在该实施例中,所述步骤S220采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,还包括如下步骤:
基于预设的领域关键词库,从所述网站网页文本数据中提取对应的领域关键词;
基于所述领域关键词所对应的领域,对所述网站网页文本数据中对应的字段进行领域名称标记;
基于预设的评价关键词库,从所述网站网页文本数据中提取对应的评价关键词,根据所述评价关键词确定评价等级,对所述评价关键词所对应的字段进行评价名称标记。
在该实施例中,所述步骤S140:根据所述实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构之后,还包括如下步骤:
S160:判断所述命名实体集合中是否存在负面指标名称,负面指标例如可以包括受到行政处罚、承担民事责任、承担刑事责任、承担行政责任、重新鉴定次数、补充鉴定次数、未获得鉴定资格、受到工商处罚等等;
S170:如果是,则将所述负面指标名称和对应的司法鉴定机构名称加入负面清单数据库,作为司法鉴定机构的负面数据记录;
S180:如果否,则不记录所述司法鉴定机构的负面清单数据。
在该实施例中,所述根据所述实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构之后,还包括如下步骤:
获取所述命名实体集合中的领域名称;
根据所述机构名称获取所述司法鉴定机构的已记录鉴定领域;
判断所述命名实体集合中的领域名称是否有不在所述已记录鉴定领域的范围之内的;
如果是,则获取所述命名实体集合中的评价名称对应的评价等级,如果所述评价等级高于预设等级阈值,则将不在所述已记录鉴定领域的范围之内的领域名称加入所述司法鉴定机构对应的已记录鉴定领域,并更新所述司法鉴定信息数据库中对应的司法鉴定记录的已记录鉴定领域。
因此,本发明实现了基于提取到的司法鉴定信息,建立和管理各个司法鉴定机构的鉴定范围记录,并且不断对司法鉴定机构的鉴定范围记录进行更新。在司法鉴定机构处理超过之前已记录鉴定领域的案件时,根据评价等级来确定司法鉴定机构是否有此鉴定能力,只有在评价等级高于预设等级阈值时,才确定司法鉴定机构有此鉴定能力,将该鉴定领域加入到其对应的鉴定领域范围中去。这样,对于一些冷门的或者新兴的鉴定领域,可以快速建立有这些鉴定领域鉴定能力的司法鉴定机构的名单,方便司法机关快速查找匹配的司法鉴定机构。
如图3所示,在该实施例中,基于所述司法鉴定信息数据库中已经提取的司法鉴定信息,还可以为司法机关提供全面、快速、有效的司法鉴定机构查询服务,提高司法机关查询效率,并且降低查询不到合适司法鉴定机构的几率。具体地,所述司法鉴定信息提取方法还包括如下步骤:
S310:从用户终端接收到机构查询请求;
S320:从所述机构查询请求中提取领域需求,在所述司法鉴定信息数据库中查询与所述领域需求相匹配的司法鉴定机构,即已记录的领域中包括该领域需求的司法鉴定机构;
S330:将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端。
因此,本发明通过司法鉴定信息的管理,可以响应于司法机关的机构查询请求,通过步骤S320为司法机关匹配合适的司法鉴定机构,并通过步骤S330将匹配到的司法鉴定机构信息推送至请求查询的用户终端,提高司法鉴定机构选择效率,提高司法鉴定效果。此处用户终端可以是司法机关所使用的电脑、手机等设备。由于司法鉴定信息数据库中的司法鉴定信息是实时更新的,因此也反映了各个司法鉴定机构的最新状态。此外,由于在匹配时根据已记录的领域进行自动匹配,可以帮助司法机关快速选择具有该领域鉴定能力的司法鉴定机构,而无需司法机关工作人员再手动去翻查该司法鉴定机构之前处理过的鉴定案件。
对于一些冷门领域或者最新出现的领域,如某中学在校学生在上体育课时因打篮球和别人相撞,造成多颗牙齿折断要求对更换假牙的费用及一生更换次数进行鉴定等,在现有技术中这类案件可鉴定的机构查找非常困难,给鉴定增加了很大的难度。而在该实施例中,在增加了新的领域类别时,可以将该新的领域在领域关键词库中创建一条新的记录,根据该领域的鉴定案件描述为该领域创建多个领域关键词,一并添加到领域关键词库中,对该新领域所对应的网站网页文本数据进行领域名称标记,然后将重新标记后的网站网页文本重新加入到训练集中,重新训练信息提取模型。再更新信息提取模型之后,采用该信息提取模型去提取信息时,可以快速识别到处理过该领域案件的司法鉴定机构,将该新领域添加到对应的司法鉴定机构的已记录领域中。
在该实施例中,所述步骤S330:将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端之前,还包括如下步骤:
S321:判断所述机构查询请求中是否存在负面指标要求,如果是,则在负面清单数据库查找各个所述相匹配的司法鉴定机构的负面指标,将具有所述负面指标要求对应的负面指标的司法鉴定机构筛除。
例如,接收到的机构查询请求中有要求未接受过刑事处罚,则将所述负面清单数据库中刑事处罚指标所对应的司法鉴定机构从匹配的司法鉴定机构中筛除,从而保证司法机关可以快速查询到符合鉴定要求的鉴定机构。
在该实施例中,所述司法鉴定信息提取方法还包括如下步骤:
S410:根据所述司法鉴定信息数据库中各个司法鉴定机构的司法鉴定信息和预设的鉴定信息评分规则,生成各个司法鉴定机构的第一鉴定评分;
例如,可以根据司法鉴定机构的各个属性(机构资质、人员资质、鉴定领域等)的属性值分别进行评分,然后加权求和,得到第一鉴定评分,不同属性的权值不同;
S420:根据所述负面清单数据库中各个司法鉴定机构的负面指标和预设的负面数据评分规则,生成各个司法鉴定机构的第二鉴定评分;
例如,可以首先设定各个司法鉴定机构的第二基础评分,如果具有一项负面指标,则在第二基础评分中减去相应分值,不同的负面指标减去的分值不同,例如刑事处罚减去的分数大于行政处罚减去的分数,对于没有负面清单数据记录的司法鉴定机构,其第二鉴定评分即为第二基础评分;
S430:根据所述第一鉴定评分和第二鉴定评分生成所述司法鉴定机构的评分。每个司法鉴定机构的评分反映了该司法鉴定机构的业务能力。
所述步骤S330:将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端,包括如下步骤:
S331:根据所述司法鉴定机构的评分,将根据所述机构查询请求匹配得到的司法鉴定机构信息进行排序;
S332:将排序后的司法鉴定机构信息推送至所述用户终端。
由此,对于司法机关来说,可以从其用户终端上接收到的司法鉴定机构的排序快速获知司法鉴定机构的业务能力排序,择优选择,给业务能力更好的司法鉴定机构委托更多的鉴定业务。
如图4所示,本发明实施例还提供一种司法鉴定信息提取系统,用于实现所述的司法鉴定信息提取方法,所述系统包括:
数据爬取模块M100,用于从目标网站爬取网站网页原始数据;
文本转换模块M200,用于将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;
实体提取模块M300,用于将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;
数据存储模块M400,用于根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构,以及将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。
因此,本发明通过数据爬取模块M100自动从目标网站爬取原始数据,并且通过文本转换模块M200对原始数据进行格式处理,通过实体提取模块M300对原始数据进行有效信息自动提取,通过数据存储模块M400存储提取出的司法鉴定信息,从而实现了司法鉴定信息提取,从而建立司法鉴定信息管理机制,提高了信息提取效率。
在该实施例中,所述司法鉴定信息提取系统还包括:
用户交互模块M500,用于从用户终端接收到机构查询请求,以及将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端;
机构查询模块M600,用于从所述机构查询请求中提取领域需求,在所述司法鉴定信息数据库中查询与所述领域需求相匹配的司法鉴定机构,以及判断所述机构查询请求中是否存在负面指标要求,如果是,则在负面清单数据库查找各个所述相匹配的司法鉴定机构的负面指标,将具有所述负面指标要求对应的负面指标的司法鉴定机构筛除。
因此,本发明通过司法鉴定信息的管理,可以响应于司法机关的机构查询请求,通过机构查询模块M600为司法机关匹配合适的司法鉴定机构,并通过用户交互模块M500将匹配到的司法鉴定机构信息推送至请求查询的用户终端,提高司法鉴定机构选择效率,提高司法鉴定效果。此处用户终端可以是司法机关所使用的电脑、手机等设备。
本发明实施例还提供一种司法鉴定信息提取设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的司法鉴定信息提取方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述司法鉴定信息提取方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的司法鉴定信息提取方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述司法鉴定信息提取方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明所提供的司法鉴定信息提取方法、系统、设备及存储介质具有下列优点:
本发明从海量数据中快速有效地提取司法鉴定信息,得到结构化数据,实现司法鉴定信息的信息有效管理机制,通过采用信息提取模型,提高信息提取效率;进一步地,本发明通过司法鉴定信息的管理,可以响应于司法机关的机构查询请求,为司法机关推荐合适的司法鉴定机构,提高司法鉴定机构选择效率,提高司法鉴定效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (13)
1.一种司法鉴定信息提取方法,其特征在于,包括如下步骤:
从目标网站爬取网站网页原始数据;
将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;
将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;
根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构;
将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。
2.根据权利要求1所述的司法鉴定信息提取方法,其特征在于,所述方法还包括采用如下步骤训练所述信息提取模型:
采集用于训练的网站网页文本数据;
采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,得到所述网站网页文本数据中匹配的命名实体;
采用匹配的命名实体对所述网站网页文本数据进行标记后,将所述网站网页文本数据加入训练集;
构建基于机器学习的信息提取模型,采用所述训练集训练所述信息提取模型。
3.根据权利要求2所述的司法鉴定信息提取方法,其特征在于,所述采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,包括如下步骤:
获取当前的机构名单,判断所述网站网页文本数据中是否存在所述机构名单中的机构名称;
如果存在所述机构名单中的机构名称,则采用所述机构名称对所述网站网页文本数据中的对应数据进行机构名称标记;
如果不存在所述机构名单中的机构名称,则采用预设的机构名称上下文信息规则,判断所述网站网页文本数据中是否存在符合所述上下文信息规则的字段,如果是,则将所述字段所对应的部分进行机构名称标记;
获取预设的负面指标的文字编写规则,判断所述网站网页文本数据中是否存在符合所述负面指标的文字编写规则的字段,如果是,则将所述字段所对应的部分进行负面指标名称标记。
4.根据权利要求3所述的司法鉴定信息提取方法,其特征在于,所述采用预设的命名实体匹配规则,对所述网站网页文本数据进行自动匹配,还包括如下步骤:
基于预设的领域关键词库,从所述网站网页文本数据中提取对应的领域关键词;
基于所述领域关键词所对应的领域,对所述网站网页文本数据中对应的字段进行领域名称标记;
基于预设的评价关键词库,从所述网站网页文本数据中提取对应的评价关键词,根据所述评价关键词确定评价等级,对所述评价关键词所对应的字段进行评价名称标记。
5.根据权利要求1所述的司法鉴定信息提取方法,其特征在于,所述根据所述实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构之后,还包括如下步骤:
判断所述命名实体集合中是否存在负面指标名称;
如果是,则将所述负面指标名称和对应的司法鉴定机构名称加入负面清单数据库。
6.根据权利要求5所述的司法鉴定信息提取方法,其特征在于,所述根据所述实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构之后,还包括如下步骤:
获取所述命名实体集合中的领域名称;
根据所述机构名称获取所述司法鉴定机构的已记录鉴定领域;
判断所述命名实体集合中的领域名称是否有不在所述已记录鉴定领域的范围之内的;
如果是,则获取所述命名实体集合中的评价名称对应的评价等级,如果所述评价等级高于预设等级阈值,则将不在所述已记录鉴定领域的范围之内的领域名称加入所述司法鉴定机构对应的已记录鉴定领域,并更新所述司法鉴定信息数据库中对应的司法鉴定记录的已记录鉴定领域。
7.根据权利要求6所述的司法鉴定信息提取系统,其特征在于,所述方法还包括如下步骤:
从用户终端接收到机构查询请求;
从所述机构查询请求中提取领域需求,在所述司法鉴定信息数据库中查询与所述领域需求相匹配的司法鉴定机构;
将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端。
8.根据权利要求7所述的司法鉴定信息提取系统,其特征在于,将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端之前,还包括如下步骤:
判断所述机构查询请求中是否存在负面指标要求,如果是,则在负面清单数据库查找各个所述相匹配的司法鉴定机构的负面指标,将具有所述负面指标要求对应的负面指标的司法鉴定机构筛除。
9.根据权利要求7所述的司法鉴定信息提取方法,其特征在于,所述方法还包括如下步骤:
根据所述司法鉴定信息数据库中各个司法鉴定机构的司法鉴定信息和预设的鉴定信息评分规则,生成各个司法鉴定机构的第一鉴定评分;
根据所述负面清单数据库中各个司法鉴定机构的负面指标和预设的负面数据评分规则,生成各个司法鉴定机构的第二鉴定评分;
根据所述第一鉴定评分和第二鉴定评分生成所述司法鉴定机构的评分;
所述将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端,包括如下步骤:
根据所述司法鉴定机构的评分,将根据所述机构查询请求匹配得到的司法鉴定机构信息进行排序,将排序后的司法鉴定机构信息推送至所述用户终端。
10.一种司法鉴定信息提取系统,其特征在于,用于实现权利要求1至9中任一项所述的司法鉴定信息提取方法,所述系统包括:
数据爬取模块,用于从目标网站爬取网站网页原始数据;
文本转换模块,用于将所述网站网页原始数据转换为纯文本形式,得到网站网页文本数据;
实体提取模块,用于将所述网站网页文本数据输入至训练好的信息提取模型,得到所述信息提取模型输出的所述网站网页文本数据中的命名实体集合;
数据存储模块,用于根据所述命名实体集合中的机构名称确定所述网站网页文本数据所对应的司法鉴定机构,以及将所述命名实体集合记录为所对应的司法鉴定机构的司法鉴定信息,并存储于司法鉴定信息数据库。
11.根据权利要求10所述的司法鉴定信息提取系统,其特征在于,还包括:
用户交互模块,用于从用户终端接收到机构查询请求,以及将根据所述机构查询请求匹配得到的司法鉴定机构信息推送至所述用户终端;
机构查询模块,用于从所述机构查询请求中提取领域需求,在所述司法鉴定信息数据库中查询与所述领域需求相匹配的司法鉴定机构,以及判断所述机构查询请求中是否存在负面指标要求,如果是,则在负面清单数据库查找各个所述相匹配的司法鉴定机构的负面指标,将具有所述负面指标要求对应的负面指标的司法鉴定机构筛除。
12.一种司法鉴定信息提取设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的司法鉴定信息提取方法的步骤。
13.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至9中任一项所述的司法鉴定信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234216.XA CN111460258B (zh) | 2020-03-30 | 2020-03-30 | 司法鉴定信息提取方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234216.XA CN111460258B (zh) | 2020-03-30 | 2020-03-30 | 司法鉴定信息提取方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460258A true CN111460258A (zh) | 2020-07-28 |
CN111460258B CN111460258B (zh) | 2023-08-29 |
Family
ID=71679808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010234216.XA Active CN111460258B (zh) | 2020-03-30 | 2020-03-30 | 司法鉴定信息提取方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460258B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326413A (zh) * | 2021-05-11 | 2021-08-31 | 世舶科技(武汉)有限公司 | 一种网页信息提取方法、系统、服务器及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210419A1 (en) * | 2008-02-19 | 2009-08-20 | Upendra Chitnis | Method and system using machine learning to automatically discover home pages on the internet |
CN108648107A (zh) * | 2018-05-09 | 2018-10-12 | 杭州安存网络科技有限公司 | 一种互联网法院电子证据存储、管理与应用系统 |
CN108924143A (zh) * | 2018-07-13 | 2018-11-30 | 重庆爱思网安信息技术有限公司 | 一种远程勘验系统及方法 |
CN109102437A (zh) * | 2018-08-10 | 2018-12-28 | 山东省计算中心(国家超级计算济南中心) | 一种基于区块链的网页自动取证方法及系统 |
CN109377423A (zh) * | 2018-10-31 | 2019-02-22 | 重庆爱思网安信息技术有限公司 | 一种基于电子数据司法鉴定流程的出证系统 |
CN109886270A (zh) * | 2019-01-17 | 2019-06-14 | 大连理工大学 | 一种面向电子卷宗笔录文本的案件要素识别方法 |
CN110069609A (zh) * | 2019-03-15 | 2019-07-30 | 平安科技(深圳)有限公司 | 裁判文书分析方法、装置、计算机设备及存储介质 |
CN110390100A (zh) * | 2019-07-16 | 2019-10-29 | 广州小鹏汽车科技有限公司 | 处理方法、第一电子终端、第二电子终端和处理系统 |
-
2020
- 2020-03-30 CN CN202010234216.XA patent/CN111460258B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210419A1 (en) * | 2008-02-19 | 2009-08-20 | Upendra Chitnis | Method and system using machine learning to automatically discover home pages on the internet |
CN108648107A (zh) * | 2018-05-09 | 2018-10-12 | 杭州安存网络科技有限公司 | 一种互联网法院电子证据存储、管理与应用系统 |
CN108924143A (zh) * | 2018-07-13 | 2018-11-30 | 重庆爱思网安信息技术有限公司 | 一种远程勘验系统及方法 |
CN109102437A (zh) * | 2018-08-10 | 2018-12-28 | 山东省计算中心(国家超级计算济南中心) | 一种基于区块链的网页自动取证方法及系统 |
CN109377423A (zh) * | 2018-10-31 | 2019-02-22 | 重庆爱思网安信息技术有限公司 | 一种基于电子数据司法鉴定流程的出证系统 |
CN109886270A (zh) * | 2019-01-17 | 2019-06-14 | 大连理工大学 | 一种面向电子卷宗笔录文本的案件要素识别方法 |
CN110069609A (zh) * | 2019-03-15 | 2019-07-30 | 平安科技(深圳)有限公司 | 裁判文书分析方法、装置、计算机设备及存储介质 |
CN110390100A (zh) * | 2019-07-16 | 2019-10-29 | 广州小鹏汽车科技有限公司 | 处理方法、第一电子终端、第二电子终端和处理系统 |
Non-Patent Citations (2)
Title |
---|
林义孟: "面向司法领域的命名实体识别研究" * |
马灿: "面向"智慧法院"的知识图谱构建方法与研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326413A (zh) * | 2021-05-11 | 2021-08-31 | 世舶科技(武汉)有限公司 | 一种网页信息提取方法、系统、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111460258B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8407781B2 (en) | Information providing support device and information providing support method | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN102243647A (zh) | 从结构化数据中提取高阶知识 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
US20080281827A1 (en) | Using structured database for webpage information extraction | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN112330510A (zh) | 一种志愿推荐方法、装置、服务器及计算机可读存储介质 | |
CN110737824A (zh) | 内容查询方法和装置 | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN111460258B (zh) | 司法鉴定信息提取方法、系统、设备及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 | |
CN111460206B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN114595309A (zh) | 一种培训装置实现方法及系统 | |
CN113656545A (zh) | 智能面试方法、装置、计算机设备及存储介质 | |
CN112269852A (zh) | 生成舆情专题方法、系统及存储介质 | |
JP2010282403A (ja) | 文書検索方法 | |
CN112182184A (zh) | 一种基于审计数据库的精准匹配搜索方法 | |
CN114328847B (zh) | 一种基于知识图谱的数据处理方法及系统 | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |