CN111858830A - 基于自然语言处理的卫生监督执法数据检索系统及其方法 - Google Patents
基于自然语言处理的卫生监督执法数据检索系统及其方法 Download PDFInfo
- Publication number
- CN111858830A CN111858830A CN202010234451.7A CN202010234451A CN111858830A CN 111858830 A CN111858830 A CN 111858830A CN 202010234451 A CN202010234451 A CN 202010234451A CN 111858830 A CN111858830 A CN 111858830A
- Authority
- CN
- China
- Prior art keywords
- text
- legal
- word
- words
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003058 natural language processing Methods 0.000 title claims abstract description 21
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 239000002906 medical waste Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供基于自然语言处理的卫生监督执法数据检索系统,包括输入模块、处理模块、检索模块、输出模块以及数据库;所述检索模块包括模糊检索模块和精确检索模块,其中,所述精确检索模块包括模糊字段和精确字段。本申请还包括一种基于自然语言处理的卫生监督执法数据检索系统的检索方法,步骤包括:将法律法规文本通过分词器分词;得到基于卫生监督执法的法律法规文本的深度学习算法模型;当用户选择模糊检索模式时,得到输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度;当选择精确检索模式时,根据得到的近义词和原词与卫生监督执法的法律法规文本进行匹配计数,找到相似度最高的文本内容。本申请提高了工作效率。
Description
技术领域
本申请涉及卫生监督执法数据检索领域,尤其是基于自然语言处 理的卫生监督执法数据检索系统及其方法。
背景技术
近年来,随着我国产业的多样化发展,每个产业领域的法律法 规也在不断地补充完善。在越来越庞大的执法系统中,为了保证各 个领域监督执法工作的有效进行,就要投入更多的人力资源,执法 人员的培训成本也越来越高,另外如何在数量庞大的法律条例中准 确找到产业领域相关的法律法规,提高执法效率,也是很大的问题。
发明内容
为解决上述问题,本申请提供一种基于自然语言处理的卫生监 督执法数据检索系统,包括输入模块、处理模块、检索模块、输出 模块以及数据库;
所述数据库包括卫生监督执法的法律法规文本;
所述处理模块包括分词器以及基于所述卫生监督执法的法律法 规文本被分词器进行分词后建立的深度学习算法模型;
所述检索模块包括模糊检索模块和精确检索模块,其中,所述 精确检索模块包括模糊字段和精确字段。
其中,优选的,基于自然语言处理的卫生监督执法数据检索系 统还包括热词库模块。
其中,优选的,所述输出模块包括检索结果以及法律法规文本 详情。
本申请还提供一种使用上述的基于自然语言处理的卫生监督执 法数据检索系统的检索方法,步骤包括:
S10,获取数据库中卫生监督执法的法律法规文本,将所述卫生 监督执法的法律法规文本通过分词器分词,并将分词后的内容存入 数据库中;
S20,利用中文语料库训练分词后的内容形成中文词向量,将 所述中文词向量作为神经网络输入层的输入数据,根据 word2vector模型算法,得到基于卫生监督执法的法律法规文本的 深度学习算法模型;其中,神经网络的输出层的维度与输入层的维 度相同,该模型定义的损失函数为交叉熵代价函数,使用梯度下降 法更新权重矩阵,其中,损失函数的公式如下:
其中,y是输出层每一个词在字典中的one-hot编码表示,|V| 为字典的总长度,yi为该词在输出层的输出结果。
S30,当用户选择模糊检索模式时,分词器将输入的文本进行分 词,通过基于卫生监督执法的法律法规文本的深度学习算法模型, 能够计算出输入文本与数据库中卫生监督执法的法律法规每条文本 之间的相似度;
当选择精确检索模式时,将输入文本的精确字段的内容作为原 词,获取模糊字段有效原词及其原词的近义词,根据得到的近义词 和原词与卫生监督执法的法律法规文本各个字段进行匹配计数,所 得计数越高,则得到输入文本和该条法律法规文本的相似度越高;
S40,在系统界面上显示相似度最高的法律法规文本内容。
其中,S30步骤中,当用户选择模糊检索模式时,具体包括:
S301,判断用户输入的内容中是否有包括在数据库中法律法规 文本中的罚款金额,若有,则把包括该罚款金额的法律法规文本作 为第一候选集合;若没有;则还把数据库中所有法律法规文本作为 第一候选集合;
S302,将用户输入的内容文本进行分词;
S303,通过gensim算法进行计算,根据分词结果中的词,查 询语料库中该词的词向量,然后将出现的词的词向量相加,取平均 值,即为该文本的词向量,计算公式为:
其中,s为文本中所有词的词向量集合,w为文本中一个词的词 向量,v为文本向量。使用余弦方法来计算文本之间的相似度,即计 算输入文本词向量v1与第一候选集合中法律法规文本词向量v2之 间的余弦距离:
sim=v1·v2
得到的余弦距离的数值越小,则代表输入文本与数据库中法律法规 文本之间的相似度越高。
其中,步骤S302所述分词器采用Hanlp库的最短路径分词器, 该算法使用目标文本生成一个有向无环图,每个字代表图的一个顶 点,边代表可能的分词结果,该算法目标是使用贪心算法在该有向 无环图中寻找权值和最大的路径,路径上边的标志及代表分词结果。
其中,在步骤S30中,当选择精确检索模式时,具体步骤为:
S305,判断输入内容的模糊字段中是否有包括在数据库中法律 法规文本中的罚款金额,若有,则把包括该罚款金额的法律法规文 本作为第一候选集合;若没有;则还把数据库中所有法律法规文本 作为第一候选集合;
S306,获取输入内容的精确字段,作为第一原词保存在结果列 表中;
S307,获取输入内容的模糊字段,用分词器将其分词后作为第 二原词加入到结果列表中,由深度学习算法模型得到第二原词的近 义词,将近义词保存在结果列表中;
S308,将结果列表与第一候选集合法律法规文本中的字段进行 匹配计数,法律法规文本的原始文本字段能够匹配到结果列表的内 容的计数越大,则该法律法规文本与输入内容的相似度越高。
其中,在步骤S308中,具体步骤为:将结果列表中的原词和 近义词与第一候选集合中法律法规文本的字段进行匹配;设第一候 选集合中法律法规文本匹配到结果列表中的n条原词,则所述该条 法律法规文本的计数则加n;若法律法规文本匹配到n条近义词,设置该近义词与原词的近义度为d,则所述该条法律法规文本的计 数加dn。
其中,还包括S50,把每次检索得到的关键词进行统计,将将 检索的次数更新到数据库中,若数据库中没有该条关键词,则添加 该关键词,并将检索次数置为1。
本申请实现的有益效果如下:
本发明提供了一种基于自然语言处理的卫生监督执法数据检索 方法,通过对用户输入的检索内容进行分词、命名实体识别、中文 词向量训练,然后与数据库中的执法标准进行比较,将两者转换为 空间向量,计算相似度,进而检索出执法者想要看到的执法标准, 不再需要执法者人工查找法律法规文本,有效提高了执法效率,减 少执法领域投入的人力物力成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下 面将对实施例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例, 对于本领域技术人员来讲,还可以根据这些附图获得其他的附图。
图1本申请基于自然语言处理的卫生监督执法数据检索系统的 界面图。
图2为本申请方法的流程图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分 实施例,而不是全部的实施例。基于本申请中的实施例,本领域技 术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在具体实施中,本申请中的卫生监督执法的法律法规是指《卫 生监督规范用语手册》、《公共场所卫生管理条例》、《生活饮用 水卫生监督管理办法》、《医疗机构管理条例》、《传染病防治法》、 《学校卫生工作条例》、《医疗废物管理条例》、《职业医生法》 等卫生行政法律、法规、规章及上位行政规范(以下简称法律规范) 等有关规定,以及各地区卫生监督系统中的执法标准,卫生监督执 法的执法标准、规范用语、法律法规等内容。
本申请提供一种基于自然语言处理的卫生监督执法数据检索系 统,所述系统包括包括输入模块、处理模块、检索模块、输出模块 以及数据库;所述数据库包括卫生监督执法的法律法规文本;
所述处理模块包括分词器以及基于所述卫生监督执法的法律法 规文本被分词器进行分词后建立的深度学习算法模型;
所述检索模块包括模糊检索模块和精确检索模块,所述精确检 索模块包括模糊字段和精确字段。
本申请基于自然语言处理的卫生监督执法数据检索系统使用了 分词器和基于自然语言的深度学习算法模型,如图1所示,图1为 本申请检索系统的使用界面,界面包括上传、检索、检索结果展示 和热门关键词等应用;其中本实施例中,用户可以选择两种检索模式,包括模式1的“文本相似度”模式和模式2的“近义词匹配”模式, 选择需要检索模式后,在输入关键词的输入框中输入待检索的内容, 点击检索键进行检索。
其中,“文本相似度”模式是把输入的文本进行分词,计算出输 入文本与法律法规文本之间的相似度,然后根据相似度进行排序, 计算出相似度较高的法规文本来进行检索。而“近义词匹配”模式是 通过寻找输入文本的近义词,根据得到的近义词和原词与法律法规 文本各个字段进行匹配计数,对计数结果进行排序输出的方法进行 检索;
得到检索结果后,将相似度最高的法律法规文本显示在界面上, 在图1能够看出,检索结果的展示包括检索结果以及法律法规文本 详情。
本系统包括分词器以及基于自然语言的深度学习算法模型,所 述深度学习算法模型的建立方式为:根据卫生监督执法的法律法规 文本,通过分词器分词并将分词后的内容存入数据库中,所述分词 器使用Hanlp库中的感知机分词器(所述感知机类型分词器分词速 度较慢,但准确率较高,适合预先对要进行匹配的目标文本进行分 词存储在数据库中);
其中,分词的内容包括法律法规文本的检查内容、违法事实、 监督意见、定性依据、处理依据、处理内容、罚款金额等;
分词后的内容形成中文词向量,利用中文语料库训练中文词向 量后保存,使用word2vector模型计算词向量,该模型把所有的中 文词汇进行独热编码(one-hot),把这些向量作为神经网络输入层的 输入数据。该神经网络模型的中间隐藏层没有使用激活函数,输出 层的维度与输入层的维度相同,使用Softmax进行回归。由于法律 法规文本涉及的词种类有限,需要使用适用于小型语料库的连续词 袋模型(CBOW)来进行损失函数的迭代优化。该模型定义的损失函 数为交叉熵代价函数,使用梯度下降法更新权重矩阵。损失函数如 下:
其中,y是输出层每一个词在字典中的one-hot编码表示,|V| 为字典的总长度,yi为该词在输出层的输出结果。
通过上述方法,最终将每个中文词的词向量保存为.npy文件, 方便进行读取。
所述检索模块的检索模式中,当选择“文本相似度”模式作为检 索模式时,计算出相似度较高的法律法规文本,具体可分为以下步 骤:
(1)判断用户输入的内容中是否有法律法规文本中包括的罚 款金额,若有,则把包括该罚款金额的法律法规文本作为第一候选 集合;若没有;则还把数据库中所有法律法规文本作为第一候选集 合;
(2)将用户输入的内容文本进行分词;
其中,本实施例中,为了加快系统的相应速度,采用Hanlp库 的最短路径分词器,这是一种基于词典的分词算法,使用目标文本 生成一个有向无环图,每个字代表图的一个顶点,边代表可能的分 词结果,该算法目标是使用贪心算法在该有向无环图中寻找N条权值和最大的路径,路径上边的标志及代表分词结果;
(3)使用gensim算法计算输入内容文本与数据库中每条法律 法规文本之间的相似度;具体计算方法为,根据分词结果中的词, 查询语料库中该词的词向量,然后将出现的词的词向量相加,取平 均值,即为该文本的词向量。计算公式为:
其中,s为文本中所有词的词向量集合,w为文本中一个词的词 向量,v为文本向量。使用余弦方法来计算文本之间的相似度,即计 算输入文本词向量v1与第一候选集合中法律法规文本词向量v2之 间的余弦距离:
sim=v1·v2
得到的余弦距离的数值越小,则代表输入文本与数据库中法律 法规文本之间的相似度越高。
所述检索模块的检索模式中,当选择“近义词匹配”模式作为检 索模式时,根据原词和得到的近义词与法律法规文本各个字段进行 匹配计数,对计数结果进行排序输出,具体步骤为;
(1)将输入文本中[]内的字段作为精确字段,将[]外的字段作 模糊字段,判断输入框内[]符号以外的内容文本中是否有罚款金额, 若有,则把包括该罚款金额的法律法规文本作为第一候选集合;若 没有;则还把数据库中所有法律法规文本作为第一候选集合;
(2)获取输入框的[]符号之间的内容,作为第一原词保存在结 果列表中;
(3)获取输入框内[]符号以外的内容文本,用分词器将其分词 后作为第二原词加入到结果列表中,由深度学习算法模型得到第二 原词的近义词,将近义词保存在结果列表中;
(4)将结果列表与第一候选集合法律法规文本中的字段进行 匹配计数,法律法规文本的原始文本字段能够匹配到结果列表的内 容的计数越大,则该法律法规文本与输入内容的相似度越高。
具体方法为:将结果列表中的原词和近义词与第一候选集合中 法律法规文本的字段进行匹配;设第一候选集合中法律法规文本匹 配到结果列表中的n条原词,则所述该条法律法规文本的计数则加 n;若法律法规文本匹配到n条近义词,设置该近义词与原词的近 义度为d,则所述该条法律法规文本的计数加dn。比如,当近义词 与原词的近义度为1/2时,如果法律法规文本匹配到n条近义词, 那么该条法律法规文本的计数加n/2。在具体实施方法中,为了使 计数更加合理精确,还可以将原词的不同近义词设置为不同的权重, 根据出现的频率、关联度等,将其量化归一,得到更加精确的计数。
最终统计每条法律法规文本的计数情况,进行排序输出;
本申请系统还包括热词库,具体方法为把每次检索得到的关键 词进行统计,将将检索的次数更新到数据库中,若数据库中没有该 条关键词,则添加该关键词,并将检索次数置为1,构建搜索热词 库;
实施例:
本发明以一个具体实施例来说明本发明方法的计算过程:
此实施例中用户输入的检索内容为:医疗废物[2000];
则根据深度算法模型的计算,此实施例中用户输入的内容分 词结果列表为:['医疗','废物','保健','护理','照护','卫生','医护',' 废弃物','废料','垃圾','污水','污染物'],[2000]代表检索结果中罚 款金额范围内包含2000;
“文本相似度”模式结果相似度最高的法律法规文本如表1所示, 相似度为:0.701200008392334,界面显示参见附图图1:
表1
“近义词匹配”模式的查找结果如表1所示,相似度为4,界面 显示参见附图图1:
表2
尽管已描述了本申请的优选实施例,但本领域内的技术人员一 旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修 改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申 请范围的所有变更和修改。显然,本领域的技术人员可以对本申请 进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本 申请的这些修改和变型属于本申请权利要求及其等同技术的范围之 内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.基于自然语言处理的卫生监督执法数据检索系统,包括输入模块、处理模块、检索模块、输出模块以及数据库;
所述数据库包括卫生监督执法的法律法规文本;
所述处理模块包括分词器以及基于所述卫生监督执法的法律法规文本被分词器进行分词后建立的深度学习算法模型;
所述检索模块包括模糊检索模块和精确检索模块,其中,所述精确检索模块包括模糊字段和精确字段。
2.如权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统,其中,基于自然语言处理的卫生监督执法数据检索系统还包括热词库模块。
3.如权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统,其中,所述输出模块包括检索结果以及法律法规文本详情。
4.一种使用权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,步骤包括:
S10,获取数据库中卫生监督执法的法律法规文本,将所述卫生监督执法的法律法规文本通过分词器分词,并将分词后的内容存入数据库中;
S20,利用中文语料库训练分词后的内容形成中文词向量,将所述中文词向量作为神经网络输入层的输入数据,根据word2vector模型算法,得到基于卫生监督执法的法律法规文本的深度学习算法模型;其中,神经网络的输出层的维度与输入层的维度相同,该模型定义的损失函数为交叉熵代价函数,使用梯度下降法更新权重矩阵,其中,损失函数的公式如下:
其中,y是输出层每一个词在字典中的one-hot编码表示,|V|为字典的总长度,yj为该词在输出层的输出结果。
S30,当用户选择模糊检索时,分词器将输入的文本进行分词,通过基于卫生监督执法的法律法规文本的深度学习算法模型,计算出输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度;
当选择精确检索时,将输入文本的精确字段的内容作为原词,获取模糊字段原词及其原词的近义词,根据得到的近义词和原词与
S40,找到相似度最高的法律法规文本内容。
5.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,其中,S30步骤中,当用户选择模糊检索模式时,具体包括:
S301,判断用户输入的内容中是否有包括在数据库中法律法规文本中的罚款金额,若有,则把包括该罚款金额的法律法规文本作为第一候选集合;若没有;则还把数据库中所有法律法规文本作为第一候选集合;
S302,将用户输入的内容文本进行分词;
S303,通过gensim算法进行计算,根据分词结果中的词,查询语料库中该词的词向量,然后将出现的词的词向量相加,取平均值,即为该文本的词向量,计算公式为:
其中,S为文本中所有词的词向量集合,w为文本中一个词的词向量,v为文本向量。使用余弦方法来计算文本之间的相似度,即计算输入文本词向量v1与第一候选集合中法律法规文本词向量v2之间的余弦距离:
sim=v1·v2
得到的余弦距离的数值越小,则代表输入文本与数据库中法律法规文本之间的相似度越高。
6.如权利要求5所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,其中,步骤S302所述分词器采用Hanlp库的最短路径分词器,该算法使用目标文本生成一个有向无环图,每个字代表图的一个顶点,边代表可能的分词结果,该算法目标是使用贪心算法在该有向无环图中寻找权值和最大的路径,路径上边的标志及代表分词结果。
7.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,其中,在步骤S30中,当选择精确检索模式时,具体步骤为:
S305,判断输入内容的模糊字段中是否有包括在数据库中法律法规文本中的罚款金额,若有,则把包括该罚款金额的法律法规文本作为第一候选集合;若没有;则还把数据库中所有法律法规文本作为第一候选集合;
S306,获取输入内容的精确字段,作为第一原词保存在结果列表中;
S307,获取输入内容的模糊字段,用分词器将其分词后作为第二原词加入到结果列表中,由深度学习算法模型得到第二原词的近义词,将近义词保存在结果列表中;
S308,将结果列表与第一候选集合法律法规文本中的字段进行匹配计数,法律法规文本的原始文本字段能够匹配到结果列表的内容的计数越大,则该法律法规文本与输入内容的相似度越高。
8.如权利要求7所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,其中,在步骤S308中,具体步骤为:将结果列表中的原词和近义词与第一候选集合中法律法规文本的字段进行匹配;设第一候选集合中法律法规文本匹配到结果列表中的n条原词,则所述该条法律法规文本的计数则加n;若法律法规文本匹配到n条近义词,设置该近义词与原词的近义度为d,则所述该条法律法规文本的计数加dn。
9.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,其中,还包括S50,把每次检索得到的关键词进行统计,将将检索的次数更新到数据库中,若数据库中没有该条关键词,则添加该关键词,并将检索次数置为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234451.7A CN111858830B (zh) | 2020-03-27 | 2020-03-27 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234451.7A CN111858830B (zh) | 2020-03-27 | 2020-03-27 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858830A true CN111858830A (zh) | 2020-10-30 |
CN111858830B CN111858830B (zh) | 2023-11-14 |
Family
ID=72985551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010234451.7A Active CN111858830B (zh) | 2020-03-27 | 2020-03-27 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858830B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033196A (zh) * | 2021-03-19 | 2021-06-25 | 北京百度网讯科技有限公司 | 分词方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020129012A1 (en) * | 2001-03-12 | 2002-09-12 | International Business Machines Corporation | Document retrieval system and search method using word set and character look-up tables |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN101650742A (zh) * | 2009-08-27 | 2010-02-17 | 中兴通讯股份有限公司 | 一种对英文检索的检索条件进行提示的系统及方法 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN104965894A (zh) * | 2015-06-19 | 2015-10-07 | 成都国腾实业集团有限公司 | 一种用于idc有害信息监测平台的数据分析系统 |
CN107122438A (zh) * | 2017-04-21 | 2017-09-01 | 安徽富驰信息技术有限公司 | 一种司法案件检索方法及系统 |
CN109255117A (zh) * | 2017-07-13 | 2019-01-22 | 普天信息技术有限公司 | 中文分词方法及装置 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索系统及方法 |
CN110705283A (zh) * | 2019-09-06 | 2020-01-17 | 上海交通大学 | 基于文本法律法规与司法解释匹配的深度学习方法和系统 |
-
2020
- 2020-03-27 CN CN202010234451.7A patent/CN111858830B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020129012A1 (en) * | 2001-03-12 | 2002-09-12 | International Business Machines Corporation | Document retrieval system and search method using word set and character look-up tables |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN101650742A (zh) * | 2009-08-27 | 2010-02-17 | 中兴通讯股份有限公司 | 一种对英文检索的检索条件进行提示的系统及方法 |
CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN104965894A (zh) * | 2015-06-19 | 2015-10-07 | 成都国腾实业集团有限公司 | 一种用于idc有害信息监测平台的数据分析系统 |
CN107122438A (zh) * | 2017-04-21 | 2017-09-01 | 安徽富驰信息技术有限公司 | 一种司法案件检索方法及系统 |
CN109255117A (zh) * | 2017-07-13 | 2019-01-22 | 普天信息技术有限公司 | 中文分词方法及装置 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索系统及方法 |
CN110705283A (zh) * | 2019-09-06 | 2020-01-17 | 上海交通大学 | 基于文本法律法规与司法解释匹配的深度学习方法和系统 |
Non-Patent Citations (1)
Title |
---|
杨晨 等: "基于词向量相似度的食品安全问答系统设计与实现", 《软件导刊》, vol. 18, no. 08, pages 16 - 20 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033196A (zh) * | 2021-03-19 | 2021-06-25 | 北京百度网讯科技有限公司 | 分词方法、装置、设备及存储介质 |
CN113033196B (zh) * | 2021-03-19 | 2023-08-15 | 北京百度网讯科技有限公司 | 分词方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111858830B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
CN106599278A (zh) | 应用搜索意图的识别方法及装置 | |
CN108614897B (zh) | 一种面向自然语言的内容多样化搜索方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
CN113722478B (zh) | 多维度特征融合相似事件计算方法、系统及电子设备 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
JP3654850B2 (ja) | 情報検索システム | |
CN111858830B (zh) | 基于自然语言处理的卫生监督执法数据检索系统及其方法 | |
CN115239214B (zh) | 企业的评估处理方法、装置及电子设备 | |
CN103593427A (zh) | 新词搜索方法及系统 | |
CN114168733B (zh) | 一种基于复杂网络的法规检索方法及系统 | |
CN110688559A (zh) | 一种检索方法及装置 | |
CN109189893A (zh) | 一种自动检索的方法和装置 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Meng et al. | A personalized and approximated spatial keyword query approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |