CN111506724B - 一种规范用语推荐方法及装置 - Google Patents
一种规范用语推荐方法及装置 Download PDFInfo
- Publication number
- CN111506724B CN111506724B CN202010623686.5A CN202010623686A CN111506724B CN 111506724 B CN111506724 B CN 111506724B CN 202010623686 A CN202010623686 A CN 202010623686A CN 111506724 B CN111506724 B CN 111506724B
- Authority
- CN
- China
- Prior art keywords
- case
- expression
- cases
- canonical
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000014509 gene expression Effects 0.000 claims abstract description 188
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 19
- 210000002569 neuron Anatomy 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 10
- 230000005180 public health Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004659 sterilization and disinfection Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000003651 drinking water Substances 0.000 description 2
- 235000020188 drinking water Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书一个或多个实施例提供一种规范用语推荐方法及装置,根据目标案例选择若干规范用语,通过协同过滤算法,获得相似案例,将相似案例选择的但是目标案例未选择的规范用语作为备选规范用语,获取目标案例选择备选规范用语的概率,将上述概率、案例时间和案例地点输入规范用语推荐模型,得到推荐规范用语,本公开采用协同过滤算法和机器学习算法相结合的方式,以使推荐的规范用语准确且全面。
Description
技术领域
本说明书一个或多个实施例涉及互联网大数据融合计算技术领域,尤其涉及一种规范用语推荐方法及装置。
背景技术
本公开讨论的规范用语,是指在执法过程中使用的相关法律法规、规章制度以及其他规范性文件中的条款。
在执法过程中,对于规范用语的使用情况,通常依赖于执法人员的业务能力,执法人员根据自己的过往经验和知识储备,针对违法情况选择适当的规范用语。
但是,一方面,规范用语的选择对于执法人员的业务能力要求较高,而个人的经验和知识是有限的,不能穷尽过往案例的宝贵经验,而且现场情况比较紧急,那么在选择规范用语的过程中,可能会出现漏选漏用的情况;另一方面,不同的违法情况之间通常具有一定的连带性,但是执法人员面对已经发现的单一的违法情况,很难有效的类推出其他可能发生的或者已经发生但是未被发现的违法情况,从而错过最佳执法时机。
所以,在如何选择规范用语的问题上,存在选择规范用语不准确不全面且不能预测的问题。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种规范用语推荐方法及装置,以解决选择规范用语不准确不全面且不能预测的问题。
基于上述目的,本说明书一个或多个实施例提供了一种规范用语推荐方法,包括:
获取目标案例的基本信息,所述基本信息包括案例已选规范用语、案例时间和案例地点;
根据所述已选规范用语,从案例数据库中获取与所述目标案例相似的相似案例;
从所述相似案例中确定备选规范用语;
计算所述目标案例选择所述备选规范用语的概率;
根据所述概率、所述案例时间、所述案例地点和预先训练的规范用语推荐模型,得到推荐规范用语并输出。
可选的,所述案例数据库包括若干备选案例;
所述根据所述已选规范用语,从案例数据库中获取与所述目标案例相似的相似案例,具体包括:
计算所述备选案例与所述目标案例的相似度;
选择所述相似度高于阈值的所述备选案例作为相似案例。
可选的,所述计算所述备选案例与所述目标案例的相似度包括:
其中,w uv 表示目标案例u和备选案例v的相似度;
N(u)表示目标案例u选择的规范用语集合;
N(v)表示备选案例v选择的规范用语集合。
可选的,所述从所述相似案例中确定备选规范用语包括:
将所述相似案例选择的但是目标案例未选择的规范用语,作为备选规范用语。
可选的,所述计算所述目标案例选择所述备选规范用语的概率包括:
其中,p ui 表示所述目标案例u选择所述备选规范用语i的概率;
S(u,k)表示与目标案例u最相似的k个案例的集合;
N(i)表示选择规范用语i的案例的集合;
r vi 表示相似案例v选择规范用语i的概率。
可选的,还包括:
构建包括若干样本的样本集;其中,所述样本包括:样本数据和标签数据;所述样本数据包括历史案例选择其对应的训练用备选规范用语的概率、历史案例时间和历史案例地点;所述标签数据包括所述历史案例对应的训练用推荐规范用语;
根据所述样本集,通过预定的机器学习算法,构建并训练得到所述规范用语推荐模型。
基于同一发明构思,本说明书一个或多个实施例还提供了一种规范用语推荐装置,包括:
目标案例获取模块,用于获取目标案例的基本信息,所述基本信息包括案例已选规范用语、案例时间和案例地点;
相似案例获取模块,用于根据所述已选规范用语,从案例数据库中获取与所述目标案例相似的相似案例;
备选规范用语获取模块,用于从所述相似案例中确定备选规范用语;
概率运算模块,用于计算所述目标案例选择所述备选规范用语的概率;
规范用语推荐模块,用于根据所述概率、所述案例时间、所述案例地点和预先训练的规范用语推荐模型,得到推荐规范用语并输出。
可选的,还包括:
模型构建模块,用于构建包括若干样本的样本集;其中,所述样本包括:样本数据和标签数据;所述样本数据包括历史案例选择其对应的训练用备选规范用语的概率、历史案例时间和历史案例地点;所述标签数据包括所述历史案例对应的训练用推荐规范用语;
根据所述样本集,通过预定的机器学习算法,构建并训练得到所述规范用语推荐模型。
基于同一发明构思,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
基于同一发明构思,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种规范用语推荐方法及装置,根据目标案例选择若干规范用语,通过协同过滤算法,获得相似案例,将相似案例选择的但是目标案例未选择的规范用语作为备选规范用语,获取目标案例选择备选规范用语的概率,将上述概率、案例时间和案例地点输入规范用语推荐模型,得到推荐规范用语,本公开采用协同过滤算法和机器学习算法相结合的方式,以使推荐的规范用语准确且全面。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的规范用语推荐方法的一种流程示意图;
图2为本说明书一个或多个实施例提供的规范用语推荐装置的一种结构示意图;
图3为本说明书一个或多个实施例提供的一种更为具体的电子设备硬件结构示意图;
图4为本说明书一个或多个实施例提供的一种用户输入界面的示意图;
图5a为本说明书一个或多个实施例提供的一种案例相似度计算方法的步骤的第一个示意图;
图5b为本说明书一个或多个实施例提供的一种案例相似度计算方法的步骤的第二个示意图;
图5c为本说明书一个或多个实施例提供的一种案例相似度计算方法的步骤的第三个示意图;
图5d为本说明书一个或多个实施例提供的一种案例相似度计算方法的步骤的第四个示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了达到上述目的,本说明书一个或多个实施例提供了一种规范用语推荐方法及装置,该方法及装置可以应用于各种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,以及非暂态计算机可读存储介质,本公开对比不做具体限定。
图1为本说明书一个或多个实施例提供的规范用语推荐方法的一种流程示意图,规范用语推荐方法,包括:
S101、获取目标案例的基本信息,基本信息包括案例已选规范用语、案例时间和案例地点。
目标案例的基本信息包括案例已选规范用语、案例时间和案例地点。案例已选规范用语、案例时间和案例地点都是目标案例的特征,分别从不同的方面对目标案例进行了描述。
一些实施方式中,案例已选规范用语,是由用户自主选择的。针对目标案例,即具体的违法情况,用户选择若干则符合违法情况的规范用语,这些已选规范用语表示了目标案例的内容上的特征。
本公开讨论的规范用语,是指在执法过程中使用的相关法律法规、规章制度以及其他规范性文件中的条款。
一些实施方式中,规范用语包括若干专业类别,例如,在一些卫生和健康执法的实施场景中,规范用语可以包括以下专业类别:“公共场所”、“生活饮用水”、“职业卫生”、“放射卫生”、“学校卫生”、“医疗卫生”、“消毒产品”、“传染病防治”、“餐饮具集中消毒单位”、“血液安全”以及“计划生育”等,其中,“公共场所”又包括以下类别:“卫生管理”、“公示”、“卫生管理档案”、“卫生管理制度”、“卫生管理部门和人员”以及“卫生检测”等,其中,“卫生管理”又包括以下类别:“公共场所卫生许可证”等,其中,“公共场所卫生许可证”又包括以下类别:“是否取得公共场所卫生许可证”等。
S102、根据已选规范用语,从案例数据库中获取与目标案例相似的相似案例。
案例之间具有相似性,这是因为违法情况通常是相互关联且伴随发生的,当案例中的一种违法情况被发现时,其背后往往隐藏着其他的违法情况或者发生其他违法情况的隐患。所以,根据历史案例,预测目标案例可能发生的违法情况尤为重要,违法情况由其选择的规范用语表现。
根据协同过滤算法的思想,如果两个案例都选择了同一则规范用语,那么对于其中一个案例使用的规范用语,另一个案例也会使用该规范用语的概率是较大的。
案例数据库中包括若干案例,这些案例均作为备选案例,通过计算备选案例与目标案例的相似度,从而选择相似度高于阈值的备选案例作为相似案例。
备选案例包括若干规范用语,规范用语表现了备选案例的特征。
一些实施方式中,目标案例和备选案例的相似度,通过下述公式计算:
其中,w uv 表示目标案例u和备选案例v的相似度;
N(u)表示目标案例u选择的规范用语集合;
N(v)表示备选案例v选择的规范用语集合。
例如,假设共有4个案例:A、B、C、D;共有5则规范用语:a、b、c、d、e。案例与规范用语的关系,即案例选择的规范用语,如图5a所示。
那么,如何计算所有案例之间的相似度呢,为了方便计算,通常首先需要建立“规范用语-案例”的倒排表,如图5b所示。
然后,对于两个案例,如果他们选择了同一则规范用语,则两两之间加1,每选择了同一则规范用语,则两两之间加1。例如,对于案例A和B,都选择了规范用语a和b,那么矩阵中他们两两加2,如图5c所示。
计算案例两两之间的相似度,上面的矩阵仅仅代表的是公式的分子部分。以上述相似度公式为例,对上图进一步计算,如图5d所示。
到此,案例的相似度计算就完成了,可以很直观的得到与目标案例相似度较高的案例。例如,假设目标案例为A,那么,按照相似度对备选案例进行排序,相似度最高的是案例B,其次案例C,最后是案例D。
选择相似度高于阈值的案例,作为相似案例。
S103、从相似案例中确定备选规范用语。
一些实施方式中,将相似案例选择的但是目标案例未选择的规范用语,作为备选规范用语。
例如,假设目标案例为A,相似案例包括:B、C、D,那么,它们选择并且A没有选择过的规范用语有c、e,那么,将规范用语c、e作为备选规范用语。
S104、计算目标案例选择备选规范用语的概率;
目标案例选择备选规范用语的概率,通过下述公式计算:
其中,p ui 表示目标案例u选择备选规范用语i的概率;
备选规范用语i∈N(v);
S(u,k)表示与目标案例u最相似的k个案例的集合;
N(i)为选择规范用语i的案例的集合;
r vi 表示相似案例v选择规范用语i的概率。
一些实施方式中,将r vi 简化为1,即案例选择各则规范用语的概率相同,认为各则规范用语具有同等的重要性。
一些实施方式中,各则规范用语之间也可以具有权重,可以根据这则规范用语所起到的作用大小以及想要得到的推荐规范用语的方向,赋予各则规范用语权重。
例如,假设为目标案例推荐规范用语,选取k=3个相似案例,相似案例则是:B、C、D,那么,它们选择并且A没有选择过的规范用语有c、e,那么,分别计算目标案例A选择规范用语c和规范用语e的概率:
计算得到目标案例A选择规范用语c和规范用语e的概率如上,可见,目标案例A选择规范用语c的概率大于选择规范用语e的概率。另外,如果备选规范用语有很多,可以按照概率排序,根据具体需求,舍弃概率低于阈值的备选规范用语。
S105、根据概率、案例时间、案例地点和预先训练的规范用语推荐模型,得到推荐规范用语并输出。
一些实施方式中,训练规范用语推荐模型,包括:
构建包括若干样本的样本集。
其中,样本包括:样本数据和标签数据;样本数据包括历史案例选择其对应的训练用备选规范用语的概率、历史案例时间和历史案例地点;标签数据包括历史案例对应的训练用推荐规范用语。
根据样本集,通过预定的机器学习算法,构建并训练得到规范用语推荐模型。
其中,预定的机器学习算法可以选自朴素贝叶斯算法、决策树算法、支持向量机算法、kNN算法、神经网络算法、深度学习算法和逻辑回归算法中的一种或多种。
规范用语推荐模型的输入层实现对概率、案例时间和案例地点数据的特征提取,以得到反映案件特征的特征向量。
一些实施方式中,案件时间包括案件年份、案件月份以及案件日期。案件地点包括案件发生地点的行政区划或者案件发生地点的场所类型。
例如:输入的特征向量为(20200623,110000,1,0.7416)。
其中,20200623为目标案件时间。
110000表示目标案件地点,一些实施方式中,用行政区划代码表示案件地点,假设案件地点包括北京、上海和天津,那么,其中,110000表示北京,310000表示上海,120000表示天津。
1和0.7416为目标案件选择备选规范用语的概率。
本示例中案件特征包括时间、地点和选择规范用语的概率三种类型的维度,但是,本公开具有一定的拓展性,在实际的应用中,可根据具体的案件信息,灵活配置输入参数的维度,表示案件的特征。
隐藏层则执行运算处理,隐藏层的数量可以为一个,也可以多于一个,具体的数量选择可以根据需要而设定,本示例中,以两个及以上隐藏层为例。具体的,隐藏层包括有若干神经元。对于每个神经元,其输入为前一隐藏层的每个神经元的输出的加权和,该输入经过一激活函数后输出;激活函数可以选择sigmoid、tanh、ReLU等,本示例中以sigmoid为例。
输出层的激活函数可以选择Softmax,例如,输出层得到向量(0.4,0.6),其中0.4表示第一个规范用语的推荐程度,0.6表示第二个规范用语的推荐程度,因为第二个规范用语的推荐程度较高,所以输出第二个规范用语作为推荐规范用语。
采用案件时间作为特征向量的一个维度的目的在于,充分考虑时间因素对于选择规范用语的影响,使得推荐的规范用语更加具有时间上的针对性。
案例中规范用语被选择的可能性,会受到时间因素的影响。违法情况的出现,与时间具有一定的联系,具有时间上的倾向性,在不同的时间段,某种违法情况发生的可能性是不同的,所以,在不同的时间段,某种规范用语被选择的可能性也不同。例如,对于规范用语“是否取得公共场所卫生许可证”,这种许可证类型的规范用语,在该许可证刚刚开始办理的时间段,因为没有充分得到施行,违反该规范的情形会较容易出现,所以在此时间段,该规范用语被选择的可能性是较高的。随着时间的推移,该许可证得到充分办理和施行,违反该规范的情形会逐渐大量减少,在此时间段,该规范用语被选择的可能性是较低的。再例如,对于规范用语“用品用具是否清洗、消毒、保洁”,这种卫生情况类型的规范用语,因为卫生问题在温度较高的天气情况下较为高发,所以该规范用语在夏季被选择的可能性是较高的,相反的,该规范用语在冬季被选择的可能性是较低的。
采用案件地点作为特征向量的一个维度的目的在于,充分考虑地点因素对于选择规范用语的影响,使得推荐的规范用语更加具有地点上的针对性。
案例中规范用语被选择的可能性,同时也会受到地点因素的影响。违法情况的出现,与地点具有一定的联系,具有地点上的倾向性,在不同的地点,某种违法情况发生的可能性不同,所以,在不同的地点,某种规范用语被选择的可能性也不同。例如,对于规范用语“是否安排未获得有效健康合格证明的从业人员从事直接为顾客服务的工作”,通常适应于从事公共服务的经营场所,尤其是餐饮行业。那么,在该地点,该规范用语被选择的可能性是较高的。
一些实施方式中,输出的推荐规范用语,可以作为执法人员检查的方向,可以用于检查已经发生但是未被发现的违法情况,也可以预测将可能发生的违法情况;输出的推荐规范用语,也可以作为对被执行用户的提醒。
一些实施方式中,输入近期选择次数增长较多的规范用语,得到推荐规范用语,通过这些规范用语,可以起到预测和预警的作用。
本说明书一个或多个实施例提供一种规范用语推荐方法及装置,根据目标案例选择若干规范用语,通过协同过滤算法,获得相似案例,将相似案例选择的但是目标案例未选择的规范用语作为备选规范用语,获取目标案例选择备选规范用语的概率,将上述概率、案例时间和案例地点输入规范用语推荐模型,得到推荐规范用语,本公开采用协同过滤算法和机器学习算法相结合的方式,以使推荐的规范用语准确且全面。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图2为本说明书一个或多个实施例提供的规范用语推荐装置的一种结构示意图,规范用语推荐装置,包括:
目标案例获取模块201,用于获取目标案例的基本信息,基本信息包括案例已选规范用语、案例时间和案例地点。
一些实施方式中,本公开可以提供用户输入规范用语、案例时间和案例地点的界面,例如问答窗口或者检索窗口,用户可以通过这个窗口界面,以文本形式输入目标案例的基本信息。
一些实施方式中,本公开可以提供用户选择规范用语、案例时间和案例地点的界面。采用选择的方式,便于装置读取目标案例的基本信息,避免了用户输入的目标案例的基本信息格式不符甚至内容错误的问题。另外,对于规范用语,因为规范用语种类杂且内容多,如果采用文本输入的方式,用户还需要查询相应的规章制度,本公开可以直接内置相应的规章制度,提高了用户的便捷程度,同时也提高了用户选择规范用语的准确度。
参考图4,为本说明书一个或多个实施例提供的一种用户输入界面的示意图,例如,在一些卫生和健康执法的实施场景中,规范用语包括以下专业类别:“公共场所”、“生活饮用水”、“职业卫生”、“放射卫生”、“学校卫生”、“医疗卫生”、“消毒产品”、“传染病防治”、“餐饮具集中消毒单位”、“血液安全”以及“计划生育”等,其中,“公共场所”中又包括以下类别:“卫生管理”、“公示”、“卫生管理档案”、“卫生管理制度”、“卫生管理部门和人员”以及“卫生检测”等,其中,“卫生管理”中又包括以下类别:“公共场所卫生许可证”等,其中,“公共场所卫生许可证”中又包括以下类别:“是否取得公共场所卫生许可证”等。
相似案例获取模块202,用于根据已选规范用语,从案例数据库中获取与目标案例相似的相似案例。
案例数据库中包括若干案例,这些案例均作为备选案例,计算备选案例与目标案例的相似度,选择相似度高于阈值的备选案例作为相似案例。
相似案例获取模块202,具体用于计算备选案例与目标案例的相似度,选择相似度高于阈值的备选案例作为相似案例。
计算备选案例与目标案例的相似度,包括:
其中,w uv 表示目标案例u和备选案例v的相似度;
N(u)表示目标案例u选择的规范用语集合;
N(v)表示备选案例v选择的规范用语集合。
备选规范用语获取模块203,用于从相似案例中确定备选规范用语。
备选规范用语获取模块203,具体用于将相似案例选择的但是目标案例未选择的规范用语,作为备选规范用语。
概率运算模块204,用于计算目标案例选择备选规范用语的概率。
计算目标案例选择备选规范用语的概率,包括:
其中,p ui 表示目标案例u选择备选规范用语i的概率;
S(u,k)表示与目标案例u最相似的k个案例的集合;
N(i)表示选择规范用语i的案例的集合;
r vi 表示相似案例v选择规范用语i的概率;一些实施方式中,将r vi 简化为1。
例如,对于选择了规范用语“是否取得公共场所卫生许可证”和“公共场所经营者变更经营项目、经营场所地址的,是否重新申请公共场所卫生许可证”的案例,计算得到选择概率较高的规范用语为“是否安排未获得有效健康合格证明的从业人员从事直接为顾客服务的工作”和“用品用具是否清洗、消毒、保洁”。
规范用语推荐模块205,用于根据概率、案例时间、案例地点和预先训练的规范用语推荐模型,得到推荐规范用语并输出。
规范用语推荐模块205,具体用于:
规范用语推荐模型的输入层实现对概率、案例时间和案例地点数据的特征提取,以得到反映案件特征的特征向量。
隐藏层则执行运算处理,隐藏层的数量可以为一个,也可以多于一个,具体的数量选择可以根据需要而设定,本示例中,以两个及以上的隐藏层为例。具体的,隐藏层包括有若干神经元。对于每个神经元,其输入为前一隐藏层的每个神经元的输出的加权和,该输入经过一激活函数后输出;激活函数可以选择sigmoid、tanh、ReLU等,本示例中以sigmoid为例。
输出层的激活函数可以选择Softmax,例如,输出层得到向量(X,Y),其中X表示一个规范用语的推荐程度,Y表示另一个规范用语的推荐程度,输出推荐程度较高的规范用语作为推荐规范用语。
一些实施方式中,本公开可以提供展示推荐结果的界面,例如问答窗口或者检索窗口,用户可以通过这个窗口界面,以文本形式查阅推荐的规范用语。
一些实施方式中,还包括:
模型构建模块,用于构建包括若干样本的样本集;其中,样本包括:样本数据和标签数据;样本数据包括历史案例选择其对应的训练用备选规范用语的概率、历史案例时间和历史案例地点;标签数据包括历史案例对应的训练用推荐规范用语;
根据样本集,通过预定的机器学习算法,构建并训练得到规范用语推荐模型。
其中,预定的机器学习算法可以选自朴素贝叶斯算法、决策树算法、支持向量机算法、kNN算法、神经网络算法、深度学习算法和逻辑回归算法中的一种或多种。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图3为本说明书一个或多个实施例提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (4)
1.一种规范用语推荐方法,其特征在于,包括:
获取目标案例的基本信息,所述基本信息包括案例已选规范用语、案例时间和案例地点;
基于协同过滤算法,根据所述已选规范用语,从案例数据库中获取与所述目标案例相似的相似案例,具体包括:所述案例数据库包括若干备选案例;计算所述备选案例与所述目标案例的相似度,公式如下:
其中,w uv 表示目标案例u和备选案例v的相似度;N(u)表示目标案例u选择的规范用语集合;N(v)表示备选案例v选择的规范用语集合;
选择所述相似度高于阈值的所述备选案例作为所述相似案例;
基于协同过滤算法,从所述相似案例中确定备选规范用语,具体包括:将所述相似案例选择的但是目标案例未选择的规范用语,作为所述备选规范用语;
基于协同过滤算法,计算所述目标案例选择所述备选规范用语的概率,公式如下:
其中,p ui 表示所述目标案例u选择所述备选规范用语i的概率;S(u,k)表示与目标案例u最相似的k个案例的集合;N(i)表示选择规范用语i的案例的集合;r vi 表示相似案例v选择规范用语i的概率;
所述概率为所述协同过滤算法的结果;
根据所述概率、所述案例时间、所述案例地点和预先训练的规范用语推荐模型,得到推荐规范用语并输出;
所述预先训练的规范用语推荐模型,包括:
构建包括若干样本的样本集;其中,所述样本包括:样本数据和标签数据;所述样本数据包括历史案例选择其对应的训练用备选规范用语的概率、历史案例时间和历史案例地点;所述标签数据包括所述历史案例对应的训练用推荐规范用语;
根据所述样本集,通过预定的机器学习算法,构建并训练得到所述规范用语推荐模型;
所述规范用语推荐模型包括:输入层、隐藏层和输出层;
其中,所述输入层用于实现对所述概率、所述案例时间和所述案例地点数据的特征提取,以得到反映案例特征的特征向量;
所述隐藏层用于执行运算处理,所述隐藏层的数量包括一个或多个,所述隐藏层包括有若干神经元;对于每个所述神经元,其输入为前一所述隐藏层的每个所述神经元的输出的加权和,该输入经过一激活函数后输出;
所述输出层的激活函数为Softmax,所述输出层得到输出向量,其中所述输出向量表示所述规范用语的推荐程度,输出推荐程度较高的所述规范用语作为推荐规范用语。
2.一种规范用语推荐装置,其特征在于,包括:
目标案例获取模块,用于获取目标案例的基本信息,所述基本信息包括案例已选规范用语、案例时间和案例地点;
相似案例获取模块,用于基于协同过滤算法,根据所述已选规范用语,从案例数据库中获取与所述目标案例相似的相似案例,具体包括:所述案例数据库包括若干备选案例;计算所述备选案例与所述目标案例的相似度,公式如下:
其中,w uv 表示目标案例u和备选案例v的相似度;N(u)表示目标案例u选择的规范用语集合;N(v)表示备选案例v选择的规范用语集合;
选择所述相似度高于阈值的所述备选案例作为所述相似案例;
备选规范用语获取模块,用于基于协同过滤算法,从所述相似案例中确定备选规范用语,具体包括:将所述相似案例选择的但是目标案例未选择的规范用语,作为所述备选规范用语;
概率运算模块,用于基于协同过滤算法,计算所述目标案例选择所述备选规范用语的概率,公式如下:
其中,p ui 表示所述目标案例u选择所述备选规范用语i的概率;S(u,k)表示与目标案例u最相似的k个案例的集合;N(i)表示选择规范用语i的案例的集合;r vi 表示相似案例v选择规范用语i的概率;
所述概率为所述协同过滤算法的结果;
规范用语推荐模块,用于根据所述概率、所述案例时间、所述案例地点和预先训练的规范用语推荐模型,得到推荐规范用语并输出;
所述预先训练的规范用语推荐模型,包括:
构建包括若干样本的样本集;其中,所述样本包括:样本数据和标签数据;所述样本数据包括历史案例选择其对应的训练用备选规范用语的概率、历史案例时间和历史案例地点;所述标签数据包括所述历史案例对应的训练用推荐规范用语;
根据所述样本集,通过预定的机器学习算法,构建并训练得到所述规范用语推荐模型;
所述规范用语推荐模型包括:输入层、隐藏层和输出层;
其中,所述输入层用于实现对所述概率、所述案例时间和所述案例地点数据的特征提取,以得到反映案例特征的特征向量;
所述隐藏层用于执行运算处理,所述隐藏层的数量包括一个或多个,所述隐藏层包括有若干神经元;对于每个所述神经元,其输入为前一所述隐藏层的每个所述神经元的输出的加权和,该输入经过一激活函数后输出;
所述输出层的激活函数为Softmax,所述输出层得到输出向量,其中所述输出向量表示所述规范用语的推荐程度,输出推荐程度较高的所述规范用语作为推荐规范用语。
3.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1所述的方法。
4.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623686.5A CN111506724B (zh) | 2020-07-02 | 2020-07-02 | 一种规范用语推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623686.5A CN111506724B (zh) | 2020-07-02 | 2020-07-02 | 一种规范用语推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506724A CN111506724A (zh) | 2020-08-07 |
CN111506724B true CN111506724B (zh) | 2020-10-23 |
Family
ID=71875330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010623686.5A Active CN111506724B (zh) | 2020-07-02 | 2020-07-02 | 一种规范用语推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506724B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116028B (zh) * | 2020-09-29 | 2024-04-26 | 联想(北京)有限公司 | 模型决策解释实现方法、装置及计算机设备 |
CN112488863B (zh) * | 2020-12-01 | 2024-05-28 | 中国人寿保险股份有限公司 | 一种在用户冷启动场景下的险种推荐方法及相关设备 |
CN117973607A (zh) * | 2024-01-30 | 2024-05-03 | 北京梦天门科技股份有限公司 | 一种基于ai大模型的卫生监督辅助执法方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8572169B2 (en) * | 2006-08-28 | 2013-10-29 | Myspace, Llc | System, apparatus and method for discovery of music within a social network |
EP3188039A1 (en) * | 2015-12-31 | 2017-07-05 | Dassault Systèmes | Recommendations based on predictive model |
CN106202474A (zh) * | 2016-07-14 | 2016-12-07 | Tcl集团股份有限公司 | 一种对象推荐方法和装置 |
CN109446416B (zh) * | 2018-09-26 | 2021-09-28 | 南京大学 | 基于词向量模型的法条推荐方法 |
CN109684538A (zh) * | 2018-12-03 | 2019-04-26 | 重庆邮电大学 | 一种基于用户个人特征的推荐方法及推荐系统 |
CN110321291A (zh) * | 2019-07-12 | 2019-10-11 | 中国工商银行股份有限公司 | 测试案例智能提取系统及方法 |
-
2020
- 2020-07-02 CN CN202010623686.5A patent/CN111506724B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111506724A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506724B (zh) | 一种规范用语推荐方法及装置 | |
Eckert et al. | How digitalization affects insurance companies: overview and use cases of digital technologies | |
US20180268320A1 (en) | Machine learning models in location based episode prediction | |
US11380436B2 (en) | Workflow predictive analytics engine | |
US20190333646A1 (en) | Systems and methods for determining, tracking, and predicting common infectious illness outbreaks | |
WO2019020095A1 (zh) | 商户评价方法及系统 | |
US11853707B1 (en) | Determining adequacy of documentation using perplexity and probabilistic coherence | |
US10795348B2 (en) | Providing a standard operating procedure associated with a monitoring system of a facility | |
US11309076B2 (en) | Workflow predictive analytics engine | |
Barunik et al. | Realized wavelet-based estimation of integrated variance and jumps in the presence of noise | |
RU2012127407A (ru) | Система, устройство и способы использования вероятностных технологий при определении тенденции, составлении профиля и основанных на шаблонах предсказаний поведения пользователя с целью предложения рекомендаций | |
CA3121190C (en) | Systems and methods for implementing search and recommendation tools for attorney selection | |
Englberger et al. | Two-stage stochastic master production scheduling under demand uncertainty in a rolling planning environment | |
CN107909234A (zh) | 工作流数据的时限提醒方法、处理方法及其装置、设备 | |
US20200097301A1 (en) | Predicting relevance using neural networks to dynamically update a user interface | |
KR20140098551A (ko) | 스마트 화장대 및 스마트 화장대를 이용한 스마트 화장 방법 | |
US20210357783A1 (en) | Data prioritization across predictive input channels | |
Rakitzis et al. | The effect of parameter estimation on the performance of one-sided Shewhart control charts for zero-inflated processes | |
Boado-Penas et al. | Pandemics: insurance and social protection | |
Michiels et al. | Influenza epidemic surveillance and prediction based on electronic health record data from an out-of-hours general practitioner cooperative: model development and validation on 2003–2015 data | |
Lee et al. | Medical alert management: a real-time adaptive decision support tool to reduce alert fatigue | |
Parkinson et al. | How sensitive are avoidable emergency department attendances to primary care quality? Retrospective observational study | |
US20200372408A1 (en) | Machine Learning Model With Conditional Execution Of Multiple Processing Tasks | |
CN107111619A (zh) | 用于搜索查询的灵活算子 | |
EP3826029A1 (en) | Workflow predictive analytics engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |