CN115858731A - 一种法规库法规匹配方法、装置及系统 - Google Patents
一种法规库法规匹配方法、装置及系统 Download PDFInfo
- Publication number
- CN115858731A CN115858731A CN202211653939.9A CN202211653939A CN115858731A CN 115858731 A CN115858731 A CN 115858731A CN 202211653939 A CN202211653939 A CN 202211653939A CN 115858731 A CN115858731 A CN 115858731A
- Authority
- CN
- China
- Prior art keywords
- rule
- similarity
- regulations
- matching
- laws
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种法规库法规匹配方法、装置及系统,属于法规匹配领域;在获取用户输入的查询语句的文本向量后,根据文本向量确定查询语句的对应的法规库类型,以便在对应的法规库匹配法规,大大减少计算量。然后在法规库中根据语义向量得到第一法规列表,进一步降低后续计算匹配相似度的计算量。之后根据分类相似度、语义相似度以及匹配相似度计算第一法规的匹配分数,从法规库分类、语义向量以及法规匹配三个维度对第一法规进行综合排序,以使最终排序结果准确,排除不需要的法规,符合用户需求,大大提高了法规匹配精准度。
Description
技术领域
本发明涉及法规匹配领域,特别地,涉及一种法规库法规匹配方法、装置及系统。
背景技术
法规库为存储现行的各类规范性法律文件等法规的数据库,用户输入查询语句后可以在法规库中查询现有法律法规。目前为查询语句匹配法规的主要将用户的关键词与索引数据库进行匹配,将匹配较高的法规反馈给用户。但是以关键词进行匹配的方式,容易造成不相关的法规被返回给用户,因此现有法规库法规匹配方法,匹配精度较低,无法精确返回给用户想要的法规。
发明内容
为了克服现有技术的不足,本发明提供一种法规库法规匹配方法、装置及系统,以解决现有法规库法规匹配方法,匹配精度较低,无法精确返回给用户想要的法规的问题。
本发明解决其技术问题所采用的技术方案是:
第一方面,提供一种法规库法规匹配方法,包括以下步骤:
获取用户输入的查询语句的文本向量;
根据所述文本向量确定所述查询语句对应的法规库类型以及分类相似度,所述分类相似度用于表示所述文本向量属于确定的法规库的概率;
计算所述文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照所述语义相似度从高到低的顺序,将对应的法规进行排序,根据所述语义相似度的排序选择前N1个法规作为第一法规,根据所述第一法规得到第一法规列表;其中,N1为正整数;
将所述文本向量和所述第一法规列表输入到预训练的法规推荐模型,得到所述第一法规列表中各个第一法规与所述查询语句的匹配相似度;
根据所述分类相似度、所述语义相似度和所述匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照所述匹配分数由高到低的顺序,将对应的第一法规进行排序;
根据所述匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,N2小于N1;
将所述第二法规返回给所述用户。
进一步地,所述根据所述分类相似度、所述语义相似度和所述匹配相似度计算第一法规列表中各个第一法规的匹配分数,包括:
获取所述查询语句的标签数据和所述第一法规列表中各第一法规分别对应的预设标签数据,所述标签数据用于表示所述查询语句所属领域;
将所述标签数据和各所述预设标签数据输入到预训练的标签推荐模型,得到所述第一法规列表中各第一法规的标签相似度;
根据所述分类相似度、所述语义相似度、所述匹配相似度以及所述标签相似度计算所述第一法规列表中各第一法规的匹配分数。
进一步地,所述匹配分数计算公式为:匹配分数=分类相似度*第一预设权重+语义相似度*第二预设权重+匹配相似度*第三预设权重+标签相似度*第四预设权重。
进一步地,所述根据所述文本向量确定所述查询语句对应的法规库类型以及分类相似度,包括:
将所述文本向量输入到预训练的法规分类模型,得到所述查询语句与预设的任一类型的法规库匹配的概率值;
将所述概率值最大的法规库作为对应的法规库类型,并将所述对应的法规库类型的概率值作为所述分类相似度。
进一步地,所述法规分类模型采用多个教师模型训练,每个所述教师模型对应一种法规库类型;所述法规分类模型在训练时:
利用所述教师模型的部分数据对多个学生模型分别进行训练,得到训练好的多个目标学生模型;
针对每个目标学生模型,计算该目标学生模型输出的结果与所述教师模型输出的结果之间的相似度;
根据各个相似度,分别确定各个目标学生模型的权重;
根据各个目标学生模型以及各个权重,得到所述法规分类模型。
进一步地,还包括:
获取预设周期内法规库中任一条法规的总点击次数,所述总点击次数为每个用户点击所述法规的点击次数之和;
按照所述总点击次数由高到低的顺序,对所述法规库中的法规进行排序;
根据所述总点击次数的排序结果选择前N3个的法规推荐给用户,其中,N3为正整数。
进一步地,还包括:
获取任一用户对于法规库中任一法规的点击权重,所述点击权重等于第一点击次数与第二点击次数的比值,所述第一点击次数为所述用户点击任一法规的点击次数,所述第二点击次数为所述用户点击次数最多的法规的点击次数;
针对每条法规,将所有用户的针对所述法规的点击权重相加,得到所述法规的总点击权重;
获取总点击权重的值最大的法规的目标总点击权重,获取每条法规的相对权重,所述相对权重为所述法规的总点击权重与所述目标总点击权重的比值;
若任一条法规的相对权重小于预设权重值,则将每个用户对应的所述法规的点击权重乘以预设系数,得到所述法规对应于所述用户的目标权重,所述预设系数大于1;若任一条法规的相对权重大于或等于所述预设权重值,则将每个用户对应的所述法规的点击权重除以所述目标总点击权重得到目标权重;
按照所述目标权重按由大到小的顺序,对所述用户点击的法规进行排序;
根据所述目标权重的排序结果选择前N4个法规推荐给所述用户,其中,N4为正整数。
进一步地,还包括:
获取用户历史查询语句以及所述历史查询语句的历史文本向量;
在用户输入当前查询语句时,利用bm25算法计算当前查询语句与任一所述历史查询语句的文本相似度,以及计算所述当前查询语句的文本向量与任一所述历史查询语句的历史文本向量的向量相似度;
根据所述文本相似度和所述向量相似度,计算所述当前查询语句与各个历史查询语句的最终相似度,最终相似度=历史相似度*第一预设系数+向量相似度*第二预设系数;
按照所述最终相似度由高到低的顺序,对所述历史查询语句进行排序;
根据所述最终相似度的排序,从所述历史查询语句中选择前N5个历史查询语句推荐给用户,其中,N5为正整数。
第二方面,提供一种法规库法规匹配装置,包括:
文本向量获取模块,用于获取用户输入的查询语句的文本向量;
分类相似度获取模块,用于根据所述文本向量确定所述查询语句对应的法规库类型以及分类相似度,所述分类相似度用于表示所述文本向量属于确定的法规库的概率;
语义相似度获取模块,用于计算所述文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照所述语义相似度从高到低的顺序,将对应的法规进行排序,根据所述语义相似度的排序选择前N1个法规作为第一法规,根据所述第一法规得到第一法规列表;其中,N1为正整数;
匹配相似度获取模块,用于将所述文本向量和所述第一法规列表输入到预训练的法规推荐模型,得到所述第一法规列表中各个第一法规与所述查询语句的匹配相似度;
匹配分数获取模块,用于根据所述分类相似度、所述语义相似度和所述匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照所述匹配分数由高到低的顺序,将对应的第一法规进行排序;
第二法规获取模块,用于根据所述匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,N2小于N1;
法规返回模块,用于将所述第二法规返回给所述用户。
第三方面,提供一种法规库法规匹配系统,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为用于执行第一方面提供的技术方案中任一项所述的方法。
有益效果:
本申请技术方案提供一种法规库法规匹配方法、装置及系统,在获取用户输入的查询语句的文本向量后,根据文本向量确定查询语句的对应的法规库类型,以便在对应的法规库匹配法规,大大减少计算量。然后在法规库中根据语义向量得到第一法规列表,进一步降低后续计算匹配相似度的计算量。之后根据分类相似度、语义相似度以及匹配相似度计算第一法规的匹配分数,从法规库分类、语义向量以及法规匹配三个维度对第一法规进行综合排序,以使最终排序结果准确,排除不需要的法规,符合用户需求,大大提高了法规匹配精准度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种法规库法规匹配方法流程图;
图2是本发明实施例提供的一种具体的法规库法规匹配方法流程图;
图3是本发明实施例提供的一种法规库法规匹配装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
第一实施例,参照图1,本发明实施例提供了法规库法规匹配方法,包括以下步骤:
S11:获取用户输入的查询语句的文本向量;
S12:根据文本向量确定查询语句对应的法规库类型以及分类相似度,分类相似度用于表示文本向量属于确定的法规库的概率;
S13:计算文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照语义相似度从高到低的顺序,将对应的法规进行排序,根据语义相似度的排序选择前N1个法规作为第一法规,根据第一法规得到第一法规列表;其中,N1为正整数;
S14:将文本向量和第一法规列表输入到预训练的法规推荐模型,得到第一法规列表中各个第一法规与查询语句的匹配相似度;
S15:根据分类相似度、语义相似度和匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照匹配分数由高到低的顺序,将对应的第一法规进行排序;
S16:根据匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,N2小于N1;
S17:将第二法规返回给用户。
本发明实施例一种法规库法规匹配方法,在获取用户输入的查询语句的文本向量后,根据文本向量确定查询语句的对应的法规库类型,以便在对应的法规库匹配法规,大大减少计算量。然后在法规库中根据语义向量得到第一法规列表,进一步降低后续计算匹配相似度的计算量。之后根据分类相似度、语义相似度以及匹配相似度计算第一法规的匹配分数,从法规库分类、语义向量以及法规匹配三个维度对第一法规进行综合排序,以使最终排序结果准确,排除不需要的法规,符合用户需求,大大提高了法规匹配精准度。
第二实施例,本发明提供一种具体的法规库法规匹配方法,如图2所示,包括以下步骤:
获取用户输入的查询语句的文本向量;具体的,采用One-Hot、TF-IDF或word2vec任意一种或多种方式提取查询语句的文本向量。
根据文本向量确定查询语句对应的法规库类型以及分类相似度,分类相似度用于表示文本向量属于确定的法规库的概率;具体地,将文本向量输入到预训练的法规分类模型,得到查询语句与预设的任一类型的法规库匹配的概率值;将概率值最大的法规库作为对应的法规库类型,并将对应的法规库类型的概率值作为分类相似度。示例性的,法规库类型分为采购相关法规和财政相关法规。
其中,法规分类模型采用多个教师模型训练,每个教师模型对应一种法规库类型;法规分类模型在训练时:利用教师模型的部分数据对多个学生模型分别进行训练,得到训练好的多个目标学生模型;针对每个目标学生模型,计算该目标学生模型输出的结果与教师模型输出的结果之间的相似度;根据各个相似度,分别确定各个目标学生模型的权重;根据各个目标学生模型以及各个权重,得到法规分类模型。传统的教师模型为一个大的模型,用一个大的模型训练多个小的学生模型,但是这种方式得到的学生模型大同小异,在面对不同的法规库时,效果较差。且传统的一个教师模型训练时占用空间太大,对于内存要求太高,采用多个教师模型进行训练时,将较重的模型通过网络结构的改造生成可落地的轻量级的模型。且学生模型训练时由于仅采用部分数据可以避免最终学生模型的基本相同,这样可以通过不同目标学生模型来数据不同的特征,由于每个目标学生模型都能够获取不同的特征,如完整数据本来包含了A、B、C三个特征(A、B、C为向量,便于与后续权重进行计算),训练得到的目标学生模型1获取的特征为A和B,目标学生模型2获取的特征为B和C,根据各个目标学生模型的权重对相应目标学生模型的输出进行加权,然后将加权后的相同特征加和得到最终的分类结果,这样既保证所有特征都能够获取,又能够避免重要特征的丢失。
计算文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照语义相似度从高到低的顺序,将对应的法规进行排序,根据语义相似度的排序选择前N1个法规作为第一法规,根据第一法规得到第一法规列表;其中,N1为正整数,N1根据实际需要设置;示例性的N1为128。其中语义向量的计算采用现有技术进行,本申请不对语义向量的计算方法进行改进。
将文本向量和第一法规列表输入到预训练的法规推荐模型,得到第一法规列表中各个第一法规与查询语句的匹配相似度;其中法规推荐模型的作用为得到查询问句以及初始推荐的法规(第一法规列表中法规)的匹配程度,即匹配相似度。
根据分类相似度、语义相似度和匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照匹配分数由高到低的顺序,将对应的第一法规进行排序;匹配分数=分类相似度*第一预设权重+语义相似度*第二预设权重+匹配相似度*第三预设权重。即从三个维度:分类相似度、语义相似度和匹配相似综合对第一法规列表中的法规进行排序,以得到最满足用户需求的法规。
在实际中,即使同一类型的法规库,其内部的法规的小种类也相对较多,如财政法可从财政收入关系、财政支出关系、财政收支平衡关系;内部财政关系、外部财政关系;财政实体关系、财政程序关系等进行分类,因此为了进一步确定具体的应用种类,本发明实施例还对法规库中法规的种类设置标签。因此在计算匹配分数时,引入标签的维度,进一步的排除无关法规,提高匹配精准度,具体如下:
获取查询语句的标签数据和第一法规列表中各第一法规分别对应的预设标签数据,标签数据用于表示查询语句所属领域;将标签数据和各预设标签数据输入到预训练的标签推荐模型,得到第一法规列表中各第一法规的标签相似度;根据分类相似度、语义相似度、匹配相似度以及标签相似度计算第一法规列表中各第一法规的匹配分数。此时匹配分数计算公式如下:
匹配分数=分类相似度*第一预设权重+语义相似度*第二预设权重+匹配相似度*第三预设权重+标签相似度*第四预设权重。
其中第一预设权重、第二预设权重和第三预设权重以及第四预设权重根据实际需要设置,在实际设置时,一般第三预设权重最高。
其中,获取查询语句的标签数据为,将查询语句进行词向量转换,然后与预设标签的词向量计算相似度,选择相似度最高的几个标签作为该查询语句的标签数据。
根据匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,根据实际需要设置,N2小于N1,示例性的,N2为8;
将第二法规返回给用户。
可选的,在用户进入输入界面,但是尚未输入查询语句时,可以为用户推荐法规。一种可选实现方式中,推荐方式为:获取预设周期内法规库中任一条法规的总点击次数,总点击次数为每个用户点击法规的点击次数之和;按照总点击次数由高到低的顺序,对法规库中的法规进行排序;根据总点击次数的排序结果选择前N3个的法规推荐给用户,其中,N3为正整数,根据实际需要设置,如N3为5。即由大数据获取所有用户的总点击次数,总点击次数越多代表法规使用概率越大。
但是每个用户的喜好或习惯不同,用户可能使用的法规也不同,仅按照所有用户的总点击次数进行推荐,不能满足用户需求,因此本发明实施例提供另一可选的实现方式:获取任一用户对于法规库中任一法规的点击权重,点击权重等于第一点击次数与第二点击次数的比值,第一点击次数为用户点击任一法规的点击次数,第二点击次数为用户点击次数最多的法规的点击次数;针对每条法规,将所有用户的针对法规的点击权重相加,得到法规的总点击权重;获取总点击权重的值最大的法规的目标总点击权重,获取每条法规的相对权重,相对权重为法规的总点击权重与目标总点击权重的比值;若任一条法规的相对权重小于预设权重值,则将每个用户对应的法规的点击权重乘以预设系数,得到法规对应于用户的目标权重,预设系数大于1;若任一条法规的相对权重大于或等于预设权重值,则将每个用户对应的法规的点击权重除以目标总点击权重得到目标权重;按照目标权重按由大到小的顺序,对用户点击的法规进行排序;根据目标权重的排序结果选择前N4个法规推荐给用户,其中,N4为正整数,根据实际需要设置,示例性的,N4为5.预设权重值根据实际需要设置,示例性的,预设权重值为0.5。本发明实施例根据对法规排序时,根据用户点击权重以及该法规的总点击权重进行排序。即考虑了用户个人喜好,又结合了所有用户的总点击权重。
作为本发明实施例一种可选实现方式,获取用户历史查询语句以及历史查询语句的历史文本向量;在用户输入当前查询语句时,利用bm25算法计算当前查询语句与任一历史查询语句的文本相似度,以及计算当前查询语句的文本向量与任一历史查询语句的历史文本向量的向量相似度;根据文本相似度和向量相似度,计算当前查询语句与各个历史查询语句的最终相似度,最终相似度=历史相似度*第一预设系数+向量相似度*第二预设系数;第一预设系数和第二预设系数根据实际需要设置,如第一预设系数为80%,第二预设系数为20%,按照最终相似度由高到低的顺序,对历史查询语句进行排序;根据最终相似度的排序,从历史查询语句中选择前N5个历史查询语句推荐给用户,其中,N5为正整数,根据实际需要设置,示例性的,N5为5。在用户输入查询问句时,根据历史查询问句进行查询问句推荐,避免用户重复输入,在进行推荐时,采用两种方式计算相似度,更精准。
本发明实施例提供的具体的法规库法规匹配方法,在获取用户输入的查询语句的文本向量后,根据文本向量确定查询语句的对应的法规库类型,以便在对应的法规库匹配法规,大大减少计算量。然后在法规库中根据语义向量得到第一法规列表,进一步降低后续计算匹配相似度的计算量。之后根据分类相似度、语义相似度以及匹配相似度计算第一法规的匹配分数,从法规库分类、语义向量以及法规匹配三个维度对第一法规进行综合排序,以使最终排序结果准确,排除不需要的法规,符合用户需求,大大提高了法规匹配精准度。
第三实施例,本发明提供一种法规库法规匹配装置,如图3所示,包括:
文本向量获取模块31,用于获取用户输入的查询语句的文本向量;
分类相似度获取模块32,用于根据文本向量确定查询语句对应的法规库类型以及分类相似度,分类相似度用于表示文本向量属于确定的法规库的概率;具体地,分类相似度获取模块32将文本向量输入到预训练的法规分类模型,得到查询语句与预设的任一类型的法规库匹配的概率值;将概率值最大的法规库作为对应的法规库类型,并将对应的法规库类型的概率值作为分类相似度。
需要说明的是,法规分类模型采用多个教师模型训练,每个教师模型对应一种法规库类型;法规分类模型在训练时:利用教师模型的部分数据对多个学生模型分别进行训练,得到训练好的多个目标学生模型;针对每个目标学生模型,计算该目标学生模型输出的结果与教师模型输出的结果之间的相似度;根据各个相似度,分别确定各个目标学生模型的权重;根据各个目标学生模型以及各个权重,得到法规分类模型。
语义相似度获取模块33,用于计算文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照语义相似度从高到低的顺序,将对应的法规进行排序,根据语义相似度的排序选择前N1个法规作为第一法规,根据第一法规得到第一法规列表;其中,N1为正整数;
匹配相似度获取模块34,用于将文本向量和第一法规列表输入到预训练的法规推荐模型,得到第一法规列表中各个第一法规与查询语句的匹配相似度;
匹配分数获取模块35,用于根据分类相似度、语义相似度和匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照匹配分数由高到低的顺序,将对应的第一法规进行排序;或者,匹配分数获取模块35获取查询语句的标签数据和第一法规列表中各第一法规分别对应的预设标签数据,标签数据用于表示查询语句所属领域;将标签数据和各预设标签数据输入到预训练的标签推荐模型,得到第一法规列表中各第一法规的标签相似度;根据分类相似度、语义相似度、匹配相似度以及标签相似度计算第一法规列表中各第一法规的匹配分数。
其中,匹配分数计算公式为:匹配分数=分类相似度*第一预设权重+语义相似度*第二预设权重+匹配相似度*第三预设权重+标签相似度*第四预设权重。
第二法规获取模块36,用于根据匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,N2小于N1;
法规返回模块37,用于将第二法规返回给用户。
法规推荐模块,用于获取预设周期内法规库中任一条法规的总点击次数,总点击次数为每个用户点击法规的点击次数之和;按照总点击次数由高到低的顺序,对法规库中的法规进行排序;根据总点击次数的排序结果选择前N3个的法规推荐给用户,其中,N3为正整数。
或者法规推荐模块,用于获取任一用户对于法规库中任一法规的点击权重,点击权重等于第一点击次数与第二点击次数的比值,第一点击次数为用户点击任一法规的点击次数,第二点击次数为用户点击次数最多的法规的点击次数;针对每条法规,将所有用户的针对法规的点击权重相加,得到法规的总点击权重;获取总点击权重的值最大的法规的目标总点击权重,获取每条法规的相对权重,相对权重为法规的总点击权重与目标总点击权重的比值;若任一条法规的相对权重小于预设权重值,则将每个用户对应的法规的点击权重乘以预设系数,得到法规对应于用户的目标权重,预设系数大于1;若任一条法规的相对权重大于或等于预设权重值,则将每个用户对应的法规的点击权重除以目标总点击权重得到目标权重;按照目标权重按由大到小的顺序,对用户点击的法规进行排序;根据目标权重的排序结果选择前N4个法规推荐给用户,其中,N4为正整数。
还包括,问句推荐模块,用于获取用户历史查询语句以及历史查询语句的历史文本向量;在用户输入当前查询语句时,利用bm25算法计算当前查询语句与任一历史查询语句的文本相似度,以及计算当前查询语句的文本向量与任一历史查询语句的历史文本向量的向量相似度;根据文本相似度和向量相似度,计算当前查询语句与各个历史查询语句的最终相似度,最终相似度=历史相似度*第一预设系数+向量相似度*第二预设系数;按照最终相似度由高到低的顺序,对历史查询语句进行排序;根据最终相似度的排序,从历史查询语句中选择前N5个历史查询语句推荐给用户,其中,N5为正整数。
本发明实施例提供的法规库法规匹配装置,在获取用户输入的查询语句的文本向量后,根据文本向量确定查询语句的对应的法规库类型,以便在对应的法规库匹配法规,大大减少计算量。然后在法规库中根据语义向量得到第一法规列表,进一步降低后续计算匹配相似度的计算量。之后根据分类相似度、语义相似度以及匹配相似度计算第一法规的匹配分数,从法规库分类、语义向量以及法规匹配三个维度对第一法规进行综合排序,以使最终排序结果准确,排除不需要的法规,符合用户需求,大大提高了法规匹配精准度。
第四实施例,本发明提供一种法规库法规匹配系统,包括:
处理器;
用于存储处理器可执行指令的存储器;
处理器被配置为用于执行第一实施例或第二实施例提供的法规库法规匹配方法。
本发明实施例提供的法规库法规匹配系统,通过存储器存储处理器的可执行指令,当处理器执行该可执行指令后,能够获取用户输入的查询语句的文本向量,根据文本向量确定查询语句的对应的法规库类型,以便在对应的法规库匹配法规,大大减少计算量。然后在法规库中根据语义向量得到第一法规列表,进一步降低后续计算匹配相似度的计算量。之后根据分类相似度、语义相似度以及匹配相似度计算第一法规的匹配分数,从法规库分类、语义向量以及法规匹配三个维度对第一法规进行综合排序,以使最终排序结果准确,排除不需要的法规,符合用户需求,大大提高了法规匹配精准度。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种法规库法规匹配方法,其特征在于,包括以下步骤:
获取用户输入的查询语句的文本向量;
根据所述文本向量确定所述查询语句对应的法规库类型以及分类相似度,所述分类相似度用于表示所述文本向量属于确定的法规库的概率;
计算所述文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照所述语义相似度从高到低的顺序,将对应的法规进行排序,根据所述语义相似度的排序选择前N1个法规作为第一法规,根据所述第一法规得到第一法规列表;其中,N1为正整数;
将所述文本向量和所述第一法规列表输入到预训练的法规推荐模型,得到所述第一法规列表中各个第一法规与所述查询语句的匹配相似度;
根据所述分类相似度、所述语义相似度和所述匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照所述匹配分数由高到低的顺序,将对应的第一法规进行排序;
根据所述匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,N2小于N1;
将所述第二法规返回给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分类相似度、所述语义相似度和所述匹配相似度计算第一法规列表中各个第一法规的匹配分数,包括:
获取所述查询语句的标签数据和所述第一法规列表中各第一法规分别对应的预设标签数据,所述标签数据用于表示所述查询语句所属领域;
将所述标签数据和各所述预设标签数据输入到预训练的标签推荐模型,得到所述第一法规列表中各第一法规的标签相似度;
根据所述分类相似度、所述语义相似度、所述匹配相似度以及所述标签相似度计算所述第一法规列表中各第一法规的匹配分数。
3.根据权利要求2所述的方法,其特征在于:所述匹配分数计算公式为:匹配分数=分类相似度*第一预设权重+语义相似度*第二预设权重+匹配相似度*第三预设权重+标签相似度*第四预设权重。
4.根据权利要求1所述的方法,其特征在于:所述根据所述文本向量确定所述查询语句对应的法规库类型以及分类相似度,包括:
将所述文本向量输入到预训练的法规分类模型,得到所述查询语句与预设的任一类型的法规库匹配的概率值;
将所述概率值最大的法规库作为对应的法规库类型,并将所述对应的法规库类型的概率值作为所述分类相似度。
5.根据权利要求4所述的方法,其特征在于:所述法规分类模型采用多个教师模型训练,每个所述教师模型对应一种法规库类型;所述法规分类模型在训练时:
利用所述教师模型的部分数据对多个学生模型分别进行训练,得到训练好的多个目标学生模型;
针对每个目标学生模型,计算该目标学生模型输出的结果与所述教师模型输出的结果之间的相似度;
根据各个相似度,分别确定各个目标学生模型的权重;
根据各个目标学生模型以及各个权重,得到所述法规分类模型。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取预设周期内法规库中任一条法规的总点击次数,所述总点击次数为每个用户点击所述法规的点击次数之和;
按照所述总点击次数由高到低的顺序,对所述法规库中的法规进行排序;
根据所述总点击次数的排序结果选择前N3个的法规推荐给用户,其中,N3为正整数。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取任一用户对于法规库中任一法规的点击权重,所述点击权重等于第一点击次数与第二点击次数的比值,所述第一点击次数为所述用户点击任一法规的点击次数,所述第二点击次数为所述用户点击次数最多的法规的点击次数;
针对每条法规,将所有用户的针对所述法规的点击权重相加,得到所述法规的总点击权重;
获取总点击权重的值最大的法规的目标总点击权重,获取每条法规的相对权重,所述相对权重为所述法规的总点击权重与所述目标总点击权重的比值;
若任一条法规的相对权重小于预设权重值,则将每个用户对应的所述法规的点击权重乘以预设系数,得到所述法规对应于所述用户的目标权重,所述预设系数大于1;若任一条法规的相对权重大于或等于所述预设权重值,则将每个用户对应的所述法规的点击权重除以所述目标总点击权重得到目标权重;
按照所述目标权重按由大到小的顺序,对所述用户点击的法规进行排序;
根据所述目标权重的排序结果选择前N4个法规推荐给所述用户,其中,N4为正整数。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取用户历史查询语句以及所述历史查询语句的历史文本向量;
在用户输入当前查询语句时,利用bm25算法计算当前查询语句与任一所述历史查询语句的文本相似度,以及计算所述当前查询语句的文本向量与任一所述历史查询语句的历史文本向量的向量相似度;
根据所述文本相似度和所述向量相似度,计算所述当前查询语句与各个历史查询语句的最终相似度,最终相似度=历史相似度*第一预设系数+向量相似度*第二预设系数;
按照所述最终相似度由高到低的顺序,对所述历史查询语句进行排序;
根据所述最终相似度的排序,从所述历史查询语句中选择前N5个历史查询语句推荐给用户,其中,N5为正整数。
9.一种法规库法规匹配装置,其特征在于,包括:
文本向量获取模块,用于获取用户输入的查询语句的文本向量;
分类相似度获取模块,用于根据所述文本向量确定所述查询语句对应的法规库类型以及分类相似度,所述分类相似度用于表示所述文本向量属于确定的法规库的概率;
语义相似度获取模块,用于计算所述文本向量与确定的法规库中所有法规的语义向量的语义相似度,并按照所述语义相似度从高到低的顺序,将对应的法规进行排序,根据所述语义相似度的排序选择前N1个法规作为第一法规,根据所述第一法规得到第一法规列表;其中,N1为正整数;
匹配相似度获取模块,用于将所述文本向量和所述第一法规列表输入到预训练的法规推荐模型,得到所述第一法规列表中各个第一法规与所述查询语句的匹配相似度;
匹配分数获取模块,用于根据所述分类相似度、所述语义相似度和所述匹配相似度计算第一法规列表中各个第一法规的匹配分数,并按照所述匹配分数由高到低的顺序,将对应的第一法规进行排序;
第二法规获取模块,用于根据所述匹配分数的排序选择前N2个的第一法规作为第二法规,其中,N2为正整数,N2小于N1;
法规返回模块,用于将所述第二法规返回给所述用户。
10.一种法规库法规匹配系统,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为用于执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211653939.9A CN115858731A (zh) | 2022-12-22 | 2022-12-22 | 一种法规库法规匹配方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211653939.9A CN115858731A (zh) | 2022-12-22 | 2022-12-22 | 一种法规库法规匹配方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115858731A true CN115858731A (zh) | 2023-03-28 |
Family
ID=85653748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211653939.9A Pending CN115858731A (zh) | 2022-12-22 | 2022-12-22 | 一种法规库法规匹配方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858731A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757203A (zh) * | 2023-08-16 | 2023-09-15 | 杭州北冥星火科技有限公司 | 一种自然语言匹配方法、装置、计算机设备及存储介质 |
CN117251557A (zh) * | 2023-11-20 | 2023-12-19 | 中信证券股份有限公司 | 法规咨询语句答复方法、装置、设备和计算机可读介质 |
-
2022
- 2022-12-22 CN CN202211653939.9A patent/CN115858731A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757203A (zh) * | 2023-08-16 | 2023-09-15 | 杭州北冥星火科技有限公司 | 一种自然语言匹配方法、装置、计算机设备及存储介质 |
CN116757203B (zh) * | 2023-08-16 | 2023-11-10 | 杭州北冥星火科技有限公司 | 一种自然语言匹配方法、装置、计算机设备及存储介质 |
CN117251557A (zh) * | 2023-11-20 | 2023-12-19 | 中信证券股份有限公司 | 法规咨询语句答复方法、装置、设备和计算机可读介质 |
CN117251557B (zh) * | 2023-11-20 | 2024-02-27 | 中信证券股份有限公司 | 法规咨询语句答复方法、装置、设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
US8019754B2 (en) | Method of searching text to find relevant content | |
CN105893533B (zh) | 一种文本匹配方法及装置 | |
US10068008B2 (en) | Spelling correction of email queries | |
US7783620B1 (en) | Relevancy scoring using query structure and data structure for federated search | |
TWI557664B (zh) | Product information publishing method and device | |
US20190347281A1 (en) | Apparatus and method for semantic search | |
US20100094879A1 (en) | Method of detecting and responding to changes in the online community's interests in real time | |
US20100235343A1 (en) | Predicting Interestingness of Questions in Community Question Answering | |
EP2860672A2 (en) | Scalable cross domain recommendation system | |
CN115858731A (zh) | 一种法规库法规匹配方法、装置及系统 | |
US20100094840A1 (en) | Method of searching text to find relevant content and presenting advertisements to users | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
JP2013522720A (ja) | 単語情報エントロピの決定 | |
US12026462B2 (en) | Word embedding model parameter advisor | |
US20210103622A1 (en) | Information search method, device, apparatus and computer-readable medium | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
KR20120092756A (ko) | 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템 | |
CN115630144B (zh) | 一种文档搜索方法、装置及相关设备 | |
Kalra et al. | Generation of domain-specific vocabulary set and classification of documents: weight-inclusion approach | |
CN114254615A (zh) | 组卷方法、装置、电子设备和存储介质 | |
CN112612961B (zh) | 信息搜索方法、装置、存储介质及计算机设备 | |
US8892597B1 (en) | Selecting data collections to search based on the query | |
CN108550019A (zh) | 一种简历筛选方法及装置 | |
CN115860283B (zh) | 基于知识工作者画像的贡献度预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |