CN112948553B - 法律智能问答方法、装置、电子设备及存储介质 - Google Patents
法律智能问答方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112948553B CN112948553B CN202110220881.8A CN202110220881A CN112948553B CN 112948553 B CN112948553 B CN 112948553B CN 202110220881 A CN202110220881 A CN 202110220881A CN 112948553 B CN112948553 B CN 112948553B
- Authority
- CN
- China
- Prior art keywords
- target
- question
- candidate
- similarity
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种法律智能问答方法、装置、电子设备及存储介质,所述方法包括:接收用户输入的目标问题,当目标问题为法律问题时,从预设的数据源中确定目标问题的多个第一候选问题;将目标问题输入至预先训练好的BERT模型中得到目标向量,并根据目标向量从预设问题库中匹配出多个第二候选问题;对多个第一候选问题和多个第二候选问题进行预处理得到多个第三候选问题;采用多种相似度算法计算目标问题与每个第三候选问题之间的目标相似度,根据目标相似度确定目标问题的目标答案。本发明通过采用多种相似度算法计算得到的相似度确定目标问题的目标答案,提高了法律智能问答系统反馈答案的准确率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种法律智能问答方法、装置、电子设备及存储介质。
背景技术
自动问答系统是人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向,它综合运用了信息检索、语义匹配、自然语言处理等技术。现有的法律智能问答系统大多是采用关键字进行检索,针对用户提出的问题,系统获取用户提出的问题中的关键词,将关键词作为检索条件在知识库中查找出相关的问题,生成反馈答案。
然而,由于用户自身文化背景的原因,同一个法律问题的表述可能存在千差万别,特别是针对同义不同字的问题,会使系统生成不同的反馈答案,无法给予用户正确的答案,导致法律智能问答系统反馈答案的效率和准确率低。
因此,有必要提供一种快速准确生成答案的法律智能问答方法。
发明内容
鉴于以上内容,有必要提出一种法律智能问答方法、装置、电子设备及存储介质,通过采用多种相似度算法计算得到的相似度确定目标问题的目标答案,提高了法律智能问答系统反馈答案的准确率。
本发明的第一方面提供一种法律智能问答方法,所述方法包括:
接收用户输入的目标问题,判断所述目标问题是否为法律问题;
当所述目标问题为法律问题时,通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题;
将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题;
对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题;
采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度,根据计算得到的目标相似度确定所述目标问题的目标答案。
可选地,所述采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度包括:
使用编辑距离算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第一相似度;
使用雅卡尔相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第二相似度;
使用预设的第一文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第三相似度;
使用预设的第二文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第四相似度;
将每个第三候选问题的第一相似度、第二相似度、第三相似度和第四相似度输入至预设的逻辑回归模型中,得到每个第三候选问题的目标相似度。
可选地,所述根据计算得到的目标相似度确定所述目标问题的目标答案包括:
对计算得到的目标相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个目标相似度作为所述目标问题的多个候选相似度;
将每个所述候选相似度与预设的相似度阈值进行比对;
当每个所述候选相似度大于或者等于所述预设的相似度阈值时,获取每个所述候选相似度对应的第三候选问题的答案作为所述目标问题的目标答案。
可选地,所述判断所述目标问题是否为法律问题包括:
识别所述目标问题的提问类型,
当所述目标问题的提问类型为第一类型时,从所述目标问题中提取出多个第一关键词;
识别预设的数据库中是否存在所述多个第一关键词;
当所述预设的数据库中存在任意一个关键字段时,确定所述目标问题为法律问题;或者
当所述预设的数据库中不存在所述多个第一关键词时,确定所述目标问题不为法律问题。
可选地,所述方法还包括:
当所述目标问题的提问类型为第二类型时,对所述目标问题进行实体识别,得到多个实体;
根据所述目标问题生成包含上下文特征的第一文本向量,及根据所述多个实体生成实体特征向量;
通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量;
对所述多个粒度的第二文本向量进行最大池化后提取每个粒度的第二文本向量的最大值进行拼接,得到语义特征向量;
拼接所述语义特征向量及所述实体特征向量得到模板特征向量;
通过全连接层计算所述模板特征向量中每个意图类别的分数;
将每个意图类别的分数经过softmax层映射为概率,并选取概率最大的意图类别作为所述目标问题的目标意图类别;
判断预设的意图类别库中是否存在所述目标意图类别;
当所述预设的意图类别库中存在所述目标意图类别时,确定所述目标问题为法律问题;或者
当所述预设的意图类别库中不存在所述目标意图类别时,确定所述目标问题不为法律问题。
可选地,所述通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题包括:
将所述目标问题划分为多个第二关键词,并记录每个第二关键词的顺序标号;
通过检索工具根据每个第二关键词及所述每个第二关键词的顺序标号与预设数据源中的文本索引进行匹配,获得目标文本及每个目标文本的相关度分数;
根据所述相关度分数对所述目标文本进行正向排序,获得所述目标问题对应的多个第一候选问题。
可选地,所述根据所述目标向量从预设问题库中匹配出多个第二候选问题包括:
使用预设的Skip-Thought模型对预设问题库中的候选问题进行向量化,得到候选问题的文本向量;
计算所述目标向量与每个候选问题的文本向量之间的相似度;
对计算得到的相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个的相似度对应的候选问题确定为所述目标问题的多个第二候选问题。
本发明的第二方面提供一种法律智能问答装置,所述装置包括:
接收模块,用于接收用户输入的目标问题,判断所述目标问题是否为法律问题;
确定模块,用于当所述目标问题为法律问题时,通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题;
输入模块,用于将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题;
预处理模块,用于对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题;
计算模块,用于采用多种相似度算法计算所述目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的法律智能问答方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的法律智能问答方法。
综上所述,本发明所述的法律智能问答方法、装置、电子设备及存储介质,一方面,对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题,所述第三候选问题是从字符和语义两个维度进行查询得到的,提高了法律智能问答系统获取的第三候选问题的完整性和准确率,进而提高了法律智能问答系统反馈答案的准确率;另一方面,采用多种相似度算法计算所述目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,从多个维度计算目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,提高了目标问题的目标答案的准确率,进而提高了法律智能问答系统反馈答案的准确率;最后,接收用户输入的目标问题,判断所述目标问题是否为法律问题,通过识别所述目标问题的提问类型,根据不同的提问类型采用不同的方式判断所述目标问题是否为法律问题,提高了法律智能问答系统反馈答案的效率。
附图说明
图1是本发明实施例一提供的法律智能问答方法的流程图。
图2是本发明实施例二提供的法律智能问答装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的法律智能问答方法的流程图。
在本实施例中,所述法律智能问答方法可以应用于电子设备中,对于需要进行法律智能问答的电子设备,可以直接在电子设备上集成本发明的方法所提供的法律智能问答的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
如图1所示,所述法律智能问答方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,接收用户输入的目标问题,判断所述目标问题是否为法律问题。
本实施例中,用户在进行法律问题咨询时,输入目标问题至服务端,具体地,所述服务端可以为法律智能问答系统,所述客户端可以是智能手机、IPAD或者其他现有咨询设备,具体地,在咨询过程中,如所述用户可以向法律智能问答系统发送目标问题,所述法律智能问答系统用于接收所述用户输入的目标问题。
本实施例中,当所述法律智能问答系统接收到用户输入的目标问题时,需要判断所述目标问题的有效性,确定所述目标问题是有效提问还是无效输入。
在一个可选的实施例中,所述判断所述目标问题是否为法律问题包括:
识别所述目标问题的提问类型;
当所述目标问题的提问类型为第一类型时,从所述目标问题中提取出多个第一关键词;
识别预设的数据库中是否存在所述多个第一关键词;
当所述预设的数据库中存在任意一个关键字段时,确定所述目标问题为法律问题;或者
当所述预设的数据库中不存在所述多个第一关键词时,确定所述目标问题不为法律问题。
S16,当所述目标问题不为法律问题时,不对所述目标问题进行答案反馈。
本实施例中,第一类型为常见的提问方式,当所述目标问题的提问类型为第一类型时,可以从所述目标问题中提取出多个第一关键词进行匹配,快速确定目标问题是否为法律问题,当目标问题为法律问题时,对所述目标问题进行答案反馈;当目标问题不为法律问题时,执行S16,不对所述目标问题进行答案反馈,提高了法律智能问答系统反馈答案的效率。
进一步地,所述方法还包括:
当所述目标问题的提问类型为第二类型时,对所述目标问题进行实体识别,得到多个实体;
根据所述目标问题生成包含上下文特征的第一文本向量,及根据所述多个实体生成实体特征向量;
通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量;
对所述多个粒度的第二文本向量进行最大池化后提取每个粒度的第二文本向量的最大值进行拼接,得到语义特征向量;
拼接所述语义特征向量及所述实体特征向量得到模板特征向量;
通过全连接层计算所述模板特征向量中每个意图类别的分数;
将每个意图类别的分数经过softmax层映射为概率,并选取概率最大的意图类别作为所述目标问题的目标意图类别;
判断预设的意图类别库中是否存在所述目标意图类别;
当所述预设的意图类别库中存在所述目标意图类别时,确定所述目标问题为法律问题;或者
当所述预设的意图类别库中不存在所述目标意图类别时,确定所述目标问题不为法律问题。
本实施例中,通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量,具体地,获取多个预设的卷积核矩阵向量,针对每一个预设的卷积核矩阵向量,从所述第一文本向量中的起始位置开始逐次滑动直至滑动至所述第一文本向量中的终止位置,获取每次滑动时所述每个预设的卷积核矩阵向量对应的子矩阵向量。本实施例中,由于每个预设的卷积核矩阵向量的宽和每个词向量矩阵的宽相同,每个词向量矩阵的宽即为词向量大小,且每一个预设的卷积核矩阵向量只会在高度方向移动,故每次卷积核矩阵向量滑动过的位置都是完整的单词,不会将几个单词的一部分进行卷积,词向量矩阵的每一行表示一个单词,确保了词汇作为语言中最小粒度的合理性。
本实施例中,计算每次滑动时所述预设的卷积核矩阵向量与对应的子矩阵向量的乘积得到多个元素,并累加所述多个元素得到卷积结果;将每一个预设的卷积核矩阵向量每次滑动时得到的卷积结果作为第二文本向量。
示例性的,获取多个预设的卷积核矩阵向量,从所述第一文本向量中的起始位置开始,获取每个预设的卷积核矩阵向量在当前位置的子矩阵向量;执行卷积计算,所述卷积计算包括:计算所述每个预设的卷积核矩阵向量与对应的子矩阵向量对应位置的元素的乘积得到多个元素,并累加所述多个元素得到所述当前位置的卷积结果;及将所述每个预设的卷积核矩阵向量从所述当前位置向下移动一步至下一位置,并获取所述下一位置对应的子矩阵向量;重复执行所述卷积计算,直至完成所述第一文本向量的卷积计算,得到所述每个预设的卷积核矩阵向量对应的第二文本向量。
本实施例中,可以预先设置不同尺寸的卷积核,例如,所述预设的卷积核矩阵向量的高度可以设置为2、3和4,通过将不同尺寸的卷积核分别与所述第一文本向量进行卷积计算,得到多个粒度的第二文本向量,提高了所述目标问题的特性的多样性。
本实施例中,通过增加实体特性向量,并将所述语义特征向量与所述实体特征向量拼接起来,增加了目标问题的细粒度意图,提高了目标问题的意图识别的识别率。
本实施例中,第二类型为非常见的提问方式,当所述目标问题的提问类型为第二类型时,需要对所述目标问题进行意图识别,意图识别的结果确定了用户的目标问题所涉及的封闭领域,例如:如“信用卡被盗刷怎么办?”和“我被狗咬了怎么办?”的意图明显不同,通过对所述目标问题进行意图识别,明确了用户想问的意图类别,根据意图类别缩小了问题查询范围,提高了法律智能问答系统反馈答案的效率。
本实施例中,通过识别所述目标问题的提问类型,根据不同的提问类型采用不同的方式判断所述目标问题是否为法律问题,提高了法律智能问答系统反馈答案的效率。
S12,当所述目标问题为法律问题时,通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题。
本实施例中,检索工具可以是基于最佳匹配算法(BestMatch25,BM25)的检索工具例如弹性搜索(Elasticsearch,ES)、搜索查询服务器(Solr)等,本实施例对此不作限定。
在一个可选的实施例中,当检索工具为弹性搜索时,使用弹性搜索从预设的数据源中通过倒排索引的结构对所述目标问题进行全文搜索得到所述目标问题对应的多个第一候选问题,具体地,检索工具用于确定目标问题与多个第一候选问题之间的相关性。
在一个可选的实施例中,所述通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题包括:
将所述目标问题划分为多个第二关键词,并记录每个第二关键词的顺序标号;
通过检索工具根据每个第二关键词及所述每个第二关键词的顺序标号与预设数据源中的文本索引进行匹配,获得目标文本及每个目标文本的相关度分数;
根据所述相关度分数对所述目标文本进行正向排序,获得所述目标问题对应的多个第一候选问题。
本实施例中,对所述目标问题使用ES在预设的数据源中进行检索时,查询结果都会返回每个目标文本的相关度分数,具体地,所述相关度分数的计算基于TF/IDF算法根据每个第二关键字在目标文本中出现的频率及在预设的文本索引中出现的频率计算得到的,根据所述相关度分数对所述目标文本进行正向排序,得到多个第一候选问题,所述多个第一候选问题是基于字符层面的检索得到的。
S13,将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题。
本实施例中,可以预先训练模型BERT,具体地,所述BERT(Bidirectional EncoderRepresentations from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。本实施例将目标问题输入至预先训练好的BERT模型中,得到目标向量。
本实施例中,所述第二候选问题是通过计算所述目标向量与预设问题库中的每个问题的文本向量之间的相似度后筛选得到的。
在一个可选的实施例中,所述根据所述目标向量从预设问题库中匹配出多个第二候选问题包括:
使用预设的Skip-Thought模型对预设问题库中的候选问题进行向量化,得到候选问题的文本向量;
计算所述目标向量与每个候选问题的文本向量之间的相似度;
对计算得到的相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个的相似度对应的候选问题确定为所述目标问题的多个第二候选问题。
在一个可选的实施例中,所述余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本之间的相似度,相比距离度量,余弦相似度更加注重两个向量在方向上的差异。
进一步地,在得到两个文本向量之后,可以采用如下公式计算计算所述目标向量与每个候选问题的文本向量之间的相似度:
其中,(X1,X2,…,XN)为目标问题的目标向量,(Y1,Y2,…,YN)为候选问题的文本向量,cos(θ)为余弦相似度。
本实施例中,由于对所述目标问题中的多个目标关键字段使用ES在预设的数据源中进行检索,得到多个第一候选问题,无法解决同义不同字的问题,针对同一个问题,不同的人表述方式可能完全不同,通过将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题,从语义层面对相关问题进行匹配,解决了同义不同字的问题,提高了法律智能问答系统反馈答案的准确率。
S14,对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题。
本实施例中,所述预处理可以包括合并去重。
在其他可选的实施例中,所述预处理还可以包括去除冗余数据。
在一个可选的实施例中,所述对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题包括:
对所述多个第一候选问题和所述多个第二候选问题进行合并去重得到多个第三候选问题。
本实施例中,由于对所述目标问题中的多个目标关键字段使用ES在预设的数据源中进行检索和根据所述目标向量从预设问题库中匹配出多个第二候选问题过程中,可能会出现任意一个第一候选问题与任意一个第二候选问题相同的现象,对所述多个第一候选问题与所述多个第二候选问题进行合并去重,得到第三候选问题,所述第三候选问题是从字符和语义两个维度进行查询得到的,提高了法律智能问答系统获取的第三候选问题的完整性和准确率,进而提高了法律智能问答系统反馈答案的准确率。
S15,采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度,根据计算得到的目标相似度确定所述目标问题的目标答案。
本实施例中,每种相似度算法考虑的维度不同,通过采用多种相似度算法计算目标问题与每个第三候选问题之间的相似度,即从多个维度计算目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,提高了目标问题的目标答案的准确率,进而提高了法律智能问答系统反馈答案的准确率。
在一个可选的实施例中,所述采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度包括:
使用编辑距离算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第一相似度;
使用雅卡尔相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第二相似度;
使用预设的第一文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第三相似度;
使用预设的第二文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第四相似度;
将每个第三候选问题的第一相似度、第二相似度、第三相似度和第四相似度输入至预设的逻辑回归模型中,得到每个第三候选问题的目标相似度。
本实施例中,将编辑距离算法(Edit Distance)、雅卡尔相似度(JaccardSimilarity)算法、预设的第一文本相似度(BM25)算法及预设的第二文本相似度(ABCNN-3)算法计算出的每个第三候选问题的四个相似度作为四个特征值输入至预设的逻辑回归模型(Logistics Regression中),得到0-1之间的一个数值,将所述数值作为每个第三候选问题的目标相似度。
本实施例中,所述编辑距离算法(Edit Distance)、雅卡尔相似度(JaccardSimilarity)算法、预设的第一文本相似度(BM25)算法及预设的第二文本相似度(ABCNN-3)算法为现有技术,本实施例在此不做详述。
示例性地,在进行逻辑回归算法时,本实施例选用了Sigmoid函数,具体地,所述Sigmoid函数的表达式为:
结合Sigmoid函数和线性回归函数,把线性回归模型的输出作为Sigmoid函数的输入,得到逻辑回归模型:
其中,wT代表预设的一组权值向量,x表示[每个第三候选问题的第一相似度,每个第三候选问题的第二相似度,每个第三候选问题的第三相似度,每个第三候选问题的第四相似度],y表示每个第三候选问题的目标相似度。
本实施例中,通过采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度,从多个维度计算得到每个第三候选问题的目标相似度,提高了目标相似度的准确率,进而提高了法律智能问答系统反馈答案的准确率。
在一个可选的实施例中,所述根据计算得到的目标相似度确定所述目标问题的目标答案包括:
对计算得到的目标相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个目标相似度作为所述目标问题的多个候选相似度;
将每个所述候选相似度与预设的相似度阈值进行比对;
当每个所述候选相似度大于或者等于所述预设的相似度阈值时,获取每个所述候选相似度对应的第三候选问题的答案作为所述目标问题的目标答案。
本实施例中,可以预先设置相似度阈值,例如,所述预设的相似度阈值可以设置为0.9或者0.95,当每个候选相似度大于或者等于所述预设的相似度阈值时,确定每个候选相似度对应的第三候选问题与用户输入的目标问题的相关度较高,将第三候选问题对应的答案作为所述目标问题的目标答案反馈至所述用户。
本实施例中,通过将每个所述候选相似度与预设的相似度阈值进行比对,根据比对结果进行目标问题的目标答案的确定,避免反馈相关度较低的第三候选问题的答案至所述用户,提高了法律智能问答系统反馈答案的准确率和效率。
进一步地,所述方法还包括:
当每个所述候选相似度小于所述预设的相似度阈值时,发送每个所述候选相似度对应的第三候选问题及提问建议至所述用户。
本实施例中,当每个候选相似度小于所述预设的相似度阈值时,确定每个候选相似度对应的第三候选问题与用户输入的目标问题的相关度较低,无法反馈正确的答案至用户,发送每个候选相似度对应的第三候选问题及提问建议至用户,具体的,所述提问建议可以包括:提问模式建议、提问方向建议、提问关键子建议等。
本实施中,通过发送每个候选相似度对应的第三候选问题及提问建议至用户,辅助用户根据第三候选问题重新调整提问思路进行提问,提高了客户的体验,进而提高了法律智能问答系统反馈答案的准确率和效率。
综上所述,本实施例所述的法律智能问答方法,一方面,对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题,所述第三候选问题是从字符和语义两个维度进行查询得到的,提高了法律智能问答系统获取的第三候选问题的完整性和准确率,进而提高了法律智能问答系统反馈答案的准确率;另一方面,采用多种相似度算法计算所述目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,从多个维度计算目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,提高了目标问题的目标答案的准确率,进而提高了法律智能问答系统反馈答案的准确率;最后,接收用户输入的目标问题,判断所述目标问题是否为法律问题,通过识别所述目标问题的提问类型,根据不同的提问类型采用不同的方式判断所述目标问题是否为法律问题,提高了法律智能问答系统反馈答案的效率。
实施例二
图2是本发明实施例二提供的法律智能问答装置的结构图。
在一些实施例中,所述法律智能问答装置20可以包括多个由程序代码段所组成的功能模块。所述法律智能问答装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)法律智能问答的功能。
本实施例中,所述法律智能问答装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块201、确定模块202、输入模块203、预处理模块204、计算模块205及发送模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
接收模块201,用于接收用户输入的目标问题,判断所述目标问题是否为法律问题。
本实施例中,用户在进行法律问题咨询时,输入目标问题至服务端,具体地,所述服务端可以为法律智能问答系统,所述客户端可以是智能手机、IPAD或者其他现有咨询设备,具体地,在咨询过程中,如所述用户可以向法律智能问答系统发送目标问题,所述法律智能问答系统用于接收所述用户输入的目标问题。
本实施例中,当所述法律智能问答系统接收到用户输入的目标问题时,需要判断所述目标问题的有效性,确定所述目标问题是有效提问还是无效输入。
在一个可选的实施例中,所述接收模块201判断所述目标问题是否为法律问题包括:
识别所述目标问题的提问类型;
当所述目标问题的提问类型为第一类型时,从所述目标问题中提取出多个第一关键词;
识别预设的数据库中是否存在所述多个第一关键词;
当所述预设的数据库中存在任意一个关键字段时,确定所述目标问题为法律问题;或者
当所述预设的数据库中不存在所述多个第一关键词时,确定所述目标问题不为法律问题。
本实施例中,第一类型为常见的提问方式,当所述目标问题的提问类型为第一类型时,可以从所述目标问题中提取出多个第一关键词进行匹配,快速确定目标问题是否为法律问题,当目标问题为法律问题时,对所述目标问题进行答案反馈;当目标问题不为法律问题时,不对所述目标问题进行答案反馈,提高了法律智能问答系统反馈答案的效率。
进一步地,当所述目标问题的提问类型为第二类型时,对所述目标问题进行实体识别,得到多个实体;根据所述目标问题生成包含上下文特征的第一文本向量,及根据所述多个实体生成实体特征向量;通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量;对所述多个粒度的第二文本向量进行最大池化后提取每个粒度的第二文本向量的最大值进行拼接,得到语义特征向量;拼接所述语义特征向量及所述实体特征向量得到模板特征向量;通过全连接层计算所述模板特征向量中每个意图类别的分数;将每个意图类别的分数经过softmax层映射为概率,并选取概率最大的意图类别作为所述目标问题的目标意图类别;判断预设的意图类别库中是否存在所述目标意图类别;当所述预设的意图类别库中存在所述目标意图类别时,确定所述目标问题为法律问题;当所述预设的意图类别库中不存在所述目标意图类别时,确定所述目标问题不为法律问题。
本实施例中,通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量,具体地,获取多个预设的卷积核矩阵向量,针对每一个预设的卷积核矩阵向量,从所述第一文本向量中的起始位置开始逐次滑动直至滑动至所述第一文本向量中的终止位置,获取每次滑动时所述每个预设的卷积核矩阵向量对应的子矩阵向量。本实施例中,由于每个预设的卷积核矩阵向量的宽和每个词向量矩阵的宽相同,每个词向量矩阵的宽即为词向量大小,且每一个预设的卷积核矩阵向量只会在高度方向移动,故每次卷积核矩阵向量滑动过的位置都是完整的单词,不会将几个单词的一部分进行卷积,词向量矩阵的每一行表示一个单词,确保了词汇作为语言中最小粒度的合理性。
本实施例中,计算每次滑动时所述预设的卷积核矩阵向量与对应的子矩阵向量的乘积得到多个元素,并累加所述多个元素得到卷积结果;将每一个预设的卷积核矩阵向量每次滑动时得到的卷积结果作为第二文本向量。
示例性的,获取多个预设的卷积核矩阵向量,从所述第一文本向量中的起始位置开始,获取每个预设的卷积核矩阵向量在当前位置的子矩阵向量;执行卷积计算,所述卷积计算包括:计算所述每个预设的卷积核矩阵向量与对应的子矩阵向量对应位置的元素的乘积得到多个元素,并累加所述多个元素得到所述当前位置的卷积结果;及将所述每个预设的卷积核矩阵向量从所述当前位置向下移动一步至下一位置,并获取所述下一位置对应的子矩阵向量;重复执行所述卷积计算,直至完成所述第一文本向量的卷积计算,得到所述每个预设的卷积核矩阵向量对应的第二文本向量。
本实施例中,可以预先设置不同尺寸的卷积核,例如,所述预设的卷积核矩阵向量的高度可以设置为2、3和4,通过将不同尺寸的卷积核分别与所述第一文本向量进行卷积计算,得到多个粒度的第二文本向量,提高了所述目标问题的特性的多样性。
本实施例中,通过增加实体特性向量,并将所述语义特征向量与所述实体特征向量拼接起来,增加了目标问题的细粒度意图,提高了目标问题的意图识别的识别率。
本实施例中,第二类型为非常见的提问方式,当所述目标问题的提问类型为第二类型时,需要对所述目标问题进行意图识别,意图识别的结果确定了用户的目标问题所涉及的封闭领域,例如:如“信用卡被盗刷怎么办?”和“我被狗咬了怎么办?”的意图明显不同,通过对所述目标问题进行意图识别,明确了用户想问的意图类别,根据意图类别缩小了问题查询范围,提高了法律智能问答系统反馈答案的效率。
本实施例中,通过识别所述目标问题的提问类型,根据不同的提问类型采用不同的方式判断所述目标问题是否为法律问题,提高了法律智能问答系统反馈答案的效率。
确定模块202,用于当所述目标问题为法律问题时,通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题。
本实施例中,检索工具可以是基于最佳匹配算法(BestMatch25,BM25)的检索工具例如弹性搜索(Elasticsearch,ES)、搜索查询服务器(Solr)等,本实施例对此不作限定。
在一个可选的实施例中,当检索工具为弹性搜索时,使用弹性搜索从预设的数据源中通过倒排索引的结构对所述目标问题进行全文搜索得到所述目标问题对应的多个第一候选问题,具体地,检索工具用于确定目标问题与多个第一候选问题之间的相关性。
在一个可选的实施例中,所述确定模块202通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题包括:
将所述目标问题划分为多个第二关键词,并记录每个第二关键词的顺序标号;
通过检索工具根据每个第二关键词及所述每个第二关键词的顺序标号与预设数据源中的文本索引进行匹配,获得目标文本及每个目标文本的相关度分数;
根据所述相关度分数对所述目标文本进行正向排序,获得所述目标问题对应的多个第一候选问题。
本实施例中,对所述目标问题使用ES在预设的数据源中进行检索时,查询结果都会返回每个目标文本的相关度分数,具体地,所述相关度分数的计算基于TF/IDF算法根据每个第二关键字在目标文本中出现的频率及在预设的文本索引中出现的频率计算得到的,根据所述相关度分数对所述目标文本进行正向排序,得到多个第一候选问题,所述多个第一候选问题是基于字符层面的检索得到的。
输入模块203,用于将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题。
本实施例中,可以预先训练模型BERT,具体地,所述BERT(Bidirectional EncoderRepresentations from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。本实施例将目标问题输入至预先训练好的BERT模型中,得到目标向量。
本实施例中,所述第二候选问题是通过计算所述目标向量与预设问题库中的每个问题的文本向量之间的相似度后筛选得到的。
在一个可选的实施例中,所述输入模块203根据所述目标向量从预设问题库中匹配出多个第二候选问题包括:
使用预设的Skip-Thought模型对预设问题库中的候选问题进行向量化,得到候选问题的文本向量;
计算所述目标向量与每个候选问题的文本向量之间的相似度;
对计算得到的相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个的相似度对应的候选问题确定为所述目标问题的多个第二候选问题。
在一个可选的实施例中,所述余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本之间的相似度,相比距离度量,余弦相似度更加注重两个向量在方向上的差异。
进一步地,在得到两个文本向量之后,可以采用如下公式计算计算所述目标向量与每个候选问题的文本向量之间的相似度:
其中,(X1,X2,…,XN)为目标问题的目标向量,(Y1,Y2,…,YN)为候选问题的文本向量,cos(θ)为余弦相似度。
本实施例中,由于对所述目标问题中的多个目标关键字段使用ES在预设的数据源中进行检索,得到多个第一候选问题,无法解决同义不同字的问题,针对同一个问题,不同的人表述方式可能完全不同,通过将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题,从语义层面对相关问题进行匹配,解决了同义不同字的问题,提高了法律智能问答系统反馈答案的准确率。
预处理模块204,用于对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题。
本实施例中,所述预处理可以包括合并去重。
在其他可选的实施例中,所述预处理还可以包括去除冗余数据。
在一个可选的实施例中,所述预处理模块204对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题包括:
对所述多个第一候选问题和所述多个第二候选问题进行合并去重得到多个第三候选问题。
本实施例中,由于对所述目标问题中的多个目标关键字段使用ES在预设的数据源中进行检索和根据所述目标向量从预设问题库中匹配出多个第二候选问题过程中,可能会出现任意一个第一候选问题与任意一个第二候选问题相同的现象,对所述多个第一候选问题与所述多个第二候选问题进行合并去重,得到第三候选问题,所述第三候选问题是从字符和语义两个维度进行查询得到的,提高了法律智能问答系统获取的第三候选问题的完整性和准确率,进而提高了法律智能问答系统反馈答案的准确率。
计算模块205,用于采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度,根据计算得到的目标相似度确定所述目标问题的目标答案。
本实施例中,每种相似度算法考虑的维度不同,通过采用多种相似度算法计算目标问题与每个第三候选问题之间的相似度,即从多个维度计算目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,提高了目标问题的目标答案的准确率,进而提高了法律智能问答系统反馈答案的准确率。
在一个可选的实施例中,所述计算模块205采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度包括:
使用编辑距离算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第一相似度;
使用雅卡尔相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第二相似度;
使用预设的第一文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第三相似度;
使用预设的第二文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第四相似度;
将每个第三候选问题的第一相似度、第二相似度、第三相似度和第四相似度输入至预设的逻辑回归模型中,得到每个第三候选问题的目标相似度。
本实施例中,将编辑距离算法(Edit Distance)、雅卡尔相似度(JaccardSimilarity)算法、预设的第一文本相似度(BM25)算法及预设的第二文本相似度(ABCNN-3)算法计算出的每个第三候选问题的四个相似度作为四个特征值输入至预设的逻辑回归模型(Logistics Regression中),得到0-1之间的一个数值,将所述数值作为每个第三候选问题的目标相似度。
本实施例中,所述编辑距离算法(Edit Distance)、雅卡尔相似度(JaccardSimilarity)算法、预设的第一文本相似度(BM25)算法及预设的第二文本相似度(ABCNN-3)算法为现有技术,本实施例在此不做详述。
示例性地,在进行逻辑回归算法时,本实施例选用了Sigmoid函数,具体地,所述Sigmoid函数的表达式为:
结合Sigmoid函数和线性回归函数,把线性回归模型的输出作为Sigmoid函数的输入,得到逻辑回归模型:
其中,wT代表预设的一组权值向量,x表示[每个第三候选问题的第一相似度,每个第三候选问题的第二相似度,每个第三候选问题的第三相似度,每个第三候选问题的第四相似度],y表示每个第三候选问题的目标相似度。
本实施例中,通过采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度,从多个维度计算得到每个第三候选问题的目标相似度,提高了目标相似度的准确率,进而提高了法律智能问答系统反馈答案的准确率。
在一个可选的实施例中,所述计算模块205根据计算得到的目标相似度确定所述目标问题的目标答案包括:
对计算得到的目标相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个目标相似度作为所述目标问题的多个候选相似度;
将每个所述候选相似度与预设的相似度阈值进行比对;
当每个所述候选相似度大于或者等于所述预设的相似度阈值时,获取每个所述候选相似度对应的第三候选问题的答案作为所述目标问题的目标答案。
本实施例中,可以预先设置相似度阈值,例如,所述预设的相似度阈值可以设置为0.9或者0.95,当每个候选相似度大于或者等于所述预设的相似度阈值时,确定每个候选相似度对应的第三候选问题与用户输入的目标问题的相关度较高,将第三候选问题对应的答案作为所述目标问题的目标答案反馈至所述用户。
本实施例中,通过将每个所述候选相似度与预设的相似度阈值进行比对,根据比对结果进行目标问题的目标答案的确定,避免反馈相关度较低的第三候选问题的答案至所述用户,提高了法律智能问答系统反馈答案的准确率和效率。
进一步地,发送模块206,用于当每个所述候选相似度小于所述预设的相似度阈值时,发送每个所述候选相似度对应的第三候选问题及提问建议至所述用户。
本实施例中,当每个候选相似度小于所述预设的相似度阈值时,确定每个候选相似度对应的第三候选问题与用户输入的目标问题的相关度较低,无法反馈正确的答案至用户,发送每个候选相似度对应的第三候选问题及提问建议至用户,具体的,所述提问建议可以包括:提问模式建议、提问方向建议、提问关键子建议等。
本实施中,通过发送每个候选相似度对应的第三候选问题及提问建议至用户,辅助用户根据第三候选问题重新调整提问思路进行提问,提高了客户的体验,进而提高了法律智能问答系统反馈答案的准确率和效率。
综上所述,本实施例所述的法律智能问答装置,一方面,对所述多个第一候选问题和所述多个第二候选问题进行预处理得到多个第三候选问题,所述第三候选问题是从字符和语义两个维度进行查询得到的,提高了法律智能问答系统获取的第三候选问题的完整性和准确率,进而提高了法律智能问答系统反馈答案的准确率;另一方面,采用多种相似度算法计算所述目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,从多个维度计算目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案,提高了目标问题的目标答案的准确率,进而提高了法律智能问答系统反馈答案的准确率;最后,接收用户输入的目标问题,判断所述目标问题是否为法律问题,通过识别所述目标问题的提问类型,根据不同的提问类型采用不同的方式判断所述目标问题是否为法律问题,提高了法律智能问答系统反馈答案的效率。
实施例三
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的法律智能问答装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的法律智能问答装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到法律智能问答的目的。
在本发明的一个实施例中,所述存储器31存储多个指令,所述多个指令被所述至少一个处理器32所执行以实现法律智能问答的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种法律智能问答方法,其特征在于,所述方法包括:
接收用户输入的目标问题,判断所述目标问题是否为法律问题,包括:当所述目标问题的提问类型为第二类型时,对所述目标问题进行实体识别,得到多个实体;根据所述目标问题生成包含上下文特征的第一文本向量,及根据所述多个实体生成实体特征向量;通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量;对所述多个粒度的第二文本向量进行最大池化后提取每个粒度的第二文本向量的最大值进行拼接,得到语义特征向量;拼接所述语义特征向量及所述实体特征向量得到模板特征向量;通过全连接层计算所述模板特征向量中每个意图类别的分数;将每个意图类别的分数经过softmax层映射为概率,并选取概率最大的意图类别作为所述目标问题的目标意图类别;判断预设的意图类别库中是否存在所述目标意图类别;当所述预设的意图类别库中存在所述目标意图类别时,确定所述目标问题为法律问题,其中,所述第二类型为非常见提问方式;
当所述目标问题为法律问题时,通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题,其中,所述检索工具为弹性搜索;
将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题;
对所述多个第一候选问题和所述多个第二候选问题进行合并去重处理,得到多个第三候选问题;
采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度,根据计算得到的目标相似度确定所述目标问题的目标答案。
2.如权利要求1所述的法律智能问答方法,其特征在于,所述采用多种相似度算法计算所述目标问题与每个第三候选问题之间的目标相似度包括:
使用编辑距离算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第一相似度;
使用雅卡尔相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第二相似度;
使用预设的第一文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第三相似度;
使用预设的第二文本相似度算法计算所述目标问题与每个第三候选问题之间的相似度,得到每个第三候选问题的第四相似度;
将每个第三候选问题的第一相似度、第二相似度、第三相似度和第四相似度输入至预设的逻辑回归模型中,得到每个第三候选问题的目标相似度。
3.如权利要求1所述的法律智能问答方法,其特征在于,所述根据计算得到的目标相似度确定所述目标问题的目标答案包括:
对计算得到的目标相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个目标相似度作为所述目标问题的多个候选相似度;
将每个所述候选相似度与预设的相似度阈值进行比对;
当每个所述候选相似度大于或者等于所述预设的相似度阈值时,获取每个所述候选相似度对应的第三候选问题的答案作为所述目标问题的目标答案。
4.如权利要求1所述的法律智能问答方法,其特征在于,所述判断所述目标问题是否为法律问题包括:
识别所述目标问题的提问类型,
当所述目标问题的提问类型为第一类型时,从所述目标问题中提取出多个第一关键词;
识别预设的数据库中是否存在所述多个第一关键词;
当所述预设的数据库中存在任意一个关键字段时,确定所述目标问题为法律问题;或者
当所述预设的数据库中不存在所述多个第一关键词时,确定所述目标问题不为法律问题。
5.如权利要求1所述的法律智能问答方法,其特征在于,所述方法还包括:
当所述预设的意图类别库中不存在所述目标意图类别时,确定所述目标问题不为法律问题。
6.如权利要求1所述的法律智能问答方法,其特征在于,所述通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题包括:
将所述目标问题划分为多个第二关键词,并记录每个第二关键词的顺序标号;
通过检索工具根据每个第二关键词及所述每个第二关键词的顺序标号与预设数据源中的文本索引进行匹配,获得目标文本及每个目标文本的相关度分数;
根据所述相关度分数对所述目标文本进行正向排序,获得所述目标问题对应的多个第一候选问题。
7.如权利要求1所述的法律智能问答方法,其特征在于,所述根据所述目标向量从预设问题库中匹配出多个第二候选问题包括:
使用预设的Skip-Thought模型对预设问题库中的候选问题进行向量化,得到候选问题的文本向量;
计算所述目标向量与每个候选问题的文本向量之间的相似度;
对计算得到的相似度进行降序排序;
从所述降序排序结果中选取排序在前的多个的相似度对应的候选问题确定为所述目标问题的多个第二候选问题。
8.一种法律智能问答装置,其特征在于,所述装置包括:
接收模块,用于接收用户输入的目标问题,判断所述目标问题是否为法律问题,包括:当所述目标问题的提问类型为第二类型时,对所述目标问题进行实体识别,得到多个实体;根据所述目标问题生成包含上下文特征的第一文本向量,及根据所述多个实体生成实体特征向量;通过卷积运算将所述第一文本向量转换为多个粒度的第二文本向量;对所述多个粒度的第二文本向量进行最大池化后提取每个粒度的第二文本向量的最大值进行拼接,得到语义特征向量;拼接所述语义特征向量及所述实体特征向量得到模板特征向量;通过全连接层计算所述模板特征向量中每个意图类别的分数;将每个意图类别的分数经过softmax层映射为概率,并选取概率最大的意图类别作为所述目标问题的目标意图类别;判断预设的意图类别库中是否存在所述目标意图类别;当所述预设的意图类别库中存在所述目标意图类别时,确定所述目标问题为法律问题,其中,所述第二类型为非常见提问方式;
确定模块,用于当所述目标问题为法律问题时,通过检索工具从预设的数据源中确定所述目标问题对应的多个第一候选问题,其中,所述检索工具为弹性搜索;
输入模块,用于将所述目标问题输入至预先训练好的BERT模型中,得到目标向量,并根据所述目标向量从预设问题库中匹配出多个第二候选问题;
预处理模块,用于对所述多个第一候选问题和所述多个第二候选问题进行合并去重处理,得到多个第三候选问题;
计算模块,用于采用多种相似度算法计算所述目标问题与每个第三候选问题之间的相似度,根据计算得到的相似度确定所述目标问题的目标答案。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的法律智能问答方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的法律智能问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110220881.8A CN112948553B (zh) | 2021-02-26 | 2021-02-26 | 法律智能问答方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110220881.8A CN112948553B (zh) | 2021-02-26 | 2021-02-26 | 法律智能问答方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948553A CN112948553A (zh) | 2021-06-11 |
CN112948553B true CN112948553B (zh) | 2023-06-20 |
Family
ID=76246673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110220881.8A Active CN112948553B (zh) | 2021-02-26 | 2021-02-26 | 法律智能问答方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948553B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326420B (zh) | 2021-06-15 | 2023-10-27 | 北京百度网讯科技有限公司 | 问题检索方法、装置、电子设备和介质 |
CN113762451B (zh) * | 2021-08-27 | 2024-02-27 | 康旭科技有限公司 | 基于场景和关键词规则的任务型问答机器人 |
CN116681434B (zh) * | 2023-06-07 | 2024-08-16 | 科睿特软件集团股份有限公司 | 基于年卡防盗刷算法的行为管理系统及其方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889786A (zh) * | 2019-12-02 | 2020-03-17 | 北明软件有限公司 | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其系统 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
CN112395501A (zh) * | 2020-11-17 | 2021-02-23 | 航天信息股份有限公司 | 企业推荐方法、装置、存储介质及电子设备 |
-
2021
- 2021-02-26 CN CN202110220881.8A patent/CN112948553B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112948553A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112948553B (zh) | 法律智能问答方法、装置、电子设备及存储介质 | |
Alami Merrouni et al. | Automatic keyphrase extraction: a survey and trends | |
CN111353310B (zh) | 基于人工智能的命名实体识别方法、装置及电子设备 | |
US20210104234A1 (en) | Intent-based conversational knowledge graph for spoken language understanding system | |
Wang et al. | Content-based image annotation refinement | |
CN109902156B (zh) | 实体检索方法、存储介质和电子设备 | |
WO2021146388A1 (en) | Systems and methods for providing answers to a query | |
US20190340503A1 (en) | Search system for providing free-text problem-solution searching | |
US10366108B2 (en) | Distributional alignment of sets | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114330335B (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Ochieng et al. | A statistically-based ontology matching tool | |
WO2011022867A1 (en) | Method and apparatus for searching electronic documents | |
CN111259126A (zh) | 基于词语特征的相似度计算方法、装置、设备及存储介质 | |
CN114020892A (zh) | 基于人工智能的答案选取方法、装置、电子设备及介质 | |
CN111859066B (zh) | 一种运维工单的查询推荐方法及装置 | |
Al-Taani et al. | Extractive text summarization of arabic multi-document using fuzzy C-means and Latent Dirichlet Allocation | |
Viji et al. | A hybrid approach of Poisson distribution LDA with deep Siamese Bi-LSTM and GRU model for semantic similarity prediction for text data | |
Nguyen et al. | A model of convolutional neural network combined with external knowledge to measure the question similarity for community question answering systems | |
CN115239214A (zh) | 企业的评估处理方法、装置及电子设备 | |
Meng et al. | A personalized and approximated spatial keyword query approach | |
CN113656429A (zh) | 一种关键词提取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |