CN111581348A - 一种基于知识图谱的查询分析系统 - Google Patents

一种基于知识图谱的查询分析系统 Download PDF

Info

Publication number
CN111581348A
CN111581348A CN202010351766.XA CN202010351766A CN111581348A CN 111581348 A CN111581348 A CN 111581348A CN 202010351766 A CN202010351766 A CN 202010351766A CN 111581348 A CN111581348 A CN 111581348A
Authority
CN
China
Prior art keywords
user
knowledge
query analysis
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010351766.XA
Other languages
English (en)
Inventor
王星
孙一鑫
陈吉
唐楠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202010351766.XA priority Critical patent/CN111581348A/zh
Publication of CN111581348A publication Critical patent/CN111581348A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的查询分析系统,包括:语音识别模块,用于将用户所说的语音转化为文字;查询分析模块,与所述语音识别模块连接,基于知识图谱和法律领域本体模型的查询分析来理解用户所描述的问题并得出结果;结果输出模块,与所述查询分析模块连接,将结果经过语音合成将文字转换成自然流畅的语言返回给用户。本发明采取软硬件结合的方式,前台向用户展示后台分析处理的数据,利用知识图谱、法律领域本体模型,能够根据用户提供的信息精确地分析,为用户提供对应的法律法规,同时因为带有智能分析功能,可以通过用户输入的信息进行判断分析,将相关的法律法规以及涉及的相关刑罚信息展示出来。

Description

一种基于知识图谱的查询分析系统
技术领域
本发明属于基于知识图谱的查询分析的技术领域,尤其涉及一种基于知识图谱的查询分析系统。
背景技术
随着人们法律意识的提高,人们对法律的关注度越来越高,使得法律法规、法律案件分析变成了当代社会的主流问题。如何快速分析出案件涉及到的法律法规,是一种迫切需要解决的需求。
传统的法律查询系统只能做到单纯的文字输入,并不能进行语音输入和智能分析。并且只能单一的法律法规查询,并不能做到案件的分析。
发明内容
基于以上现有技术的不足,本发明所解决的技术问题在于提供一种基于知识图谱的查询分析系统,采取软硬件结合的方式,前台向用户展示后台分析处理的数据,利用知识图谱、法律领域本体模型,能够根据用户提供的信息精确地分析,为用户提供对应的法律法规,同时因为带有智能分析功能,可以通过用户输入的信息进行判断分析,将相关的法律法规以及涉及的相关刑罚信息展示出来。
为了解决上述技术问题,本发明通过以下技术方案来实现:本发明提供一种基于知识图谱的查询分析系统,包括:
语音识别模块,用于将用户所说的语音转化为文字;
查询分析模块,与所述语音识别模块连接,基于知识图谱和法律领域本体模型的查询分析来理解用户所描述的问题并得出结果;
结果输出模块,与所述查询分析模块连接,将结果经过语音合成将文字转换成自然流畅的语言返回给用户。
可选的,所述语音识别模块包括预处理单元、特征提取单元以及模式匹配单元。
进一步的,所述预处理单元对输入的原始语音信号进行端点检测,包括预滤波、采样与量化、加窗、分帧、端点检测和预加重,滤除其中不必要的信息及噪声。
进一步的,所述特征提取单元采用的语音特征参数为线性预测倒谱系数和Mel频率倒谱参数。
进一步的,所述模式匹配单元采用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。
可选的,所述查询分析模块选用BiLSTM算法模型,通过SPARQL语言查询知识库,得到分析结果。
可选的,所述结果输出模块为服务器端,服务器接收语音后通过语音识别技术将语音转换,通过知识图谱语义搜索和法律领域本体模型对和案件进行查询知识库并分析,整合符合条件的信息,并将结果经过语音合成将文字转换成自然流畅的语言返回给用户。
由上,本发明提供的一种基于知识图谱的查询分析系统,具有方便、精准的优点,并且能够根据用户的需求进行系统全面的查询分析推理,至少具有如下有益效果:
(1)、将法律法规查询将与用户查询内容相关的所有法律法规进行展示。
(2)、快速根据案件进行相关法律法规查询,通过对法律案件的关键点进行案件分析,给用户提供案件关键点涉及到的法律法规,以便用户进行整理分析。根据案件所呈现出关键点给出案件可能类型,借此可以快速帮助用户进行案情梳理。
(3)、根据输入的案件类型分析出对应的刑罚、处罚,以及一般性的证据条件:解决用户在既定案件下的证据梳理问题以及案件刑罚问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的基于知识图谱的查询分析系统的流程图;
图2为本发明的语音识别模块的识别框图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
本发明主要是利用知识图谱技术、法律领域本体模型、隐马尔科夫模型结合语音识别技术,能够帮助用户快速查询法律法条,有效分析法律案件涉及到的法律法规,以及对案情的梳理和证据分析。
本发明包括了两部分:前端部分和后端部分。前端部分主要用作于获取用户的查询信息和用户选择的操作类别,并接受后端服务器的响应的数据,并进行数据的展示。具体包括语音识别模块,用于将用户所说的语音转化为文字;查询分析模块,与所述语音识别模块连接,基于知识图谱和法律领域本体模型的查询分析来理解用户所描述的问题并得出结果;结果输出模块,与所述查询分析模块连接,将结果经过语音合成将文字转换成自然流畅的语言返回给用户。
前端将通过网页版、app版对不同应用用户提供相应服务。通过Ajax来获取后端返回的两种数据,一种是图谱数据,一种是文本和图片数据。前端硬件需要对相应的数据进行可视化展示。
后端部分是在服务器中运行如下描述的语音识别功能模块、基于知识图谱的查询分析功能模块、智能算法推荐模块。在后端服务器中优选地采用阿里云nginx服务器作为后端服务器,采用Vue为web服务框架。其功能模块描述如下:
在前端硬件端可以实时的监测用户的语音输入,通过系统监测预设的语言内容可以触发系统记录用户的语音输入,待检测到用户输入完成后,即将此次的语音内容发送至后端服务器中。本发明使用的语音识别技术主要方法是隐马尔科夫模型(HMM)。HMM拥有较高的识别率,语音识别模块包括预处理单元、特征提取单元以及模式匹配单元3个部分,其描述如下:
(1)预处理单元:对输入的原始语音信号进行端点检测,包括预滤波、采样与量化、加窗、分帧、端点检测和预加重等,滤除其中不必要的信息及噪声。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。预加重的目的是平滑信号以消除声道模型中的极点带来的影响,便于进行频谱分析或声道采样参数分析。一般通过传递函数为Hz=1-az-1的滤波器对其滤波。设n时刻的语音采样值为x(n),经过预加重处理后为
Figure BDA0002472055530000051
其中,
Figure BDA0002472055530000052
为预加重系数。加窗分帧是为提取特征参数做准备。
(2)特征提取单元:为了去除语音识别中的冗余信息,获得说话人的基本特征的有用信息,需要对语音信号进行分析处理,这一过程就是特征提取。因此,要求特征提取后的信息必须能够有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。目前主要采用的语音特征参数为线性预测倒谱系数(LPCC)和Mel频率倒谱参数(MFCC)。由于MFCC能够比较充分利用人耳的听觉特性,同时研究表明MFCC参数能够比LPCC参数更好地提高系统的识别性能,因此选用MFCC参数作为语音特征。
(3)模式匹配单元:隐式马尔可夫模型(HMM)是马尔科夫链的一种。声学中各个相对稳定的发音单位(可以是一个完整的音节、声母、韵母或更精细的音素)对应于HMM中的隐含状态。状态是未知的,但是可以通过观察序列(一帧帧的MFCC参数)得到。匹配方法上采用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。
语音识别中,一个HMM模型应包含4个状态,每个状态包含3个正态高斯概率密度函数(PDF),每个PDF都有各自的均值矢量和协方差矩阵。这些均由MFCC参数计算得到。
HMM模型在匹配时,需要对每个语音模板进行逐一比对,计算与每一个模板的输出概率,以输出概率最高者为最终识别结果。但是,当模板较多时,对模板一一匹配所用时间较长,对内存占用较大,需要的处理器性能也较高,不满足用户及时性和低消耗的实际需要.为了克服以上困难,需要对语音模板进行分组。识别时,首先判断语音在哪一个组,然后对所在组的语音模板进行逐一匹配,以输出概率最高的模板为识别结果。语音分组算法具体如下:
(a)将语音特征参数MFCC先按状态数分段,再按每个状态的高斯概率密度函数的个数分段,每一段作为最小的处理单元.
(b)将每一段K均值聚类且聚为1类。
(c)把每个状态的聚类结果合并。
(d)把同一语音的所有模板的合并结果再合并,继续K均值聚类且聚为1类。
(e)将不同语音的聚类结果合并,最后K均值聚类,根据实际需要,分成多少组就聚成多少类。聚类的结果将成为最后的组特征。
(f)将每一组进行置信度检验,设定置信度达到90%视为分组稳定,如果达不到要求将重新分组,直到分组稳定。
由图2可知,先要对语音分组进行判断,确定要识别的语音在哪一个组,采用动态时间弯折算法(DTW)。其核心是通过欧氏距离公式计算与每个组的距离,距离最近的组表明是识别语音所在的组。欧氏距离公式为
Figure BDA0002472055530000061
其中,xi1表示第1个点的第i维坐标,xi2表示第2个点的第i维坐标。
确定语音所在的组后,需要采用HMM算法对组内的模板进行逐一匹配,其核心是通过计算输出概率确定识别结果,以输出概率最高的模板为语音识别结果。概率输出公式为P=(2π∏(v))-0.5·e(-0.5*(x-m)/v*(x-m)')
其中,v是方差向量,∏(v)表示v内所有元素相乘,x是输入向量,m是均值向量。
基于知识图谱、法律领域本体模型的案件查询分析后,可以得到用户所需的答案,进而通过语音的方式响应用户。整体流程为:通过智能语音识别技术和基于知识图谱、法律领域本体模型的查询分析系统的处理后,可以给用户提供最合适的答案,之后将提供文字图谱和语音配合图谱这两种回复方式,可由用户自行选择。在流程中主要运用了语音识别技术,自然语言处理中的语义分析提取转换技术,结合知识图谱和法律领域本体模型搭建出了一个可以同时处理文字信息和语音信息的案件查询分析系统,该模型不仅可以直接对用户提供的文字信息进行识别处理还可以对用户发出的语音信息进行数据获取及语音识别解析,然后经过机器翻译(MT)得到文字信息。之后经过知识图谱智能推理分析、推荐、得到的结果经过语音合成(TTS)将文字转换成自然流畅的语言输出,从而使计算机具备能听会说、能理解会分析的能力,也使人机交互过程变得更精准更快捷。
通过语音识别将用户所说的语音转化为文本数据,之后通过基于知识图谱的查询分析来理解用户所描述的问题。如技术背景中描述对于一个简单查询法律问题或者法律案件,分析其中的实体和关系。例如对于“抢劫案件属于什么法律案件类型?”通过查询分析,提取句中实体为“抢劫案件”,提取关系为“案件类型”,对此查询知识库,找到包含“抢劫案件”的实体,找到“案件类型”的关系的三元组,即为(抢劫案件,案件类型,刑事案件),由此三元组可以得知:抢劫案件的案件类型为刑事案件。通过利用法律领域本体模型OWLegal对法律案件查询分析,得到法律案件中涉及到的实体以及实体对应的关系,通过知识图谱技术查询知识库,通过知识图谱语义搜索的推理机制,结合法律领域本体,研究语义搜索中基于描述逻辑及模糊逻辑的推理问题,提高基于描述逻辑的本体推理技术的推理效率,扩大其推理算法的适用范围,结合文本信息获取用户的查询语义,提高处理用户查询需求的准确度。
通过对法律案件进行语义理解和解析,利用法律领域本体模型OWLegal对法律案件内容进行细化提取,结合知识图谱构建其实体以及实体对应关系,进而利用知识库进行查询、分析、推理,整合并得出答案。
在本发明中对于实体的分析,用基于深度学习的AR-SMCNN(attentive recurrentneural network with similarity matrix based convolutional neural network)算法中的启发式方法来找到问题中的实体。对于句中的关系的检测在本发明中选用BiLSTM算法模型。有了实体和关系后通过SPARQL语言查询知识库,得到分析结果。得到结果后将文本转为语音,服务器端将语音数据响应到前端硬件进行播放。
对基于知识图谱和法律领域本体模型的查询分析系统所涉及到的步骤,实体链接和关系抽取均需通过使用梯度下降方式训练至损失不再变化。训练完成后将得到的权重文件部署至服务器上对语音转化后的文本进行分析识别。
本发明的整体流程如图1所示,前端发送语音到服务器端,服务器接收语音后通过上述语音识别技术将语音转换,通过知识图谱语义搜索和法律领域本体模型对和案件进行查询知识库并分析,整合符合条件的信息,并将结果经过语音合成(TTS)将文字转换成自然流畅的语言返回给用户。基于此过程可以实现以下功能:
(一)根据用户查询条件显示符合的法律法规:
此功能解决在用户想要搜索某一关键字符合的相关法律法规的情况,例如用户输入“抢劫罪”,则会将抢劫罪这一关键词通过前端部分发送给后端部分。后端将这关键词提交给知识图谱模块,进行智能分析检索然后将搜索到的现有法典中所有含有抢劫罪的法律法规返回给前端进行相应展示。
具体实现方式为:在知识库构建存储时,基于法律领域本体模型,对应的三元组,例如:(抢劫罪,法律内容,以暴力、胁迫或者其他方法抢劫公私财物的,处三年以上十年以下有期徒刑,并处罚金;有下列情形之一的,处十年以上有期徒刑、无期徒刑或者死刑,并处罚金或者没收财产:入户抢劫的;在公共交通工具上抢劫的;抢劫银行或者其他金融机构的;多次抢劫或者抢劫数额巨大的;抢劫致人重伤、死亡的;冒充军警人员抢劫的;持枪抢劫的…)如需获取具体的内容,只需通过查询知识库中对应的关系,对应的尾实体即可得到。通过解析时间数据,根据相应时间生成相应的语音,响应到前端播放。
(二)根据用户查询案件内容进行查询分析:
此功能解决用户在对某一既定案件所涉及到的相关法律法规想做一定了解的情况。在这里会将用户输入的内容利用语音识别技术对法律案件进行语义理解和解析,接着利用法律领域本体模型OWLegal对法律案件内容进行细化提取,提取案件中实体节点和关系,结合知识图谱构建实体以及实体间的对应关系,通过查询知识库找到多个三元组,进行分析推理整合得到答案。例如:“张某抢劫了李某xxx元”,将会从中提取出“抢劫”这一关键字,然后根据抢劫这一关键字对应的属性可判断这一案件属于刑法案件中的抢劫案件相关的罪名就是“抢劫罪”。然后根据构建的知识图谱知识库将这个“抢劫罪”对应的相关的法律法规返回给前端,前端形成对应的数据显示页面展示给用户。
(三)给用户提供案件分析功能:
此功能解决用户在一个既定案件中想知道当事人需要承担的责任,以及可能受到的刑罚等问题的基本判断。在此功能中,当用户需要分析查询内容这项服务时,将用户输入的内容进行语音识别技术,基于知识图谱语义搜索、法律领域本体模型,细化、提取并构建其实体以及实体对应关系,进行查询、分析、推理、整合并得出答案。例如:“张某抢劫了李某xxx元”,将会从中提取出“抢劫”这一关键字,根据这一关键字根据关键字的所属案件属性,将这个案件归于“刑法案件”。在用户没有给出明确的信息的时候将会弹出弹窗,对用户进行进一步询问,提供案件一般需要查询分析的情况。例如:当事人的年龄,抢劫地点,抢劫的金额,被害人是否受伤等。之后根据用户提供的进一步信息,通过构建的知识图谱法律模型进行处理。之后将根据知识图谱语义搜索到的法律法规进行信息整合,以及根据构建的知识图谱法律本体模型进行整合分析,得到的当事人可能受到的处罚,响应到前端播放。
本发明主要利用了隐马尔科夫语音识别技术,基于知识图谱、法律领域本体模型的查询、法律案件分析、推理、语音合成技术。
(1)本发明的实现,首先需要将用户所说的语音转化为文字,所用到的技术为语音识别技术。以下为语音识别技术的概述:
语音识别技术(Automatic Speech Recognition,ASR):语音识别所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是实现机器翻译,自然语言理解等的前提条件。
(2)通过语音识别技术,可以得到用户说的语音转化后的文本内容,利用此文本内容,通过基于知识图谱、法律领域本体模型的系统,理解用户讲的语音的语义。以下为知识图谱和基于知识图谱的查询分析技术的概述:
知识图谱:是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,将其转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
知识图谱是对客观世界认识的形式化表示,将字符串映射为客观事件的事务(实体、事件以及之间的关系)。当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。语义搜索利用知识图谱可以准确地捕捉用户搜索意图,借助于知识图谱,直接给出满足用户搜索意图的答案。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

Claims (7)

1.一种基于知识图谱的查询分析系统,其特征在于,包括:
语音识别模块,用于将用户所说的语音转化为文字;
查询分析模块,与所述语音识别模块连接,基于知识图谱和法律领域本体模型的查询分析来理解用户所描述的问题并得出结果;
结果输出模块,与所述查询分析模块连接,将结果经过语音合成将文字转换成自然流畅的语言返回给用户。
2.如权利要求1所述的基于知识图谱的查询分析系统,其特征在于,所述语音识别模块包括预处理单元、特征提取单元以及模式匹配单元。
3.如权利要求2所述的基于知识图谱的查询分析系统,其特征在于,所述预处理单元对输入的原始语音信号进行端点检测,包括预滤波、采样与量化、加窗、分帧、端点检测和预加重,滤除其中不必要的信息及噪声。
4.如权利要求2所述的基于知识图谱的查询分析系统,其特征在于,所述特征提取单元采用的语音特征参数为线性预测倒谱系数和Mel频率倒谱参数。
5.如权利要求2所述的基于知识图谱的查询分析系统,其特征在于,所述模式匹配单元采用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。
6.如权利要求1所述的基于知识图谱的查询分析系统,其特征在于,所述查询分析模块选用BiLSTM算法模型,通过SPARQL语言查询知识库,得到分析结果。
7.如权利要求1所述的基于知识图谱的查询分析系统,其特征在于,所述结果输出模块为服务器端,服务器接收语音后通过语音识别技术将语音转换,通过知识图谱语义搜索和法律领域本体模型对和案件进行查询知识库并分析,整合符合条件的信息,并将结果经过语音合成将文字转换成自然流畅的语言返回给用户。
CN202010351766.XA 2020-04-28 2020-04-28 一种基于知识图谱的查询分析系统 Pending CN111581348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010351766.XA CN111581348A (zh) 2020-04-28 2020-04-28 一种基于知识图谱的查询分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010351766.XA CN111581348A (zh) 2020-04-28 2020-04-28 一种基于知识图谱的查询分析系统

Publications (1)

Publication Number Publication Date
CN111581348A true CN111581348A (zh) 2020-08-25

Family

ID=72126184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010351766.XA Pending CN111581348A (zh) 2020-04-28 2020-04-28 一种基于知识图谱的查询分析系统

Country Status (1)

Country Link
CN (1) CN111581348A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032359A (zh) * 2021-01-29 2021-06-25 厦门市法度信息科技有限公司 一种智能办案辅助系统及方法
CN114694098A (zh) * 2022-04-02 2022-07-01 四川大学 基于图像识别与知识图谱的电网基建施工风险管控方法
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统
CN117086871A (zh) * 2023-08-30 2023-11-21 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统
CN117539983A (zh) * 2024-01-10 2024-02-09 深度(山东)数字科技集团有限公司 一种基于人工智能的智能数据查询系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381571B1 (en) * 1998-05-01 2002-04-30 Texas Instruments Incorporated Sequential determination of utterance log-spectral mean by maximum a posteriori probability estimation
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN110765246A (zh) * 2019-09-29 2020-02-07 平安直通咨询有限公司上海分公司 基于智能机器人的问答方法、装置、存储介质和智能设备
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381571B1 (en) * 1998-05-01 2002-04-30 Texas Instruments Incorporated Sequential determination of utterance log-spectral mean by maximum a posteriori probability estimation
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN110765246A (zh) * 2019-09-29 2020-02-07 平安直通咨询有限公司上海分公司 基于智能机器人的问答方法、装置、存储介质和智能设备
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李泽宇;李磊;李煜祺;鲁兴河;王淑平;潘玉林;: "一种智能语音技术在指挥系统中的应用方法" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032359A (zh) * 2021-01-29 2021-06-25 厦门市法度信息科技有限公司 一种智能办案辅助系统及方法
CN114694098A (zh) * 2022-04-02 2022-07-01 四川大学 基于图像识别与知识图谱的电网基建施工风险管控方法
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统
CN117086871A (zh) * 2023-08-30 2023-11-21 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统
CN117086871B (zh) * 2023-08-30 2024-02-06 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统
CN117539983A (zh) * 2024-01-10 2024-02-09 深度(山东)数字科技集团有限公司 一种基于人工智能的智能数据查询系统及方法

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN111581348A (zh) 一种基于知识图谱的查询分析系统
CN109196495B (zh) 用于细粒度自然语言理解的系统和方法
CN107731233B (zh) 一种基于rnn的声纹识别方法
WO2018227780A1 (zh) 语音识别方法、装置、计算机设备及存储介质
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
WO2019037205A1 (zh) 语音欺诈识别方法、装置、终端设备及存储介质
WO2019019252A1 (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
TWI395201B (zh) 情緒語音辨識方法及系統
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
Praksah et al. Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier
Dua et al. Optimizing integrated features for Hindi automatic speech recognition system
Singh et al. An efficient algorithm for recognition of emotions from speaker and language independent speech using deep learning
Birla A robust unsupervised pattern discovery and clustering of speech signals
Fachrie et al. Robust Indonesian digit speech recognition using Elman recurrent neural network
CN115168563A (zh) 一种基于意图识别的机场服务引导方法、系统及装置
Mouaz et al. A new framework based on KNN and DT for speech identification through emphatic letters in Moroccan dialect
Chandra et al. Keyword spotting: an audio mining technique in speech processing–a survey
Oladipo et al. Accent identification of ethnically diverse Nigerian English speakers
Anguraj et al. Analysis of influencing features with spectral feature extraction and multi-class classification using deep neural network for speech recognition system
Sharma et al. Speaker and gender identification on Indian languages using multilingual speech
Sardar Compensation of variability using median and i-vector+ PLDA for speaker identification of whispering sound
Honggai et al. Linguistic multidimensional perspective data simulation based on speech recognition technology and big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination