CN110910283A - 生成法律文书的方法、装置、设备和存储介质 - Google Patents
生成法律文书的方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN110910283A CN110910283A CN201910992336.3A CN201910992336A CN110910283A CN 110910283 A CN110910283 A CN 110910283A CN 201910992336 A CN201910992336 A CN 201910992336A CN 110910283 A CN110910283 A CN 110910283A
- Authority
- CN
- China
- Prior art keywords
- text
- sentences
- voice
- data
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- OOIBFPKQHULHSQ-UHFFFAOYSA-N (3-hydroxy-1-adamantyl) 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC2(O)CC1(OC(=O)C(=C)C)C3 OOIBFPKQHULHSQ-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能领域,提供了一种生成法律文书的方法、装置、设备和存储介质,方法包括:接收用户输入的语音数据;将语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过图Graph数据辨识特定的分隔符,以分句处理待处理的文本,通过图Graph数据的节点保存多个候选关键句;将多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过边集E以及文本句子的内容覆盖率,以计算任意两个候选关键句以及的权重,并将权重高于阈值的候选关键句链接起来;分析权重高于阈值的候选关键句的重要性;对候选关键句进行排序,并按顺序提取候选关键句,以得到多个文摘句子。最大化的减少重复劳动,提高办案效率。
Description
技术领域
本申请涉及智能决策领域,尤其涉及一种生成法律文书的方法、装置、设备和存储介质。
背景技术
法律文书是记载人民法院审理过程和结果的载体,一份结构完整、要素齐全、逻辑严谨的法律摘要,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。但法律文摘的书写过程繁杂而冗长,并带有大量的重复性劳动。通过法律知识图谱对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
现有的法律文摘自动生成系统中,用户需要根据固定模板中关键词对应的内容进行填写进行法律文摘的初步生成,基于固定模板的文书生产方式对于案件由来和审理经过、事实、理由、裁判依据部分的书写均不能起到很好的效果,依然需要用户进行大量的内容填写,并且大量填写的内容不一定能符合法律要求所需要的形式。
发明内容
本申请提供了一种通过配置生成法律文书的方法,能够解决现法律文摘的书写过程繁杂而冗长的问题。
第一方面,本申请提供一种生成法律文书的方法,包括:
接收用户输入的语音数据,将所述语音数据通过语音转换技术转换成待处理的文本数据;
创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句Si以及所述候选关键句Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;
分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;
根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
在一些可能的设计中,所述接收用户输入的语音数据之前,所述方法还包括:
获取针对所述分词模型输出的反馈信息;
根据所述反馈信息对所述分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
在一些可能的设计中,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
将所述标注好的网络词库输入至所述分词模型;
通过训练所述分词模型,其中,代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,表示相应的偏置,fi n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fi n是指所述分词模型的输出。
在一些可能的设计中,所述接收用户输入的语音数据,包括:
接收所述用户的采集请求;
根据所述采集请求采集多个语音测试数据;
对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
保存调整后的所述指标阈值;
接收所述用户输入的语音数据;
通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
若所述指标检测不及格,则剔除所述用户输入的语音数据。
在一些可能的设计中,其特征在于,所述接收用户输入的语音数据之后,所述方法还包括:
检测所述输入的语音数据的时长;
在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
在一些可能的设计中,所述将所述语音数据通过语音转换技术转换成待处理的文本数据,包括:
获取所述用户输入的语音数据;
检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
在一些可能的设计中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
第二方面,本申请提供一种生成法律文书的装置,具有实现对应于上述第一方面提供的生成法律文书的平台的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
所述生成法律文书的装置包括:
输入输出模块,用于接收用户输入的语音数据;
处理模块,用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句Si以及所述候选关键,Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
在一些可能的设计中,所述处理模块还用于:
获取针对所述分词模型输出的反馈信息;
根据所述反馈信息对所述分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
在一些可能的设计中,所述处理模块还用于:
根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
将所述标注好的网络词库输入至所述分词模型;
通过训练所述分词模型,其中,代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,表示相应的偏置,fi n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fi n是指所述分词模型的输出。
在一些可能的设计中,所述处理模块还用于:
接收所述用户的采集请求;
根据所述采集请求采集多个语音测试数据;
对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
保存调整后的所述指标阈值;
接收所述用户输入的语音数据;
通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
若所述指标检测不及格,则剔除所述用户输入的语音数据。
在一些可能的设计中,所述处理模块还用于:
检测所述输入的语音数据的时长;
在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
在一些可能的设计中,所述将所述用户输入的语音通过语音转换技术转换成待处理的文本数据,包括:
获取所述用户输入的语音数据;
检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
在一些可能的设计中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器、输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的方法。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
附图说明
图1为本申请实施例中生成法律文书的方法的流程示意图。
图2为本申请实施例中生成法律文书的装置的结构示意图。
图3为本申请实施例中计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。
为解决上述技术问题,本申请主要提供以下技术方案
本发明实施例基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
请参照图1,以下对本申请提供一种生成法律文书的方法进行举例说明,所述方法包括:
101、接收用户输入的语音数据。
训练数据包括语音信息以及与语音信息对应的文本标签。通话录音是指通过监测电话线路上的语音通讯信号,并将这些信号转化为可以保存和回放的介质的一种技术或方法。通话录音的采样指标包括格式、采样频率、采样精度、声道、压缩率以及每秒数据量。
102、将语音数据通过语音转换技术转换成待处理的文本数据。
输入的语音数据为开庭笔录或是开庭时的录音。语音转换技术通过序列神经网络实现。序列神经网络模型是指将人类的语音中的词汇内容转换为计算机可读的输入。序列神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。序列神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理,例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
103、创建图Graph数据,通过图Graph数据辨识特定的分隔符,以分句处理待处理的文本数据,通过图Graph数据的节点保存多个候选关键句。
通过图数据将输入的文本或文本集的内容分割成句子;分隔符至少包括:逗号、问号、句号以及感叹号。目前基于图的并行计算框架已经有很多,比如来自Google的Pregel、来自Apache开源的图计算框架Giraph/HAMA以及最为著名的GraphLab,其中Pregel、HAMA和Giraph都是非常类似的,都是基于BSP模式。整体同步并行,它将计算分成一系列的超步的迭代。从纵向上看,它是一个串行模式,而从横向上看,它是一个并行的模式,每两个superstep之间设置一个栅栏,即整体同步点,确定所有并行的计算都完成后再启动下一轮超级步数。
104、将多个候选关键句输入至分词模型,以得到分词后的词汇。
分词后的词汇是指保留的候选关键词。分词模型是指神经网络。神经网络是指一种复制这种密集的神经元网络的方法。通过一次处理多个数据流,计算机能够显著减少处理数据所需的时间。将这种技术应用于深度学习已经产生了人工神经网络。这些人工神经网络由输入节点、输出节点和节点层组成。
输入节点,用于接收数据的输入节点。
输出节点,用于输出结果数据。
节点层,用于将从输入节点输入的数据转换为输出节点可以使用的内容。节点层是指在输入节点和输出节点之间的多个隐藏节点,节点层也可以成为隐藏层。当数据通过这些隐藏节点前进时,神经网络使用逻辑来决定将数据传递给下一个隐藏节点。
105、构建边集E,通过边集E以及文本句子的内容覆盖率,以计算任意两个候选关键句Si以及候选关键句Sj的权重,并将权重高于阈值的候选关键句链接起来。
通过此步骤可以判断两个句子之间的相似度是否大于给定的阈值,就认为这两个句子语义相关并将它们连接起来。
106、分析保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值。
分析通过通过进行分析,S(Vi)表示第i个节点Vi的重要性,Vj表示与第i个节点相连的第j个节点,Vk与第j个节点相连的第k个节点,wji表示第i个节点与第j个节点相连的边的权重,wjk表示第j个节点与第k个节点相连的边的权重。
这个在摘要提取过程中首先进行实体识别主要针对时间地点人物等关键实体进行识别,对于含有关键实体的相应句子进行提取,提取方式采用抽取式文档摘要的相关算法。等式左边表示一个句子的权重),右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同,一般认为全部句子都是相邻的,不再提取窗口。求和的分母wji表示两个句子的相似程度,分母又是一个求和公式。整个公式是一个迭代的过程。
107、根据计算的每一个候选句S(Vi)的值,将多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个候选关键句,以得到多个文摘句子。
108、根据句子要求以及字数要求,从多个文摘句子中抽取句子组成文摘。
本申请基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
一些实施方式中,接收用户输入的语音数据之前,方法还包括:
获取针对分词模型输出的反馈信息;
根据反馈信息对分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据网络词库对待分词文本进行初始分词;
对待分词文本进行初始分词后,对待分词文本进行特征提取,从而获得待分词文本的领域特征;
根据待分词文本的领域特征,对待分词文本的词条进行权重调整从而获得分词模型。
上述实施方式中,通过获取专业的法律词库,并通过法律词库对分词模型训练,可以训练出针对法律领域的高精度模型。
一些实施方式中,根据待分词文本的领域特征,对待分词文本的词条进行权重调整从而获得分词模型,包括:
根据法律领域的词语特征标注网络词库,得到标注好的网络词库;
将标注好的网络词库输入至分词模型;
通过训练分词模型,其中,代表根据分词模型神经网络层的多层感知器中第n-1层的输出,训练分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,表示相应的偏置,fi n表示第i个训练数据输入至分词模型后在分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为分词模型的最后一层时,fi n是指分词模型的输出。
上述实施方式中,通过这个方式可以对实施的分词模型进行迭代,以获得一个较好效果的分词模型。
一些实施方式中,接收用户输入的语音数据,包括:
接收用户的采集请求;
根据采集请求采集多个语音测试数据;
对多个语音测试数据进行语音活动检测,获得多个语音测试数据的语音指标检测结果;
根据语音指标检测结果调整用户输入的语音数据的指标阈值;
保存调整后的指标阈值;
接收用户输入的语音数据;
通过调整后的指标阈值对用户输入的语音数据进行指标检测;
若指标检测不及格,则剔除用户输入的语音数据。
上述实施方式中,通过采集满足符合要求的语音数据,使得模型的效果更好,精度提高。若不满足,则剔除相应语音数据重新采集。语音测试数据是指通过标准的输入语音数据。用户输入的语音数据是指用户要进行检测的语音数据。通过语音测试数据确定指标的标准区间,然后判定用户输入的语音数据是否有效,当确定用户输入的语音有效时再对语音进行检测。
一些实施方式中,接收用户输入的语音数据之后,方法还包括:
检测输入的语音数据的时长;
在时长超出预设值时,根据预设处理规则将输入的语音数据分割为多个片段,以得到多个语音片段;
对多个语音片段进行去燥处理,以生成多个标准化语音信息。
上述实施方式中,可以对输入的语音数据进行预处理,以生成更多的训练数据。
一些实施方式中,将语音数据通过语音转换技术转换成待处理的文本数据,包括:
获取用户输入的语音数据;
检测语音数据中包含的高频词,计算高频词与预设语言类型的匹配度,并根据匹配度确定语音信息的语言类型;
获取与语言类型匹配的神经网络模型,并利用神经网络模型处理语音数据进,生成标准化语音数据;
获取与语言类型匹配的语音转化文本模型,并利用语音转化文本模型处理标准化语音数据,生成文本信息。
上述实施方式中,通过NLP技术将语音信息转化成相应的文本信息,才能对数据做进一步的处理。
一些实施方式中,分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
上述实施方式中,顺序相连的语义表示层用于从语音信息中提取声学特征,并消除声学特征中的非极大值,降低声学特征的复杂度。声学特征包括特定音节的发音、用户连读习惯以及语音频谱等。
循环神经网络层于将声学特征映射到隐层特征空间。
Softmax层用于根据各种文本类型所对应的概率输出语音信息所对应的文本。
如图2所示的一种生成法律文书的装置20的结构示意图,其可应用于生成法律文书。本申请实施例中的生成法律文书的装置能够实现对应于上述图1所对应的实施例中所执行的生成法律文书的方法的步骤。生成法律文书的装置20实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述生成法律文书的装置可包括输入输出模块201和处理模块202,所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。输入输出模块201可用于控制所述输入输出模块201的输入、输出以及获取操作。
一些实施方式中,所述输入输出模块201可用于接收用户输入的语音数据。
所述处理模块202可用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句Si以及所述候选关键,Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
一些实施方式中,所述处理模块202还用于:
获取针对所述分词模型输出的反馈信息;
根据所述反馈信息对所述分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
一些实施方式中,所述处理模块202还用于:
根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
将所述标注好的网络词库输入至所述分词模型;
通过训练所述分词模型,其中,代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,表示相应的偏置,fi n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fi n是指所述分词模型的输出。
一些实施方式中,所述处理模块202还用于:
接收所述用户的采集请求;
根据所述采集请求采集多个语音测试数据;
对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
保存调整后的所述指标阈值;
接收所述用户输入的语音数据;
通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
若所述指标检测不及格,则剔除所述用户输入的语音数据。
一些实施方式中,所述处理模块202还用于:
检测所述输入的语音数据的时长;
在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
一些实施方式中所述处理模块202还用于:
获取所述用户输入的语音数据;
检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
一些实施方式中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
上面从模块化功能实体的角度分别介绍了本申请实施例中的创建装置,以下从硬件角度介绍一种计算机设备,如图3所示,其包括:处理器、存储器、输入输出单元(也可以是收发器,图3中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1所对应的实施例中生成法律文书的方法对应的程序。例如,当计算机设备实现如图2所示的生成法律文书的装置20的功能时,所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由生成法律文书的装置20执行的生成法律文书的方法中的各步骤。或者,所述处理器执行所述计算机程序时实现上述图2所对应的实施例的生成法律文书的装置20中各模块的功能。又例如,该计算机程序可以为图1所对应的实施例中生成法律文书的方法对应的程序。
所称处理器可以是中央处理单元(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,SMC),安全数字(decure digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述输入输出单元也可以用接收器和发送器代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出可以为收发器。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。
Claims (10)
1.一种生成法律文书的方法,其特征在于,所述方法包括:
接收用户输入的语音数据;
将所述语音数据通过语音转换技术转换成待处理的文本数据;
创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句Si以及所述候选关键句Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;
分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(Vi)以及计算后的S(Vi)之间差值小于阈值,S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;
根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音数据之前,所述方法还包括:
获取针对所述分词模型输出的反馈信息;
根据所述反馈信息对所述分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
将所述标注好的网络词库输入至所述分词模型;
4.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音数据,包括:
接收所述用户的采集请求;
根据所述采集请求采集多个语音测试数据;
对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
保存调整后的所述指标阈值;
接收所述用户输入的语音数据;
通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
若所述指标检测不及格,则剔除所述用户输入的语音数据。
5.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音数据之后,所述方法还包括:
检测所述输入的语音数据的时长;
在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
6.根据权利要求1所述的方法,其特征在于,所述将所述语音数据通过语音转换技术转换成待处理的文本数据,包括:
获取所述用户输入的语音数据;
检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
8.一种生成法律文书的装置,其特征在于,所述装置包括:
输入输出模块,用于接收用户输入的语音数据;
处理模块,用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句Si以及所述候选关键,Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910992336.3A CN110910283A (zh) | 2019-10-18 | 2019-10-18 | 生成法律文书的方法、装置、设备和存储介质 |
PCT/CN2020/093419 WO2021073116A1 (zh) | 2019-10-18 | 2020-05-29 | 生成法律文书的方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910992336.3A CN110910283A (zh) | 2019-10-18 | 2019-10-18 | 生成法律文书的方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110910283A true CN110910283A (zh) | 2020-03-24 |
Family
ID=69815550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910992336.3A Pending CN110910283A (zh) | 2019-10-18 | 2019-10-18 | 生成法律文书的方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110910283A (zh) |
WO (1) | WO2021073116A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581348A (zh) * | 2020-04-28 | 2020-08-25 | 辽宁工程技术大学 | 一种基于知识图谱的查询分析系统 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
WO2021073116A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN113377745A (zh) * | 2021-07-02 | 2021-09-10 | 贵州电网有限责任公司 | 一种统一标准的试验数据结构体系的构建方法 |
CN113495900A (zh) * | 2021-08-12 | 2021-10-12 | 国家电网有限公司大数据中心 | 基于自然语言的结构化查询语言语句获取方法及装置 |
CN113762523A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN114492446A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
CN116822477A (zh) * | 2023-05-16 | 2023-09-29 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657109A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 基于模型的临床术语的标准化方法、装置和计算机设备 |
CN114254633A (zh) * | 2021-12-14 | 2022-03-29 | 科大讯飞股份有限公司 | 一种关键词抽取方法、装置、设备及存储介质 |
CN115017912A (zh) * | 2022-01-18 | 2022-09-06 | 桂林旅游学院 | 一种多任务学习的双目标实体情感分析方法 |
CN115017144B (zh) * | 2022-05-30 | 2024-03-29 | 北京计算机技术及应用研究所 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
CN115908061B (zh) * | 2022-11-16 | 2024-04-12 | 广州明动软件股份有限公司 | 一种基于行政执法办案平台的结构化电子文书系统 |
CN117252539A (zh) * | 2023-09-20 | 2023-12-19 | 广东筑小宝人工智能科技有限公司 | 基于神经网络的工程标准规范获取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN109284357A (zh) * | 2018-08-29 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 人机对话方法、装置、电子设备及计算机可读介质 |
CN109389993A (zh) * | 2018-12-14 | 2019-02-26 | 广州势必可赢网络科技有限公司 | 一种语音数据采集方法、装置、设备及存储介质 |
CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
CN109739973A (zh) * | 2018-12-20 | 2019-05-10 | 北京奇安信科技有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
CN109947930A (zh) * | 2019-03-12 | 2019-06-28 | 上海秘塔网络科技有限公司 | 摘要生成方法、装置、终端及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
CN109544104A (zh) * | 2018-11-01 | 2019-03-29 | 平安科技(深圳)有限公司 | 一种招聘数据处理方法及装置 |
CN109918650B (zh) * | 2019-02-03 | 2020-10-23 | 北京大学 | 自动生成采访稿的采访智能机器人装置及智能采访方法 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
-
2019
- 2019-10-18 CN CN201910992336.3A patent/CN110910283A/zh active Pending
-
2020
- 2020-05-29 WO PCT/CN2020/093419 patent/WO2021073116A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN109284357A (zh) * | 2018-08-29 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 人机对话方法、装置、电子设备及计算机可读介质 |
CN109389993A (zh) * | 2018-12-14 | 2019-02-26 | 广州势必可赢网络科技有限公司 | 一种语音数据采集方法、装置、设备及存储介质 |
CN109448699A (zh) * | 2018-12-15 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 语音转换文本方法、装置、计算机设备及存储介质 |
CN109739973A (zh) * | 2018-12-20 | 2019-05-10 | 北京奇安信科技有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
CN109947930A (zh) * | 2019-03-12 | 2019-06-28 | 上海秘塔网络科技有限公司 | 摘要生成方法、装置、终端及计算机可读存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021073116A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN111581348A (zh) * | 2020-04-28 | 2020-08-25 | 辽宁工程技术大学 | 一种基于知识图谱的查询分析系统 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN113762523A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN113377745A (zh) * | 2021-07-02 | 2021-09-10 | 贵州电网有限责任公司 | 一种统一标准的试验数据结构体系的构建方法 |
CN113495900A (zh) * | 2021-08-12 | 2021-10-12 | 国家电网有限公司大数据中心 | 基于自然语言的结构化查询语言语句获取方法及装置 |
CN113495900B (zh) * | 2021-08-12 | 2024-03-15 | 国家电网有限公司大数据中心 | 基于自然语言的结构化查询语言语句获取方法及装置 |
CN114492446A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
CN114492446B (zh) * | 2022-02-16 | 2023-06-16 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
CN116822477A (zh) * | 2023-05-16 | 2023-09-29 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
CN116822477B (zh) * | 2023-05-16 | 2024-04-30 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021073116A1 (zh) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910283A (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN109460459B (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN111182162B (zh) | 基于人工智能的电话质检方法、装置、设备和存储介质 | |
CN109710744B (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
KR20190063978A (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
US11727915B1 (en) | Method and terminal for generating simulated voice of virtual teacher | |
CN111144097B (zh) | 一种对话文本的情感倾向分类模型的建模方法和装置 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN111680514B (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN115510192A (zh) | 一种新闻事件脉络关系检测方法及装置 | |
KR20200040032A (ko) | 양방향 lstm―attention 기반 한국어 게시글 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40017621 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |