CN111967437A - 文本识别方法、装置、设备及存储介质 - Google Patents

文本识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111967437A
CN111967437A CN202010913772.XA CN202010913772A CN111967437A CN 111967437 A CN111967437 A CN 111967437A CN 202010913772 A CN202010913772 A CN 202010913772A CN 111967437 A CN111967437 A CN 111967437A
Authority
CN
China
Prior art keywords
text
label elements
original
label
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010913772.XA
Other languages
English (en)
Inventor
胡耀辉
马宁
陈文鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010913772.XA priority Critical patent/CN111967437A/zh
Publication of CN111967437A publication Critical patent/CN111967437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Abstract

本发明涉及大数据技术,提供了一种文本识别方法、装置、设备及存储介质。该方法基于关键词从第一数据源获取第一文本集并生成样本集,基于样本集对预先构建的模型进行训练得到文本要素提取模型,从第二数据源获取第二类型的第二文本集,基于预设标签要素对第二文本集中的文本执行聚类操作得到多个标签对应的子文本簇,基于各子文本簇对应的文本集建立规则引擎,获取原始文本,将其输入文本要素提取模型,得到原始文本对应的多个标签要素,将多个标签要素输入规则引擎,得到原始文本的目标识别结果。本发明可以避免由于提取文字信息不准确,导致识别文本核心要素准确性较低的问题。本发明还涉及区块链技术,各文本数据存储于区块链中。

Description

文本识别方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种文本识别方法、装置、设备及存储介质。
背景技术
目前,现有的对行政非诉案件的监督,大多是人为根据裁判文书中的文本和图片的文字信息,获取文字信息的属性特征进行规则配置,根据经验或规则执行相应的判断,虽然现有技术中出现了自动提取关键信息的相关技术方案,由于法院卷宗中文书与其他信息的多样性,现有技术中的提取文字信息时,容易出现应提取的信息不全面或提取了过多无关的信息,导致识别文本的核心要素的准确性较低。
发明内容
鉴于以上内容,本发明提供一种文本识别方法、装置、设备及存储介质,其目的在于解决现有技术中由于提取文字信息不准确,导致识别文本核心要素准确性较低的技术问题。
为实现上述目的,本发明提供一种文本识别方法,该方法包括:
从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
优选的,所述预先构建的模型包括将word2vec作为嵌入层,并嵌套栈式循环神经网络,最后将条件随机场模型作为多分类任务输出层的有监督模型。
优选的,所述基于所述训练样本集训练预先构建的模型得到文本要素提取模型包括:
将所述训练样本集按照预设比例分成训练集及验证集;
利用所述训练集中的自变量及因变量对所述预先构建的模型进行训练,每隔预设周期使用所述验证集对所述预先构建的模型进行验证,利用所述验证集中的自变量及因变量对所述文本要素提取模型的第一准确率进行验证;
当验证所述第一准确率大于第一预设阈值时,结束训练,得到所述文本要素提取模型。
优选的,所述基于所述标签要素对第二文本集中的各文本执行聚类操作包括:
基于所述标签要素对所述第二文本集中的文本执行分词处理得到多个文本特征词;
基于词向量转换模型分别将所述文本特征词转换为词向量,并将所述第二文本集对应的所有词向量进行叠加,得到所述第二文本集的多个文本向量;
对所述多个文本向量执行聚类操作得到多个子文本簇。
优选的,所述方法还包括:
基于所述标签要素及各所述标签要素对应的子文本集建立标签库。
优选的,所述方法还包括:
将所述目标识别结果反馈至所述用户后,在所述用户所属的页面展示预设数量的选项,以供所述用户基于所述选项对目标识别结果进行反馈。
优选的,所述将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果包括:
将所述原始文本对应的多个标签要素输入所述规则引擎,基于所述规则引擎中预先建立的规则对所述原始文本对应的多个标签要素进行识别,得到所述原始文本的目标识别结果,其中,所述预先建立的规则是根据多个逻辑运算符建立的。
为实现上述目的,本发明还提供一种文本识别装置,该文本识别装置包括:
训练模块:用于从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
建立模块:用于从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
提取模块:用于响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
识别模块:用于将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本识别方法的任意步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本识别程序,所述文本识别程序被处理器执行时,实现如上所述文本识别方法的任意步骤。
本发明提出的文本识别方法、装置、设备及存储介质,通过预先构建的模型准确提取待识别的文本的关键要素信息,再将与数据源获取的文本执行聚类操作并以此建立规则引擎,可以对待识别的文本信息的要素进行识别,避免提取的信息不全面或提取了过多无关的信息,导致建立的规则引擎对文本的核心要素信息的识别准确性较低的问题。
附图说明
图1为本发明电子设备较佳实施例的示意图;
图2为图1中文本识别装置较佳实施例的模块示意图;
图3为本发明文本识别方法较佳实施例的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如文本识别程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行文本识别程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图1仅示出了具有组件11-14以及文本识别程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的文本识别程序10时可以实现如下步骤:
从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照下述图2关于文本识别装置100实施例的功能模块图以及图3关于文本识别方法实施例的流程图的说明。
参照图2所示,为本发明文本识别装置100的功能模块图。
本发明所述文本识别装置100可以安装于电子设备中。根据实现的功能,所述文本识别装置100可以包括训练模块110、建立模块120、提取模块130及识别模块140。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
训练模块110,用于从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型。
在本实施例中,以对行政非诉执行案件的识别为例对本方案进行说明,基于预设的关键词从第一数据源(例如,中国裁判文书网、中国执行信息公开网中已公开生效的行政裁定文书,或执行裁定书)获取包含预设关键词的第一文本集,第一文本集在本实施例中可以是包含有“依法应予纠正”、“撤销”、“发回重审”等一系列关键词句的文书,具体地,可以基于预设的关键词构建相应的正则表达式,基于构建的正则表达查找包含预设关键词的第一文本集。正则表达式描述了一种字符串匹配的模式,可以用来查找一个字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。其是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,则认为该字符串与正则表达式“匹配”。例如,法条法规中通常都有如下表达方式:依法应予纠正,撤销,或者发回重审,则可设置与上述表达方式相匹配的正则表达式模式,进而识别出法条法规中具体属性内容的表达方式。
获取包含预设关键词的第一文本集后,可以利用标注工具(例如,Label Imag工具)对该第一文本集的各个文本标注多个预设标签要素,预设标签要素包括:案由、文书号、人员、时间、法律依据、诉求事项、驳回理由等核心要素,将第一文本集中的各个文本作为自变量,该文本对应的多个预设标签要素作为因变量生成训练样本集。
之后,利用训练样本集对预先构建的模型进行训练得到文本要素提取模型,预先构建的模型可以是自然语言处理模型。
在一个实施例中,所述预先构建的模型包括将word2vec作为嵌入层,并嵌套栈式循环神经网络,最后将条件随机场模型作为多分类任务输出层的有监督模型。
在一个实施例中所述基于所述训练样本集训练预先构建的模型得到文本要素提取模型包括:
将所述训练样本集按照预设比例分成训练集及验证集;
利用所述训练集中的自变量及因变量对所述预先构建的模型进行训练,每隔预设周期使用所述验证集对所述预先构建的模型进行验证,利用所述验证集中的自变量及因变量对该文本要素提取模型的第一准确率进行验证;
当验证所述第一准确率大于第一预设阈值时,结束训练,得到所述文本要素提取模型。
其中,预设比例可以4:1,预设周期可以是迭代1000次,第一预设准确率可以是95%。
建立模块120,用于从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎。
在本实施例中,从预定的第二数据源获取第二预设类型的第二文本集,第二数据源包括但不限于中国裁判文书网、中国执行信息公开网以及本地相关的司法库,预设类型的第二文本集可以是判决书、裁定书、调解书等批量文本信息,基于预设标签要素对第二文本集中的各文本执行聚类操作,得到多个标签对应的子文本簇,基于各子文本簇对应的文本集建立规则引擎。
其中,所述基于所述标签要素对第二文本集中的各文本执行聚类操作包括:
基于所述标签要素对所述第二文本集中的文本执行分词处理得到多个文本特征词;
基于词向量转换模型分别将所述文本特征词转换为词向量,并将所述第二文本集对应的所有词向量进行叠加,得到所述第二文本集的多个文本向量;
对所述多个文本向量执行聚类操作得到多个子文本簇。
具体地,可以根据标签要素利用最大正向匹配算法对第二文本集中的文本执行分词处理,根据word2vec模型将分词得到的多个文本特征词转换为词向量,将所有词向量进行叠加得到第二文本集的多个文本向量,利用K-Means算法对多个文本向量执行聚类操作得到多个子文本簇。
之后,通过业务数据特征(例如,公民、法人或其他组织的数据特征),形成构成问题案件的数据标签之间的组合逻辑,作为规则引擎的基本单位——逻辑规则,例如,可在后台配置如下逻辑规则:公民、法人或者其他组织对行政行为在法定期限内即不提起诉讼也不履行的;公民、法人或者其他组织对行政行为在法定期限内不完全履行的。之后,根据实际行政非诉审查执行不规范的所有逻辑规则打包集成,通过一系列的“且、与、或、非、大于、小于、等于、不等、大于等于、小于等于、不包含、包含”逻辑关系运算符,优先级排序、先后重要性排序等对逻辑规则进行集成组合,以此构建可回溯、可解释、可视化的规则引擎。
规则引擎的应用,对输入文本首先进行要素解析与数据标签化后,将结构化数据、标签数据输入至集成的规则引擎中,可输出行政非诉执行的案件是否触发规则引擎的逻辑规则,触发哪些逻辑规则,以此来输出问题案件。
以“法院执行裁定错误”业务场景为例,该场景下包括被执行人性质、财产状况、主体状态、裁定结果、失信名单等一系列标签要素,将被执行人性质、主体状态、财产状况三个标签要素通过“且”的关系进行组合,得出“被执行人商事主体状态为开业(存续)但无可执行的财产”规则,以此逻辑判断法院裁定结果的准确性。
在一个实施例中,建立模块还用于:基于所述标签要素及各所述标签要素对应的子文本集建立标签库。通过建立标签库可以将标签要素及标签要素对应的子文本存储至标签库中,后续在对待识别的文本进行要素识别时,可以直接从标签库获取标签并建立相应的规则引擎。
提取模块130,用于响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素。
在本实施例中,响应用户发出的识别请求,获取文本识别请求携带的原始文本,文本识别请求中可以包括待识别的原始文本(例如,裁判文书),也可以包括待识别的原始文本的存储路径及唯一的标识。也就是说,原始文本可以是用户在提交文本识别请求时通过人机交互界面一并录入的,也可以是用户提交文本识别请求之后从请求指定的地址中获取,将所述原始文本输入文本要素提取模型,得到所述原始文本对应的多个标签要素。
识别模块140,用于将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
在本实施例中,将文本识别请求中携带的原始文本经过文本要素提取模型得到的标签要素输入预先建立的规则引擎,得到原始文本的识别结果,将识别结果推送至预设用户。识别结果可以是行政非诉执行监督线索,例如,“损害了社会公共利益或者被执行人的合法权益”、“执法程序的合法性”、“执行未落地”等问题情形,利用规则引擎的可视化及可解释特性对文书命中问题进行可视化标注解释,通过系统平台将上述信息呈现推荐给对应检察官。
在一个实施例中,将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果包括:
将所述原始文本对应的多个标签要素输入所述规则引擎,对所述原始文本对应的多个标签要素进行识别,得到所述原始文本的目标识别结果。其中,可以基于规则引擎中预先建立的规则对原始文本对应的多个标签要素进行识别,预先建立的规则是根据多个逻辑运算符建立的。
具体地,可以利用规则引擎按中预先建立的规则对原始文本的标签要素进行识别,按照“与、或、并、非、且、大于、小于、等于、不等、大于等于、小于等于、不包含、包含”等逻辑运算,如果满足特定条件,则视为疑似非诉执行案件。例如(履行金额A小于阈值,且履行期限B距今不满一月)的记录可视为疑似非诉执行案件。
进一步地,为减少检察院人工一一识别、筛选、转派、分发识别结果的工作量,通过监督机构、被监督对象的职权监督管理的映射关系构建关系任务网络,根据建立的关系任务网络自动识别匹配并进行识别结果对应的任务分发,将识别结果精准推送至相对应层级的检察院实施处理。例如,通过规则引擎识别出A地域市场监督管理局存在不作为行为,该条线索信息通过关系任务网络自动流转至对应承接监督任务的A地域检察院进行处理。
在一个实施例中,识别模块还用于:将所述目标识别结果反馈至所述用户后,并对用户所属的页面展示预设数量的选项,以供所述用户对目标识别结果进行反馈。
识别结果反馈阶段可以反馈如下若干字段,例如:风险层级(按照标的额、涉罪可能性、线索指向等维度计量)、法律依据、异常问题:明确指出潜在风险所在。关联案件信息(案号与文书等),关联案件可以是因子相同或者相似的场景。异常案件文书详情:当前异常数据的具体情况。
在前端展示的输出页面,可以为检察官提供采纳\未采纳等选项,跟踪推送给检察官的线索信息最终处理结果,分别针对采纳、不采纳的情况转化成向量化样本集,根据检察官对结果的反馈信息,将样本重新导入至训练样本集,重新进行训练等操作,以此修正文本要素提取模型参数,提高文本要素提取模型的精度。
此外,本发明还提供一种文本识别方法。参照图3所示,为本发明文本识别方法的实施例的方法流程示意图。电子设备1的处理器12执行存储器11中存储的文本识别程序10时实现文本识别方法的如下步骤:
步骤S10:从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型。
在本实施例中,以对行政非诉执行案件的识别为例对本方案进行说明,基于预设的关键词从第一数据源(例如,中国裁判文书网、中国执行信息公开网中已公开生效的行政裁定文书,或执行裁定书)获取包含预设关键词的第一文本集,第一文本集在本实施例中可以是包含有“依法应予纠正”、“撤销”、“发回重审”等一系列关键词句的文书,具体地,可以基于预设的关键词构建相应的正则表达式,基于构建的正则表达查找包含预设关键词的第一文本集。正则表达式描述了一种字符串匹配的模式,可以用来查找一个字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。其是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,则认为该字符串与正则表达式“匹配”。例如,法条法规中通常都有如下表达方式:依法应予纠正,撤销,或者发回重审,则可设置与上述表达方式相匹配的正则表达式模式,进而识别出法条法规中具体属性内容的表达方式。
获取包含预设关键词的第一文本集后,可以利用标注工具(例如,Label Imag工具)对该第一文本集的各个文本标注多个预设标签要素,预设标签要素包括:案由、文书号、人员、时间、法律依据、诉求事项、驳回理由等核心要素,将第一文本集中的各个文本作为自变量,该文本对应的多个预设标签要素作为因变量生成训练样本集。
之后,利用训练样本集对预先构建的模型进行训练得到文本要素提取模型,预先构建的模型可以是自然语言处理模型。
在一个实施例中,所述预先构建的模型包括将word2vec作为嵌入层,并嵌套栈式循环神经网络,最后将条件随机场模型作为多分类任务输出层的有监督模型。
在一个实施例中所述基于所述训练样本集训练预先构建的模型得到文本要素提取模型包括:
将所述训练样本集按照预设比例分成训练集及验证集;
利用所述训练集中的自变量及因变量对所述预先构建的模型进行训练,每隔预设周期使用所述验证集对所述预先构建的模型进行验证,利用所述验证集中的自变量及因变量对该文本要素提取模型的第一准确率进行验证;
当验证所述第一准确率大于第一预设阈值时,结束训练,得到所述文本要素提取模型。
其中,预设比例可以4:1,预设周期可以是迭代1000次,第一预设准确率可以是95%。
步骤S20:从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎。
在本实施例中,从预定的第二数据源获取第二预设类型的第二文本集,第二数据源包括但不限于中国裁判文书网、中国执行信息公开网以及本地相关的司法库,预设类型的第二文本集可以是判决书、裁定书、调解书等批量文本信息,基于预设标签要素对第二文本集中的各文本执行聚类操作,得到多个标签对应的子文本簇,基于各子文本簇对应的文本集建立规则引擎。
其中,所述基于所述标签要素对第二文本集中的各文本执行聚类操作包括:
基于所述标签要素对所述第二文本集中的文本执行分词处理得到多个文本特征词;
基于词向量转换模型分别将所述文本特征词转换为词向量,并将所述第二文本集对应的所有词向量进行叠加,得到所述第二文本集的多个文本向量;
对所述多个文本向量执行聚类操作得到多个子文本簇。
具体地,可以根据标签要素利用最大正向匹配算法对第二文本集中的文本执行分词处理,根据word2vec模型将分词得到的多个文本特征词转换为词向量,将所有词向量进行叠加得到第二文本集的多个文本向量,利用K-Means算法对多个文本向量执行聚类操作得到多个子文本簇。
之后,通过业务数据特征(例如,公民、法人或其他组织的数据特征),形成构成问题案件的数据标签之间的组合逻辑,作为规则引擎的基本单位——逻辑规则,例如,可在后台配置如下逻辑规则:公民、法人或者其他组织对行政行为在法定期限内即不提起诉讼也不履行的;公民、法人或者其他组织对行政行为在法定期限内不完全履行的。之后,根据实际行政非诉审查执行不规范的所有逻辑规则打包集成,通过一系列的“且、与、或、非、大于、小于、等于、不等、大于等于、小于等于、不包含、包含”逻辑关系运算符,优先级排序、先后重要性排序等对逻辑规则进行集成组合,以此构建可回溯、可解释、可视化的规则引擎。
规则引擎的应用,对输入文本首先进行要素解析与数据标签化后,将结构化数据、标签数据输入至集成的规则引擎中,可输出行政非诉执行的案件是否触发规则引擎的逻辑规则,触发哪些逻辑规则,以此来输出问题案件。
以“法院执行裁定错误”业务场景为例,该场景下包括被执行人性质、财产状况、主体状态、裁定结果、失信名单等一系列标签要素,将被执行人性质、主体状态、财产状况三个标签要素通过“且”的关系进行组合,得出“被执行人商事主体状态为开业(存续)但无可执行的财产”规则,以此逻辑判断法院裁定结果的准确性。
在一个实施例中,所述方法还包括:基于所述标签要素及各所述标签要素对应的子文本集建立标签库。通过建立标签库可以将标签要素及标签要素对应的子文本存储至标签库中,后续在对待识别的文本进行要素识别时,可以直接从标签库获取标签并建立相应的规则引擎。
步骤S30:响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素。
在本实施例中,响应用户发出的识别请求,获取文本识别请求携带的原始文本,文本识别请求中可以包括待识别的原始文本(例如,裁判文书),也可以包括待识别的原始文本的存储路径及唯一的标识。也就是说,原始文本可以是用户在提交文本识别请求时通过人机交互界面一并录入的,也可以是用户提交文本识别请求之后从请求指定的地址中获取,将所述原始文本输入文本要素提取模型,得到所述原始文本对应的多个标签要素。
步骤S40:将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
在本实施例中,将文本识别请求中携带的原始文本经过文本要素提取模型得到的标签要素输入预先建立的规则引擎,得到原始文本的识别结果,将识别结果推送至预设用户。识别结果可以是行政非诉执行监督线索,例如,“损害了社会公共利益或者被执行人的合法权益”、“执法程序的合法性”、“执行未落地”等问题情形,利用规则引擎的可视化及可解释特性对文书命中问题进行可视化标注解释,通过系统平台将上述信息呈现推荐给对应检察官。
在一个实施例中,将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果包括:
将所述原始文本对应的多个标签要素输入所述规则引擎,对所述原始文本对应的多个标签要素进行识别,得到所述原始文本的目标识别结果。其中,可以基于规则引擎中预先建立的规则对原始文本对应的多个标签要素进行识别,预先建立的规则是根据多个逻辑运算符建立的。
具体地,可以利用规则引擎按中预先建立的规则对原始文本的标签要素进行识别,按照“与、或、并、非、且、大于、小于、等于、不等、大于等于、小于等于、不包含、包含”等逻辑运算,如果满足特定条件,则视为疑似非诉执行案件。例如(履行金额A小于阈值,且履行期限B距今不满一月)的记录可视为疑似非诉执行案件。
进一步地,为减少检察院人工一一识别、筛选、转派、分发识别结果的工作量,通过监督机构、被监督对象的职权监督管理的映射关系构建关系任务网络,根据建立的关系任务网络自动识别匹配并进行识别结果对应的任务分发,将识别结果精准推送至相对应层级的检察院实施处理。例如,通过规则引擎识别出A地域市场监督管理局存在不作为行为,该条线索信息通过关系任务网络自动流转至对应承接监督任务的A地域检察院进行处理。
在一个实施例中,所述方法还包括:将所述目标识别结果反馈至所述用户后,并对用户所属的页面展示预设数量的选项,以供所述用户对目标识别结果进行反馈。
识别结果反馈阶段可以反馈如下若干字段,例如:风险层级(按照标的额、涉罪可能性、线索指向等维度计量)、法律依据、异常问题:明确指出潜在风险所在。关联案件信息(案号与文书等),关联案件可以是因子相同或者相似的场景。异常案件文书详情:当前异常数据的具体情况。
在前端展示的输出页面,可以为检察官提供采纳\未采纳等选项,跟踪推送给检察官的线索信息最终处理结果,分别针对采纳、不采纳的情况转化成向量化样本集,根据检察官对结果的反馈信息,将样本重新导入至训练样本集,重新进行训练等操作,以此修正文本要素提取模型参数,提高文本要素提取模型的精度。
此外,本发明实施例还提出一种计算机可读存储介质,该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本识别程序10,所述文本识别程序10被处理器执行时实现如下操作:
从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
在另一个实施例中,本发明所提供的文本识别方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如第一文本集、第二文本集及待识别文本等等,这些数据均可存储在区块链节点中。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明之计算机可读存储介质的具体实施方式与上述文本识别方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本识别方法,应用于电子设备,其特征在于,所述方法包括:
从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
2.如权利要求1所述的文本识别方法,其特征在于,所述预先构建的模型包括将word2vec作为嵌入层,并嵌套栈式循环神经网络,最后将条件随机场模型作为多分类任务输出层的有监督模型。
3.如权利要求1所述的文本识别方法,其特征在于,所述基于所述训练样本集训练预先构建的模型得到文本要素提取模型包括:
将所述训练样本集按照预设比例分成训练集及验证集;
利用所述训练集中的自变量及因变量对所述预先构建的模型进行训练,每隔预设周期使用所述验证集对所述预先构建的模型进行验证,利用所述验证集中的自变量及因变量对所述文本要素提取模型的第一准确率进行验证;
当验证所述第一准确率大于第一预设阈值时,结束训练,得到所述文本要素提取模型。
4.如权利要求1所述的文本识别方法,其特征在于,所述基于所述标签要素对第二文本集中的各文本执行聚类操作包括:
基于所述标签要素对所述第二文本集中的文本执行分词处理得到多个文本特征词;
基于词向量转换模型分别将所述文本特征词转换为词向量,并将所述第二文本集对应的所有词向量进行叠加,得到所述第二文本集的多个文本向量;
对所述多个文本向量执行聚类操作得到多个子文本簇。
5.如权利要求1所述的文本识别方法,其特征在于,所述方法还包括:
基于所述标签要素及各所述标签要素对应的子文本集建立标签库。
6.如权利要求1所述的文本识别方法,其特征在于,所述方法还包括:
将所述目标识别结果反馈至所述用户后,在所述用户所属的页面展示预设数量的选项,以供所述用户基于所述选项对目标识别结果进行反馈。
7.如权利要求1至6中任意一项所述的文本识别方法,其特征在于,所述将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果包括:
将所述原始文本对应的多个标签要素输入所述规则引擎,基于所述规则引擎中预先建立的规则对所述原始文本对应的多个标签要素进行识别,得到所述原始文本的目标识别结果,其中,所述预先建立的规则是根据多个逻辑运算符建立的。
8.一种文本识别装置,其特征在于,所述装置包括:
训练模块:用于从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
建立模块:用于从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
提取模块:用于响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
识别模块:用于将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本识别程序,所述文本识别程序被处理器执行时,实现如权利要求1至7中任一项所述文本识别方法的步骤。
CN202010913772.XA 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质 Pending CN111967437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010913772.XA CN111967437A (zh) 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010913772.XA CN111967437A (zh) 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111967437A true CN111967437A (zh) 2020-11-20

Family

ID=73393493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010913772.XA Pending CN111967437A (zh) 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111967437A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112905789A (zh) * 2021-02-02 2021-06-04 中国建设银行股份有限公司 一种基于自然语言处理的非结构化数据处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033105A (zh) * 2017-06-09 2018-12-18 北京国双科技有限公司 获取裁判文书焦点的方法和装置
CN110334214A (zh) * 2019-07-09 2019-10-15 四川省广安市人民检察院 一种自动识别案件中虚假诉讼的方法
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN111062834A (zh) * 2019-12-11 2020-04-24 深圳前海环融联易信息科技服务有限公司 纠纷案件实体识别方法、装置、计算机设备及存储介质
CN111126053A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033105A (zh) * 2017-06-09 2018-12-18 北京国双科技有限公司 获取裁判文书焦点的方法和装置
CN111126053A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN110334214A (zh) * 2019-07-09 2019-10-15 四川省广安市人民检察院 一种自动识别案件中虚假诉讼的方法
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN111062834A (zh) * 2019-12-11 2020-04-24 深圳前海环融联易信息科技服务有限公司 纠纷案件实体识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨俊宴;程洋;邵典;: "从静态蓝图到动态智能规则:城市设计数字化管理平台理论初探", 城市规划学刊, no. 02, 20 March 2018 (2018-03-20) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112905789A (zh) * 2021-02-02 2021-06-04 中国建设银行股份有限公司 一种基于自然语言处理的非结构化数据处理方法及系统
CN112905789B (zh) * 2021-02-02 2023-02-28 中国建设银行股份有限公司 一种基于自然语言处理的非结构化数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN108038091B (zh) 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US10347019B2 (en) Intelligent data munging
CN111125343B (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN110765770A (zh) 一种合同自动生成方法及装置
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
CN111814472B (zh) 文本识别方法、装置、设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
CN113486158B (zh) 基于案情比对的类案检索方法、装置、设备及存储介质
CN111612610A (zh) 风险预警方法及系统、电子设备及存储介质
CN111967437A (zh) 文本识别方法、装置、设备及存储介质
CN112231417A (zh) 数据分类方法、装置、电子设备及存储介质
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
CN115936932A (zh) 司法文书的处理方法、装置、电子设备和存储介质
CN114996386A (zh) 业务角色识别方法、装置、设备及存储介质
CN113901075A (zh) 生成sql语句的方法、装置、计算机设备及存储介质
CN114708073A (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN112528100A (zh) 一种标签策略推荐和打标方法、终端设备及存储介质
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN116431711B (zh) 基于数据特征实现的数据智能采集方法及系统
CN117390933B (zh) 用于润滑油制备下的工艺数据追溯方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination