CN112925902B - 案情文本中智能提取文本摘要的方法、系统及电子设备 - Google Patents
案情文本中智能提取文本摘要的方法、系统及电子设备 Download PDFInfo
- Publication number
- CN112925902B CN112925902B CN202110198207.4A CN202110198207A CN112925902B CN 112925902 B CN112925902 B CN 112925902B CN 202110198207 A CN202110198207 A CN 202110198207A CN 112925902 B CN112925902 B CN 112925902B
- Authority
- CN
- China
- Prior art keywords
- text
- label
- case
- labels
- case text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 2
- 241000119250 Sesbania punicea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种案情文本中智能提取文本摘要的方法、系统及电子设备,通过将案情文本输入语义模型、分类器以及与标签扩充集合进行匹配,分别得到标签,进而通过预设的融合策略将三种方式获得的标签进行融合,最终形成文本摘要,由于上述三种方式获得的标签均基于统一的定义,故本发明可以从案情文本中智能提取结构化的文本摘要,有利于案情文本的检索和对比。
Description
技术领域
本发明属于文本及自然语言处理技术领域,尤其涉及一种案情文本中智能提取文本摘要的方法、系统及电子设备。
背景技术
对文本进行自动摘要的提取,属于自然语言处理,提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读,并且可以让文章与文章之间产生关联,同时也可以让读者快速定位到相关的文章内容。
传统文本摘要的提取方法分为:1、抽取式自动文摘方法,通过提取文档中已存在的关键词形成摘要;2、生成式自动文摘方法,通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。
上述传统的方法均无法提取结构化的文本摘要,使得提取到的文本摘要无法用数据或统一的结构加以表示,这样的文本摘要不利于案情文本的检索和对比,而对于案情文本来说,检索和对比尤为重要。
发明内容
基于此,针对上述技术问题,提供一种案情文本中智能提取文本摘要的方法、系统及电子设备。
为解决上述技术问题,本发明采用如下技术方案:
一方面,本发明提供一种案情文本中智能提取文本摘要的方法,包括:
S101、接收案情文本;
S102、将所述案情文本输入语义模型,输出标签,所述语义模型被构建为:
将预先建立的标签集合中每个标签的说明描述和样本举例作为字符串1,将输入的案情文本作为字符串2,遍历每个标签对应的字符串1,计算字符串2与字符串1的相似度,输出相似度得分大于第一阈值的字符串1对应的标签;
所述标签集合中的标签用于形成案情文本的文本摘要,每个标签分别具有说明描述和样本举例;
S103、将所述案情文本与标签扩充集合进行匹配,输出被所述案情文本包含的标签,所述标签扩充集合由对所述标签集合进行同义词扩充后获得;
S104、将所述案情文本输入预训练的分类器,输出标签,用于训练所述分类器的训练样本为根据所述标签集合进行标注后的历史案情文本,且每种标签的历史案情文本的数量不小于第二阈值;
另一方面,本发明提供一种案情文本中智能提取文本摘要的系统,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种案情文本中智能提取文本摘要的方法。
再一方面,本发明提供一种电子设备,该设备具有上述的一种案情文本中智能提取文本摘要的系统。
本发明通过将案情文本输入语义模型、分类器以及与标签扩充集合进行匹配,分别得到标签,进而通过预设的融合策略将三种方式获得的标签进行融合,最终形成文本摘要,由于上述三种方式获得的标签均基于统一的定义,故本发明可以从案情文本中智能提取结构化的文本摘要,有利于案情文本的检索和对比。
附图说明
下面结合附图和具体实施方式本发明进行详细说明:
图1为本发明的流程图。
具体实施方式
如图1所示,本说明书实施例提供一种案情文本中智能提取文本摘要的方法,包括:
S101、接收案情文本。
S102、将案情文本输入语义模型,输出标签。
其中,语义模型被构建为:
将预先建立的标签集合中每个标签的说明描述和样本举例作为字符串1,将输入的案情文本作为字符串2,遍历每个标签对应的字符串1,计算字符串2与字符串1的相似度,输出相似度得分大于第一阈值的字符串1对应的标签,第一阈值可以选用0.5。
在本实施例中,语义模型采用的相似度得分函数为
其中,x1k为字符串1的数据向量,x2k为字符串2的数据向量,k为1,2,3,4.....n的序号。当然,也可以采用其它的函数。
可以使用gensim工具包和公开的中文语料训练的词嵌入文件将字符串转换为数据向量(如(0.1,0.3,0.12,...)),也可以使用其它的词嵌入工具,比如fasttext工具包/bert等。
标签集合中的标签用于形成案情文本的文本摘要,每个标签分别具有说明描述和样本举例,具体地,标签集合建立过程如下:
1、收集案情维度信息,案情维度信息包括案件信息、案件大小、时间信息以及空间信息。案情维度信息为案情的核心维度信息,警官进行案情描述的时候,都会重点记录这些信息。
2、为每个案情维度信息定义对应的小颗粒度的标签,每个标签分别具有说明描述和样本举例,形成标签集合。
以丢失物品的案情为例,案情维度信息如下:
丢失物品(现金/电脑/首饰/手机/家电/纪念品),案件大小(团伙/单人),时间信息(工作日/休息日/清晨/上午/中午/下午/傍晚/上半夜/下半夜),空间信息(城区/乡镇/村庄),括号中为多个小颗粒度的标签。
现金标签的说明描述:人民币,美金等其他现钞与钞票,样本举例:杨某回家后,窗户被打开,并且发现床头柜里面一万人民币遗失。
S103、将案情文本与标签扩充集合进行匹配,输出被案情文本包含的标签。
其中,标签扩充集合由对标签集合进行同义词扩充后获得,如现金标签可以扩充的同义词为:现钞/纸币/人民币/美元/英镑/欧元/日元/韩币/钞票,在匹配时,如果案情文本中含有现金或者其同义词,则输出的标签为现金。
S104、将案情文本输入预训练的分类器,输出标签,用于训练分类器的训练样本为根据标签集合进行标注后的历史案情文本,且每种标签的历史案情文本的数量不小于第二阈值,如含有现金标签的历史案情文本的数量不小于第二阈值,第二阈值可以选用10000。
其中,分类器可以采用bert分类器,训练时采用的GPU型号为2080ti,操作系统为linux。
需要指出的是,步骤S102、S103以及S104不分先后顺序。
S105、将步骤S102输出的标签作为第一标签,将步骤S103输出的标签作为第二标签,将步骤S104输出的标签作为第三标签,按照预设融合策略对第一标签、第二标签以及第三标签进行融合,获得最终标签,形成案情文本的文本摘要。这样,可以将弱分类器和弱模型进行融合形成强模型,从而得到较好的精度,弱模型/分类器在数据不够大的情况下会形成统计学偏见、偏执、过拟合等情况,强模型可以缺避免这种情况。
在本实施例中,融合策略为:
1、保留第一标签与第三标签中相同的标签。
第一标签基于语义模型,分类器的训练也是基于文本的语义嵌入,故第三标签也基于语义模型。语义模型是基于统计与概率等的计算产物,大概率的计算结果是准确的,所以也会存在小概率的计算结果是错误的,第一标签与第三标签的交集可以很好地减少这个小概率的错误结果发生,从而达到性能的最优。
2、保留剩余第三标签中相应的样本数大于第三阈值的标签(阈值可以选为50000),随机保留剩余第一标签中预设比例的标签(可以选为50%)。
其中,第三标签是通过分类模型计算得到的,而模型训练的准确率很大程度由样本数据质量决定的,某一个标签的样本数据质量越好,则训练出来对该标签判断的准确率越高,样本数据的数量对其质量起到很重要的作用,所以阈值设置为50000。
而第一标签交集外的部分,如果全部丢弃,很大程度会遗漏一些正确的标签,所以这里保留50%。
3、保留所有第二标签,第二标签纯粹基于人工定义的规则,由于它是靠人工精选的扩充词库来匹配,所以准确率是可以得到保障,因此全部选取。
基于同一发明构思,本说明书实施例还提供一种案情文本中智能提取文本摘要的系统,包括存储模块,存储模块包括由处理器加载并执行的指令(程序代码),指令在被执行时使处理器执行本说明书上述一种案情文本中智能提取文本摘要的方法部分中描述的根据本发明各种示例性实施方式的步骤。
其中,存储模块可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
基于同一发明构思,本说明书实施例还提供一种电子设备,该电子设备具有本说明书上述的一种案情文本中智能提取文本摘要的系统,此处不再具体赘述。
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (8)
1.一种案情文本中智能提取文本摘要的方法,其特征在于,包括:
S101、接收案情文本;
S102、将所述案情文本输入语义模型,输出标签,所述语义模型被构建为:
将预先建立的标签集合中每个标签的说明描述和样本举例作为字符串1,将输入的案情文本作为字符串2,遍历每个标签对应的字符串1,计算字符串2与字符串1的相似度,输出相似度得分大于第一阈值的字符串1对应的标签;
所述标签集合中的标签用于形成案情文本的文本摘要,每个标签分别具有说明描述和样本举例;
S103、将所述案情文本与标签扩充集合进行匹配,输出被所述案情文本包含的标签,所述标签扩充集合由对所述标签集合进行同义词扩充后获得;
S104、将所述案情文本输入预训练的分类器,输出标签,用于训练所述分类器的训练样本为根据所述标签集合进行标注后的历史案情文本,且每种标签的历史案情文本的数量不小于第二阈值;
S105、将步骤S102输出的标签作为第一标签,将步骤S103输出的标签作为第二标签,将步骤S104输出的标签作为第三标签,按照预设融合策略对第一标签、第二标签以及第三标签进行融合,获得最终标签,形成案情文本的文本摘要。
2.根据权利要求1所述的一种案情文本中智能提取文本摘要的方法,其特征在于,所述语义模型采用的相似度得分函数为
其中,x1k为字符串1的数据向量,x2k为字符串2的数据向量,k为序号。
3.根据权利要求1或2所述的一种案情文本中智能提取文本摘要的方法,其特征在于,所述标签集合通过以下步骤建立:
收集案情维度信息,所述案情维度信息包括案件信息、案件大小、时间信息以及空间信息;
为每个案情维度信息定义对应的小颗粒度的标签,每个标签分别具有说明描述和样本举例,形成标签集合。
4.根据权利要求3所述的一种案情文本中智能提取文本摘要的方法,其特征在于,所述分类器采用bert分类器。
5.根据权利要求4所述的一种案情文本中智能提取文本摘要的方法,其特征在于,所述融合策略为:
保留第一标签与第三标签中相同的标签,保留剩余第三标签中相应的样本数大于第三阈值的标签,随机保留剩余第一标签中预设比例的标签,保留所有第二标签。
6.根据权利要求5所述的一种案情文本中智能提取文本摘要的方法,其特征在于,所述第一阈值为0.5,所述第二阈值为10000,所述第三阈值为50000,所述预设比例为50%。
7.一种案情文本中智能提取文本摘要的系统,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行根据权利要求1-6任一项所述的一种案情文本中智能提取文本摘要的方法。
8.一种电子设备,其特征在于,具有根据权利要求7所述的一种案情文本中智能提取文本摘要的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110198207.4A CN112925902B (zh) | 2021-02-22 | 2021-02-22 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110198207.4A CN112925902B (zh) | 2021-02-22 | 2021-02-22 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112925902A CN112925902A (zh) | 2021-06-08 |
CN112925902B true CN112925902B (zh) | 2024-01-30 |
Family
ID=76170073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110198207.4A Active CN112925902B (zh) | 2021-02-22 | 2021-02-22 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925902B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080087994A (ko) * | 2007-03-28 | 2008-10-02 | 인하대학교 산학협력단 | 엑스엠엘 문서 유사도 측정 장치 및 그 방법 |
CN104679902A (zh) * | 2015-03-20 | 2015-06-03 | 湘潭大学 | 一种结合跨媒体融合的信息摘要提取方法 |
CN106970991A (zh) * | 2017-03-31 | 2017-07-21 | 北京奇虎科技有限公司 | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 |
CN109376309A (zh) * | 2018-12-28 | 2019-02-22 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN110209802A (zh) * | 2019-06-05 | 2019-09-06 | 北京金山数字娱乐科技有限公司 | 一种提取摘要文本的方法及装置 |
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
CN111104526A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于关键词语义的金融标签提取方法及系统 |
CN111931041A (zh) * | 2020-07-03 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 一种标签推荐方法、装置、电子设备及存储介质 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
-
2021
- 2021-02-22 CN CN202110198207.4A patent/CN112925902B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080087994A (ko) * | 2007-03-28 | 2008-10-02 | 인하대학교 산학협력단 | 엑스엠엘 문서 유사도 측정 장치 및 그 방법 |
CN104679902A (zh) * | 2015-03-20 | 2015-06-03 | 湘潭大学 | 一种结合跨媒体融合的信息摘要提取方法 |
CN106970991A (zh) * | 2017-03-31 | 2017-07-21 | 北京奇虎科技有限公司 | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN109376309A (zh) * | 2018-12-28 | 2019-02-22 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN110209802A (zh) * | 2019-06-05 | 2019-09-06 | 北京金山数字娱乐科技有限公司 | 一种提取摘要文本的方法及装置 |
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
CN111104526A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于关键词语义的金融标签提取方法及系统 |
CN111931041A (zh) * | 2020-07-03 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 一种标签推荐方法、装置、电子设备及存储介质 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
Non-Patent Citations (3)
Title |
---|
Research on topic detection technology for information security texts;Lin lin等;《2019 IEEE 5th international conference on computer and communications》;1621-1627 * |
基于简介和评论的标签推荐方法研究;褚晓敏等;《中文信息学报》(第06期);179-184 * |
基于距离学习的生物医学文本聚类算法研究;袁伟等;《计算机应用与软件》(第11期);4-5, 19 * |
Also Published As
Publication number | Publication date |
---|---|
CN112925902A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jung | Semantic vector learning for natural language understanding | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN109902288A (zh) | 智能条款分析方法、装置、计算机设备及存储介质 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN112883734B (zh) | 区块链安全事件舆情监测方法及系统 | |
US20210004602A1 (en) | Method and apparatus for determining (raw) video materials for news | |
CN110188189B (zh) | 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 | |
CN116050397B (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN112861990A (zh) | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111475608B (zh) | 一种基于功能语义关联计算的Mashup服务特征表示方法 | |
Kurniawan et al. | Indonesian twitter sentiment analysis using Word2Vec | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN110162651B (zh) | 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN112925902B (zh) | 案情文本中智能提取文本摘要的方法、系统及电子设备 | |
CN103119585B (zh) | 知识获取装置及方法 | |
CN112685548A (zh) | 问题回答方法以及电子设备、存储装置 | |
Hu et al. | SP-BTM: A Specific Part-of-Speech BTM for Service Clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |