CN111078823A - 文本要素提取方法、装置及电子设备 - Google Patents

文本要素提取方法、装置及电子设备 Download PDF

Info

Publication number
CN111078823A
CN111078823A CN201911284362.7A CN201911284362A CN111078823A CN 111078823 A CN111078823 A CN 111078823A CN 201911284362 A CN201911284362 A CN 201911284362A CN 111078823 A CN111078823 A CN 111078823A
Authority
CN
China
Prior art keywords
element extraction
text
suspect
model
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911284362.7A
Other languages
English (en)
Inventor
李亮
孙德毅
蔺文萃
李文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911284362.7A priority Critical patent/CN111078823A/zh
Publication of CN111078823A publication Critical patent/CN111078823A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及自然语言处理技术领域,具体而言,涉及一种文本要素提取方法、装置及电子设备。本申请实施例提供的文本要素提取方法,包括:获取目标文本,分别通过M个要素提取模型,对所述目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数,根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果。本申请实施例提供的文本要素提取方法、装置及电子设备相对于现有技术,能够证文本要素提取结果的可靠性。

Description

文本要素提取方法、装置及电子设备
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本要素提取方法、装置及电子设备。
背景技术
随着国民经济的快速发展,犯罪手段和犯罪方法也随之发生了显著变化,以电信诈骗为代表的新型诈骗案件更是逐年上升。该类新型诈骗案件缺乏真实的案发现场,且形式多样,因此,针对该类新型诈骗案件,传统的案件侦破方法往往很受限制,往往只能将受害人的报案文本(例如,简要案情,或受害人笔录)作为案件侦破的关键线索,为提高案件侦破效率,在获得报案文本之后,通常需要提取出报案文本中包括的案发时间、基本案情、嫌疑人信息(例如,嫌疑人居民身份证号码、嫌疑人微信昵称、嫌疑人微信号码、嫌疑人QQ昵称、嫌疑人QQ号码)等文本要素,并将其提供给办案人员。
目前,对报案文本进行处理时,通常采用的方法为,根据报案文本中可能包括的各文本要素的撰写特征和撰写习惯,采用对应的查询规则进行匹配而提取文本要素。例如,居民身份证号码通为18位,其编排规律为:
(1)第1、2位数字表示所在省份的代码;
(2)第3、4位数字表示所在城市的代码;
(3)第5、6位数字表示所在区县的代码;
(4)第7~14位数字表示出生年、月、日;
(5)第15~17位数字是顺序码,用于表示在同一地址码所标识的区域范围内,对同年、同月、同日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配给女性;
(6)第18位数字是校检码,用于检验身份证的正确性,校检码可以是0~9的数字,也可以为X。
因此,可以通过编排规律,也即,前后字符,以及位数匹配,获得文本要素提取结果。该类方法,因处理逻辑简单,而应用较为广泛。但该类方法也存在诸多弊端,例如,对微信号码、QQ号码等编排规律不显著的文本要素提取效果较差,因此,无法保证文本要素提取的可靠性。
发明内容
本申请实施例的目的在于,提供一种文本要素提取方法、装置及电子设备,以解决上述问题。
第一方面,本申请实施例提供的文本要素提取方法,包括:
获取目标文本;
分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数;
根据M个参考要素提取结果,获得目标文本的文本要素提取结果。
本申请实施例提供的文本要素提取方法,包括:获取目标文本,分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数,根据M个参考要素提取结果,获得目标文本的文本要素提取结果。本申请实施例中,通过要素提取模型,对目标文本进行要素提取,获得的参考要素提取结果,相对于现有技术中,根据报案文本中可能包括的各文本要素的撰写特征和撰写习惯,采用对应的查询规则进行匹配而提取的文本要素而言,具有较高的可靠性,此外,又由于文本要素提取结果是根据M个文本要素提取结果获得的,因此,能够进一步保证文本要素提取结果的可靠性。
结合第一方面,本申请实施例还提供了第一方面的第一种可选的实施方式,根据M个参考要素提取结果,获得目标文本的文本要素提取结果,包括:
获得M个要素提取模型中,每个要素提取模型对应的模型权重;
针对所述M个要素提取模型中包括的每个要素提取模型,根据所述要素提取模型对应的模型权重,以及所述要素提取模型对应的参考要素提取结果,获得所述目标文本的文本要素提取结果。
本申请实施例中,根据M个参考要素提取结果,获得目标文本的文本要素提取结果,包括:获得M个要素提取模型中,每个要素提取模型对应的模型权重,针对M个要素提取模型中包括的每个要素提取模型,根据要素提取模型对应的模型权重,以及要素提取模型对应的参考要素提取结果,获得目标文本的文本要素提取结果,从而保证文本要素提取结果的可靠性。
结合第一方面的第一种可选的实施方式,本申请实施例还提供了第一方面的第二种可选的实施方式,获得M个要素提取模型中,每个要素提取模型对应的模型权重,包括:
获取测试数据集,测试数据集包括测试文本,以及测试文本中,每个第一字符对应的第一标签;
通过测试数据集,分别对M个要素提取模型中包括的每个要素提取模型进行测试,获得M个测试结果;
根据M个测试结果,获得M个要素提取模型中,每个要素提取模型对应的模型权重。
本申请实施例中,获得M个要素提取模型中,每个要素提取模型对应的模型权重,包括:获取测试数据集,测试数据集包括测试文本,以及测试文本中,每个第一字符对应的第一标签,通过测试数据集,分别对M个要素提取模型中包括的每个要素提取模型进行测试,获得M个测试结果,再根据M个测试结果,获得M个要素提取模型中,每个要素提取模型对应的模型权重。该过程处理逻辑简单,因此,能够提高文本要素提取方法的执行效率。
结合第一方面的第二种可选的实施方式,本申请实施例还提供了第一方面的第三种可选的实施方式,根据M个测试结果,获得M个要素提取模型中,每个要素提取模型对应的模型权重,包括:
针对M个要素提取模型中包括的每个要素提取模型,获得要素提取模型对应的测试结果的准确率,作为要素提取模型对应的模型权重。
本申请实施例中,根据M个测试结果,获得M个要素提取模型中,每个要素提取模型对应的模型权重,包括:针对M个要素提取模型中包括的每个要素提取模型,获得要素提取模型对应的测试结果的准确率,作为要素提取模型对应的模型权重,从而进一步提高文本要素提取结果的可靠性。
结合第一方面的第二种可选的实施方式,本申请实施例还提供了第一方面的第四种可选的实施方式,文本要素提取方法,还包括:
获取训练数据集,训练数据集包括训练文本,以及训练文本中,每个第二字符对应的第二标签;
通过训练数据集,分别对M个原始模型进行训练,获得M个要素提取模型。
本申请实施例提供的文本要素提取方法,还包括:获取训练数据集,训练数据集包括训练文本,以及训练文本中,每个第二字符对应的第二标签,通过训练数据集,分别对M个原始模型进行训练,获得M个要素提取模型。
结合第一方面,本申请实施例还提供了第一方面的第五种可选的实施方式,文本要素提取方法,还包括:
根据文本要素提取结果获得目标文本信息;
对目标文本信息进行显示。
本申请实施例提供的文本要素提取方法,还包括:根据文本要素提取结果获得目标文本信息,并对目标文本信息进行显示,从而使得办案人员能够快速直观地获取目标文本信息,从而提高办案效率。
结合第一方面,本申请实施例还提供了第一方面的第六种可选的实施方式,文本要素提取方法,还包括:
基于目标文本,获得与文本要素提取结果对应的原始文本信息;
对原始文本信息进行显示。
本申请实施例提供的文本要素提取方法,还包括:基于目标文本,获得与文本要素提取结果对应的原始文本信息,且对原始文本信息进行显示。如此,便能够实现对原始文本信息的追溯,从而进一步提高文本要素提取结果的可靠性。
第二方面,本申请实施例提供的文本要素提取装置,包括:
文本获取模块,用于获取目标文本;
第一结果提取模块,用于分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数;
第二结果提取模块,用于根据M个参考要素提取结果,获得目标文本的文本要素提取结果。
本申请实施例提供的文本要素提取装置具有与第一方面,或第一方面的任意一种可选的实施方式所提供的文本要素提取方法相同的有益效果,此处不作赘述。
第三方面,本申请实施例提供的电子设备,包括处理器和存储器,存储器上存储有计算机程序,处理器用于执行计算机程序,以实现第一方面,或第一方面的任意一种可选的实施方式所提供的文本要素提取方法。
本申请实施例提供的电子设备装置具有与第一方面,或第一方面的任意一种可选的实施方式所提供的文本要素提取方法相同的有益效果,此处不作赘述。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被执行时,实现第一方面,或第一方面的任意一种可选的实施方式所提供的文本要素提取方法。
本申请实施例提供的计算机可读存储介质具有与第一方面,或第一方面的任意一种可选的实施方式所提供的文本要素提取方法相同的有益效果,此处不作赘述。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的示意性结构框图。
图2为本申请实施例提供的一种文本要素提取方法的步骤流程图。
图3为本申请实施例提供的一种文本要素提取装置的示意性结构框图。
附图标记:100-电子设备;110-处理器;120-存储器;200-文本要素提取装置;210-文本获取模块;220-第一结果提取模块;230-第二结果提取模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参阅图1,为本申请实施例提供的一种应用文本要素提取方法及装置的电子设备100的示意性结构框图。本申请实施例中,电子设备100可以是服务器,例如,网络服务器、数据库服务器等,也可以是终端设备,例如,智能手机、平板电脑、个人数字助理(PersonalDigital Assistant,PAD)、移动上网设备(Mobile Internet Device,MID)等。
在结构上,电子设备100可以包括处理器110和存储器120。
处理器110和存储器120直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。文本要素提取装置200包括至少一个可以软件或固件(Firmware)的形式存储在存储器120中或固化在电子设备100的操作系统(Operating System,OS)中的软件模块。处理器110用于执行存储器120中存储的可执行模块,例如,文本要素提取装置200所包括的软件功能模块及计算机程序等,以实现文本要素提取方法。
处理器110可以在接收到执行指令后,执行计算机程序。其中,处理器110可以是一种集成电路芯片,具有信号处理能力。处理器110也可以是通用处理器,例如,可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图,此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器120用于存储程序,处理器110在接收到执行指令后,执行该程序。
应当理解,图1所示的结构仅为示意,本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件,或是具有与图1所示不同的配置。此外,图1所示的各组件可以通过软件、硬件或其组合实现。
请参阅图2,图2为本申请实施例提供的文本要素提取方法的流程示意图,该方法应用于图1所示的电子设备100。所应说明的是,本申请实施例提供的文本要素提取方法不以图2及以下所示的顺序为限制,以下结合图2对文本要素提取方法的具体流程及步骤进行描述。
步骤S100,获取目标文本。
本申请实施例中,目标文本可以为受害人的报案文本(例如,简要案情,或受害人笔录),包括案发时间、基本案情、嫌疑人信息(例如,嫌疑人居民身份证号码、嫌疑人微信昵称、嫌疑人微信号码、嫌疑人QQ昵称、嫌疑人QQ号码)等文本要素。
本申请实施例中,约定,目标文本包括多个第三字符,以目标文本为“受害人小强被诈骗3000块钱,对方QQ号:3414762199;微信:nwiv0337,名字:WLLIAMSJOSE。”为例,目标文本包括59个第三字符,分别为'受'、'害'、'人'、'小'、'强'、'被'、'诈'、'骗'、'3'、'0'、'0'、'0'、'块'、'钱'、','、'对'、'方'、'Q'、'Q'、'号'、':'、'3'、'4'、'1'、'4'、'7'、'6'、'2'、'1'、'9'、'9'、';'、'微'、'信'、':'、'n'、'w'、'i'、'v'、'0'、'3'、'3'、'7'、','、'名'、'字'、':'、'W'、'L'、'L'、'I'、'A'、'M'、'S'、'J'、'O'、'S'、'E'、'。'。
步骤S200,分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数。
本申请实施例中,要素提取模型为预先创建的机器学习模型。基于此,本申请实施例提供的文本要素提取方法,还可以包括步骤S001和步骤S002。
步骤S001,获取训练数据集,训练数据集包括训练文本,以及训练文本中,每个第二字符对应的第二标签。
本申请实施例中,训练数据集包括多个训练文本,而训练文本为历史报案文本,或类似报案文本(例如,简要案情,或受害人笔录)的模拟文档,包括案发时间、基本案情、嫌疑人信息(例如,嫌疑人居民身份证号码、嫌疑人微信昵称、嫌疑人微信号码、嫌疑人QQ昵称、嫌疑人QQ号码)等文本要素。
此外,本申请实施例中,约定,训练文本包括多个第二字符,且每个第二字符具有对应的第二标签。第二标签可以是要素标签和无效标签,而要素标签又可以包括案发时间标签、基本案情标签、嫌疑人居民身份证标签、嫌疑人微信昵称标签、嫌疑人微信号码标签、嫌疑人QQ昵称标签、嫌疑人QQ号码标签。本申请实施例中,可以约定,案发时间标签为'time_id',基本案情标签为'details_id',嫌疑人居民身份证标签为'suspect_identitycard_id',嫌疑人微信昵称标签为'suspect_wx_name',嫌疑人微信号码标签为'suspect_wx_id',嫌疑人QQ昵称标签为'suspect_qq_name',嫌疑人QQ号码标签为'suspect_qq_id',而无效标签为'O'。
基于以上描述,以训练文本为“2019年12月10日,受害人张三,在微信朋友圈扫描二维码时,被诈骗6000块钱,嫌疑人的微信昵称为:李四,微信号码为:Lisi12345。”为例,训练文本包括70个第二字符,分别为'2'、'0'、'1'、'9'、'年'、'1'、'2'、'月'、'1'、'0'、'日'、','、'受'、'害'、'人'、'张'、'三'、','、'在'、'微'、'信'、'朋'、'友'、'圈'、'扫'、'描'、'二'、'维'、'码'、'时'、','、'被'、'诈'、'骗'、'6'、'0'、'0'、'0'、'块'、'钱'、','、'嫌'、'疑'、'人'、'的'、'微'、'信'、'昵'、'称'、'为'、':'、'李'、'四'、','、'微'、'信'、'号'、'码'、'为'、':'、'L'、'i'、's'、'i'、'1'、'2'、'3'、'4'、'5'、'。'。
其中,案发时间为“2019年12月10日”,基本案情为“微信朋友圈扫描二维码被诈骗”,嫌疑人微信昵称为“李四”,嫌疑人微信号码为“Lisi12345”,其他字符为无效字符,因此,训练文本包括70个第二字符对应的第二标签分别为'B-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'B-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'I-details_id'、'O'、'O'、'I-details_id'、'I-details_id'、'I-details_id'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O”'、'O'、'O'、'B-suspect_wx_name'、'I-suspect_wx_name'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'B-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'O'。
此外,需要说明的是,实际实施时,训练文本包括的第二字符数量可以是几百个,甚至几千个,本申请实施例对此不作具体限制。
步骤S002,通过训练数据集,分别对M个原始模型进行训练,获得M个要素提取模型。
其中,M≥2,且为整数,例如,M可以为2、3、4。当M为4时,4个原始模型可以包括BiLSTM+CRF模型、BiGRU+CRF模型、CNN+LSTM模型、以及BERT预训练模型结合BiLSTM+CRF模型。为方便描述,本申请实施例中,可以约定,通过训练数据集,对BiLSTM+CRF模型进行训练,获得要素提取模型A,通过训练数据集,对BiGRU+CRF模型进行训练,获得要素提取模型B,通过训练数据集,对CNN+LSTM模型进行训练,获得要素提取模型C,通过训练数据集,对BERT预训练模型结合BiLSTM+CRF模型进行训练,获得要素提取模型D。
本申请实施例中,在获得要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D之后,还可以分别对要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D进行优化,以提高模型可靠性。
在获得要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D之后,便可以执行步骤S200,分别通过要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D,对目标文本进行要素提取,获得4个参考要素提取结果。
步骤S300,根据M个参考要素提取结果,获得目标文本的文本要素提取结果。
对于步骤S300,本申请实施例中,作为第一种可选的实施方式,其可以将M个参考要素提取结果,共同作为目标文本的文本要素提取结果,从而保证文本要素提取结果的全面性。
对于步骤S300,本申请实施例中,作为第二种可选的实施方式,其也可以包括步骤S310和步骤S320,从而保证文本要素提取结果的可靠性。
步骤S310,获得M个要素提取模型中,每个要素提取模型对应的模型权重。
本申请实施例中,M个要素提取模型中,每个要素提取模型对应的模型权重可以基于决策树等机器学习模型获得,也可以基于模型准确率统计方法获得,当M个要素提取模型中,每个要素提取模型对应的模型权重基于模型准确率统计方法获得时,步骤S310可以包括步骤S311、步骤S312和步骤S313。
步骤S311,获取测试数据集,测试数据集包括测试文本,以及测试文本中,每个第一字符对应的第一标签。
同样,本申请实施例中,测试数据集包括多个测试文本,而测试文本为历史报案文本,或类似报案文本(例如,简要案情,或受害人笔录)的模拟文档,包括案发时间、基本案情、嫌疑人信息(例如,嫌疑人居民身份证号码、嫌疑人微信昵称、嫌疑人微信号码、嫌疑人QQ昵称、嫌疑人QQ号码)等文本要素。
此外,本申请实施例中,约定,测试文本包括多个第一字符,且每个第一字符具有对应的第一标签。第一标签可以是要素标签和无效标签,而要素标签又可以包括案发时间标签、基本案情标签、嫌疑人居民身份证标签、嫌疑人微信昵称标签、嫌疑人微信号码标签、嫌疑人QQ昵称标签、嫌疑人QQ号码标签。本申请实施例中,可以约定,案发时间标签为'time_id',基本案情标签为'details_id',嫌疑人居民身份证标签为'suspect_identitycard_id',嫌疑人微信昵称标签为'suspect_wx_name',嫌疑人微信号码标签为'suspect_wx_id',嫌疑人QQ昵称标签为'suspect_qq_name',嫌疑人QQ号码标签为'suspect_qq_id',而无效标签为'O'。
步骤S312,通过测试数据集,分别对M个要素提取模型中包括的每个要素提取模型进行测试,获得M个测试结果。
步骤S313,根据M个测试结果,获得M个要素提取模型中,每个要素提取模型对应的模型权重。
本申请实施例中,针对M个要素提取模型中包括的每个要素提取模型,获得要素提取模型对应的测试结果的准确率,获得要素提取模型对应的模型权重,基于此,对于步骤S313,本申请实施例中,其可以包括步骤S3131,针对M个要素提取模型中包括的每个要素提取模型,获得要素提取模型对应的测试结果的准确率,作为要素提取模型对应的模型权重。
对于步骤S3131,实际实施时,作为第一种可选的实施方式,其可以是针对M个要素提取模型中包括的每个要素提取模型,在通过某个测试文本,对要素提取模型进行测试,获得对应的测试结果之后,将测试结果中预测准确的标签数量,作为准确标签数,并将准确标签数与测试文本中第一字符数量的比值,作为要素提取模型对应的模型权重。
以测试文本为“2019年12月11日,受害人小明被诈骗5000块钱,嫌疑人的QQ号码为:2420166567,微信号码为:haiwaidaigou,微信昵称为:澳大利亚代购。”为例,测试文本包括80个第一字符,分别为'2'、'0'、'1'、'9'、'年'、'1'、'2'、'月'、'1'、'1'、'日'、','、'受'、'害'、'人'、'小'、'明'、'被'、'诈'、'骗'、'5'、'0'、'0'、'0'、'块'、'钱'、','、'嫌'、'疑'、'人'、'的'、'Q'、'Q'、'号'、'码'、'为'、':'、'2'、'4'、'2'、'0'、'1'、'6'、'6'、'5'、'6'、'7'、','、'微'、'信'、'号'、'码'、'为'、':'、'h'、'a'、'i'、'w'、'a'、'i'、'd'、'a'、'i'、'g'、'o'、'u'、','、'微'、'信'、'昵'、'称'、'为'、':'、'澳'、'大'、'利'、'亚'、'代'、'购'、'。'。
其中,案发时间为“2019年12月11日”,嫌疑人QQ号码为“2420166567”,嫌疑人微信号码为“haiwaidaigou”,嫌疑人微信昵称为“澳大利亚代购”,其他字符为无效字符,因此,测试文本包括80个第一字符对应的第一标签分别为'B-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'I-time_id'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'B-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'I-suspect_qq_id'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'B-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'I-suspect_wx_id'、'O'、'O'、'O'、'O'、'O'、'O'、'O'、'B-suspect_wx_name'、'I-suspect_wx_name'、'I-suspect_wx_name'、'I-suspect_wx_name'、'I-suspect_wx_name'、'I-suspect_wx_name'、'O'。
同时,继续以步骤S002的详细描述为例,假设,M个要素提取模型中包括要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D,分别通过测试文本对要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D进行测试,获得4个测试结果为:
参考要素提取结果A':
['B-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O']
参考要素提取结果B':
['B-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','O']
参考要素提取结果C':
['B-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','O']
参考要素提取结果D':
['B-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','I-time_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name']
根据参考要素提取结果A'可知,其将6个第一字符'澳'、'大'、'利'、'亚'、'代'、'购',对应的第一标签误判为无效标签'O',因此,预测错误的标签数量为6个,也即,准确标签数为74个,因此,要素提取模型A对应的模型权重为74/80。
根据参考要素提取结果B'可知,其将10个第一字符'2'、'4'、'2'、'0'、'1'、'6'、'6'、'5'、'6'、'7',对应的第一标签误判为无效标签'O',因此,预测错误的标签数量为10个,也即,准确标签数为70个,因此,要素提取模型A对应的模型权重为70/80。
根据参考要素提取结果C'可知,其将12个第一字符'h'、'a'、'i'、'w'、'a'、'i'、'd'、'a'、'i'、'g'、'o'、'u',对应的第一标签误判为无效标签'O',因此,预测错误的标签数量为12个,也即,准确标签数为68个,因此,要素提取模型A对应的模型权重为68/80。
根据参考要素提取结果D'可知,其将测试文本中包括的最后一个第一字符'。',对应的第一标签误判为嫌疑人微信昵称标签为'suspect_wx_name',因此,预测错误的标签数量为1个,也即,准确标签数为79个,因此,要素提取模型A对应的模型权重为79/80。
此外,为保证要素提取模型对应的模型权重的可靠性,对于步骤S3131,实际实施时,作为第二种可选的实施方式,其也可以是针对M个要素提取模型中包括的每个要素提取模型,在通过N个测试文本,对要素提取模型进行测试,获得N个对应的测试结果之后,将N个对应的测试结果中包括的每个测试结果中预测准确的标签数量,作为准确标签数,并将准确标签数与测试文本中第一字符数量的比值,作为中间权重值,此后,将N个中间权重值的均值,作为要素提取模型对应的模型权重,其中,N≥2,且为整数。
步骤S320,针对M个要素提取模型中包括的每个要素提取模型,根据要素提取模型对应的模型权重,以及要素提取模型对应的参考要素提取结果,获得目标文本的文本要素提取结果。
本申请实施例中,文本要素提取结果为一个有序的第三标签集合,第三标签集合中包括Z个第三标签,其中,Z为目标文本中包括的第三字符数量,而针对目标文本中的包括的每个第三字符,其对应的第三标签可以通过以下处理逻辑获得。
针对目标文本中包括的每个第三字符,确定每个参考要素提取结果中,与该第三字符对应的参考标签,作为待判标签,判断每个待判标签的标签类别,再获得同标签类别的待判标签的模型权重和,并将模型权重和最大的待判标签,作为第三标签。在获得目标文本中每个第三字符对应的第三标签之后,便可以获得目标文本的文本要素提取结果。
继续以M个要素提取模型中包括要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D为例,假设,对于步骤S3131,本申请实施例中,采取上述第二种可选的实施方式获得的模型权重分别为:
权重A'=0.85
权重B'=0.82;
权重C'=0.90;
权重D'=0.95。
此后,对权重A'、权重B'、权重C'和权重D'进行归一化处理,最终获得:
权重A=权重A'/(权重A'+权重B'+权重C'+权重D')=0.85/(0.85+0.82+0.9+0.95)=0.24;
权重B=权重B'/(权重A'+权重B'+权重C'+权重D')=0.82/(0.85+0.82+0.9+0.95)=0.23;
权重C=权重C'/(权重A'+权重B'+权重C'+权重D')=0.90/(0.85+0.82+0.9+0.95)=0.25;
权重D=权重D'/(权重A'+权重B'+权重C'+权重D')=0.95/(0.85+0.82+0.9+0.95)=0.28。
继续以目标文本为“受害人小强被诈骗3000块钱,对方QQ号:3414762199;微信:nwiv0337,名字:WLLIAMSJOSE。”,目标文本包括的59个第三字符,分别为'受'、'害'、'人'、'小'、'强'、'被'、'诈'、'骗'、'3'、'0'、'0'、'0'、'块'、'钱'、','、'对'、'方'、'Q'、'Q'、'号'、':'、'3'、'4'、'1'、'4'、'7'、'6'、'2'、'1'、'9'、'9'、';'、'微'、'信'、':'、'n'、'w'、'i'、'v'、'0'、'3'、'3'、'7'、','、'名'、'字'、':'、'W'、'L'、'L'、'I'、'A'、'M'、'S'、'J'、'O'、'S'、'E'、'O'为例,分别通过要素提取模型A、要素提取模型B、要素提取模型C和要素提取模型D,对目标文本进行要素提取,获得的3个参考要素提取结果为:
参考要素提取结果A:
['O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O']
参考要素提取结果B:
['O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','O']
参考要素提取结果C:
['O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','O']
参考要素提取结果D:
['O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','O']
此后,执行步骤S320,针对M个要素提取模型中包括的每个要素提取模型,根据要素提取模型对应的模型权重,以及要素提取模型对应的参考要素提取结果,获得目标文本的文本要素提取结果。
例如,针对目标文本中包括的第一个第三字符'受',确定每个参考要素提取结果中,与第三字符'受'对应的参考标签,作为待判标签,也即,确定参考要素提取结果A中,与第三字符'受'对应的参考标签'O',作为待判标签,确定参考要素提取结果B中,与第三字符'受'对应的参考标签'O',作为待判标签,确定参考要素提取结果C中,与第三字符'受'对应的参考标签'O',作为待判标签,确定参考要素提取结果D中,与第三字符'受'对应的参考标签'O',作为待判标签。此后,判断每个待判标签的标签类别,再获得同标签类别的待判标签的模型权重和,并将模型权重和最大的待判标签,作为第三标签,由于参考标签'O'均为无效标签,属于同一标签类型,因此,模型权重和为1.0,将参考标签'O',作为第三标签。
再例如,针对目标文本中包括的第二十二个第三字符'3',确定每个参考要素提取结果中,与第三字符'3'对应的参考标签,作为待判标签,也即,确定参考要素提取结果A中,与第三字符'3'对应的参考标签'suspect_qq_id',作为待判标签,确定参考要素提取结果B中,与第三字符'3'对应的参考标签'O',作为待判标签,确定参考要素提取结果C中,与第三字符'受'对应的参考标签'suspect_qq_id',作为待判标签,确定参考要素提取结果D中,与第三字符'受'对应的参考标签'suspect_qq_id',作为待判标签。此后,判断每个待判标签的标签类别,再获得同标签类别的待判标签的模型权重和,并将模型权重和最大的待判标签,作为第三标签。其中,待判标签'suspect_qq_id'的模型权重和为权重A+权重C+权重D=0.24+0.25+0.28=0.77,待判标签'O'的模型权重和为权重B=0.23,因此,将'suspect_qq_id',作为第三标签。
目标文本中每个第三字符对应待判标签,以及待判标签对应的模型权重:
[('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('B-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),
('I-suspect_qq_id',0.77),('O',0.23),('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('B-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('I-suspect_wx_id',0.75),('O',0.25),
('O',1.0),
('O',1.0),
('O',1.0),
('O',1.0),
('B-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('I-suspect_wx_name',0.76),('O',0.24),
('O',1.0)]
以目标文本中包括的第一个第三字符'受'为例,待判标签'O'的模型权重和为1.0,记作('O',1.0),在以目标文本中包括的第二十二个第三字符'3'为例,待判标签'suspect_qq_id'的模型权重和为0.77,待判标签'O'的模型权重和为0.23,记作('B-suspect_qq_id',0.77),('O',0.23)。
将模型权重和最大的待判标签,作为第三标签,最终获得目标文本的文本要素提取结果:
['O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','O','B-suspect_qq_id','I-suspect_qq_id','-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','I-suspect_qq_id','O','O','O','O','B-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','I-suspect_wx_id','O','O','O','O','B-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','I-suspect_wx_name','O']
在执行步骤S300,根据M个参考要素提取结果,获得目标文本的文本要素提取结果之后,本申请实施例提供的文本要素提取方法,还可以包括步骤S400和步骤S500。
步骤S400,根据文本要素提取结果获得目标文本信息。
需要说明的是,当执行步骤S200,分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果时,目标文本中包括的第三字符由文本编码格式,转换为字符编码、词向量等计算机可读形式,因此,在执行步骤S300,根据M个参考要素提取结果,获得目标文本的文本要素提取结果之后,需要对文本要素提取结果中包括的第三字符进行格式转换,获得文本编码形式的目标文本信息,以保证目标文本信息的可读性,从而使得办案人员能够快速直观地获取目标文本信息,从而提高办案效率。
步骤S500,对目标文本信息进行显示。
在执行步骤S300,根据M个参考要素提取结果,获得目标文本的文本要素提取结果之后,本申请实施例提供的文本要素提取方法,还可以包括步骤S600和步骤S700。
步骤S600,基于目标文本,获得与文本要素提取结果对应的原始文本信息。
确定文本要素提取结果中包括的所有要素标签(非无效标签),并获得目标文本中,与所有要素标签对应的第三字符,共同行为原始文本信息。如此,便能够实现对原始文本信息的追溯,从而进一步提高文本要素提取结果的可靠性。
步骤S700,对原始文本信息进行显示。
可以理解的是,本申请实施例提供的文本要素提取方法,还可以同时包括步骤S400、步骤S500、步骤S600和步骤S700,以确保显示结果的可靠性。当本申请实施例提供的文本要素提取方法,同时包括步骤S400、步骤S500、步骤S600和步骤S700时,显示结果可以为:
{"spans":[{"end":31,"label":"suspect_qq_id","label_name":"qq号","origin":"3414762199","start":21,"text":"3414762199","type":"嫌疑人"},{"end":43,"label":"suspect_wx_id","label_name":"微信账号","origin":"nwiv0337","start":35,"text":"nwiv0337","type":"嫌疑人"},{"end":58,"label":"suspect_wx_name","label_name":"微信昵称","origin":"WLLIAMSJOSE","start":47,"text":"WLLIAMSJOSE","type":"嫌疑人"}]}
其中,目标文本信息包括嫌疑人的QQ号:3414762199、嫌疑人的微信账号:nwiv0337,以及嫌疑人的微信昵称WLLIAMSJOSE,原始文本信息包括嫌疑人的QQ号:3414762199、嫌疑人的微信账号:nwiv0337,以及嫌疑人的微信昵称WLLIAMSJOSE。
基于与上述文本要素提取方法同样的发明构思,本申请实施例还提供了一种文本要素提取装置200,请参阅图3,文本要素提取装置200包括文本获取模块210、第一结果提取模块220和第二结果提取模块230。
文本获取模块210,用于获取目标文本。
关于文本获取模块210的描述具体可参考文本要素提取方法相关实施例中关于步骤S100的详细描述,也即,步骤S100可以由文本获取模块210执行。
第一结果提取模块220,用于分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数。
关于第一结果提取模块220的描述具体可参考文本要素提取方法相关实施例中关于步骤S200的详细描述,也即,步骤S200可以由第一结果提取模块220执行。
第二结果提取模块230,用于根据M个参考要素提取结果,获得目标文本的文本要素提取结果。
关于第二结果提取模块230的描述具体可参考文本要素提取方法相关实施例中关于步骤S300的详细描述,也即,步骤S300可以由第二结果提取模块230执行。
本申请实施例中,第二结果提取模块230可以包括权重获取单元和结果获取单元。
权重获取单元,用于获得M个要素提取模型中,每个要素提取模型对应的模型权重。
关于权重获取单元的描述具体可参考文本要素提取方法相关实施例中关于步骤S310的详细描述,也即,步骤S310可以由权重获取单元执行。
结果获取单元,用于针对M个要素提取模型中包括的每个要素提取模型,根据要素提取模型对应的模型权重,以及要素提取模型对应的参考要素提取结果,获得目标文本的文本要素提取结果。
关于结果获取单元的描述具体可参考文本要素提取方法相关实施例中关于步骤S320的详细描述,也即,步骤S320可以由结果获取单元执行。
本申请实施例中,权重获取单元可以包括数据集获取子单元和结果获取子单元和权重获取子单元。
数据集获取子单元,用于获取测试数据集,测试数据集包括测试文本,以及测试文本中,每个第一字符对应的第一标签。
关于数据集获取子单元的描述具体可参考文本要素提取方法相关实施例中关于步骤S311的详细描述,也即,步骤S311可以由数据集获取子单元执行。
结果获取子单元,用于通过测试数据集,分别对M个要素提取模型中包括的每个要素提取模型进行测试,获得M个测试结果。
关于结果获取子单元的描述具体可参考文本要素提取方法相关实施例中关于步骤S312的详细描述,也即,步骤S312可以由结果获取子单元执行。
权重获取子单元,用于根据M个测试结果,获得M个要素提取模型中,每个要素提取模型对应的模型权重。
关于权重获取子单元的描述具体可参考文本要素提取方法相关实施例中关于步骤S313的详细描述,也即,步骤S313可以由权重获取子单元执行。
本申请实施例中,权重获取子单元可以包括准确率获取子单元。
准确率获取子单元,用于针对M个要素提取模型中包括的每个要素提取模型,获得要素提取模型对应的测试结果的准确率,作为要素提取模型对应的模型权重。
关于准确率获取子单元的描述具体可参考文本要素提取方法相关实施例中关于步骤S3131的详细描述,也即,步骤S3131可以由准确率获取子单元执行。
本申请实施例提供的文本要素提取装置200,还可以包括数据集获取模块和训练模块。
数据集获取模块,用于获取训练数据集,训练数据集包括训练文本,以及训练文本中,每个第二字符对应的第二标签。
关于数据集获取模块的描述具体可参考文本要素提取方法相关实施例中关于步骤S001的详细描述,也即,步骤S001可以由数据集获取模块执行。
训练模块,用于通过训练数据集,分别对M个原始模型进行训练,获得M个要素提取模型。
关于训练模块的描述具体可参考文本要素提取方法相关实施例中关于步骤S002的详细描述,也即,步骤S002可以由训练模块执行。
本申请实施例提供的文本要素提取装置200,还可以包括格式转换模块和第一显示模块。
格式转换模块,用于根据文本要素提取结果获得目标文本信息。
关于格式转换模块的描述具体可参考文本要素提取方法相关实施例中关于步骤S400的详细描述,也即,步骤S400可以由格式转换模块执行。
第一显示模块,用于对目标文本信息进行显示。
关于第一显示模块的描述具体可参考文本要素提取方法相关实施例中关于步骤S500的详细描述,也即,步骤S500可以由第一显示模块执行。
本申请实施例提供的文本要素提取方法,还可以包括文本信息获取模块和第二显示模块。
文本信息获取模块,用于基于目标文本,获得与文本要素提取结果对应的原始文本信息。
关于文本信息获取模块的描述具体可参考文本要素提取方法相关实施例中关于步骤S600的详细描述,也即,步骤S600可以由文本信息获取模块执行。
第二显示模块,用于对原始文本信息进行显示。
关于第二显示模块的描述具体可参考文本要素提取方法相关实施例中关于步骤S700的详细描述,也即,步骤S700可以由第二显示模块执行。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被执行时,实现上述物料入库方法实施例中提供的文本要素提取方法,具体可参见文本要素提取方法实施例,此处不作赘述。
综上所述,本申请实施例提供的文本要素提取方法,包括:获取目标文本,分别通过M个要素提取模型,对目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数,根据M个参考要素提取结果,获得目标文本的文本要素提取结果。本申请实施例中,通过要素提取模型,对目标文本进行要素提取,获得的参考要素提取结果,相对于现有技术中,根据报案文本中可能包括的各文本要素的撰写特征和撰写习惯,采用对应的查询规则进行匹配而提取的文本要素而言,具有较高的可靠性,此外,又由于文本要素提取结果是根据M个文本要素提取结果获得的,因此,能够进一步保证文本要素提取结果的可靠性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请每个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是每个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请每个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
需要说明的是,在本文中,诸如“第一”、“第二”和“第三”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

Claims (10)

1.一种文本要素提取方法,其特征在于,包括:
获取目标文本;
分别通过M个要素提取模型,对所述目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数;
根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果。
2.根据权利要求1所述的文本要素提取方法,其特征在于,所述根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果,包括:
获得所述M个要素提取模型中,每个要素提取模型对应的模型权重;
针对所述M个要素提取模型中包括的每个要素提取模型,根据所述要素提取模型对应的模型权重,以及所述要素提取模型对应的参考要素提取结果,获得所述目标文本的文本要素提取结果。
3.根据权利要求2所述的文本要素提取方法,其特征在于,所述获得所述M个要素提取模型中,每个要素提取模型对应的模型权重,包括:
获取测试数据集,所述测试数据集包括测试文本,以及所述测试文本中,每个第一字符对应的第一标签;
通过所述测试数据集,分别对所述M个要素提取模型中包括的每个要素提取模型进行测试,获得M个测试结果;
根据所述M个测试结果,获得所述M个要素提取模型中,每个要素提取模型对应的模型权重。
4.根据权利要求3所述的文本要素提取方法,其特征在于,所述根据所述M个测试结果,获得所述M个要素提取模型中,每个要素提取模型对应的模型权重,包括:
针对所述M个要素提取模型中包括的每个要素提取模型,获得所述要素提取模型对应的测试结果的准确率,作为所述要素提取模型对应的模型权重。
5.根据权利要求3所述的文本要素提取方法,其特征在于,所述文本要素提取方法,还包括:
获取训练数据集,所述训练数据集包括训练文本,以及所述训练文本中,每个第二字符对应的第二标签;
通过所述训练数据集,分别对M个原始模型进行训练,获得所述M个要素提取模型。
6.根据权利要求1所述的文本要素提取方法,其特征在于,所述文本要素提取方法,还包括:
根据所述文本要素提取结果,获得目标文本信息;
对所述目标文本信息进行显示。
7.根据权利要求1所述的文本要素提取方法,其特征在于,所述文本要素提取方法,还包括:
基于所述目标文本,获得与所述文本要素提取结果对应的原始文本信息;
对所述原始文本信息进行显示。
8.一种文本要素提取装置,其特征在于,包括:
文本获取模块,用于获取目标文本;
第一结果提取模块,用于分别通过M个要素提取模型,对所述目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数;
第二结果提取模块,用于根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器用于执行所述计算机程序,以实现权利要求1~7中任意一项所述的文本要素提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被执行时,实现权利要求1~7中任意一项所述的文本要素提取方法。
CN201911284362.7A 2019-12-13 2019-12-13 文本要素提取方法、装置及电子设备 Pending CN111078823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911284362.7A CN111078823A (zh) 2019-12-13 2019-12-13 文本要素提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911284362.7A CN111078823A (zh) 2019-12-13 2019-12-13 文本要素提取方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111078823A true CN111078823A (zh) 2020-04-28

Family

ID=70314507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284362.7A Pending CN111078823A (zh) 2019-12-13 2019-12-13 文本要素提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111078823A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882960A (zh) * 2021-03-30 2021-06-01 中信银行股份有限公司 一种数据获取方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010373A1 (en) * 2008-03-12 2011-01-13 Kai Ishikawa Text mining device, text mining method, text mining program, and recording medium
CN107423278A (zh) * 2016-05-23 2017-12-01 株式会社理光 评价要素的识别方法、装置及系统
CN110019758A (zh) * 2019-04-11 2019-07-16 北京百度网讯科技有限公司 一种核心要素提取方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010373A1 (en) * 2008-03-12 2011-01-13 Kai Ishikawa Text mining device, text mining method, text mining program, and recording medium
CN107423278A (zh) * 2016-05-23 2017-12-01 株式会社理光 评价要素的识别方法、装置及系统
CN110019758A (zh) * 2019-04-11 2019-07-16 北京百度网讯科技有限公司 一种核心要素提取方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882960A (zh) * 2021-03-30 2021-06-01 中信银行股份有限公司 一种数据获取方法和装置

Similar Documents

Publication Publication Date Title
CN111428599B (zh) 票据识别方法、装置和设备
AU2009302657B2 (en) Detection of confidential information
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
US10586238B2 (en) Automation of image validation
CN109062872B (zh) 一种对不同格式报关文件进行统一处理的方法
CN112507936A (zh) 图像信息审核方法、装置、电子设备及可读存储介质
CN109241857A (zh) 一种单据信息的识别方法及系统
CN110659961A (zh) 一种用于识别线下商户的方法和装置
US20220292861A1 (en) Docket Analysis Methods and Systems
CN111260189B (zh) 一种风险控制方法、装置、计算机系统及可读存储介质
CN112529575A (zh) 风险预警方法、设备、存储介质及装置
CN112464051A (zh) 一种异常数据检测方法、装置及计算机可读存储介质
CN111078823A (zh) 文本要素提取方法、装置及电子设备
CN114219507A (zh) 中药供应商的资质审核方法、装置、电子设备及存储介质
CN111292068A (zh) 一种合同信息审核方法、装置、电子设备及存储介质
CN111931479B (zh) 基于合同纠纷判决书的信息抽取方法及装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN111639905B (zh) 企业业务流程管控系统、方法、电子设备及存储介质
CN113569024A (zh) 卡片类别的识别方法、装置、电子设备和计算机存储介质
CN112950225A (zh) 一种客户类别确定方法、装置及存储介质
CN111967518B (zh) 应用标注方法、应用标注装置及终端设备
CN113779065B (zh) 数据比对的验证方法、装置、终端设备及介质
US20240256941A1 (en) Learning system, learning method, and program
CN111159398B (zh) 一种识别商户类型的方法及装置
CN114792099A (zh) 案件要素提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200428