CN116108239A - 一种信息提取的方法、装置及电子设备 - Google Patents

一种信息提取的方法、装置及电子设备 Download PDF

Info

Publication number
CN116108239A
CN116108239A CN202111332637.7A CN202111332637A CN116108239A CN 116108239 A CN116108239 A CN 116108239A CN 202111332637 A CN202111332637 A CN 202111332637A CN 116108239 A CN116108239 A CN 116108239A
Authority
CN
China
Prior art keywords
time
target
information
extracted
discovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111332637.7A
Other languages
English (en)
Inventor
任宁
胡加明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co ltd
Original Assignee
Dingfu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co ltd filed Critical Dingfu Intelligent Technology Co ltd
Priority to CN202111332637.7A priority Critical patent/CN116108239A/zh
Publication of CN116108239A publication Critical patent/CN116108239A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种信息提取的方法、装置及电子设备,该方法包括:获取待提取文件,从待提取文件中提取时间信息,其中,时间信息包括发生时间、准备时间,发现时间和记录时间中的至少一个时间;当时间信息包含发生时间时,将发生时间作为目标时间信息;当时间信息包含准备时间、发现时间和记录时间中的一个时间时,将准备时间、发现时间或记录时间作为目标时间信息;当时间信息包括准备时间、发现时间和记录时间中的至少两个时间,且至少两个时间中包括准备时间时,将准备时间作为开始时间,将发现时间或记录时间作为结束时间,根据开始时间和结束时间获取目标时间段,能够依据快速且准确地提取目标时间信息等有效信息。

Description

一种信息提取的方法、装置及电子设备
技术领域
本申请实施例涉及信息提取领域,具体涉及一种信息提取的方法、装置及电子设备。
背景技术
记录对目标事件相关人员的询问过程的记录文件是如实记录事件事实的重要文件,正确提取其中的有效信息对于目标事件的串联和合并都有非常重要的意义。为了获取准确的有效信息现在一般是靠人工去分析记录文件中的数据,并提取记录文件中的重要信息,比如目标时间信息等,但是当面对大量记录文件时,目前的现有技术方案的信息提取效率低,无法快速且准确地提取案发信息。
因此,如何高效且准确提取记录文件中的信息成为亟待解决的问题。
发明内容
本申请实施例提供一种信息提取的方法、装置及电子设备,通过本申请的一些实施例至少能够在文字较多且时间信息出现次数较多的记录文件中,提取获得目标时段,从而依据目标时段等有效信息,对事件进行串联和合并。
第一方面,本申请实施例中提供一种信息提取的方法,所述方法包括:获取待提取文件,从所述待提取文件中提取时间信息,其中,所述时间信息包括目标事件的发生时间、为所述目标事件发生提供准备工作的准备时间,发现所述目标事件发生的发现时间和记录与所述目标事件相关人员的询问过程的记录时间中的至少一个时间;当所述时间信息包含所述发生时间时,将所述发生时间作为目标时间信息;当所述时间信息包含所述准备时间、发现时间和记录时间中的一个时间时,将所述准备时间、发现时间或记录时间作为目标时间信息;当所述时间信息包括所述准备时间、发现时间和记录时间中的至少两个时间,且所述至少两个时间中包括所述准备时间时,将所述准备时间作为开始时间,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段。
因此,本申请实施例通过在待提取文件中提取目标时段,能够在文字较多且时间信息出现次数较多的文件中,提取获得目标时段,从而依据目标时段等有效信息,对事件进行串联和合并。
结合第一方面,在一种实施方式中,当所述时间信息为发现时间和记录时间时,将所述开始时间设为空,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段;或者,将所述发现时间或所述记录时间作为目标时间信息。
因此,本申请实施例通过将准备时间和发现时间组合成为目标时段,能够在发生时间缺失的情况下,使得目标时段最大程度的贴近真实的目标时间信息。
结合第一方面,在一种实施方式中,根据目标时段与时间的映射关系,获取所述目标时间信息对应的目标时段,其中,所述目标时段为一天之内的时间分布。
因此,本申请实施例通过将具体的发生时间对应到预设时段中,能够快速的分析得到具体的目标时段。
结合第一方面,在一种实施方式中,所述将所述发现时间或所述记录时间作为结束时间,包括:若所述时间信息同时包含发现时间和记录时间时,将所述发现时间作为结束时间。
结合第一方面,在一种实施方式中,将目标时间信息进行归一化处理,获得所述处理后的目标时间信息;或者,将所述目标时间段的开始时间和结束时间进行归一化处理,获得所述处理后的目标时间段。
结合第一方面,在一种实施方式中,所述从所述待提取文件中提取时间信息,包括:根据构造的本体表达式从所述待提取文件中提取时间信息,其中,所述本体表达式采用关键词和时间正则表达式进行表征。
因此,本申请实施例通过构造的本体表达式对目标时段进行提取,能够在使用表达式进行提取的过程中直接调用时间正则表达式,将提取的关键词与时间正则表达式进行组合,从而提高提取的效率。
结合第一方面,在一种实施方式中,所述待提取文件中还包括物品属性信息和金额信息,在所述获取待提取文件之后,所述方法还包括:根据所述物品属性信息,获取目标物品数量;在确定所述目标物品数量为一的情况下,根据物品金额提取规则从所述金额信息中获取目标金额。
因此,本申请实施例通过确认物品数目以及金额数量,能够明确事件中的关注信息,以使操作人员能够根据获得的关注信息进行后续的事件处理,提高事件处理的效率。
结合第一方面,在一种实施方式中,所述根据所述物品属性信息,获取目标物品数量,包括:从所述待提取文件中提取物品属性信息;从所述物品属性信息中直接获取物品数量,将物品数量去重,如果去重后的物品数量唯一,将所述物品数量作为所述目标物品数量;或者,当不能直接提取所述物品数量的情况下,从所述待提取文件中提取目标物品描述字符串;从所述目标物品描述字符串中提取所述物品属性信息;根据所述物品属性信息获取物品颜色、物品品牌和/或物品类型,将所述物品颜色、物品品牌和/或物品类型去重;当不满足去重后的物品颜色、物品品牌和物品类型为多个的情况下,则目标物品数量确定为一个。
因此,本申请实施例能够在复杂的文件中确认物品是一个还是多个,从而能够明确目标物品的金额数量,以使操作人员能够明确事件的细节,提高事件处理的效率。
第二方面,本申请实施例中提供一种信息提取的装置,所述装置包括:文件获取模块,被配置为获取待提取文件,从所述待提取文件中提取时间信息,其中,所述时间信息包括目标事件的发生时间、为所述目标事件发生提供准备工作的准备时间,发现所述目标事件发生的发现时间和记录与所述目标事件相关人员的询问过程的记录时间中的至少一个时间中的至少一个时间;时间输出模块,被配置为:当所述时间信息包含所述发生时间时,将所述发生时间作为目标时间信息;当所述时间信息包含所述准备时间、发现时间和记录时间中的一个时间时,将所述准备时间、发现时间或记录时间作为目标时间信息;当所述时间信息包括所述准备时间、发现时间和记录时间中的至少两个时间,且所述至少两个时间中包括所述准备时间时,将所述准备时间作为开始时间,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段。
结合第二方面,在一种实施方式中,一种信息提取的装置,还被配置为当所述时间信息为发现时间和记录时间时,将所述开始时间设为空,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段;或者,将所述发现时间或所述记录时间作为目标时间信息。
结合第二方面,在一种实施方式中,一种信息提取的装置,还被配置为:根据目标时段与时间的映射关系,获取所述目标时间信息对应的目标时段,其中,所述目标时段为一天之内的时间分布。
结合第二方面,在一种实施方式中,时间处理模块还被配置为:若所述时间信息同时包含发现时间和记录时间时,将所述发现时间作为结束时间。
结合第二方面,在一种实施方式中,一种信息提取的装置,还被配置为:将目标时间信息进行归一化处理,获得所述处理后的目标时间信息;或者,将所述目标时间段的开始时间和结束时间进行归一化处理,获得所述处理后的目标时间段。
结合第二方面,在一种实施方式中,时间提取模块还被配置为:根据构造的本体表达式从所述待提取文件中提取时间信息,其中,所述本体表达式采用关键词和时间正则表达式进行表征。
结合第二方面,在一种实施方式中,当所述待提取文件中还包括物品属性信息和金额信息时,所述信息提取装置还包括物品提取模块,所述物品提取模块被配置为:在所述获取待提取文件之后,根据所述物品属性信息,获取目标物品数量;在确定所述目标物品数量为一的情况下,根据物品金额提取规则从所述金额信息中获取目标金额。
结合第二方面,在一种实施方式中,所述物品提取模块还被配置为:从所述待提取文件中提取物品属性信息;从所述物品属性信息中直接获取物品数量,将物品数量去重,如果去重后的物品数量唯一,将所述物品数量作为所述目标物品数量;或者,当不能直接提取所述物品数量的情况下,从所述待提取文件中提取目标物品描述字符串;从所述目标物品描述字符串中提取所述物品属性信息;根据所述物品属性信息获取物品颜色、物品品牌和/或物品类型,将所述物品颜色、物品品牌和/或物品类型去重;当不满足去重后的物品颜色、物品品牌和物品类型为多个的情况下,则目标物品数量确定为一个。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如第一方面任一实施例所述方法。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被执行时实现如第一方面任一实施例所述方法。
附图说明
图1为本申请实施例示出的一种信息提取的场景示意图;
图2为本申请实施例示出的一种信息提取的方法的流程图;
图3为本申请实施例示出的一种信息提取的装置的组成框图;
图4为本申请实施例示出的一种电子设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护范围。
记录对目标事件相关人员的询问过程的记录文件是相关事件中必不可少的文件,因此如何从这些文件中高效且正确提取其中的有效信息对于事件的串联和合并都有非常重要的意义,但是基于目前的相关技术还不能从包括大量干扰信息的记录文件中高效准确的提取重要信息(例如,目标时间信息信息以及目标物品信息)。
本申请实施例中,主要关注的是目标时间信息信息和目标物品信息,其中,目标时间信息包括:目标时间信息、目标时间段和目标时段,目标物品信息包括:物品名称、物品类型、物品品牌、物品颜色、物品数目、物品购买价格、物品现值、目标金额、能否提供物品发票等。
本申请一些实施例的记录文件中可能会存在目标事件的发生时间,但是在没有监控的事件中,记录文件中不会涉及发生时间,因此在这一类文件中具体的目标时段是未知的。在记录文件中为所述目标事件发生提供准备工作的准备时间和发现时间出现的较为广泛,但是也不是所有的记录文件都会存在,另外由于在对图片进行识别的过程中,可能存在识别错误以及模型的识别遗漏,都可能存在准备时间、发现所述目标事件发生的发现时间和记录对所述目标事件相关人员的询问过程的记录时间不能被正确提取出来的问题。因此,为使目标时段最大程度的接近目标时间信息,结合上述相关部门关注的信息,本申请实施例提出了一种通过提取发生时间、准备时间、发现时间和记录时间中的部分信息来获得目标时间信息信息的技术方案,并且在本申请的一些实施例中还可以从文件汇总提取目标物品信息。
本申请一些实施例可以应用于对记录文件进行信息提取的场景,为了改善背景技术中的问题,在本申请的一些实施例中,处理器从记录文件中提取目标时间信息,并且提取记录文件中的目标物品信息。例如:在本申请的一些实施例中,处理器至少被配置为:处理器提取文件中的时间信息,该时间信息包括发生时间、发现时间、准备时间和记录时间中的至少一个时间,当时间信息包含发生时间、发现时间、准备时间和记录时间中的一个时间的情况下,则将其作为目标时间信息,当时间信息包含准备时间、发现时间和记录时间中的至少两个时间的情况下,则获取相对应的目标时间段,并且,提取文件中的目标物品信息,比如:目标物品数量和目标金额,以使操作对象依据目标时间信息和目标物品信息对案情进行后续处理。
下面结合附图详细描述本申请实施例中的方法步骤。
图1提供了可以应用本申请实施例的一种场景,如图1所示,操作对象对目标事件相关人员进行询问后,获得记录文件后,上传到处理器110,之后在需要提取目标时间信息时,处理器110会从存储器读取上传的记录文件,再从记录文件中提取目标时间信息、目标时间段或目标时段,并且还可以从记录文件中提取目标物品信息,比如目标物品数量和目标金额,从而能够实现准确的提取记录文件中的信息。
当面对大量记录文件时,目前的现有技术方案的信息提取效率低,无法快速且准确地提取与事件相关的信息。
至少为了解决上述问题,本申请一些实施例提供一种信息提取的方法,从待提取文件中的发生时间、准备时间、记录时间和发现时间中提取目标时间信息、目标时间段或目标时段,并且同时从待提取文件中提取目标物品数量和目标金额的方法,能够在文字较多且时间信息出现次数较多的记录文件中,高效且准确地提取事件的相关有效信息,依据该有效信息,对事件进行串联和合并。
下文将描述本申请实施例中,应用于上述处理器110的一种信息提取的方法。
如图2所示,本申请的一些实施例提供一种信息提取的方法,该方法包括:
S210,获取待提取文件,从待提取文件中提取时间信息。
其中,时间信息包括发生时间、准备时间,发现时间和记录时间中的至少一个时间。
在本申请的一些实施方式中,待提取文件是记载目标事件的文件。
作为一种可选的实施方式,获取待提取文件,可以包括以下步骤:
获取原始记录文件;
对原始记录文件进行预处理,得到预处理后的记录文件作为待提取文件。
在上述实施方式中,原始记录文件可以为通过OCR(光学字符识别) 对记录文本进行扫描识别得到的,也可以为通过电子记录的方式获取的记录文本数据,还可以为对原始记录文件的语音数据进行语音识别得到的数据等,对此本申请实施例不作限定。
在上述实施方式中,在扫描或语音识别过程中,都会不可避免的出现一些错误,所以要先进行校正(例如:去除空格等常见的错误处理)等预处理后得到待提取文件再进行后续提取操作。
需要说明的是,从待提取文件提取的时间信息是在询问过程中提及的事件中与时间相关的信息。作为本申请的一种实施例,待提取文件中的时间信息可以为多个,比如包含发生时间、发现时间、准备时间、记录时间、上传时间等。本实施例中只分析多个时间信息包括发生时间、发现时间、准备时间和记录时间中至少一个时间的情况。也就是说时间信息可以为一个时间,可以是发生时间、发现时间、准备时间、记录时间、上传时间中的任意一个,例如:时间信息包括发生时间;时间信息也可以为两个、三个、四个时间,即可以是发生时间、发现时间、准备时间和记录时间中的任一组合情况。
本申请的一些实施例中,通过构造表达式从待提取的文件中提取时间信息,该时间信息包括发生时间、准备时间,发现时间和记录时间中的至少一个时间。例如,根据构造的本体表达式从待提取的文件中提取时间信息,其中,本体表达式采用关键词和时间正则表达式进行表征。
S220:当时间信息包含发生时间时,将发生时间作为目标时间信息。
也就是说,如果能从待提取的文件中提取到发生时间则直接将发生时间作为目标时间信息。
发生时间的优先级大于时间信息中的任一其他时间,即发生时间的优先级大于发现时间、准备时间和记录时间。也就是说无论上述哪种时间信息组合中,只要时间信息中包含发生时间,则直接将该发生时间作为目标时间信息。
具体的,作为本申请对发生时间进行提取的具体实施例中,提取发生时间使用的关键词包括:发现事件发生途径的关键词(例如:“监控”) 和事件发生途径的动作关键词(例如:“发现”)。时间正则表达式可以表征为:
“c_时间”
具体的表达式内容为:
“\d+年\d+月\d+日(上午|下午|中午|早上?|早晨|晚上|夜晚|凌晨)?([一二三四五六七八九十两、\d]{1,3}[时点]钟?)半?([一二三四五六七八九十两、 \d]{1,2}分?)?([一二三四五六七八九十两、\d]{1,2}秒?)?(许|左右|前后)?”
作为一个示例,提取发生时间的本体表达式为:
“监控.{0,10}发现(c_时间)”
其中,发生时间的本体表达式的具体含义为识别“监控”和“发现”两个关键字之间的距离为10个字符之内,并且在“发现”这个关键字后面出现了时间信息,由此提取到的时间信息为发生时间。
例如,待提取文件中的一段文本信息为“后来,去到商场调监控,发现是 2018年7月14日17时48分的时候,一名女子拿着我家的两件衣服从商场电梯下楼走了”,在这段文本信息中,“监控”和“发现”两个关键字之间距离在10个字符之内,并且在“发现”之后出现了时间信息,因此,这段文本信息中的发生时间为“2018年7月14日17时48分”。
需要说明的是,提取发生时间的关键词可以根据语境进行调整,上述关键词仅为举例。
S230:当时间信息包含准备时间、发现时间和记录时间中的一个时间时,将准备时间、发现时间或记录时间作为目标时间信息。
也就是说,当从待提取文件中提取的时间信息中不包含发生时间的情况下,如果仅提取到了准备时间,则将准备时间作为目标时间信息;或,如果仅提取到了发现时间,则将发现时间作为目标时间信息;或,如果仅提取到了记录时间,则将记录时间作为目标时间信息。
具体的,作为本申请对准备时间进行提取的具体实施例中,准备时间所对应的关键词包括:询问关键词(例如:“经过”和“讲一下”)和物品存放关键词(例如:“放在”),时间正则表达式可以表征为:
“c_时间”。
那么,提取准备时间的本体表达式为:
“(经过|讲一下).{0,25}(c_时间).{0,200}放在”
其中,提取准备时间的本体表达式的具体含义为:询问关键词与时间正则表达式之间相差25个字符之内,并且时间正则表达式与物品存放关键词之间相差200个字符之内。
例如,待提取文件中的一段文本信息为“答:我因xx物品丢失,我来上报,问:你把当时的情况详细地讲一下。答:2019年6月30日13时30分许,我将电动自行车停放在某某区某某路某某百货门口”,在这段文本信息中,提取到了“放在”和“讲一下”两个关键字,并且在“放在”之后出现了时间信息,因此,这段文本信息中的准备时间为“2019年6月30日13时30分”。
需要说明的是,上述实施例中出现的关键词可以根据实际情况进行调整,并且上述实施例仅为举例,本申请实施例不限于此。
具体的,作为本申请对发现时间进行提取的具体实施例中,发现时间所对应的关键词包括:动作关键词(例如:“发现”、“觉察”和“意识”)、物品的状态关键词(例如:“不见”、“丢”、“找不到”和“找不着”,时间正则表达式可以表征为:“c_时间”。
那么,提取发现时间的本体表达式为:
“(c_时间).{0,200}(发现|觉察|意识).{0,20}(不见|丢|找不到|找不着)”
其中,提取发现时间的本体表达式的具体含义为:发现时间和动作关键词之间相差200个字符之内,动作关键词与物品的状态关键词之间相差 20个字符之内,由此提取到的时间信息为发现时间。
例如,待提取文件中的一段文本信息为:“2018年05月15日上午09 时30分左右,我在某某区某某路某某广场二楼的女装店的店员在店内盘点服装的时候,发现有两件女式服装不见了”,在这段文本信息中,提取到了“发现”和“不见”两个关键字,并且在“发现”之前出现了时间信息,因此,这段文本信息中的发现时间为“2018年05月15日上午09时30分”。
具体的,作为本申请对记录时间进行提取的具体实施例中,记录时间所对应的关键词包括:文件属性关键词(例如“询问”)和记录时间关键词(例如“时间”),时间正则表达式可以表征为“c_时间”。
那么,提取记录时间的本体表达式为:
“(询问)(记录)?.{0,15}时间[::;,,]?(c_时间)”
其中,提取记录时间的本体表达式的具体含义为:文件属性关键词和记录时间关键词之间相差15个字符之内,并且在记录时间关键词之后存在标点符号,记录时间出现在句末。
例如,待提取文件中的一段文本信息为“询问记录:2018年05月15 日”,因此,这段文本信息中的记录时间为“2018年05月15日”。
S240:当时间信息包括准备时间、发现时间和记录时间中的至少两个时间,且至少两个时间中包括准备时间时,将准备时间作为开始时间,将发现时间或记录时间作为结束时间,根据开始时间和结束时间获取目标时间段。
作为本申请的一种具体实施例,当从待提取文件中提取的时间信息包括准备时间和发现时间时,将准备时间作为目标时间段的开始时间,将发现时间作为目标时间段的结束时间。
作为本申请的另一种具体实施例,当从待提取文件中提取的时间信息包括准备时间和记录时间时,将准备时间作为目标时间段的开始时间,将记录时间作为目标时间段的结束时间。
作为本申请的另一种具体实施例,当从待提取文件中提取的时间信息包括准备时间、记录时间和发现时间的情况下,将准备时间作为目标时间段的开始时间,将发现时间或记录时间作为目标时间段的结束时间。优选地,当时间信息中同时包含发现时间和记录时间时,发现时间的优先级高于记录时间。也就是说当时间信息包括准备时间、记录时间和发现时间的情况下,将准备时间作为目标时间段的开始时间,优先将发现时间作为目标时间段的结束时间。
在本申请的一种实施方式中,当从待提取文件中提取的时间信息为发现时间和记录时间时,将开始时间设为空,将发现时间或记录时间作为结束时间。优选地,将发现时间作为结束时间。
也就是说,当提取时间信息的过程中,如果没有提取到准备时间,只提取到了发现时间和记录时间,那么,就将开始时间设为空,将发现时间或记录时间作为结束时间,目的是虽然不知道什么时候开始,但是知道发现时间或记录时间是结束时间,此时获取的是个时间段,而不是时间点,有益于事件的分析。
因此,本实施例中在确定开始时间和结束时间之后,根据上述的开始时间和结束时间获取目标时间段。
在本申请的一种实施方式中,若提取到时间信息只包含发现时间和记录时间时,可以直接就将发现时间或记录时间作为目标时间信息,不设置空的开始时间;优选地,将发现时间作为目标时间信息。
也就是说,当在提取时间信息的过程中,同时提取到发现时间和记录时间的情况下,将发现时间作为目标时间信息。
目标事件中的目标时段的获取也很重要,在有些记录文件中,被询问人会直接回答“上午”、“早上”等,因此可以直接从待提取文件中获取上述目标时段,但是有些记录文件中,需要根据目标时间信息获取目标时段。
作为本申请的一种实施方式,根据目标时段与时间的映射关系,获取上述目标时间信息对应的目标时段,其中,目标时段为一天之内的时间分布。
其中目标时段与时间的映射关系如下:
早上5:00-8:00
上午8:00-11:00
中午11:00-13:00
下午13:00-17:00
傍晚17:00-19:00
晚上19:00-5:00
例如,确认从记录文件提取的发生时间表征为具体时间(即上述的2018 年7月14日17时48分),则将具体时间对应到预设目标时段上,得到该发生时间的目标时段为傍晚。
例如:使用正则表达式直接提取得到了发生时间为“2008年6月22日 22点30分”,根据目标时段和时间的映射关系,获取该发生时间对应的目标时段为晚上。
需要说明的是:准备时间描写的为目标事件发生提供准备工作的时间。发现时间描写的时发现目标事件发生的时间。
作为本申请的一种实施方式,本申请还可以将目标时间信息进行归一化处理,获得处理后的目标时间信息;或者,将目标时间段的开始时间和结束时间进行归一化处理,获得处理后的目标时间段。
例如,目标时间信息为2003.4.3,则将目标时间信息归一化为2003年 4月3日。目标时间段为2003.4.6 5点至2003.4.6 7点,则将目标时间段归一化为2003年4月3日5点至2003年4月3日7点。
因此,本申请使用上述方法在记录文件中提取目标时间段或目标时间信息,能够在文字较多且时间信息出现次数较多的记录文件中,提取有效信息,并且使提取得到的目标时间段或目标时间信息更加接近真实的目标时间信息;通过构造的本体表达式对目标时间段或目标时间信息进行提取,能够在使用表达式进行提取的过程中直接调用时间正则表达式,将提取的关键词与时间正则表达式进行组合,从而提高提取的效率,实现高效且准确的提取记录文件中的信息。
上文示例性描述了本申请一些实施例提供的一种提取时间信息的方法流程,下文将描述如何从记录文件中抽取目标物品数量和目标金额。
可以理解的是,在记录文本中对于涉及到的物品会反复提及,并且只有较少的记录文本会总结物品的数量、目标金额等,因此导致物品的数量和目标金额等重要信息并不能在文本中直接提取和输出,因此本申请的一些实施例提供了一种通过提取加处理的方法进行识别。
在本申请的一种实施方式中,待提取文件中包括物品属性信息和金额信息,物品属性信息包括物品名称、物品类型、物品品牌、物品颜色、物品数量等信息中的至少一个;金额信息包括:物品购买价格、物品现值、目标金额、能否提供被物品发票等信息中的至少一个。在获取到待提取文件之后,本申请一些实施例的信息抽取方法还包括:
S250:根据物品属性信息,获取目标物品数量;在确定该目标物品数量为一的情况下,根据物品金额提取规则从该金额信息中获得目标金额。
本申请的一种实施方式中,根据物品属性信息,获取目标物品数量,包括:
从待提取文件中提取物品属性信息;
从物品属性信息中直接获取物品数量,将物品数量去重,如果去重后的物品数量唯一,将该物品数量作为目标物品数量。
也就是说,对待提取文件中的物品属性信息进行提取,在能够直接获得物品数量的情况下,将物品数量进行去重处理,如果去重之后物品数量是唯一的,证明物品的个数为一个,将物品数量作为目标物品数量直接输出。
作为一种具体的实施例,在记录文本中,部分文本会对涉案物品的数量进行总结式表述,这部分文本一般是物品数目大于2的事件文本,另外一半以上文本涉及到的物品只有一个,考虑到分布以及对物品会反复表述的特性,采用去重的技术手段,因此定义了如下提取方案:
首先,提取记录文件中可能出现的物品数量的描述,正则表达式可以是:“(c_物品名称)[^问答]{0,10}(特征)[^问]{0,7}[\?][^问]{0,25}(c_数量)”
先提取出结果后,再把匹配到的“c_数量”的匹配结果输出。
接着,若分析出的“物品数量”关键词不为空,则去重后将所述物品数量作为目标物品数量直接输出。
本申请的另一种实施方式中,根据物品属性信息,获取目标物品数量,包括:
当不能直接提取物品数量的情况下,从待提取文件中提取目标物品描述字符串;
从目标物品描述字符串中提取物品属性信息;
根据物品属性信息获取物品颜色、物品品牌和/或物品类型,将物品颜色、物品品牌和/或物品类型去重;
当不满足去重后的物品颜色、物品品牌和物品类型为多个的情况下,则目标物品数量确定为一个。
也就是说,在不能直接获得物品数量的情况下,可以根据提取到的物品属性信息中的物品颜色、物品品牌和物品类型等信息确定目标物品数量是一个还是多个,并且根据目标物品数量获取金额数量。
作为一种具体的实施例,首先,要确定该物品是否为目标物品,本申请使用正则表达式从所述待提取文件中提取“目标物品描述”字符串,将可能是描写物品的部分提取出来,再使用词表进行分析,最后根据目标物品描述字符串提取物品名称、物品类型、物品品牌和物品颜色等。具体的,使用正则表达式识别“目标物品描述”,正则表达式中包括问答关键词(例如:“问”和“答”)和物品的状态关键词(例如:“不见”、“找不到”和“找不着”)。
具体的正则表达式为:
“[^问答]{0,20}(不见|找不到|找不着)[^问答]{0,20}”
其中,正则表达式的具体含义为:提取的物品描述在“问”或“答”中,“问”或“答”与物品的状态关键词之间相差20个字符之内。
例如:待提取文件中包括“我的电动摩托车找不到了”,那么这句话中出现了关键词“找不到”,也就是说,这句话就为提取到的目标物品描述字符串。
其次,在获取目标物品描述字符串后,从所述目标物品描述字符串中提取物品名称、物品品牌和物品颜色等物品属性信息。其中,物品名称可以直接用正则表达式从所述目标物品描述字符串中提取。物品品牌和物品颜色的提取,可以为根据数据库中预存的物品品牌列表和物品颜色列表,从所述目标物品描述字符串中提取。
物品品牌、物品颜色和物品类型的提取,也可以为根据物品名称与物品类型、物品品牌和物品颜色的对应关系,从所述目标物品描述字符串中提取物品类型、物品品牌和物品颜色。
根据表1所示的物品名称与物品类型的对应关系表,将物品名称列为正则表达式,从“目标物品描述”中匹配“物品名称”列,其匹配结果为物品名称,其对应的“类型”为“物品类型”。
与物品名称、物品类型的提取类似,从“目标物品描述”的匹配结果中,进一步提取物品品牌和物品颜色。表1物品名称与物品类型的对应关系表:
需要说明的是,只要能从所述目标物品描述字符串中提取物品名称、物品类型、物品品牌和物品颜色的方法都在本申请保护范围之内,不在此一一赘述。
其中,可以先提取物品颜色,再提取物品品牌,最后提取物品类型。
接着,将上述步骤中提取到的物品品牌、物品颜色和物品类型进行去重,若物品品牌、物品颜色和物品类型都不为多个的情况下,那么就判断该目标物品数量为一个。
例如:提取到的物品颜色去重后为白色和红色,物品品牌去重后为X 牌和Y牌,物品类型去重后为服装和鞋,因此,满足物品颜色、物品品牌和物品类型的提取结果都为多个,则确定物品数量为多个。反之,不满足物品颜色、物品品牌和物品类型的提取结果都为多个,则确定物品数量为一个。
最后,提取物品的目标金额,本实施例中仅对目标物品数量为一个的情况下才提取物品的目标金额。
具体的,首先使用正则表达式对现金数量、物品购买价格和物品现值进行提取。首先,判断“目标物品数量”的输出结果是否为一,若是,判断物品类型是否为“现金”,若是,将现金数量作为目标金额输出,若物品类别不为现金,则将物品现值作为目标金额输出,如果“物品现值”无分析结果,则将物品购买价格作为目标金额输出。
其中,提取现金数量的正则表达式为:
“现金[总一]共是?(c_金额)”
上文描述了一种信息提取的方法的具体实施例,下文将描述一种信息提取的装置。
如图3所示,本申请实施例提供一种信息提取的装置300,包括:时间提取模块310、时间处理模块320。
在本申请的一种实施方式中,本申请实施例中提供一种信息提取的装置300,包括:时间提取模块310,被配置为获取待提取文件,从所述待提取文件中提取时间信息,其中,所述时间信息包括发生时间、准备时间,发现时间和记录时间中的至少一个时间;时间处理模块320,被配置为:当所述时间信息包含所述发生时间时,将所述发生时间作为目标时间信息;当所述时间信息包含所述准备时间、发现时间和记录时间中的一个时间时,将所述准备时间、发现时间或记录时间作为目标时间信息;当所述时间信息包括所述准备时间、发现时间和记录时间中的至少两个时间,且所述至少两个时间中包括所述准备时间时,将所述准备时间作为开始时间,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段。
在本申请的一种实施方式中,一种信息提取的装置300,还被配置为当所述时间信息为发现时间和记录时间时,将所述开始时间设为空,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段;或者,将所述发现时间或所述记录时间作为目标时间信息。
在本申请的一种实施方式中,一种信息提取的装置300,还被配置为:根据目标时段与时间的映射关系,获取所述目标时间信息对应的目标时段,其中,所述目标时段为一天之内的时间分布。
在本申请的一种实施方式中,时间处理模块320还被配置为:若所述时间信息同时包含发现时间和记录时间时,将所述发现时间作为结束时间。
在本申请的一种实施方式中,一种信息提取的装置300,还被配置为:将目标时间信息进行归一化处理,获得所述处理后的目标时间信息;或者,将所述目标时间段的开始时间和结束时间进行归一化处理,获得所述处理后的目标时间段。
在本申请的一种实施方式中,时间提取模块310还被配置为:根据构造的本体表达式从所述待提取文件中提取时间信息,其中,所述本体表达式采用关键词和时间正则表达式进行表征。
在本申请的一种实施方式中,当所述待提取文件中还包括物品属性信息和金额信息时,一种信息提取的装置300还包括物品提取模块,所述物品提取模块被配置为:在所述获取待提取文件之后,根据所述物品属性信息,获取目标物品数量;在确定目标物品数量为一的情况下,根据物品金额提取规则从金额信息中获取目标金额。
在本申请的一种实施方式中,物品提取模块还可以被配置为:从所述待提取文件中提取物品属性信息;从所述物品属性信息中直接获取物品数量,将物品数量去重,如果去重后的物品数量唯一,将所述物品数量作为所述目标物品数量;或者,当不能直接提取所述物品数量的情况下,从所述待提取文件中提取目标物品描述字符串;从所述目标物品描述字符串中提取所述物品属性信息;根据所述物品属性信息获取物品颜色、物品品牌和/或物品类型,将所述物品颜色、物品品牌和/或物品类型去重;当不满足去重后的物品颜色、物品品牌和物品类型为多个的情况下,则目标物品数量确定为一个。
在本申请实施例中,图3所示模块能够实现图1和图2方法实施例中的各个过程。图3中的各个模块的操作和/或功能,分别为了实现图1和图 2中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
如图4所示,本申请实施例提供一种电子设备400,包括:处理器410、存储器420和总线430,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如上述所有实施例中任一项所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
其中,总线用于实现这些组件直接的连接通信。其中,本申请实施例中处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器 (DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory, RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器 (Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,可以执行上述实施例中所述的方法。
可以理解,图4所示的结构仅为示意,还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被执行时实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种信息提取的方法,其特征在于,所述方法包括:
获取待提取文件,从所述待提取文件中提取时间信息,其中,所述时间信息包括目标事件的发生时间、为所述目标事件发生提供准备工作的准备时间,发现所述目标事件发生的发现时间和记录对所述目标事件相关人员的询问过程的记录时间中的至少一个时间;
当所述时间信息包含所述发生时间时,将所述发生时间作为要提取的所述目标事件的目标时间信息;
当所述时间信息包含所述准备时间、发现时间和记录时间中的一个时间时,将所述准备时间、发现时间或记录时间作为目标时间信息;
当所述时间信息包括所述准备时间、发现时间和记录时间中的至少两个时间,且所述至少两个时间中包括所述准备时间时,将所述准备时间作为开始时间,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述时间信息为发现时间和记录时间时,将所述开始时间设为空,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段;
或者,
将所述发现时间或所述记录时间作为目标时间信息。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
根据目标时段与时间的映射关系,获取所述目标时间信息对应的目标时段,其中,所述目标时段为一天之内的时间分布。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述将所述发现时间或所述记录时间作为结束时间,包括:
若所述时间信息同时包含发现时间和记录时间时,将所述发现时间作为结束时间。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
将目标时间信息进行归一化处理,获得处理后的目标时间信息;
或者,
将所述目标时间段的开始时间和结束时间进行归一化处理,获得处理后的目标时间段。
6.根据权利要求1-2任一项所述的方法,其特征在于,所述从所述待提取文件中提取时间信息,包括:
根据构造的本体表达式从所述待提取文件中提取时间信息,其中,所述本体表达式采用关键词和时间正则表达式进行表征。
7.根据权利要求1-2任一项所述的方法,其特征在于,所述待提取文件中还包括物品属性信息和金额信息;
在所述获取待提取文件之后,所述方法还包括:
根据所述物品属性信息,获取目标物品数量;
在确定所述目标物品数量为一的情况下,根据物品金额提取规则从所述金额信息中获取目标金额。
8.根据权利要求7所述的方法,其特征在于,所述根据所述物品属性信息,获取目标物品数量,包括:
从所述待提取文件中提取物品属性信息;从所述物品属性信息中直接获取物品数量,将物品数量去重,如果去重后的物品数量唯一,将所述物品数量作为所述目标物品数量;
或者,
当不能直接提取所述物品数量的情况下,从所述待提取文件中提取目标物品描述字符串;从所述目标物品描述字符串中提取所述物品属性信息;根据所述物品属性信息获取物品颜色、物品品牌和/或物品类型,将所述物品颜色、物品品牌和/或物品类型去重;当不满足去重后的物品颜色、物品品牌和物品类型为多个的情况下,则目标物品数量确定为一个。
9.一种信息提取的装置,其特征在于,所述装置包括:
时间提取模块,被配置为获取待提取文件,从所述待提取文件中提取时间信息,其中,所述时间信息包括目标事件的发生时间、为所述目标事件发生提供准备工作的准备时间,发现所述目标事件发生的发现时间和记录与所述目标事件相关人员的询问过程的记录时间中的至少一个时间中的至少一个时间;
时间处理模块,被配置为:
当所述时间信息包含所述发生时间时,将所述发生时间作为目标时间信息;
当所述时间信息包含所述准备时间、发现时间和记录时间中的一个时间时,将所述准备时间、发现时间或记录时间作为目标时间信息;
当所述时间信息包括所述准备时间、发现时间和记录时间中的至少两个时间,且所述至少两个时间中包括所述准备时间时,将所述准备时间作为开始时间,将所述发现时间或所述记录时间作为结束时间,根据所述开始时间和所述结束时间获取目标时间段。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如权利要求1-8任一项所述方法。
CN202111332637.7A 2021-11-11 2021-11-11 一种信息提取的方法、装置及电子设备 Pending CN116108239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111332637.7A CN116108239A (zh) 2021-11-11 2021-11-11 一种信息提取的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111332637.7A CN116108239A (zh) 2021-11-11 2021-11-11 一种信息提取的方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116108239A true CN116108239A (zh) 2023-05-12

Family

ID=86253274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111332637.7A Pending CN116108239A (zh) 2021-11-11 2021-11-11 一种信息提取的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116108239A (zh)

Similar Documents

Publication Publication Date Title
CN107239891B (zh) 一种基于大数据的招投标审核方法
JP6893209B2 (ja) 構造化されたマルチフィールドファイルのレイアウトの自動解釈
CN102426583B (zh) 基于图像内容分析的中医舌象检索方法
CN104298658B (zh) 获取搜索结果的方法和装置
CN110299209B (zh) 相似病历查找方法、装置、设备及可读存储介质
CN110659282A (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN112989990A (zh) 医疗票据识别方法、装置、设备及存储介质
CN111445597A (zh) 用于机器学习的数据拼接和整合
CN109005425A (zh) 网络视频监控系统
CN113159118A (zh) 物流数据指标的处理方法、装置、设备及存储介质
CN110111796B (zh) 识别身份的方法及装置
CN105930313A (zh) 处理通知信息的方法和装置
CN116108239A (zh) 一种信息提取的方法、装置及电子设备
CN110580301A (zh) 一种高效商标检索方法、系统及平台
CN111932279A (zh) 一种基于区块链技术的中药材质量安全追溯监管方法
CN113779110B (zh) 家庭关系网络提取方法、装置、计算机设备及存储介质
CN114266594A (zh) 一种基于东南亚跨境电商平台的大数据分析方法
CN106815349A (zh) 基于哈希算法和正则匹配的时间过滤方法及事件过滤方法
CN111831683A (zh) 一种基于动态扩展场景匹配的自动化稽核方法和系统
JP3735313B2 (ja) イメージ管理システム、イメージ管理方法及びイメージ管理プログラム
CN112487049A (zh) 一种药品智能化跟踪监控系统
CN112182212A (zh) 一种网络车辆碰撞数据的处理方法及系统
CN117573727B (zh) 一种从业人员健康体检信息检索系统
CN117520920B (zh) 一种多病种防控医疗数据分类方法及装置
CN113807870B (zh) 车辆信息认证方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination