CN111222324A - 时间识别方法、装置、计算机可读存储介质及电子设备 - Google Patents

时间识别方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN111222324A
CN111222324A CN201911380882.8A CN201911380882A CN111222324A CN 111222324 A CN111222324 A CN 111222324A CN 201911380882 A CN201911380882 A CN 201911380882A CN 111222324 A CN111222324 A CN 111222324A
Authority
CN
China
Prior art keywords
time
time information
text
recognized
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911380882.8A
Other languages
English (en)
Inventor
隆靖
胥世承
康波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Nanjing Yiyi Yunda Data Technology Co Ltd
Nanjing Yirui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yiyi Yunda Data Technology Co Ltd, Nanjing Yirui Technology Co Ltd filed Critical Nanjing Yiyi Yunda Data Technology Co Ltd
Priority to CN201911380882.8A priority Critical patent/CN111222324A/zh
Publication of CN111222324A publication Critical patent/CN111222324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种时间识别方法、装置、计算机可读存储介质及电子设备,方法包括:确定待识别文本中的至少一个第一时间信息;根据所述待识别文本,获取所述第一时间信息对应的验证信息;当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。通过本发明的技术方案,可更为准确的识别待识别文本中的时间信息。

Description

时间识别方法、装置、计算机可读存储介质及电子设备
技术领域
本发明涉及数据处理技术领域,尤其涉及时间识别方法、装置、计算机可读存储介质及电子设备。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,其研究能够实现人与计算机之间的用自然语言进行有效通信的各种理论和方法,而时间对于理解事件具有重要的作用和意义。临床科研及药物临床实验均强依赖于患者的全生命周期临床数据,尤其是患者既往、目前进行的诊疗过程以及最终结局事件,如肿瘤患者既往每次的化疗时间、放疗时间、靶向治疗时间、病理确诊时间以及最终死亡时间等,这些关键的诊疗过程数据主要书写在现病史、既往史、病程记录及出院记录等自然语言文本之中,准确识别出自然语言文本之中的目的时间,对辅助研究患者生命周期内各重点诊疗事件的发生、发展、结局很有意义。
目前,主要通过正则规则与自然语言文本进行匹配,以从自然语言文本中提取出时间信息。对于自然语言文本中的绝对时间,如2013-5-6或2015年5月6日等,利用绝对时间正则进行匹配;对于自然语言文本中的相对时间,利用相对时间正则进行匹配。
但是,自然语言文本往往存在时间干扰信息,这些时间干扰信息容易与正则规则匹配,进而被识别为时间信息,从而降低了正则规则匹配出的时间信息的准确性。
发明内容
本发明提供了一种时间识别方法、装置、计算机可读存储介质及电子设备,可更为准确的识别待识别文本中的时间信息。
第一方面,本发明提供了一种时间识别方法,包括:
确定待识别文本中的至少一个第一时间信息;
根据所述待识别文本,获取所述第一时间信息对应的验证信息;
当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
可选地,所述确定待识别文本中的至少一个第一时间信息,包括:
对待识别文本与预设规则中的第一字符串进行匹配,当确定所述待识别文本中的至少一个第二字符串满足第二预设条件时,所述第二字符串确定为第一时间信息。
可选地,所述第二预设条件包括:所述第二字符串和所述第一字符串匹配,且所述第一字符串对应的节点标签为疑似节点。
可选地,所述根据所述待识别文本,获取所述第一时间信息对应的验证信息,包括:
获取所述第一时间信息在所述待识别文本中的前缀词和/或后缀词,所述前缀词和后缀词分别与所述第一时间信息相邻;
将所述前缀词和/或后缀词作为所述第一时间信息对应的验证信息
可选地,所述第一预设条件包括:
所述前缀词和/或后缀词属于预设时间触发词典中的词。
可选地,所述时间触发词典包括相对时间触发词和/或绝对时间触发词。
可选地,还包括:判断所述验证信息是否满足第三预设条件,如果是,则将所述验证信息对应的第一时间信息确定为所述待识别文本中的不可信时间信息,如果否,则执行所述当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息步骤;
所述第三预设条件包括:所述前缀词和/或后缀词属于预设时间排除词典。
第二方面,本发明提供了一种时间识别装置,包括:
信息确定模块,用于确定待识别文本中的至少一个第一时间信息;
获取模板,用于根据所述待识别文本,获取所述第一时间信息对应的验证信息;
验证模板,用于当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
第三方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种时间识别方法、装置、计算机可读存储介质及电子设备,该方法通过确定待识别文本中的若干个第一时间信息,然后,根据待识别文本,获取每个第一时间信息对应的验证信息,当验证信息满足第一预设条件时,将验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息,综上可得,通过本发明提供的技术方案,在识别时间信息时,只有疑似时间信息的第一时间信息中的验证信息符合预设条件时,该第一时间信息才会被识别成时间信息,从而更为准确的识别待识别文本中的时间信息。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种时间识别方法的流程示意图;
图2为本发明一实施例提供的另一种时间识别方法的流程示意图;
图3为本发明一实施例提供的字典树的示意图;
图4为本发明一实施例提供的一种时间识别装置的结构示意图;
图5为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
前述已知,通过正则规则与自然语言文本进行匹配,以从自然语言文本中提取出时间信息。但是自然语言文本往往存在时间干扰信息,容易导致正则规则匹配出的时间信息的准确性较低。本发明则试图基于对时间信息进行验证,从而获得准确性相对较高的时间信息。所以相对于传统方法,本发明的时间识别过程可更为准确的确定出待识别文本中的时间信息。
如图1所述,本发明实施例提供了一种时间识别方法,包括如下各个步骤:
步骤101,确定待识别文本中的至少一个第一时间信息。
随着信息处理技术的飞速发展,命名实体识别技术受到人们的广泛关注,命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,具体指的是指识别文本中具有特定意义的实体,时间识别是命名实体识别的一项基础及重要的任务,可以用来进行时间顺序的推理、事件发生时间的定位以及事件的跟踪等。
具体地,可以利用现有技术中的时间识别方法,从而获取待识别文本中的若干个第一时间信息。其中,第一时间信息为疑似时间信息,即第一时间信息可能是时间信息,也可能是时间干扰信息,时间干扰信息通常和时间信息对应的时间信息的结构相同或相似,因此容易被识别成时间信息,即时间干扰信息具体指的是容易被识别成时间信息的非时间信息,比如,时间干扰信息可以是医疗文本中的具有时间单位的检查数据及检验数据等,显而易见的,时间干扰信息与时间信息在词语组成结构上是相同或相似的。其中,时间信息具体指的是用语言来表达一个时间点或一个时间段,通常表示为一个名词、形容词、动词及其构成短语。
步骤102,根据所述待识别文本,获取所述第一时间信息对应的验证信息。
具体地,验证信息指示了第一时间信息的语义环境,从而区分时间信息和时间干扰信息,可选的,验证信息包括第一时间信息在待识别文本中上下文信息。
步骤103,当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
当验证信息满足第一预设条件时,则说明第一时间信息不是时间干扰信息,是可信时间信息,从而确保了可信时间信息的准确性。其中,可信时间信息指的是确定的时间信息。
通过以上技术方案可知,本发明实施例所述方法具备的有益效果是:
本发明实施例通过识别出待识别文本中的时间信息,通过对获取的时间信息的验证信息的验证分析,从而确保时间信息的准确性,可更为准确的识别待识别文本中的时间信息。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他可选实施例。
如图2所示,为本发明所述时间识别方法的另一个具体实施例。本实施例将在图1所示实施例的基础上,进行更为详细的公开和扩展。为便于解释和说明,本实施例将结合以下的具体场景进行阐述。当然应该认为,在其他有关的场景下,本实施例所述方法亦同样适用。
本实施例所结合的具体场景为:待识别文本为“患者在2016.1.3入院,高血压病史10年,自服曲格列汀1/1周(一周服用一次),一次自测空腹血糖15mmol/L,餐后血糖10-15mmol/L,……,肿物大小5.6cm,复查时间为:2016.2.3、3.3”,时间排除词典包括{…、血糖、绕颈、cm、mmol/L、每、…},时间触发词典包括{…、病史、于、在、开始、予以、前、后、在、#t、年、…},字典树如图3所示为例。本实施例所述方法的目的在于,基于对第一时间信息的验证,从而识别出待识别文本中的可信时间信息。
需要说明的是,时间排除词典及时间触发词典的数据量是巨大的,不应当认为时间排除词典及时间触发词典中仅包含本发明实施例列举出来的词语,字典树的内容也是巨大的,图3中的字典树仅示出了具体场景中涉及的正则规则。
本实施例所述方法包括以下步骤:
步骤201,对待识别文本与预设规则中的第一字符串进行匹配,当确定所述待识别文件本中的至少一个第二字符串满足第二预设条件时,所述第二字符串确定为第一时间信息。
具体地,预设规则指的是正则规则,为了确保数据的参考价值,应当保证正则规则的多样性。时间干扰信息具体指的是正则规则能够识别出的非时间信息,举例来说,具体场景中待识别文本中的5.6及3.3在组成结构上是一样的,但是3.3是时间信息,而5.6是时间干扰信息,10(指的是“血压病史10年”中的10)及15在组成结构上是一样的,但是10是时间信息,而15是时间干扰信息。
可选的,正则规则包括可信时间正则规则、疑似时间正则规则和不可信时间正则规则,具体地,可信时间正则规则识别出的数据是时间信息,疑似时间正则规则识别出的数据可能是时间信息也可能是时间干扰信息;不可信时间正则规则识别出的数据不是时间信息。
需要说明的是,可信时间正则规则通常包括识别绝对时间的正则规则,疑似时间正则规则通常包括识别相对时间的正则规则,不可信时间正则规则通常是针对特殊的时间干扰信息建立的正则规则,比如,特殊的时间干扰信息可以是医疗文本中出现的编码“210609310010”。
需要说明的是,每个正则规则使用字符集的方式,即一个正则规则包括若干个字符,以使得正则规则更为清晰,同时不同格式的正则规则不做合并,从而方便增减正则规则中的字符。举例来说,正则规则中的字符包括“#s”、“#t”、“#d”、“#c”、“#r”,其中“#s”表示日期中的连接符,例如:“-”、“.”、“/”等,“#t”表示两个日期间允许的连接符,例如:“及”、“和”、“与”、“至”、“到”、“,”、“~”、“—”、“,”、“/”等,“#d”表示阿拉伯数字,“#c”表示中文数字,例如:“一”、“二”、……、“十”等,“#r”表示日期中的冗余信息,例如:“半”、“几”、“余”、“+”、“多”、“个”等,考虑到正则规则中的正则规则较多,这里不在一一举例,仅仅举两三个例子说明,可信时间正则规则中的正则规则包括但不限于“2,0,#d,#d,#s,#d,#d,#s,#d,日”、“#d,+,年”、“2,0,#d,#d,年,#d,月,#d,日”,疑似时间正则规则包括但不限于“#d,#s,#d”“#d,#d,#s,#d,#d”、“#d,#d”,不可信时间正则规则包括但不限于“#d,/,#d,周”。
可选的,正则规则的存储方式为字典树,第一字符串为字典树存储的正则规则。字典树是一种有序树,用于保存关联数组,在这里,数组为正则规则,利用字典树储存正则规则,一条路径可存储一个正则规则或者多个正则规则,举例来说,对于“#d,#d,#s,#d,#d”及“#d,#d”这两个正则规则,可以建立一条路径,设置两个输出节点,此时,一条路径存储有两个正则规则,从而节约存储空间,提高存储空间的利用率。字典树是一种高效的存储和查找方法,在字典树中进行查找时,只需要依次向树的下一层访问,如果无法访问到下一节点,则切分,直到找到最长路径,匹配到尽可能多的字符串,即贪婪匹配,从而提高匹配的准确性,最长路径指的是包含最多字符的路径,路径指示了正则规则,当然,也可以是非贪婪匹配,匹配到结果就好。请参考图3,字典树包括根节点、中间节点及输出节点,输出节点携带节点标签,从根节点到输出节点的路径存储有“2,0,#d,#d,#s,#d,#s,#d”、“#d,#s,#d”、“#d,#d,#s,#d,#d”、“#d,#d”、“#d,/,#d,周”的正则规则,字典树上的边不是互斥的,同一个数据可能会走到不同的节点,比如数据走到“2”、“0”之后,可能会走向不同的节点。
需要说明的是,考虑到时间排除词典及时间触发词典中词语的数量是庞大的,与可信时间正则规则、不可信时间正则规则及疑似时间正则规则的组合是多样性的,因此,为了增加识别效率,节省存储空间,字典树中仅存储可信时间正则规则、不可信时间正则规则及疑似时间正则规则。
显而易见的,本发明实施例对正则规则的存储方式不做具体限定,可选字典树。
该实施例中,对待识别文本与预设规则中的第一字符串进行匹配,针对待识别文本中的每个第二字符串,当确定待识别文本中的第二字符串满足第二预设条件时,第二字符串确定为第一时间信息。可选的,第二预设条件包括:第一字符串和第二字符串匹配,且第一字符串对应的节点标签为疑似节点。这里,预设规则可选字典树,相应的,第一字符串为字典树中的正则规则。
具体地,对待识别文本和字典树中存储的正则规则进行匹配,获取匹配的第一字符串,第一字符串携带节点标签,将节点标签为疑似节点对应的匹配的第一字符串的输出结果作为第一时间信息。本发明实施例对匹配方式不做限制,可选贪婪匹配,即在字典树中查找待识别文本对应的最长路径。上述已知,字典树的输出节点携带节点标签,在这里,节点标签用于指示输出结果是否为时间信息,具体地,节点标签包括可信节点、疑似节点和不可信节点,节点标签为可信节点对应的输出结果是时间信息,节点标签为疑似节点对应的输出结果是第一时间信息,节点标签为不可信节点对应的输出结果是不可信时间信息。
在这里,待识别文本指的是需要识别时间信息文本,包含时间信息和/或时间干扰信息,时间信息为可信时间正则规则能够识别出的数据,时间干扰信息为疑似时间正则规则及不可信时间正则规则能够识别出的数据,其中,不可信时间正则规则能够识别出来的数据不是时间信息。
举例来说,对具体场景中的待识别文本与字典树中的正则规则进行贪婪匹配,可确定出字典树的最长路径包括“#d,#s,#d”、“#d,#d”、“2,0,#d,#d,#s,#d,#s,#d”、“#d,#d,#s,#d,#d”及“#d,/,#d,周”。将最长路径的输出结果作为对待识别文本的识别结果,最长路径“#d,#s,#d”的输出结果为5.6及3.3,“#d,#s,#d”对应在图3所示的字典树的节点标签为疑似节点,则5.6及3.3均携带疑似节点的节点标签,基于上述相似的方法,携带疑似节点的节点标签对应的输出结果为:10-15、5.6、3.3、10、15;携带可信节点的节点标签对应的输出结果为:2016.1.3及2016.2.3;携带不可信节点的节点标签对应的输出结果为:1/1周。需要说明的是,字典树与待识别文本匹配时遵循贪婪匹配,因此,待识别文本中的10-15与“#d,#d,#s,#d,#d”匹配。
步骤202,获取所述第一时间信息在所述待识别文本中的前缀词和/或后缀词,所述前缀词和后缀词分别与所述第一时间信息相邻;将所述前缀词和/或后缀词作为所述第一时间信息对应的验证信息。
节点标签为疑似节点对应的输出结果不一定是时间信息,即第一时间信息不一定是时间信息,为了确定第一时间信息是否为时间信息,需要考虑待识别文本中距离该第一时间信息最近的词语,从而理解第一时间信息的语义,为了确保对该第一时间信息的语义的准确理解,通常需要确定该第一时间信息的前缀词和后缀词,前缀词具体指的是待识别文本中距离第一时间信息的最左边字符最近的词语,后缀词具体指的是待识别文本中距离第一时间信息的最右边字符最近的词语,即前缀词和后缀词分别与该第一时间信息相邻。
需要说明的是,本发明实施例未对前缀词和后缀词中包含的字符个数做限定,可以结合具体场景确定前缀词或后缀词。可选的,对待识别文本进行分词,按照待识别文本中字符的顺序得到分词后的序列,将距离第一时间信息的最左边字符最近的分词作为前缀词,距离第一时间信息的最右边字符最近的分词作为后缀词。
举例来说,在前述实施例的基础上,节点标签为疑似节点对应的输出结果为10-15、5.6、3.3、10、15,“5.6”对应在具体场景中的待识别文本中的后缀词为“cm”、前缀词为“肿物大小”,“3.3”对应在具体场景中的待识别文本中的前缀词为“、”,“10-15”的前缀词为“血糖”,后缀词为“mmol/L”,“10”的前缀词为“病史”,后缀词为“年”,“15”的前缀词为“血糖”,后缀词为“mmol/L”。
步骤203,判断所述验证信息是否满足第三预设条件,如果是,则执行步骤204,如果否,则执行步骤206。
第三预设条件包括前缀词和/或后缀词属于预设时间排除词典。其中,属于的意思是预设时间排除词典包括前缀词和/或后缀词。
验证信息满足第三预设条件具体指的是,前缀词及后缀词中只要有一个位于时间排除词典中时,第一时间信息即为不可信时间。
这里,时间排除词典中的词语指示了时间干扰信息的前缀词和/或后缀词,通过建立时间排除词典能够更为准确的理解时间干扰信息的语义,确定出该第一时间信息为时间干扰信息的语义环境。
步骤204,判断所述验证信息是否满足第一预设条件,如果是,则执行步骤205。
第一预设条件包括前缀词和/或后缀词属于预设时间触发词典。其中,属于的意思是预设时间触发词典包括前缀词和/或后缀词。
验证信息满足第一预设条件具体指的是,前缀词及后缀词中均位于时间触发词典中时,第一时间信息为可信时间。当第一时间信息只有前缀词或后缀词时,前缀词或后缀词位于时间触发词典中时,第一时间信息为可信时间。因此,验证信息不在时间排除词典中,仅位于时间触发词典中时,第一时间信息为可信时间信息。
这里,时间触发词典中的词语指示了时间信息的前缀词和/或后缀词,建立时间触发词典是为了更为准确的理解时间信息的语义,确定出第一时间信息为时间信息的语义环境。
针对医疗文本来说,主要是识别文本中绝对时间及相对时间,本发明实施例提供的时间识别方法,尤其适用于识别医疗文本中的绝对时间及相对时间,绝对时间可以理解为具体标准时间,例如具体场景中待识别文本中“2016.1.3”,相对时间可以视为从一类时间基准点出发的时间,例如具体场景中待识别文本中“10年”。因此,时间触发词典包括相对时间触发词典以及绝对时间触发词典即可满足需求,具体地,相对时间触发词典包括但不限于病史、前、后、疾病名称等,绝对时间触发词典包括但不限于在、于、开始、予以等。
具体地,时间触发词典以及时间排除词典是通用的,包含的词语很多,比如,时间排除词典中可以包括预设疑似时间文本中的单位(比如,cm、ml/L)及检验名称(比如,血糖)等,特殊的,对于一些检查异常描述的词语,这些词语可能是时间干扰信息,比如绕颈后三周是一个完整的检查异常描述而非一个日期,时间触发词典可以包括疑似时间文本中的疾病名称(比如,高血糖、高血脂)及病史等词语。
步骤205,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
考虑到可信时间信息的格式是不统一的,同时,绝对时间通常是完整的信息,可以清楚的指示年月日,但是相对时间通常是不完整的信息,可能仅仅指示月或者日,需将可信时间信息中缺少的时间补全,同时统一绝对时间和相对时间的格式,以确定标准时间信息,在这里,标准时间信息的参考价值较高。具体地,根据预设时间补全规则和/或时间归一规则,对可信时间信息进行处理,以确定标准时间信息。显而易见的,时间补全规则用于补全可信时间信息中不完整的时间信息,时间归一规则用于统一可信时间信息的格式。
举例来说,在前述实施例的基础上,时间补全规则以患者入院时间2016.1.3为基准,时间归一规则为:y年n月d日,则对10年进行时间补全及归一化处理后为2006年1月3日,进而确定出待识别文本中的标准时间信息包括:2016年1月3日、2016年2月3日、2016年3月3日及2006年1月3日。
步骤206,将所述验证信息对应的第一时间信息确定为所述待识别文本中的不可信时间信息。
举例来说,在前述实施例的基础上,待识别文本中的第一时间信息包括:10-15、5.6、3.3、10、15,以“3.3”以及“10”为例进行说明,“3.3”第一时间信息前缀词为“、”属于时间触发词典中的“#t”,不属于时间排除词典,则3.3为可信时间信息,“10”的前缀词为“病史”,后缀词为“年”,均不属于时间排除词典,均属于时间触发词典,则10为可信时间信息,按照上述相似的方法,可以确定待识别文本中的可信时间信息为:3.3、10。
步骤207,将所述验证信息对应的第一时间信息确定为所述待识别文本中的不可信时间信息。
不可信时间信息为时间干扰信息。举例来说,在前述实施例的基础上,以“5.6”为例进行说明,“5.6”对应的后缀词为“cm”、前缀词为“肿物大小”,后缀词为“cm”位于时间排除词典中,则5.6是不可信时间信息,按照上述相似的方法,可以确定待识别文本中的不可信时间信息为:10-15、5.6、15。
通过以上技术方案可知,本实施例所述方法在图1所示实施例的基础上,进一步实现的有益效果是:利用正则规则对应的字典树识别待识别文本中的第一时间信息,通过时间排除词典与时间触发词典对第一时间信息对应的验证信息进行判断分析,以确定第一时间信息是否为可信时间信息,从而确保识别出来的时间信息的准确性。
如图4所示,为本发明所述时间识别装置的一个具体实施例。本实施例所述装置,即用于执行图1~2所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
信息确定模块401,用于确定待识别文本中的至少一个第一时间信息;
获取模块402,用于根据所述待识别文本,获取所述第一时间信息对应的验证信息;
验证模块403,用于当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
通过以上技术方案可知,本发明实施例通过识别出待识别文本中的时间信息,通过对获取的时间信息的验证信息的验证分析,从而确保时间信息的准确性,更为准确的识别待识别文本中的时间信息。
图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器501以及存储有执行指令的存储器502,可选地还包括内部总线503及网络接口504。其中,存储器502可能包含内存5021,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器5022(non-volatile memory),例如至少1个磁盘存储器等;处理器501、网络接口504和存储器502可以通过内部总线503相互连接,该内部总线503可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等;内部总线503可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。当然,该电子设备还可能包括其他业务所需要的硬件。当处理器501执行存储器502存储的执行指令时,处理器501执行本发明任意一个实施例中的方法,并至少用于执行如图1或图2所示的方法。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成一种时间识别装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的一种时间识别方法。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图5所示的电子设备;执行指令是一种时间识别装置所对应的计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者锅炉不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者锅炉所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者锅炉中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种时间识别方法,其特征在于,包括:
确定待识别文本中的至少一个第一时间信息;
根据所述待识别文本,获取所述第一时间信息对应的验证信息;
当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
2.根据权利要求1所述的方法,其特征在于,所述确定待识别文本中的至少一个第一时间信息,包括:
对待识别文本与预设规则中的第一字符串进行匹配,当确定所述待识别文本中的至少一个第二字符串满足第二预设条件时,所述第二字符串确定为第一时间信息。
3.根据权利要求2所述的方法,其特征在于,
所述第二预设条件包括:所述第二字符串和所述第一字符串匹配,且所述第一字符串对应的节点标签为疑似节点。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本,获取所述第一时间信息对应的验证信息,包括:
获取所述第一时间信息在所述待识别文本中的前缀词和/或后缀词,所述前缀词和后缀词分别与所述第一时间信息相邻;
将所述前缀词和/或后缀词作为所述第一时间信息对应的验证信息。
5.根据权利要求4所述的方法,其特征在于,所述第一预设条件包括:
所述前缀词和/或后缀词属于预设时间触发词典中的词。
6.根据权利要求5所述的方法,其特征在于,所述时间触发词典包括相对时间触发词和/或绝对时间触发词。
7.根据权利要求6所述的方法,其特征在于,还包括:判断所述验证信息是否满足第三预设条件,如果是,则将所述验证信息对应的第一时间信息确定为所述待识别文本中的不可信时间信息,如果否,则执行所述当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息步骤;
所述第三预设条件包括:所述前缀词和/或后缀词属于预设时间排除词典。
8.一种时间识别装置,其特征在于,包括:
信息确定模块,用于确定待识别文本中的至少一个第一时间信息;
获取模板,用于根据所述待识别文本,获取所述第一时间信息对应的验证信息;
验证模板,用于当所述验证信息满足第一预设条件时,将所述验证信息对应的第一时间信息确定为所述待识别文本中的可信时间信息。
9.一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
CN201911380882.8A 2019-12-27 2019-12-27 时间识别方法、装置、计算机可读存储介质及电子设备 Pending CN111222324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911380882.8A CN111222324A (zh) 2019-12-27 2019-12-27 时间识别方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911380882.8A CN111222324A (zh) 2019-12-27 2019-12-27 时间识别方法、装置、计算机可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN111222324A true CN111222324A (zh) 2020-06-02

Family

ID=70827813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911380882.8A Pending CN111222324A (zh) 2019-12-27 2019-12-27 时间识别方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111222324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792608A (zh) * 2021-08-19 2021-12-14 广州云硕科技发展有限公司 一种智能语义分析方法及系统
CN114943222A (zh) * 2022-05-13 2022-08-26 医渡云(北京)技术有限公司 时间实体识别方法和装置、计算机存储介质、电子设备
CN116010627A (zh) * 2023-03-28 2023-04-25 智慧眼科技股份有限公司 一种时间提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951508A (zh) * 2015-05-21 2015-09-30 腾讯科技(深圳)有限公司 时间信息识别方法和装置
CN105045847A (zh) * 2015-07-01 2015-11-11 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN109086274A (zh) * 2018-08-23 2018-12-25 电子科技大学 基于约束模型的英文社交媒体短文本时间表达式识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951508A (zh) * 2015-05-21 2015-09-30 腾讯科技(深圳)有限公司 时间信息识别方法和装置
CN105045847A (zh) * 2015-07-01 2015-11-11 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN109086274A (zh) * 2018-08-23 2018-12-25 电子科技大学 基于约束模型的英文社交媒体短文本时间表达式识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴琼: "中文时间表达式自动识别的研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792608A (zh) * 2021-08-19 2021-12-14 广州云硕科技发展有限公司 一种智能语义分析方法及系统
CN113792608B (zh) * 2021-08-19 2022-05-10 广州云硕科技发展有限公司 一种智能语义分析方法及系统
CN114943222A (zh) * 2022-05-13 2022-08-26 医渡云(北京)技术有限公司 时间实体识别方法和装置、计算机存储介质、电子设备
CN116010627A (zh) * 2023-03-28 2023-04-25 智慧眼科技股份有限公司 一种时间提取方法及系统

Similar Documents

Publication Publication Date Title
CN111222324A (zh) 时间识别方法、装置、计算机可读存储介质及电子设备
US20180365211A1 (en) Method and Device for Recognizing Domain Named Entity
Xu et al. MULAPI: Improving API method recommendation with API usage location
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
Lobo et al. Identifying human phenotype terms by combining machine learning and validation rules
CN109147767A (zh) 语音中的数字识别方法、装置、计算机设备及存储介质
CN111985241B (zh) 医学信息查询方法、装置、电子设备及介质
CN110674244B (zh) 一种医疗文本的结构化处理方法及装置
CN104008093A (zh) 用于中文姓名音译的方法和系统
Glanz et al. A vulnerability's lifetime: enhancing version information in CVE databases
CN111459977B (zh) 自然语言查询的转换
CN109902309B (zh) 翻译方法、装置、设备和存储介质
CN113010550B (zh) 结构化数据的批处理对象生成、批处理方法和装置
CN111738358B (zh) 一种数据识别方法、装置、设备和可读介质
CN114611513A (zh) 样本生成方法、模型训练方法、实体识别方法及相关装置
US11727059B2 (en) Retrieval sentence utilization device and retrieval sentence utilization method
CN110688530B (zh) 一种json数据的处理方法及装置
US9251253B2 (en) Expeditious citation indexing
CN114154502B (zh) 医学文本的分词方法、装置、计算机设备和存储介质
CN109710419A (zh) 基于文本分析的mpi代码通信过程解析方法
CN113407536B (zh) 表数据的关联方法、装置、终端设备及介质
CN114881011B (zh) 多通道中文文本更正方法、装置、计算机设备和存储介质
CN107515769A (zh) 一种变量信息提取方法及装置
US11340875B2 (en) Searchable storage of sequential application programs
Feng et al. End-to-end Clinical Event Extraction from Chinese Electronic Health Record

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230329

Address after: 100089 801, 8th floor, building 9, No.35 Huayuan North Road, Haidian District, Beijing

Applicant after: YIDU CLOUD Ltd.

Address before: Room 1502, 15th floor, No.211, pubin Road, Jiangbei new district, Nanjing, Jiangsu 210000

Applicant before: Nanjing Yirui Technology Co.,Ltd.

Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd.