CN107145947A - 一种信息处理方法、装置及电子设备 - Google Patents

一种信息处理方法、装置及电子设备 Download PDF

Info

Publication number
CN107145947A
CN107145947A CN201710283791.7A CN201710283791A CN107145947A CN 107145947 A CN107145947 A CN 107145947A CN 201710283791 A CN201710283791 A CN 201710283791A CN 107145947 A CN107145947 A CN 107145947A
Authority
CN
China
Prior art keywords
knowledge
attribute
description content
description
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710283791.7A
Other languages
English (en)
Other versions
CN107145947B (zh
Inventor
姬东鸿
孟晓静
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hanvon Digital Technology Co Ltd
Original Assignee
Beijing Hanvon Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hanvon Digital Technology Co Ltd filed Critical Beijing Hanvon Digital Technology Co Ltd
Priority to CN201710283791.7A priority Critical patent/CN107145947B/zh
Publication of CN107145947A publication Critical patent/CN107145947A/zh
Application granted granted Critical
Publication of CN107145947B publication Critical patent/CN107145947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种信息处理方法,属于自然语言处理领域,解决了现有技术中进行获取地方志信息时效率低下的问题。所述方法包括:对地方志文本数据进行预处理;对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识;基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。本发明公开的信息处理方法,通过基于上下文的描述内容,进行属性知识完善,可以准确地完善地方志文本数据,进一步提高获取地方志信息的效率。

Description

一种信息处理方法、装置及电子设备
技术领域
本发明涉及自然语言处理领域,尤其涉及一种信息处理方法及装置,电子设备。
背景技术
地方志是按一定体例全面记载某一时期某一地域的自然、社会、政治、经济、文化等方面情况的书籍文献。由于地方志会分为多个卷次编撰和记载,历史久远的地方志经常会出现由于保存不当而导致破损或丢失的情况,造成历史资料的缺失。并且,由于地方志会分为多个卷次编撰和记载,如何从地方志中获取完整的知识一直是很困难的问题。现有技术中,在获取地方志中记载的资料时,只能通过人工翻越多卷资料的方式,费事费力,效率低下。
知识抽取是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。目前研究较多的是针对自然语言文本的知识抽取。知识抽取已经成为自然语言处理领域一个重要的研究分支。
综上,如何高效地从地方志中获取完整的信息,是一个承待解决的问题。
发明内容
本发明实施例提供一种信息处理方法及装置,通过完善地方志信息,以解决现有技术中进行获取地方志信息时效率低下的问题。
第一方面,本发明实施例提供了一种信息处理方法,包括:
对地方志文本数据进行预处理;
对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识;
基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
第二方面,本发明实施例还提供了一种信息处理装置,装置包括:
预处理模块,用于对地方志文本数据进行预处理;
属性知识抽取模块,用于对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识;
信息完善模块,用于基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例所述的信息处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述的信息处理方法的步骤。
这样,本发明实施例公开的信息处理方法,通过对地方志文本数据进行预处理,然后,对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识,最后,基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改,解决了现有技术中由于地方志数据不完整导致的获取地方志信息时效率低下的问题。通过基于上下文的描述内容,进行属性知识完善,可以准确地完善地方志文本数据,进一步提高获取地方志信息的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一的信息处理方法流程图;
图2是本发明实施例二的信息处理方法流程图;
图3是本发明实施例二地方志文本中提取的条目和描述内容示意图之一;
图4是图3中的条目和描述内容修正后的示意图;
图5是本发明实施例二中描述内容中提取的属性知识的示意图之一;
图6是本发明实施例二中描述内容中提取的属性知识的示意图之二;
图7是本发明实施例二中描述内容中提取的属性知识的示意图之三;
图8是图7所述的属性知识完善后的示意图;
图9是本发明实施例三的信息处理装置结构示意图;
图10是本发明实施例三的信息处理装置另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本实施例提供了一种信息处理方法,如图1所示,所述方法包括:步骤10至步骤12。
步骤10,对地方志文本数据进行预处理。
地方志是记载一定地区(或行政区划)自然和社会各个方面的历史与现状的综合性著述,编纂形式有其特有的特征,一般相同知识类别的数据会按照统一的格式组织在一个或者多个卷次中。例如“山川”和“人物”存放于不同的卷次中,并且同一知识类别的数据按照并列关系依次以同样的格式来描述。对地方志文本数据进行预处理时,根据各种数据类别的数据存储格式,将数据首先切分成一个个碎片,细化数据处理的粒度。然后,针对每一个碎片,分别进行条目和描述内容的提取,得到多条地方志文本数据,便于根据条目标识描述内容,对描述内容进行管理。同时,便于后续从各条目对应的描述内容中提取属性知识。
具体实施时,每种知识类别的地方志文本切分得到的碎片将按照切分顺序进行存储。因此,从每个碎片中提取的条目和描述内容也按照相应的顺序依次存储。即对地方志文本数据进行预处理之后,将得到至少包括:条目、描述内容两个字段的多条地方志文本数据,通常,每种知识类别的地方志文本数据分别存储。不同知识类别的地方志文本切分得到的文本碎片对应不同的知识类别,所述文本碎片的知识类别与所属地方志文件的知识类别相同。
具体实施时,本发明实施例中的地方志中的知识类别包括:事件知识、人物知识、地名知识、物产知识中的一项或多项。
步骤11,对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识。
每一个知识类别对应多种属性知识,例如,所述事件知识对应的属性知识至少包括:时间属性和地点属性;所述时间属性进一步包括:事件发生的时间,所述地点属性进一步包括:事件发生的地点。具体实施时,每种知识类别对应的属性知识的种类根据具体业务需求确定。
对于不同知识类别的地方志文本数据,需要提取的属性知识各不相同,因此,需要预先针对不同知识类别设置相应的属性知识抽取规则,然后,对于每种知识类别的地方志文本数据,采用相应的属性知识抽取规则,提取描述内容中包括的属性知识。例如,对于人物知识,预先设置人物属性知识抽取规则;然后,对于每一条人物知识的描述内容,采用所述人物属性知识抽取规则,抽取其中包括的属性知识,如:字、名等。再例如,对于事件知识,预先设置事件属性知识抽取规则;然后,对于每一条事件知识的描述内容,采用所述事件属性知识抽取规则,抽取其中包括的属性知识,如:事件发生的事件、事件发生的地点等。
步骤12,基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
在地方志文本数据中,经常会出现省略了时间或地点的事件描述,或基于上文提到的地点,直接采用相对距离描述事件地点的描述,这种情况下提取到的某个条目对应的描述内容的属性知识通常是不准确的,或者无法提取到全面的属性知识。而根据上文的描述内容中提取的属性知识,对下文的描述内容中提取的属性知识进行补充或指代消解,可以完善下文的描述内容中的属性知识。
例如:上文的描述内容为:“咸寕二年大旱”,从本条描述内容中提取的属性知识包括:时间属性,取值为:咸寕二年;下文的描述内容为:“次年大雨”,从本条描述内容中提取到属性知识包括:时间属性,取值为:次年。但是,单独获取“次年”的地方志文本信息时,获取到的时间是不准确的,通过基于得到的上文描述内容的时间属性“咸寕二年”对下文描述内容中提取的时间属性“次年”进行指代消解,可以得到,下文的描述内容中提取的时间属性为“咸寕三年”,进一步完善了下文描述内容的属性知识。
本发明实施例公开的信息处理方法,通过对地方志文本数据进行预处理,然后,对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识,最后,基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改,解决了现有技术中由于地方志数据不完整导致的获取地方志信息时效率低下的问题。通过基于上下文的描述内容,进行属性知识完善,可以准确地完善地方志文本数据,进一步提高获取地方志信息的效率。
实施例二:
参见图2,本发明另一个实施例中公开的地方志文本信息的获取方法,步骤20至步骤23。
步骤20,建立各知识类别对应的属性知识抽取规则。
所述属性知识抽取规则为:描述本体间逻辑关系的正则表达式,所述本体为描述知识类别对应的属性知识的词语。具体实施时,所述知识类别包括:事件知识、人物知识、地名知识、物产知识中的一项或多项,每种知识类别对应一条属性知识抽取规则。
每种类别的知识进一步包括多种属性,例如:所述事件知识对应的属性知识至少包括:时间属性和地点属性;所述时间属性进一步包括:事件发生的时间,所述地点属性进一步包括:事件发生的地点;所述地名知识对应的属性知识至少包括:地名属性;所述地名属性进一步包括:别名、与相关地点的方向关系、与相关地点的距离;所述人物属性进一步包括:字、号、籍贯、相关地名等;所述物产知识的属性通常包括:产出地。本发明实施例中,将描述知识类别对应的属性知识的词语定义为属性知识抽取规则中的本体。例如,人物知识的属性中“字”的本体为“字”;属性“籍贯”的本体可以为“籍贯”、“祖籍”。通常本体为描述某一属性的专业词语。
属性知识抽取规则以文件形式存储,规则可以根据不同知识类别的属性的特点人为设定,所述属性知识抽取规则由本体和符号组成。例如:一个人物属性知识抽取规则为:#字+#^字限制{1,2}+^籍贯限制{1,4}+#人+#{1000}”,规则中包括以下符号:“+”、“{}”、“#”、“^”,其中,“字”、“籍贯”和“字限制”为本体。具体实施时,一条规则由若干个本体串通过“+”连接起来,上述规则中“#字”、“#^字限制{1,2}”都称为本体串,本体串由本体与符号组成。上述规则中四种符号分别具有不同的意义,其中,“#”代表匹配但不出现在结果中,“^”代表不包含该本体,“{}”代表该本体的出现字数,“{2}”代表出现2次,“{1,4}”代表出现1-4次“{1000}”代表匹配任意长度的字符串,{-1}代表匹配句首,“+”号仅代表连接。
具体实施时,可以对本体和正则表达式分别定义,然后存储在文件中。
具体实施时,地方志中包括的知识类别、每一知识类别对应的属性知识、属性的本体,以及本体之间的逻辑关系等,根据具体业务需求和处理数据源确定。
步骤21,对地方志文本数据进行预处理。
对地方志文本数据进行预处理包括:按照地方志文本数据的格式,将所述地方志文本数据切分成多个文本碎片;提取每个所述文本碎片的条目和描述内容。
地方志的编纂有其特有的格式特征,例如:采用单独一列作为目录、采用不同字体撰写目录等。具体实施时,通过对扫描得到的地方志文本图像的格式进行分析,或者对转换成文本流的地方志文本数据的文本格式进行分析,可以确定每个条目对应的文本范围,然后,依据确定的文本范围对所述地方志文本数据进行切分,将所述地方志文本数据切分成多个文本碎片,每个碎片即对应一个条目,得到多条地方志文本数据。
碎片化后的地方志文本数据具有上下文及前后顺序等逻辑关系。具体实施时,碎片化后得到的每条地方志文本数据的上下文及前后顺序与地方志文本的目录结构和切分顺序对应。例如:书籍的总目录为上文,子目录为下文,书籍前面的内容为上文,后面的内容为下文。文本在书籍中出现的顺序对应切分顺序。具体实施时,可以将每本地方志碎片化后生成一个XML文件,通过XML节点的上下级关系表示地方志文本中的上下文关系,通过XML节点的前后顺序表示书中该碎片出现的顺序关系,即切分顺序。
具体实施时,每卷地方志中可能同时包括多种知识类别的文本数据,因此,碎片化后得到的多条地方志文本数据可能属于不同知识类别,为了便于知识抽取,首先需要将同一知识类别的地方志文本数据单独管理。例如,对前述的XML文件进行遍历,将人物知识的地方志文本数据用一个XML文件管理,将事件知识的地方志文本数据用另一个XML文件管理。
然后,针对每个知识类别,对该类别的每一个碎片,分别进行条目和描述内容的提取。提取每个所述文本碎片的条目和描述内容,包括:按照地方志文本数据的格式,例如:目录结构和/或字体,提取每个所述文本碎片的条目和描述内容。
条目通常为数据中对一段或一部分内容的概括或总结,而描述内容则是针对该条目的具体内容。由于地方志文本的编撰具有一定的格式特点,通常地方志文本的条目是书籍的目录、单独列出的一列、或者文中字体的大小比一般字体大的一列等。因此,根据地方志文本数据的格式信息可以提取出每条地方志文本数据(即每个碎片)的条目。具体实施时,可以通过分析每条地方志文本数据对应的碎片化之前,书籍相应部分的图像,或者对转换成文本流的地方志文本数据的文本格式进行分析,从碎片化后得到的每条地方志文本数据中提取条目。然后,可以将每条地方志文本数据中条目以外的数据作为该条目(即该碎片)对应的描述内容。
对于一些格式特征不明显的地方志文本数据,或者格式特征不明显的切片,根据格式信息无法从切片中提取条目和描述内容,或者,根据格式信息无法从切片中准确提取条目和描述内容,则可以知识抽取算法,进一步对基于格式信息提取的条目和描述内容进行修正,以得到准确的条目和描述内容。具体实施时,所述按照地方志文本数据的格式,提取每个所述文本碎片的条目和描述内容之后,所述方法还包括:通过知识抽取方法对提取的所述条目和描述内容进行修正。
具体实施时,对于一些目录结构不明显,或者条目的字体与描述内容字体相同的碎片,根据格式将无法准确提取其中的条目和描述内容,在这种情况下,可以首先将该碎片对应的文本全部作为条目或者全部作为描述内容,然后,进一步通过知识抽取方法,进一步对没有准确提取的条目或描述内容进行修正,得到准确的条目和描述内容。具体实施时,对没有准确提取的条目或描述内容进行修正,即从没有准确提取的条目或描述内容中进一步提取条目和描述内容时,可以基于预设规则,通过切分标记标引方法,从所述条目或描述内容中重新抽取条目和描述内容。
以图3所示的内容为例,图3中的每一行对应一个碎片的文本数据。首先,在根据格式无法准确提取其中的条目和描述内容时,可以首先将该碎片对应的文本全部作为条目,如图3中的第1至3行。然后,进一步通过知识抽取方法,对没有准确提取的条目和描述内容进行修正。首先,根据数据处理需要,预设切分标记;基于切分标记和预设规则生成正则表达式,通过执行所述正则表达式,从所述描述内容中重新抽取条目和描述内容。例如,对于图3中的第1行的条目,进一步从初步确定的条目中提取条目和描述内容将其中的“殷嶠”从初步确定的条目中提取出来作为重新确定的条目,将初步确定的条目中“殷嶠”后面的内容做为重新确定的描述内容,得到如图4所示的条目和描述内容提取结果。
具体实施时,还可以在根据格式无法准确提取其中的条目和描述内容时,首先将该碎片对应的文本全部作为描述内容,然后再从初步确定的描述内容中进一步提取条目和描述内容。从初步确定的描述内容中进一步提取条目和描述内容时,可以基于预设规则,通过切分标记标引方法,从所述描述内容中重新抽取条目和描述内容。从初步确定的描述内容中进一步提取条目和描述内容的具体方法参见前一段落,此处不再赘述。
通过前述方法,可以得到每个碎片对应的条目和描述内容。并且,所述条目和描述内容具有上下文关系。每种知识类别的碎片中提取的条目和描述内容采用独立的文件分别管理,文件中记录每个碎片对应的条目和描述内容的上下文关系。
步骤22,对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识。
对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识,包括:对于预处理得到的每条描述内容,基于所述描述内容所属知识类别对应的预设属性知识抽取规则进行知识抽取,得到描述内容包含的属性知识;其中,所述属性知识抽取规则为:描述本体间逻辑关系的正则表达式,所述本体为描述知识类别对应的属性知识的词语。描述内容所属知识类别与从中提取该描述内容的文本碎片的知识类别相同。
执行完前述步骤之后,可以得到每种知识类别的碎片分别对应的条目和描述内容。例如,对于事件知识、人物知识、地名知识、物产知识可以分别得到一个存储其地方志文本的条目和描述内容的文件,如XML文件。该文件中按照描述内容的上下文对每个碎片的具体文本数据进行记载。对于每类知识,可以进一步基于相应的文件,从中抽取每个碎片的详细属性知识。例如,对于事件知识,通过预设事件属性知识抽取规则,从事件知识对应的XML文件中的每一条描述内容中,抽取事件知识的属性知识,如:事件发生的时间、事件发生的地点等。
以人物知识的属性知识抽取为例,图5中的每一行代表一条人物知识的一条描述内容,其中,第三条的描述内容为“字化甫德州人…”。假设预设的人物知识抽取规则为:#字+#^字限制{1,2}+^籍贯限制{1,4}+#人+#{1000}”,通过该规则对第三条的描述内容进属性知识抽取,其实际匹配结果为:“#字”匹配“字”,“#^字限制{1,2}”匹配“化甫”,“^籍贯限制{1,4}”匹配“德州”,因为“德州”不包括籍贯限制本体中所出现的关键词且长度在1-4之间所以被匹配到,“#人”匹配“人”,“#{1000}”匹配剩余省略的内容。最终抽取的属性知识包括:字属性知识取值为“化甫”,籍贯属性值知识取值为“德州”,属性知识抽取结果如图5的第3至5列所示。
再例如,对于物产知识,通过相应的预设物产属性知识抽取规则对物产知识的每条描述内容进行属性知识抽取。如图6所示的物产知识的描述内容,可以抽取到每条描述内容中的产出地,如图6中的第3列。
同样,对于事件知识、地名知识,采用相应的预设属性知识抽取规则,对经过地方志碎片化和条目、描述内容抽取后得到的描述内容进行属性知识抽取,可以得到该类别知识的每条描述内容的预设属性知识。
具体实施时,对于预处理得到的每条描述内容,基于所述描述内容所属知识类别对应的预设属性知识抽取规则进行知识抽取,得到描述内容包含的属性知识之后,还包括:根据得到的属性知识更新所述各知识类别对应的属性知识抽取规则。
对于经过属性知识抽取得到的属性知识,可以将其作为本体,重新设置到属性知识抽取规则中,以补充本体的取值范围,完善属性知识抽取规则,进一步增强属性知识抽取的准确性和前面性。以人物知识的抽取为例,人物知识会抽取出地名以及籍贯属性,可以将抽取后的得到的地名或籍贯作为本体,加入到属性知识抽取规则中,在后续的属性知识抽取中提供更大的匹配范围,增加抽取到的知识属性的可能性。
步骤23,基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改,包括以下至少一项:基于事件知识的上文描述内容中的时间属性知识,对下文描述内容中的时间属性进行指代消解和/或补全;基于事件知识的上文描述内容中的地名属性知识,对下文描述内容中的地点属性进行指代消解和/或补全;基于地名知识的上文描述内容中的地名属性知识,对下文描述内容中的地名属性进行指代消解和/或补全。
在地方志文本数据中,经常会出现省略了时间或地点的事件描述,或基于上文提到的地点,直接采用相对距离描述事件地点的描述,这种情况下提取到的某个条目对应的描述内容的属性知识通常是不准确的,或者无法提取到全面的属性知识。而根据上文的描述内容中提取的属性知识,对下文的描述内容中提取的属性知识进行补充或指代消解,可以完善下文的描述内容中的属性知识。
例如:对于如图7所示的事件知识的描述内容,其中,以图7中第1行描述内容提取的属性知识为例,其时间属性,即事件发生的时间为“咸寕二年八月”。而根据第二行的描述内容提取到的时间属性为“五月”,不是完整的时间,因此采用上文的描述内容的时间属性知识对下文的描述内容中的时间属性知识进行补全,得到的下文的属性知识如图8中的第二行所示,为:“咸寕二年五月”。
再例如,对于描述内容中以“次年”、“是日”等用指代说法描述的时间,还可以利用上文描述内容中的时间属性,对下文描述内容中用指代说法描述的时间进行指代消解,以完善下文描述内容的时间属性。
基于事件知识的上文描述内容中的地名属性知识,对下文描述内容中的地点属性进行指代消解和/或补全的实施方式如下:首先,确定地名属性知识不完整或缺少的描述内容;然后,逐级向上查找该描述内容的上文描述内容,并判断该上文描述内容的地名属性知识是否完整;最后,根据上文描述内容的完整地名属性知识对下文描述内容的地名属性知识进行完善,如进行指代消解或补全。以某一地方志中的事件知识的一条描述内容抽取的地名属性为“縣東”为例,逐级向上查找上文描述内容,最后确定该地方志标题的描述内容为:“灵寿县志”,即该地方志为灵寿县志,标题的描述内容的地名属性为“灵寿县”,则将地名属性“縣東”补全为“灵寿县縣東”。
基于地名知识的上文描述内容中的地名属性知识,对下文描述内容中的地名属性进行指代消解和/或补全时,针对描述内容中的如别名、与相关地点的方向关系、与相关地点的距离等描述方式提取出的地名属性进行完善。仍以前述《灵寿县志》为例,某一条描述内容抽取出的距离属性值“縣東十里”,而这本地方志为灵寿县志,所以补全后为“灵寿縣東十里”。
具体实施时,记录每一条描述内容的文件同时记录有描述内容的上下文信息,例如XML文件通过节点上下级信息记录描述内容的上下文信息。
具体实施时,指代消解和补全属性知识的具体方法参见现有技术,本实施例不再赘述。
本发明实施例公开的信息处理方法,通过预先建立各知识类别对应的属性知识抽取规则,然后,对地方志文本数据进行预处理,然后,基于预先建立各知识类别对应的属性知识抽取规则对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识,最后,基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改,解决了现有技术中由于地方志数据不完整导致的获取地方志信息时效率低下的问题。通过基于上下文的描述内容,进行属性知识完善,可以准确地完善地方志文本数据,进一步提高获取地方志信息的效率。
实施例三:
相应的,本发明还公开了一种信息处理装置,如图9所示,所述装置包括:
预处理模块90,用于对地方志文本数据进行预处理;
属性知识抽取模块91,用于对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识;
信息完善模块92,用于基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
可选的,如图10所示,所述预处理模块90包括:
碎片化单元901,用于按照地方志文本数据的格式,将所述地方志文本数据切分成多个文本碎片;
提取单元902,用于提取每个所述文本碎片的条目和描述内容。
可选的,如图10所示,所述提取单元902包括:
第一提取子单元9021,用于按照地方志文本数据的格式,提取每个所述文本碎片的条目和描述内容。
可选的,如图10所示,所述提取单元902还包括:
第二提取子单元9022,用于通过知识抽取方法对提取的所述条目和描述内容进行修正。
可选的,如图10所示,所述属性知识抽取模块91包括:
属性知识抽取单元911,用于对于预处理得到的每条描述内容,基于所述描述内容所属知识类别对应的预设属性知识抽取规则进行知识抽取,得到描述内容包含的属性知识;
其中,所述属性知识抽取规则为:描述本体间逻辑关系的正则表达式,所述本体为描述知识类别对应的属性知识的词语。
可选的,如图10所示,所述属性知识抽取模块91,还包括:
属性知识更新单元912,用于根据得到的属性知识更新所述各知识类别对应的属性知识抽取规则。
对于经过属性知识抽取得到的属性知识,可以将其作为本体,重新设置到属性知识抽取规则中,以补充本体的取值范围,完善属性知识抽取规则,进一步增强属性知识抽取的准确性和前面性。
可选的,如图10所示,所述信息完善模块92包括以下至少一项:
第一完善单元921,用于基于事件知识的上文描述内容中的时间属性知识,对下文描述内容中的时间属性进行指代消解和/或补全;
第二完善单元922,用于基于事件知识的上文描述内容中的地名属性知识,对下文描述内容中的地点属性进行指代消解和/或补全;
第三完善单元923,用于基于地名知识的上文描述内容中的地名属性知识,对下文描述内容中的地名属性进行指代消解和/或补全。
可选的,所述知识类别包括:事件知识、人物知识、地名知识、物产知识中的一项或多项;所述事件知识对应的属性知识至少包括:时间属性和地点属性;所述时间属性进一步包括:事件发生的时间,所述地点属性进一步包括:事件发生的地点;所述地名知识对应的属性知识至少包括:地名属性;所述地名属性进一步包括:别名、与相关地点的方向关系、与相关地点的距离。
本发明实施例公开的信息处理装置,信息处理方法,通过预先建立各知识类别对应的属性知识抽取规则,然后,对地方志文本数据进行预处理,然后,基于预先建立各知识类别对应的属性知识抽取规则对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识,最后,基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改,解决了现有技术中由于地方志数据不完整导致的获取地方志信息时效率低下的问题。通过基于上下文的描述内容,进行属性知识完善,可以准确地完善地方志文本数据,进一步提高获取地方志信息的效率。
相应的,本发明实施例还公开了一种电子设备,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器用于执行存储器中存储的所述计算机程序,以实现如实施例一和实施例二所述的信息处理方法。所述电子设备可以为:计算机、笔记本电脑等具有数据处理能力的设备。
相应的,本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一和实施例二所述的信息处理方法的步骤。
本发明的装置实施例与方法相对应,装置实施例中各模块和各单元的具体实现方式参见方法是实施例,此处不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本领域普通技术人员可以理解,在本申请所提供的实施例中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,不经过创造性劳动想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种信息处理方法,其特征在于,包括:
对地方志文本数据进行预处理;
对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识;
基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
2.根据权利要求1所述的方法,其特征在于,所述对地方志文本数据进行预处理的步骤包括:
按照地方志文本数据的格式,将所述地方志文本数据切分成多个文本碎片;
提取每个所述文本碎片的条目和描述内容。
3.根据权利要求2所述的方法,其特征在于,所述提取每个所述文本碎片的条目和描述内容的步骤,包括:
按照地方志文本数据的格式,提取每个所述文本碎片的条目和描述内容。
4.根据权利要求3所述的方法,其特征在于,所述按照地方志文本数据的格式,提取每个所述文本碎片的条目和描述内容的步骤之后,还包括:
通过知识抽取方法对提取的所述条目和描述内容进行修正。
5.根据权利要求1所述的方法,其特征在于,所述对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识的步骤,包括:
对于预处理得到的每条描述内容,基于所述描述内容所属知识类别对应的预设属性知识抽取规则进行知识抽取,得到描述内容包含的属性知识;
其中,所述属性知识抽取规则为:描述本体间逻辑关系的正则表达式,所述本体为描述知识类别对应的属性知识的词语。
6.根据权利要求5所述的方法,其特征在于,所述对于预处理得到的每条描述内容,基于所述描述内容所属知识类别对应的预设属性知识抽取规则进行知识抽取,得到描述内容包含的属性知识的步骤之后,还包括:
根据得到的属性知识更新所述各知识类别对应的属性知识抽取规则。
7.根据权利要求1所述的方法,其特征在于,所述基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改的步骤,包括以下至少一项:
基于事件知识的上文描述内容中的时间属性知识,对下文描述内容中的时间属性进行指代消解和/或补全;
基于事件知识的上文描述内容中的地名属性知识,对下文描述内容中的地点属性进行指代消解和/或补全;
基于地名知识的上文描述内容中的地名属性知识,对下文描述内容中的地名属性进行指代消解和/或补全。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述知识类别包括:事件知识、人物知识、地名知识、物产知识中的一项或多项;
所述事件知识对应的属性知识至少包括:时间属性和地点属性;所述时间属性进一步包括:事件发生的时间,所述地点属性进一步包括:事件发生的地点;
所述地名知识对应的属性知识至少包括:地名属性;所述地名属性进一步包括:别名、与相关地点的方向关系、与相关地点的距离。
9.一种信息处理装置,其特征在于,包括:
预处理模块,用于对地方志文本数据进行预处理;
属性知识抽取模块,用于对预处理得到的每条描述内容进行知识抽取,得到所述每条描述内容分别包含的属性知识;
信息完善模块,用于基于得到的所述属性知识和所述属性知识所属描述内容的上下文,对所述属性知识进行修改。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项权利要求所述的信息处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项权利要求所述的信息处理方法的步骤。
CN201710283791.7A 2017-04-26 2017-04-26 一种信息处理方法、装置及电子设备 Active CN107145947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710283791.7A CN107145947B (zh) 2017-04-26 2017-04-26 一种信息处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710283791.7A CN107145947B (zh) 2017-04-26 2017-04-26 一种信息处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107145947A true CN107145947A (zh) 2017-09-08
CN107145947B CN107145947B (zh) 2020-08-07

Family

ID=59774224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710283791.7A Active CN107145947B (zh) 2017-04-26 2017-04-26 一种信息处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107145947B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635681A (zh) * 2018-11-26 2019-04-16 汉王科技股份有限公司 一种文献处理方法及装置
CN110532401A (zh) * 2019-08-29 2019-12-03 北京明略软件系统有限公司 信息处理方法及装置、存储介质、电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050197991A1 (en) * 2003-06-25 2005-09-08 Wray Robert E. Method and apparatus for providing rule-based, autonomous software agent with ontological information
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050197991A1 (en) * 2003-06-25 2005-09-08 Wray Robert E. Method and apparatus for providing rule-based, autonomous software agent with ontological information
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于杨: "基于知识元的领域知识服务体系的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
化柏林著: "《基于句子匹配分析的知识抽取》", 30 April 2014, 北京:科学技术文献出版社 *
肖禹: "中国地方志数字化关键技术研究与演示平台设计项目述略", 《百度文库古籍数字化推广:HTTPS://WENKU.BAIDU.COM/VIEW/4E7D64D209A1284AC850AD02DE80D4D8D15A01EE.HTML》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635681A (zh) * 2018-11-26 2019-04-16 汉王科技股份有限公司 一种文献处理方法及装置
CN109635681B (zh) * 2018-11-26 2021-11-26 汉王科技股份有限公司 一种文献处理方法及装置
CN110532401A (zh) * 2019-08-29 2019-12-03 北京明略软件系统有限公司 信息处理方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN107145947B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US8140468B2 (en) Systems and methods to extract data automatically from a composite electronic document
US8954839B2 (en) Contract authoring system and method
CN102207948B (zh) 一种事件陈述句素材库的生成方法
US8140533B1 (en) Harvesting relational tables from lists on the web
CN106446072B (zh) 网页内容的处理方法和装置
CN103678362A (zh) 搜索方法及系统
CN112417165B (zh) 一种生涯规划知识图谱构建及查询方法和系统
US8239425B1 (en) Isolating desired content, metadata, or both from social media
CN102591897A (zh) 文件检索装置以及文件检索方法
CN102855244A (zh) 文档目录处理方法和装置
US11520835B2 (en) Learning system, learning method, and program
JP5205028B2 (ja) 手書き注釈管理装置およびインタフェース
CN101763424B (zh) 根据文件内容确定特征词并用于检索的方法
CN107145947A (zh) 一种信息处理方法、装置及电子设备
JP2013016036A (ja) 文書部品生成方法及び計算機システム
CN105608137A (zh) 一种提取身份标识的方法和装置
KR20220102816A (ko) 전통 문화 유산에 대한 텍스트 데이터를 이용한 속성 추출 방법 및 속성 추출 장치
CN102207947A (zh) 一种直接引语素材库的生成方法
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP2017123062A (ja) 関係情報生成方法、装置、及びプログラム
CN109657180B (zh) 一种智能化网页内容自动模糊抽取系统
Belhe et al. Annotation tool and XML representation for online Indic data
CN102982017B (zh) 内容判断的方法和装置
JP5399988B2 (ja) 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant