CN108228542A - 一种非结构化文本的处理方法及装置 - Google Patents

一种非结构化文本的处理方法及装置 Download PDF

Info

Publication number
CN108228542A
CN108228542A CN201711339979.5A CN201711339979A CN108228542A CN 108228542 A CN108228542 A CN 108228542A CN 201711339979 A CN201711339979 A CN 201711339979A CN 108228542 A CN108228542 A CN 108228542A
Authority
CN
China
Prior art keywords
type
user
marked
association
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711339979.5A
Other languages
English (en)
Inventor
邰亚琦
张娴
魏静如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201711339979.5A priority Critical patent/CN108228542A/zh
Publication of CN108228542A publication Critical patent/CN108228542A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Abstract

本发明提供了一种非结构化文本的处理方法及装置,该方法,包括:预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。本发明能够更方便地从非结构化文本中获取所需要的数据。

Description

一种非结构化文本的处理方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种非结构化文本的处理方法及装置。
背景技术
随着计算机、互联网和数字媒体等的进一步普及、人工智能的急剧发展,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。
现有技术中对于非结构化文本这种非结构化数据的处理还是简单的保存到数据库中。当用户需要从非结构化文本中获取需要的数据时,需要对整个非结构化文本进行逐字搜索,效率很低。
总之,现有技术中对非结构化文本的处理不便于从非结构化文本中获取需要的数据。
发明内容
本发明实施例提供了一种非结构化文本的处理方法及装置,能够更方便地从非结构化文本中获取所需要的数据。
一方面,本发明实施例提供了一种非结构化文本的处理方法,包括:
预先设置至少一个对象类型;
接收用户输入的对象自定义指令;
根据所述对象自定义指令,生成用户自定义的至少一个对象类型;
将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;
包括:
确定用户选择的位于非结构化文本中的待标注内容;
将所述待标注内容作为待标注的对象;
接收用户输入的针对所述待标注的对象的对象标注指令;
根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;
利用所述目标对象类型对所述待标注的对象进行标注。
进一步地,
该方法进一步包括:
预先设置至少一个属性类型;
接收用户输入的属性自定义指令;
根据所述属性自定义指令,生成用户自定义的至少一个属性类型;
将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型;
进一步包括:
接收用户输入的针对所述待标注的对象的属性标注指令;
根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;
利用所述目标属性类型对所述待标注的对象进行标注。
进一步地,
该方法进一步包括:
预先设置至少一个关联类型,以及至少一个关联方向;
接收用户输入的关联自定义指令;
根据所述关联自定义指令,生成用户自定义的至少一个关联类型;
将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;
进一步包括:
接收用户输入的针对所述待标注的对象的关联标注指令;
根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;
根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;
利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。
进一步地,
所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。
进一步地,
在所述确定用户选择的非结构化文本中的待标注内容之后,进一步包括:
记录所述待标注内容的起始位置和长度;
进一步包括:
当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容。
进一步地,
在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:
接收用户上传的所述非结构化文本。
进一步地,
在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:
接收用户输入的URL(Uniform Resource Locator,统一资源定位符)路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。
另一方面,本发明实施例提供了一种非结构化文本的处理装置,包括:
对象类型设置单元,用于设置至少一个对象类型;
对象类型自定义单元,用于接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;
对象类型汇总单元,用于将所述对象类型自定义单元生成的至少一个对象类型和所述对象类型设置单元设置的至少一个对象类型作为至少一个可选的对象类型;
对象确定单元,用于确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;
对象类型标注单元,用于接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。
进一步地,
该装置进一步包括:
属性类型设置单元,用于设置至少一个属性类型;
属性类型自定义单元,用于接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;
属性类型汇总单元,用于将所述属性类型自定义单元生成的至少一个属性类型和所述属性类型设置单元设置的至少一个属性类型作为至少一个可选的属性类型;
属性类型标注单元,用于接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。
进一步地,
该装置进一步包括:
关联类型设置单元,用于设置至少一个关联类型,以及至少一个关联方向;
关联类型自定义单元,用于接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;
关联类型汇总单元,用于将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;
关联类型标注单元,用于接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。
进一步地,
所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。
进一步地,
该装置进一步包括:
记录单元,用于记录所述待标注内容的起始位置和长度;
进一步包括:
显示单元,用于当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容。
进一步地,
该装置进一步包括:
上传单元,用于接收用户上传的所述非结构化文本。
进一步地,
该装置进一步包括:
获取单元,用于接收用户输入的URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。
在本发明实施例中,用户可以通过对象类型对位于非结构化文本中的待标注内容进行标注,并且,对象类型可以根据用户的需要自定义,使得用户能够更加精准地通过目标对象类型来标注待标注的对象,当需要从非结构化文本中获取需要的数据时,可以通过对象类型来快速找到需要的数据,使得从非结构化文本中获取所需要的数据变得更加方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种非结构化文本的处理方法的流程图;
图2是本发明一实施例提供的另一种非结构化文本的处理方法的流程图;
图3是本发明一实施例提供的一种非结构化文本的处理装置的示意图;
图4是本发明一实施例提供的另一种非结构化文本的处理装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种非结构化文本的处理方法,该方法可以包括以下步骤:
步骤101:预先设置至少一个对象类型;
步骤102:接收用户输入的对象自定义指令;
步骤103:根据所述对象自定义指令,生成用户自定义的至少一个对象类型;
步骤104:将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;
步骤105:确定用户选择的位于非结构化文本中的待标注内容;
步骤106:将所述待标注内容作为待标注的对象;
步骤107:接收用户输入的针对所述待标注的对象的对象标注指令;
步骤108:根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;
步骤109:利用所述目标对象类型对所述待标注的对象进行标注。
在本发明实施例中,用户可以通过对象类型对位于非结构化文本中的待标注内容进行标注,并且,对象类型可以根据用户的需要自定义,使得用户能够更加精准地通过目标对象类型来标注待标注的对象,当需要从非结构化文本中获取需要的数据时,可以通过对象类型来快速找到需要的数据,使得从非结构化文本中获取所需要的数据变得更加方便。
在本发明实施例中,通过对象类型的自定义可以实现对各种场景下非结构化文本进行标注。用户可以自定义各种领域的对象类型,以满足各种不同的场景。对象类型可以包括:人员、动物、植物、医生、学生等。同一个对象可以标注多个对象类型。
在本发明实施例中,用户在进行标注时,可选的对象类型可以是来自预先设置的默认的对象类型,也可以来自用户自定义的对象类型。
在本发明一实施例中,该方法进一步包括:
预先设置至少一个属性类型;
接收用户输入的属性自定义指令;
根据所述属性自定义指令,生成用户自定义的至少一个属性类型;
将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型;
进一步包括:
接收用户输入的针对所述待标注的对象的属性标注指令;
根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;
利用所述目标属性类型对所述待标注的对象进行标注。
在本发明实施例中,用户可以实现属性类型的自定义。通过属性类型,用户可以进一步对待标注的对象进行标注,进而对待标注的对象标注更多的信息,使得非结构化文本中的数据能够更方便地获取。属性类型包括:年龄、重量、姓名、高度等。同一个对象可以标注多个属性类型。
在本发明实施例中,用户在进行标注时,可选的属性类型可以是来自预先设置的默认的属性类型,也可以来自用户自定义的属性类型。
在本发明实施例中,对于待标注内容,通过目标对象类型可以对待标注内容进行一定的描述,通过目标属性类型可以对待标注内容进行进一步的描述。用户在需要获取非结构化文本中的内容时,可以通过目标对象类型找到该待标注内容,也可以通过目标属性类型找到该待标注内容。
在本发明一实施例中,该方法进一步包括:
预先设置至少一个关联类型,以及至少一个关联方向;
接收用户输入的关联自定义指令;
根据所述关联自定义指令,生成用户自定义的至少一个关联类型;
将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;
进一步包括:
接收用户输入的针对所述待标注的对象的关联标注指令;
根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;
根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;
利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。
在本发明实施例中,用户可以通过关联类型和关联方向将两个对象进行关联。通过将任意两个对象进行关联,实现对两个对象的标注,可以使得非结构化文本中内容更加清晰,更加容易识别。
用户在需要获取非结构化文本中的内容时,当找到其中一个对象,可以通过该对象找到与其相关联的对象,使得用户能够更加快速地找到需要的内容。
在本发明一实施例中,所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。
在本发明实施例中,关联方向可以如下所示:
第一对象→第二对象;第一对象←第二对象;第一对象第二对象。
在本发明一实施例中,在所述确定用户选择的非结构化文本中的待标注内容之后,进一步包括:
记录所述待标注内容的起始位置和长度;
进一步包括:
当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容。
在本发明实施例中,待标注内容的起始位置可以通过待标注内容的第一个字在非结构化文本中的位置来实现。长度就是指待标注内容的字数。通过起始位置和长度可以在再次初始非结构化文本的文本内容时,显示已标注的待标注内容。
在本发明一实施例中,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:
接收用户上传的所述非结构化文本。
在本发明实施例中,用户可以直接上传需要处理的非结构化文本。
在本发明一实施例中,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:
接收用户输入的URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。
在本发明实施例中,用户可以直接输入URL路径来提供非结构化文本。
如图2所示,本发明实施例提供了一种非结构化文本的处理方法,该方法可以包括以下步骤:
步骤201:预先设置至少一个对象类型,预先设置至少一个属性类型,预先设置至少一个关联类型,以及至少一个关联方向。
具体地,可以预先设置对象类型、属性类型、关联类型和关联方向。
步骤202:接收用户输入的对象自定义指令,接收用户输入的属性自定义指令,接收用户输入的关联自定义指令。
具体地,用户可以通过自定义对象类、属性类型和关联类型。
步骤203:根据对象自定义指令,生成用户自定义的至少一个对象类型,根据属性自定义指令,生成用户自定义的至少一个属性类型,根据关联自定义指令,生成用户自定义的至少一个关联类型。
步骤204:将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型,将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型,将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型。
具体地,用户自定义的对象类型和预先设置的对象类型都可以在后续的处理中被使用。用户自定义的属性类型和预先设置的属性类型都可以在后续的处理中被使用。用户自定义的关联类型和预先设置的关联类型都可以在后续的处理中被使用。
步骤205:确定用户选择的位于非结构化文本中的待标注内容。
举例来说,非结构化文本为:
婚后半个月,A携妻子到济南,继续在大学任教,B则在一家中学里教书。两人第一个孩子出生在济南,是个女孩,取名C。
其中,一个待标注内容为“A”。
具体地,用户可以通过自己选择待标注内容。待标注内容可以是用户选择的关键词。
步骤206:将待标注内容作为待标注的对象。
举例来说,将“A”作为待标注的对象。
步骤207:接收用户输入的针对待标注的对象的对象标注指令,接收用户输入的针对待标注的对象的属性标注指令,接收用户输入的针对待标注的对象的关联标注指令。
具体地,用户可以通过指令对待标注的对象的对象类型、属性类型和关联类型进行设置。
举例来说,接收用户针对对象“A”的对象标注指令、属性标注指令和关联标注指令。
步骤208:根据对象标注指令,从至少一个可选的对象类型中,确定目标对象类型,根据属性标注指令,从至少一个可选的属性类型中,确定目标属性类型,根据关联标注指令,确定需要与待标注的对象关联的待关联的对象,根据关联标注指令,从至少一个可选的关联类型中,确定目标关联类型和目标关联方向。
举例来说,确定对象“A”的目标对象类型为人员,目标属性类型为男性。对象“C”已经被标注,将对象“A”与对象“C”进行关联。
步骤209:利用目标对象类型对待标注的对象进行标注,利用目标属性类型对待标注的对象进行标注,利用目标关联类型和目标关联方向将待标注的对象与待关联的对象进行关联。
举例来说,将对象“A”标注为人员,并且标注为男性。
可以通过以下三种方式将对象“A”与对象“C”进行关联;
A(父亲)——>C,目标关联类型为父亲;
A(女儿)<——C,目标关联类型为女儿;
A(父女)<——>C,目标关联类型为为父女。
在本发明实施例中,用户可以通过拖拽等方式实现两个对象的关联。例如:将对象“A”拖拽到对象“C”上,实现二者的关联。
在本发明实施例中,实现了人机交互,用户通过选中、拖拽操作方式标注对象类型、属性类型或添加关联类型等,人机交互,从主观上增加获取数据的准确率,操作简单,从客观上简化了用户对海量数据的收集、存储。
用户可以按照层级关系,对对象类型和属性类型进行定义。对象类型、属性类型和关联类型数据结构可以如下所示:
其中object表示对象类型,object对象类型中的properties表示属性类型,对象和属性之间的关系是包含和被包含的关系;links表示关系类型。
另外,对象类型object中的objectUri代表对象类型,parentUri代表父对象类型;属性类型properties作为对象类型中的一个属性,其中又包含关于属性类型的属性,properties中的propertyUri代表属性类型,objectPropertyId 代表当前属性id,unique代表此属性是否是唯一属性,如果是唯一属性,不允许修改;关系类型links中的linkUri代表关系类型。
本发明实施例支持用户通过简单的单击操作完成对非结构化文本进行知识标注,整个操作过程简单,实用性较强,极大地增强的用户的自主操作性;解决了关系型数据库对非结构化文本存储的难题,为关系图谱奠定数据基础。
另外,在本发明实施例中,可以实现一个对象与属性的关联。
如图3、图4所示,本发明实施例提供了一种非结构化文本的处理装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的一种非结构化文本的处理装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种非结构化文本的处理装置,包括:
对象类型设置单元401,用于设置至少一个对象类型;
对象类型自定义单元402,用于接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;
对象类型汇总单元403,用于将所述对象类型自定义单元生成的至少一个对象类型和所述对象类型设置单元设置的至少一个对象类型作为至少一个可选的对象类型;
对象确定单元404,用于确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;
对象类型标注单元405,用于接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。
在本发明一实施例中,该装置进一步包括:
属性类型设置单元,用于设置至少一个属性类型;
属性类型自定义单元,用于接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;
属性类型汇总单元,用于将所述属性类型自定义单元生成的至少一个属性类型和所述属性类型设置单元设置的至少一个属性类型作为至少一个可选的属性类型;
属性类型标注单元,用于接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。
在本发明一实施例中,该装置进一步包括:
关联类型设置单元,用于设置至少一个关联类型,以及至少一个关联方向;
关联类型自定义单元,用于接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;
关联类型汇总单元,用于将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;
关联类型标注单元,用于接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。
在本发明一实施例中,所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。
在本发明一实施例中,该装置进一步包括:
记录单元,用于记录所述待标注内容的起始位置和长度;
进一步包括:
显示单元,用于当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容。
在本发明一实施例中,该装置进一步包括:
上传单元,用于接收用户上传的所述非结构化文本。
在本发明一实施例中,该装置进一步包括:
获取单元,用于接收用户输入的URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明实施例提供的任意一种非结构化文本的处理方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的执行指令,以使所述存储控制器执行本发明实施例提供的任意一种非结构化文本的处理方法。
本发明各个实施例至少具有如下有益效果:
1、在本发明实施例中,用户可以通过对象类型对位于非结构化文本中的待标注内容进行标注,并且,对象类型可以根据用户的需要自定义,使得用户能够更加精准地通过目标对象类型来标注待标注的对象,当需要从非结构化文本中获取需要的数据时,可以通过对象类型来快速找到需要的数据,使得从非结构化文本中获取所需要的数据变得更加方便。
2、在本发明实施例中,实现了人机交互,用户通过选中、拖拽操作方式标注对象类型、属性类型或添加关联类型等,人机交互,从主观上增加获取数据的准确率,操作简单,从客观上简化了用户对海量数据的收集、存储。
3、本发明实施例支持用户通过简单的单击操作完成对非结构化文本进行知识标注,整个操作过程简单,实用性较强,极大地增强的用户的自主操作性;解决了关系型数据库对非结构化文本存储的难题,为关系图谱奠定数据基础。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种非结构化文本的处理方法,其特征在于,
预先设置至少一个对象类型;
接收用户输入的对象自定义指令;
根据所述对象自定义指令,生成用户自定义的至少一个对象类型;
将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;
包括:
确定用户选择的位于非结构化文本中的待标注内容;
将所述待标注内容作为待标注的对象;
接收用户输入的针对所述待标注的对象的对象标注指令;
根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;
利用所述目标对象类型对所述待标注的对象进行标注。
2.根据权利要求1所述的方法,其特征在于,
进一步包括:
预先设置至少一个属性类型;
接收用户输入的属性自定义指令;
根据所述属性自定义指令,生成用户自定义的至少一个属性类型;
将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型;
进一步包括:
接收用户输入的针对所述待标注的对象的属性标注指令;
根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;
利用所述目标属性类型对所述待标注的对象进行标注。
3.根据权利要求1所述的方法,其特征在于,
进一步包括:
预先设置至少一个关联类型,以及至少一个关联方向;
接收用户输入的关联自定义指令;
根据所述关联自定义指令,生成用户自定义的至少一个关联类型;
将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;
进一步包括:
接收用户输入的针对所述待标注的对象的关联标注指令;
根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;
根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;
利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。
4.根据权利要求3所述的方法,其特征在于,
所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。
5.根据权利要求1-4中任一所述的方法,其特征在于,
在所述确定用户选择的非结构化文本中的待标注内容之后,进一步包括:
记录所述待标注内容的起始位置和长度;
进一步包括:
当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容;
和/或,
在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:
接收用户上传的所述非结构化文本;
和/或,
在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:
接收用户输入的统一资源定位符URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。
6.一种非结构化文本的处理装置,其特征在于,包括:
对象类型设置单元,用于设置至少一个对象类型;
对象类型自定义单元,用于接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;
对象类型汇总单元,用于将所述对象类型自定义单元生成的至少一个对象类型和所述对象类型设置单元设置的至少一个对象类型作为至少一个可选的对象类型;
对象确定单元,用于确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;
对象类型标注单元,用于接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。
7.根据权利要求6所述的装置,其特征在于,
进一步包括:
属性类型设置单元,用于设置至少一个属性类型;
属性类型自定义单元,用于接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;
属性类型汇总单元,用于将所述属性类型自定义单元生成的至少一个属性类型和所述属性类型设置单元设置的至少一个属性类型作为至少一个可选的属性类型;
属性类型标注单元,用于接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。
8.根据权利要求6所述的装置,其特征在于,
进一步包括:
关联类型设置单元,用于设置至少一个关联类型,以及至少一个关联方向;
关联类型自定义单元,用于接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;
关联类型汇总单元,用于将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;
关联类型标注单元,用于接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。
9.根据权利要求8所述的装置,其特征在于,
所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。
10.根据权利要求6-9中任一所述的装置,其特征在于,
进一步包括:
记录单元,用于记录所述待标注内容的起始位置和长度;
进一步包括:
显示单元,用于当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容;
和/或,
进一步包括:
上传单元,用于接收用户上传的所述非结构化文本;
和/或,
进一步包括:
获取单元,用于接收用户输入的统一资源定位符URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。
CN201711339979.5A 2017-12-14 2017-12-14 一种非结构化文本的处理方法及装置 Pending CN108228542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711339979.5A CN108228542A (zh) 2017-12-14 2017-12-14 一种非结构化文本的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711339979.5A CN108228542A (zh) 2017-12-14 2017-12-14 一种非结构化文本的处理方法及装置

Publications (1)

Publication Number Publication Date
CN108228542A true CN108228542A (zh) 2018-06-29

Family

ID=62649547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711339979.5A Pending CN108228542A (zh) 2017-12-14 2017-12-14 一种非结构化文本的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108228542A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101322121A (zh) * 2005-12-05 2008-12-10 北京书生国际信息技术有限公司 对文档实现分层处理的方法和系统
CN102214208A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种基于非结构化文本生成结构化信息实体的方法与设备
CN104428763A (zh) * 2012-07-12 2015-03-18 金荣根 将结构化及非结构化数据实现在xml文件的方法
CN106407445A (zh) * 2016-09-29 2017-02-15 重庆邮电大学 一种基于url的非结构化数据资源标识和定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101322121A (zh) * 2005-12-05 2008-12-10 北京书生国际信息技术有限公司 对文档实现分层处理的方法和系统
CN102214208A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种基于非结构化文本生成结构化信息实体的方法与设备
CN104428763A (zh) * 2012-07-12 2015-03-18 金荣根 将结构化及非结构化数据实现在xml文件的方法
CN106407445A (zh) * 2016-09-29 2017-02-15 重庆邮电大学 一种基于url的非结构化数据资源标识和定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
不详: ""brat rapid annotation tool"", 《HTTP://BRAT.NLPLAB.ORG/INDEX.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置

Similar Documents

Publication Publication Date Title
CN111522994B (zh) 用于生成信息的方法和装置
Cherven Network graph analysis and visualization with Gephi
US9960974B2 (en) Dependency mapping among a system of servers, analytics and visualization thereof
JP2018190188A (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
CN106716402A (zh) 以实体为中心的知识发现
CN105528294A (zh) 一种接口测试用例自动生成的方法及系统
US20150113388A1 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
EP3349131B1 (en) Method and system for extracting user-specific content
CN110515896B (zh) 模型资源管理方法、模型文件制作方法、装置和系统
CN113110833A (zh) 机器学习模型可视化建模方法、装置、设备及存储介质
CN113886606B (zh) 一种基于知识图谱的数据标注方法、装置、介质及设备
CN106843820A (zh) 代码处理方法和装置
US20130191421A1 (en) Generating views of subsets of nodes of a schema
Isenberg et al. Toward a deeper understanding of visualization through keyword analysis
Vigo et al. Design insights for the next wave ontology authoring tools
US20140082022A1 (en) Transforming a graph to a tree in accordance with analyst guidance
CN110490237A (zh) 数据处理方法、装置、存储介质及电子设备
Wang et al. Visualizing research impact through citation data
CN108228542A (zh) 一种非结构化文本的处理方法及装置
CN106570133A (zh) 一种可视化的网页信息提取规则的构建方法和装置
Zan et al. Private-library-oriented code generation with large language models
US20180081885A1 (en) Handoff support in asynchronous analysis tasks using knowledge transfer graphs
CN105426676B (zh) 一种钻井数据处理方法和系统
Baulé et al. Automatic code generation from sketches of mobile applications in end-user development using Deep Learning
CN106502635A (zh) 数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication