CN111046135A - 非结构文本处理方法、装置、计算机设备、存储介质 - Google Patents

非结构文本处理方法、装置、计算机设备、存储介质 Download PDF

Info

Publication number
CN111046135A
CN111046135A CN201911065653.7A CN201911065653A CN111046135A CN 111046135 A CN111046135 A CN 111046135A CN 201911065653 A CN201911065653 A CN 201911065653A CN 111046135 A CN111046135 A CN 111046135A
Authority
CN
China
Prior art keywords
file
knowledge
word
format
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911065653.7A
Other languages
English (en)
Inventor
王海波
李志保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cognitive Computing Nanjing Information Technology Co ltd
Original Assignee
Cognitive Computing Nanjing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cognitive Computing Nanjing Information Technology Co ltd filed Critical Cognitive Computing Nanjing Information Technology Co ltd
Priority to CN201911065653.7A priority Critical patent/CN111046135A/zh
Publication of CN111046135A publication Critical patent/CN111046135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种非结构文本数据处理方法,包括:对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;通过知识抽取器对预处理后的文本内容进行相应的知识抽取;对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编号。本发明实施例可以实现对非结构化文本中提取知识并图谱化展现,从而实现提取文件中的关键情报要素、快速处理非结构化文本文件。

Description

非结构文本处理方法、装置、计算机设备、存储介质
技术领域
本发明涉及人工智能技术领域,尤指一种非结构文本数据处理方法、装置、 计算机设备、存储介质。
背景技术
结构化数据为可以组织成行列结构、可识别的数据,即指数据在一个记录 文件里面以固定格式存在的数据。结构化数据通常包括数据内容和数据模型。 结构化数据的典型例子即各类关系型数据库。
而非结构化数据是指数据信息没有一个预先定义好的数据模型或者没有 以一个预先定义的方式来组织,一般指文字型数据,并且非结构化数据可能有 很多诸如时间、数字等的信息。相对于传统的在数据库中或者标记好的结构化 数据文件,由于非结构化数据的非特征性和歧义性,导致非结构化数据会更难 被理解识别。
发明内容
本发明实施例的目的是提供一种非结构化文本数据处理方法、装置及计算 机设备,用以解决现有技术中非结构化数据不能被组织和理解的问题,从而为 用户提供更好的信息获取和识别的技术方案。
为解决上述问题,第一方面,本发明实施例提供了一种非结构文本数据处 理方法,所述方法包括:
对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含 非结构文本数据;
对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包 括分词、词性标注、停用词去除、和/或多义词消歧义;
通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的 数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包 含结构化后的知识对应的文件编号。
优选地,所述方法还包括:
将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式, 将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
优选地,所述所述知识抽取包括摘要抽取、关键词抽取、分词后词频统计、 实体抽取、实体关系抽取。
优选地,所述图谱化展示包括:
将序列化格式存储的结构化的数据结构,按照图结构数据展示实体及其关 系、或按照词云表征分词词性及词频。
优选地,所述序列化格式包括:<文件编号、原文件字符数、摘要字符数、 摘要内容>;或<文件编号、关键词、词序>;或<文件编号、分词、词性、词频>; 或<文件编号、实体的名称、实体的类型、实体的序号>;或<文件编号、关系 类型、关系的方向、关联的实体>。
第二方面,本发明实施例还提供了一种非结构化文本数据处理装置,所述 装置包括:
格式转换模块,用于对待处理的文本文件进行格式和编码转换,所述待处 理的文本文件中包含非结构文本数据;
预处理模块,用于对进行了格式和编码转换后的文件的文本内容进行预处 理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
知识抽取模块,用于通过知识抽取器对预处理后的文本内容进行相应的知 识抽取;
结构化转换模块,用于对知识抽取获得的知识进行结构化转换,并生成可 图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征, 所述序列化格式包含包含结构化后的知识对应的文件编号。
优选地,所述装置还包括:
存储模块,用于将结构化转换的知识进行结果存储,所述存储按照预定义 的序列化格式,将结构化转换后的知识的数据结构按照所述文件编号逐一进行 保存。
优选地,所述装置还包括:
结构化展示模块,用于将序列化格式存储的结构化的数据结构,按照图结 构数据展示实体及其关系、或按照词云表征分词词性及词频。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或更多个处理器;
一个或更多个存储器;
一个或更多个模块,其被存在存储器中且能够由所述一个或更多个处理器 中的至少一个处理器以执行如第一方面所述非结构化文本数据处理方法的步 骤。
第四方面,本方面实施例还提供了一种计算机可读存储介质,所述计算机 可读存储介质存储有非结构化文本数据处理方法的应用程序,所述应用程序实 现如第一方面所述的非结构化文本数据处理方法的步骤。
本发明实施例通过一种从非结构化文本中抽取知识并进行图谱化展示的 数据处理方法和装置即计算机设备,解决了现有技术仅能较好的对结构化数据 进行展示的问题,本发明实施例可以实现对非结构化文本中提取知识,并图谱 化展现,从而实现提取文件中的关键情报要素、快速处理非结构化文本文件。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对异步系统的实 现方法、计算机设备和存储介质的上述特性、技术特征、优点及其实现方式予 以进一步说明。
图1是本发明实施例中一种非结构文本数据处理方法的流程图;
图2是本发明实施例中对各类文本数据经过统一的格式和编码转换图;
图3是本发明实施例中非结构化文本结构化数据图;
图4是本发明实施例中一种非结构化文本数据处理装置的结构框图;
图5是本发明实施例一种智能问答库建立方法的计算机设备的结构示意 图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附 图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并 不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具 有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的 一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
如图1所示,本发明实施例提供了本发明实施例提供了一种非结构文本数 据处理方法,所述方法包括:
S100.对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中 包含非结构文本数据;
S200.对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处 理包括分词、词性标注、停用词去除、和/或多义词消歧义;
S300.通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
S400.对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构 化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包 含包含结构化后的知识对应的文件编号。
如图2所示,本发明实施例对各类文本数据经过统一的格式和编码转换后, 进行自然语言处理,比如进行分词,分词过程结合分词器中的通用词典、行业 专有词库,以及停用词等。对格式化和编码转换后的文本进行预处理,包括分 词及词性标注、停用词去除;多义词消歧义等。然后由知识抽取器对预处理后 的文本数据进行相应的知识抽取,比如摘要抽取、关键词抽取、分词后词频统 计、实体抽取、关系抽取;继而对抽取的知识进行结构化转换,完成将知识抽 取器的输出转换成可图谱化显示的知识结构,即结构化的数据结构。
优选地,所述方法还包括:
将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式, 将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
本发明实施例还将结构化的知识进行结果存储,按照预定义的知识序列化 格式,将抽取与结构化转换后的数据结构按预定义的格式保存,以保证下次打 开相关数据时,原本非结构化的文本数据可以再次结构化展示。
如图3所示,具体实施如下:
首先,本发明支持不同格式的文本文件,即可支持导入的文本文件的格式 有:*.txt,*.doc,*.docx,*.pdf,*.html,针对不同格式的文件分别实现对其进 行文件格式的识别与内容读取。
将从文件中读取的内容,进行编码转换,比如由GB2312、GBK、Unicode 等格式,编码统一转换为UTF8。
本发明实施例对上述文件进行识别和内容读取等处理后,生成如下数据序 列:文件的文件名、文件存放路径、文件格式类型、文件的字符编码格式、字 符数以及文件内的数据内容。
优选地,本发明实施例还支持多文件管理,即将需要导入的多个文件,加 入文件管理器中,并将文件名、文件路径等信息加入文件列表:可以在所述文 件管理器中删除文件,支持将已导入的文件从文件列表中删除;并支持修改文 件内的数据内容;可以对打开的多个文件,进行多文件切换。
同时对文件生成一个唯一的内部编码ID用于标识每个被处理的文件。其 中,本发明实施例对文件的文本内容进行展示,即则将文件内的数据内容,以 UTF8字符串的方式,使用QT的QTextEdit控件加载并展示。
对格式化和编码转换后的文本进行预处理,包括分词及词性标注、停用词 去除;多义词消歧义等。然后由知识抽取器对预处理后的文本数据进行相应的 知识抽取,比如摘要抽取、关键词抽取、分词后词频统计、实体抽取、关系抽 取;
完成知识抽取后,将进行结构化转换,主要是将知识抽取生成的摘要、关 键词、分词和词频、实体、实体关系,以结构化的数据结构格式存储,并转换 为可供UI展示层,如QT的QtextEdit控件加载显示的格式。结构化转换如下:
对于摘要,其结构化过程如下:
非结构化文本的数据内容,经过摘要抽取器抽取后,输出的结构为:文件 编号、原文件字符数、摘要字符数、摘要内容。
经过摘要的结构化转换后,则可由摘要展示控件对应到具体所选择的文件 编号,展示对该文件所抽取的摘要内容,并加载到显示界面的展示控件中。
对于非结构化文本的关键词,其结构化过程如下:
对文件内的数据内容进行分词后,抽取出其中的关键词。其输出结构为: 文件编号、关键词、词序。
经过对关键词的结构化转换,则可通过关键词展示,对应具体的文件编号 中去抽取的关键词,并按照每个关键词的词序展现。
对于文本内容的分词词频,其结构化过程如下:
对文件内的数据内容进行分词后,其输出结构为:文件编号、分词、词性、 词频(该词出现的次数)。其中词性包括:名词、动词、副词、形容词、动名 词等。
经过对分词后的结构化转换,则可通过词云展示与统计图展示,对应到具 体的文件编号中去抽取分词词频,按照分词词频,由词云展示生成相应的词云 图或者柱状统计图。
对于非结构化文本的实体的结构化,其过程如下:
非结构化文本的数据内容,经过实体抽取器抽取后,实体类型可以定义主 要为人员、物品、时间、位置、机构等,本发明实施例并不限于以上实体类型, 仅以举例为主。将其结构化为:文件编号、实体的名称、实体的类型、实体的 序号。
对于非结构化文本的实体关系的结构化,其过程如下:
非结构化文本的数据内容,经过实体关系抽取器抽取后,得到如下关系结 构,由于关系的类型定义较多,主要有人与人的关系、人与物的关系、人/物的 位置关系、人/物与机构的关系等。人与人的关系又划分同事、同伙、同行、同 住、夫妻、父子等,人与物的关系可划分为拥有(所属)、使用等。关系的结 构为:文件编号、关系类型、关系的方向,关联的实体。
例如:从“被告人火某某身为国家工作人员,在担任甘肃省政府办公厅 副主任、省政府副秘书长兼省信息化办公室主任、省政府办公厅主任、武威 市委书记期间”这句话中,提取关系为实体:“火某某”,实体:“甘肃省
其中,各个被结构化的数据的展示方式如下:
实体及关系图:
从非结构化文本中抽取出实体、关系后,利用图数据结构,将实体映射成 图中的节点、关系映射成节点与节点间的连接线。通过关系图,即可清晰的查 看非结构化文本文件中涉及到的要素信息,例如在什么时间、有哪些人,他们 是什么关系,人有哪些属性,在什么地点,涉及到什么事情。
实体类型:
实体的类型会与非结构化文本经过分词后,并进行实体抽取后定义的实体 图标类型进行逐一对应,可形象的区分不同的实体。
分词词频:
对文件内的数据内容进行分词后,其输出结构为:文件编号、分词、词性、 词频(该词出现的次数)。其中词性包括:名词、动词、副词、形容词、动名 词等。
经过对分词后的结构化转换,则可通过词云展示与统计图展示,对应到具 体的文件编号中去抽取分词词频,按照分词词频,由词云展示生成相应的词云 图或者柱状统计图。
以词云展示图为例:
词云展示图实现原理为:预先定义词云的底图,词云出现的词的颜色,词 应展示的大小,词与词之间的间隙。
在词云展示中,接收到分词和词频结构后,可将词性与词云展示中的颜色 对应,词的大小与词频对应。词云的整体形状即底图,可以按底图图片中定义 的元素边框来设定。
该词云展示图的意义为直接查看到文件中最为重要、高频出现的内容,从 而迅速得知文本的主体内容。
而柱状统计图中的柱状图,则是根据分词与词频结构中的词频来进行排序 的,可以直观以柱子高低来展示其对应的词频。
非结构化文本数据中,常常含有很多信息,但这些信息既无固定的组织格 式,也无特定的数据结构,呈现零散的信息方式,增加了非结构性文本的读取 和理解难度,尤其对于后续信息处理增加不确定性,那对这些信息进行理解, 读取和信息抽取,需要从非结构化文本类数据中通过自然语言处理、语义识别 等技术,抽取其中的实体、关系,关键词、生成文本的摘要等内容。例如,在 公安情报分析领域,案件的侦破需要分析各种案件文本,这些文本的信息量很 大,且无固定的信息组织和展示方式。对于这类文本,需要能够提取出案件类 型、案件的时间、地点、人物、物品,原因等信息。本发明实施例通过将案件 文本文档中,提取出案件的摘要信息、案件的关键词、高频词、实体、关系等 信息,并对其信息进行结构化的数据进行表征,以图谱化的展示方式将非结构 化的文本信息进行结构化展示,从而可快速将案件的文本进行分类,识别其中 的关键内容,提高情报人员的办案效率。
如图4所示,本发明实施例还提供了一种非结构化文本数据处理装置,所 述装置包括:
格式转换模块101,用于对待处理的文本文件进行格式和编码转换,所述 待处理的文本文件中包含非结构文本数据;
首先,本发明实施例汇总的格式转换模块101支持不同格式的文本文件, 即可支持导入的文本文件的格式有:*.txt,*.doc,*.docx,*.pdf,*.html,针对 不同格式的文件分别实现对其进行文件格式的识别与内容读取。
格式转换模块101将从文件中读取的内容,进行编码转换,比如由GB2312、 GBK、Unicode等格式,编码统一转换为UTF8。
经过格式转换和编码转换后,生成如下数据序列:文件的文件名、文件存 放路径、文件格式类型、文件的字符编码格式、字符数以及文件内的数据内容。
优选地,本发明实施例的格式转换模块101还支持多文件管理,即将需要 导入的多个文件,加入文件管理器中,并将文件名、文件路径等信息加入文件 列表:可以在所述文件管理器中删除文件,支持将已导入的文件从文件列表中 删除;并支持修改文件内的数据内容;可以对打开的多个文件,进行多文件切 换。
同时对文件生成一个唯一的内部编码ID用于标识每个被处理的文件。其 中,本发明实施例对文件的文本内容进行展示,即则将文件内的数据内容,以 UTF8字符串的方式,使用QT的QTextEdit控件加载并展示。
预处理模块102,用于对进行了格式和编码转换后的文件的文本内容进行 预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
知识抽取模块103,用于通过知识抽取器对预处理后的文本内容进行相应 的知识抽取;
预处理模块102对格式化和编码转换后的文本进行预处理,包括分词及词 性标注、停用词去除;多义词消歧义等。然后由知识抽取模块103中的知识抽 取器对预处理后的文本数据进行相应的知识抽取,比如摘要抽取、关键词抽取、 分词后词频统计、实体抽取、实体关系抽取等;
结构化转换模块104,用于对知识抽取获得的知识进行结构化转换,并生 成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表 征,所述序列化格式包含包含结构化后的知识对应的文件编号。
完成知识抽取后,将由结构化转换模块104进行结构化转换,主要是将知 识抽取生成的摘要、关键词、分词和词频、实体、实体关系,以结构化的数据 结构格式存储,并转换为可供UI展示层,如QT的QtextEdit控件加载显示的 格式。结构化转换模块对各知识的结构化转换如下:
对于摘要,其结构化过程如下:
非结构化文本的数据内容,经过摘要抽取器抽取后,输出的结构为:文件 编号、原文件字符数、摘要字符数、摘要内容。
经过摘要的结构化转换后,则可由摘要展示控件对应到具体所选择的文件 编号,展示对该文件所抽取的摘要内容,并加载到显示界面的展示控件中。
对于非结构化文本的关键词,其结构化过程如下:
对文件内的数据内容进行分词后,抽取出其中的关键词。其输出结构为: 文件编号、关键词、词序。
经过对关键词的结构化转换,则可通过关键词展示,对应具体的文件编号 中去抽取的关键词,并按照每个关键词的词序展现。
对于文本内容的分词词频,其结构化过程如下:
对文件内的数据内容进行分词后,其输出结构为:文件编号、分词、词性、 词频(该词出现的次数)。其中词性包括:名词、动词、副词、形容词、动名 词等。
经过对分词后的结构化转换,则可通过词云展示与统计图展示,对应到具 体的文件编号中去抽取分词词频,按照分词词频,由词云展示生成相应的词云 图或者柱状统计图。
对于非结构化文本的实体的结构化,其过程如下:
非结构化文本的数据内容,经过实体抽取器抽取后,实体类型可以定义主 要为人员、物品、时间、位置、机构等,本发明实施例并不限于以上实体类型, 仅以举例为主。将其结构化为:文件编号、实体的名称、实体的类型、实体的 序号。
对于非结构化文本的实体关系的结构化,其过程如下:
非结构化文本的数据内容,经过实体关系抽取器抽取后,得到如下关系结 构,由于关系的类型定义较多,主要有人与人的关系、人与物的关系、人/物的 位置关系、人/物与机构的关系等。人与人的关系又划分同事、同伙、同行、同 住、夫妻、父子等,人与物的关系可划分为拥有(所属)、使用等。关系的结 构为:文件编号、关系类型、关系的方向,关联的实体。
例如:从“被告人火某某身为国家工作人员,在担任甘肃省政府办公厅 副主任、省政府副秘书长兼省信息化办公室主任、省政府办公厅主任、武威 市委书记期间”这句话中,提取关系为实体:“火某某”,实体:“甘肃省 政府办公厅副主任”,关系为“任职”,方向为:从实体“火某某”到实体 “甘肃省政府办公厅副主任”。
优选地,所述装置还包括:
存储模块105,用于将结构化转换的知识进行结果存储,所述存储按照预 定义的序列化格式,将结构化转换后的知识的数据结构按照所述文件编号逐一 进行保存。
结构化的知识,将其进行数据结构化后,按照如下的序列化格式包括:< 文件编号、原文件字符数、摘要字符数、摘要内容>;或<文件编号、关键词、 词序>;或<文件编号、分词、词性、词频>;或<文件编号、实体的名称、实体 的类型、实体的序号>;或<文件编号、关系类型、关系的方向、关联的实体> 方式进行存储,每个知识都有其文件编号,且文件编号唯一。
这时,当非结构化文本数据需要被再次读取时,按照文件编号来进行读取, 无需再次对非结构文本数据的识别和理解,增加了非结构文本数据的可读性, 增加了文本信息的理解便利性。
优选地,所述装置还包括:
结构化展示模块106,用于将序列化格式存储的结构化的数据结构,按照 图结构数据展示实体及其关系、或按照词云表征分词词性及词频。
其中,各个被结构化的数据的展示方式如下:
实体及关系图:
从非结构化文本中抽取出实体、关系后,利用图数据结构,将实体映射成 图中的节点、关系映射成节点与节点间的连接线。通过关系图,即可清晰的查 看非结构化文本文件中涉及到的要素信息,例如在什么时间、有哪些人,他们 是什么关系,人有哪些属性,在什么地点,涉及到什么事情。
实体类型:
实体的类型会与非结构化文本经过分词后,并进行实体抽取后定义的实体 图标类型进行逐一对应,可形象的区分不同的实体。
分词词频:
对文件内的数据内容进行分词后,其输出结构为:文件编号、分词、词性、 词频(该词出现的次数)。其中词性包括:名词、动词、副词、形容词、动名 词等。
经过对分词后的结构化转换,则可通过词云展示与统计图展示,对应到具 体的文件编号中去抽取分词词频,按照分词词频,由词云展示生成相应的词云 图或者柱状统计图。
以词云展示图为例:
词云展示图实现原理为:预先定义词云的底图,词云出现的词的颜色,词 应展示的大小,词与词之间的间隙。
在词云展示中,接收到分词和词频结构后,可将词性与词云展示中的颜色 对应,词的大小与词频对应。词云的整体形状即底图,可以按底图图片中定义 的元素边框来设定。
该词云展示图的意义为直接查看到文件中最为重要、高频出现的内容,从 而迅速得知文本的主体内容。
而柱状统计图中的柱状图,则是根据分词与词频结构中的词频来进行排序 的,可以直观以柱子高低来展示其对应的词频。
从以上本发明一些实施例可以看出,通过对非结构化、零散性、无固定组 织形式的文本数据信息进行自然语言处理,以及结构化转换之后,可以得到固 定的数据结构化的数据表示,最终通过各种可视化展示方式展示出来,特别地, 对非结构化文本信息进行结构化处理之后,还可以得到较好的存储,同时提供 数据调用接口出来,便于下次数据调用时使用,一方面提高了信息理解的便利 性,同时数据结构化的数据的可重用性大大提高,方便了后续应用的扩展;再 一方面,也提高了信息展示的可读性和阅读便利性。
图5为本发明实施例提供的计算机设备的实体结构示意图,所述计算机设 备架设于第三方设备中,例如移动终端、便携式计算机、IPAD等,如图5所 示,该服务器可以包括:一个或多个处理器(processor)610、通信接口 (Communications Interface)620、一个或多个存储器(memory)630和通信总线 640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相 互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法: 对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;对进行了格式和编码转换后的文件的文本内容进行预处理,所述 预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;通过知识抽取 器对预处理后的文本内容进行相应的知识抽取;对知识抽取获得的知识进行结 构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义 的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编 号。
通信总线640是连接所描述的元素的电路并且在这些元素之间实现传输。 例如,处理器610通过通信总线640从其它元素接收到命令,解密接收到的命 令,根据解密的命令执行计算或数据处理。存储器630可以包括程序模块,例 如内核(kernel),中间件(middleware),应用程序程序编程接口(Application Programming Interface,API)和应用程序。该程序模块可以是有软件、固件或硬 件、或其中的至少两种组成。通信接口620将该计算机设备与其它网络设备、 客户端、移动设备、网络进行连接。例如,通信接口620可以通过有线或无线 连接到网络以连接到外部其它的网络设备或用户设备。无线通信可以包括以下 至少一种:无线保真(WiFi),蓝牙(BT),近距离无线通信技术(NFC),全球卫星 定位系统(GPS)和蜂窝通信等等。有线通信可以包括以下至少一种:通用串行总 线(USB),高清晰度多媒体接口(HDMI),异步传输标准接口(RS-232)等等。网 络可以是电信网络和通信网络。通信网络可以为计算机网络、因特网、物联网、 电话网络。计算机设备可以通过通信接口620连接网络,计算机设备和其它网 络设备通信所用的协议可以被应用程序、应用程序程序编程接口(API)、中间件、 内核和通信接口620至少一个支持。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品 包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括 程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施 例所提供的方法,例如包括:对待处理的文本文件进行格式和编码转换,所述 待处理的文本文件中包含非结构文本数据;对进行了格式和编码转换后的文件 的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/ 或多义词消歧义;通过知识抽取器对预处理后的文本内容进行相应的知识抽 取;对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包 含结构化后的知识对应的文件编号。
本领域普通技术人员可以理解:此外,上述的存储器中的逻辑指令可以通 过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个 计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现 出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台 计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个 实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、 只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的 单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也 可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目 的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施 方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。 基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以 以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介 质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例 的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限 制,上述实施例均可根据需要自由组合;尽管参照前述实施例对本发明进行了 详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所 记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神 和范围。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这 些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种非结构文本数据处理方法,其特征在于,所述方法包括:
对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;
对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编号。
2.如权利要求1所述的非结构化文本数据处理方法,其特征在于,所述方法还包括:
将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式,将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
3.如权利要求2所述的非结构化文本数据处理方法,其特征在于,所述所述知识抽取包括摘要抽取、关键词抽取、分词后词频统计、实体抽取、实体关系抽取。
4.如权利要求3所述非结构化文本处理方法,其特征在于,所述图谱化展示包括:
将序列化格式存储的结构化的数据结构,按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。
5.如权利要求4所述的非结构化文本数据处理方法,其特征在于,所述序列化格式包括:<文件编号、原文件字符数、摘要字符数、摘要内容>;或<文件编号、关键词、词序>;或<文件编号、分词、词性、词频>;或<文件编号、实体的名称、实体的类型、实体的序号>;或<文件编号、关系类型、关系的方向、关联的实体>。
6.一种非结构化文本数据处理装置,其特征在于,所述装置包括:
格式转换模块,用于对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;
预处理模块,用于对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
知识抽取模块,用于通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
结构化转换模块,用于对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编号。
7.如权利要求6所述的非结构化文本数据处理装置,其特征在于,所述装置还包括:
存储模块,用于将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式,将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
8.如权利要求6所述的非结构化文本数据处理装置,其特征在于,所述装置还包括:
结构化展示模块,用于将序列化格式存储的结构化的数据结构,按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或更多个处理器;
一个或更多个存储器;
一个或更多个模块,其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如权利要求1至5任一所述非结构化文本数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有非结构化文本数据处理方法的应用程序,所述应用程序实现如权利要求1-5任意一项所述的非结构化文本数据处理方法的步骤。
CN201911065653.7A 2019-11-04 2019-11-04 非结构文本处理方法、装置、计算机设备、存储介质 Pending CN111046135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911065653.7A CN111046135A (zh) 2019-11-04 2019-11-04 非结构文本处理方法、装置、计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911065653.7A CN111046135A (zh) 2019-11-04 2019-11-04 非结构文本处理方法、装置、计算机设备、存储介质

Publications (1)

Publication Number Publication Date
CN111046135A true CN111046135A (zh) 2020-04-21

Family

ID=70232848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911065653.7A Pending CN111046135A (zh) 2019-11-04 2019-11-04 非结构文本处理方法、装置、计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN111046135A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739120A (zh) * 2020-05-19 2020-10-02 云知声智能科技股份有限公司 纯文本柱状图的绘制方法
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN113407613A (zh) * 2021-08-20 2021-09-17 北京国电通网络技术有限公司 文件解析方法、装置、电子设备和计算机可读介质
CN113987374A (zh) * 2021-10-27 2022-01-28 北京达佳互联信息技术有限公司 词云展示方法、装置、电子设备、介质及产品
CN114490944A (zh) * 2022-02-10 2022-05-13 杭州绿图信息科技有限公司 一种植物信息的批量化图示生成方法
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置
CN115374332A (zh) * 2022-09-06 2022-11-22 北京化工大学 一种应急救援资源检索方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
US20180197088A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data
CN110321549A (zh) * 2019-04-09 2019-10-11 广州数说故事信息科技有限公司 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
US20180197088A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data
CN110321549A (zh) * 2019-04-09 2019-10-11 广州数说故事信息科技有限公司 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739120A (zh) * 2020-05-19 2020-10-02 云知声智能科技股份有限公司 纯文本柱状图的绘制方法
CN111739120B (zh) * 2020-05-19 2023-07-25 云知声智能科技股份有限公司 纯文本柱状图的绘制方法
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN113407613A (zh) * 2021-08-20 2021-09-17 北京国电通网络技术有限公司 文件解析方法、装置、电子设备和计算机可读介质
CN113407613B (zh) * 2021-08-20 2021-11-09 北京国电通网络技术有限公司 文件解析方法、装置、电子设备和计算机可读介质
CN113987374A (zh) * 2021-10-27 2022-01-28 北京达佳互联信息技术有限公司 词云展示方法、装置、电子设备、介质及产品
CN114490944A (zh) * 2022-02-10 2022-05-13 杭州绿图信息科技有限公司 一种植物信息的批量化图示生成方法
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置
CN115374332A (zh) * 2022-09-06 2022-11-22 北京化工大学 一种应急救援资源检索方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111046135A (zh) 非结构文本处理方法、装置、计算机设备、存储介质
EP4141733A1 (en) Model training method and apparatus, electronic device, and storage medium
WO2016206210A1 (zh) 信息推送方法和装置
US7937658B1 (en) Methods and apparatus for retrieving font data
WO2022001888A1 (zh) 基于词向量生成模型的信息生成方法和装置
KR20150000566A (ko) 텍스트 입력에 따른 실시간 이미지 출력 장치 및 방법
WO2023024975A1 (zh) 文本处理方法、装置和电子设备
WO2023280106A1 (zh) 信息获取方法、装置、设备及介质
CN110941708A (zh) 智能问答库建立方法、智能问答方法及装置、计算机设备
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN110308907B (zh) 数据转换方法、装置、存储介质及电子设备
KR20230115964A (ko) 지식 그래프 생성 방법 및 장치
CN111555960A (zh) 信息生成的方法
CN104516899B (zh) 字库更新方法和装置
CN113946648B (zh) 结构化信息生成方法、装置、电子设备和介质
US20240078387A1 (en) Text chain generation method and apparatus, device, and medium
CN111666479A (zh) 搜索网页的方法和计算机可读存储介质
CN113987118A (zh) 语料的获取方法、装置、设备及存储介质
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
WO2022141855A1 (zh) 文本正则方法、装置、电子设备及存储介质
CN117389544B (zh) 一种人工智能的数据建模方法、装置、介质和设备
CN113361249B (zh) 文档判重方法、装置、电子设备和存储介质
CN112836477B (zh) 代码注释文档的生成方法、装置、电子设备及存储介质
US20210109960A1 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421