CN113779983B - 文本数据处理方法以及装置、存储介质、电子装置 - Google Patents

文本数据处理方法以及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN113779983B
CN113779983B CN202110415808.6A CN202110415808A CN113779983B CN 113779983 B CN113779983 B CN 113779983B CN 202110415808 A CN202110415808 A CN 202110415808A CN 113779983 B CN113779983 B CN 113779983B
Authority
CN
China
Prior art keywords
text
data
same event
extracting
data corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110415808.6A
Other languages
English (en)
Other versions
CN113779983A (zh
Inventor
赵轲
杜向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aegis Information Technology Co ltd
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN202110415808.6A priority Critical patent/CN113779983B/zh
Publication of CN113779983A publication Critical patent/CN113779983A/zh
Application granted granted Critical
Publication of CN113779983B publication Critical patent/CN113779983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本数据处理方法以及装置、存储介质、电子装置。该方法包括确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。本申请解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的问题。本申请适用于多种文本处理场景。

Description

文本数据处理方法以及装置、存储介质、电子装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种文本数据处理方法以及装置、存储介质、电子装置。
背景技术
通过对文本数据进行相关的处理,能够获得关于同一个事件的关联信息。
而为了规范某些特定行为,提高文本数据处理质量,需要快速地找出关于同一个事件出现的差异化的文本信息。
针对相关技术中在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本数据处理方法以及装置、存储介质、电子装置,以解决在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本数据处理方法。
根据本申请的文本数据处理方法包括:确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
进一步地,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据包括:对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。
进一步地,所述文本数据的文本定性识别包括:对每种文本数据进行不同事件的定性识别,并进行事件属性标记。
进一步地,所述关键要素提取包括:基于知识图谱,对所述同一个事件关联的多个文本信息进行预设要素自动提取;所述实体提取包括:对所述同一个事件关联的多个文本信息进行实体提取,其中,所述实体包括具有可描述意义的单词或短语;所述关系抽取包括:将所述实体提取的结果以及与所述实体相关的句子语料进行组合整理,提取实体之间的语义关系。
进一步地,还包括:对所述同一个事件关联的多个文本信息进行数据清洗处理,其中,输数据清洗处理至少包括如下之一:正则提取、中文分词、词性标注、识别纠错,对数据清洗处理结果进行词语和/或句子级别的分析,提取得到有效的文本数据。
进一步地,所述比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中包括:将任一一种所述文本数据对应的文本特征数据的属性值集合,分别与另一种所述文本数据对应的文本特征的属性值集合并集比对得出差值并存储;将比对结果进行差异化展示并标记在所述目标文本中。
进一步地,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,还包括:确定同一个事件关联的多种文本数据;对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
为了实现上述目的,根据本申请的另一方面,提供了一种文本数据处理装置。
根据本申请的文本数据处理装置包括:确定模块,用于确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;特征提取模块,用于通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;比较标记模块,用于比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
根据本申请的又一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本申请实施例中文本数据处理方法以及装置、存储介质、电子装置,采用确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;达到了比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中的目的。从而实现了依靠相关领域的知识图谱,通过自然语言技术对多种文本数据中的文本特征数据进行提取并智能对比之后找出差异化内容,进而解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本数据处理方法的系统结构示意图;
图2是根据本申请实施例的文本数据处理方法流程示意图;
图3是根据本申请实施例的文本数据处理装置结构示意图;
图4是根据本申请实施例的文本数据处理方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,系统包括:服务器200以及文本输数据100。从所述文本数据100中获取得到多个目标文本(目标文本1、目标文本2、目标文本3、),并且在所述多个目标文本中获取对于同一个事件不同阶段的多个文本信息。所述服务器200通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据(关键要素),并且比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。多个文本信息可以为同一个事件在不同阶段或者不同场景。
如图2所示,该方法包括如下的步骤S201至步骤S203:
步骤S201,确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
步骤S202,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
步骤S203,比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
从以上的描述中,可以看出,本申请实现了如下技术效果:
采用确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;达到了比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中的目的。从而实现了依靠相关领域的知识图谱,通过自然语言技术对多种文本数据中的文本特征数据进行提取并智能对比之后找出差异化内容,进而解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的技术问题。
在上述步骤S201中确定了目标案文本之后,可获取得到所述同一个事件可关联的多种文本数据。
在上述步骤S202中通过自然语言处理中的多种处理方式,对于所述同一个事件关联的多种文本数据提取得到每种文本数据对应的文本特征数据。
在一种具体实施方式中,所述文本特征数据包括如下之一:事件地点、事件人员、事件情况等。此外,文本特征通常还可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。
作为一种较佳实施方式,采用现有技术中的实体识别与机器学习进行所述文本特征数据自动提取。
在上述步骤S203中比较所述每种文本数据对应的文本特征数据之间存在的差异之后,将这些差异标记在所述目标文本中。
在一种具体实施方式中,所述每种文本数据对应的文本特征数据之间的差异包括差异化的事件。
作为一种较佳实施方式,所述每种文本数据对应的文本特征数据之间的差异包括对事件的定性指标。
作为本实施例中的优选实施方式,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据包括:对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。
具体实施时,所述对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取可以并行执行同时如果已经有处理结果的可以直接使用。之后,对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。即对同一个事件不同种类文本数据所包含以上提取的文本种类、文本定性、关键要素、实体、关系根据不同种类的文本进行结构化并存储。
作为本实施例中的优选实施方式,所述文本数据的文本定性识别包括:对每种文本数据进行不同事件的定性识别,并进行事件属性标记。
作为本实施例中的优选实施方式,所述关键要素提取包括:基于知识图谱,对所述同一个事件关联的多个文本信息进行预设要素自动提取;所述实体提取包括:对所述同一个事件关联的多个文本信息进行实体提取,其中,所述实体包括具有可描述意义的单词或短语;所述关系抽取包括:将所述实体提取的结果以及与所述实体相关的句子语料进行组合整理,提取实体之间的语义关系。
具体实施时,以各事件的特定场景或者指定场景构成的知识图谱为基础,对不同类型的文本数据中的目标关键要素等利用实体识别与机器学习进行自动提取。
在一种具体实施方式中,实体提取是从清洗后的数据中对实体进行提取,实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。
作为一种较佳实施方式,实体提取主要指对文书中的人名、地名、公司名、行业、产品、案例等进行提取。
在一种具体实施方式中,关系抽取是将所有的实体,以及与其相关的句子语料进行组合整理,提取实体之间的语义关系。
作为本实施例中的优选实施方式,还包括:对所述同一个事件关联的多个文本信息进行数据清洗处理,其中,输数据清洗处理至少包括如下之一:正则提取、中文分词、词性标注、识别纠错;对数据清洗处理结果进行词语和/或句子级别的分析,提取得到有效的文本数据。
具体实施时,数据清洗是对多种文本数据进行清洗处理,包括但不限于正则提取、中文分词、词性标注、识别纠错等技术工具,进行词语和/或句子级别的分析,提取有用数据,提高数据的可用性。
作为本实施例中的优选实施方式,所述比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中包括:将任一一种所述文本数据对应的文本特征数据的属性值集合,分别与另一种所述文本数据对应的文本特征的属性值集合并集比对得出差值并存储;将比对结果进行差异化展示并标记在所述目标文本中。
具体实施时,所述数据结构化是对同一个事件不同种类文本所包含以上提取的文本种类、文本定性、关键要素、实体、关系根据不同种类的文本进行结构化并存储。
在一种具体实施方式中,对每种文本数据,针对以上提取的多个属性值集合,分别与另两种文本对应的属性值并集比对得出差值并存储。接着,将比对结果进行差异化比对结果标记展示在目标文本中。
作为本实施例中的优选实施方式,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,还包括:确定同一个事件关联的多种文本数据;对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
具体实施时,所述文本数据获取指获取到同一个事件的多种文本数据,对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的文本数据处理装置,如图3所示,该装置包括:
确定模块301,用于确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
特征提取模块302,用于通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
比较标记模块303,用于比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
所述确定模块301中确定了目标案文本之后,可获取得到所述同一个事件可关联的多种文本数据。
所述特征提取模块302中通过自然语言处理中的多种处理方式,对于所述同一个事件关联的多种文本数据提取得到每种文本数据对应的文本特征数据。
在一种具体实施方式中,所述文本特征数据包括如下之一:事件地点、事件人员、事件情况等。此外,文本特征通常还可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。
作为一种较佳实施方式,采用现有技术中的实体识别与机器学习进行所述文本特征数据自动提取。
所述比较标记模块303中比较所述每种文本数据对应的文本特征数据之间存在的差异之后,将这些差异标记在所述目标文本中。
在一种具体实施方式中,所述每种文本数据对应的文本特征数据之间的差异包括差异化的事件。
作为一种较佳实施方式,所述每种文本数据对应的文本特征数据之间的差异包括对事件的定性指标。
为了更好的理解上述文本数据处理方法流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案。
本申请优选实施例的文本数据处理方法,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,并且比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。多个文本信息可以为同一个事件在不同阶段或者不同场景。进而解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的技术问题。
如图4所示,是本申请实施例中文本数据处理方法的流程示意图,具体包括如下步骤:
步骤S401,文本数据获取。
针对同一个事件,获取所述同一个事件关联的多个文本信息作为目标文本,比如第一文本信息、第二文本信息以及第三文本信息,所述第一文本信息、所述第二文本信息、所述第三文本信息相互之间为不同的文本信息,且属于不同的阶段的同一个事件所产生的。
步骤S402,文书种类识别。
对获取的文本数据进行识别,主要通过正则匹配的方式区分所述属于同一个事件关联的多个文本信息,并对文本信息进行属性标记。步骤S403,数据清洗。
对同一个事件的多种文本信息进行清洗处理,包括正则提取、中文分词、词性标注、识别纠错等技术工具,进行词语/句子级别的分析,提取有用数据,提高数据的可用性。
步骤S404,NLP处理。
文书定性识别,对每一种文本信息做事件的定性识别,并进行事件属性标记。
关键要素提取,以各事件的特定场景或者指定场景构成的知识图谱为基础,对多个文本信息中的目标关键要素等利用实体识别与机器学习进行自动提取。
需要注意的是,目标关键要素为本领域技术人员根据实际情况进行配置,在本申请中并不进行具体限定。
实体提取,从清洗后的文本数据中对实体进行提取,实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。实体提取主要指对文书中的人名、地名、公司名、行业、产品、案例等进行提取。
关系抽取,将所有的实体,以及与其相关的句子语料进行组合整理,提取实体之间的语义关系。如实体A和实体B之间的关联关系、多个实体C之间的数据关系等。
步骤S405,数据结构化。
对同一个事件关联的不同种类文本信息所包含以上提取出的文本内容定性识别结果、关键要素提取结果、实体提取结果、关系抽取结果,根据不同种类文本信息进行结构化处理并存储。
步骤S406,数据对比。
对于每种文本内容,针对以上提取的多个属性值集合,分别与另外的文本信息对应的属性值并集对比得出差值并存储。
步骤S407,数据差异化标记。
将比对结果进行差异化展示并标记在目标文本中。
本申请的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
S2,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
S3,比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:
S1,对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;
S2,对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
S2,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
S3,比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本数据处理方法,其特征在于,包括:
确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
2.根据权利要求1所述的方法,其特征在于,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据包括:
对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;
对于所述同一个事件关联的多个文本信息通过进行所述操作得到的处理结果,进行结构化处理之后再存储。
3.根据权利要求2所述的方法,其特征在于,所述文本数据的文本定性识别包括:
对每种文本数据进行不同事件的定性识别,并进行事件属性标记。
4.根据权利要求3所述的方法,其特征在于:
所述关键要素提取包括:基于知识图谱,对所述同一个事件关联的多个文本信息进行预设要素自动提取;
所述实体提取包括:对所述同一个事件关联的多个文本信息进行实体提取,其中,所述实体包括具有可描述意义的单词或短语;
所述关系抽取包括:将所述实体提取的结果以及与所述实体相关的句子语料进行组合整理,提取实体之间的语义关系。
5.根据权利要求1所述的方法,其特征在于,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据之前,还包括:
对所述同一个事件关联的多个文本信息进行数据清洗处理,其中,所述数据清洗处理至少包括如下之一:正则提取、中文分词、词性标注、识别纠错;
对数据清洗处理结果进行词语和/或句子级别的分析,提取得到有效的文本数据。
6.根据权利要求1所述的方法,其特征在于,所述比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中包括:
将任意一种所述文本数据对应的文本特征数据的属性值集合,分别与另一种所述文本数据对应的文本特征数据的属性值集合,进行并集并比对得出差值并存储;
将比对结果进行差异化展示并标记在所述目标文本中。
7.根据权利要求1所述的方法,其特征在于,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,还包括:
确定同一个事件关联的多种文本数据;
对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
8.一种文本数据处理装置,其特征在于,包括:
确定模块,用于确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
特征提取模块,用于通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
比较标记模块,用于比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
CN202110415808.6A 2021-04-16 2021-04-16 文本数据处理方法以及装置、存储介质、电子装置 Active CN113779983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110415808.6A CN113779983B (zh) 2021-04-16 2021-04-16 文本数据处理方法以及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110415808.6A CN113779983B (zh) 2021-04-16 2021-04-16 文本数据处理方法以及装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN113779983A CN113779983A (zh) 2021-12-10
CN113779983B true CN113779983B (zh) 2022-10-04

Family

ID=78835665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110415808.6A Active CN113779983B (zh) 2021-04-16 2021-04-16 文本数据处理方法以及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN113779983B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028648B (zh) * 2023-02-15 2023-06-09 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021351A (zh) * 2016-05-10 2016-10-12 深圳职业技术学院 针对新闻事件的聚合提取方法及装置
CN111966890A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 基于文本的事件推送方法、装置、电子设备和存储介质
CN112528660A (zh) * 2020-12-04 2021-03-19 北京百度网讯科技有限公司 处理文本的方法、装置、设备、存储介质和程序产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
CN109800431B (zh) * 2019-01-23 2020-07-28 中国科学院自动化研究所 事件信息关键词提取、监控方法及系统及存储和处理装置
CN110134688B (zh) * 2019-05-14 2021-06-01 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021351A (zh) * 2016-05-10 2016-10-12 深圳职业技术学院 针对新闻事件的聚合提取方法及装置
CN111966890A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 基于文本的事件推送方法、装置、电子设备和存储介质
CN112528660A (zh) * 2020-12-04 2021-03-19 北京百度网讯科技有限公司 处理文本的方法、装置、设备、存储介质和程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于本体的受限领域文本信息提取方法;孙剑等;《装甲兵工程学院学报》;20121215(第06期);全文 *

Also Published As

Publication number Publication date
CN113779983A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
US9058308B2 (en) System and method for identifying text in legal documents for preparation of headnotes
CA2423033C (en) A document categorisation system
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN108305180B (zh) 一种好友推荐方法及装置
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
KR20110081194A (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN112699645B (zh) 语料标注方法、装置及设备
CN116775874B (zh) 一种基于多重语义信息的资讯智能分类方法及系统
CN110659352A (zh) 试题考点识别方法及其系统
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN111177401A (zh) 一种电网自由文本知识抽取方法
EP2544100A2 (en) Method and system for making document modules
CN111460119A (zh) 经济知识智能问答方法、系统及智能设备
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN114298048A (zh) 命名实体识别方法及装置
CN114880471A (zh) 一种基于文本分类算法的电子病历质量评估方法及系统
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN111143559A (zh) 基于三元组的词云展示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant