CN112148843B - 文本处理方法、装置、终端设备和存储介质 - Google Patents

文本处理方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN112148843B
CN112148843B CN202011334655.4A CN202011334655A CN112148843B CN 112148843 B CN112148843 B CN 112148843B CN 202011334655 A CN202011334655 A CN 202011334655A CN 112148843 B CN112148843 B CN 112148843B
Authority
CN
China
Prior art keywords
text
entity information
event
processed
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011334655.4A
Other languages
English (en)
Other versions
CN112148843A (zh
Inventor
杨康
卢东
何耀彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart City Research Institute Of China Electronics Technology Group Corp
Original Assignee
Smart City Research Institute Of China Electronics Technology Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart City Research Institute Of China Electronics Technology Group Corp filed Critical Smart City Research Institute Of China Electronics Technology Group Corp
Priority to CN202011334655.4A priority Critical patent/CN112148843B/zh
Publication of CN112148843A publication Critical patent/CN112148843A/zh
Application granted granted Critical
Publication of CN112148843B publication Critical patent/CN112148843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种文本处理方法、装置、终端设备和存储介质。该文本处理方法包括:获取待处理文本;提取待处理文本的实体信息;从预先构建的基础事件集中查找与实体信息对应的事件集合,分别计算事件集合中每个基础事件和待处理文本之间的相似度;若事件集合中任意的一个目标基础事件和待处理文本之间的相似度大于第一阈值,则将待处理文本归类至目标基础事件中。本申请通过提取待处理文本的实体信息,并根据该实体信息从基础事件中找到对应的事件集合,然后通过计算事件集合中每个基础事件和待处理文本之间的相似度结果,将代表事件最新进展的待处理文本归类至相应的基础事件中,从而对已有事件实时更新。

Description

文本处理方法、装置、终端设备和存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种文本处理方法、装置、终端设备和存储介质。
背景技术
随着信息时代的到来,人们的生活中每天都充斥着海量的文本数据,如何从海量的文本数据中感知事件的变化,是个难题。目前,对文本的事件更新处理通常采用词袋模型向量化以及K均值聚类两种方法,这两种方法只能将现有的文本进行处理归类到已有的事件中,不具备对已存在的事件进行实时更新的能力,因此更新事件的时间点往往是在事件大规模集中爆发后,导致对事件的更新滞后、实时性较低。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法、装置、终端设备和存储介质,能够提高对文本执行事件更新的时效性。
第一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理文本;
提取所述待处理文本的实体信息,所述实体信息用于概括所述待处理文本所要表示的事件;
从预先构建的基础事件集中查找与所述实体信息对应的事件集合,其中,所述基础事件集包含预设的多个基础事件,所述事件集合为所述基础事件集包含的与所述实体信息对应的各个基础事件的集合;
分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度;
若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中。
本申请通过提取待处理文本的实体信息,并根据该实体信息从基础事件中找到对应的事件集合,然后通过计算事件集合中每个基础事件和待处理文本之间的相似度结果,将代表事件最新进展的待处理文本归类至相应的基础事件中,从而对已有事件实时更新,有助于掌握事件的后续发展并提高对文本执行事件更新的时效性。
进一步的,在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,还包括:
若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则根据所述实体信息将所述待处理文本归类为新的基础事件。
先将待处理文本尝试归类至已有的基础事件中,但如果无法归类,则根据实体信息将待处理文本归类为新的基础事件,即主动发现基础事件,从而实现基础事件的增量更新。
进一步的,根据所述实体信息将所述待处理文本归类为新的基础事件,包括:
从预先构建的候选文本集合中查找所有包含所述实体信息的目标文本,所述候选文本集合记录未归类至任意一个已有基础事件的文本;
分别计算每个所述目标文本和所述待处理文本之间的相似度;
获取所述相似度大于第二阈值的目标文本;
根据获取的目标文本和所述待处理文本构建得到所述新的基础事件。
在进行文本处理的过程中,总有一些文本暂时还没有找到可以归类的基础事件,对于这类文本,可以构建出候选文本集合,随着文本处理数量的增多,就有可能归类到新的基础事件中。因此当待处理文本无法归类到已有的基础事件时,则可以计算候选文本集合中包含实体信息的每个目标文本和待处理文本之间的相似度,并将相似度大于第二阈值的目标文本和待处理文本组合成为新的基础事件。该方法能够在某事件还未爆发时检测出该事件,从而提高事件检测的时效性。
进一步的,在根据获取的目标文本和所述待处理文本构建得到所述新的基础事件之后,还包括:
根据所述新的基础事件以及所述实体信息,对预先构建的事件索引表进行更新,所述事件索引表记录各个基础事件与各个实体信息之间的对应关系。
为了便于对基础事件以及实体信息的查找,可以根据基础事件以及实体信息构建出事件索引表,同时为了确保信息查询的准确性,当构建出新的基础事件后,也应当对事件索引表进行更新。
进一步的,根据所述新的基础事件以及所述实体信息,对预先构建的事件索引表进行更新,包括:
分别提取所述获取的目标文本的实体信息;
从所述获取的目标文本的实体信息中选取部分实体信息,然后将选取的实体信息和所述待处理文本的实体信息更新至所述事件索引表中。
在对索引表进行更新时,需要从目标文本中选取出具有代表性的实体信息,即选取部分实体信息,然后将选取出的实体信息和待处理文本的实体信息更新到所述事件索引表中,实现对已经构建完成的事件索引表进一步更新,并且查询时,通过具有代表性的实体信息作为查询关键字,也能够提高事件的查询效率和准确性。
进一步的,在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,还包括:
若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则提取所述待处理文本的唯一标识符,并将所述待处理文本归类至具有所述唯一标识符的基础事件中;
若没有具有所述唯一标识符的基础事件,则将所述待处理文本和具有所述唯一标识符的候选文本集合中的文本构建新的基础事件。
如果待处理文本既不能归类至已有的基础事件中,又不能找到能构建新的基础事件的目标文本,可以考虑放宽归类的要求,即通过确定出待处理文本的唯一标识符,通过该唯一标识符对已有的基础事件进行查询,只要有基础事件具有该唯一标识符,则将待处理文本归类至该基础事件中;在无法将待处理文本归类到已有基础事件的情况下,只要候选文本集合中的文本具有该唯一标识符,就将待处理文本和该具有唯一标识符的文本构建出新的基础事件,这样可以避免因归类条件过于苛刻,导致可以归类的待处理文本无法进行归类。
进一步的,将所述待处理文本归类至具有所述唯一标识符的基础事件中,包括:
若从所述基础事件集中查找到具有所述唯一标识符的关联基础事件,则将所述待处理文本归类至所述关联基础事件中;
若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中查找到具有所述唯一标识符的关联文本,则根据所述关联文本和所述待处理文本构建得到新的基础事件;
若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中未查找到具有所述唯一标识符的关联文本,则将所述待处理文本归类至候选文本集合中。
在确定出待处理文本的唯一标识符之后,如果基础事件集中的任意基础事件具有唯一标识符,可以将该基础事件确定为关联基础事件,并将待处理文本归类到该关联基础事件中;并且,在未能进行归类的情况下,还可以通过在候选文本集合中查找具有唯一标识符的关联文本,当找到关联文本之后,即可通过构建新的基础事件的方式实现事件的检测;但如果通过放宽归类条件,还是无法对待处理文本进行归类,可以将待处理文本归类至候选文本集合中,这样能够在事件还未成型时就进行记录,当事件有进展时,即可进行聚类生成新的事件,提高事件检测的时效性。
进一步的,提取所述待处理文本的实体信息,包括:
对所述待处理文本执行分词、去标点符号以及去停用词操作,得到数据清洗后的待处理文本;
从所述数据清洗后的待处理文本中提取出所述实体信息。
要从待处理文本中提取出实体信息,需要对待处理文本进行清洗,即执行分词、去标点符号以及去停用词操作,当对待处理文本执行完相应操作后再进行实体信息的提取,能够提高实体信息提取的效率和准确性,避免文本中干扰信息过多导致提取出无效的实体信息。
进一步的,在从所述数据清洗后的待处理文本中提取出所述实体信息之后,还包括:
去除所述实体信息当中的指定单位名称和地理位置名称,得到候选实体信息;
采用预先构建的词向量模型将所述候选实体信息和所述待处理文本均转换为词向量的形式,得到第一向量和第二向量;
若所述第一向量和所述第二向量的相似度大于第三阈值,则将所述候选实体信息确定为核心实体信息;
所述从预先构建的基础事件集中查找与所述实体信息对应的事件集合为:
从所述基础事件集中查找与所述核心实体信息对应的事件集合。
当初步选取出实体信息之后,还可以进一步的对实体信息进行筛选获得候选实体信息,并通过对候选实体信息和待处理文本进行向量化得到第一向量和第二向量,并将两个向量的相似度和第三阈值比较,从而确定出核心实体信息。对应的,可以根据核心实体信息从基础事件集中查对应的事件集合,从而查找出相关性更高的事件集合,提高文本归类的效率。
进一步的,所述基础事件和所述待处理文本之间的相似度包括实体相似度和语义相似度,分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度,包括:
分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度;
分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度;
所述若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中,包括:
若所述事件集合中任意的一个目标基础事件和所述待处理文本的语义相似度大于所述第一阈值,且和所述待处理文本的实体相似度也大于所述第一阈值,则将所述待处理文本归类至所述目标基础事件中。
为了进一步的提高文本归类的准确性,可以将相似度的计算上升到语义层次,即事件和待处理文本之间的相似度包括实体相似度和语义相似度。通过仅当目标基础事件的语义相似度大于第一阈值且实体相似度也大于第一阈值,才将待处理文本归类到目标基础事件中,能够判断同一细分领域的待处理文本是否反映统一事件,提高对文本识别归类的精确性。
进一步的,每个所述基础事件均包含多个事件文本,所述分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度,包括:
对于每个所述基础事件,分别计算各自包含的各个事件文本的实体信息和所述待处理文本的实体信息之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的实体相似度;
所述分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度包括:
对于每个所述基础事件,分别计算各自包含的各个事件文本的文本内容和所述待处理文本的文本内容之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的语义相似度。
当相似度的计算上升到语义层次,那么对应的,在计算每个基础事件和待处理文本之间的相似度时,要分别计算每个基础事件和待处理文本之间的实体相似度和语义相似度。具体的,要计算某一基础事件和待处理文本之间的实体相似度,可以通过计算该基础事件中各个事件文本的实体信息和待处理文本的实体信息之间相似度的平均值来确定;要计算某一基础事件和待处理文本之间的语义相似度,则可以通过计算该基础事件中各个事件文本的文本内容和待处理文本的文本内容之间相似度的平均值来确定。
第二方面,本申请实施例提供了一种文本处理装置,包括:
待处理文本获取模块,用于获取待处理文本;
实体信息提取模块,用于提取所述待处理文本的实体信息,所述实体信息用于概括所述待处理文本所要表示的事件;
事件集合构建模块,用于从预先构建的基础事件集中查找与所述实体信息对应的事件集合,其中,所述基础事件集包含预设的多个基础事件,所述事件集合为所述基础事件集包含的与所述实体信息对应的各个基础事件的集合;
相似度计算模块,用分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度;
待处理文本归类第一模块,用于若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的文本处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的文本处理方法。
本申请实施例与现有技术相比存在的有益效果是:能够对待处理文本高效处理,提高事件更新的时效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理方法的流程图;
图2是本申请实施例提供的一种文本处理装置的结构图;
图3是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装置结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的文本处理方法可以应用于手机、平板电脑、医疗设备、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备或者服务器上,本申请实施例对终端设备和服务器的具体类型不作任何限制。
目前的事件更新都是通过处理文本实现的,对文本的处理通常采用词袋模型向量化以及K均值聚类两种方法,这两种方法虽然能够快速的实现文本聚类检测出事件,但是文本处理时间点往往是在事件大规模集中爆发后,因此对事件更新的滞后、实时性较低。针对该问题,本申请提出了一种文本处理方法,能够对待处理文本高效处理,提高事件检测的时效性。
在一个实施例中,请参阅图1,图1示出了本申请提供的一种文本处理方法的流程图,包括:
101、获取待处理文本;
首先,获取待处理文本,该待处理文本可以是用户查询事件时输入的若干查询关键字、短句或者长句。
102、提取所述待处理文本的实体信息,所述实体信息用于概括所述待处理文本所要表示的事件;
在获取到待处理文本之后,从这些待处理文本中提取出能够概括该文本所表示的事件的实体信息,例如待处理文本中的人物、组织机构、地理位置以及该文本的主体等,这些实体信息即可用作不同输入文本的共性信息,也可作为区分不同事件的唯一标识符。
要提取出有效的实体信息,需要对待处理文本执行一系列的操作。在一个实施例中,提取所述待处理文本的实体信息,包括:
对所述待处理文本执行分词、去标点符号以及去停用词操作,得到数据清洗后的待处理文本;
从所述数据清洗后的待处理文本中提取出所述实体信息。
一般来说,待处理文本中除了实体信息,还会有一些没有价值的信息,对于这类信息,需要通过数据清洗操作去除。具体的数据清洗操作步骤为,先对待处理文本进行分词操作,分词后得到短语、标点符号、停用词、单个字等,当得到分词结果后,可以对获得的待处理文本执行去标点符号处理,即将逗号、句号等标点符号去除,去除标点符号操作完成后,即可对待处理文本执行去停用词操作,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉的某些字或词,例如本身没有具体含义的语气助词、副词、介词、连接词等。当把待处理文本中的停用词去除后,已经大大降低无效信息对实体信息提取的干扰,此时进行实体信息的提取,既可以提高提取效率,又能够提高提取的准确率。
初步提取出实体信息之后,还可以进一步对实体信息进行筛选。在一个实施例中,在从所述数据清洗后的待处理文本中提取出所述实体信息之后,还包括:
去除所述实体信息当中的指定单位名称和地理位置名称,得到候选实体信息;
采用预先构建的词向量模型将所述候选实体信息和所述待处理文本均转换为词向量的形式,得到第一向量和第二向量;
若所述第一向量和所述第二向量的相似度大于第三阈值,则将所述候选实体信息确定为核心实体信息。
每个领域都会有不同的业务规则,不同的业务规则下,真正需要的实体信息会有差别。以信访领域为例,待处理文本是群众诉求的表达,假设文本内容为投诉某企业的违法违纪行为,因此不太可能是政府单位,而是企业机构,在对实体信息进行筛选时,可以将这部分内容删除;另外待处理文本中很常见的地名大多指向太过于宽泛不够具体,例如各省、市、区、县名称以及街道名称等,对于这类不具备作为唯一标识符的地名,也可以将其删除。当然,如果应用在其他领域,也可以通过根据具体的业务规则对一些指定的文本内容进行删减。在进一步删减指定的两个名称后,可以获得候选实体信息,为了让选出来的实体信息更具代表性,还需要对候选实体信息进一步筛选。具体的可以通过预先构建的词向量模型对候选实体信息和待处理文本进行向量化操作,即候选实体信息和待处理文本均转换为词向量的形式,分别得到对应的第一向量和第二向量。分别对多个候选实体信息和待处理文本进行向量化操作,就能够得到多个第一向量和一个第二向量,假设有5个候选实体信息,那么就会有5个第一向量,分别计算每个第一向量和第二向量之间的相似度,能够得出5个相似度,若5个相似度中有大于第三阈值的相似度,则将该相似度对应的候选实体信息确定为核心实体信息。其中预先构建的词向量模型优选BERT模型,相似度为余弦相似度。
103、从预先构建的基础事件集中查找与所述实体信息对应的事件集合,其中,所述基础事件集包含预设的多个基础事件,所述事件集合为所述基础事件集包含的与所述实体信息对应的各个基础事件的集合;
当从待处理文本中查找出实体信息之后,即可根据实体信息从预先构建的基础事件集中查找出对应的基础事件,从而构建事件集合。这里说的基础事件集是指包含了预先设置的多个基础事件,这些预设的基础事件一般是在前期通过输入带有标注信息的训练文本对文本处理模型进行训练后生成的基础事件;也可以是文本处理模型在投入使用后,随着处理文本数量的增多新构建的基础事件。根据实体信息从基础事件中查找可归类的多个基础事件,即查找出同样包含该实体信息对应的基础事件,就能够构建出事件集合。通过根据实体信息构建出事件集合,在对待处理文本归类时,可以仅判断待处理文本是否能够归类到该集合中的各个基础事件中,而不必和每个已有的基础事件进行比较,能够提高文本归类的效率。
在步骤102中,选取出来的实体信息还可以进一步筛选出核心实体信息,那么,在一个实施例中,也可以通过核心实体信息来构建出事件集合。即所述从预先构建的基础事件集中查找与所述实体信息对应的事件集合为:
从所述基础事件集中查找与所述核心实体信息对应的事件集合。
通过更具代表性的核心实体信息从基础事件集中查找对应的基础事件构建出的事件集合,筛选出来的事件和待处理文本之间的相关性更高,且数量也更少,因此能够进一步提高待处理文本归类的效率以及准确性。
在通过核心实体信息对基础事件进行筛选时,也可能因为条件过于苛刻,导致相关性较高的基础事件被淘汰,降低待处理文本归类的几率,因此还可以对核心实体进行扩展。一般待处理文本都会有一个主题标签,基础事件也会有自己的主题标签,基础事件下的文本事件的主题标签都是一致的,可以根据主题标签查找到和核心实体信息在同一主题下的拓展实体信息,放宽归类条件,以提高待处理文本的归类几率。
在一个实施例中,可以根据预先构建的事件索引表查找与待处理文本在同一主题标签下的所有实体信息(定义为关联实体信息),并分别判断查找出来的每个关联实体信息和核心实体信息之间的字符串关系,如果有目标关联实体信息和核心实体信息之间的字符串关系满足下述任一条件,则将该目标关联实体信息确定为拓展实体信息。
(1)关联实体信息包含核心实体信息或者核心实体信息包含关联实体信息;
(2)关联实体信息和核心实体信息的字符串长度相同,并且编辑距离为预设编辑距离。
其中,编辑距离是针对两个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串,假设预设编辑距离为1,则代表进行一次处理即可将关联实体信息的字符串变成核心实体信息的字符串。
通过该方法,即可将满足条件的关联实体信息确定为扩展实体信息,从而构建出拓展实体信息集合。当查找出拓展实体信息集合后,就可以通过该集合中的每个实体信息从事件索引表中查找对应的基础事件构建出事件集合。
其中,优选的,在查找基础事件构建事件集合时,可以进查找每个基础事件下指定数量的最新事件文本,要确定某个事件文本是不是最新的,可以根据指定数量和时间排序进行筛选。例如指定数量为4,某一基础事件记录了从2020年1月到9月的事件文本,每个月有一条记录,在筛选时先利用时间降序排列事件文本,然后选取排列前4条的事件文本参与到事件集合的构建中,通过选取指定的最新的事件文本作为某一基础事件的代表,能够紧跟事件发展的最新态势,防止出现事件偏移。
104、分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度;
在查找到实体信息,且获得事件集合之后,就可以计算每个基础事件和待处理文本之间的相似度。
对于相同的事物,在不同的语境下,其所代表的含义可能会有差异。例如苹果,在下述两个句子中的含义就各有不同:“我想买一个苹果(水果)”、“我想买一部苹果(手机)”;又或者表面上看不相关的两个事物,如果结合语义,则可以发现两者是关联的。例如在核心实体信息佳易购和浙江万银电子商务有限公司,两者同属于一家机构,如果不上升到语义上,会将其当做两个特征进行处理,在事件检测和事件追踪过程中相似度计算得分为0,无法将对两者对应的文本归类至同一基础事件中;但如果结合两者的语义,则可以将两者识别为同一实体信息,进行事件归类。因此,在计算基础事件和待处理文本之间的相似度时,如果能够结合语义,有助于提高待处理文本归类的准确性。
在一个实施例中,所述基础事件和所述待处理文本之间的相似度包括实体相似度和语义相似度,分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度,包括:
分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度;
分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度。
通过将基础事件和待处理文本之间的相似度通过实体相似度和语义相似度来表示,即不仅追求两者之间的形相近(实体相近),同时也注重两者之间的义相近(语义相近),能够提高待处理文本的归类准确性。
在计算两个相似度时,由于每个基础事件中会存在多个事件文本,对单个基础事件的实体/语义相似度计算时,可以分别计算该事件中各个事件文本和所述待处理文本之间的实体/语义相似度,然后计算出平均值来代替整个基础事件的实体/语义相似度。
具体的,在一个实施例中,每个所述基础事件均包含多个事件文本,所述分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度,包括:
对于每个所述基础事件,分别计算各自包含的各个事件文本的实体信息和所述待处理文本的实体信息之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的实体相似度;
所述分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度包括:
对于每个所述基础事件,分别计算各自包含的各个事件文本的文本内容和所述待处理文本的文本内容之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的语义相似度。
在计算实体相似度时,可以获得每个事件文本的核心实体信息以及待处理文本的核心实体信息,然后将所有的核心实体信息通过词向量模型进行向量化,得到各自的向量,对于待处理文本的核心实体信息对应向量可以从前述步骤调用,即第二向量;对于事件文本的核心实体信息对应的向量,为方便描述,定义为第三向量,第三向量会有多个。得到第二和第三向量之后,即可依次计算每个第三向量和第二向量的实体相似度,计算完成后,以基础事件为单位,计算每个基础事件下各个第三向量和第二向量之间实体相似度的平均值,以平均值来确定对应的基础事件和待处理文本之间的实体相似度。计算文本内容相似度和计算实体相似度类似,需要获得每个事件文本的文本内容以及待处理文本的文本内容,然后将所有的文本内容通过词向量模型进行向量化,得到各自的向量,对于待处理文本的文本内容对应的向量可以定义为第四向量,对于事件文本的文本内容对应的向量,可以定义为第五向量,第五向量会有多个。得到第四和第五向量之后,即可依次计算每个第五向量和第四向量的语义相似度,计算完成后,以基础事件为单位,计算每个基础事件下各个第五向量和第四向量之间语义相似度的平均值,以平均值来确定对应的基础事件和待处理文本之间的语义相似度。
105、若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中。
当计算出事件集合中每个基础事件和待处理文本之间的相似度之后,可以从中查找大于第一阈值的相似度,查找出来的相似度对应的基础事件即为目标基础事件,并将待处理文本归类至目标基础事件中。
在步骤104中,为了提高待处理文本归类的准确性,将相似度分类为实体相似度和语义相似度。对应的,在一个实施例中,所述若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中,包括:
若所述事件集合中任意的一个目标基础事件和所述待处理文本的语义相似度大于所述第一阈值,且和所述待处理文本的实体相似度也大于所述第一阈值,则将所述待处理文本归类至所述目标基础事件中。
当且仅当基础事件和待处理文本的语义相似度大于第一阈值,且和所述待处理文本的实体相似度也大于所述第一阈值,才会将该基础事件确定为目标基础事件,并将待处理文本归类到该基础事件中。为了进一步提高待处理文本归类的准确性和效率,仅将语义相似度的最大值和第一阈值进行比较,当该语义相似度满足条件后,才进一步对实体相似度进行比较,能够高效的确定出最佳的目标基础事件实现待处理文本的归类。
由于有的事件还处于萌芽期,还没有更多的文本对该事件进行表述,对于这样的待处理文本而言,其可能暂时找不到可归属的目标基础事件。在该情况下,可以考虑是否能够利用该待处理文本构建出一个新的基础事件。
在一个实施例中,在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,还包括:
若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则根据所述实体信息将所述待处理文本归类为新的基础事件。
在确定不能将待处理文本归类到已有的基础事件之后,可以根据待处理文本的实体信息将待处理文本归类为新的基础事件,从而实现对事件的增量更新。
具体的,在一个实施例中,根据所述实体信息将所述待处理文本归类为新的基础事件,包括:
从预先构建的候选文本集合中查找所有包含所述实体信息的目标文本,所述候选文本集合记录未归类至任意一个已有基础事件的文本;
分别计算每个所述目标文本和所述待处理文本之间的相似度;
获取所述相似度大于第二阈值的目标文本;
根据获取的目标文本和所述待处理文本构建得到所述新的基础事件。
不论是在处理文本模型训练的过程中,还是在实际处理的过程中,都会有一些文本因代表的事件暂时还未成型,无法进行归集,因此可以将这些无法归集的文本构建成候选文本集合。当有待处理文本无法归类到现有的基础事件时,可以通过实体信息从候选文本集合中查找对应的目标文本信息,即同样包含实体信息的文本信息,通过计算目标文本信息和待处理文本之间的相似度,从而确定是否能够构建出新的基础事件。当存在相似度大于第二阈值对应的目标文本,那么可以将这些目标文本和待处理文本归类到一起,构建出新的基础事件。同样,在计算每个目标文本和待处理文本之间的相似度时,也可以将其上升到语义层次,即分别计算实体相似度和语义相似度,当且仅当实体相似度和语义相似度都大于设定的阈值时,才将对应的目标文本和待处理文本进行归类,构建新的基础事件。具体的计算过程和上述基础事件和待处理文本的相似度计算过程相似,在此不再赘述。需要注意的是,目标文本已经是单个的,因此无需进行平均值的计算。
随着新的基础事件的构建以及已有的基础事件的更新,要从存储这些基础事件的数据库中查找到对应的基础事件或者事件文本,需要遍历所有的基础事件或者事件文本,查询效率较低。在该种情形下,可以通过在文本处理模型训练初期就构建一个事件索引表,以便于对基础事件及其相关信息进行查询,同时为了确保查询的准确性,在基础事件更新后,需要对事件索引表进行更新。
在一个实施例中,在根据获取的目标文本和所述待处理文本构建得到所述新的基础事件之后,还包括:
根据所述新的基础事件以及所述实体信息,对预先构建的事件索引表进行更新,所述事件索引表记录各个基础事件与各个实体信息之间的对应关系。
预先构建的事件索引表会有对应的字段,在本实施例中,事件索引表的字段可以参考表1,包括:事件编号、实体信息,优选的,实体信息可以为核心实体信息和主题标签。对应在,在构建出新的基础事件之后,对事件索引表更新,可以确保信息查询的准确性。
表1
存储编号 核心实体信息 事件编号 主题标签 其他自定义字段(如地域)
1 中佳易购 20 集资融资 浙江嘉兴
具体的,在一个实施例中,可以通过以下步骤对事件索引表进行更新,包括:
分别提取所述获取的目标文本的实体信息;
从所述获取的目标文本的实体信息中选取部分实体信息,然后将选取的实体信息和所述待处理文本的实体信息更新至所述事件索引表中。
在本实施例中,事件索引表中的事件编号字段,可以根据当前已有的事件编号对新的基础事件顺序编号;实体信息字段,可以分别提取新的基础事件中各个目标文本以及待处理文本的实体信息,并从实体信息中选取出核心实体信息、主题标签两个信息更新到事件索引表中。但是对于不同的应用场景,事件索引表中呈现的关键词会有不同,可以根据具体需求额外添加、调整,以提高基础事件及事件文本的查询效率。
能够根据待处理文本和候选文本集合中的目标文本构建出新的基础事件,标志着事件形成和发展。但是有可能是归类条件设置的过于苛刻,本来可以将待处理文本归类到某一基础事件中,由于苛刻的判断条件,导致该基础事件未被确定为目标基础事件,对于这种情况,可以通过降低归类的门槛,实现待处理文本的归类。
在一个实施例中,在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,还包括:
若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则提取所述待处理文本的唯一标识符,并将所述待处理文本归类至具有所述唯一标识符的基础事件中;
若没有具有所述唯一标识符的基础事件,则将所述待处理文本和具有所述唯一标识符的候选文本集合中的文本构建新的基础事件。
唯一标识符可以从实体信息中确定,例如在信访领域中,待处理文本的实体信息包括信访人身份证号码、联系电话等,当确定唯一标识符时,即可从中选取一个信息作为这一条待处理文本的唯一标识符。通过确定出待处理文本的唯一标识符,从基础事件集中查找到具有该唯一标识符的基础事件,查找到对应的基础事件之后,即可将待处理文本归类到该基础事件中;在无法将待处理文本归类到已有基础事件的情况下,只要候选文本集合中的文本具有该唯一标识符,就将待处理文本和该具有唯一标识符的文本构建出新的基础事件。
具体的,在一个实施例中,可以通过以下步骤将所述待处理文本归类至具有所述唯一标识符的基础事件中:
若从所述基础事件集中查找到具有所述唯一标识符的关联基础事件,则将所述待处理文本归类至所述关联基础事件中;
若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中查找到具有所述唯一标识符的关联文本,则根据所述关联文本和所述待处理文本构建得到新的基础事件;
若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中未查找到具有所述唯一标识符的关联文本,则将所述待处理文本归类至候选文本集合中。
如果能够从基础事件集中查找到具有唯一标识符的关联基础事件,那么可以将待处理文本归类到该关联基础事件中。具体,关联基础事件的查找,是通过查找基础事件下的事件文本中是否包含有该唯一标识符;如果包含,则将该事件文本对应的基础事件确定为关联基础事件。
在未能进行归类的情况下,还可以通过在候选文本集合中查找具有唯一标识符的关联文本,当找到关联文本之后,即可通过构建新的基础事件的方式实现事件的检测。
但是,除了通过查找关联事件和关联文本进行待处理文本的归类,由于存在有的待处理文本就是一个新的基础事件的开端的情形。在该情形下,则无法将该待处理文本归类到已有的基础事件或者构建出新的基础事件,需要将其归类到候选文本集合中,以待该待处理文本代表的事件有进展时,和新的待处理文本进行归类,构建出新的基础事件。
本申请通过提取待处理文本的实体信息,并根据该实体信息从基础事件中找到对应的事件集合,然后通过计算事件集合中每个基础事件和待处理文本之间的相似度结果,将代表事件最新进展的待处理文本归类至相应的基础事件中,从而对已有事件实时更新,有助于掌握事件的后续发展并提高对文本执行事件更新的时效性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为便于理解,下面以实际应用领域和应用场景来说明本申请提出的文本处理方法。
应用领域:
在信访领域中,近年来随着智慧城市、数字政府等概念的兴起,由各地政府主导建立了各种社会治理中心平台用以感知整个社会的运行态势。这些平台汇聚了来自政府各职能部门的社会民意诉求表达数据,比如12345数据、信访数据以及城管数据等。相关部门通过分析探索这些数据,进而能够主动发现社会经济运行中常态化下的非常态事件,即发现与社会维稳相关的重大民生事件,做到超前预警,从而更好的保证整个经济社会的正常运转。但是和维护社会稳定相关的重点事件(如群体上访,重复上访)的发生大多不是突然的,都是很多关联事件从量变到质变产生的,因此可以利用本申请的方法,从大量的过往的历史信访记录中发现重复的、共同的民意诉求表达。
具体案例:
由于人物信息往往是信访记录中投诉人或者是被投诉人;机构组织往往是信访记录中总被投诉的具体事件;地理位置则常是信访记录中投诉事件发生的具体地点,这些实体通常具有一个共性特征即均容易是信访记录中被投诉的对象。因此在对信访文本处理时,可以先从信访文本提取出人物,组织机构地理位置等实体信息;然后依据信访文本中的具体投诉对象寻找出信访候选事件集;接着通过相似度计算将新输入的信访记录归入相关的基础事件中;若信访记录无法归入基础事件中,则依据信访文本中的具体投诉对象寻找出信访候选记录集;通过相似度计算的方式形成新的基础事件予以监测。若通过事件检测的方式无法形成新的基础事件;则通过确定出信访文本的唯一标识符进行最终的查找。
通过该方法,能够对待处理信访文本实现归类或者构建出新的基础事件,从而追踪信访事件的更新或形成,提高信访事件更新或检测的时效性,有助于决策者根据相关事件的变化进行处理,以维护社会稳定。
图2示出了本申请实施例提供的文本处理装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图2,该装置包括:
待处理文本获取模块201,用于获取待处理文本;
实体信息提取模块202,用于提取所述待处理文本的实体信息,所述实体信息用于概括所述待处理文本所要表示的事件;
事件集合构建模块203,用于从预先构建的基础事件集中查找与所述实体信息对应的事件集合,其中,所述基础事件集包含预设的多个基础事件,所述事件集合为所述基础事件集包含的与所述实体信息对应的各个基础事件的集合;
相似度计算模块204,用分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度;
待处理文本归类第一模块205,用于若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中。
进一步的,所述装置还可以包括:
基础事件构建模块,用于在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则根据所述实体信息将所述待处理文本归类为新的基础事件。
进一步的,所述基础事件构建模块可以包括:
目标文本查找单元,用于从预先构建的候选文本集合中查找所有包含所述实体信息的目标文本,所述候选文本集合记录未归类至任意一个已有基础事件的文本;
第一相似度计算单元,用于分别计算每个所述目标文本和所述待处理文本之间的相似度;
目标文本获取单元,用于获取所述相似度大于第二阈值的目标文本;
基础事件构建单元,用于根据获取的目标文本和所述待处理文本构建得到所述新的基础事件。
进一步的,所述装置还可以包括:
事件索引表更新模块,用于在根据获取的目标文本和所述待处理文本构建得到所述新的基础事件之后,根据所述新的基础事件以及所述实体信息,对预先构建的事件索引表进行更新,所述事件索引表记录各个基础事件与各个实体信息之间的对应关系。
进一步的,所述事件索引表更新模块还可以包括:
目标文本实体信息提取单元,用于分别提取所述获取的目标文本的实体信息;
事件索引表更新单元,用于从所述获取的目标文本的实体信息中选取部分实体信息,然后将选取的实体信息和所述待处理文本的实体信息更新至所述事件索引表中。
进一步的,所述装置还可以包括:
待处理文本归类第二模块,用于在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则提取所述待处理文本的唯一标识符,并将所述待处理文本归类至具有所述唯一标识符的基础事件中,若没有具有所述唯一标识符的基础事件,则将所述待处理文本和具有所述唯一标识符的候选文本集合中的文本构建新的基础事件。
进一步的,所述待处理文本归类第二模块还可以包括:
待处理文本归类第一单元,用于若从所述基础事件集中查找到具有所述唯一标识符的关联基础事件,则将所述待处理文本归类至所述关联基础事件中;
待处理文本归类第二单元,用于若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中查找到具有所述唯一标识符的关联文本,则根据所述关联文本和所述待处理文本构建得到新的基础事件;
待处理文本归类第三单元,用于若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中未查找到具有所述唯一标识符的关联文本,则将所述待处理文本归类至候选文本集合中。
进一步的,所述实体信息提取模块302可以包括:
数据清洗单元,用于对所述待处理文本执行分词、去标点符号以及去停用词操作,得到数据清洗后的待处理文本;
实体信息提取单元,用于从所述数据清洗后的待处理文本中提取出所述实体信息。
进一步的,所述实体信息提取模块302还可以包括:
候选实体信息提取单元,在从所述数据清洗后的待处理文本中提取出所述实体信息之后,去除所述实体信息当中的指定单位名称和地理位置名称,得到候选实体信息;
向量化操作单元,用于采用预先构建的词向量模型将所述候选实体信息和所述待处理文本均转换为词向量的形式,得到第一向量和第二向量;
核心实体确定单元,用于若所述第一向量和所述第二向量的相似度大于第三阈值,则将所述候选实体信息确定为核心实体信息;
所述事件集合构建模块还可以用于从所述基础事件集中查找与所述核心实体信息对应的事件集合。
进一步的,所述基础事件和所述待处理文本之间的相似度包括实体相似度和语义相似度,所述相似度计算模块可以包括:
实体相似度计算单元,用于分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度;
语义相似度计算单元,用于分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度;
所述待处理文本归类第一模块205还可以包括:
待处理文本归类第一单元,用于若所述事件集合中任意的一个目标基础事件和所述待处理文本的语义相似度大于所述第一阈值,且和所述待处理文本的实体相似度也大于所述第一阈值,则将所述待处理文本归类至所述目标基础事件中。
进一步的,所述实体相似度计算单元可以包括:
实体相似度计算子单元,用于对于每个所述基础事件,分别计算各自包含的各个事件文本的实体信息和所述待处理文本的实体信息之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的实体相似度;
所述语义相似度计算单元可以包括:
语义相似度计算子单元,用于对于每个所述基础事件,分别计算各自包含的各个事件文本的文本内容和所述待处理文本的文本内容之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的语义相似度。
本申请实施例还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请提出的各个文本处理方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请提出的各个文本处理方法的步骤。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行本申请提出的各个文本处理方法的步骤。
图3为本申请一实施例提供的终端设备的结构示意图。如图3所示,该实施例的终端设备3包括:至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意浏览器驱动的配置方法实施例中的步骤。
所述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备,以及智能手表、智能手环等可穿戴设备。该终端设备可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端设备3的举例,并不构成对终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31在一些实施例中可以是所述终端设备3的内部存储单元,例如终端设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述终端设备3的外部存储设备,例如所述终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作装置、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (13)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
提取所述待处理文本的实体信息,所述实体信息用于概括所述待处理文本所要表示的事件;
去除所述实体信息当中的指定单位名称和地理位置名称,得到候选实体信息;
采用预先构建的词向量模型将所述候选实体信息和所述待处理文本均转换为词向量的形式,得到第一向量和第二向量;
若所述第一向量和所述第二向量的相似度大于第三阈值,则将所述候选实体信息确定为核心实体信息;
根据所述核心实体信息的主题标签确定出多个关联实体信息,所述关联实体信息与所述核心实体信息的主题标签相同;
若所述多个关联实体信息中存在与所述核心实体信息之间为包含或者被包含关系的目标关联实体信息,则将所述目标关联实体信息确定为拓展实体信息;
或者
若所述多个关联实体信息中存在长度与所述核心实体信息的字符串长度相同的字符串,且可与所述核心实体信息通过编辑预设距离实现相互转化的目标关联实体信息,则将所述目标关联实体信息确定为拓展实体信息;
将所述核心实体信息和所述拓展实体信息构建成目标实体信息集合;
从预先构建的基础事件集中查找与所述目标实体信息集合中任意的实体信息对应的事件集合,其中,所述基础事件集包含预设的多个基础事件,所述事件集合为所述基础事件集包含的与所述目标实体信息集合中任意的实体信息对应的各个基础事件的集合;
分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度;
若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中。
2.如权利要求1所述的文本处理方法,其特征在于,在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,还包括:
若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则根据所述目标实体信息集合将所述待处理文本归类为新的基础事件。
3.如权利要求2所述的文本处理方法,其特征在于,根据所述目标实体信息集合将所述待处理文本归类为新的基础事件,包括:
从预先构建的候选文本集合中查找所有包含所述目标实体信息集合中任意一个实体信息的目标文本,所述候选文本集合记录未归类至任意一个已有基础事件的文本;
分别计算每个所述目标文本和所述待处理文本之间的相似度;
获取所述相似度大于第二阈值的目标文本;
根据获取的目标文本和所述待处理文本构建得到所述新的基础事件。
4.如权利要求3所述的文本处理方法,其特征在于,在根据获取的目标文本和所述待处理文本构建得到所述新的基础事件之后,还包括:
根据所述新的基础事件以及所述核心实体信息,对预先构建的事件索引表进行更新,所述事件索引表记录各个基础事件与各个实体信息之间的对应关系。
5.如权利要求4所述的文本处理方法,其特征在于,根据所述新的基础事件以及所述核心实体信息,对预先构建的事件索引表进行更新,包括:
分别提取所述获取的目标文本的实体信息;
从所述获取的目标文本的实体信息中选取部分实体信息,然后将选取的实体信息和所述待处理文本的核心实体信息更新至所述事件索引表中。
6.如权利要求3所述的文本处理方法,其特征在于,在分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度之后,还包括:
若所述事件集合中没有基础事件和所述待处理文本之间的相似度大于所述第一阈值,则提取所述待处理文本的唯一标识符,并将所述待处理文本归类至具有所述唯一标识符的基础事件中;
若没有具有所述唯一标识符的基础事件,则将所述待处理文本和具有所述唯一标识符的候选文本集合中的文本构建新的基础事件。
7.如权利要求6所述的文本处理方法,其特征在于,将所述待处理文本归类至具有所述唯一标识符的基础事件中,包括:
若从所述基础事件集中查找到具有所述唯一标识符的关联基础事件,则将所述待处理文本归类至所述关联基础事件中;
若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中查找到具有所述唯一标识符的关联文本,则根据所述关联文本和所述待处理文本构建得到新的基础事件;
若从所述基础事件集中未查找到具有所述唯一标识符的关联基础事件,且从所述候选文本集合中未查找到具有所述唯一标识符的关联文本,则将所述待处理文本归类至候选文本集合中。
8.如权利要求1所述的文本处理方法,其特征在于,提取所述待处理文本的实体信息,包括:
对所述待处理文本执行分词、去标点符号以及去停用词操作,得到数据清洗后的待处理文本;
从所述数据清洗后的待处理文本中提取出所述实体信息。
9.如权利要求1至8任一项所述的文本处理方法,其特征在于,所述基础事件和所述待处理文本之间的相似度包括实体相似度和语义相似度,分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度,包括:
分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度;
分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度;
所述若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中,包括:
若所述事件集合中任意的一个目标基础事件和所述待处理文本的语义相似度大于所述第一阈值,且和所述待处理文本的实体相似度也大于所述第一阈值,则将所述待处理文本归类至所述目标基础事件中。
10.如权利要求9所述的文本处理方法,其特征在于,每个所述基础事件均包含多个事件文本,所述分别计算所述事件集合中每个基础事件和所述待处理文本的实体相似度,包括:
对于每个所述基础事件,分别计算各自包含的各个事件文本的实体信息和所述待处理文本的实体信息之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的实体相似度;
所述分别计算所述事件集合中每个基础事件和所述待处理文本的语义相似度包括:
对于每个所述基础事件,分别计算各自包含的各个事件文本的文本内容和所述待处理文本的文本内容之间的相似度的平均值,并将得到的平均值确定为各自对应的和所述待处理文本之间的语义相似度。
11.一种文本处理装置,其特征在于,包括:
待处理文本获取模块,用于获取待处理文本;
实体信息提取模块,所述实体信息提取模块包括数据清洗单元、实体信息提取单元、候选实体信息提取单元、向量化操作单元、核心实体确定单元、关联实体确定单元、拓展实体确定单元以及目标实体信息集合构建单元;
所述实体信息提取单元,用于提取所述待处理文本的实体信息,所述实体信息用于概括所述待处理文本所要表示的事件;
所述候选实体信息提取单元,用于去除所述实体信息当中的指定单位名称和地理位置名称,得到候选实体信息;
所述向量化操作单元,用于采用预先构建的词向量模型将所述候选实体信息和所述待处理文本均转换为词向量的形式,得到第一向量和第二向量;
所述核心实体确定单元,用于若所述第一向量和所述第二向量的相似度大于第三阈值,则将所述候选实体信息确定为核心实体信息;
所述关联实体确定单元,用于根据所述核心实体信息的主题标签确定出多个关联实体信息,所述关联实体信息与所述核心实体信息的主题标签相同;
所述拓展实体确定单元,用于若所述多个关联实体信息中存在与所述核心实体信息之间为包含或者被包含关系的目标关联实体信息,则将所述目标关联实体信息确定为拓展实体信息;
或者
若所述多个关联实体信息中存在长度与所述核心实体信息的字符串长度相同的字符串,且可与所述核心实体信息通过编辑预设距离实现相互转化的目标关联实体信息,则将所述目标关联实体信息确定为拓展实体信息;
目标实体信息集合构建单元,用于将所述核心实体信息和所述拓展实体信息构建成目标实体信息集合;
所述装置还包括:
事件集合构建模块,用于从预先构建的基础事件集中查找与所述目标实体信息集合中任意的实体信息对应的事件集合,其中,所述基础事件集包含预设的多个基础事件,所述事件集合为所述基础事件集包含的与所述目标实体信息集合中任意的实体信息对应的各个基础事件的集合;
相似度计算模块,用分别计算所述事件集合中每个基础事件和所述待处理文本之间的相似度;
待处理文本归类第一模块,用于若所述事件集合中任意的一个目标基础事件和所述待处理文本之间的相似度大于第一阈值,则将所述待处理文本归类至所述目标基础事件中。
12.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的文本处理方法。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的文本处理方法。
CN202011334655.4A 2020-11-25 2020-11-25 文本处理方法、装置、终端设备和存储介质 Active CN112148843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011334655.4A CN112148843B (zh) 2020-11-25 2020-11-25 文本处理方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011334655.4A CN112148843B (zh) 2020-11-25 2020-11-25 文本处理方法、装置、终端设备和存储介质

Publications (2)

Publication Number Publication Date
CN112148843A CN112148843A (zh) 2020-12-29
CN112148843B true CN112148843B (zh) 2021-05-07

Family

ID=73887227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011334655.4A Active CN112148843B (zh) 2020-11-25 2020-11-25 文本处理方法、装置、终端设备和存储介质

Country Status (1)

Country Link
CN (1) CN112148843B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220840B (zh) * 2021-05-17 2023-08-01 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113221538B (zh) * 2021-05-19 2023-09-19 北京百度网讯科技有限公司 事件库构建方法和装置、电子设备、计算机可读介质
CN113626461B (zh) * 2021-08-10 2024-02-13 深圳平安智慧医健科技有限公司 信息查找方法、终端设备及计算机可读存储介质
CN114528375A (zh) * 2022-01-26 2022-05-24 北京金堤科技有限公司 一种相似舆情文本识别方法和装置
CN116561288B (zh) * 2023-07-12 2024-01-05 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN110209827A (zh) * 2018-02-07 2019-09-06 腾讯科技(深圳)有限公司 搜索方法、装置、计算机可读存储介质和计算机设备
CN111241282A (zh) * 2020-01-14 2020-06-05 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111522994A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 用于生成信息的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929891B (zh) * 2011-08-11 2015-09-16 阿里巴巴集团控股有限公司 处理文本的方法和装置
CN105468605B (zh) * 2014-08-25 2019-04-12 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
KR20160027640A (ko) * 2014-09-02 2016-03-10 삼성전자주식회사 전자 장치 및 전자 장치에서의 개체명 인식 방법
CN110309251B (zh) * 2018-03-12 2024-01-12 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN110737821B (zh) * 2018-07-03 2022-06-07 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
CN110442726B (zh) * 2019-08-15 2022-03-04 电子科技大学 基于实体约束的社交媒体短文本在线聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209827A (zh) * 2018-02-07 2019-09-06 腾讯科技(深圳)有限公司 搜索方法、装置、计算机可读存储介质和计算机设备
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN111241282A (zh) * 2020-01-14 2020-06-05 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111522994A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
CN112148843A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112148843B (zh) 文本处理方法、装置、终端设备和存储介质
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN110222709B (zh) 一种多标签智能打标方法及系统
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN107291895B (zh) 一种快速的层次化文档查询方法
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN112000790A (zh) 一种法律文本精确检索方法、终端系统和可读存储介质
CN112287111B (zh) 一种文本处理方法和相关装置
JPWO2019234827A1 (ja) 情報処理装置、判定方法、及びプログラム
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
CN116450664A (zh) 数据处理方法、装置、设备和存储介质
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN112434126B (zh) 一种信息处理方法、装置、设备和存储介质
CN114491232A (zh) 信息查询方法、装置、电子设备和存储介质
CN113836378A (zh) 一种数据处理方法及装置
CN113129057A (zh) 软件造价信息的处理方法、装置、计算机设备及存储介质
CN112541357A (zh) 实体识别方法、装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant