CN111339778A - 文本处理方法、装置、存储介质和处理器 - Google Patents

文本处理方法、装置、存储介质和处理器 Download PDF

Info

Publication number
CN111339778A
CN111339778A CN202010177782.1A CN202010177782A CN111339778A CN 111339778 A CN111339778 A CN 111339778A CN 202010177782 A CN202010177782 A CN 202010177782A CN 111339778 A CN111339778 A CN 111339778A
Authority
CN
China
Prior art keywords
entity
word
target
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010177782.1A
Other languages
English (en)
Other versions
CN111339778B (zh
Inventor
黄宇
王风雷
李东军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yuemeng Information Technology Co ltd
Original Assignee
Suzhou Yuemeng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yuemeng Information Technology Co ltd filed Critical Suzhou Yuemeng Information Technology Co ltd
Priority to CN202010177782.1A priority Critical patent/CN111339778B/zh
Publication of CN111339778A publication Critical patent/CN111339778A/zh
Application granted granted Critical
Publication of CN111339778B publication Critical patent/CN111339778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本处理方法、装置、存储介质和处理器。其中,该方法包括:对目标文本进行分词处理,得到多个目标文本词;通过每个目标文本词获取对应的实体词集合;在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词。本发明解决了现有技术对文本进行处理的效率低的技术问题。

Description

文本处理方法、装置、存储介质和处理器
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本处理方法、装置、存储介质和处理器。
背景技术
目前,在对文本进行处理时,通常是根据实体词典查找实体,并生成标签向量,将标签向量与词向量进行拼接输入到识别网络模型中,从而得到待识别文本中各个分词词条分别对应各个标签的分值,进而根据分值识别出实体,但并未为每一个文本词找出它在此文本中对应的最合适的实体词,导致对文本进行处理的效率低的技术问题。
针对上述现有技术中对文本进行处理的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法、装置、存储介质和处理器,以至少解决现有技术对文本进行处理的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法。该方法可以包括:对目标文本进行分词处理,得到多个目标文本词;通过每个目标文本词获取对应的实体词集合;在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词。
可选地,在实体词集合中,确定每个目标文本词的目标实体词,包括:从多个目标文本词中获取至少一对文本词对,其中,每对文本词对中包括多个目标文本词中的任意两个目标文本词;确定每对文本词对的至少一对实体词对,其中,每对实体词对中包括两个实体词,两个实体词中的第一实体词至少来自每对文本词对中的第一目标文本词的实体词集合,两个实体词中的第二实体词至少来自每对文本词对中的第二目标文本词的实体词集合;基于至少一对实体词对确定目标实体词。
可选地,实体词集合中的每个实体词具有对应的值,基于至少一对实体词对确定目标实体词,包括:获取每对实体词对中的两个实体词之间的相似度,得到至少一个相似度;在至少一个相似度中的最大相似度大于第一阈值的情况下,分别增加最大相似度对应的两个实体词对应的值;将实体词集合中的最大值对应的实体词,确定为目标实体词。
可选地,该方法还包括:对实体词对应的目标实体的百科词条进行分词处理,得到多个分词;通过多个分词构建目标实体的第一级特征向量;通过多个分词获取第一实体集合,并根据第一级特征向量,分别计算第一实体集合中的多个实体与目标实体之间的余弦相似度,得到多个余弦相似度;基于多个余弦相似度确定目标实体的第二级特征向量;将第二级特征向量确定为目标实体的特征向量。
可选地,基于多个余弦相似度确定目标实体的第二级特征向量,包括:从多个余弦相似度中获取大于第二阈值的至少一个余弦相似度;通过至少一个余弦相似度对应的至少一个实体和目标实体确定第二实体集合;在第二实体集合对应的百科词条中,选取词频最高的目标数量的词;通过目标数量的词构建目标实体的第二级特征向量。
可选地,通过每个目标文本词获取对应的实体词集合,包括:通过倒排索引获取每个目标文本词对应的至少一个实体词,其中,倒排索引用于指示文本词到实体词之间的对应关系;通过至少一个实体词构成实体词集合。
可选地,该方法还包括:从实体对应的百科词条中获取实体的多个文本词;通过每个文本词和实体对应的实体词构建倒排索引。
可选地,倒排索引为键为文本词,值为至少一个实体词的表。
根据本发明实施例的另一方面,还提供了一种文本处理装置。该装置可以包括:分词单元,用于对目标文本进行分词处理,得到多个目标文本词;获取单元,用于通过每个目标文本词获取对应的实体词集合;确定单元,用于在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词。
根据本发明实施例的另一方面,还提供了一种存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的文本处理方法。
根据本发明实施例的另一方面,还提供了一种处理器。该处理器用于运行程序,其中,程序运行时执行本发明实施例的文本处理方法。
在本发明实施例中,采用对目标文本进行分词处理,得到多个目标文本词;通过每个目标文本词获取对应的实体词集合;在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词,解决了对文本进行处理的效率低的技术问题,达到了提高对文本进行处理的效率的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本处理方法的流程图;以及
图2是根据本发明实施例的一种文本处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种文本处理方法的流程图。如图1所示,该方法包括如下步骤:
步骤S102,对目标文本进行分词处理,得到多个目标文本词。
在本发明上述步骤S102提供的技术方案中,对目标文本进行分词处理,得到分词结果,该分词结果可以包括目标文本的多个目标文本词,该目标文本词为可以召回实体词的文本词,比如,目标文本为文本T,可以用l1,l2,…lm表示文本T的分词结果中能召回实体词的文本词。
在该实施例中,实体词为实体的标识方式,实体是在客观世界里存在的事物,由一个独一无二的字符串标识,它是文本词指代的对象。因为实体间存在重名现象,从而不能简单用实体的名称(即对应百科词条的标题)来唯一标识一个实体,可以采用的实体标识方式是:百科词条标题_词条所属类别,并称之为实体词。比如,公司实体“苹果”的实体词为“苹果_科技公司”,而水果实体“苹果”的实体词为“苹果_水果”。一个百科词条跟一个实体一一对应,文本词是实体在自然语言中的表现形式。其中,实体和文本词之间是多对多的关系。
在该实施例中,一个实体词可以对应多个文本词,同时一个文本词也能对应多个实体词。比如,实体词“勒布朗·詹姆斯_篮球运动员”对应的文本词可以包括“勒布朗”,“詹姆斯”,“小皇帝”等;而文本词“詹姆斯”则可对应“希德·詹姆斯_演员”、“莱顿·詹姆斯_足球运动员”、“勒布朗·詹姆斯_篮球运动员”等实体词。
步骤S104,通过每个目标文本词获取对应的实体词集合。
在本发明上述步骤S104提供的技术方案中,在对目标文本进行分词处理,得到多个目标文本词之后,通过每个目标文本词获取对应的实体词集合,该实体词集合可以包括目标文本词召回的至少一个实体词,比如,对于一个目标文本词li,可以将召回的实体词可以表示为ei1,ei2,…,eini
步骤S106,在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词。
在本发明上述步骤S106提供的技术方案中,在通过每个目标文本词获取对应的实体词集合之后,对目标文本词进行消歧处理,可以在实体词集合中确定与每个目标文本词在目标文本中的匹配度最高的目标实体词,也即,为每一个目标文本词li,找出它在文本T中最合适的实体词ei,j。该实施例的目标实体词也即目标文本词消歧的结果。
下面对该实施例的上述方法进行进一步地介绍。
作为一种可选的实施方式,在实体词集合中,步骤S106,确定每个目标文本词的目标实体词,包括:从多个目标文本词中获取至少一对文本词对,其中,每对文本词对中包括多个目标文本词中的任意两个目标文本词;确定每对文本词对的至少一对实体词对,其中,每对实体词对中包括两个实体词,两个实体词中的第一实体词至少来自每对文本词对中的第一目标文本词的实体词集合,两个实体词中的第二实体词至少来自每对文本词对中的第二目标文本词的实体词集合;基于至少一对实体词对确定目标实体词。
在该实施例中,在确定每个目标文本词的目标实体词时,可以对目标文本的多个目标文本词中的任意两个目标文本词进行组合,得到文本词对,比如,任意一对文本词对为<ls,lt>。在从多个目标文本词中获取至少一对文本词对之后,可以确定每对文本词对的至少一对实体词对,比如,实体词对可以表示为<es,js,et,jt>,该实体词对是通过文本词对中的两个文本词对应的实体词确定得到的,其中,两个实体词中的第一实体词至少来自每对文本词对中的第一目标文本词的实体词集合,也即,目标文本的其它目标文本词的实体词集合也可能包括第一实体词,两个实体词中的第二实体词至少来自每对文本词对中的第二目标文本词的实体词集合,也即,目标文本的其它目标文本词的实体词集合也可能包括第二实体词。在确定每对文本词对的至少一对实体词对之后,可以基于至少一对实体词对来确定实体词集合中与每个目标文本词在目标文本中的匹配度最高的目标实体词。
作为一种可选的实施方式,实体词集合中的每个实体词具有对应的值,基于至少一对实体词对确定目标实体词,包括:获取每对实体词对中的两个实体词之间的相似度,得到至少一个相似度;在至少一个相似度中的最大相似度大于第一阈值的情况下,分别增加最大相似度对应的两个实体词对应的值;将实体词集合中的最大值对应的实体词,确定为目标实体词。
在该实施例中,实体词集合中的每个实体词具有对应的值,该值可以理解为每个实体词的得票、分数等。在实现基于至少一对实体词对确定目标实体时,可以获取每对实体词对中的两个实体词之间的相似度,该相似度可以为实体词中的两个实体词之间的余弦相似度,从而可以实现获取所有实体词对中的两个实体词之间的相似度,得到至少一个相似度。可选地,从至少一个相似度中确定最大相似度,判断该最大相似度是否大于第一阈值。如果判断出最大相似度大于第一阈值,分别增加最大相似度对应的两个实体词对应的值,比如,向最大相似度对应的两个实体词对应的值加1。
对目标文本的每个目标文本词,都按照上述方法分别增加最大相似度的实体词对中的两个实体词对应的值,从而对于每个目标文本词的实体词集合中的每个实体词,都会对应一个最终的值,将实体词集合中最终的最大值对应的实体词,确定为目标实体词,也即,与每个目标文本词在目标文本中最合适的实体词。
作为一种可选的实施方式,该方法还包括:对实体词对应的目标实体的百科词条进行分词处理,得到多个分词;通过多个分词构建目标实体的第一级特征向量;通过多个分词获取第一实体集合,并根据第一级特征向量,分别计算第一实体集合中的多个实体与目标实体之间的余弦相似度,得到多个余弦相似度;基于多个余弦相似度确定目标实体的第二级特征向量;将第二级特征向量确定为目标实体的特征向量。
在该实施例中,每个实体词用于标识对应的每个目标实体,比如,该目标实体可以用E表示。一个目标实体与一个百科词条一一对应,其中,百科词条可以为百科词条文章。
在该实施例中,对于每一个目标实体,从百科文本集中找出关于它的权重最高的前n个特征词,这n个特征词及其权重可以表示为:(lE1,wE1),(lE2,wE2),…,(lEn,wEn),其中,l表示词,w表示权重,从这n个词可以得到该目标实体的特征向量的完整表示和缩略表示。
对于目标实体的特征向量的完整表示,可以将百科文本集中包含的所有词按照字典序排列,得到一个有序的队列L:[l1,l2,…lN]。对于目标实体,它的特征向量的完整表示是一个N维的向量,如果第i维在L中对应的词是目标实体的特征词,则第i维的值是该特征词的权重,否则第i维的值为0。
因为目标实体的特征向量的完整表示十分稀疏,在实际操作中可以采用缩略表示。缩略表示只记录完整表示中非零的维,以及它们对应的特征词。一个目标实体的特征向量的缩略表示可记为[(lE1:wE1),(lE2:wE2),…,(lEn:wEn)],这是一个n维的向量。
该实施例可以用迭代的思路来确定目标实体的特征向量。可选地,该实施例对目标实体的百科词条进行分词处理,比如,从百科词条中提取名词,选取词频最高的前n个词作为得到的多个分词,通过多个分词构建目标实体的第一级特征向量。可选地,在得到多个分词之后,可以用每个分词来召回其它实体,组成第一实体集,可以用实体集SE进行表示,并根据第一级特征向量,依次计算第一实体集中的每个实体和目标实体之间的余弦相似度,得到多个余弦相似度,可以通过多个余弦相似度来确定目标实体的第二级特征向量,并且将该第二级特征向量确定为目标实体的特征向量,以通过目标实体的特征向量和其它实体的特征向量计算该目标实体和其它实体之间的相似度。
作为一种可选的实施方式,基于多个余弦相似度确定目标实体的第二级特征向量,包括:从多个余弦相似度中获取大于第二阈值的至少一个余弦相似度;通过至少一个余弦相似度对应的至少一个实体和目标实体确定第二实体集合;在第二实体集合对应的百科词条中,选取词频最高的目标数量的词;通过目标数量的词构建目标实体的第二级特征向量。
在该实施例中,在实现基于多个余弦相似度确定目标实体的第二级特征向量时,可以从多个余弦相似度中获取大于第二与之的至少一个余弦相似度,将至少一个余弦相似度对应的召回的至少一个实体和目标实体确定第二实体集合,比如,将相似度大于第二阈值t的实体加入第二实体集合TE中,最后将目标实体E也加入至第二实体集合TE中。在确定第二实体集合之后,可以在第二实体集合对应的所有百科词条中,选取词频最高的目标数量的词,比如,选取词频最高的n个词,通过其来构建目标实体的第二级特征向量。
作为一种可选的实施方式,通过每个目标文本词获取对应的实体词集合,包括:通过倒排索引获取每个目标文本词对应的至少一个实体词,其中,倒排索引用于指示文本词到实体词之间的对应关系;通过至少一个实体词构成实体词集合。
在该实施例中,在实现通过每个目标文本词获取对应的实体词集合时,可以先确定用于指示文本词到实体词之间的对应关系的倒排索引,进而可以通过倒排索引来获取每个目标文本词对应的至少一个实体词。在获取至少一个实体词之后,通过至少一个实体词来构成每个目标文本词对应的实体词集合。
作为一种可选的实施方式,该方法还包括:从实体对应的百科词条中获取实体的多个文本词;通过每个文本词和实体对应的实体词构建倒排索引。
在该实施例中,为了构建文本词到实体词的倒排索引,可以首先构建实体词到文本词的正排索引,也即,从实体对应的百科词条中挖掘出所有该实体对应的文本词,可以采用启发式规则挖掘出所有该实体对应的文本词。
举例而言,如果实体是外国人,则将其姓氏加入至文本词;将词条的信息表(infobox)中跟名称相关的属性值加入至文本词;用模板从词条的简介和正文中提取文本词。在完成上述步骤之后,即可构建文本词到实体词的倒排索引。
该实施例可以将所有实体的文本词加入词表中,以使得目标文本的每个目标分词召回尽可能多的召回实体。该实施例建立文本词到实体的实体词之间的对应关系,从而得到每个文本词和实体对应的实体词的倒排索引。
作为一种可选的实施方式,倒排索引为键为文本词,值为至少一个实体词的表。
在该实施例中,倒排索引可以为一个键为文本词,而值为实体词队列的表,可以表示如下:詹姆斯(文本)->[希德·詹姆斯_演员,莱顿·詹姆斯_足球运动员,勒布朗·詹姆斯_篮球运动员](实体词)。通过这个倒排索引可以方便地从文本中召回所有实体词集合。
该实施例通过上述步骤S102至步骤S106,对目标文本进行分词处理,得到多个目标文本词;通过每个目标文本词获取对应的实体词集合;在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词。也就是说,本申请对目标文本的每个目标文本词消歧,确定每个目标文本词在目标文本中最合适的目标实体词,解决了对文本进行处理的效率低的技术问题,达到了提高对文本进行处理的效率的技术效果。
实施例2
下结合优选的实施方式对该实施例的技术方案进行举例说明。
该实施例的文本的处理方法可以包括以下步骤:
S1,构建文本词到实体词的倒排索引。
在该实施例中,为了构建文本词到实体词的倒排索引,首先构建实体词到文本词的正排索引,即从实体对应的百科词条中挖掘出所有该实体的文本词,可以采用启发式规则进行挖掘,构建文本词到实体词的倒排索引。它是一个键为文本词,值为实体词队列的表,通过这个倒排索引可以方便地从文本中召回所有实体词集合集。
S2,计算实体的特征向量
在该实施例中,计算实体特征向量的目的是,利用特征向量计算两个实体的相似度。可以用迭代的思路来计算,一共迭代两次,具体做法如下:
第1步,对每一个实体E,将其百科词条文章分词,提取名词,选取词频最高的前n个词,构建实体E的第一级特征向量。
第2步,对每一个实体E,将其百科词条文章分词,用分出的词召回其他实体,组成实体集SE;根据第一级特征向量,依次计算SE中的实体和E的余弦相似度,可以将相似度大于阈值t的实体加入集合TE中,最后将E也加入TE
第3步,在TE对应的所有百科词条文章中,选取词频最高的n个词,构建实体E的第二级特征向量。
第4步,将E的第二级特征向量确定为E的特征向量。
S4,在文本中召回实体并消歧
第1步,对文本T分词,得到分词结果。
为尽可能多的召回实体,需将S1中得到的所有实体的文本词加入词表中。
第2步,根据文本词到实体词的倒排索引从分词结果中召回实体。
该实施例用l1,l2,…lm表示文本T的分词结果中能召回实体词的文本词,对于一个文本词li,它召回的实体词可以表示为ei1,ei2,…,eini
第3步:消歧,即为每一个文本词li,找出它在此文本T中最合适的实体词ei,j
可选地,对于任意一对文本词<ls,lt>,计算它们所有的实体词对的余弦相似度,找出相似度最高的实体词对<es,js,et,jt>,若实体词对<es,js,et,jt>的相似度大于阈值t,则分别为es,js和et,jt的得票加1。在计算完所有的文本词对后,每一个文本词的实体词集合中得票最高的实体词即为该文本词消歧的结果。
该实施例对目标文本的每个目标文本词消歧,确定每个目标文本词在目标文本中最合适的目标实体词,从而解决了对文本进行处理的效率低的技术问题,进而达到了提高对文本进行处理的效率的技术效果。
实施例3
本发明实施例还提供了一种文本处理装置。需要说明的是,该实施例的文本处理装置可以用于执行本发明实施例的文本处理方法。
图2是根据本发明实施例的一种文本处理装置的示意图。如图2所示,该文本处理装置20可以包括:分词单元21、获取单元22和确定单元23。
分词单元21,用于对目标文本进行分词处理,得到多个目标文本词。
获取单元22,用于通过每个目标文本词获取对应的实体词集合。
确定单元23,用于在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词。
可选地,确定单元23包括:第一获取模块,用于从多个目标文本词中获取至少一对文本词对,其中,每对文本词对中包括多个目标文本词中的任意两个目标文本词;第一确定模块,用于确定每对文本词对的至少一对实体词对,其中,每对实体词对中包括两个实体词,两个实体词中的第一实体词至少来自每对文本词对中的第一目标文本词的实体词集合,两个实体词中的第二实体词至少来自每对文本词对中的第二目标文本词的实体词集合;第二确定模块,用于基于至少一对实体词对确定目标实体词。
可选地,实体词集合中的每个实体词具有对应的值,第二确定模块包括:获取子模块,用于获取每对实体词对中的两个实体词之间的相似度,得到至少一个相似度;在增加子模块,用于至少一个相似度中的最大相似度大于第一阈值的情况下,分别增加最大相似度对应的两个实体词对应的值;确定子模块,用于将实体词集合中的最大值对应的实体词,确定为目标实体词。
可选地,该装置还包括:第一分词单元,用于对实体词对应的目标实体的百科词条进行分词处理,得到多个分词;第一构建单元,用于通过多个分词构建目标实体的第一级特征向量;第一获取单元,用于通过多个分词获取第一实体集合,并根据第一级特征向量,分别计算第一实体集合中的多个实体与目标实体之间的余弦相似度,得到多个余弦相似度;第一确定单元,用于基于多个余弦相似度确定目标实体的第二级特征向量;第二确定单元,用于将第二级特征向量确定为目标实体的特征向量。
可选地,第一确定单元包括:第二获取模块,用于从多个余弦相似度中获取大于第二阈值的至少一个余弦相似度;第三确定模块,用于通过至少一个余弦相似度对应的至少一个实体和目标实体确定第二实体集合;选取模块,用于在第二实体集合对应的百科词条中,选取词频最高的目标数量的词;构建模块,用于通过目标数量的词构建目标实体的第二级特征向量。
可选地,获取单元22包括:第三获取模块,用于通过倒排索引获取每个目标文本词对应的至少一个实体词,其中,倒排索引用于指示文本词到实体词之间的对应关系;构成模块,用于通过至少一个实体词构成实体词集合。
可选地,该方法还包括:第二获取单元,用于从实体对应的百科词条中获取实体的多个文本词;第二构建单元,用于通过每个文本词和实体对应的实体词构建倒排索引。
可选地,倒排索引为键为文本词,值为至少一个实体词的表。
在该实施例中,通过分词单元21对目标文本进行分词处理,得到多个目标文本词;通过获取单元22通过每个目标文本词获取对应的实体词集合;通过确定单元23在实体词集合中,确定每个目标文本词的目标实体词,其中,目标实体词为实体词集合中,与每个目标文本词在目标文本中的匹配度最高的实体词,解决了对文本进行处理的效率低的技术问题,达到了提高对文本进行处理的效率的技术效果。
实施例4
根据本发明实施例,还提供了一种存储介质,该存储介质包括存储的程序,其中,所述程序执行实施例1中所述的文本处理方法。
实施例5
根据本发明实施例,还提供了一种处理器,该处理器用于运行程序,其中,所述程序运行时执行实施例1中所述的文本处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种文本处理方法,其特征在于,包括:
对目标文本进行分词处理,得到多个目标文本词;
通过每个所述目标文本词获取对应的实体词集合;
在所述实体词集合中,确定每个所述目标文本词的目标实体词,其中,所述目标实体词为所述实体词集合中,与每个所述目标文本词在所述目标文本中的匹配度最高的实体词。
2.根据权利要求1所述的方法,其特征在于,在所述实体词集合中,确定每个所述目标文本词的目标实体词,包括:
从所述多个目标文本词中获取至少一对文本词对,其中,每对所述文本词对中包括所述多个目标文本词中的任意两个目标文本词;
确定每对所述文本词对的至少一对实体词对,其中,每对所述实体词对中包括两个实体词,所述两个实体词中的第一实体词至少来自每对所述文本词对中的第一目标文本词的实体词集合,所述两个实体词中的第二实体词至少来自每对所述文本词对中的第二目标文本词的实体词集合;
基于所述至少一对实体词对确定所述目标实体词。
3.根据权利要求2所述的方法,其特征在于,所述实体词集合中的每个实体词具有对应的值,基于所述至少一对实体词对确定所述目标实体词,包括:
获取每对所述实体词对中的两个实体词之间的相似度,得到至少一个相似度;
在所述至少一个相似度中的最大相似度大于第一阈值的情况下,分别增加所述最大相似度对应的两个实体词对应的值;
将所述实体词集合中的最大值对应的实体词,确定为所述目标实体词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述实体词对应的目标实体的百科词条进行分词处理,得到多个分词;
通过所述多个分词构建所述目标实体的第一级特征向量;
通过所述多个分词获取第一实体集合,并根据所述第一级特征向量,分别计算所述第一实体集合中的多个实体与所述目标实体之间的余弦相似度,得到多个余弦相似度;
基于所述多个余弦相似度确定所述目标实体的第二级特征向量;
将所述第二级特征向量确定为所述目标实体的特征向量。
5.根据权利要求4所述的方法,其特征在于,基于所述多个余弦相似度确定所述目标实体的第二级特征向量,包括:
从所述多个余弦相似度中获取大于第二阈值的至少一个余弦相似度;
通过所述至少一个余弦相似度对应的至少一个实体和所述目标实体确定第二实体集合;
在所述第二实体集合对应的百科词条中,选取词频最高的目标数量的词;
通过所述目标数量的词构建所述目标实体的第二级特征向量。
6.根据权利要求1所述的方法,其特征在于,通过每个所述目标文本词获取对应的实体词集合,包括:
通过倒排索引获取每个所述目标文本词对应的至少一个实体词,其中,所述倒排索引用于指示文本词到实体词之间的对应关系;
通过所述至少一个实体词构成所述实体词集合。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
从实体对应的百科词条中获取所述实体的多个文本词;
通过每个所述文本词和所述实体对应的实体词构建所述倒排索引。
8.根据权利要求6所述的方法,其特征在于,倒排索引为键为文本词,值为至少一个实体词的表。
9.一种文本处理装置,其特征在于,包括:
分词单元,用于对目标文本进行分词处理,得到多个目标文本词;
获取单元,用于通过每个所述目标文本词获取对应的实体词集合;
确定单元,用于在所述实体词集合中,确定每个所述目标文本词的目标实体词,其中,所述目标实体词为所述实体词集合中,与每个所述目标文本词在所述目标文本中的匹配度最高的实体词。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的文本处理方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的文本处理方法。
CN202010177782.1A 2020-03-13 2020-03-13 文本处理方法、装置、存储介质和处理器 Active CN111339778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010177782.1A CN111339778B (zh) 2020-03-13 2020-03-13 文本处理方法、装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010177782.1A CN111339778B (zh) 2020-03-13 2020-03-13 文本处理方法、装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN111339778A true CN111339778A (zh) 2020-06-26
CN111339778B CN111339778B (zh) 2023-08-25

Family

ID=71182425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010177782.1A Active CN111339778B (zh) 2020-03-13 2020-03-13 文本处理方法、装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN111339778B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN108108344A (zh) * 2016-11-24 2018-06-01 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN110569496A (zh) * 2018-06-06 2019-12-13 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN108108344A (zh) * 2016-11-24 2018-06-01 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN110569496A (zh) * 2018-06-06 2019-12-13 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112257443B (zh) * 2020-09-30 2024-04-02 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备
WO2023024975A1 (zh) * 2021-08-24 2023-03-02 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN111339778B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
US7461056B2 (en) Text mining apparatus and associated methods
CN105512291B (zh) 用于扩展数据库搜索查询的方法和系统
JP6335898B2 (ja) 製品認識に基づく情報分類
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
CN109271641B (zh) 一种文本相似度计算方法、装置及电子设备
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Bellare et al. Learning extractors from unlabeled text using relevant databases
CN108268439B (zh) 文本情感的处理方法及装置
CN113094519B (zh) 一种基于文档进行检索的方法及装置
Wang et al. DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN109117477B (zh) 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN111260428A (zh) 一种商品推荐方法和装置
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN112633000A (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN114186061A (zh) 语句意图预测方法、装置、存储介质及计算机设备
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN111914554A (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant