CN113128196A - 文本信息处理方法及其装置、存储介质 - Google Patents
文本信息处理方法及其装置、存储介质 Download PDFInfo
- Publication number
- CN113128196A CN113128196A CN202110545929.2A CN202110545929A CN113128196A CN 113128196 A CN113128196 A CN 113128196A CN 202110545929 A CN202110545929 A CN 202110545929A CN 113128196 A CN113128196 A CN 113128196A
- Authority
- CN
- China
- Prior art keywords
- name
- target
- information
- text
- subject name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 54
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000013507 mapping Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 59
- 238000004364 calculation method Methods 0.000 claims description 53
- 230000011218 segmentation Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 17
- 238000004140 cleaning Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 39
- 238000003058 natural language processing Methods 0.000 abstract description 16
- 239000013598 vector Substances 0.000 description 26
- 238000013473 artificial intelligence Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 15
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 12
- 238000007726 management method Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本信息处理方法及其装置、存储介质,先获取待处理文本并识别待处理文本中的目标主体名称,然后判断目标主体名称的名称类型与预先获取的候选实体名称的名称类型的一致性,当判断结果为一致,计算目标主体名称与候选实体名称的相似度参数,并将符合匹配条件的相似度参数对应的候选实体名称确定为目标实体名称;当判断结果为不一致,获取与目标主体名称匹配的目标备选主体名称,获取目标备选主体名称的映射属性信息,根据映射属性信息确定目标实体名称。因此,本申请实施例提供的方案能够不受名称类型是否相一致的影响,从而能够提高文本信息的匹配准确性。可见,本申请可以广泛应用于自然语言处理技术中。
Description
技术领域
本申请涉及自然语言处理技术,尤其是一种文本信息处理方法及其装置、存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的发展和具体领域的应用需求的不断增长,将人工智能技术应用到诸如支付金融领域等具体领域的研究得到了发展。其中,自然语言处理(Natural Language Processing,NLP)技术为人工智能技术的重要分支。其中,文本信息的识别及匹配是自然语言处理技术中的重要任务,例如在某些应用场景中,需要对待处理文本中描述的目标主体名称进行识别,并将该目标主体名称与某一目标实体名称进行匹配。
然而,如果待处理文本中描述的目标主体名称不规范,那么,在使用目前常用的文本处理方式将该目标主体名称与目标实体名称进行匹配时,将难以得到准确的匹配结果。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种文本信息处理方法、文本信息处理装置及计算机可读存储介质,能够提高文本信息的匹配准确性。
一方面,本申请实施例提供了一种文本信息处理方法,包括以下步骤:
获取待处理文本;
识别所述待处理文本中的目标主体名称;
获取候选实体名称;
判断所述目标主体名称的名称类型与所述候选实体名称的名称类型的一致性;
当所述目标主体名称的名称类型与所述候选实体名称的名称类型相一致,计算所述目标主体名称与所述候选实体名称的相似度参数,将符合匹配条件的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称;
当所述目标主体名称的名称类型与所述候选实体名称的名称类型不一致,获取与所述目标主体名称匹配的目标备选主体名称,获取所述目标备选主体名称的映射属性信息,根据所述映射属性信息确定所述目标主体名称对应的目标实体名称。
另一方面,本申请实施例还提供了一种文本信息处理装置,包括:
文本获取单元,用于获取待处理文本;
主体识别单元,用于识别所述待处理文本中的目标主体名称;
实体获取单元,用于获取候选实体名称;
类型判断单元,用于判断所述目标主体名称的名称类型与所述候选实体名称的名称类型的一致性;
实体确定单元,用于当所述目标主体名称的名称类型与所述候选实体名称的名称类型相一致,计算所述目标主体名称与所述候选实体名称的相似度参数,将符合匹配条件的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称;
所述实体确定单元,还用于当所述目标主体名称的名称类型与所述候选实体名称的名称类型不一致,获取与所述目标主体名称匹配的目标备选主体名称,获取所述目标备选主体名称的映射属性信息,根据所述映射属性信息确定所述目标主体名称对应的目标实体名称。
可选地,所述实体确定单元包括:
第一分词单元,用于将所述候选实体名称按照属性类型进行分词处理得到多个第一目标单词;
第二分词单元,用于将所述目标主体名称按照属性类型进行分词处理得到多个第二目标单词;
相似度计算单元,用于在多个所述第一目标单词和多个所述第二目标单词中,对属性类型相同的所述第一目标单词和所述第二目标单词进行相似度计算,得到多个相似度得分;
平均值计算单元,用于求取多个所述相似度得分的平均值得到所述相似度参数。
可选地,所述属性类型相同的所述第一目标单词和所述第二目标单词包括属于地点属性类型的所述第一目标单词和所述第二目标单词;所述相似度计算单元包括:
第一分词子单元,用于对属于地点属性类型的所述第一目标单词进行分词处理得到第一区域地点信息和第二区域地点信息,其中,所述第一区域地点信息和所述第二区域地点信息为不同行政区域级别的区域地点信息;
第二分词子单元,用于对属于地点属性类型的所述第二目标单词进行分词处理得到第三区域地点信息和第四区域地点信息,其中,所述第三区域地点信息和所述第一区域地点信息为相同行政区域级别的区域地点信息,所述第四区域地点信息和所述第二区域地点信息为相同行政区域级别的区域地点信息;
第一计算单元,用于对所述第一区域地点信息和所述第三区域地点信息进行相似度计算;
第二计算单元,用于对所述第二区域地点信息和所述第四区域地点信息进行相似度计算。
可选地,所述第一区域地点信息和所述第三区域地点信息为属于省市级别的地点信息;所述第一计算单元包括:
第一数据清洗单元,用于对所述第一区域地点信息进行数据清洗得到第一关键词信息;
第二数据清洗单元,用于对所述第三区域地点信息进行数据清洗得到第二关键词信息;
第一计算子单元,用于对所述第一关键词信息和所述第二关键词信息进行相似度计算。
可选地,所述第二分词单元包括:
第三分词子单元,用于将所述目标主体名称按照属性类型进行分词处理得到多个单词信息;
单词获取单元,用于当所述待处理文本包括有与所述目标主体名称对应的地点信息,并且所述多个单词信息中不具有属于地点属性类型的单词信息,识别所述待处理文本中的所述地点信息,根据所述地点信息和所述多个单词信息得到多个第二目标单词;
所述单词获取单元,还用于当所述待处理文本包括有与所述目标主体名称对应的行业信息,并且所述多个单词信息中不具有属于行业属性类型的单词信息,识别所述待处理文本中的所述行业信息,根据所述行业信息和所述多个单词信息得到多个第二目标单词。
可选地,所述匹配条件为相似度参数大于或等于预设相似度阈值;所述实体确定单元包括:
第一名称确定单元,用于将大于或等于预设相似度阈值的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称。
可选地,所述实体确定单元包括:
名称获取单元,用于获取备选主体名称;
名称匹配单元,用于将所述目标主体名称与所述备选主体名称进行文本匹配处理;
第二名称确定单元,用于将与所述目标主体名称匹配的备选主体名称确定为目标备选主体名称。
可选地,所述映射属性信息包括交易链;所述实体确定单元包括:
实体确定子单元,用于根据所述目标备选主体名称的交易链确定所述目标主体名称对应的目标实体名称。
可选地,当所述目标主体名称为风险主体名称,所述文本信息处理装置还包括:
执行单元,用于对所述目标实体名称进行限制使用功能或限制使用权限中的至少一种处理。
另一方面,本申请实施例还提供了一种文本信息处理装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的文本信息处理方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时用于实现如前面所述的文本信息处理方法。
另一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行前面任意实施例所述的文本信息处理方法。
通过先识别待处理文本中的目标主体名称,然后判断目标主体名称的名称类型与候选实体名称的名称类型的一致性,接着根据判断结果的不同,对应执行不同的文本匹配处理。例如,当目标主体名称的名称类型与候选实体名称的名称类型相一致时,可以先计算该目标主体名称与该候选实体名称的相似度参数,然后将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称;而当目标主体名称的名称类型与候选实体名称的名称类型不一致时,可以先获取与目标主体名称匹配的目标备选主体名称,然后获取目标备选主体名称的映射属性信息,接着根据映射属性信息确定目标主体名称对应的目标实体名称。因此,本申请实施例提供的方案中,能够不受目标主体名称是否规范,或者目标主体名称的名称类型与候选实体名称的名称类型是否相一致的影响,实现将目标主体名称匹配到对应的目标实体名称的处理,从而可以提高文本信息的匹配准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种文本信息处理方法的流程图;
图3是BERT模型的输入部分的示意图;
图4是BERT模型的结构示意图;
图5是图2中步骤500的计算相似度参数的具体方法流程图;
图6是图5中步骤530的具体方法流程图;
图7是图6中步骤533的具体方法流程图;
图8是本申请一个实施例提供的对第一关键词信息和第二关键词信息进行相似度计算的逻辑流程图;
图9是图5中步骤520的具体方法流程图;
图10是图2中步骤600的获取目标备选主体名称的具体方法流程图;
图11是本申请一个示例提供的文本信息处理方法的流程原理图;
图12是本申请实施例提供的一种文本信息处理装置的示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)主体名称:是指记载在文本中的用于表征某一具体对象的名称,例如在新闻文本中记载的公司名称全称、公司名称简称、品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等。
2)实体名称:是指在工商管理部门进行了企业备案的企业名称。
3)分词:是指将句子切分成一个一个单独的词,将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,中文分词技术的目标就是将一句话切分为一个一个单独的中文词语,从而使得机器能够识别人类的语言。
4)风险主体:是指与舆情文本中的风险相关的主体,例如在舆情文本“AA省BB互联网有限公司在CC广场存在不正当竞争”中,“AA省BB互联网有限公司”即属于涉嫌“存在不正当竞争”这一风险的主体,而“CC广场”虽为主体,但并不是风险的主体。
5)交易链:是指通过利益交换而形成的网络或关联关系,例如,A通过B购买C而向B进行了付款,那么A和B之间形成了交易链。
6)自然语言处理(Natural Language Processing,NLP):是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。
7)Word2vec、OpenAI-GPT、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、语义表示模型(Embeddings fromLanguage Models,ELMo)、N元语法元素(N-Gram)模型、双向转换编码器(BidirectionalEncoder Representation from Transformer,BERT)模型、条件随机场(ConditionalRandom Fields,CRF)模型,为自然语言技术领域常见的模型。
本申请实施例所提供的文本信息处理方法可以应用于人工智能技术以及云技术之中。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
云技术(Cloud Technology),是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站、电商平台网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
文本信息的识别及匹配是自然语言处理技术中的重要任务,例如在某些应用场景中,需要对待处理文本中描述的目标主体名称进行识别,并将该目标主体名称与某一目标实体名称进行匹配。为了达到上述目的,目前常用的文本相似性判断方法是:先基于word2vec、ELMo、openAI-GPT或者BERT模型等预训练模型,对待处理文本中描述的目标主体名称进行识别,然后再将识别出来的目标主体名称与某一目标实体名称进行匹配。具体地,先将目标主体名称输入至word2vec、ELMo、openAI-GPT或者BERT模型等预训练模型,使得目标主体名称中的词语转化为词向量,再以词向量矩阵的方法来表示目标主体名称,利用卷积神经网络及池化等方式对向量矩阵进行处理,得到目标主体名称的向量表示,接着用同样的方法对目标实体名称进行处理,得到目标实体名称的向量表示,然后,计算两个向量之间的相似度,并根据计算得到的相似度判断目标主体名称和目标实体名称之间的相似性。然而,目前常用的文本相似性判断方法,往往适用于目标主体名称描述规范,或者目标主体名称的名称类型与目标实体名称的名称类型相一致的情况,如果待处理文本中描述的目标主体名称不规范,或者目标主体名称的名称类型与目标实体名称的名称类型不一致,那么,在使用目前常用的文本相似性判断方法将目标主体名称与目标实体名称进行匹配时,将难以得到准确的匹配结果。
为了提高文本信息的匹配准确性,本申请实施例提供了一种文本信息处理方法、文本信息处理装置及计算机可读存储介质,通过先识别待处理文本中的目标主体名称,然后判断目标主体名称的名称类型与候选实体名称的名称类型的一致性,接着根据判断结果的不同,对应执行不同的文本匹配处理。例如,当目标主体名称的名称类型与候选实体名称的名称类型相一致时,可以先计算该目标主体名称与该候选实体名称的相似度参数,然后将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称;而当目标主体名称的名称类型与候选实体名称的名称类型不一致时,可以先获取与目标主体名称匹配的目标备选主体名称,然后获取目标备选主体名称的映射属性信息,接着根据映射属性信息确定目标主体名称对应的目标实体名称。所以,即使存在目标主体名称不规范的情况,或者存在目标主体名称的名称类型与候选实体名称的名称类型不一致的情况,都能够将目标主体名称匹配到对应的目标实体名称,从而能够提高文本信息的匹配准确性。
本申请实施例提供的方案主要涉及的人工智能技术是自然语言处理技术,具体通过如下实施例进行说明。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括服务器201和终端202。
服务器201可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器201至少具有判断文本之间的相似性的功能,能够判断目标主体名称的名称类型与候选实体名称的名称类型的一致性,当判断结果为一致的情况下,计算目标主体名称与候选实体名称的相似度参数,并将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称;以及能够在目标主体名称的名称类型与候选实体名称的名称类型不一致的情况下,获取与目标主体名称匹配的目标备选主体名称,获取目标备选主体名称的映射属性信息,并根据映射属性信息确定目标主体名称对应的目标实体名称。另外,存储候选实体名称和目标备选主体名称的功能,也可以由服务器201实现,或者,可以由与服务器201关联的其他服务器实现。在本申请实施例中,以服务器201具有候选实体名称和目标备选主体名称的存储功能、对文本之间的相似性的判断功能为例进行说明。
终端202可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。可选地,终端202上运行有客户端,如资讯发布平台客户端或者互联网社交平台客户端等。终端202以及服务器201可以通过有线或无线通信方式进行直接或间接的连接,本申请在此不做限制。
在一种可选的实现方式中,终端202响应于官方媒体在客户端中的舆情文本发布操作,将舆情文本在网络中发布以供其他用户阅览;服务器201监听在网络中发布的舆情文本,当服务器201监听到存在风险舆情文本时,识别该风险舆情文本中的目标主体名称,并将该目标主体名称与存储的候选实体名称进行名称类型的一致性比较,当比较结果为一致,服务器201计算目标主体名称与候选实体名称的相似度参数,并将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称;当比较结果为不一致,服务器201获取与目标主体名称匹配的目标备选主体名称,再获取目标备选主体名称的映射属性信息,并根据映射属性信息确定目标主体名称对应的目标实体名称。当服务器201确定了与目标主体名称对应的目标实体名称之后,可以自行针对该目标实体名称执行相关的功能限制处理或权限限制处理,也可以将该目标实体名称上报至管理员,由管理员决定执行相关的功能限制处理或权限限制处理。
图2是本申请实施例提供的一种文本信息处理方法的流程图。在本申请实施例中,以服务器为执行主体为例进行说明,参见图2,该实施例包括以下步骤100至步骤600。
步骤100:获取待处理文本。
本步骤中,待处理文本可以为官方媒体发布的舆情文本,例如对某一企业进行赞扬的正面舆情文本或者对某一企业进行批评的负面舆情文本(如风险舆情文本)。服务器可以监听并获取发布在网络中的舆情文本,并将该舆情文本作为待处理文本,以便于后续步骤中可以针对该待处理文本进行相关的处理操作。
步骤200:识别待处理文本中的目标主体名称。
本步骤中,以待处理文本为风险舆情文本、目标主体名称为风险主体名称为例进行说明。针对待处理文本中出现有多个主体名称的情况,并不是全部的主体名称都是后续步骤中需要进行匹配处理的目标主体名称,如果不对目标主体名称进行识别,将会导致后续的匹配处理步骤出现误判的问题。假设待处理文本为“AA公司常常在BB书店集合,组织传销活动”,则在该待处理文本中,涉及“AA公司”和“BB书店”这两个主体名称,其中,“AA公司”属于风险主体,“BB书店”属于非风险主体,如果不对待处理文本中的目标主体名称进行识别,那么在后续步骤中获取到的候选实体名称包括有“BB书店”的情况下,在后续的匹配处理步骤中,将会认为待处理文本中的“BB书店”与候选实体名称中的“BB书店”相似度过高,但实际上,“BB书店”并非属于需要进行匹配处理的目标主体名称(即并非是风险主体),因此存在误判的问题。为了避免出现误判的问题,本步骤中,需要先识别待处理文本中的目标主体名称,例如可以利用word2vec、ELMo、openAI-GPT或者BERT模型等预训练模型,对待处理文本中描述的目标主体名称进行识别,以便于后续步骤中可以对识别出来的目标主体名称进行相关的匹配处理。
需要说明的是,在对待处理文本中的目标主体名称进行识别之前,首先需要对待处理文本中的主体进行类别标注,其中,主体类别包括风险主体、非风险主体、风险词、时态词等。例如,假设待处理文本为“公安部依法查处非法集资,AABC商城已被下架”,那么,“AABC商城”应被标注为风险主体,而“公安部”则被标注为非风险主体,“非法集资”被标注为风险词,“查处”被标注为时态词。在完成对待处理文本中的主体的类别标注后,即可利用NLP算法对待处理文本中的目标主体名称进行识别。
下面以预训练的BERT+CRF模型为例,对识别待处理文本中的目标主体名称的处理进行说明。
需要说明的是,BERT+CRF模型为BERT模型结合CRF模型而得到的一个整体模型,虽然BERT+CRF模型为BERT模型结合CRF模型而得到,但是在训练过程中,BERT模型和CRF模型是作为一个整体进行训练的。
对于BERT模型,BERT模型的模型结构等价为Transformer的编码器,通过BERT模型学习得到的词的表示,会随着语境的不同而不同。BERT模型在预训练时需要联合完成两项任务:①完形填空,即预测文本中缺失的词;②判断文本中前后两句是否为上下文。
如图3和图4所示,图3为BERT模型的输入部分,图4为BERT模型的结构示意图。在图3所示的输入部分中,包括有3个子部分:词嵌入向量(Token Embedding)、段嵌入向量(Segment Embedding)和位置嵌入向量(Position Embedding),其中,Token Embedding表示词的语义向量,Segment Embedding用于标记词属于前后哪一个句子,PositionEmbedding则利用数值标记词在句子中的位置的相对关系。如图4所示,BERT模型的主要结构由多个多头自注意力机制组成。其中,自注意力机制是指:对于每个词,利用语句中的其他词来表达这个词,以获得这个词的增强语义向量,其中其他词对这个词的表达权重互不相同。多头自注意力机制是指利用多个自注意力机制从不同角度捕捉不同的抽象层面上的关系。用公式可表示为:
其中,Q、K、V均为上一层输出的高维度表达,W0、和都是需要训练的参数,在自注意力机制中,Q、K用于学习得到语句中其他词对当前词的重要性表示,将Q、K与V进行点乘,即可得到语句中其他词对当前词的表示。
BERT模型的低层结构可以学习得到词汇层次的表示,高层结构可以学习得到语义层次的表示。经过预训练后的词向量可以克服多义词等复杂情况,即同一个词在不同语境中的词向量也是不同的。
对于CRF模型,根据先验知识,CRF模型在主体名称识别任务中,每一项的输出都会对后一项的输出产生影响,例如在词性识别中,当前一项输出为动词,则后一项就极不可能也为动词。CRF模型通过标签转移约束,使得每一项输出都会取决于该项的输入和前一项的输出,即每一项输出可由公式f(x,i,yi,yi-1)得到,其中,x为输入,i为当前时刻,yi为当前时刻前一层的输出,yi-1为前一时刻前一层的输出。CRF模型可通过如下公式表示:
Zt=Zt-1G⊙H(yt|x)
其中,Zt为CRF模型在t时刻的输出,Zt-1为CRF模型在t-1时刻的输出,G为转移矩阵,H(yt|x)为t时刻前一层的输出。其中,CRF模型可以通过维特比(Viterbi)算法习得最优路径。
通过联合BERT模型和CRF模型,使得BERT模型负责学习输入句子中每个词与这个词对应的实体标签的规律,CRF模型负责学习相邻实体标签之间的转移规则,从而可以很好地将待处理文本中的目标主体名称识别出来。
需要说明的是,上述针对BERT模型和CRF模型的描述,仅为对BERT模型和CRF模型的主要模型结构或模型原理的描述,主要是为了方便理解利用BERT模型结合CRF模型实现对待处理文本中的目标主体名称进行识别的原理,并不代表BERT模型和CRF模型的全部内容。由于BERT模型和CRF模型是自然语言技术领域常见的模型,因此,关于BERT模型和CRF模型的详细原理及其他内容描述,可参考相关技术中关于BERT模型和CRF模型的相关描述,此处不再赘述。
步骤300:获取候选实体名称。
本步骤中,候选实体名称可以为服务器预存的实体名称,也可以为预存在独立设置的存储器中的实体名称,本实施例对此并不作具体限定。当在步骤100中获取到了待处理文本之后,服务器可以在服务器预存的实体名称中或者在存储器预存的实体名称中,获取候选实体名称,以便于后续步骤中可以对该候选实体名称和待处理文本中的目标主体名称进行匹配处理。
步骤400:判断目标主体名称的名称类型与候选实体名称的名称类型的一致性。
需要说明的是,名称类型可以有不同的分类,例如可以有长文本类型、短文本类型、公司名称类型、品牌名称类型等,本实施例对此并不作具体限定。
当在步骤200中识别出了待处理文本中的目标主体名称,并且在步骤300中获取到了候选实体名称之后,服务器可以对目标主体名称和候选实体名称进行匹配处理,但是,由于待处理文本中描述的目标主体名称可能存在不规范,或者目标主体名称的名称类型与候选实体名称的名称类型可能不一致的情况,如果直接对目标主体名称和候选实体名称进行匹配处理,将可能会出现匹配不准确的问题。为了提高目标主体名称和候选实体名称的匹配准确性,本步骤中,先判断目标主体名称的名称类型与候选实体名称的名称类型的一致性,例如,判断目标主体名称的名称类型与候选实体名称的名称类型是否为同一个名称类型分类,以便于后续步骤中能够根据判断结果的不同,对应执行不同的文本匹配处理,从而提高文本信息的匹配准确性。
步骤500:当目标主体名称的名称类型与候选实体名称的名称类型相一致,计算目标主体名称与候选实体名称的相似度参数,将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称。
本步骤中,在目标主体名称的名称类型与候选实体名称的名称类型相一致的情况下,可以通过计算相似度的方式确定与目标主体名称匹配的目标实体名称。例如,可以先计算目标主体名称与候选实体名称的相似度参数,然后判断该相似度参数是否符合匹配条件,接着将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称。所以,当目标主体名称的名称类型与候选实体名称的名称类型相一致时,通过计算目标主体名称和候选实体名称的相似度,能够较为准确的确定与目标主体名称匹配的目标实体名称,从而可以提高文本信息的匹配准确性。
需要说明的是,匹配条件可以为相似度参数大于或等于某一预设的相似度阈值,也可以为相似度参数落入某一预设的相似度范围值,可以根据实际应用情况进行适当的选择,本实施例对此并不作具体限定。
步骤600:当目标主体名称的名称类型与候选实体名称的名称类型不一致,获取与目标主体名称匹配的目标备选主体名称,获取目标备选主体名称的映射属性信息,根据映射属性信息确定目标主体名称对应的目标实体名称。
本步骤中,当目标主体名称的名称类型与候选实体名称的名称类型不一致,则说明目标主体名称与候选实体名称存在较大的差异性,通过计算相似度的方式将无法确定与目标主体名称匹配的目标实体名称,此时,可以先获取与目标主体名称匹配的目标备选主体名称,例如,假设目标主体名称属于品牌名称,则服务器可以在预置的品牌名称库中获取目标备选主体名称,然后获取该目标备选主体名称的映射属性信息,接着根据该映射属性信息确定目标主体名称对应的目标实体名称。所以,当目标主体名称的名称类型与候选实体名称的名称类型不一致时,通过利用与目标主体名称匹配的目标备选主体名称的映射属性信息,能够较为准确的确定与目标主体名称匹配的目标实体名称,从而可以提高文本信息的匹配准确性。
需要说明的是,目标备选主体名称为与候选实体名称不同的文本信息,目标备选主体名称可以为品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等,本实施例对此并不作具体限定。服务器或者独立设置的存储器中可以设置有两个数据库,其中一个数据库存储备选主体名称,另一个数据库存储实体名称,例如,假设其中一个数据库为存储企业名称的企业名称库,另一个数据库为存储品牌名称的品牌名称库,那么,当服务器获取候选实体名称时,可以从企业名称库中获取一个或多个企业名称,并将这些企业名称作为候选实体名称,当服务器获取目标备选主体名称时,可以从品牌名称库中获取一个或多个品牌名称,并将这些品牌名称作为目标备选主体名称。
需要说明的是,备选主体名称的存储和实体名称的存储,均可以采用区块链(Blockchain)技术实现。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
需要说明的是,目标备选主体名称可以具有映射属性信息,映射属性信息用于表征目标备选主体名称与目标实体名称之间的关联关系,例如,映射属性信息可以为注册厂商信息、子母公司关系信息或者交易链等信息,因此,通过目标备选主体名称的映射属性信息,能够准确的确定目标备选主体名称对应的目标实体名称。例如,假设目标备选主体名称为应用程序名称,该应用程序名称对应的应用程序中,会包括有对应的注册厂商信息,因此,根据这个注册厂商信息,可以准确的确定与该应用程序名称对应的厂商名称(即企业名称)。
本实施例中,通过采用包括有前面步骤100至步骤600的文本信息处理方法,先识别待处理文本中的目标主体名称,然后判断目标主体名称的名称类型与候选实体名称的名称类型的一致性,接着根据判断结果的不同,对应执行不同的文本匹配处理。例如,当目标主体名称的名称类型与候选实体名称的名称类型相一致时,可以先计算该目标主体名称与该候选实体名称的相似度参数,然后将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称;而当目标主体名称的名称类型与候选实体名称的名称类型不一致时,可以先获取与目标主体名称匹配的目标备选主体名称,然后获取目标备选主体名称的映射属性信息,接着根据映射属性信息确定目标主体名称对应的目标实体名称。因此,本实施例能够不受目标主体名称是否规范,或者目标主体名称的名称类型与候选实体名称的名称类型是否相一致的影响,实现将目标主体名称匹配到对应的目标实体名称的处理,从而可以提高文本信息的匹配准确性。
参照图5所示,本申请的一个实施例,对步骤500中的计算目标主体名称与候选实体名称的相似度参数进行进一步的说明,步骤500中的计算目标主体名称与候选实体名称的相似度参数,可以包括但不限于有以下步骤:
步骤510:将候选实体名称按照属性类型进行分词处理得到多个第一目标单词;
步骤520:将目标主体名称按照属性类型进行分词处理得到多个第二目标单词;
步骤530:在多个第一目标单词和多个第二目标单词中,对属性类型相同的第一目标单词和第二目标单词进行相似度计算,得到多个相似度得分;
步骤540:求取多个相似度得分的平均值得到相似度参数。
当采用常用的文本相似度计算方法计算目标主体名称和候选实体名称的相似度,如果目标主体名称和候选实体名称相似但并不属于同一个企业,那么容易出现结果错误的情况。例如,假设目标主体名称为“ABCD公司”,而候选实体名称为“BCD公司”,那么,如果采用词向量余弦相似度或者海明距离等常用的文本相似度计算方法对目标主体名称和候选实体名称进行相似度的计算,则会得到目标主体名称和候选实体名称相似的结果,然而,虽然“ABCD公司”和“BCD公司”仅仅相差一个关键词,但这表明了“ABCD公司”和“BCD公司”并非为同一个企业,因此,得到的目标主体名称和候选实体名称相似的结果并不准确。
为了解决上述结果不准确的问题,本实施例中,先通过步骤510和步骤520,将候选实体名称和目标主体名称按照属性类型进行分词处理,得到候选实体名称的多个第一目标单词和目标主体名称的多个第二目标单词,然后在步骤530中,对属性类型相同的第一目标单词和第二目标单词进行相似度计算,得到多个相似度得分,接着在步骤540中,求取多个相似度得分的平均值得到相似度参数。例如,假设目标主体名称为“BC市DE互联网有限公司”,候选实体名称为“AB省DE互联网有限公司”,那么,在本实施例中,先将“AB省DE互联网有限公司”和“BC市DE互联网有限公司”按照属性类型进行分词处理,得到“AB省DE互联网有限公司”的多个第一目标单词和“BC市DE互联网有限公司”的多个第二目标单词,其中,属性类型包括地点属性类型、关键词属性类型、行业属性类型和公司后缀属性类型,即是说,“BC市DE互联网有限公司”会被分词得到地点属性类型“BC市”、关键词属性类型“DE”、行业属性类型“互联网”和公司后缀属性类型“有限公司”,而“AB省DE互联网有限公司”则会被分词得到地点属性类型“AB省”、关键词属性类型“DE”、行业属性类型“互联网”和公司后缀属性类型“有限公司”;接着,对属性类型相同的第一目标单词和第二目标单词进行相似度计算,得到多个相似度得分,即是说,分别计算“BC市”和“AB省”的相似度得分、“DE”和“DE”的相似度得分、“互联网”和“互联网”的相似度得分,以及“有限公司”和“有限公司”的相似度得分;然后,求取这四个相似度得分的平均值,得到相似度参数。与相关技术相比,本实施例是先对属性类型相同的第一目标单词和第二目标单词进行相似度计算以得到多个相似度得分,然后求取多个相似度得分的平均值以得到相似度参数,充分考虑了目标主体名称和候选实体名称中各个属性类型的单词对相似度参数的影响,因此可以降低将关键词存在些微差别的目标主体名称和候选实体名称判断为相似的概率,从而提高了文本信息的匹配准确性。
需要说明的是,步骤530中对属性类型相同的第一目标单词和第二目标单词进行相似度计算,可以根据属性类型的不同而采用不同的相似度计算方式。例如,当属性类型为地点属性类型时,可以根据第一目标单词和第二目标单词的匹配度得到相似度得分,例如,先将第一目标单词和第二目标单词分别拆分为省地点信息和市地点信息,然后对第一目标单词中的省地点信息和第二目标单词中的省地点信息进行第一次比较,如果第一次比较的结果为不相同,则第一目标单词和第二目标单词的相似度得分为0,如果第一次比较的结果为相同,则对第一目标单词中的市地点信息和第二目标单词中的市地点信息进行第二次比较,如果第二次比较的结果为不相同,则第一目标单词和第二目标单词的相似度得分为0,如果第二次比较的结果为相同,则第一目标单词和第二目标单词的相似度得分为1;当属性类型为关键词属性类型时,可以根据第一目标单词和第二目标单词的一致性得到相似度得分,例如,如果属于关键词属性类型的第一目标单词和第二目标单词完全一致,该项相似度得分为1,如果不完全一致,则该项相似度得分为0;当属性类型为行业属性类型时,可以将第一目标单词和第二目标单词的词向量余弦相似度作为相似度得分。其中,由于公司后缀属性类型并不提供任何实质性的区别信息,因此可以不计算这一项的相似度得分。另外,如果候选实体名称或者目标主体名称还包括有分公司信息时,则可以根据实际的需求对这一项进行相似度得分的计算,本实施例对此并不作具体限定,例如,当目标主体名称不包括分公司信息,而候选实体名称包括分公司信息时,则可以将这一项相似度得分确定为0.5。
值得注意的是,步骤510中的将候选实体名称按照属性类型进行分词处理,以及步骤520中的将目标主体名称按照属性类型进行分词处理,均可以采用BERT模型结合CRF模型来实现,以便于能够按照属性类型进行准确的分词处理。
参照图6所示,本申请的一个实施例,对步骤530中的对属性类型相同的第一目标单词和第二目标单词进行相似度计算进行进一步的说明,在属性类型相同的第一目标单词和第二目标单词包括属于地点属性类型的第一目标单词和第二目标单词的情况下,步骤530中的对属性类型相同的第一目标单词和第二目标单词进行相似度计算,可以包括但不限于有以下步骤:
步骤531:对属于地点属性类型的第一目标单词进行分词处理得到第一区域地点信息和第二区域地点信息;
步骤532:对属于地点属性类型的第二目标单词进行分词处理得到第三区域地点信息和第四区域地点信息;
步骤533:对第一区域地点信息和第三区域地点信息进行相似度计算;
步骤534:对第二区域地点信息和第四区域地点信息进行相似度计算。
需要说明的是,第一区域地点信息和第二区域地点信息为不同行政区域级别的区域地点信息,第三区域地点信息和第一区域地点信息为相同行政区域级别的区域地点信息,第四区域地点信息和第二区域地点信息为相同行政区域级别的区域地点信息。其中,第一区域地点信息和第三区域地点信息可以为省市地点信息,第二区域地点信息和第四区域地点信息可以为区、镇、村或街道等地点信息。
当目标主体名称和候选实体名称均为公司名称时,由于某些公司名称可能会包括有省市地点信息和区、镇、村或街道等地点信息,而有些公司名称可能只有省市地点信息而并没有区、镇、村或街道等地点信息,这一区别表明了两个公司名称并非为同一个企业,因此,为了提高目标主体名称和候选实体名称之间的匹配准确性,可以先对属于地点属性类型的第一目标单词和第二目标单词进行分词处理,例如通过地名词典对属于地点属性类型的第一目标单词和第二目标单词进行拆解,得到第一目标单词的第一区域地点信息和第二区域地点信息以及第二目标单词的第三区域地点信息和第四区域地点信息,接着计算第一区域地点信息和第三区域地点信息的相似度得分,以及计算第二区域地点信息和第四区域地点信息的相似度得分,然后根据这两个相似度得分得到属于地点属性类型的第一目标单词和第二目标单词的相似度得分。例如,假设计算得到的第一区域地点信息和第三区域地点信息的相似度得分为1,计算得到的第二区域地点信息和第四区域地点信息的相似度得分也为1,则说明第一区域地点信息和第三区域地点信息相匹配,并且第二区域地点信息和第四区域地点信息也相匹配,此时,属于地点属性类型的第一目标单词和第二目标单词的相似度得分为2;假设计算得到的第一区域地点信息和第三区域地点信息的相似度得分为1,计算得到的第二区域地点信息和第四区域地点信息的相似度得分为0,则说明第一区域地点信息和第三区域地点信息相匹配,但第二区域地点信息和第四区域地点信息不匹配,此时,属于地点属性类型的第一目标单词和第二目标单词的相似度得分为0;假设计算得到的第一区域地点信息和第三区域地点信息的相似度得分为0,计算得到的第二区域地点信息和第四区域地点信息的相似度得分为1,则说明第一区域地点信息和第三区域地点信息不匹配,但第二区域地点信息和第四区域地点信息相匹配,此时,属于地点属性类型的第一目标单词和第二目标单词的相似度得分为0;假设计算得到的第一区域地点信息和第三区域地点信息的相似度得分为0,计算得到的第二区域地点信息和第四区域地点信息的相似度得分也为0,则说明第一区域地点信息和第三区域地点信息不匹配,并且第二区域地点信息和第四区域地点信息也不匹配,此时,属于地点属性类型的第一目标单词和第二目标单词的相似度得分为0。
参照图7所示,本申请的一个实施例,对步骤533进行进一步的说明,在第一区域地点信息和第三区域地点信息为属于省市级别的地点信息的情况下,步骤533可以包括但不限于有以下步骤:
步骤5331:对第一区域地点信息进行数据清洗得到第一关键词信息;
步骤5332:对第三区域地点信息进行数据清洗得到第二关键词信息;
步骤5333:对第一关键词信息和第二关键词信息进行相似度计算。
本实施例中,在第一区域地点信息和第三区域地点信息为属于省市级别的地点信息的情况下,第一区域地点信息和第三区域地点信息可能包括有“省”、“市”、“自治区”等对相似度计算不起作用的地点后缀信息,或者可能包括有与具体省市地区唯一对应的少数民族信息,这些信息在进行相似度计算的过程中并不会起到实质性的帮助作用,甚至可能会增加相似度计算的计算量,从而影响相似度计算的计算效率。为了避免这些问题,可以先对第一区域地点信息和第三区域地点信息进行数据清洗,得到用于表征第一区域地点信息的更为简洁的第一关键词信息以及用于表征第三区域地点信息的更为简洁的第二关键词信息,接着,对第一关键词信息和第二关键词信息进行相似度计算,即可得到第一区域地点信息和第三区域地点信息的相似度分数。由于采用更为简洁的第一关键词信息和第二关键词信息进行相似度分数的计算,因此可以降低相似度计算的计算量,从而可以提高相似度计算的计算效率。
一个可选的实施方式中,对第一区域地点信息和第三区域地点信息进行数据清洗,具体可以是:首先识别第一区域地点信息和第三区域地点信息中的“省”、“市”、“自治区”等地点后缀信息,然后在第一区域地点信息和第三区域地点信息中,将“省”、“市”、“自治区”等地点后缀信息删除,从而实现对第一区域地点信息和第三区域地点信息的数据清洗。
需要说明的是,由于第一区域地点信息和第三区域地点信息可以为省市地点信息,因此第一关键词信息和第二关键词信息同样可以为省市地点信息,但是,由于第一关键词信息和第二关键词信息所包括的具体的省市地点信息可能不相同,因此,步骤5333中对第一关键词信息和第二关键词信息进行相似度计算的具体实施方式,可以如图8所示。图8是对第一关键词信息和第二关键词信息进行相似度计算的逻辑流程图。根据图8所示,对第一关键词信息和第二关键词信息进行相似度计算,具体可以包括:
(1)判断第一关键词信息和第二关键词信息中的省地点信息是否匹配。
在第一关键词信息和第二关键词信息中的任意一个,如果只包括有市地点信息,则可以先根据该市地点信息为该关键词信息补上省地点信息,例如,假设第一关键词信息只包括有市地点信息“深圳”,那么可以为第一关键词信息补上省地点信息“广东”。在为关键词信息补上省地点信息之后,再判断第一关键词信息和第二关键词信息中的省地点信息是否匹配。如果第一关键词信息和第二关键词信息均没有省地点信息,那么可以确定没有省市地点信息的相似度得分;如果第一关键词信息和第二关键词信息中只有一个具有省地点信息,那么可以确定省市地点信息的相似度得分为0;如果第一关键词信息和第二关键词信息都具有省地点信息,但两者的省地点信息并不匹配,那么可以确定目标主体名称和候选实体名称的整体相似度得分为0;如果第一关键词信息和第二关键词信息都具有省地点信息,并且两者的省地点信息相匹配,则可以进行第一关键词信息和第二关键词信息中的市地点信息的匹配判断。
(2)判断第一关键词信息和第二关键词信息中的市地点信息是否匹配。
当第一关键词信息和第二关键词信息均具有省地点信息,并且两者的省地点信息相匹配,那么可以进行第一关键词信息和第二关键词信息中的市地点信息的匹配判断。如果第一关键词信息和第二关键词信息均没有市地点信息,那么可以确定省市地点信息的相似度得分为1;如果第一关键词信息和第二关键词信息中只有一个具有市地点信息,那么可以确定省市地点信息的相似度得分为0.5;如果第一关键词信息和第二关键词信息都具有省地点信息,但两者的市地点信息并不匹配,那么可以确定目标主体名称和候选实体名称的整体相似度得分为0;如果第一关键词信息和第二关键词信息都具有市地点信息,并且两者的市地点信息相匹配,那么可以确定省市地点信息的相似度得分为1。
参照图9所示,本申请的一个实施例,对步骤520进行进一步的说明,步骤520可以包括但不限于有步骤521、步骤522和步骤523。
步骤521:将目标主体名称按照属性类型进行分词处理得到多个单词信息。
本步骤中,在目标主体名称不包括有属于地点属性类型的单词信息或者属于行业属性类型的单词信息的情况下,可以先将目标主体名称按照属性类型进行分词处理得到多个单词信息,然后在后续步骤中结合待处理文本中的地点信息或者行业信息等,得到多个第二目标单词,以便于可以在进一步的步骤中对属性类型相同的第一目标单词和第二目标单词进行相似度计算以得到多个相似度得分,并通过求取多个相似度得分的平均值以得到相似度参数,充分考虑目标主体名称和候选实体名称中各个属性类型的单词对相似度参数的影响,从而可以降低将关键词存在些微差别的目标主体名称和候选实体名称判断为相似的概率,提高文本信息的匹配准确性。
步骤522:当待处理文本包括有与目标主体名称对应的地点信息,并且多个单词信息中不具有属于地点属性类型的单词信息,识别待处理文本中的地点信息,根据地点信息和多个单词信息得到多个第二目标单词。
本步骤中,当执行步骤521以将目标主体名称按照属性类型进行分词处理得到多个单词信息之后,在待处理文本包括有与目标主体名称对应的地点信息的情况下,如果这些单词信息中不具有属于地点属性类型的单词信息,则说明该目标主体名称在待处理文本中的描述可能并不规范,缺少了关于地点信息的内容,为了完善目标主体名称所包含的内容,以及为了方便执行后续的将属性类型相同的第一目标单词和第二目标单词进行相似度计算的步骤,本步骤中,先识别待处理文本中的地点信息,然后将该地点信息和这些单词信息形成单词集合,该单词集合中包括有多个单词,该单词集合中的单词即为第二目标单词。
步骤523:当待处理文本包括有与目标主体名称对应的行业信息,并且多个单词信息中不具有属于行业属性类型的单词信息,识别待处理文本中的行业信息,根据行业信息和多个单词信息得到多个第二目标单词。
本步骤中,当执行步骤521以将目标主体名称按照属性类型进行分词处理得到多个单词信息之后,在待处理文本包括有与目标主体名称对应的行业信息的情况下,如果这些单词信息中不具有属于行业属性类型的单词信息,则说明该目标主体名称在待处理文本中的描述可能并不规范,缺少了关于行业信息的内容,为了完善目标主体名称所包含的内容,以及为了方便执行后续的将属性类型相同的第一目标单词和第二目标单词进行相似度计算的步骤,本步骤中,先识别待处理文本中的行业信息,然后将该行业信息和这些单词信息形成单词集合,该单词集合中包括有多个单词,该单词集合中的单词即为第二目标单词。
需要说明的是,如果待处理文本中包括有与目标主体名称对应的地点信息以及行业信息,但这些单词信息中不具有属于地点属性类型的单词信息以及属于行业属性类型的单词信息,那么,说明该目标主体名称在待处理文本中的描述可能并不规范,缺少了关于地点信息和行业信息的内容,为了完善目标主体名称所包含的内容,以及为了方便执行后续的将属性类型相同的第一目标单词和第二目标单词进行相似度计算的步骤,可以先识别待处理文本中的地点信息和行业信息,然后将该地点信息、该行业信息和这些单词信息形成集合,得到多个第二目标单词。
另外,本申请的一个实施例,对步骤500中的将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称进行进一步的说明,在匹配条件为相似度参数大于或等于预设相似度阈值的情况下,步骤500中的将符合匹配条件的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称,可以包括但不限于有以下步骤:
将大于或等于预设相似度阈值的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称。
本步骤中,当相似度参数大于或等于预设相似度阈值时,则说明目标主体名称与候选实体名称的相似度很高,目标主体名称有很大的概率就是该候选实体名称,因此,可以将大于或等于预设相似度阈值的相似度参数对应的候选实体名称确定为目标主体名称对应的目标实体名称。
需要说明的是,预设相似度阈值可以根据实际的应用情况进行适当的选择,例如预设相似度阈值可以设置为0.5,本实施例对此并不作具体限定。
参照图10所示,本申请的一个实施例,对步骤600中的获取与目标主体名称匹配的目标备选主体名称进行进一步的说明,步骤600中的获取与目标主体名称匹配的目标备选主体名称,可以包括但不限于有步骤610、步骤620和步骤630。
步骤610:获取备选主体名称。
当目标主体名称的名称类型与候选实体名称的名称类型不一致,说明目标主体名称与候选实体名称存在较大的差异性,例如,目标主体名称可能为品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等与候选实体名称不相同的名称,即是说,通过计算相似度的方式将无法确定与目标主体名称匹配的目标实体名称,因此,本步骤中,可以从存储备选主体名称的数据库中获取一个或多个备选主体名称,以便于后续步骤可以根据备选主体名称的映射属性信息确定目标主体名称对应的目标实体名称。
需要说明的是,备选主体名称可以为品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等,本实施例对此并不作具体限定。
步骤620:将目标主体名称与备选主体名称进行文本匹配处理。
本步骤中,由于在步骤610中获取到了一个或多个备选主体名称,因此可以将目标主体名称与这些备选主体名称进行文本匹配处理,以便于从这些备选主体名称中确定与目标主体名称匹配目标备选主体名称。
需要说明的是,目标主体名称与备选主体名称进行的文本匹配处理,其中的一种可行方式为:先将目标主体名称和备选主体名称进行向量化处理,例如,利用word2vec、ELMo、openAI-GPT或者BERT模型等预训练模型将目标主体名称和备选主体名称转换成向量表示,得到目标主体名称词向量和备选主体名称词向量,然后计算这两个词向量之间的余弦相似度,接着比较该余弦相似度与预设阈值的大小,如果该余弦相似度大于或等于预设阈值,则说明目标主体名称和备选主体名称相匹配,如果该余弦相似度小于预设阈值,则说明目标主体名称和备选主体名称不匹配。需要说明的是,余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量这两个向量间的差异大小的度量。余弦相似度越接近1,表明两个向量的夹角越接近0度,即两个向量越相似。例如本步骤中,假设预设阈值为0.5,那么,如果该余弦相似度大于或等于0.5,则说明目标主体名称和备选主体名称相匹配,如果该余弦相似度小于0.5,则说明目标主体名称和备选主体名称不匹配。
步骤630:将与目标主体名称匹配的备选主体名称确定为目标备选主体名称。
本步骤中,由于步骤620中将目标主体名称和备选主体名称进行了文本匹配处理,因此可以在这些备选主体名称中,将与目标主体名称匹配的备选主体名称确定为目标备选主体名称,以便于后续步骤可以根据该目标备选主体名称的映射属性信息确定目标主体名称对应的目标实体名称。
另外,本申请的一个实施例,对步骤600中的根据映射属性信息确定目标主体名称对应的目标实体名称进行进一步的说明,在映射属性信息包括交易链的情况下,步骤600中的根据映射属性信息确定目标主体名称对应的目标实体名称,可以包括但不限于有以下步骤:
根据目标备选主体名称的交易链确定目标主体名称对应的目标实体名称。
本步骤中,由于目标备选主体名称可以为品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等,并且目标备选主体名称的映射属性信息用于表征目标备选主体名称与目标实体名称之间的关联关系,因此,当映射属性信息包括交易链时,可以根据目标备选主体名称的交易链确定目标主体名称对应的目标实体名称。例如,假设目标备选主体名称是专属于一个电商公司的应用程序的名称,当用户通过该应用程序购买该电商公司的产品或者服务时,用户会在该应用程序中直接向该电商公司支付款项,此时,用户、该应用程序和该电商公司形成了交易链。而当需要根据该应用程序确定该应用程序所属的电商公司时,则可以根据该应用程序名称的交易链确定该电商公司。由于交易链能够准确表征目标备选主体名称与目标实体名称之间的关联关系,因此,根据目标备选主体名称的交易链能够准确确定目标主体名称对应的目标实体名称,从而可以提高文本信息的匹配准确性。
另外,本申请的一个实施例,对文本信息处理方法进行进一步的说明,在目标主体名称为风险主体名称的情况下,该文本信息处理方法还可以包括但不限于有以下步骤:
对目标实体名称进行限制使用功能或限制使用权限中的至少一种处理。
本步骤中,当目标主体名称为风险主体名称时,则说明在当前舆情文本中,该目标主体名称所对应的目标实体名称(即企业实体)涉嫌存在违规问题,如果该目标主体名称所对应的企业实体属于某一电商平台的入驻商户,则该入驻商户存在侵犯用户利益的嫌疑,并且可能会扰乱该电商平台的秩序。为了避免该入驻商户可能导致的进一步影响,该电商平台可以采用本实施例提供的文本信息处理方法,对目标实体名称(即该入驻商户)进行限制使用功能或限制使用权限中的至少一种处理,例如,该电商平台可以限制该入驻商户在该电商平台中的产品上架、产品宣传等使用功能,或者限制该入驻商户在该电商平台中的交易权限,或者同时限制该入驻商户在该电商平台中的交易权限以及产品上架、产品宣传等使用功能。
为了更加清楚的说明本申请实施例提供的文本信息处理方法的处理流程,下面以具体的示例进行说明。
随着互联网的快速发展,个人用户或者媒体等在互联网上发布的舆情呈现爆炸式的增长。基于互联网的开放性、快捷性、多元性等特点,越来越多的个人用户在互联网上发表自己对生活中某些热点问题或焦点问题的观点言论,而各个媒体也倾向于通过互联网发布各种新闻消息。当某一新闻消息为风险舆情,并且该风险舆情中的风险主体为某一电商平台的入驻商户时,为了避免该入驻商户对该电商平台带来的风险影响,该电商平台可以根据相关规定对该入驻商户进行一定限制处理。在该电商平台对该入驻商户进行限制处理之前,该电商平台首先需要从风险舆情文本中识别出该入驻商户,但是,由于风险舆情文本中对风险主体名称的描述可能存在不规范的问题,或者,风险舆情文本中描述的风险主体名称是该入驻商户的品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等,这就导致了风险主体名称与入驻商户的名称存在很大的差别,如果采用常用的文本相似性判断方法,将难以把风险舆情文本中的风险主体名称匹配到准确的入驻商户。
为了解决上述问题,电商平台可以采用如图11所示的文本信息处理方法,实现将风险舆情文本中的风险主体名称匹配到准确的入驻商户的处理。图11是本申请一个示例提供的文本信息处理方法的流程原理图,在图11所示的文本信息处理方法中,先利用预训练的BERT+CRF模型将风险舆情文本中的风险主体名称识别出来,然后判断风险主体名称的名称类型与预先获取的候选实体名称的名称类型是否一致,接着根据判断结果对应执行不同的文本匹配处理。例如,假设预先获取的候选实体名称为公司名称,那么,当风险主体名称为品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等,判断结果会是不一致,此时,先获取与风险主体名称匹配的目标备选主体名称(例如品牌名称、微信公众号的名称、微信小程序的名称或者应用程序名称等),然后获取目标备选主体名称的交易链,接着根据交易链确定风险主体名称对应的入驻商户的名称。假设预先获取的候选实体名称为公司名称,那么,当风险主体名称同样为公司名称时,判断结果会是相一致,此时,先计算风险主体名称与候选实体名称的相似度参数,接着将符合匹配条件的相似度参数对应的候选实体名称确定为风险主体名称对应的入驻商户的名称。
下面以具体的示例,进一步说明在风险主体名称的名称类型与候选实体名称的名称类型相一致的情况下,将风险主体名称匹配到准确的入驻商户的处理过程。
假设风险主体名称为“长沙市ABCD互联网公司”,候选实体名称为“湖南ABCD网络科技有限公司”,那么,可以执行如下的文本信息匹配过程:
首先,通过预训练的BERT+CRF模型将每个公司名称按照属性类型拆解为5个部分:地点属性类型单词、关键词属性类型单词、行业属性类型单词、公司后缀属性类型单词和分公司属性类型单词。需要说明的是,如果公司名称中不具有某一属性类型单词,则拆解后的该属性类型单词的内容为空。因此,“长沙市ABCD互联网公司”可以被拆解为地点属性类型单词“长沙市”、关键词属性类型单词“ABCD”、行业属性类型单词“互联网”和公司后缀属性类型单词“公司”,而“湖南ABCD网络科技有限公司”则可以被拆解为地点属性类型单词“湖南”、关键词属性类型单词“ABCD”、行业属性类型单词“网络科技”和公司后缀属性类型单词“有限公司”。
接着,通过地名词典将地点属性类型单词拆解为两部分:省市地点信息和其他地点信息(如区、镇等)。由于公司后缀属性类型单词并不提供任何信息,因此可以不计算这一部分的相似度得分;对于分公司属性类型单词的相似度得分的计算,可以根据实际应用需求而灵活变化,并不做具体限定;对于省市地点信息、其他地点信息、关键词属性类型单词和行业属性类型单词,是组成公司名称的最关键的部分,因此这些部分需要计算相似度得分。
对于省市地点信息,入驻商户的名称一般是完整的,但风险舆情文本中对风险主体名称的描述可能不规范,为了提高风险主体名称与候选实体名称之间的相似度得分的计算准确性,可以通过以下步骤进行计算:
第一步,对风险主体名称和候选实体名称分别进行数据清洗,去掉地点属性类型单词中的“省”、“市”后缀,得到“长沙ABCD互联网公司”和“湖南ABCD网络科技有限公司”。
第二步,为风险主体名称补充省地点信息,得到“湖南长沙ABCD互联网公司”。
第三步,按照如图8所示的相似度计算流程计算得到省市地点信息的相似度得分为0.5。
第四步,计算其他地点信息的相似度得分,具体规则为:如果两者匹配,则相似度得分为1;如果两者不匹配或一者有一者无,则相似度得分为0;如果两者均无其他地点信息,则无该项相似度得分。由于风险主体名称和候选实体名称均无其他地点信息,因此没有其他地点信息的相似度得分。
第五步,计算关键词属性类型单词的相似度得分,具体规则为:若两者完全一样,则相似度得分为1;若两者不完全一样,则风险主体名称和候选实体名称的整体相似度得分为0;若两者均无关键词属性类型单词,则无该项相似度得分。由于风险主体名称的关键词属性类型单词和候选实体名称的关键词属性类型单词相同,因此关键词属性类型单词的相似度得分为1。
第六步,将行业属性类型单词的词向量余弦相似度作为行业属性类型单词的相似度得分。由于计算得到的词向量余弦相似度为0.85,因此行业属性类型单词的相似度得分为0.85。
第七步,计算前面第三步至第六步所得到的相似度得分的平均值,具体规则为:只计算有相似度得分的项的平均值,忽略没有相似度得分的项。由于第三步中得到的相似度得分为0.5,第四步中得到的相似度得分为无,第五步中得到的相似度得分为1,第六步中得到的相似度得分为0.85,因此可以得到风险主体名称与候选实体名称之间的相似度得分为0.78。
另外,当计算得到风险主体名称和候选实体名称之间的相似度得分之后,即可根据该相似度得分判断风险主体名称和候选实体名称是否相匹配。假设预设相似度阈值为0.5,由于风险主体名称与候选实体名称之间的相似度得分为0.78,因此可以判断风险主体名称与候选实体名称为匹配,所以,可以确定该候选实体名称为目标实体名称,即该候选实体名称为与风险主体名称匹配的入驻商户的名称。
参照图12,本申请实施例还公开了一种文本信息处理装置,该文本信息处理装置120能够实现如前面实施例所述的文本信息处理方法,该文本信息处理装置120包括:
文本获取单元121,用于获取待处理文本;
主体识别单元122,用于识别待处理文本中的目标主体名称;
实体获取单元123,用于获取候选实体名称;
类型判断单元124,用于判断目标主体名称的名称类型与候选实体名称的名称类型的一致性;
实体确定单元125,用于当目标主体名称的名称类型与候选实体名称的名称类型相一致,计算目标主体名称与候选实体名称的相似度参数,将符合匹配条件的相似度参数对应的候选实体名称,确定为目标主体名称对应的目标实体名称;
另外,实体确定单元125,还用于当目标主体名称的名称类型与候选实体名称的名称类型不一致,获取与目标主体名称匹配的目标备选主体名称,获取目标备选主体名称的映射属性信息,根据映射属性信息确定目标主体名称对应的目标实体名称。
在一实施例中,实体确定单元125包括:
第一分词单元,用于将候选实体名称按照属性类型进行分词处理得到多个第一目标单词;
第二分词单元,用于将目标主体名称按照属性类型进行分词处理得到多个第二目标单词;
相似度计算单元,用于在多个第一目标单词和多个第二目标单词中,对属性类型相同的第一目标单词和第二目标单词进行相似度计算,得到多个相似度得分;
平均值计算单元,用于求取多个相似度得分的平均值得到相似度参数。
在一实施例中,在属性类型相同的第一目标单词和第二目标单词包括属于地点属性类型的第一目标单词和第二目标单词的情况下,相似度计算单元包括:
第一分词子单元,用于对属于地点属性类型的第一目标单词进行分词处理得到第一区域地点信息和第二区域地点信息,其中,第一区域地点信息和第二区域地点信息为不同行政区域级别的区域地点信息;
第二分词子单元,用于对属于地点属性类型的第二目标单词进行分词处理得到第三区域地点信息和第四区域地点信息,其中,第三区域地点信息和第一区域地点信息为相同行政区域级别的区域地点信息,第四区域地点信息和第二区域地点信息为相同行政区域级别的区域地点信息;
第一计算单元,用于对第一区域地点信息和第三区域地点信息进行相似度计算;
第二计算单元,用于对第二区域地点信息和第四区域地点信息进行相似度计算。
在一实施例中,在第一区域地点信息和第三区域地点信息为属于省市级别的地点信息的情况下,第一计算单元包括:
第一数据清洗单元,用于对第一区域地点信息进行数据清洗得到第一关键词信息;
第二数据清洗单元,用于对第三区域地点信息进行数据清洗得到第二关键词信息;
第一计算子单元,用于对第一关键词信息和第二关键词信息进行相似度计算。
在一实施例中,第二分词单元包括:
第三分词子单元,用于将目标主体名称按照属性类型进行分词处理得到多个单词信息;
单词获取单元,用于当待处理文本包括有与目标主体名称对应的地点信息,并且多个单词信息中不具有属于地点属性类型的单词信息,识别待处理文本中的地点信息,根据地点信息和多个单词信息得到多个第二目标单词;
另外,单词获取单元,还用于当待处理文本包括有与目标主体名称对应的行业信息,并且多个单词信息中不具有属于行业属性类型的单词信息,识别待处理文本中的行业信息,根据行业信息和多个单词信息得到多个第二目标单词。
在一实施例中,在匹配条件为相似度参数大于或等于预设相似度阈值的情况下,实体确定单元125包括:
第一名称确定单元,用于将大于或等于预设相似度阈值的相似度参数对应的候选实体名称,确定为目标主体名称对应的目标实体名称。
在一实施例中,实体确定单元125包括:
名称获取单元,用于获取备选主体名称;
名称匹配单元,用于将目标主体名称与备选主体名称进行文本匹配处理;
第二名称确定单元,用于将与目标主体名称匹配的备选主体名称确定为目标备选主体名称。
在一实施例中,在映射属性信息包括交易链的情况下,实体确定单元125包括:
实体确定子单元,用于根据目标备选主体名称的交易链确定目标主体名称对应的目标实体名称。
在一实施例中,当目标主体名称为风险主体名称,该文本信息处理装置120还包括:
执行单元126,用于对目标实体名称进行限制使用功能或限制使用权限中的至少一种处理。
需要说明的是,由于本实施例的文本信息处理装置120能够实现如前面实施例所述的文本信息处理方法,因此本实施例的文本信息处理装置120与前面实施例所述的文本信息处理方法,具有相同的技术原理以及相同的有益效果,为了避免内容重复,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,本申请实施例还公开了一种文本信息处理装置,该文本信息处理装置包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时,实现如前面任意实施例所述的文本信息处理方法。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时,用于实现如前面任意实施例所述的文本信息处理方法。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面任意实施例所述的文本信息处理方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
Claims (15)
1.一种文本信息处理方法,其特征在于,包括以下步骤:
获取待处理文本;
识别所述待处理文本中的目标主体名称;
获取候选实体名称;
判断所述目标主体名称的名称类型与所述候选实体名称的名称类型的一致性;
当所述目标主体名称的名称类型与所述候选实体名称的名称类型相一致,计算所述目标主体名称与所述候选实体名称的相似度参数,将符合匹配条件的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称;
当所述目标主体名称的名称类型与所述候选实体名称的名称类型不一致,获取与所述目标主体名称匹配的目标备选主体名称,获取所述目标备选主体名称的映射属性信息,根据所述映射属性信息确定所述目标主体名称对应的目标实体名称。
2.根据权利要求1所述的文本信息处理方法,其特征在于,所述计算所述目标主体名称与所述候选实体名称的相似度参数,包括:
将所述候选实体名称按照属性类型进行分词处理得到多个第一目标单词;
将所述目标主体名称按照属性类型进行分词处理得到多个第二目标单词;
在多个所述第一目标单词和多个所述第二目标单词中,对属性类型相同的所述第一目标单词和所述第二目标单词进行相似度计算,得到多个相似度得分;
求取多个所述相似度得分的平均值得到所述相似度参数。
3.根据权利要求2所述的文本信息处理方法,其特征在于,所述属性类型相同的所述第一目标单词和所述第二目标单词包括属于地点属性类型的所述第一目标单词和所述第二目标单词;
所述对属性类型相同的所述第一目标单词和所述第二目标单词进行相似度计算,包括:
对属于地点属性类型的所述第一目标单词进行分词处理得到第一区域地点信息和第二区域地点信息,其中,所述第一区域地点信息和所述第二区域地点信息为不同行政区域级别的区域地点信息;
对属于地点属性类型的所述第二目标单词进行分词处理得到第三区域地点信息和第四区域地点信息,其中,所述第三区域地点信息和所述第一区域地点信息为相同行政区域级别的区域地点信息,所述第四区域地点信息和所述第二区域地点信息为相同行政区域级别的区域地点信息;
对所述第一区域地点信息和所述第三区域地点信息进行相似度计算;
对所述第二区域地点信息和所述第四区域地点信息进行相似度计算。
4.根据权利要求3所述的文本信息处理方法,其特征在于,所述第一区域地点信息和所述第三区域地点信息为属于省市级别的地点信息;
所述对所述第一区域地点信息和所述第三区域地点信息进行相似度计算,包括:
对所述第一区域地点信息进行数据清洗得到第一关键词信息;
对所述第三区域地点信息进行数据清洗得到第二关键词信息;
对所述第一关键词信息和所述第二关键词信息进行相似度计算。
5.根据权利要求2所述的文本信息处理方法,其特征在于,所述将所述目标主体名称按照属性类型进行分词处理得到多个第二目标单词,包括:
将所述目标主体名称按照属性类型进行分词处理得到多个单词信息;
当所述待处理文本包括有与所述目标主体名称对应的地点信息,并且所述多个单词信息中不具有属于地点属性类型的单词信息,识别所述待处理文本中的所述地点信息,根据所述地点信息和所述多个单词信息得到多个第二目标单词;
当所述待处理文本包括有与所述目标主体名称对应的行业信息,并且所述多个单词信息中不具有属于行业属性类型的单词信息,识别所述待处理文本中的所述行业信息,根据所述行业信息和所述多个单词信息得到多个第二目标单词。
6.根据权利要求1所述的文本信息处理方法,其特征在于,所述匹配条件为相似度参数大于或等于预设相似度阈值;
所述将符合匹配条件的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称,包括:
将大于或等于预设相似度阈值的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称。
7.根据权利要求1所述的文本信息处理方法,其特征在于,所述获取与所述目标主体名称匹配的目标备选主体名称,包括:
获取备选主体名称;
将所述目标主体名称与所述备选主体名称进行文本匹配处理;
将与所述目标主体名称匹配的备选主体名称确定为目标备选主体名称。
8.根据权利要求1所述的文本信息处理方法,其特征在于,所述映射属性信息包括交易链;
所述根据所述映射属性信息确定所述目标主体名称对应的目标实体名称,包括:
根据所述目标备选主体名称的交易链确定所述目标主体名称对应的目标实体名称。
9.根据权利要求1至8任意一项所述的文本信息处理方法,其特征在于,当所述目标主体名称为风险主体名称,所述文本信息处理方法还包括:
对所述目标实体名称进行限制使用功能或限制使用权限中的至少一种处理。
10.一种文本信息处理装置,其特征在于,包括:
文本获取单元,用于获取待处理文本;
主体识别单元,用于识别所述待处理文本中的目标主体名称;
实体获取单元,用于获取候选实体名称;
类型判断单元,用于判断所述目标主体名称的名称类型与所述候选实体名称的名称类型的一致性;
实体确定单元,用于当所述目标主体名称的名称类型与所述候选实体名称的名称类型相一致,计算所述目标主体名称与所述候选实体名称的相似度参数,将符合匹配条件的相似度参数对应的候选实体名称,确定为所述目标主体名称对应的目标实体名称;
所述实体确定单元,还用于当所述目标主体名称的名称类型与所述候选实体名称的名称类型不一致,获取与所述目标主体名称匹配的目标备选主体名称,获取所述目标备选主体名称的映射属性信息,根据所述映射属性信息确定所述目标主体名称对应的目标实体名称。
11.根据权利要求10所述的文本信息处理装置,其特征在于,所述实体确定单元包括:
第一分词单元,用于将所述候选实体名称按照属性类型进行分词处理得到多个第一目标单词;
第二分词单元,用于将所述目标主体名称按照属性类型进行分词处理得到多个第二目标单词;
相似度计算单元,用于在多个所述第一目标单词和多个所述第二目标单词中,对属性类型相同的所述第一目标单词和所述第二目标单词进行相似度计算,得到多个相似度得分;
平均值计算单元,用于求取多个所述相似度得分的平均值得到所述相似度参数。
12.根据权利要求10所述的文本信息处理装置,其特征在于,所述实体确定单元包括:
名称获取单元,用于获取备选主体名称;
名称匹配单元,用于将所述目标主体名称与所述备选主体名称进行文本匹配处理;
第二名称确定单元,用于将与所述目标主体名称匹配的备选主体名称确定为目标备选主体名称。
13.根据权利要求10至12任意一项所述的文本信息处理装置,其特征在于,当所述目标主体名称为风险主体名称,所述文本信息处理装置还包括:
执行单元,用于对所述目标实体名称进行限制使用功能或限制使用权限中的至少一种处理。
14.一种文本信息处理装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至9任意一项所述的文本信息处理方法。
15.一种计算机可读存储介质,其特征在于:其中存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时用于实现如权利要求1至9任意一项所述的文本信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545929.2A CN113128196A (zh) | 2021-05-19 | 2021-05-19 | 文本信息处理方法及其装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545929.2A CN113128196A (zh) | 2021-05-19 | 2021-05-19 | 文本信息处理方法及其装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128196A true CN113128196A (zh) | 2021-07-16 |
Family
ID=76782656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110545929.2A Pending CN113128196A (zh) | 2021-05-19 | 2021-05-19 | 文本信息处理方法及其装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128196A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553400A (zh) * | 2021-07-26 | 2021-10-26 | 杭州叙简科技股份有限公司 | 一种企业知识图谱实体链接模型的构建方法及装置 |
CN113705220A (zh) * | 2021-08-19 | 2021-11-26 | 上海明略人工智能(集团)有限公司 | 工作技能的确定方法和装置、电子设备和存储介质 |
CN116738345A (zh) * | 2023-08-15 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 分类处理方法、相关装置和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190155898A1 (en) * | 2017-11-23 | 2019-05-23 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and device for extracting entity relation based on deep learning, and server |
CN110442869A (zh) * | 2019-08-01 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种医疗文本处理方法及其装置、设备和存储介质 |
CN111126054A (zh) * | 2019-12-03 | 2020-05-08 | 东软集团股份有限公司 | 确定相似文本的方法、装置、存储介质及电子设备 |
WO2020133039A1 (zh) * | 2018-12-27 | 2020-07-02 | 深圳市优必选科技有限公司 | 对话语料中实体的识别方法、装置和计算机设备 |
CN111475603A (zh) * | 2019-01-23 | 2020-07-31 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN112805715A (zh) * | 2019-07-05 | 2021-05-14 | 谷歌有限责任公司 | 识别实体属性关系 |
-
2021
- 2021-05-19 CN CN202110545929.2A patent/CN113128196A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190155898A1 (en) * | 2017-11-23 | 2019-05-23 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and device for extracting entity relation based on deep learning, and server |
WO2020133039A1 (zh) * | 2018-12-27 | 2020-07-02 | 深圳市优必选科技有限公司 | 对话语料中实体的识别方法、装置和计算机设备 |
CN111475603A (zh) * | 2019-01-23 | 2020-07-31 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN112805715A (zh) * | 2019-07-05 | 2021-05-14 | 谷歌有限责任公司 | 识别实体属性关系 |
CN110442869A (zh) * | 2019-08-01 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种医疗文本处理方法及其装置、设备和存储介质 |
CN111126054A (zh) * | 2019-12-03 | 2020-05-08 | 东软集团股份有限公司 | 确定相似文本的方法、装置、存储介质及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553400A (zh) * | 2021-07-26 | 2021-10-26 | 杭州叙简科技股份有限公司 | 一种企业知识图谱实体链接模型的构建方法及装置 |
CN113705220A (zh) * | 2021-08-19 | 2021-11-26 | 上海明略人工智能(集团)有限公司 | 工作技能的确定方法和装置、电子设备和存储介质 |
CN116738345A (zh) * | 2023-08-15 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 分类处理方法、相关装置和介质 |
CN116738345B (zh) * | 2023-08-15 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 分类处理方法、相关装置和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | Co-embedding attributed networks | |
Liu et al. | Transformer-based capsule network for stock movement prediction | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN113128196A (zh) | 文本信息处理方法及其装置、存储介质 | |
CN110751286A (zh) | 神经网络模型的训练方法和训练系统 | |
Yang et al. | Rits: Real-time interactive text steganography based on automatic dialogue model | |
CN109979439B (zh) | 基于区块链的语音识别方法、装置、介质及电子设备 | |
Hsu et al. | Integrating machine learning and open data into social Chatbot for filtering information rumor | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
Abinaya et al. | Enhancing top-N recommendation using stacked autoencoder in context-aware recommender system | |
CN110597956A (zh) | 一种搜索方法、装置及存储介质 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN114625842A (zh) | 一种基于结构注意力增强机制的虚假评论识别模型 | |
CN113779225A (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN113821587B (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN116662522B (zh) | 问题答案推荐方法、存储介质和电子设备 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN113609866A (zh) | 文本标记方法、装置、设备及存储介质 | |
Chen et al. | Cnfrd: A few-shot rumor detection framework via capsule network for COVID-19 | |
CN116340516A (zh) | 实体关系的聚类提取方法、装置、设备及存储介质 | |
Elzeheiry et al. | Sentiment analysis for e-commerce product reviews: Current trends and future directions | |
CN113849662A (zh) | 基于模型的信息生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |