CN112784015A - 信息识别方法和装置、设备、介质和程序 - Google Patents
信息识别方法和装置、设备、介质和程序 Download PDFInfo
- Publication number
- CN112784015A CN112784015A CN202110098533.8A CN202110098533A CN112784015A CN 112784015 A CN112784015 A CN 112784015A CN 202110098533 A CN202110098533 A CN 202110098533A CN 112784015 A CN112784015 A CN 112784015A
- Authority
- CN
- China
- Prior art keywords
- information
- company name
- training
- address
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000008520 organization Effects 0.000 claims abstract description 189
- 238000012549 training Methods 0.000 claims abstract description 140
- 238000002372 labelling Methods 0.000 claims abstract description 96
- 238000012545 processing Methods 0.000 claims description 82
- 238000003860 storage Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012937 correction Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 150000002016 disaccharides Chemical class 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 229920002472 Starch Polymers 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000407 epitaxy Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 235000019698 starch Nutrition 0.000 description 1
- 239000008107 starch Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例公开了一种信息识别方法和装置、设备、介质和程序,其中,方法包括:获取待识别信息;利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,所述训练语料标注有位置标注信息、组织形式标注信息和其他标注信息;所述位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址;所述组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。本公开实施例可以提高公司名称识别的准确性。
Description
技术领域
本公开涉及自然语言处理技术,尤其是一种信息识别方法和装置、设备、介质和程序。
背景技术
随着深度学习技术的发展,特别是在自然语言处理自然语言处理(NaturalLanguage Processing,NLP)方向的进步,极大的提高了人们在处理文本这种非结构化数据方面的效率。命名实体识别(Named Entity Recognition,NER)也称为实体识别、实体分块和实体提取,是NLP中的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如地名,人员、组织、位置、时间表达式、数量、货币值、百分比等。
每个企业都有自己的公司名称,对公司名称进行命名实体识别和信息提取,有助于分析企业信息、建立知识图谱、挖掘企业之间关系等,是一项十分有价值的工作。
在实现本公开的过程中,本发明人通过研究发现:现有的命名实体识别技术,主要应用在一些通用的场景上,例如,对新闻中出现的事件、组织等进行识别,对小说或者其他的文学作品中的人物、时间等进行识别,这些通用的命名实体识别场景中所用到的训练集大都是公开的数据集,而公司名称具有以下特点:在不同领域、场景下的外延有差异;数量巨大,不能枚举,难以全部收录在训练集中;公司名称变化频繁;表达形式多样,等。基于上述通用场景的训练集训练得到的识别模型无法适用于公司名称的上述特点要求,无法对公司名称进行有效识别,识别准确性较低,效果较差。
发明内容
本公开的目的在于提供一种信息识别方法和装置、设备、介质和程序,进而至少在一定程度上提高公司名称识别的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例的一个方面,提供一种信息识别方法,包括:
获取待识别信息;
利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,所述训练语料标注有位置标注信息、组织形式标注信息和其他标注信息;所述位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址;所述组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。
可选地,在本公开上述任一方法实施例中,所述待识别信息包括:待识别的公司名称。
可选地,在本公开上述任一方法实施例中,所述其他信息包括以下至少一项:字号,行业。
可选地,在本公开上述任一方法实施例中,还包括:
从公司信息数据库中采集预设区域范围内的多个第一公司名称;
分别对所述多个第一公司名称中的每个第一公司名称按照预设处理方式进行处理,得到第一处理结果,所述第一处理结果中包括每个所述第一公司名称中的地址和组织形式;
从所述第一处理结果中采集各级地址和各种组织形式;
分别基于所述各级地址中的至少一个地址从所述公司信息数据库中采集至少一个第二公司名称,所述至少一个第二公司名称包括所述多个第一公司名称以外的至少一个公司名称;
分别对所述至少一个第二公司名称中的每个第二公司名称按照预设处理方式进行处理,得到第二处理结果,所述第二处理结果中包括每个所述第二公司名称中的地址和组织形式;
从所述第二处理结果中采集各级地址和各种组织形式;
基于从所述第一处理结果中采集的各级地址和从所述第二处理结果中采集的各级地址构成所述地址集,基于从所述第一处理结果中采集的各种组织形式和从所述第二处理结果中采集的各种组织形式构成所述组织形式集。
可选地,在本公开上述任一方法实施例中,还包括:
采集多个公司名称样本;
采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述多个公司名称样本中的每个公司名称样本,确定每个所述公司名称样本中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
采用预设序列标注方法,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料,所述多个公司名称样本对应的多个所述公司名称训练语料构成标注数据集,所述标注数据集包括所述训练集。
可选地,在本公开上述任一方法实施例中,所述采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述至少一个公司名称样本中的每个公司名称样本,确定每个所述公司名称样本中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息,包括:
采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息,得到确定结果;
采用预设词性增强方式,对所述确定结果进行修正,得到修正结果;
所述采用预设序列标注方法,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料,包括:
采用预设序列标注方法,根据所述修正结果,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料。
可选地,在本公开上述任一方法实施例中,所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息,包括:
分别以所述地址集中的各级地址和所述组织形式集中的各种组织形式作为正则匹配条件,匹配出每个所述公司名称样本中的位置信息和组织形式信息,以未匹配出的信息作为其他信息。
可选地,在本公开上述任一方法实施例中,所述采用预设词性增强方式,对所述确定结果进行修正,包括:
响应于所述公司名称样本中的位置信息和组织形式信息中存在重合的字词,确定所述重合的字词是否存在于预设重合集中;若所述重合的字词存在于所述预设重合集中,基于位置信息优先匹配的原则,以存在重合的字词的所述公司名称样本作为第一待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定所述第一待处理公司名称样本中的位置信息、组织形式信息和其他信息;其中,所述预设重合集包括所述地址集与所述组织形式集中重合的字词;
和/或,
响应于所述公司名称样本中的位置信息中存在预设附加集中的字词,增加所述预设附加集中的字词后结合通配符作为优先正则匹配条件,以存在预设附加集中的字词的公司名称样本作为第二待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息的操作;其中,所述预设附加集包括所述地址集与其他信息集中重合的字词,所述其他信息集包括预先从公司信息数据库中采集的公司名称中除地址和组织形式外的其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括第一特定地址字符、且所述公司名称样本中在所述特定地址字符后相邻的字符为第二特定字符,将包括所述第一特定地址字符的一级地址纠正为其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括多级地址,基于预先设置的所述地址集中各级地址之间的包含关系,确定所述多级地址中的任意两级相邻地址之间是否包含关系;响应于所述多级地址中存在不是包含关系的相邻两级地址,将所述位置信息中不是包含关系的相邻两级地址中的较低级地址以及所述位置信息中所述较低级地址后的各级地址纠正为其他信息。
可选地,在本公开上述任一方法实施例中,所述预设序列标注方法包括以下任意一项:BIO标注方法,BIOSE标注方法,BMES标注方法。
可选地,在本公开上述任一方法实施例中,还包括:
从所述标注数据集中选取多个第一公司名称训练语料构成验证集;从所述标注数据集中选取多个第二公司名称训练语料构成所述训练集;
利用所述验证集中的多个第一公司名称训练语料确定初始识别模型中的超参数;
利用所述训练集中的多个公司名称训练语料,对确定超参数后的初始识别模型进行训练,直至满足预设训练完成条件,得到所述识别模型。
可选地,在本公开上述任一方法实施例中,所述识别模型包括:双向长短期记忆神经网络Bi-LSTM和条件随机场CRF。
本公开实施例的另一个方面,提供一种信息识别装置,包括:
获取模块,用于获取待识别信息;
识别模块,用于利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,所述训练语料标注有位置标注信息、组织形式标注信息和其他标注信息;所述位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址;所述组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。
可选地,在本公开上述任一装置实施例中,所述待识别信息包括:待识别的公司名称。
可选地,在本公开上述任一装置实施例中,所述其他信息包括以下至少一项:字号,行业。
可选地,在本公开上述任一装置实施例中,还包括:
第一采集模块,用于从公司信息数据库中采集预设区域范围内的多个第一公司名称;
第一处理模块,用于分别对所述多个第一公司名称中的每个第一公司名称按照预设处理方式进行处理,得到第一处理结果,所述第一处理结果中包括每个所述第一公司名称中的地址和组织形式;
第二采集模块,用于从所述第一处理结果中采集各级地址和各种组织形式;
所述第一采集模块,还用于分别基于所述各级地址中的至少一个地址从所述公司信息数据库中采集至少一个第二公司名称,所述至少一个第二公司名称包括所述多个第一公司名称以外的至少一个公司名称;
所述第一处理模块,还用于分别对所述至少一个第二公司名称中的每个第二公司名称按照预设处理方式进行处理,得到第二处理结果,所述第二处理结果中包括每个所述第二公司名称中的地址和组织形式;
所述第二采集模块,还用于从所述第二处理结果中采集各级地址和各种组织形式;
第一构建模块,用于基于从所述第一处理结果中采集的各级地址和从所述第二处理结果中采集的各级地址构成所述地址集,基于从所述第一处理结果中采集的各种组织形式和从所述第二处理结果中采集的各种组织形式构成所述组织形式集。
可选地,在本公开上述任一装置实施例中,还包括:
第三采集模块,用于采集多个公司名称样本;
第一确定模块,用于采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述多个公司名称样本中的每个公司名称样本,确定每个所述公司名称样本中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
标注模块,用于采用预设序列标注方法,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料,所述多个公司名称样本对应的多个所述公司名称训练语料构成标注数据集,所述标注数据集包括所述训练集。
可选地,在本公开上述任一装置实施例中,所述第一确定模块包括:
第一确定单元,用于采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息,得到确定结果;
修正单元,用于采用预设词性增强方式,对所述确定结果进行修正,得到修正结果;
所述标注模块,具体用于采用预设序列标注装置,根据所述修正结果,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料。
可选地,在本公开上述任一装置实施例中,所述第一确定单元,具体用于:
分别以所述地址集中的各级地址和所述组织形式集中的各种组织形式作为正则匹配条件,匹配出每个所述公司名称样本中的位置信息和组织形式信息,以未匹配出的信息作为其他信息。
可选地,在本公开上述任一装置实施例中,所述修正单元,具体用于:
响应于所述公司名称样本中的位置信息和组织形式信息中存在重合的字词,确定所述重合的字词是否存在于预设重合集中;若所述重合的字词存在于所述预设重合集中,基于位置信息优先匹配的原则,以存在重合的字词的所述公司名称样本作为第一待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定所述第一待处理公司名称样本中的位置信息、组织形式信息和其他信息;其中,所述预设重合集包括所述地址集与所述组织形式集中重合的字词;
和/或,
响应于所述公司名称样本中的位置信息中存在预设附加集中的字词,增加所述预设附加集中的字词后结合通配符作为优先正则匹配条件,以存在预设附加集中的字词的公司名称样本作为第二待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息的操作;其中,所述预设附加集包括所述地址集与其他信息集中重合的字词,所述其他信息集包括预先从公司信息数据库中采集的公司名称中除地址和组织形式外的其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括第一特定地址字符、且所述公司名称样本中在所述特定地址字符后相邻的字符为第二特定字符,将包括所述第一特定地址字符的一级地址纠正为其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括多级地址,基于预先设置的所述地址集中各级地址之间的包含关系,确定所述多级地址中的任意两级相邻地址之间是否包含关系;响应于所述多级地址中存在不是包含关系的相邻两级地址,将所述位置信息中不是包含关系的相邻两级地址中的较低级地址以及所述位置信息中所述较低级地址后的各级地址纠正为其他信息。
可选地,在本公开上述任一装置实施例中,所述预设序列标注方法包括以下任意一项:BIO标注方法,BIOSE标注方法,BMES标注方法。
可选地,在本公开上述任一装置实施例中,还包括:
第二构建模块,用于从所述标注数据集中选取多个第一公司名称训练语料构成验证集;从所述标注数据集中选取多个第二公司名称训练语料构成所述训练集;
第二确定模块,用于利用所述验证集中的多个第一公司名称训练语料确定初始识别模型中的超参数;
训练模块,用于利用所述训练集中的多个公司名称训练语料,对确定超参数后的初始识别模型进行训练,直至满足预设训练完成条件,得到所述识别模型。
可选地,在本公开上述任一装置实施例中,所述识别模型包括:双向长短期记忆神经网络Bi-LSTM和条件随机场CRF。
本公开实施例的又一个方面,提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的信息识别方法。
本公开实施例的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的信息识别方法。
本公开实施例的再一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本公开上述任一实施例所述的信息识别方法。
基于本公开上述实施例提供的信息识别方法和装置、设备、介质和程序,预先采集多个地址构成地址集,预先采集多个组织形式构成组织形式集,基于地址集和组织形式集对多个公司名称样本进行位置信息、组织形式信息和其他信息的标注,得到多个公司名称训练语料构成训练集,基于该训练集训练得到识别模型,在对待识别信息进行识别时,通过获取待识别信息,并利用训练好的识别模型对待识别信息进行实体识别,即可准确识别出待识别信息中的位置信息、组织形式信息和其他信息,提高了公司名称识别的准确性,提升了公司名称的识别效果,能满足对公司名的信息提取需求。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出了可以应用本公开实施例的一个系统架构示意图;
图2示出本公开第一示例性实施例中信息识别方法的流程示意图;
图3示出本公开第二示例性实施例中信息识别方法的流程示意图;
图4示出本公开第三示例性实施例中信息识别方法的流程示意图;
图5示出本公开第四示例性实施例中信息识别方法的流程示意图;
图6示出本公开第五示例性实施例中信息识别方法的流程示意图;
图7示出本公开第一示例性实施例中信息识别装置的框图;
图8示出本公开第二示例性实施例中信息识别装置的框图;
图9示出本公开示例性实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
图1示出了可以应用本公开实施例的一个系统架构示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
服务器105可以是提供各种待识别信息的服务器,例如各种网站、自媒体平台、数据库等的服务器。例如用户利用终端设备103(也可以是终端设备101或102)实时或定期从服务器105获取待识别信息,并执行本公开实施例的信息识别方法得到待识别信息对应的识别结果,以便后续就有该识别结果进行相应的应用。
图2示出本公开一示例性实施例中信息识别方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例的信息识别方法包括如下步骤:
步骤201,获取待识别信息。
本公开实施例中,可以实时或者按照一定周期从各网站、论坛、自媒体平台、公司信息数据库等获取待识别信息,或者,也可以接收用户输入的待识别信息,本公开实施例对获取待识别信息的途径和方式不做限定。
步骤202,利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息(location)、组织形式信息(也可以称为后缀,suffix)、以及所述位置信息和所述组织形式信息以外的其他信息(Others)。
其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,每个训练语料标注有位置标注信息、组织形式标注信息和其他标注信息。其中的位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址。其中的组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。
可选地,在其中一些可能的实现方式中,在该步骤202中,可以采用词向量技术,先将待识别信息转换为识别模型可识别的向量,再将得到的向量输入识别模型进行实体识别,得到待识别信息中的位置信息、组织形式信息和其他信息。其中的词向量技术,例如可以包括但不限于:词到向量(Word2vec)方法,独热码(One-hot)方法,矩阵分解(LSA)方法,快速文本(fastText)方法,等,本公开实施例对具体采用的词向量技术不做限定。
基于本公开实施例,预先采集多个地址构成地址集,预先采集多个组织形式构成组织形式集,基于地址集和组织形式集对多个公司名称样本进行位置信息、组织形式信息和其他信息的标注,得到多个公司名称训练语料构成训练集,基于该训练集训练得到识别模型,在对待识别信息进行识别时,通过获取待识别信息,并利用训练好的识别模型对待识别信息进行实体识别,即可准确识别出待识别信息中的位置信息、组织形式信息和其他信息,提高了公司名称识别的准确性,提升了公司名称的识别效果,能满足对公司名的信息提取需求。
可选地,在其中一些可能的实现方式中,所述待识别信息可以包括:待识别的公司名称。然而,本公开实施例并不限于此,本公开实施例也可用于对公司名称外的任意进行信息识别。
由于公司名称的结构大多是以下结构:位置+字号+行业+组织形式。其中的位置可以包括各级行政区划以及行政区划下的各级地址。例如,公司名称“北京金堤科技有限公司”,其中的“北京”为位置,“金堤”为字号,“科技”为行业,“有限公司”为组织形式。
其中的组织形式,表示公司所属的经济实体类别,例如可以包括但不限于:集团,股份有限公司,有限责任公司,个人独资企业,个体工商户,专卖店,村民委员会,水产店,分公司,子公司,出版社,供销合作社,等等。
可选地,在其中一些可能的实现方式中,公司名称中的所述其他信息例如可以包括但不限于以下至少一项:字号,行业。
其中的字号即该公司的字号,例如“北京网科有限公司”中的“网科”即字号。
其中的行业,例如可以包括但不限于:科技、服装、贸易、知识产权、文化创意服务、咨询服务、房地产、教育、金融、网络等。
图3示出本公开第二示例性实施例中信息识别方法的流程示意图。如图3所示,在图2所示实施例的基础上,在步骤201之前,还可以包括:
步骤301,从公司信息数据库中采集预设区域范围内的多个第一公司名称。
步骤302,分别对所述多个第一公司名称中的每个第一公司名称按照预设处理方式进行处理,以得到每个第一公司名称中的地址和组织形式,得到第一处理结果,该第一处理结果中包括每个第一公司名称中的地址和组织形式。
可选地,在其中一些可能的实现方式中,可以对第一公司名称进行分词处理,得到多个分词,并对每个分词进行分类,将每个分词分类为地址、组织形式或者地址和组织形式以外的其他分类。
或者,在另一些可能的实现方式中,也可以采用预设正则提取方式,从第一公司名称中提取分别地址和组织形式。
步骤303,从第一处理结果中采集各级地址和各种组织形式。
步骤304,分别基于所述各级地址中的至少一个地址,从公司信息数据库中采集至少一个第二公司名称。
其中,所述至少一个第二公司名称包括所述多个第一公司名称以外的至少一个公司名称。
可选地,在步骤301和304中,采集到公司名称(包括第一公司名称、第二公司名称)后,可以首先对采集到的原始公司名称信息进行数据清洗,以去除公司名称信息中的英文字符、错误的标点符号等,有助于提高后续处理得到的地址集和组织形式集的准确性。
步骤305,分别对所述至少一个第二公司名称中的每个第二公司名称按照预设处理方式进行处理,以得到每个第二公司名称中的地址和组织形式,得到第二处理结果,该第二处理结果中包括每个第二公司名称中的地址和组织形式。
可选地,在其中一些可能的实现方式中,可以对第二公司名称进行分词处理,得到多个分词,并对每个分词进行分类,将每个分词分类为地址、组织形式或者地址和组织形式以外的其他分类。
或者,在另一些可能的实现方式中,也可以采用预设正则提取方式,从第二公司名称中提取分别地址和组织形式。
步骤306,从第二处理结果中采集各级地址和各种组织形式。
步骤307,基于从第一处理结果中采集的各级地址和从第二处理结果中采集的各级地址构成所述地址集,基于从第一处理结果中采集的各种组织形式和从第二处理结果中采集的各种组织形式构成所述组织形式集。
其中,可以以所述至少一个第二公司名称作为多个第一公司名称,迭代执行步骤304-步骤306,从而可以采集到更完善的级地址和组织形式。
基于本实施例,可以从公司信息数据库中采集得到各级地址构成地址集、以及各种组织形式构成组织形式集,实现完善的地址信息和组织形式的采集,例如,天眼查公司信息数据库中存储有2亿多个公司名称,对天眼查公司信息数据库中出现的各级地址(例如,省,直辖市,自治区,地级市,县市级,自治州,自治县,旗,县,区,乡,镇,社区,村,街道,路等)进行收集,可以得到20多万地址的地址集,对公司名称中的组织形式进行收集,可以得到五千多个组织形式,基于具有针对性的地址集和组织形式集来标注公司名称,利用训练出来的识别模型对公司名称中的地址和组织形式进行提取,可以提升信息提取的准确性和效果,能满足对公司名的信息提取需求。
图4示出本公开第三示例性实施例中信息识别方法的流程示意图。如图4所示,在图2或图3所示实施例的基础上,在步骤201之前,还可以包括:
步骤401,采集多个公司名称样本。
步骤402,采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述多个公司名称样本中的每个公司名称样本,确定每个公司名称样本中的位置信息、组织形式信息、以及位置信息和组织形式信息以外的其他信息。
步骤403,采用预设序列标注方法,对每个公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到公司名称训练语料,由多个公司名称样本对应的多个公司名称训练语料构成标注数据集,该标注数据集包括所述训练集。
基于本实施例,可以基于所述地址集和所述组织形式集分别确定多个公司名称样本中的位置信息、组织形式信息和其他信息并进行标注,得到标注数据集,利用该标注数据集中的训练集训练得到的识别模型,能够准确识别出待识别信息中的位置信息、组织形式信息和其他信息,从而提高公司名称识别的准确性,提升公司名称的识别效果,能满足对公司名的信息提取需求。
图5示出本公开第四示例性实施例中信息识别方法的流程示意图。如图5所示,在图4所示实施例的基础上,步骤402可以包括:
步骤4021,采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个公司名称样本中的位置信息、组织形式信息和其他信息,得到确定结果。
可选地,在其中一些可能的实现方式中,在步骤4021中,可以分别以所述地址集中的各级地址和所述组织形式集中的各种组织形式作为正则匹配条件,匹配出每个公司名称样本中的位置信息和组织形式信息,以未匹配出的信息作为其他信息,得到确定结果。
步骤4022,采用预设词性增强方式,对所述确定结果进行修正,得到修正结果。
相应地,该实施例中,在步骤403中,可以采用预设序列标注方法,根据所述修正结果,对每个公司名称样本中的位置信息、组织形式信息和其他信息进行标注,即得到标注有位置标注信息、组织形式标注信息和其他标注信息的公司名称训练语料。
本发明人通过研究发现,通过深度学习方式训练出的识别模型的性能好坏,很大程度上是由标注数据集的质量决定的,基于本实施例,可以在采用正则匹配方式,基于完备的地址集和组织形式集确定公司名称样本中的位置信息、组织形式信息和其他信息后,再采用预设词性增强方式对确定结果进行修正,有助于提高公司名称训练语料中位置标注信息、组织形式标注信息和其他标注信息的准确性,会使得训练集具有很好的质量,从而提高训练得到的识别模型的识别性能。
可选地,在其中一些可能的实现方式中,在步骤4022中,可以采用以下包括以下任意一项或多项词性增强方式方式,对所述确定结果进行修正:
方式一:响应于公司名称样本中的位置信息和组织形式信息中存在重合的字词,确定所述重合的字词是否存在于预设重合集中;若所述重合的字词存在于所述预设重合集中,基于位置信息优先匹配的原则,以存在重合的字词的公司名称样本作为第一待处理公司名称样本,执行步骤4021的操作。其中,所述预设重合集包括所述地址集与所述组织形式集中重合的字词。
例如,在一个例子中,待识别的公司名称1为“江门市蓬江区开洋贸易有限公司”,“江门市”是地址集中的一个地址,“门市”是组织形式集中的一个组织形式,由于二者中存在重合的字词“门市”,如果未通过步骤4022的修正处理,训练得到的识别模型会对“江门市”进行拆分,认为“江”是地址,“门市”是组织形式,输出的识别结果为:['location:江蓬江区','Others:开洋贸易','suffix:门市有限公司']。基于该方式一对标注信息进行修正后,训练得到的识别模型针对该公司名称1输出的识别结果为:['location:江门市蓬江区','Others:开洋贸易','suffix:有限公司']。其中,“location”表示位置信息,“suffix”表示组织形式,“Others”表示其他信息。
在实际应用中,可以对地址集和组织形式集进行遍历,找出全部的和地名重合的字词集合,当公司名称样本中的位置信息和组织形式信息中存在重合的字词时,首先标注地址信息,然后再标注组织形式信息,如果发现某个字词已经被标注为地址信息,便不再被标注为组织形式信息。
方式二:响应于公司名称样本中的位置信息中存在预设附加集中的字词,增加所述预设附加集中的字词后结合通配符作为优先正则匹配条件,以存在预设附加集中的字词的公司名称样本作为第二待处理公司名称样本,执行步骤4021的操作。其中,所述预设附加集包括所述地址集与其他信息集中重合的字词,所述其他信息集包括预先从公司信息数据库中采集的公司名称中除地址和组织形式外的其他信息。
使用正则匹配方式为公司名称样本进行标注打标签,会将公司名称中不是地名的词的后面部分与下一个词的前面部分结合成一个地名,由此训练好的识别模型也具备了这样特性,会对公司名称中连续的词进行拆分,形成一个错误的地址信息或者组织形式信息。例如,在一个例子中,待识别的公司名称2为“北京泛美国际贸易公司海淀分公司”,如果未通过步骤4022的修正处理,训练得到的识别模型输出的识别结果为:['location:北京美国海淀','Others:泛际贸易公司','suffix:分公司']。基于该方式二对标注信息进行修正后,训练得到的识别模型针对该公司名称2输出的识别结果为:['location:北京海淀','Others:泛美国际','suffix:贸易公司分公司']。
实际应用中,可以获取公司名称中出现上述情况的字词进行统计,添加到预设附加集中,增加一条优先顺序的正则匹配条件:预设附加集中的字词+通配符,例如针对上述公司名称2,可以设置正则匹配条件:美国*,其中*表示不限定内容的通配符,在正则匹配时优先采用该正则匹配条件对公司名称样本进行匹配并标注为其他信息,如果发现某个字词已经被标注为其他信息,便不再被标注为组织形式信息。
方式三:响应于确定出的公司名称样本中的位置信息中包括第一特定地址字符、且该公司名称样本中在所述特定地址字符后相邻的字符为第二特定字符,将包括第一特定地址字符的一级地址纠正为其他信息。
例如,在一个例子中,如果未通过步骤4022的修正处理,训练得到的识别模型识别公司名称时,公司名称“xx路桥公司”中的【xx路】识别为位置信息中的道路信息,待识别的公司名称3为“江苏勇杰路桥工程有限公司”,如果未通过步骤4022的修正处理,训练得到的识别模型输出的识别结果为:['location:江苏勇杰路','Others:桥工程','suffix:有限公司']。通过步骤4022的修正处理,如果位置信息中存在【xx路】,并且第一特定地址字符“路”字后面是第二特定字符“桥”字,则将位置信息中的【xx路桥】标注为其他信息,如果发现某个字词已经被标注为其他信息,便不再被标注为地址信息。基于该方式三对标注信息进行修正后,训练得到的识别模型针对该公司名称3输出的识别结果为:['location:江苏','Others:勇杰路桥工程','suffix:有限公司']。
方式四:响应于确定出的公司名称样本中的位置信息中包括多级地址,基于预先设置的所述地址集中各级地址之间的包含关系,确定所述多级地址中的任意两级相邻地址之间是否包含关系;响应于多级地址中存在不是包含关系的相邻两级地址,将所述位置信息中不是包含关系的相邻两级地址中的较低级地址以及所述位置信息中包括的所述较低级地址后的各级地址纠正为其他信息。
例如,在一个例子中,待识别的公司名称4为“北京顺德立阁商贸有限公司”,如果未通过步骤4022的修正处理,由于地址集中的地址包括“顺德”,训练得到的识别模型会认为“顺德”是地址,输出的识别结果为:['location:北京顺德','Others:立阁商贸','suffix:有限公司']。由于“北京”不包含“顺德”,基于该方式四对标注信息进行修正后,将识别模型识别出的位置信息中“北京顺德”中的较低级地址“顺德”纠正为其他信息,则针对该公司名称4输出的识别结果为:['location:北京‘,'Others:顺德立阁商贸','suffix:有限公司']。
基于本公开上述各实施例,采用词性增强方式对确定结果进行修正,解决了公司名称基于地址集和组织形式集基于正则匹配方式可能出现的位置信息、组织形式信息和其他信息标注错误的问题,大大提高了标注的准确度。
可选地,在其中一些可能的实现方式中,所述预设序列标注方法例如可以包括但不限于以下任意一项:BIO标注方法,BIOSE标注方法(也称为SBEIO、IOBES、BIOES等),BMES标注方法,等等。
其中,BIO标注,即将每个元素标注为B-X、I-X或者O。其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型。例如,我们将X表示为名词短语(NounPhrase,NP),则BIO的三个标记为:B-NP:名词短语的开头;I-NP:名词短语的中间;O:不是名词短语。例如,针对初始语料“北京金堤科技有限公司”,基于BIO标注方法标注得到的公司名称训练语料为:北B-location、京I-location、金O、堤O、科O、技O、有B-suffix、限I-suffix、公I-suffix、司I-suffix。
其中,BIOSE标注,即将每个元素标注为B-X、I-X、E-X或者O。其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,E-X表示此元素所在的片段属于X类型并且此元素在此片段的结尾,S表示单个字符构成一个X类型的片段,O表示不属于任何类型。
其中,BMES标注,即将每个元素标注为B-X、M-X、E-X或者S。其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,M-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,E-X表示此元素所在的片段属于X类型并且此元素在此片段的结尾,S表示单个字符构成一个X类型的片段。
基于本实施例,采用BIO标注方法、BIOSE标注方法、BMES标注方法等作为序列标注方法,对每个公司名称样本中的位置信息、组织形式信息和其他信息进行标注,使得识别模型可以准确识别公司名称中的各字符,从而使得训练得到的识别模型具有更强的语义表达能力和预测能力,从而进一步提高识别结果的准确性。
图6示出本公开第五示例性实施例中信息识别方法的流程示意图。如图6所示,在图4所示实施例的基础上,在步骤403之后,还可以包括:
步骤404,从所述标注数据集中选取多个第一公司名称训练语料构成验证集;从所述标注数据集中选取多个第二公司名称训练语料构成所述训练集。
步骤405,利用所述验证集中的多个第一公司名称训练语料确定初始识别模型中的超参数。
可选地,在其中一些可能的实现方式中,可以利用所述验证集中的多个第一公司名称训练语料对初始识别模型中不同的参数集上进行训练,获得一系列不同超参数的初始识别模型,然后从所述标注数据集中选取多个第三公司名称训练语料构成验证集,评价所述一系列不同超参数的初始识别模型,表现最佳的初始识别模型的参数即为最佳超参数,将初始识别模型中的超参数设置为该最佳超参数。
步骤406,利用所述训练集中的多个公司名称训练语料,对确定超参数后的初始识别模型进行训练,直至满足预设训练完成条件,得到所述识别模型。
可选地,在其中一些可能的实现方式中,在该步骤406中,可以采用词向量技术,先将多个公司名称训练语料分别转换为识别模型可识别的向量,再将得到的向量输入识别模型进行实体识别,得到预测信息,即多个公司名称训练语料中的位置信息、组织形式信息和其他信息。其中的词向量技术,例如可以包括但不限于:Word2vec方法,One-hot方法,LSA方法,fastText方法,等,本公开实施例对具体采用的词向量技术不做限定。
其中,上述步骤406为迭代执行的操作,直至满足训练完成条件。其中的训练条件例如可以包括但不限于:对确定超参数后的初始识别模型的训练次数(即步骤406的迭代执行次数)达到预设次数,和/或确定超参数后的初始识别模型输出的识别结果与训练集中的多个公司名称训练语料上标注信息(位置标注信息、组织形式标注信息和其他标注信息)之间的差异小于预设差异。本公开不限制对识别模型进行训练的结束条件类型。
可选地,在其中一些可能的实现方式中,可以从所述标注数据集中选取多个第三公司名称训练语料构成验证集,对训练得到的识别模型的识别性能进行测试。
在具体实现中,可以将标注数据集划分成训练集、验证集和测试集,利用验证集选择初始识别模型中的超参数,利用训练集训练识别模型中的参数,利用测试集测试训练好的识别模型在真实生产环境中的效果。在训练识别模型的过程中,可以根据识别模型输出的识别结果与标注信息之间的差异确定损失函数值(loss)和识别结果的准确率(acc),通过损失函数值和准确率确定识别模型的训练效果。当损失函数值不再降低、和/或准确率接近1的情况下,即可认为达到训练效果,保存识别模型。然后,可以使用测试集测试识别模型的性能,使用准确率、召回率和F1分数(f1 score)作为识别模型的测试评价指标。
基于本实施例,首先确定初始识别模型中的超参数,可以加快初始识别模型的训练,然利用训练集中的多个公司名称训练语料对确定超参数后的初始识别模型进行训练,提高了识别模型的训练效率和训练效果。
可选地,在其中一些可能的实现方式中,本公开实施例中的所述识别模型可以包括:双向长短期记忆神经网络(Bi-LSTM)和条件随机场(CRF)。
其中,长短期记忆神经网络(LSTM)是一种常见的训练神经网络(RNN)模型,具有优良的模型训练效果和对序列的长远记忆功能,因为LSTM有门机制,可以记忆或者遗忘前面内容。而Bi-LSTM能够充分利用上下文信息,不仅能利用序列前面的信息来预测可能出现的词语,同时也利用序列后面的信息对前面可能出现的词语进行预测。而CRF的Viterbi解码能够预测序列对应的标签,利用联合概率来进一步优化序列的整体效果。将Bi-LSTM模型和CRF模型结合在一起作为识别模型,既考虑了待识别信息中词语标签的局部预测,又将整个序列的全局因素连接在一起。
可选地,在其中一些可能的实现方式中,可以利用Bi-LSTM对输入的待识别信息进行特征提取,然后将Bi-LSTM提取到的特征作为CRF输入,利用CRF从这些特征中计算出待识别信息中每一个元素的标签,即属于位置信息、组织形式信息还是其他信息。
CRF是机器学习的方法,机器学习中困难的一点就是如何选择和构造特征。Bi-LSTM属于深度学习方法,深度学习的优势在于不需要人为的构造和选择特征,模型会根据训练语料自动的选择构造特征。因此采用Bi-LSTM进行特征的选择构造,然后采用CRF根据得到的特征进行预测,得到最终的待识别信息中每一个元素的标签标注结果作为识别结果。本公开实施例将深度学习和机器学习相结合,互相取长补短,从而提高了对待识别信息识别结果的准确性。
基于本公开实施例,可以利用识别模式识别公司名称,从而实现对公司名称的分类等各种应用。另外,本公开实施例还可以用于其他待识别信息的识别,例如,提取快递地址中的县、市、区、社区、街道等信息。本公开实施例对具体的应用场景和应用领域不做限制。
本公开实施例提供的任一种信息识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种信息识别方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种信息识别方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图7示出本公开第一示例性实施例中信息识别装置的框图。本公开任一实施例提供的信息识别装置可用于实现本公开上述实施例中信息识别方法。本公开任一实施例提供的信息识别装置可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105上,但本公开并不限定于此。
如图7所示,该实施例的信息识别装置包括:获取模块501和识别模块502。
其中:
获取模块501,用于获取待识别信息。
识别模块502,用于利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息。
其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,所述训练语料标注有位置标注信息、组织形式标注信息和其他标注信息;所述位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址;所述组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。
基于本公开实施例,预先采集多个地址构成地址集,预先采集多个组织形式构成组织形式集,基于地址集和组织形式集对多个公司名称样本进行位置信息、组织形式信息和其他信息的标注,得到多个公司名称训练语料构成训练集,基于该训练集训练得到识别模型,在对待识别信息进行识别时,通过获取待识别信息,并利用训练好的识别模型对待识别信息进行实体识别,即可准确识别出待识别信息中的位置信息、组织形式信息和其他信息,提高了公司名称识别的准确性,提升了公司名称的识别效果,能满足对公司名的信息提取需求。
可选地,在其中一些可能的实现方式中,所述待识别信息可以包括:待识别的公司名称。然而,本公开实施例并不限于此,本公开实施例也可用于对公司名称外的任意进行信息识别。
可选地,在其中一些可能的实现方式中,公司名称中的所述其他信息例如可以包括但不限于以下至少一项:字号,行业。
图8示出本公开第二示例性实施例中信息识别装置的框图。如图8所示,在图7所示实施例的基础上,本实施例的信息识别装置还包括:第一采集模块503,第一处理模块504,第二采集模块505和第一构建模块506。其中:
第一采集模块503,用于从公司信息数据库中采集预设区域范围内的多个第一公司名称。
第一处理模块504,用于分别对所述多个第一公司名称中的每个第一公司名称按照预设处理方式进行处理,得到第一处理结果,所述第一处理结果中包括每个所述第一公司名称中的地址和组织形式。
第二采集模块505,用于从所述第一处理结果中采集各级地址和各种组织形式。
所述第一采集模块503,还用于分别基于所述各级地址中的至少一个地址从所述公司信息数据库中采集至少一个第二公司名称,所述至少一个第二公司名称包括所述多个第一公司名称以外的至少一个公司名称。
所述第一处理模块504,还用于分别对所述至少一个第二公司名称中的每个第二公司名称按照预设处理方式进行处理,得到第二处理结果,所述第二处理结果中包括每个所述第二公司名称中的地址和组织形式。
所述第二采集模块505,还用于从所述第二处理结果中采集各级地址和各种组织形式。
第一构建模块506,用于基于从所述第一处理结果中采集的各级地址和从所述第二处理结果中采集的各级地址构成所述地址集,基于从所述第一处理结果中采集的各种组织形式和从所述第二处理结果中采集的各种组织形式构成所述组织形式集。
可选地,再参见图8,上述实施例的信息识别装置还可以包括:第三采集模块507,第一确定模块508和标注模块509。其中:
第三采集模块507,用于采集多个公司名称样本。
第一确定模块508,用于采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述多个公司名称样本中的每个公司名称样本,确定每个所述公司名称样本中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息。
标注模块509,用于采用预设序列标注方法,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料,所述多个公司名称样本对应的多个所述公司名称训练语料构成标注数据集,所述标注数据集包括所述训练集。
可选地,在其中一些可能的实现方式中,第一确定模块508可以包括:第一确定单元,用于采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息,得到确定结果;修正单元,用于采用预设词性增强方式,对所述确定结果进行修正,得到修正结果;所述标注模块,具体用于采用预设序列标注装置,根据所述修正结果,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料。
可选地,在其中一些可能的实现方式中,所述第一确定单元,具体用于:分别以所述地址集中的各级地址和所述组织形式集中的各种组织形式作为正则匹配条件,匹配出每个所述公司名称样本中的位置信息和组织形式信息,以未匹配出的信息作为其他信息。
可选地,在其中一些可能的实现方式中,所述修正单元,具体用于:
响应于所述公司名称样本中的位置信息和组织形式信息中存在重合的字词,确定所述重合的字词是否存在于预设重合集中;若所述重合的字词存在于所述预设重合集中,基于位置信息优先匹配的原则,以存在重合的字词的所述公司名称样本作为第一待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定所述第一待处理公司名称样本中的位置信息、组织形式信息和其他信息;其中,所述预设重合集包括所述地址集与所述组织形式集中重合的字词;
和/或,
响应于所述公司名称样本中的位置信息中存在预设附加集中的字词,增加所述预设附加集中的字词后结合通配符作为优先正则匹配条件,以存在预设附加集中的字词的公司名称样本作为第二待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息的操作;其中,所述预设附加集包括所述地址集与其他信息集中重合的字词,所述其他信息集包括预先从公司信息数据库中采集的公司名称中除地址和组织形式外的其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括第一特定地址字符、且所述公司名称样本中在所述特定地址字符后相邻的字符为第二特定字符,将包括所述第一特定地址字符的一级地址纠正为其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括多级地址,基于预先设置的所述地址集中各级地址之间的包含关系,确定所述多级地址中的任意两级相邻地址之间是否包含关系;响应于所述多级地址中存在不是包含关系的相邻两级地址,将所述位置信息中不是包含关系的相邻两级地址中的较低级地址以及所述位置信息中所述较低级地址后的各级地址纠正为其他信息。
可选地,在其中一些可能的实现方式中,所述预设序列标注方法例如可以包括但不限于以下任意一项:BIO标注方法,BIOSE标注方法(也称为SBEIO、IOBES、BIOES等),BMES标注方法,等等。
可选地,再参见图8,上述实施例的信息识别装置还可以包括:第二构建模块510,第二确定模块511和训练模块512。其中:
第二构建模块510,用于从所述标注数据集中选取多个第一公司名称训练语料构成验证集;从所述标注数据集中选取多个第二公司名称训练语料构成所述训练集。
第二确定模块511,用于利用所述验证集中的多个第一公司名称训练语料确定初始识别模型中的超参数。
训练模块512,用于利用所述训练集中的多个公司名称训练语料,对确定超参数后的初始识别模型进行训练,直至满足预设训练完成条件,得到所述识别模型。
可选地,在其中一些可能的实现方式中,本公开实施例中的所述识别模型可以包括:双向长短期记忆神经网络(Bi-LSTM)和条件随机场(CRF)。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的信息识别方法。
本公开实施例提供的信息识别装置中的各个模块、单元和子单元的具体实现可以参照上述信息识别方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
本公开实施例还提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例所述的信息识别方法。
图9示出本公开示例性实施例中电子设备的框图。
如图9所示,示例电子设备60包括用于执行软件例程的处理器601尽管为了清楚起见示出了单个处理器,但是电子设备60也可以包括多处理器系统。处理器601连接到通信基础设施602,用于与电子设备60的其他组件进行通信。通信基础设施602可以包括例如通信总线、交叉开关或网络。
电子设备60还包括诸如随机存取存储器(Random Access Memory,RAM)之类的存储器,所述存储器可包括主存储器603和辅助存储器610。辅助存储器610可以包括,例如硬盘驱动器611和/或可移动存储驱动器612,可移动存储驱动器612可以包括软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器612以常规方式对可移动存储单元613进行读取和/或写入。可移动存储单元613可以包括由可移动存储驱动器612读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解,可移动存储单元613包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器610可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备60中的其他类似装置。这样的装置可以包括例如可移动存储单元621和接口620。可移动存储单元621和接口620的示例包括:程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或PROM)和相关联的插槽、以及其他可移动存储单元621和允许软件和数据从可移动存储单元621传输到电子设备60的接口620。
电子设备60还包括至少一个通信接口940。通信接口940允许软件和数据经由通信路径941在电子设备60和外部设备之间传输。在本发明的各种实施例中,通信接口940允许数据在电子设备60和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口940可用于在不同的电子设备60之间交换数据,这些电子设备60形成互连的计算机网络的一部分。通信接口940的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口940可以是有线的或者可以是无线的。经由通信接口940传输的软件和数据为信号形式,该信号可以是能够被通信接口940接收的电、磁、光或其他信号。这些信号经由通信路径941被提供给通信接口。
如图9所示,电子设备60还包括显示器接口931和音频接口932,显示器接口931执行用于将图像渲染到关联的显示器930的操作,音频接口932用于执行通过关联的扬声器933播放音频内容的操作。
在本公开文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元613、可移动存储单元621、安装在硬盘驱动器611中的硬盘、或承载着软件通过通信路径941(无线链路或电缆)到通信接口940的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备60以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等,这些部件无论是在电子设备60的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备60提供软件、应用程序、指令和/或数据,这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。
计算机程序(也被称为计算机程序代码)存储在主存储器603和/或辅助存储器610中。也可以经由通信接口940来接收计算机程序。此类计算机程序在被执行时使电子设备60能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中,计算机程序在被执行时,使处理器601能够执行上述实施例的特征。因此,此类计算机程序代表计算机系统60的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器612、硬盘驱动器611或接口620加载到电子设备60中。替代地,可以通过通信路径941将计算机程序产品下载到计算机系统60。该软件在由处理器601执行时促使电子设备60执行本文描述的实施例的功能。
应该理解,图9的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略电子设备60的一个或多个特征。而且,在一些实施例中,电子设备60的一个或多个特征可以被组合在一起。另外,在一些实施例中,电子设备60的一个或多个特征可以被分成一个或多个组成部分。
可以理解的是,图9所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。
在一种实施方式中,服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2-6所示信息识别方法的功能。
本公开实施例还提供了一种计算机程序,包括计算机可读代码,当该计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现图2-6所示信息识别方法的功能。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (15)
1.一种信息识别方法,其特征在于,包括:
获取待识别信息;
利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,所述训练语料标注有位置标注信息、组织形式标注信息和其他标注信息;所述位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址;所述组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。
2.根据权利要求1所述的方法,其特征在于,所述待识别信息包括:待识别的公司名称。
3.根据权利要求2所述的方法,其特征在于,所述其他信息包括以下至少一项:字号,行业。
4.根据权利要求1-3任一所述的方法,其特征在于,还包括:
从公司信息数据库中采集预设区域范围内的多个第一公司名称;
分别对所述多个第一公司名称中的每个第一公司名称按照预设处理方式进行处理,得到第一处理结果,所述第一处理结果中包括每个所述第一公司名称中的地址和组织形式;
从所述第一处理结果中采集各级地址和各种组织形式;
分别基于所述各级地址中的至少一个地址从所述公司信息数据库中采集至少一个第二公司名称,所述至少一个第二公司名称包括所述多个第一公司名称以外的至少一个公司名称;
分别对所述至少一个第二公司名称中的每个第二公司名称按照预设处理方式进行处理,得到第二处理结果,所述第二处理结果中包括每个所述第二公司名称中的地址和组织形式;
从所述第二处理结果中采集各级地址和各种组织形式;
基于从所述第一处理结果中采集的各级地址和从所述第二处理结果中采集的各级地址构成所述地址集,基于从所述第一处理结果中采集的各种组织形式和从所述第二处理结果中采集的各种组织形式构成所述组织形式集。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
采集多个公司名称样本;
采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述多个公司名称样本中的每个公司名称样本,确定每个所述公司名称样本中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
采用预设序列标注方法,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料,所述多个公司名称样本对应的多个所述公司名称训练语料构成标注数据集,所述标注数据集包括所述训练集。
6.根据权利要求5所述的方法,其特征在于,所述采用预设确定方式,基于所述地址集和所述组织形式集,分别针对所述至少一个公司名称样本中的每个公司名称样本,确定每个所述公司名称样本中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息,包括:
采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息,得到确定结果;
采用预设词性增强方式,对所述确定结果进行修正,得到修正结果;
所述采用预设序列标注方法,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料,包括:
采用预设序列标注方法,根据所述修正结果,对每个所述公司名称样本中的位置信息、组织形式信息和其他信息进行标注,得到所述公司名称训练语料。
7.根据权利要求6所述的方法,其特征在于,所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息,包括:
分别以所述地址集中的各级地址和所述组织形式集中的各种组织形式作为正则匹配条件,匹配出每个所述公司名称样本中的位置信息和组织形式信息,以未匹配出的信息作为其他信息。
8.根据权利要求7所述的方法,其特征在于,所述采用预设词性增强方式,对所述确定结果进行修正,包括:
响应于所述公司名称样本中的位置信息和组织形式信息中存在重合的字词,确定所述重合的字词是否存在于预设重合集中;若所述重合的字词存在于所述预设重合集中,基于位置信息优先匹配的原则,以存在重合的字词的所述公司名称样本作为第一待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定所述第一待处理公司名称样本中的位置信息、组织形式信息和其他信息;其中,所述预设重合集包括所述地址集与所述组织形式集中重合的字词;
和/或,
响应于所述公司名称样本中的位置信息中存在预设附加集中的字词,增加所述预设附加集中的字词后结合通配符作为优先正则匹配条件,以存在预设附加集中的字词的公司名称样本作为第二待处理公司名称样本,执行所述采用正则匹配方式,基于所述地址集和所述组织形式集,确定每个所述公司名称样本中的位置信息、组织形式信息和其他信息的操作;其中,所述预设附加集包括所述地址集与其他信息集中重合的字词,所述其他信息集包括预先从公司信息数据库中采集的公司名称中除地址和组织形式外的其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括第一特定地址字符、且所述公司名称样本中在所述特定地址字符后相邻的字符为第二特定字符,将包括所述第一特定地址字符的一级地址纠正为其他信息;
和/或,
响应于确定出的所述公司名称样本中的位置信息中包括多级地址,基于预先设置的所述地址集中各级地址之间的包含关系,确定所述多级地址中的任意两级相邻地址之间是否包含关系;响应于所述多级地址中存在不是包含关系的相邻两级地址,将所述位置信息中不是包含关系的相邻两级地址中的较低级地址以及所述位置信息中所述较低级地址后的各级地址纠正为其他信息。
9.根据权利要求6-8任一所述的方法,其特征在于,所述预设序列标注方法包括以下任意一项:BIO标注方法,BIOSE标注方法,BMES标注方法。
10.根据权利要求5-9任一所述的方法,其特征在于,还包括:
从所述标注数据集中选取多个第一公司名称训练语料构成验证集;从所述标注数据集中选取多个第二公司名称训练语料构成所述训练集;
利用所述验证集中的多个第一公司名称训练语料确定初始识别模型中的超参数;
利用所述训练集中的多个公司名称训练语料,对确定超参数后的初始识别模型进行训练,直至满足预设训练完成条件,得到所述识别模型。
11.根据权利要求1-10任一所述的方法,其特征在于,所述识别模型包括:双向长短期记忆神经网络Bi-LSTM和条件随机场CRF。
12.一种信息识别装置,其特征在于,包括:
获取模块,用于获取待识别信息;
识别模块,用于利用识别模型对所述待识别信息进行实体识别,得到所述待识别信息中的位置信息、组织形式信息、以及所述位置信息和所述组织形式信息以外的其他信息;
其中,所述识别模型预先基于训练集训练得到,所述训练集包括多个公司名称训练语料,所述训练语料标注有位置标注信息、组织形式标注信息和其他标注信息;所述位置标注信息基于地址集标注得到,所述地址集包括多个预先采集的地址;所述组织形式标注信息基于组织形式集标注得到,所述组织形式集包括多个预先采集的组织形式。
13.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-11任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-11任一所述的方法。
15.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1-11中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110098533.8A CN112784015B (zh) | 2021-01-25 | 2021-01-25 | 信息识别方法和装置、设备、介质和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110098533.8A CN112784015B (zh) | 2021-01-25 | 2021-01-25 | 信息识别方法和装置、设备、介质和程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784015A true CN112784015A (zh) | 2021-05-11 |
CN112784015B CN112784015B (zh) | 2024-03-12 |
Family
ID=75759022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110098533.8A Active CN112784015B (zh) | 2021-01-25 | 2021-01-25 | 信息识别方法和装置、设备、介质和程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784015B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492383A (zh) * | 2021-12-20 | 2022-05-13 | 北京邮电大学 | 一种数字货币交易地址的实体名称识别方法和装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350964A (ja) * | 2005-06-20 | 2006-12-28 | Sharp Corp | 文字認識装置、文字認識方法、データ変換装置、データ変換方法、文字認識プログラム、データ変換プログラム、並びに文字認識プログラムおよびデータ変換プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US20140358544A1 (en) * | 2013-05-30 | 2014-12-04 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN106777336A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于深度学习的公司名成分抽取系统和方法 |
CN109522417A (zh) * | 2018-10-26 | 2019-03-26 | 浪潮软件股份有限公司 | 一种公司名的商号抽取方法 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN110232187A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
CN110866394A (zh) * | 2019-10-12 | 2020-03-06 | 上海数禾信息科技有限公司 | 公司名称识别方法及装置、计算机设备及可读存储介质 |
CN111026830A (zh) * | 2019-12-17 | 2020-04-17 | 深圳前海环融联易信息科技服务有限公司 | 基于地址的地区识别方法、装置、计算机设备及存储介质 |
CN111475603A (zh) * | 2019-01-23 | 2020-07-31 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
CN111651992A (zh) * | 2020-04-24 | 2020-09-11 | 平安科技(深圳)有限公司 | 命名实体标注方法、装置、计算机设备和存储介质 |
CN111783467A (zh) * | 2020-07-21 | 2020-10-16 | 致诚阿福技术发展(北京)有限公司 | 一种企业名称识别方法及装置 |
-
2021
- 2021-01-25 CN CN202110098533.8A patent/CN112784015B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350964A (ja) * | 2005-06-20 | 2006-12-28 | Sharp Corp | 文字認識装置、文字認識方法、データ変換装置、データ変換方法、文字認識プログラム、データ変換プログラム、並びに文字認識プログラムおよびデータ変換プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US20140358544A1 (en) * | 2013-05-30 | 2014-12-04 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN106777336A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于深度学习的公司名成分抽取系统和方法 |
CN109522417A (zh) * | 2018-10-26 | 2019-03-26 | 浪潮软件股份有限公司 | 一种公司名的商号抽取方法 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN111475603A (zh) * | 2019-01-23 | 2020-07-31 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
CN110232187A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
CN110866394A (zh) * | 2019-10-12 | 2020-03-06 | 上海数禾信息科技有限公司 | 公司名称识别方法及装置、计算机设备及可读存储介质 |
CN111026830A (zh) * | 2019-12-17 | 2020-04-17 | 深圳前海环融联易信息科技服务有限公司 | 基于地址的地区识别方法、装置、计算机设备及存储介质 |
CN111651992A (zh) * | 2020-04-24 | 2020-09-11 | 平安科技(深圳)有限公司 | 命名实体标注方法、装置、计算机设备和存储介质 |
CN111783467A (zh) * | 2020-07-21 | 2020-10-16 | 致诚阿福技术发展(北京)有限公司 | 一种企业名称识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
向晓雯, 史晓东, 曾华琳: "一个统计与规则相结合的中文命名实体识别系统", 计算机应用, no. 10, pages 192 - 194 * |
田家源;杨东华;王宏志;: "面向互联网资源的医学命名实体识别研究", 计算机科学与探索, no. 06, pages 53 - 62 * |
郭丰堂;李云岭;林春华;赵英;: "地名地址数据库多源集成方法研究", 测绘与空间地理信息, no. 02, pages 69 - 72 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492383A (zh) * | 2021-12-20 | 2022-05-13 | 北京邮电大学 | 一种数字货币交易地址的实体名称识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112784015B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN112712069B (zh) | 一种判题方法、装置、电子设备及存储介质 | |
CN112860852A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN111915086A (zh) | 异常用户预测方法和设备 | |
JP2015075993A (ja) | 情報処理装置及び情報処理プログラム | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN110751234A (zh) | Ocr识别纠错方法、装置及设备 | |
CN112784015B (zh) | 信息识别方法和装置、设备、介质和程序 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN112395858A (zh) | 融合试题数据和解答数据的多知识点标注方法和系统 | |
CN109726398B (zh) | 一种实体识别及属性判断方法、系统、设备及介质 | |
CN111930976A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN111104520A (zh) | 一种基于人物身份的人物实体链接方法 | |
CN110750712A (zh) | 基于数据驱动的软件安全需求推荐方法 | |
CN115438645A (zh) | 一种序列标注任务的文本数据增强方法及系统 | |
CN113609390A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN111339776B (zh) | 简历解析方法、装置、电子设备和计算机可读存储介质 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN112036343A (zh) | 答案提取方法、装置、计算机可读介质及电子设备 | |
CN115374884B (zh) | 基于对比学习的摘要生成模型的训练方法和摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |