CN113962226A - 一种用于公司名称的提取方法和系统 - Google Patents

一种用于公司名称的提取方法和系统 Download PDF

Info

Publication number
CN113962226A
CN113962226A CN202111223823.7A CN202111223823A CN113962226A CN 113962226 A CN113962226 A CN 113962226A CN 202111223823 A CN202111223823 A CN 202111223823A CN 113962226 A CN113962226 A CN 113962226A
Authority
CN
China
Prior art keywords
speech
company
company name
extracted
regular expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111223823.7A
Other languages
English (en)
Inventor
许全聪
吴少华
吴江煌
彭玄宁
吴仁均
连慧奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Yian Information Technology Co ltd
Original Assignee
Xiamen Meiya Yian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Yian Information Technology Co ltd filed Critical Xiamen Meiya Yian Information Technology Co ltd
Priority to CN202111223823.7A priority Critical patent/CN113962226A/zh
Publication of CN113962226A publication Critical patent/CN113962226A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种用于公司名称的提取方法和系统,包括获取公司名称样本,对公司名称样本进行分词处理和词性判断;基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。还公开了一种用于公司名称的提取系统,该方法和系统能够准确快速的在海量资讯中定位公司名称,可以运用于在资讯中嵌入公司详情信息,或大数据的关联分析场景中。

Description

一种用于公司名称的提取方法和系统
技术领域
本发明涉及计算机技术应用领域,尤其是一种用于公司名称的提取方法和系统。
背景技术
在如今飞速发展的互联网时代下,信息量也越来越大,各种不同的信息资讯通过各种媒介进行传播。公司是参与商业活动的主体。商业资讯和财经资讯中经常会出现公司名称。如果能够准确快速的从资讯中提取其中的公司名称,就可以提供给第三方系统用于他途,包括但不仅限于搜索引擎、舆情分析、数据关联分析等应用场景。因此,提取公司名称的方法是非常重要的。另外,由于新闻资讯数据量巨大,因此这些数据的分析速度也是需要重视的。同时根据国家有关法律、法规的规定,公司名称一般由四部分组成:行政区划、字号、行业(经营特点)和组织形式。由于公司字号的复杂性和多样性,导致利用数据处理技术提取公司名称的难度加大。
在公司名称挖掘的现有技术中,有一种方案是通过爬虫或其他方式构建有限的公司名称据集,再基于这些数据集使用AC-BM等搜索算法定位原始文档中的公司名称。另一现有方案是基于词性标注的公司名称数据集训练的神经网络模型,对公司名称进行识别。这些技术具有如下问题:
1、基于有限的公司名称数据集进行搜索,具有数据覆盖不全的问题。
2、基于神经网络模型的方案,需要采集一定量的训练样本对网络模型进行训练,过程较为复杂。
发明内容
为了解决现有技术中基于有限的公司名称数据集进行搜索,具有数据覆盖不全的问题、基于神经网络模型的方案,需要采集一定量的训练样本对网络模型进行训练,过程较为复杂的技术问题,本发明提出了一种用于公司名称的提取方法和系统,用以解决上述技术问题,
根据本发明的一个方面,提出了一种用于公司名称的提取方法,包括:
S1:获取公司名称样本,对公司名称样本进行分词处理和词性判断;
S2:基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;以及
S3:对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。
在一些具体的实施例中,步骤S1中采用自然语言处理算法进行分词处理和词性判断。利用自然语言处理算法可以快速准确实现分词和词性的判断处理。
在一些具体的实施例中,分词处理和词性判断获取的词性结构包括名词、地名、人名、其他专名、标点符号和机构后缀。基于该词性结构可以将公司名称分割成多个词性结构。
在一些具体的实施例中,公司名称的词性结构特征的正则表达式以分词为单位进行匹配。凭借该设置能够使得匹配结果更加精准。
在一些具体的实施例中,每个分词的正则表达式规则为分词位置+词性标注+结束记号,其中分词位置以数字序号表示。利用该规则可以准确定位分词的位置情况,以便于快速定位公司名称。
在一些具体的实施例中,步骤S3具体包括:
S31:在待提取文本中定位和提取可能存在公司名称的段落集合;
S32:对段落集合进行分词处理和词性判断,并构建提取段落的词性构成表达式;
S33:利用步骤S2中的正则表达式逐一对提取段落的词性构成表达式进行匹配提取公司名称。
在一些具体的实施例中,步骤S2中提取若干词性结构特征的正则表达式构成正则表达式库,响应于正则表达式匹配提取段落的词性构成表达式进行匹配提取公司名称,增加正则表达式的置信度。通过置信度的设置可以将匹配成功率高的正则表达式置顶,以提高后续匹配的速度。
在一些具体的实施例中,基于正则表达式的置信度降序进行匹配。凭借该设定可以提高匹配的速度。
根据本发明的第二方面,一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出了一种用于公司名称的提取系统,该系统包括:
处理单元:配置用于获取公司名称样本,对公司名称样本进行分词处理和词性判断;
正则表达式构建单元:配置用于基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;
提取单元:配置用于对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。
本发明的一种用于公司名称的提取方法和系统,根据公司名称的词性组成建立公司名称词性的正则表达式,在待提取文档中定位可能存在公司名称的可疑文本片段,使用中文分词处理对可疑片段进行分词处理,最后使用预先设置的正则表达式提取可疑片段中的公司名称,该方法无需构建公司名称数据集、使用词性正则匹配能够覆盖现有和未来产生的所有标准的公司名称,不需要基于神经网路模型。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是本申请的一个实施例的用于公司名称的提取方法的流程图;
图2是本申请的一个具体的实施例的提取匹配公司名称词性构成方法的流程图;
图3是本申请的一个具体的实施例的提取公司名称的方法流程图;
图4是本申请的一个具体的实施例的提取公司名称词性结构正则表达式的方法实例流程图;
图5是本申请的一个实施例的用于公司名称的提取系统的框架图;
图6是是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1出了根据本申请的一个实施例的用于公司名称的提取方法的流程图,如图1所示,该方法包括以下步骤:
S101:获取公司名称样本,对公司名称样本进行分词处理和词性判断。具体的,可以采用自然语言处理算法进行分词处理和词性判断,分词处理和词性判断获取的词性结构包括有名词、地名、人名、其他专名、计算机相关词汇、标点符号和机构后缀等。
在具体的实施例中,根据相关规定,企业名称一般由四部分组成:行政区划+字号+行业+组织形式。例如:“北京顶牛科技有限公司”。行政区划一般表述为“北京”或“北京市”,“北京”也可以在名称中间使用,但应加上括号,例如:蓝天(北京)科技有限公司。字号是区别于拟从事的主要业务相同的其他企业的标志,也就是商号。字号应由两个以上符合国家规范的汉字组成。行业是指要从事的主要经营项目,可表述为“商业”、“科技”、“餐饮”等。公司制企业一般应表述为“有限公司”、“有限责任公司”、“股份公司”、“股份有限公司”。企业名称具有唯一性多样性的特征,但其也具有一定的词性结构特征,例如“蓝天(北京)科技有限公司”具有“名词+符号+地名+符号+专名+机构名称”的词性结构。因此,根据其词性结构特征,可以把无限的企业名词归类为有限的几种词性结构特征。
S102:基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式。公司名称的词性结构特征的正则表达式以分词为单位进行匹配,每个分词的正则表达式规则为分词位置+词性标注+结束记号,其中分词位置以数字序号表示。利用该正则表达式可以准确地提取获得公司的名称。
在具体的实施例中,图2示出了本申请的一个具体的实施例的提取匹配公司名称词性构成方法的流程图,如图2所示,基于公司名称样本提取若干词性结构特征正则表达式包括以下步骤:
S201:获取公司名称样本。具体的可以在企业工商信息网或他专用数据库中获取样本。获取的样本以公司名称结构多样性、公司名称包含的词性多样性为标准。例如:“蓝天(北京)科技有限公司”对应的词性结构为“名词、标点符号、地名、标点符号、其他专名、机构后缀”;“厦门市美亚柏科信息股份有限公司”对应的词性结构为“地名、其他专名、人名、其他专名、机构后缀”;“用友软件股份有限公司”对应的词性结构为“其他专名、名词、机构后缀”。
S202:对样本进行分词处理和词性判断。对上述步骤中获取的样本使用自然语言处理算法进行分词和词性判断,可以使用CoreNLP、HanLP等自然语言处理库对样本进行分词和词性判断。本实施例中使用HanLP自然语言处理库对公司名称进行分词处理和词性判断,如表1所示的为HanLP对公司名称样本分词处理和词性判断的结果,其中ns,nz,w,nis等为特定词性的标注。
表1.公司名称样本分词处理和词性判断结果
Figure BDA0003312884890000051
Figure BDA0003312884890000061
S203:根据公司名称词性组成结构提取若干个词性结构特征正则表达式。具体地,公司名称词性结构的正则表达式以分词为单位进行匹配。本实施例中每个分词的正则表达式设定为“分词位置+词性标注+结束记号”的格式,其中分词位置以数字序号表示,结束记号以“;”表示。例如“[0-9]+ns;”。
在一个具体的实施例中,参考图4中示出的根据本申请的一个具体的实施例的提取公司名称词性结构正则表达式的方法实例流程图,如图4所示,对于401中的样本1:厦门市,美亚,柏科,信息,股份有限公司,其词性构成:地名,其他专名,人名,其他专名,机构后缀(ns,nz,nr,nz,nis),402中的样本2:北京,暴风,网际,科技,有限公司,其词性构成:地名,名词,计算机相关词汇,名词,机构后缀(ns,n,gi,n,nis);二者都具有典型的公司名模式403:“地名+若干有限词性的分词+机构后缀”的词性结构模式;对每个分词进行表达式构建404可获得地名:([0-9]+ns;),若干有限词性的分词:([0-9]+gi;|[0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nis;|[0-9]+nz;){1,4},机构后缀:([0-9]+nis;)$;最终构建405中的公司名称词性构建的正则表达式:([0-9]+ns;)([0-9]+gi;|[0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nis;|[0-9]+nz;){1,4}([0-9]+nis;)$。
对于406中样本1:蓝天,(,北京,),科技,有限公司,其词性构成:名词、标点符号、地名、标点符号、其他专名、机构后缀(n,w,ns,w,nz,nis),407中样本2:哈希,水质,分析仪器,(,上海,),有限公司,其词性构成:音译人名,名词,其他专名,标点符号,地名,标点符号,机构后缀(nrf,n,nz,w,ns,w,nis);二者都具有公司名模式408:“若干有限词性的分词+符号+地名+符号+若干有限词性的分词+机构后缀”的词性结构模式;对每个分词进行表达式构建409可获得:若干有限词性的分词:([0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nz;){1,4},符号+地名+符号:([0-9]+w;)([0-9]+ns;)([0-9]+w;),若干有限词性的分词:([0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nz;){1,4},机构后缀:([0-9]+nis;)$;最终构建410中的公司名称词性构建的正则表达式:([0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nz;){1,4}([0-9]+w;)([0-9]+ns;)([0-9]+w;)([0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nz;){1,4}([0-9]+nis;)$。
又如表1中的“用友软件股份有限公司”具有“名词性分词+若干有限词性的分词+机构后缀”的公司名模式。因此可以提取正则表达式“([0-9]+ng;|[0-9]+gi;|[0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nis;|[0-9]+nz;|[0-9]+qt;)([0-9]+a;|[0-9]+ag;|[0-9]+b;|[0-9]+f;|[0-9]+gi;|[0-9]+n;|[0-9]+nr;|[0-9]+nrf;|[0-9]+nis;|[0-9]+nz;|[0-9]+m;|[0-9]+qt;|[0-9]+rg;|[0-9]+v;|[0-9]+vg;){1,3}(nis)$”。
S103:对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。对于待提取文本中可能存在公司名称的段落进行分词处理和词性判断,同样对段落进行正则表达式的构建,再利用上述公司样本的正则表达式对段落的正则表达式进行匹配,即可准确快速地定位并提取到段落中的公司名称。
在具体的实施例中,图3示出了根据本申请的一个具体的实施例的提取公司名称的方法流程图,如图3所示,步骤S103中提取公司名称具体包括以下步骤:
S301:获取待提取的文本,并在待提取的文本中定位和提取可能存在公司名称的段落。待提取文本可以为任意的文字文本,具体地文本定位使用关键词“公司”定位段落的结束位置,并以“公司”位置的前N个位置为段落的起始位置,其中N以公司名称可能的最长长度为准。例如待提取文本为“计算机学院一行6人前往厦门美亚柏科信息股份有限公司进行调研和交流”,定位到公司相关段落为“计算机学院一行6人前往厦门美亚柏科信息股份有限公司”。
S302:对提取的段落进行分词处理和词性判断。对步骤301中获取的段落集合中的每个段落使用自然语言处理算法进行分词和词性判断。例如“计算机学院一行6人前往厦门美亚柏科信息股份有限公司”分词后的结果为“计算机,学院,一行,6,人,前往,厦门,美亚,柏科,信息,股份有限公司”,对应的分词词性为“名词,机构后缀,名词,数词,名词,动词,地名,其他专名,人名,名词,机构后缀”,对应的分词词性标注为“n,nis,n,m,n,v,ns,nz,nr,n,nis”。
S303:构建提取段落的词性构成表达式。对步骤302中的段落集合中的段落构建相应的词性结构表达式。具体地,公司名称词性结构表达式以分词为单位进行匹配。本实施例中每个分词的表达式设定为“分词位置+词性标注+结束记号”的格式,其中分词位置以数字序号表示,结束记号以“;”表示。本实施例中“计算机学院一行6人前往厦门美亚柏科信息股份有限公司”的词性结构表达式为“1n;2nis;3n;4m;5n;6v;7ns;8nz;9nr;10n;11nis;”。
S304:提取公司名称。使用如图2中生成的词性结构特征正则表达式逐一对步骤303提取的段落词性结构表达式进行公司名称提取。在本实例中词性结构表达式“1n;2nis;3n;4m;5n;6v;7ns;8nz;9nr;10n;11nis;”使用正则匹配后得到的词性表达式为“7ns;8nz;9nr;10n;11nis;”,公司名称的起始分词的位置为7,对应提取到的公司名称为“厦门美亚柏科信息股份有限公司”。
在一些优选的实施例中,图2中提取若干词性结构特征的正则表达式构成正则表达式库,响应于正则表达式匹配提取段落的词性构成表达式进行匹配提取公司名称,增加正则表达式的置信度。基于正则表达式的置信度降序进行匹配,增加后续匹配的准确性以提高匹配速度。
继续参考图5,图5示出了根据本申请的一个实施例的用于公司名称的提取系统的框架图,如图5所示,该系统包括处理单元501、正则表达式构建单元502和提取单元503。其中,处理单元501配置用于获取公司名称样本,对公司名称样本进行分词处理和词性判断;正则表达式构建单元502配置用于基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;提取单元503配置用于对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括部署单元、指令处理单元和文件访问单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取公司名称样本,对公司名称样本进行分词处理和词性判断;基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于公司名称的提取方法,其特征在于,包括:
S1:获取公司名称样本,对所述公司名称样本进行分词处理和词性判断;
S2:基于所述公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;以及
S3:对待提取文本中进行分词处理和词性判断,利用所述正则表达式提取所述待提取文本中的公司名称。
2.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述步骤S1中采用自然语言处理算法进行分词处理和词性判断。
3.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述分词处理和词性判断获取的词性结构包括名词、地名、人名、其他专名、标点符号和机构后缀。
4.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述公司名称的词性结构特征的正则表达式以分词为单位进行匹配。
5.根据权利要求4所述的用于公司名称的提取方法,其特征在于,每个分词的正则表达式规则为分词位置+词性标注+结束记号,其中分词位置以数字序号表示。
6.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述步骤S3具体包括:
S31:在待提取文本中定位和提取可能存在公司名称的段落集合;
S32:对所述段落集合进行分词处理和词性判断,并构建提取段落的词性构成表达式;
S33:利用所述步骤S2中的正则表达式逐一对所述提取段落的词性构成表达式进行匹配提取公司名称。
7.根据权利要求6所述的用于公司名称的提取方法,其特征在于,所述步骤S2中提取若干词性结构特征的正则表达式构成正则表达式库,响应于所述正则表达式匹配所述提取段落的词性构成表达式进行匹配提取公司名称,增加所述正则表达式的置信度。
8.根据权利要求7所述的用于公司名称的提取方法,其特征在于,基于所述正则表达式的置信度降序进行匹配。
9.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至8中任一项所述的方法。
10.一种用于公司名称的提取系统,其特征在于,所述系统包括:
处理单元:配置用于获取公司名称样本,对所述公司名称样本进行分词处理和词性判断;
正则表达式构建单元:配置用于基于所述公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;
提取单元:配置用于对待提取文本中进行分词处理和词性判断,利用所述正则表达式提取所述待提取文本中的公司名称。
CN202111223823.7A 2021-10-20 2021-10-20 一种用于公司名称的提取方法和系统 Pending CN113962226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111223823.7A CN113962226A (zh) 2021-10-20 2021-10-20 一种用于公司名称的提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111223823.7A CN113962226A (zh) 2021-10-20 2021-10-20 一种用于公司名称的提取方法和系统

Publications (1)

Publication Number Publication Date
CN113962226A true CN113962226A (zh) 2022-01-21

Family

ID=79465105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111223823.7A Pending CN113962226A (zh) 2021-10-20 2021-10-20 一种用于公司名称的提取方法和系统

Country Status (1)

Country Link
CN (1) CN113962226A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
CN105045847A (zh) * 2015-07-01 2015-11-11 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及系统
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN111783460A (zh) * 2020-06-15 2020-10-16 苏宁金融科技(南京)有限公司 一种企业简称提取方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
CN105045847A (zh) * 2015-07-01 2015-11-11 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及系统
CN111783460A (zh) * 2020-06-15 2020-10-16 苏宁金融科技(南京)有限公司 一种企业简称提取方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王宁, 葛瑞芳, 苑春法, 黄锦辉, 李文捷: "中文金融新闻中公司名的识别", 中文信息学报, no. 02, 25 February 2002 (2002-02-25) *

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
Chen et al. A Two‐Step Resume Information Extraction Algorithm
US10163063B2 (en) Automatically mining patterns for rule based data standardization systems
US20180293302A1 (en) Natural question generation from query data using natural language processing system
US20070288458A1 (en) Obfuscating document stylometry
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
AU2018226399A1 (en) Detecting style breaches in multi-author content or collaborative writing
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
JP2002117019A (ja) 意味的まとまりに基づいて文書を分割する装置および方法
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
US20210350090A1 (en) Text to visualization
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
US20130262085A1 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN111815274A (zh) 信息处理方法、装置和电子设备
US20190236131A1 (en) Linguistic based determination of text location origin
US9639524B2 (en) Linguistic based determination of text creation date
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination