CN109101480B - 一种企业名称的切分方法、装置及计算机可读存储介质 - Google Patents
一种企业名称的切分方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109101480B CN109101480B CN201810615090.3A CN201810615090A CN109101480B CN 109101480 B CN109101480 B CN 109101480B CN 201810615090 A CN201810615090 A CN 201810615090A CN 109101480 B CN109101480 B CN 109101480B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- word
- enterprise name
- name
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Character Input (AREA)
Abstract
本发明实施例涉及数据处理领域,公开了一种企业名称的切分方法、装置及计算机可读存储介质。本发明中,在一次企业名称切分过程中,该方法包括:获取上一次切分后剩下的文本;根据上一次切分后剩下的文本的前两个字构成的词的概率,以及上一次切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对上一次切分后剩下的文本的切分方式;根据上一次企业名称切分后剩下的文本,以及切分方式,确定本次切分得到的分词,以及本次切分后剩下的文本;判断本次切分后剩下的文本的字数是否大于2,若是,继续下一次的切分过程,直至字数不大于2,否则,停止切分过程。该方法使得无需根据新增的企业名称改变切分方法。
Description
技术领域
本发明实施例涉及数据处理领域,特别涉及一种企业名称的切分方法、装置及计算机可读存储介质。
背景技术
企业名称(Corporate Name)是一个企业区别于其他企业的文字符号。企业名称的设定必须遵循和符合《企业名称登记管理规定》。企业名称通常包括四个要素:区域信息、字号、行业/经营特点和组织形式。其中,字号为企业的个性要素,其他三个则属于共有要素。通过对企业名称各组成要素的自动抽取和划分,可以对全国企业快速进行地域、行业、类型等的聚类研究,从而构建同类竞争企业的竞争网络图。现有企业名称成分自动抽取方法大多通过行业/领域专家人工定义规则模板。该方法利用规则模板和自然语言处理(NaturalLanguage Processing,NLP)中的一些基础工具(如分词工具、词性标注工具等)进行企业名称的划分和抽取。
然而,发明人发现现有技术中至少存在如下问题:传统的企业名称划分和抽取方法存在以下几个问题:
(1)人工定义规则耗时费力,且成本较高。规则模板需要拥有丰富专业知识的领域专家观察大量的不同形式的企业机构名称的组成形式后编写。
(2)规则模板的抽取召回率较低。企业名称在不同场合的出现形式不一,人工定义的规则模板很难覆盖所有企业名称的定义模式,并且,同一人工规则模板会在不同的企业名称拆分时造成规则歧义和冲突。
(3)人工规则库更新繁琐。据不完全统计全国每天新增企业数量近1万家,专家需要充分了解所有已经定义的规则,并与新申请的企业名称组成模式进行一一比对,从而增加新的人工规则,以覆盖所有新申请企业名称的定义模式。
(4)NLP对未登录词的识别准确率较低。基于人工规则模板的划分和抽取方法中会使用NLP的一些分词工具对企业名称进行初步划分,但由于企业名称的特殊性,会包含一些未登录词(不常用的词语组合,如“趣拿”、“三快在线”等),造成NLP工具标注错误,从而造成企业名称划分过程中的错误叠加。
发明内容
本发明实施方式的目的在于提供一种企业名称的切分方法、装置及计算机可读存储介质,使得无需根据新增的企业名称改变企业名称的切分方法。
为解决上述技术问题,本发明的实施方式提供了一种企业名称的切分方法,在一次企业名称切分过程中,包括以下步骤:
获取上一次企业名称切分后剩下的文本;根据上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对上一次企业名称切分后剩下的文本的切分方式;根据上一次企业名称切分后剩下的文本,以及切分方式,确定本次切分得到的分词,以及本次企业名称切分后剩下的文本;判断本次企业名称切分后剩下的文本的字数是否大于2,若是,继续下一次的企业名称切分过程,直至字数不大于2,否则,停止企业名称切分过程。
本发明的实施方式还提供了一种企业名称的切分装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施方式提及的企业名称的切分方法。
本发明的实施方式还提供了计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的企业名称的切分方法。
本发明实施方式相对于现有技术而言,根据中文汉语本身的构词原则确定企业名称的切分方法,不需要浪费人力观察大量的企业名称来确定切分方法。此外,该企业名称的切分方法是基于构词原则确定的,使得该切分方法可以准确切分不同形式的企业名称,不需根据企业名称的形式以及新增的企业名称更改切分方法。
另外,切分方式为以下三种切分方式中的任意一种:第一切分方式、第二切分方式、第三切分方式;其中,第一切分方式为在上一次企业名称切分后剩下的文本的第1个字和第2个字之间进行切分;第二切分方式为在上一次企业名称切分后剩下的文本的第2个字和第3个字之间进行切分;第三切分方式为在上一次企业名称切分后剩下的文本的第3个字和第4个字之间进行切分。
另外,根据上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对上一次企业名称切分后剩下的文本的切分方式,具体包括:计算上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率与上一次企业名称切分后剩下的文本的前两个字构成的词的概率的比值;若确定比值大于第一阈值,确定切分方式为第二切分方式;若确定比值不大于第一阈值,判断比值是否大于第二阈值;若是,确定切分方式为第三切分方式;否则,确定切分方式为第一切分方式。该方式中,根据使用不同的切分方式得到的分词的概率,确定企业名称的切分方式,使得企业名称的切分装置能够准确的将企业名称切分为多个出现概率较大分词。
另外,在确定企业名称中相邻两个字构成的词分别在企业名称库中出现的概率之前,企业名称的切分方法还包括:提取企业名称中的区域信息,将提取后的企业名称作为切分的企业名称。该方式中,先将区域信息提取出来,缩短了需要切分的文本,减小了切分企业名称的工作量。
另外,提取企业名称中的区域信息,具体包括:基于正向最大匹配算法,提取企业名称中的区域信息。
另外,在停止企业名称切分过程之后,企业名称的切分方法还包括:根据得到的分词,确定企业名称的成分抽取结果。该方式中,使得企业名称的切分装置能够确定企业名称的各要素,进而能够对所有企业快速进行按地域、行业、类型等的聚类研究。
另外,根据得到的分词,确定企业名称的成分抽取结果,具体包括:按得到每个分词的先后顺序排列所有分词;判断所有分词中是否存在由一个字组成的分词,若是,根据由一个字组成的分词的位置,确定由一个字组成的分词的合并方式,将合并后得到的分词,以及其他未合并的分词,作为企业名称的成分抽取结果;若不是,将所有切分得到的分词作为企业名称的成分抽取结果;其中,合并方式包括向前合并方式或向后合并方式,向前合并方式为:将由一个字组成的分词与由一个字组成的分词的前一个分词合并;向后合并方式为:将由一个字组成的分词与由一个字组成的分词的后一个分词合并。
另外,根据得到的分词,确定企业名称的成分抽取结果,具体包括:若确定切分得到的分词的个数大于N,确定相邻的两个分词组成的词语分别在企业名称库中出现的概率,根据相邻的两个分词组成的词语的概率,确定所有分词的合并方式,将合并后得到的分词,以及其他未合并的分词作为企业名称的成分抽取结果;其中,N等于3或4。该方式中,能够在分词个数超过企业名称的要素个数时,根据相邻两个分词组成的词语的概率,确定可合并组成新词组的分词,提高了企业名称切分装置的智能性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明的第一实施方式的企业名称的切分方法的流程图;
图2是根据本发明的第二实施方式的企业名称的切分方法的流程图;
图3是根据本发明第二实施方式的提取企业名称的区域信息的方法的流程图;
图4是根据本发明的第三实施方式的企业名称的切分装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种企业名称的切分方法,应用于企业名称的切分装置。在一次企业名称的切分过程中,该企业名称的切分方法的流程如图1所示,包括:
步骤101:获取上一次企业名称切分后剩下的文本。
步骤102:根据上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对上一次企业名称切分后剩下的文本的切分方式。
具体地说,企业名称的切分装置根据企业名称库,确定企业名称的概率词典,例如,基于2-Gram语言模型的企业名称逆向文件频率(Inverse Document Frequency,简称,IDF)词典,或基于2-Gram语言模型和4-Gram语言模型的企业名称IDF词典。
具体实现中,企业名称的切分装置基于词频-逆向文件频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)的统计思想,对企业名称二元切分,并确定切分得到的分词的在企业名称库中出现的概率。企业名称的切分装置可以根据切分得到的分词的概率确定该分词对企业名称的重要程度。
需要说明的是,企业名称的切分装置可以使用2-Gram语言模型对企业名称进行切分,也可以采用其他语言模型对企业名称进行切分。
以下对确定企业名称的切分方式进行说明。
企业名称的切分装置计算上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率与上一次企业名称切分后剩下的文本的前两个字构成的词的概率的比值,根据比值确定企业名称的切分方式。企业名称的切分装置若确定该比值大于第一阈值,确定切分方式为第二切分方式。企业名称的切分装置若确定该比值不大于第一阈值,判断该比值是否大于第二阈值;若是,确定切分方式为第三切分方式;否则,确定切分方式为第一切分方式。其中,第一切分方式为在上一次企业名称切分后剩下的文本的第1个字和第2个字之间进行切分,第二切分方式为在上一次企业名称切分后剩下的文本的第2个字和第3个字之间进行切分,第三切分方式为在上一次企业名称切分后剩下的文本的第3个字和第4个字之间进行切分。
需要说明的是,实际应用中,第一阈值可以设置为区间[104,106]中的任意一个数值,第二阈值可以设置为区间[10-9,10-6]中的任意一个数值。
另一具体实现中,企业名称的切分装置根据上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率与上一次企业名称切分后剩下的文本的前两个字构成的词的概率之间的差值,确定企业名称的切分方式。其中,根据上述两个概率的差值确定企业名称的切分方式的过程可以参考根据比值确定企业名称的切分方式的过程。
步骤103:根据上一次企业名称切分后剩下的文本,以及切分方式,确定本次切分得到的分词,以及本次企业名称切分后剩下的文本。
具体地说,企业名称的切分装置根据确定的切分方式,将上一次企业名称切分后剩下的文本切分为本次切分得到的分词和本次企业名称切分后剩下的文本。
步骤104:判断本次企业名称切分后剩下的文本的字数是否大于2。
具体地说,若本次企业名称切分后剩下的文本的字数大于2,执行步骤105,否则,停止企业名称切分过程。
步骤105:继续下一次的企业名称切分过程。
具体地说,若企业名称的切分装置确定本次切分后剩下的文本的字数大于2,说明本次切分后剩下的文本中可能还包含有多个词组,需要再进行切分。若本次切分后剩下的文本的字数不大于2,说明本次切分后剩下的文本本身就是一个词语或一个字,不需要再进行切分。
需要说明的是,本领域技术人员可以理解,将企业名称切分为多个词组后,可以根据需要执行其他步骤,以使企业切分装置能够根据切分后的词组确定该企业名称的各个要素的信息。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的企业名称的切分方式,根据中文汉语本身的构词原则确定企业名称的切分方法,不需要浪费人力观察大量的企业名称来确定切分方法。此外,该企业名称的切分方法是基于构词原则确定的,使得该切分方法可以准确切分不同形式的企业名称,不需根据企业名称的形式和新增的企业名称更改切分方法。
本发明的第二实施方式涉及一种企业名称的切分方法。第二实施方式在第一实施方式的基础上做了进一步改进,具体改进之处为:在步骤101之前和步骤105之后,增加了其他相关步骤。
具体的说,如图2所示,在本实施方式中,包含步骤201至步骤208,其中,步骤203至步骤205、步骤207分别与第一实施方式中的步骤101至步骤103、步骤105大致相同,此处不再赘述。下面主要介绍不同之处:
步骤201:对企业名称进行预处理。
具体地说,对企业名称的预处理包括:确定企业名称为非复合企业名称,将企业名称中的繁体字转换为简体字、对企业名称中的括号进行定位、标记和删除等。
具体实现中,若确定企业名称为非复合企业名称,执行本发明实施方式的企业名称的切分方法,若确定企业名称为符合企业名称,可以将企业名称展示给用户,由用户进行该企业名称的切分。
具体实现中,企业名称的切分装置对括号进行定位后,对括号中的文本进行识别,确定括号中的文本是否为区域信息,若确定为区域信息,将括号中的文本提取至企业名称的区域信息中。否则,企业名称的切分装置将括号中的文本显示给用户,和/或,发送提示信息给用于,提醒用户括号文本处理有误。
步骤202:提取企业名称中的区域信息,将提取后的企业名称作为切分的企业名称。
具体地说,在企业名称中包括区域信息时,基于正向最大匹配算法,提取企业名称中的区域信息。
本实施方式中,基于正向最大匹配的算法思想,提取企业名称的区域信息的方法流程图如图3所示。根据统计,企业名称中的区域信息最大会涉及到国内三级行政区划,并且企业名称中区域信息的使用会按照一级、二级、三级排列或跳跃组合。本实施方式识别区域信息的基本思想是:对于预处理后的企业名称,从左到右切分,以获取企业名称中的几个连续字构成的词,将几个连续字构成的词与三级行政区划词表进行迭代匹配,如果匹配上,则切分出该企业名称的候选区域信息,然后再进行下一轮迭代切分,直至无法切分出新的候选区域信息,结束提取企业名称的区域信息的流程。
步骤301:获取EntName,令District=“”,i=2。其中,EntName为企业名称,i为第一截取字数,District为区域信息。
步骤302:判断EntName的词长是否大于i。
具体地说,若EntName的词长大于i,执行步骤303,否则,执行步骤314。
步骤303:从EntName的左边开始,截取W1,W1的词长为i。其中,W1为第一候选词。
步骤304:查找三级行政区划词表,判断W1是否在三级行政区划词表中。若是,执行步骤305,否则,执行步骤312。
步骤305:令j=i+1,flag=False。其中,j为第二截取字数,flag为标志位,False为假,flag=False表示标志位的布尔值为假。
步骤306:判断j是否小于EntName的词长。若是,执行步骤307,否则,执行步骤311。
步骤307:从EntName的左边开始,截取W2,W2的词长为j。其中,W2为第二候选词。
步骤308:查找三级行政区划词表,判断W2是否在三级行政区划词表中。若是,执行步骤309,否则,执行步骤310。
步骤309:令flag=True。之后执行步骤311。其中,True为真,flag=True表示标志位的布尔值为真。
步骤310:j=j+1。之后执行步骤306。
具体地说,j=j+1表示将j更新为比j大1的数。
步骤311:判断flag=True是否成立。若是,执行步骤312,否则,执行步骤313。
步骤312:i=i+1。之后执行步骤302。其中,i=i+1表示将i更新为比i大1的数。
步骤313:District=District+W1,EntName=EntName-W1,i=2。
具体地说,District=District+W1表示将区域信息更新为原始的区域信息和第一候选词组合成的词组,EntName=EntName-W1表示将企业名称更新为将原始的企业名称中减去第一候选词后的企业名称。
步骤314:提取District。
具体地说,企业名称的切分装置通过执行上述步骤,提取企业名称中的区域信息,并将提取后的企业名称作为后续切分的企业名称。
以下对企业名称的切分装置提取区域信息的方法进行举例说明。
假设企业名称为“贵州省安顺开利商贸有限公司”,第一截取字数i=2,区域信息为空,企业名称的切分装置先从该企业名称的左边起,截取字数为2的第一候选词“贵州”。企业名称的切分装置确定“贵州”在三级行政区划词表中,故令j=3,flag=False。企业名称的切分装置确定3小于企业名称的词长,故从企业名称的左边起,截取字数为3的第二候选词“贵州省”。企业名称确定“贵州省”在三级行政区划词表中,令flag=True。企业名称切分装置确定flag=True后,令i=3,从该企业名称的左边起,截取字数为3的第一候选词“贵州省”,并确定“贵州省”在三级行政区划词表中,令j=4,flag=False。企业名称的切分装置确定4小于企业名称的词长,故从该企业名称的左边起,截取字数为4的第一候选词“贵州省安”,并确定“贵州省安”不在三级行政区划词表中,令j=5。企业名称的切分装置确定5小于企业名称的词长,故从该企业名称的左边起,截取字数为5的第一候选词“贵州省安顺”,并确定“贵州市安顺”在三级行政区划词表中,令flag=True。企业名称切分装置确定flag=True后,令i=4,且从该企业名称的左边起,截取字数为4的第一候选词“贵州省安”,并确定“贵州省安”在不三级行政区划词表中,令i=5。企业名称的切分装置从该企业名称的左边起,截取字数为5的第一候选词“贵州省安顺”,并确定“贵州省安顺”在三级行政区划词表中,令j=6。企业名称的切分装置确定6小于企业名称的词长,故从该企业名称的左边起,截取字数为6的第一候选词“贵州省安顺开”,并确定“贵州市安顺开”在不三级行政区划词表中,令j=7。……直至j=12,发现截取的第二候选词均不在三级行政区划词表中,令j=13。企业名称的切分装置确定13不小于企业名称的词长,进一步判断flag=True是否成立。企业名称的切分装置确定flag=false,故区域信息等于原始的区域信息加上第一候选词,即区域信息等于贵州省安顺,企业名称等于原始的企业名称减去第一候选词,即企业名称等于开利商贸有限公司,i=2。企业名称的切分装置从“开利商贸有限公司”的左边起,截取字数为2的第一候选词“开利”,发现该词不在三级行政区划词表中,故令i=3……直至i=8,第一候选词都不在三级行政规划词表中,且i大于企业名称的词长,故企业名称的切分装置提取区域信息“贵州省安顺”,并将企业名称更新为“开利商贸有限公司”。
执行步骤203至步骤205。
步骤206:判断本次企业名称切分后剩下的文本的字数是否大于2。
具体地说,若确定本次企业名称切分后剩下的文本的字数大于2,执行步骤207,否则,执行步骤208。
执行步骤207,之后执行步骤203。
步骤208:根据得到的分词,确定企业名称的成分抽取结果。
以下对根据得到的分词确定企业名称的成分抽取结果的方法进行说明。
企业名称的切分装置在完成企业名称切分,并需要抽取企业名称的成分时,需要对得到的分词进行适当地合并。需要对得到的分词进行合并的情况包括但不限于以下两种:
第一种情况:切分得到的分词中存在由一个字组成的分词。该情况下,企业名称的切分装置确定合并方式的方法为:先按得到每个分词的先后顺序排列所有分词,若确定存在由一个字组成的分词,根据由一个字组成的分词的位置,确定由一个字组成的分词的合并方式。合并方式包括向前合并方式或向后合并方式,向前合并方式为:将由一个字组成的分词与由一个字组成的分词的前一个分词合并;向后合并方式为:将由一个字组成的分词与由一个字组成的分词的后一个分词合并。
具体实现中,如果由一个字组成的分词为第一个分词,将由一个字组成的分词向后合并,即与第二个分词合并。如果由一个字组成的分词为最后一个分词,将由一个字组成的分词向前合并,即与倒数第二个分词合并。如果由一个字组成的分词既不是第一个分词,也不是最后一个分词,判断该字与前一个分词的尾字组成的词的概率与该字与后一个分词的首字组成的词的概率中哪个概率更大,若该字与前一个分词的尾字组成的词的概率更大,则将由一个字组成的分词向前合并,否则,将由一个字组成的分词向后合并。
第二种情况:完成企业名称的切分过程,或完成企业名称的切分过程和对由一个字组成的分词的合并过程后,存在部分如:“信息”,“科技”等未合并的分词,使得切分得到的分词的个数超过3个。该情况下,企业名称的切分装置确定合并方式的方法为:先按得到每个分词的先后顺序排列所有分词,若确定切分得到的分词的个数大于4,确定相邻的两个分词组成的词语分别在企业名称库中出现的概率,根据相邻的两个分词组成的词语的概率,确定所有分词的合并方式。具体实现中,可以选择概率最大,或概率最大和次大的词语作为合并后的分词,也可以根据概率大于预设值的词语,确定合并方式。例如,切分得到的分词为“嘉嘉”、“包装”、“材料”、“科技”、“有限”、“公司”,企业名称的切分装置计算“嘉嘉包装”、“包装材料”、“材料科技”、“科技有限”和“有限公司”的概率,其中,概率较大的词语为“包装材料”、“材料科技”、“有限公司”,根据上述词语确定合并后的分词为“包装材料科技”、“有限公司”。
企业名称的切分装置根据切分得到的分词的具体情况,确定是否需要对切分得到的分词进行合并,并将合并后得到的分词,以及其他未合并的分词作为企业名称的成分抽取结果。其中,部分企业名称的成分抽取结果如表1所示。
表1
原企业名称 | 企业名称成分抽取结果 |
韩玩(北京)网络科技有限公司 | 北京,韩玩,网络科技,有限公司 |
北京味特吉国际贸易有限公司 | 北京,味特吉,国际贸易,有限公司 |
天马星空(北京)文化传播有限公司 | 北京,天马星空,文化传播,有限公司 |
北京嘉嘉包装材料科技有限公司 | 北京,嘉嘉,包装材料科技,有限公司 |
贵州省安顺市开利商贸有限公司 | 贵州省安顺市,开利,商贸,有限公司 |
贵州遵义红转折贸易有限责任公司 | 贵州遵义,红转折,贸易,有限责任公司 |
需要说明的是,本领域技术人员可以理解,实际应用中,可以根据需要设置其他的合并方式,也可以在以上合并方式的基础上,充分考虑已定义的人工规则,实现企业名称的成分抽取。
需要说明的是,实际应用中,企业名称的切分装置还可以对成分抽取结果进行合并,从而还原输入的企业名称。
以下结合实际场景说明确定企业名称的成分抽取结果的过程。
假设,需要切分的企业名称是“北京味特吉国际贸易有限公司”。
步骤a,企业名称的切分装置先提取该企业名称中的区域信息,即提取“北京”作为企业名称的区域信息,并确定需要切分的企业名称为“味特吉国际贸易有限公司”。
步骤b,企业名称的切分装置确定以下词汇在企业名称库中的概率:“味特”、“特吉”、“吉国”、“国际”、“际贸”、“贸易”、“易有”、“有限”、“限公”、“公司”。
步骤c,企业名称的切分装置对企业名称进行切分。第一次切分过程中,企业名称的切分装置确定“特吉”的概率与“味特”的概率的比值大于第一阈值,采用第二切分方式,所以确定第一次切分得到的分词为“味特”,第一次切分后剩下的文本为“吉国际贸易有限公司”。企业名称的切分装置确定第一次切分后剩下的文本的字数大于2,对企业名称进行第二次切分。第二次切分过程中,企业名称的切分装置获取第一次切分后剩下的文本,确定“国际”的概率与“吉国”的概率的比值小于第二阈值,采用第一切分方式,所以确定第二次切分得到的分词为“吉”,第二次切分后剩下的文本为“国际贸易有限公司”。企业名称的切分装置确定第二次切分后剩下的文本的字数大于2,对企业名称进行第三次切分……企业名称的切分装置在完成企业名称的切分过程后,得到的分词为“味特”、“吉”、“国际”、“贸易”、“有限”、“公司”。
步骤d,企业名称的切分装置确定切分得到的分词中存在由一个字组成的分词“吉”,且“吉”字位于得到的分词中间。企业名称的切分装置确定“特吉”的概率和“吉国”的概率中,“特吉”的概率更大,故将“吉”向前合并,合并后得到的分词为“味特吉”,其他未合并的分词为“国际”、“贸易”、“有限”、“公司”。
步骤e,企业名称的切分装置确定得到的分词为“味特吉”、“国际”、“贸易”、“有限”、“公司”,分词的个数大于3,计算“味特吉国际”、“国际贸易”、“贸易有限”、“有限公司”的概率。由于“国际贸易”和“有限公司”的概率为最大和次大,将“国际”和“贸易”合并,“有限”和“公司”进行合并,合并后得到的分词为“国际贸易”、“有限公司”。
步骤f,企业名称的切分装置根据提取的区域信息、合并后得到的分词,以及其他未合并的分词,确定企业名称的成分抽取结果为“北京、味特吉、国际贸易、有限公司”。
需要说明的是,实际应用中,企业名称的区域信息也可以通过切分过程获得,该情况下,企业名称的切分装置在切分得到的分词的个数大于4时,对切分得到的分词进行合并。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的企业名称的切分方法,根据中文汉语本身的构词原则确定企业名称的切分方法,不需要浪费人力观察大量的企业名称来确定切分方法。此外,该企业名称的切分方法是基于构词原则确定的,使得该切分方法可以准确切分不同形式的企业名称,不需根据企业名称的形式更改切分方法。除此之外,企业名称的切分方法还可以根据切分得到的分词确定企业名称的成分提取结果,便于进行企业名称的聚类研究。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种企业名称的切分装置,如图3所示,包括至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述实施方式提及的企业名称的切分方法。
该企业名称的切分装置包括:一个或多个处理器401以及存储器402,图4中以一个处理器401为例。处理器401、存储器402可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施方式中企业名称库就存储于存储器402中。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述企业名称的切分方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器402中,当被一个或者多个处理器401执行时,执行上述任意方法实施方式中的企业名称的切分方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (8)
1.一种企业名称的切分方法,其特征在于,在一次企业名称切分过程中,包括:
获取上一次企业名称切分后剩下的文本;
根据所述上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及所述上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对所述上一次企业名称切分后剩下的文本的切分方式,其中所述词的概率为词在企业名称库中的概率;
根据所述上一次企业名称切分后剩下的文本,以及所述切分方式,确定本次切分得到的分词,以及本次企业名称切分后剩下的文本;
判断所述本次企业名称切分后剩下的文本的字数是否大于2,若是,继续下一次的企业名称切分过程,直至所述字数不大于2,否则,停止企业名称切分过程;
其中,所述切分方式为以下三种切分方式中的任意一种:第一切分方式、第二切分方式、第三切分方式;其中,所述第一切分方式为在所述上一次企业名称切分后剩下的文本的第1个字和第2个字之间进行切分;所述第二切分方式为在所述上一次企业名称切分后剩下的文本的第2个字和第3个字之间进行切分;所述第三切分方式为在所述上一次企业名称切分后剩下的文本的第3个字和第4个字之间进行切分;
所述根据所述上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及所述上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对所述上一次企业名称切分后剩下的文本的切分方式,具体包括:计算所述上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率与所述上一次企业名称切分后剩下的文本的前两个字构成的词的概率的比值;若确定所述比值大于第一阈值,确定所述切分方式为所述第二切分方式;若确定所述比值不大于所述第一阈值,判断所述比值是否大于第二阈值;若是,确定所述切分方式为所述第三切分方式;否则,确定所述切分方式为所述第一切分方式。
2.根据权利要求1所述的企业名称的切分方法,其特征在于,在确定企业名称中相邻两个字构成的词分别在企业名称库中出现的概率之前,所述企业名称的切分方法还包括:
提取所述企业名称中的区域信息,将提取后的企业名称作为切分的企业名称。
3.根据权利要求2所述的企业名称的切分方法,其特征在于,所述提取所述企业名称中的区域信息,具体包括:
基于正向最大匹配算法,提取所述企业名称中的区域信息。
4.根据权利要求1至3中任一项所述的企业名称的切分方法,其特征在于,在所述停止企业名称切分过程之后,所述企业名称的切分方法还包括:
根据得到的分词,确定所述企业名称的成分抽取结果。
5.根据权利要求4所述的企业名称的切分方法,其特征在于,所述根据得到的分词,确定所述企业名称的成分抽取结果,具体包括:
按得到每个分词的先后顺序排列所有分词;
若确定所述所有分词中存在由一个字组成的分词,根据所述由一个字组成的分词的位置,确定所述由一个字组成的分词的合并方式,将合并后得到的分词,以及其他未合并的分词,作为所述企业名称的成分抽取结果;
其中,所述合并方式包括向前合并方式或向后合并方式,所述向前合并方式为:将所述由一个字组成的分词与所述由一个字组成的分词的前一个分词合并;所述向后合并方式为:将所述由一个字组成的分词与所述由一个字组成的分词的后一个分词合并。
6.根据权利要求4所述的企业名称的切分方法,其特征在于,所述根据得到的分词,确定所述企业名称的成分抽取结果,具体包括:
若确定切分得到的分词的个数大于N,确定相邻的两个分词组成的词语分别在所述企业名称库中出现的概率,根据所述相邻的两个分词组成的词语的概率,确定所有分词的合并方式,将合并后得到的分词,以及其他未合并的分词作为所述企业名称的成分抽取结果;其中,N等于3或4。
7.一种企业名称的切分装置,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一所述的企业名称的切分方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的企业名称的切分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810615090.3A CN109101480B (zh) | 2018-06-14 | 2018-06-14 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810615090.3A CN109101480B (zh) | 2018-06-14 | 2018-06-14 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109101480A CN109101480A (zh) | 2018-12-28 |
CN109101480B true CN109101480B (zh) | 2022-09-06 |
Family
ID=64796802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810615090.3A Active CN109101480B (zh) | 2018-06-14 | 2018-06-14 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109101480B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948149B (zh) * | 2019-02-28 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN111783467A (zh) * | 2020-07-21 | 2020-10-16 | 致诚阿福技术发展(北京)有限公司 | 一种企业名称识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079027A (zh) * | 2007-06-27 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN107657284A (zh) * | 2017-10-11 | 2018-02-02 | 宁波爱信诺航天信息有限公司 | 一种基于语义相似性扩展的商品名称分类方法及系统 |
CN108062305A (zh) * | 2017-12-29 | 2018-05-22 | 北京时空迅致科技有限公司 | 一种基于迭代的三步式无监督中文分词方法 |
-
2018
- 2018-06-14 CN CN201810615090.3A patent/CN109101480B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079027A (zh) * | 2007-06-27 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN107657284A (zh) * | 2017-10-11 | 2018-02-02 | 宁波爱信诺航天信息有限公司 | 一种基于语义相似性扩展的商品名称分类方法及系统 |
CN108062305A (zh) * | 2017-12-29 | 2018-05-22 | 北京时空迅致科技有限公司 | 一种基于迭代的三步式无监督中文分词方法 |
Non-Patent Citations (1)
Title |
---|
中文分词算法及改进研究;申琳;《电脑知识与技术》;20171130;第13卷(第31期);第199-200页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109101480A (zh) | 2018-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874878B (zh) | 一种知识图谱的构建系统及方法 | |
CN109726293B (zh) | 一种因果事件图谱构建方法、系统、装置及存储介质 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN106649612B (zh) | 一种自动问答模板匹配的方法及装置 | |
US10831993B2 (en) | Method and apparatus for constructing binary feature dictionary | |
CN113807098A (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
US20110276523A1 (en) | Measuring document similarity by inferring evolution of documents through reuse of passage sequences | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN109101480B (zh) | 一种企业名称的切分方法、装置及计算机可读存储介质 | |
CN106547743B (zh) | 一种进行翻译的方法及其系统 | |
CN110909123A (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN107590119A (zh) | 人物属性信息抽取方法及装置 | |
Soleh et al. | A non word error spell checker for Indonesian using morphologically analyzer and HMM | |
CN111898381A (zh) | 一种结合rpa与ai的文本信息提取方法、装置、设备及介质 | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN110263345A (zh) | 关键词提取方法、装置及存储介质 | |
CN103207921A (zh) | 一种从中文电子文档中自动提取词语的方法 | |
CN110472231B (zh) | 一种识别法律文书案由的方法和装置 | |
CN109460895A (zh) | 构建社会单位画像的方法及系统 | |
CN111950274A (zh) | 一种专业领域语料的中文分词方法及装置 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN108197295B (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
CN114417828A (zh) | 一种服务器告警日志描述文本的实体关系抽取方法及系统 | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |