CN108595435A - 一种机构名称识别处理方法、智能终端及存储介质 - Google Patents
一种机构名称识别处理方法、智能终端及存储介质 Download PDFInfo
- Publication number
- CN108595435A CN108595435A CN201810413382.9A CN201810413382A CN108595435A CN 108595435 A CN108595435 A CN 108595435A CN 201810413382 A CN201810413382 A CN 201810413382A CN 108595435 A CN108595435 A CN 108595435A
- Authority
- CN
- China
- Prior art keywords
- organization names
- word
- identifying processing
- speech
- trading company
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种机构名称识别处理方法、智能终端及存储介质,所述方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。本发明实现了对机构名称的进行有效和正确切分,以及词性的正确识别,提高了中文机构名称的识别准确性和识别效率。
Description
技术领域
本发明涉及中文信息处理技术领域,尤其涉及一种机构名称识别处理方法、智能终端及存储介质。
背景技术
近年来,随着自然语言处理技术的发展,越来越多的中文文本处理任务通过程序自动完成,在文本处理中,可以提取出大量的机构名称;比如用户在申请信用卡时,银行需要将用户录入的工作单位跟其它信息源(比如社保系统)的工作单位进行比对校验,而由于缩写等原因,许多中文机构名称存在不统一和不规范的表述。例如“ABCD有限公司”还可能被表述为:“ABCD”、“ABCD公司”、“广东省深圳市ABCD有限公司”等名称,为判断不同表示的机构名称是否指代统一机构,需要对机构名称各元素进行切分,并识别每个元素的类型;比如,“广东省深圳市ABCD有限公司”切分并识别为“广东省/d深圳市/d AB/s CD/h有限公司/j”(其中,小写字母表示不同词性的类型);此外,通过对机构名称的切分,还可以得到该机构的行政区划、商号、行业、机构性质等信息。
目前,成熟的分词系统主要是针对新闻领域的、长文本的,对机构名称的处理以整体识别为主,并不能对机构名称中的各元素进行准确切分;特别是机构名中普遍存在的商号,一般在词库中是没有的,称之为未登录词;目前未登录词的识别技术,一般是人名、地名、机构名称的,并没有未登录商号的自动识别技术;人名的识别,姓氏是明显的触发点;地名的识别,“省”、“市”等地名后缀是明显的触发点;而“商号”的组成千变万化,并没有明显的触发点,这也就增加了商号识别的难度。
也就是说,现有技术中,对于中文机构名称细分分词的准确性和效率都不高,很多商号、地名识别不准确,不能对机构名称中的各元素进行准确切分,无法及时、有效识别新的行业词。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种机构名称识别处理方法、智能终端及存储介质,旨在实现对机构名称的进行有效和正确切分,以及词性的正确识别,提高中文机构名称的识别准确性和识别效率。
本发明解决技术问题所采用的技术方案如下:
一种机构名称识别处理方法,应用于智能终端,其中,所述机构名称识别处理方法包括:
预先定义机构名称中不同词性的字母名称,搜集并补充词库;
通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;
当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;
通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;
将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。
所述的机构名称识别处理方法,其中,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:
根据机构名称中出现的词性类型定义词性系统;
搜集行业词用于补充词库。
所述的机构名称识别处理方法,其中,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:
根据给出的机构名称进行全切分,生成词图;
识别标准区划地名并设置区划编码,调整存在冲突的地名词。
所述的机构名称识别处理方法,其中,所述识别标准区划地名并设置区划编码,调整存在冲突的地名词具体包括:
当识别出机构名称中的多个地名时,判断地名之间是否为上下级关系
标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并根据地名后缀消除地名变更的影响;
设置区划编码,对存在冲突的地名进行调节。
所述的机构名称识别处理方法,其中,为降低无地名词后缀的地名成词的概率,以pre表示节点地名,suc表示其后继节点,则:
其中,P(suc|pre)为条件概率,f(suc)是suc的词频,f(pre)是pre的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N,f(pre,suc)是(pre,suc)的词频,θ是调节率,调节率越大,不匹配地名词的成词概率越小,通过上述处理降低地名词对商号识别的影响。
所述的机构名称识别处理方法,其中,所述当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别具体包括:
从机构名称数据库中,按照机构名称类别分层抽样预设数量的机构名称,并对抽样的机构名称进行人工分词和词性标注;
定义商号和地名词存在的概率;
其中,假设一个分词序列为:(w1,w2,…,wn);
定义该序列是商号的概率为:
其中,count(s)是语料中商号词总数,count(ns)是语料中n字商号词个数,count(w1)是语料中w1出现的次数,count(w1,SB)是语料中w1作为角色SB出现的次数;其中,SB为商号词开头,SM为商号词中间,SE为商号词结尾;
同样的,对于一个分词序列(w1,w2,…,wm);
定义该序列是地名词的概率为:
其中,count(d)是语料中地名词总数,count(ns)是语料中m字地名词个数,count(w1)是语料中w1出现的次数,count(w1,DB)是语料中w1作为角色DB出现的次数;其中,DB为地名词开头,DM为地名词中间,DE为地名词结尾。
所述的机构名称识别处理方法,其中,定义一种词性组合存在的概率;
其中,定义词性组合“s-h-j”存在的概率为:
s、h、j分别表示机构名称中不同类型的词性;N是训练语料总数,count(s-h-j)是训练语料中机构名称的词性组合是“s-h-j”的数量。
所述的机构名称识别处理方法,其中,当初分结果存在单字时,触发未登录地名词或者商号的识别功能,计算各个分词序列存在的概率,选择概率大的作为分词结果;预先设置一个阈值,当概率高于阈值时,执行切分结果;否则保持单字的状态,不执行合并。
一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机构名称识别处理程序,所述机构名称识别处理程序被所述处理器执行时实现如上所述的机构名称识别处理方法的步骤。
一种存储介质,其中,所述存储介质存储有机构名称识别处理程序,所述机构名称识别处理程序被处理器执行时实现如上所述机构名称识别处理方法的步骤。
本发明公开了一种机构名称识别处理方法、智能终端及存储介质,所述方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。本发明实现了对机构名称的进行有效和正确切分,以及词性的正确识别,提高了中文机构名称的识别准确性和识别效率。
附图说明
图1是本发明机构名称识别处理方法的较佳实施例的流程图;
图2是本发明机构名称识别处理方法的较佳实施例中步骤S10的流程图;
图3是本发明机构名称识别处理方法的较佳实施例中步骤S20的流程图;
图4是本发明机构名称识别处理方法的较佳实施例中以某一机构名称生成的词图的示意图;
图5是本发明机构名称识别处理方法的较佳实施例中步骤S30的流程图;
图6为本发明智能终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明较佳实施例所述的机构名称识别处理方法,如图1所示,一种机构名称识别处理方法,应用于智能终端,其中,所述机构名称识别处理方法包括以下步骤:
步骤S10、预先定义机构名称中不同词性的字母名称,搜集并补充词库。
具体过程请参阅图2,其为本发明提供的机构名称识别处理方法中步骤S10的流程图。
如图2所示,所述步骤S10包括:
S11、根据机构名称中出现的词性类型定义词性系统;
S12、搜集行业词用于补充词库。
具体地,预先定义词性系统,例如:
其中,ABCD以及XX或者XXX可表示具体的公司名称的中文含义。
搜集并补充词库,主要是大量的行业词。
步骤S20、通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码。
具体的过程请参阅图3,其为本发明提供的机构名称识别处理方法中步骤S20的流程图。
如图3所示,所述步骤S20包括:
S21、根据给出的机构名称进行全切分,生成词图;
S22、识别标准区划地名并设置区划编码,调整存在冲突的地名词。
具体地,以“北京XX福田车桥有限公司”为例(其中,XX以众力为例,不代表具体的公司),对机构名称进行全切分,生成词图,为简单起见,只画出“北京众力福田”的词图,如图4所示,在图4中,北京、福田是两个地名词,其它都是单字;识别标准区划地名并设置区划编码,调整存在冲突的地名词;实例中的“福田”是商号“众力福田”的一部分,并不是深圳市的福田区,所以应该减小“福田”成词的概率。
当存在两个地名时,判断两地在是否为上下级关系,从国家统计局网站下载五级行政区划编码,根据区划编码可以方便地判断两地名是否为上下级关系;例如广东省区划编码:440000000000,深圳市区划编码:440300000000,福田区区划编码:440304000000,判断广东省和深圳市是否存在从属关系,根据广东省区划编码后面0的个数,做出如下处理:
区划编码尾部0的个数 | 进行的操作 |
10、11 | 去掉10个0,得到新的字符串 |
8、9 | 去掉8个0,得到新的字符串 |
6、7 | 去掉6个0,得到新的字符串 |
3、4、5 | 去掉3个0,得到新的字符串 |
广东省区划编码存在10个0,去掉10个0得到新的字符串44,深圳市的区划编码包含44,这就可以说明广东省和深圳市是上下级关系,反之则不是上下级关系。
地名处于不断的变更状态,所以要消除地名变更的影响,以“肇庆高要市XX电子有限公司”为例,这里“肇庆”和“高要市”是上下级关系,但“高要市”是旧称,现已改名为“高要区”,这可以通过地址元素“市”、“区”识别出“高要市”、“高要区”可以是同一地区的不同描述,二者公用区划编码信息,类似的地址元素有(县、市、区)、(乡、镇、街道)、(村、社区)等。
设置区划编码,以“深圳南山XXX半导体有限公司”为例,深圳可以是广东省深圳市,对应区划编码440300000000;也可能是福建省泉州市的深圳村委会,对应区划编码350582109224,由于深圳位于机构名称的开头,直接选择级别最高的深圳市,将深圳区划编码设置为440300000000。
南山可以是深圳市南山区,对应区划编码440305000000;也可以是黑龙江省鹤岗市南山区,对应区划编码230404000000,可知,深圳(440300000000)和南山区(440305000000)是上下级关系,因此设置南山的区划编码为440305000000。
再以“白云区艳山红XX姐妹小吃店”为例,白云区可以是广州市白云区,区划编码440111000000;也可以说贵阳市白云区,区划编码520113000000,再找出艳山红对应的所有区划编码,这包括艳山红镇(520113100000)、艳山红村委会(520113100204)、艳山红社区居委会(431381002009)等;跟白云区相匹配的级别乡镇级地区只有艳山红镇(520113100000),设置白云区区划编码520113000000,艳山红区划编码520113100000。
进一步地,识别标准区划地名并设置区划编码,调整存在冲突的地名词具体过程为:当识别出机构名称中的多个地名时,判断地名之间是否为上下级关系;标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并根据地名后缀消除地名变更的影响;设置区划编码,对存在冲突的地名进行调节。
对存在冲突的地名进行调节,本发明采用二元语法模型(Bigram)进行分词,Bigram模型对应于一阶Markov(马尔可夫,马尔可夫过程是研究离散事件动态系统状态空间的重要方法,它的数学基础是随机过程理论)假设,词只与其前面一个词相关,其对应的分词模型:
其中,隐马尔科夫模型(HMM,Hidde Markov Model,一种统计模型),用来描述一个含有隐含未知参数的马尔可夫过程。
上式等号左侧是分词模型,右侧将分词模型的求解最大联合概率的问题转化为了求解有向无环图最短路径问题,再对条件概率P(wi|wi-1)做平滑处理:
其中,f(w)是w的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N;只需求解出每一个-logP(wi|wi-1),使用Dijkstra算法(迪杰斯特拉算法,是从一个顶点到其余各顶点的最短路径算法,解决的是有向图中最短路径问题,迪杰斯特拉算法主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止)求解最短路径即可。
使用上面通用的求解二元语法模型的算法,以“北京众力福田车桥有限公司”为例,可得到分词结果“北京/d众力福田/d车桥/h有限公司/j”。
由上述可知,北京和福田并不存在上下级关系,而福田又是一个没有地名词后缀(省、市、区、街道等)的地名,因此要降低福田成词的概率;以pre表示节点福田,suc表示其后继节点,则:
其中,P(suc|pre)为条件概率,f(suc)是suc的词频,f(pre)是pre的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N,f(pre,suc)是(pre,suc)的词频,θ是调节率,调节率越大,不匹配地名词的成词概率越小;通过这一处理,可将分词结果调节为“北京/d众力福田车桥/h有限公司/j”,这就降低了地名词对商号识别的影响。
步骤S30、当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别。
具体过程请参阅图5,其为本发明提供的机构名称识别处理方法中步骤S30的流程图。
如图5所示,所述步骤S30包括:
S31、从机构名称数据库中,按照机构名称类别分层抽样预设数量的机构名称,并对抽样的机构名称进行人工分词和词性标注;
例如在一些机构名称(特别是个体户)中,会出现小地名词;例如:“深圳市福田区车公庙XXX麻辣烫餐厅”、“中国XX集团公司深圳市车公庙支局”中,“车公庙”是个很小的地名,一般在词库中是不存在的,但通过明显的地名后缀“庙”,可以自动识别。
此外,绝大部分的商号在词典中也是不存在的,例如“深圳市福田区XXX杨国福麻辣烫餐厅”中的“杨国福”,这也需要自动识别;以“深圳市福田区XXX杨国福麻辣烫餐厅”为例,经过切分,可以得到如下结果:深圳市/d福田区/d XXX杨国福麻辣烫/h餐厅/j;从这一中间结果中识别出地名词、商号。
标注训练语料,从机构名称数据库中,按照机构名称类别,分层抽样一百万机构名称,由人工团队对这些机构名称进行人工分词和词性标注。
角色定义,本发明定义如下角色:
角色 | 意义 | 例子 |
SB | 商号词开头 | 深圳沃尔玛百货零售有限公司 |
SM | 商号词中间 | 深圳沃尔玛百货零售有限公司 |
SE | 商号词结尾 | 深圳沃尔玛百货零售有限公司 |
DB | 地名词开头 | 福田区车公庙XX酒楼 |
DM | 地名词中间 | 福田区车公庙XX酒楼 |
DE | 地名词结尾 | 福田区车公庙XX酒楼 |
S32、定义商号和地名词存在的概率。
具体地,假设一个分词序列为:
(w1w2,…wn);
定义该序列是商号的概率为:
其中,count(s)是语料中商号词总数,count(ns)是语料中n字商号词个数,count(w1)是语料中w1出现的次数,count(w1,SB)是语料中w1作为角色SB出现的次数。
同样的,对于一个分词序列
(w1,w2,…wm);
定义该序列是地名词的概率为:
其中,count(d)是语料中地名词总数,count(ns)是语料中m字地名词个数,count(w1)是语料中w1出现的次数,count(w1,DB)是语料中w1作为角色DB出现的次数。
定义一种词性组合存在的概率,例如,“ABCD有限公司”经人工标注的分词结果是“AB/s CD/h有限公司/j”,词性组合是“s-h-j”,定义词性组合“s-h-j”存在的概率为:
其中,N是训练语料总数(即一百万),count(s-h-j)是训练语料中机构名称的词性组合是“s-h-j”的数量。
未登录地名词、商号的识别,这一步假设机构名称中不应存在单字,单字是未登录地名或者商号的一部分,以“深圳市金华泰实验室XX股份有限公司”为例,由于“金华”是二级地名词,词频很高,不会因为区划不匹配被拆分开,经过切分得到结果:
深圳市/d金华/d泰实验室/h XX/h股份有限公司/j;
由于单字“泰”的存在,最终结果可能有两种情况:
深圳市/d金华泰/s实验室/h XX/h股份有限公司/j;
深圳市/d金华/d泰实验室/s XX/h股份有限公司/j;
计算二者存在的概率,选择概率大的作为分词结果。
可算得“金华泰”、“泰实验室”是商号的概率,分别记为P(JTH)、P(TSYS):
情况1的概率为:P(d-s-h-h-j)*P(JTH),其中P(d-s-h-h-j)是词性组合“d-s-h-h-j”存在的概率;
情况2的概率为:P(d-d-s-h-j)*P(TSYS),其中P(d-d-s-h-j)是词性组合“d-d-s-h-j”存在的概率;
分别计算log(P(d-s-h-h-j)*P(JTH))和log(P(d-d-s-h-j)*P(TSYS)),选择最优结果。
另外,设置一个阈值,当概率高于阈值时,执行切分结果;否则保持单字的状态,不执行合并。
步骤S40、通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求。
具体地,通过定制化规则,进一步对分词结果进行优化,规则以“当前词”为中心,当“前词”和“后词”满足一定条件时,执行结论。可供选择的条件包括:词位置(开头、结尾、中间等)、词性、词长等;可供执行的结论包括:向前合并、向后合并、连续合并、拆分、修改词性等。
步骤S50、将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。
本发明通过定义词性,构建词库;通过改进的隐马尔科夫模型对机构名称进行初分,并标出词性、以及地名词区划编码;对未登录地名词和商号进行识别;通过一套可配置化的规则,对分词结果进一步优化,并可以方便的满足不同用户的定制化需求;对于经常出现的未登录词,统计分析是否为新的行业词;如果判断为新的行业词,自动加入词库。首先标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配;并可以根据地名后缀,消除地名变更的影响;对于区划编码不匹配的地名词,通过修改模型中条件概率的计算方式,减小其成词概率;以此来避免小地名词对分词结果的影响;通过统计大量标注后的分词语料,通过词性组合的频率,近似计算某一分词组合的概率;并且通过频率近似计算某一商号、地名存在的概率;从而识别出商号和地名;以当前词为中心,依据当前词、前词、后词的一些特征,决定是否执行一些结论。
通过本发明的分词方法,可实现对标准的机构名称切分达到99.5%以上的正确率,对用户录入的非标准机构名称分词可达到98%以上的正确率。
进一步地,如图6所示,基于上述机构名称识别处理方法,本发明还相应提供了一种智能终端,所述智能终端包括处理器10、存储器20及显示器30。图6仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有机构名称识别处理程序40,该机构名称识别处理程序40可被处理器10所执行,从而实现本申请中机构名称识别处理方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述机构名称识别处理方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中机构名称识别处理程序40时实现以下步骤:
预先定义机构名称中不同词性的字母名称,搜集并补充词库;
通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;
当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;
通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;
将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。
本发明还提供一种存储介质,其中,所述存储介质存储有机构名称识别处理程序,所述机构名称识别处理程序被处理器执行时实现所述机构名称识别处理方法的步骤;具体如上所述。
综上所述,本发明提供一种机构名称识别处理方法、智能终端及存储介质,所述方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。本发明实现了对机构名称的进行有效和正确切分,以及词性的正确识别,提高了中文机构名称的识别准确性和识别效率。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种机构名称识别处理方法,应用于智能终端,其特征在于,所述机构名称识别处理方法包括:
预先定义机构名称中不同词性的字母名称,搜集并补充词库;
通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;
当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;
通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;
将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。
2.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:
根据机构名称中出现的词性类型定义词性系统;
搜集行业词用于补充词库。
3.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:
根据给出的机构名称进行全切分,生成词图;
识别标准区划地名并设置区划编码,调整存在冲突的地名词。
4.根据权利要求3所述的机构名称识别处理方法,其特征在于,所述识别标准区划地名并设置区划编码,调整存在冲突的地名词具体包括:
当识别出机构名称中的多个地名时,判断地名之间是否为上下级关系;
标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并根据地名后缀消除地名变更的影响;
设置区划编码,对存在冲突的地名进行调节。
5.根据权利要求4所述的机构名称识别处理方法,其特征在于,为降低无地名词后缀的地名成词的概率,以pre表示节点地名,suc表示其后继节点,则:
其中,P(suc|pre)为条件概率,f(suc)是suc的词频,f(pre)是pre的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N,f(pre,suc)是(pre,suc)的词频,θ是调节率,调节率越大,不匹配地名词的成词概率越小,通过上述处理降低地名词对商号识别的影响。
6.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别具体包括:
从机构名称数据库中,按照机构名称类别分层抽样预设数量的机构名称,并对抽样的机构名称进行人工分词和词性标注;
定义商号和地名词存在的概率;
其中,假设一个分词序列为:(w1,w2,…,wn);
定义该序列是商号的概率为:
其中,count(s)是语料中商号词总数,count(ns)是语料中n字商号词个数,count(w1)是语料中w1出现的次数,count(w1,SB)是语料中w1作为角色SB出现的次数;其中,SB为商号词开头,SM为商号词中间,SE为商号词结尾;
同样的,对于一个分词序列(w1,w2,…,wm);
定义该序列是地名词的概率为:
其中,count(d)是语料中地名词总数,count(ns)是语料中m字地名词个数,count(w1)是语料中w1出现的次数,count(w1,DB)是语料中w1作为角色DB出现的次数;其中,DB为地名词开头,DM为地名词中间,DE为地名词结尾。
7.根据权利要求6所述的机构名称识别处理方法,其特征在于,定义一种词性组合存在的概率;
其中,定义词性组合“s-h-j”存在的概率为:
s、h、j分别表示机构名称中不同类型的词性;N是训练语料总数,count(s-h-j)是训练语料中机构名称的词性组合是“s-h-j”的数量。
8.根据权利要求7所述的机构名称识别处理方法,其特征在于,当初分结果存在单字时,触发未登录地名词或者商号的识别功能,计算各个分词序列存在的概率,选择概率大的作为分词结果;预先设置一个阈值,当概率高于阈值时,执行切分结果;否则保持单字的状态,不执行合并。
9.一种智能终端,其特征在于,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机构名称识别处理程序,所述机构名称识别处理程序被所述处理器执行时实现如权利要求1-8任一项所述的机构名称识别处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有机构名称识别处理程序,所述机构名称识别处理程序被处理器执行时实现权利要求1-8任一项所述机构名称识别处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810413382.9A CN108595435B (zh) | 2018-05-03 | 2018-05-03 | 一种机构名称识别处理方法、智能终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810413382.9A CN108595435B (zh) | 2018-05-03 | 2018-05-03 | 一种机构名称识别处理方法、智能终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595435A true CN108595435A (zh) | 2018-09-28 |
CN108595435B CN108595435B (zh) | 2020-09-01 |
Family
ID=63619536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810413382.9A Active CN108595435B (zh) | 2018-05-03 | 2018-05-03 | 一种机构名称识别处理方法、智能终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595435B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299456A (zh) * | 2018-08-28 | 2019-02-01 | 昆明理工大学 | 一种地名识别方法 |
CN109522417A (zh) * | 2018-10-26 | 2019-03-26 | 浪潮软件股份有限公司 | 一种公司名的商号抽取方法 |
CN109871536A (zh) * | 2019-01-29 | 2019-06-11 | 北京明略软件系统有限公司 | 地名识别方法和装置 |
CN109933800A (zh) * | 2019-03-22 | 2019-06-25 | 中国农业银行股份有限公司 | 数据机构体系的创建方法、信息查询方法及装置 |
CN110188184A (zh) * | 2019-06-04 | 2019-08-30 | 鹏元征信有限公司 | 一种地址信息比对的处理方法、存储介质及终端设备 |
CN110688841A (zh) * | 2019-09-30 | 2020-01-14 | 广州准星信息科技有限公司 | 一种机构名称识别方法、装置、设备以及存储介质 |
CN110705295A (zh) * | 2019-09-11 | 2020-01-17 | 北京航空航天大学 | 基于关键词提取的实体名消岐方法 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111783467A (zh) * | 2020-07-21 | 2020-10-16 | 致诚阿福技术发展(北京)有限公司 | 一种企业名称识别方法及装置 |
CN111881183A (zh) * | 2020-07-28 | 2020-11-03 | 北京金堤科技有限公司 | 企业名称匹配方法和装置、以及存储介质和电子设备 |
CN111914093A (zh) * | 2019-05-09 | 2020-11-10 | 深圳中兴飞贷金融科技有限公司 | 数据处理方法和装置,存储介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930746A (en) * | 1996-03-20 | 1999-07-27 | The Government Of Singapore | Parsing and translating natural language sentences automatically |
CN104679738A (zh) * | 2013-11-27 | 2015-06-03 | 北京拓尔思信息技术股份有限公司 | 互联网热词挖掘方法及装置 |
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN107577674A (zh) * | 2017-10-09 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
-
2018
- 2018-05-03 CN CN201810413382.9A patent/CN108595435B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930746A (en) * | 1996-03-20 | 1999-07-27 | The Government Of Singapore | Parsing and translating natural language sentences automatically |
CN104679738A (zh) * | 2013-11-27 | 2015-06-03 | 北京拓尔思信息技术股份有限公司 | 互联网热词挖掘方法及装置 |
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN107577674A (zh) * | 2017-10-09 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
Non-Patent Citations (1)
Title |
---|
乐娟、赵玺: "基于HMM的京剧机构命名实体识别算法", 《计算机工程》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299456A (zh) * | 2018-08-28 | 2019-02-01 | 昆明理工大学 | 一种地名识别方法 |
CN109299456B (zh) * | 2018-08-28 | 2022-07-19 | 昆明理工大学 | 一种地名识别方法 |
CN109522417A (zh) * | 2018-10-26 | 2019-03-26 | 浪潮软件股份有限公司 | 一种公司名的商号抽取方法 |
CN111401083B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN109871536A (zh) * | 2019-01-29 | 2019-06-11 | 北京明略软件系统有限公司 | 地名识别方法和装置 |
CN109871536B (zh) * | 2019-01-29 | 2022-12-30 | 北京明略软件系统有限公司 | 地名识别方法和装置 |
CN109933800A (zh) * | 2019-03-22 | 2019-06-25 | 中国农业银行股份有限公司 | 数据机构体系的创建方法、信息查询方法及装置 |
CN111914093A (zh) * | 2019-05-09 | 2020-11-10 | 深圳中兴飞贷金融科技有限公司 | 数据处理方法和装置,存储介质和电子设备 |
CN110188184A (zh) * | 2019-06-04 | 2019-08-30 | 鹏元征信有限公司 | 一种地址信息比对的处理方法、存储介质及终端设备 |
CN110705295A (zh) * | 2019-09-11 | 2020-01-17 | 北京航空航天大学 | 基于关键词提取的实体名消岐方法 |
CN110705295B (zh) * | 2019-09-11 | 2021-08-24 | 北京航空航天大学 | 基于关键词提取的实体名消岐方法 |
CN110688841A (zh) * | 2019-09-30 | 2020-01-14 | 广州准星信息科技有限公司 | 一种机构名称识别方法、装置、设备以及存储介质 |
CN111783467A (zh) * | 2020-07-21 | 2020-10-16 | 致诚阿福技术发展(北京)有限公司 | 一种企业名称识别方法及装置 |
CN111881183A (zh) * | 2020-07-28 | 2020-11-03 | 北京金堤科技有限公司 | 企业名称匹配方法和装置、以及存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108595435B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595435A (zh) | 一种机构名称识别处理方法、智能终端及存储介质 | |
CN105893349B (zh) | 类目标签匹配映射方法及装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN111222976B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN109492103A (zh) | 标签信息获取方法、装置、电子设备及计算机可读介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN112559885B (zh) | 地图兴趣点的训练模型确定方法、装置及电子设备 | |
CN113918714A (zh) | 一种分类模型训练方法、聚类方法及电子设备 | |
CN114218951B (zh) | 实体识别模型的训练方法、实体识别方法及装置 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN113836925A (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN114692628A (zh) | 样本生成方法、模型训练方法、文本抽取方法和装置 | |
CN116340548A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN110555713A (zh) | 一种确定销量预测模型的方法和装置 | |
CN106934006B (zh) | 基于多叉树模型的页面推荐方法及装置 | |
CN116975400B (zh) | 一种数据分类分级方法、装置、电子设备及存储介质 | |
CN113204613B (zh) | 地址生成方法、装置、设备和存储介质 | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 | |
US20220188292A1 (en) | Data processing method, apparatus, electronic device and readable storage medium | |
CN114792091A (zh) | 基于词汇增强的中文地址要素解析方法、设备及存储介质 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN114610914A (zh) | 一种信息处理方法、装置及电子设备 | |
CN110457436B (zh) | 信息标注方法、装置、计算机可读存储介质及电子设备 | |
CN103150376B (zh) | 一种行业应用软件词根表的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220608 Address after: 570100 Room 102, 1st floor, building B28, zone B, Hainan Ecological Software Park, high tech industry demonstration zone, Laocheng Town, Chengmai County, Haikou City, Hainan Province Patentee after: Hainan fenghuangmu Technology Co.,Ltd. Address before: 518040 4th floor, Sunshine Golf building, 7008 Shennan Avenue, Futian District, Shenzhen City, Guangdong Province Patentee before: PENGYUAN CREDIT SERVICE CO.,LTD. |