CN105045847A - 一种从文本信息中提取中文机构单位名称的方法 - Google Patents
一种从文本信息中提取中文机构单位名称的方法 Download PDFInfo
- Publication number
- CN105045847A CN105045847A CN201510385395.6A CN201510385395A CN105045847A CN 105045847 A CN105045847 A CN 105045847A CN 201510385395 A CN201510385395 A CN 201510385395A CN 105045847 A CN105045847 A CN 105045847A
- Authority
- CN
- China
- Prior art keywords
- mark
- word
- text message
- analyzed
- anterior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种从文本信息中提取中文机构单位名称的方法,包括:加载待分析的文本信息;将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。本发明通过匹配并标记出中文机构单位名称的前部词和后界词,以及结合网络搜索验证来提取获得中文机构单位名称,运算量较少,提取速度快,而且大大提高了提取精度,可广泛应用于衡器行业中。
Description
技术领域
本发明涉及文本信息提取挖掘领域,特别是涉及一种从文本信息中提取中文机构单位名称的方法。
背景技术
随着Internet及其技术的迅猛发展,网络上的信息呈爆炸式增长,大量的信息以电子文档的形式呈现在人们面前,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息,于是信息抽取研究应运而生,而命名实体识别研究又是信息抽取中的重要组成部分。命名实体识别是指识别文本中有特定意义的实体,主要包括人名、地名、机构名、日期等。其中机构名是比较重要的一类,特别是中文的机构单位名称。本申请中,机构单位泛指机关、团体或其他企事业单位,例如“深圳发展银行股份有限公司”、“深圳世纪星源股份有限公司”、“北京深华新股份有限公司”等等。
目前,中文机构单位名称的识别,主要有以下难点:(1)在不同领域、场景下,命名的外延有差异;(2)数量巨大,不能枚举,难以全部收录;(3)名称变化频繁,并且没有严格的规律可以遵循;(4)表达形式多样。而现在对中文机构单位名称进行识别,主要采用的是基于统计学的算法进行识别。这种识别方法需要先人工标注大量的语料库进行训练,语料库特征规模庞大,代价比较高,且准确率不太高。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种从文本信息中提取中文机构单位名称的方法。
本发明解决其技术问题所采用的技术方案是:
一种从文本信息中提取中文机构单位名称的方法,包括:
S1、加载待分析的文本信息;
S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;
S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;
S4、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;
S5、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。
进一步,所述前部标注规则指基于前部词的标注规则,所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。
进一步,所述步骤S2,其具体为:
将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配,标记前部词的位置后,根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。
进一步,所述步骤S2,包括:
S21、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配,若判断待分析的文本信息中包含标点符号且该标点符号后紧接着地方名称,则标记该标点符号的结束位置;
S22、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配,若判断待分析的文本信息中包含动词且该动词后紧接着地方名称,则标记该动词的结束位置;
S23、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配,若判断待分析的文本信息中包含介词且该介词后紧接着地方名称,则标记该介词的结束位置;
S24、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配,若判断待分析的文本信息中包含预设名词且该预设名词后紧接着地方名称,则标记该预设名词的结束位置;
S25、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配,若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称,则标记该预设特定词语的结束位置;
S26、根据预设字数阈值抽取所标记位置后面的文字信息。
进一步,所述步骤S3,包括:
S31、将抽取出的信息与预设后界词词典进行匹配处理,判断抽取出的信息的前n个文字中是否出现与预设后界词词典相匹配的后界词,若是,则执行步骤S32;
S32、标记该后界词的结束位置后,提取获得前部词之后到后界词处的文字数据;
S33、判断所提取的文字数据是否在同一个短语里,若是,则将该文字数据作为备选公司名称数据;
其中,n表示预设的字数阈值,n为自然数。
进一步,所述步骤S4,其具体为:
对备选公司名称数据进行前部标注规则匹配,判断备选公司名称数据中是否包括前部词,若是,则截取前部词后的数据作为备选公司名称,否则将备选公司名称数据作为备选公司名称。
进一步,所述步骤S5,包括:
S51、将备选公司名称作为搜索关键字在网络搜索引擎中进行搜索,获取前m个搜索结果并抽取每个搜索结果的标题,m为自然数;
S52、依次将该备选公司名称与每个搜索结果的标题进行匹配,判断是否匹配成功,若匹配成功,则将该备选公司名称作为提取的中文机构单位名称。
本发明的有益效果是:本发明的一种从文本信息中提取中文机构单位名称的方法,包括:S1、加载待分析的文本信息;S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;S4、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;S5、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。本方法通过匹配并标记出中文机构单位名称的前部词和后界词后,获得备选公司名称数据,并再次进行前部标注规则匹配处理后获得备选公司名称,然后结合网络搜索验证来提取获得中文机构单位名称,运算量较少,提取速度快,而且大大提高了提取精度。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明的一种从文本信息中提取中文机构单位名称的方法的流程图;
图2是本发明的一种从文本信息中提取中文机构单位名称的方法的步骤S2的详细流程示意图;
图3是本发明的一种从文本信息中提取中文机构单位名称的方法的步骤S3的详细流程示意图;
图4是本发明的一种从文本信息中提取中文机构单位名称的方法的步骤S5的详细流程示意图。
具体实施方式
参照图1,本发明提供了一种从文本信息中提取中文机构单位名称的方法,包括:
S1、加载待分析的文本信息;
S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;
S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;
S4、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;
S5、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。
进一步作为优选的实施方式,所述前部标注规则指基于前部词的标注规则,所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。
进一步作为优选的实施方式,所述步骤S2,其具体为:
将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配,标记前部词的位置后,根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。
进一步作为优选的实施方式,参照图2,所述步骤S2,包括:
S21、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配,若判断待分析的文本信息中包含标点符号且该标点符号后紧接着地方名称,则标记该标点符号的结束位置;
S22、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配,若判断待分析的文本信息中包含动词且该动词后紧接着地方名称,则标记该动词的结束位置;
S23、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配,若判断待分析的文本信息中包含介词且该介词后紧接着地方名称,则标记该介词的结束位置;
S24、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配,若判断待分析的文本信息中包含预设名词且该预设名词后紧接着地方名称,则标记该预设名词的结束位置;
S25、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配,若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称,则标记该预设特定词语的结束位置;
S26、根据预设字数阈值抽取所标记位置后面的文字信息。
进一步作为优选的实施方式,参照图3,所述步骤S3,包括:
S31、将抽取出的信息与预设后界词词典进行匹配处理,判断抽取出的信息的前n个文字中是否出现与预设后界词词典相匹配的后界词,若是,则执行步骤S32;
S32、标记该后界词的结束位置后,提取获得前部词之后到后界词处的文字数据;
S33、判断所提取的文字数据是否在同一个短语里,若是,则将该文字数据作为备选公司名称数据;
其中,n表示预设的字数阈值,n为自然数。
进一步作为优选的实施方式,所述步骤S4,其具体为:
对备选公司名称数据进行前部标注规则匹配,判断备选公司名称数据中是否包括前部词,若是,则截取前部词后的数据作为备选公司名称,否则将备选公司名称数据作为备选公司名称。
进一步作为优选的实施方式,参照图4,所述步骤S5,包括:
S51、将备选公司名称作为搜索关键字在网络搜索引擎中进行搜索,获取前m个搜索结果并抽取每个搜索结果的标题,m为自然数;
S52、依次将该备选公司名称与每个搜索结果的标题进行匹配,判断是否匹配成功,若匹配成功,则将该备选公司名称作为提取的中文机构单位名称。
以下结合一具体实施例对本发明做详细说明。
参照图1,一种从文本信息中提取中文机构单位名称的方法,包括:
S1、加载待分析的文本信息;待分析的文本信息可以是一段文字或者一篇文章等;
S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;前部标注规则指基于前部词的标注规则,前部词包括标点符号、动词、介词、预设名词或预设特定词语等。
步骤S2,具体为:将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配,标记前部词的位置后,根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。预设字数阈值是预设的用于截取前部词后面的信息长度的数值,一般为大于20的自然数。
详细的,参照图2,步骤S2,包括S21~S26:
S21、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配,若判断待分析的文本信息中包含句号、前引号、破折号、逗号、分号、顿号、书名号等标点符号且该标点符号后紧接着地方名称,则标记该标点符号的结束位置;这里,标记的标点符号的结束位置的用途是中文机构单位名称的起始位置。例如对文本“股权结构为:郑州巨龙投资股份有限公司持股2.20%;北京国建易创投资有限公司持股2.09%”进行分析时,把“:郑州”、“;北京”中的标点符号在文本中的结束位置标注保存下来。
S22、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配,若判断待分析的文本信息中包含确定、支付、参照、接受、租赁、解除、审批通过、选择、经营、确认、委托、购入、受让、取得、收购、出售、出让、转让等动词且该动词后紧接着地方名称,则标记该动词的结束位置;同样,标记的动词的结束位置的用途是中文机构单位名称的起始位置。例如对文本“取得沈阳金建数字城市软件有限公司合计51.1%的股权”进行分析时,把“取得沈阳”中动词“取得”在文本中的结束位置标注保存下来。
S23、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配,若判断待分析的文本信息中包含高于、低于、达到、超过、分布于等介词且该介词后紧接着地方名称,则标记该介词的结束位置;标记的介词的结束位置的用途是中文机构单位名称的起始位置。
S24、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配,若判断待分析的文本信息中包含合营企业、下属、全资公司、项目公司、标的公司、股东等预设名词且该预设名词后紧接着地方名称,则标记该预设名词的结束位置;这里,预设名词是指合营企业、下属、全资公司、项目公司、标的公司、股东等可能引出机构单位名称的名词。例如对文本“公司受托管理国机集团下属北京国机丰盛汽车有限公司65%股权”进行分析时,把预设名词“下属”在文本中的结束位置标注保存下来。
S25、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配,若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称,则标记该预设特定词语的结束位置;预设特定词语是指除了步骤S21~S24的四类词语外的词语,包括除、将、与、及、向、因、在、和等连词。例如对文本“江苏大港股份有限公司与镇江新区经济开发总公司协调一致”进行分析时,把“与”在文本中的结束位置标注保存下来。
S26、根据预设字数阈值抽取所标记位置后面的文字信息。
步骤S21~S25中提到的地方名称的判断,可以直接获取目前的地名数据库来进行判断,无需额外建立数据库或进行训练。
预设前部词标注词典是预先根据中文机构单位名称出现位置的前部词的特点建立的特征数据库,本实施例中,预设前部词标注词典是通过5万公司名称库、10万文本语料库,利用特征模板、词性标注后形成的。
S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;参照图3,步骤S3包括S31~S33:
S31、将抽取出的信息与预设后界词词典进行匹配处理,判断抽取出的信息的前n个文字中是否出现与预设后界词词典相匹配的后界词,若是,则执行步骤S32;
S32、标记该后界词的结束位置后,提取获得前部词之后到后界词处的文字数据;
S33、判断所提取的文字数据是否在同一个短语里,若是,则将该文字数据作为备选公司名称数据,将其加入到备选公司名称数组中;
其中,n表示预设的字数阈值,n为自然数。本实施例中,n优选为20。
预设后界词词典是预先根据中文机构单位名称的后缀(本申请中称为后界词)的特点建立的数据库,包括“有限公司、有限责任公司、集团公司、研究室、总公司、研究院、总会、医院、事务所、加工厂”等后界词。
S4、依次从备选公司名称数组中获取备选公司名称,然后对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;具体为:依次从备选公司名称数组中获取备选公司名称,然后对备选公司名称数据进行前部标注规则匹配,判断备选公司名称数据中是否包括前部词,若是,则截取前部词后的数据作为备选公司名称,否则将备选公司名称数据作为备选公司名称,将备选公司名称存放到数组ArrayCompanyName中。
S5、依次从ArrayCompanyName中获取每个备选公司名称后,对每个备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。参照图4,步骤S5具体包括S51和S52:
S51、依次从ArrayCompanyName中获取每个备选公司名称后,将其作为搜索关键字在网络搜索引擎中进行搜索,获取前m个搜索结果并抽取每个搜索结果的标题,m为自然数;本实施例中,m的值优选为100。网络搜索引擎包括百度搜索引擎、谷歌搜索引擎、搜狗搜索引擎等。
S52、依次将该备选公司名称与每个搜索结果的标题进行匹配,判断是否匹配成功,若匹配成功,则将该备选公司名称作为提取的中文机构单位名称,将该中文机构单位名称加入到单位名称集合中并返回结果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种从文本信息中提取中文机构单位名称的方法,其特征在于,包括:
S1、加载待分析的文本信息;
S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;
S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;
S4、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;
S5、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。
2.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法,其特征在于,所述前部标注规则指基于前部词的标注规则,所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。
3.根据权利要求2所述的一种从文本信息中提取中文机构单位名称的方法,其特征在于,所述步骤S2,其具体为:
将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配,标记前部词的位置后,根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。
4.根据权利要求3所述的一种从文本信息中提取中文机构单位名称的方法,其特征在于,所述步骤S2,包括:
S21、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配,若判断待分析的文本信息中包含标点符号且该标点符号后紧接着地方名称,则标记该标点符号的结束位置;
S22、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配,若判断待分析的文本信息中包含动词且该动词后紧接着地方名称,则标记该动词的结束位置;
S23、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配,若判断待分析的文本信息中包含介词且该介词后紧接着地方名称,则标记该介词的结束位置;
S24、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配,若判断待分析的文本信息中包含预设名词且该预设名词后紧接着地方名称,则标记该预设名词的结束位置;
S25、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配,若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称,则标记该预设特定词语的结束位置;
S26、根据预设字数阈值抽取所标记位置后面的文字信息。
5.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法,其特征在于,所述步骤S3,包括:
S31、将抽取出的信息与预设后界词词典进行匹配处理,判断抽取出的信息的前n个文字中是否出现与预设后界词词典相匹配的后界词,若是,则执行步骤S32;
S32、标记该后界词的结束位置后,提取获得前部词之后到后界词处的文字数据;
S33、判断所提取的文字数据是否在同一个短语里,若是,则将该文字数据作为备选公司名称数据;
其中,n表示预设的字数阈值,n为自然数。
6.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法,其特征在于,所述步骤S4,其具体为:
对备选公司名称数据进行前部标注规则匹配,判断备选公司名称数据中是否包括前部词,若是,则截取前部词后的数据作为备选公司名称,否则将备选公司名称数据作为备选公司名称。
7.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法,其特征在于,所述步骤S5,包括:
S51、将备选公司名称作为搜索关键字在网络搜索引擎中进行搜索,获取前m个搜索结果并抽取每个搜索结果的标题,m为自然数;
S52、依次将该备选公司名称与每个搜索结果的标题进行匹配,判断是否匹配成功,若匹配成功,则将该备选公司名称作为提取的中文机构单位名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510385395.6A CN105045847B (zh) | 2015-07-01 | 2015-07-01 | 一种从文本信息中提取中文机构单位名称的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510385395.6A CN105045847B (zh) | 2015-07-01 | 2015-07-01 | 一种从文本信息中提取中文机构单位名称的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105045847A true CN105045847A (zh) | 2015-11-11 |
CN105045847B CN105045847B (zh) | 2018-05-25 |
Family
ID=54452394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510385395.6A Active CN105045847B (zh) | 2015-07-01 | 2015-07-01 | 一种从文本信息中提取中文机构单位名称的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045847B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228453A (zh) * | 2016-08-08 | 2016-12-14 | 联动优势科技有限公司 | 一种获得用户职业信息的方法和装置 |
CN107423285A (zh) * | 2017-06-23 | 2017-12-01 | 广州市万隆证券咨询顾问有限公司 | 一种基于文本规则的公司简称识别方法及系统 |
CN107545505A (zh) * | 2016-06-24 | 2018-01-05 | 上海壹账通金融科技有限公司 | 保险理财产品信息的识别方法及系统 |
CN108733828A (zh) * | 2018-05-24 | 2018-11-02 | 北京金堤科技有限公司 | 公司名称的提取方法、装置和计算机可读介质 |
CN109815268A (zh) * | 2018-12-21 | 2019-05-28 | 上海诺悦智能科技有限公司 | 一种交易制裁名单匹配系统 |
CN110287458A (zh) * | 2019-05-20 | 2019-09-27 | 暨南大学 | 一种年报文本标题自动标注系统 |
CN111222324A (zh) * | 2019-12-27 | 2020-06-02 | 南京医睿科技有限公司 | 时间识别方法、装置、计算机可读存储介质及电子设备 |
CN112559474A (zh) * | 2019-09-26 | 2021-03-26 | 中国电信股份有限公司 | 日志处理方法和装置 |
CN113033208A (zh) * | 2021-04-21 | 2021-06-25 | 浙江非线数联科技股份有限公司 | 一种基于政务文本数据词性标注的企业主体匹配方法 |
CN113421543A (zh) * | 2021-06-30 | 2021-09-21 | 深圳追一科技有限公司 | 一种数据标注方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
CN101930435A (zh) * | 2009-10-27 | 2010-12-29 | 深圳市北科瑞声科技有限公司 | 机构名称检索方法及系统 |
CN103164426A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
-
2015
- 2015-07-01 CN CN201510385395.6A patent/CN105045847B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
CN101930435A (zh) * | 2009-10-27 | 2010-12-29 | 深圳市北科瑞声科技有限公司 | 机构名称检索方法及系统 |
CN103164426A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨德来: "SVM和最大熵相结合的中文机构名自动识别", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545505A (zh) * | 2016-06-24 | 2018-01-05 | 上海壹账通金融科技有限公司 | 保险理财产品信息的识别方法及系统 |
CN106228453A (zh) * | 2016-08-08 | 2016-12-14 | 联动优势科技有限公司 | 一种获得用户职业信息的方法和装置 |
CN107423285A (zh) * | 2017-06-23 | 2017-12-01 | 广州市万隆证券咨询顾问有限公司 | 一种基于文本规则的公司简称识别方法及系统 |
CN107423285B (zh) * | 2017-06-23 | 2020-08-28 | 广州市万隆证券咨询顾问有限公司 | 一种基于文本规则的公司简称识别方法及系统 |
CN108733828A (zh) * | 2018-05-24 | 2018-11-02 | 北京金堤科技有限公司 | 公司名称的提取方法、装置和计算机可读介质 |
CN108733828B (zh) * | 2018-05-24 | 2020-06-05 | 北京金堤科技有限公司 | 公司名称的提取方法、装置和计算机可读介质 |
CN109815268A (zh) * | 2018-12-21 | 2019-05-28 | 上海诺悦智能科技有限公司 | 一种交易制裁名单匹配系统 |
CN110287458A (zh) * | 2019-05-20 | 2019-09-27 | 暨南大学 | 一种年报文本标题自动标注系统 |
CN110287458B (zh) * | 2019-05-20 | 2023-05-02 | 暨南大学 | 一种年报文本标题自动标注系统 |
CN112559474A (zh) * | 2019-09-26 | 2021-03-26 | 中国电信股份有限公司 | 日志处理方法和装置 |
CN111222324A (zh) * | 2019-12-27 | 2020-06-02 | 南京医睿科技有限公司 | 时间识别方法、装置、计算机可读存储介质及电子设备 |
CN113033208A (zh) * | 2021-04-21 | 2021-06-25 | 浙江非线数联科技股份有限公司 | 一种基于政务文本数据词性标注的企业主体匹配方法 |
CN113421543A (zh) * | 2021-06-30 | 2021-09-21 | 深圳追一科技有限公司 | 一种数据标注方法、装置、设备及可读存储介质 |
CN113421543B (zh) * | 2021-06-30 | 2024-05-24 | 深圳追一科技有限公司 | 一种数据标注方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105045847B (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045847A (zh) | 一种从文本信息中提取中文机构单位名称的方法 | |
CN105718586B (zh) | 分词的方法及装置 | |
CN111737499B (zh) | 基于自然语言处理的数据搜索方法及相关设备 | |
CN105095190B (zh) | 一种基于中文语义结构和细分词库结合的情感分析方法 | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
TWI709927B (zh) | 目標用戶群體的確定方法及裝置 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN110880142B (zh) | 一种风险实体获取方法及装置 | |
CN111177332B (zh) | 自动提取裁判文书涉案标的和裁判结果的方法及装置 | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
CN109710918A (zh) | 舆情关系识别方法、装置、计算机设备和存储介质 | |
WO2020135247A1 (zh) | 法律文书解析方法及装置 | |
CN112651236A (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN111309305A (zh) | 面向智能合约的代码自动推荐方法、系统、计算机设备和存储介质 | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
Yeung et al. | Identifying speakers and listeners of quoted speech in literary works | |
US10262063B2 (en) | Method and system for providing alternative result for an online search previously with no result | |
Nooralahzadeh et al. | Part of speech tagging for french social media data | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
CN110674383B (zh) | 舆情查询方法、装置及设备 | |
CN110991169A (zh) | 一种风险内容变种的识别方法、装置及电子设备 | |
CN110362673A (zh) | 基于摘要语义分析的计算机视觉类论文内容判别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |