CN109635276B

CN109635276B - 一种信息匹配方法及终端

Info

Publication number: CN109635276B
Application number: CN201811341250.6A
Authority: CN
Inventors: 吴超鹏; 张若峰; 龚浩杰; 郑俊杰; 陈志飞; 许琨
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2020-12-11
Anticipated expiration: 2038-11-12
Also published as: CN109635276A; WO2020098315A1

Abstract

本发明涉及数据处理领域，尤其涉及一种信息匹配方法及终端。本发明通过S1分词一企业信息，得到与所述一企业信息对应的第一分词有序集合；S2获取两个以上所述第一分词有序集合，得到企业信息集合；S3分词预设的文本信息，得到第二分词集合；S4从所述企业信息集合中获取一第一分词有序集合；根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数；S5重复执行步骤S4，直至所述企业信息集合中的所有元素均被遍历；S6获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。极大程度上提高了文本信息与企业信息匹配的准确度。

Description

一种信息匹配方法及终端

技术领域

本发明涉及数据处理领域，尤其涉及一种信息匹配方法及终端。

背景技术

随着社会的发展，人与企业之间的矛盾纠纷越来越多。为了有效预防人与企业间矛盾纠纷的出现，或及时处理相关纠纷，有关部门需快速获取与相关事件信息、舆情匹配的企业信息。

目前常用的信息匹配方法有以下两种：第一，通过将事件信息或舆情分词，然后再用得到的分词与预设的企业信息库进行模糊匹配，从而得到与事件信息或舆情相关的企业信息。通过这种方式，会同时得到很多无关的企业信息，命中率低。第二，通过人工方式关联事件信息和企业信息。此种信息匹配方式虽然具有高正确率，但是效率低下，需要耗费大量人力资源。

发明内容

本发明所要解决的技术问题是：如何提高匹配文本信息与企业信息的准确度。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种信息匹配方法，包括：

S1、分词一企业信息，得到与所述一企业信息对应的第一分词有序集合；

S2、获取两个以上所述第一分词有序集合，得到企业信息集合；

S3、分词预设的文本信息，得到第二分词集合；

S4、从所述企业信息集合中获取一第一分词有序集合；根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数；

S5、重复执行步骤S4，直至所述企业信息集合中的所有元素均被遍历；

S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。

进一步地，所述S1具体为：

获取所述一企业信息中与行政区域划分对应的字符，得到行政区划分词；

获取所述一企业信息中与企业简称对应的字符，得到企业简称分词；

获取所述一企业信息中与企业性质对应的字符，得到企业性质分词；

获取所述一企业信息中与企业类型对应的字符，得到企业类型分词；

根据所述行政区划分词、所述企业简称分词、所述企业性质分词和所述企业类型分词生成所述第一分词有序集合。

进一步地，根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数，具体为：

当所述第二分词集合包含所述一第一分词有序集合时，设置与所述一第一分词有序集合对应的匹配分数为第一数值；

当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词、所述企业性质分词和所述企业类型分词时，设置与所述一第一分词有序集合对应的匹配分数为第二数值；

当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业性质分词时，设置与所述一第一分词有序集合对应的匹配分数为第三数值；

当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业类型分词时，设置与所述一第一分词有序集合对应的匹配分数为第四数值；

所述第一数值大于所述第二数值；所述第二数值大于所述第三数值；所述第三数值大于所述第四数值。

进一步地，所述第一分词有序集合还包括地址分词和行业名称分词；

当所述第二分词集合包含所述地址分词时，所述匹配分数增加第五数值；

当所述第二分词集合包含所述行业名称分词时，所述匹配分数增加第六数值；

所述第四数值大于所述第五数值；所述第四数值大于所述第六数值。

从所述第二分词集合中获取一分词，得到文本信息分词；

若所述文本信息分词与所述一第一分词有序集合中的所述企业简称分词相匹配，则根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数。

进一步地，所述S3具体为：

分词预设的文本信息，得到初始分词集合；

删除所述初始分词集合中的数字分词和单字分词，得到所述第二分词集合。

进一步地，所述S1之前，还包括：

删除所述一企业信息中的括号及括号内的字符；

所述S3之前，还包括：若所述预设的文本信息中存在括号，且括号内的字符数少于10，则删除括号和括号内的字符。

本发明另提供一种计算机可读存储介质，其上存储有程序，所述程序在被计算机执行时执行所述的信息匹配方法。

本发明还提供一种信息匹配终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S3、分词预设的文本信息，得到第二分词集合；

进一步地，所述S1具体为：

根据所述行政区划分词、所述企业简称分词、所述企业性质分词和所述企业类型分词生成所述第一分词有序集合；

根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数，具体为：

从所述第二分词集合中获取一分词，得到文本信息分词；

若所述文本信息分词与所述一第一分词有序集合中的所述企业简称分词相匹配，则：当所述第二分词集合包含所述一第一分词有序集合时，设置与所述一第一分词有序集合对应的匹配分数为第一数值；当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词、所述企业性质分词和所述企业类型分词时，设置与所述一第一分词有序集合对应的匹配分数为第二数值；当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业性质分词时，设置与所述一第一分词有序集合对应的匹配分数为第三数值；当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业类型分词时，设置与所述一第一分词有序集合对应的匹配分数为第四数值；所述第一数值大于所述第二数值；所述第二数值大于所述第三数值；所述第三数值大于所述第四数值；

所述第一分词有序集合还包括地址分词和行业名称分词；当所述第二分词集合包含所述地址分词时，所述匹配分数增加第五数值；当所述第二分词集合包含所述行业名称分词时，所述匹配分数增加第六数值；所述第四数值大于所述第五数值；所述第四数值大于所述第六数值。

进一步地，所述S1之前，还包括：删除所述一企业信息中的括号及括号内的字符；

所述S3具体为：

若所述预设的文本信息中存在括号，且括号内的字符数少于10，则删除括号和括号内的字符；

分词预设的文本信息，得到初始分词集合；

本发明的有益效果在于：将企业信息进行分词操作，其所得到的各个分词重要程度不同，本发明将企业信息对应的分词有序排列在第一分词有序集合中，使得在将事件报道或舆论的文本信息依次与企业信息库中已分词的企业信息进行匹配时，能够通过二者匹配的分词数量以及所匹配的分词的重要程度生成匹配分数，从而可根据文本信息与企业信息库中各个企业信息的匹配分数得出与事件报道或舆论最为相关的企业的信息，极大程度上提高了文本信息与企业信息匹配的准确度。

附图说明

图1为本发明提供的一种信息匹配方法的具体实施方式的流程框图；

图2为本发明提供的一种信息匹配终端的具体实施方式的结构框图；

标号说明：

1、处理器；2、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1以及图2，

如图1所示，本发明提供一种信息匹配方法，包括：

S3、分词预设的文本信息，得到第二分词集合；

进一步地，所述S1具体为：

由上述描述可知，根据文本信息与企业信息各自分词的不同匹配程度进行评分，有利于提高匹配结果的准确度。

由上述描述可知，通过匹配企业地址关键字和行业关键字有利于提高匹配文本信息和企业信息的准确度。

从所述第二分词集合中获取一分词，得到文本信息分词；

由上述描述可知，只有当文本信息中的一分词与企业信息库中一个或多个企业信息对应的企业简称分词匹配时，才会进行进一步地匹配操作，极大地提高了匹配效率。

进一步地，所述S3具体为：

分词预设的文本信息，得到初始分词集合；

由上述描述可知，分词后过滤掉单字分词和纯数字分词，有效减少与企业信息库中企业信息匹配的循环次数，有利于提高匹配企业信息和文本信息的效率。

进一步地，所述S1之前，还包括：

删除所述一企业信息中的括号及括号内的字符；

由上述描述可知，由于在分析文本信息时，通常企业名称中的括号内容不会体现，因此，预处理时将企业信息中的括号内容删除有利于提高匹配的准确率和效率。删除文本信息中的括号及括号内的字符，是为了与企业信息拆分时的操作一致，确保分词结果一致，提高企业信息与文本信息的匹配准确度。并且，企业名称中括号里面的内容基本不超过五个字，为防止误删除文本信息中其他部分的内容，当且仅当括号内的字符少于10个时才进行删除操作。

如图2所示，本发明还提供一种信息匹配终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

S3、分词预设的文本信息，得到第二分词集合；

进一步地，所述S1具体为：

从所述第二分词集合中获取一分词，得到文本信息分词；

所述S3具体为：

分词预设的文本信息，得到初始分词集合；

本发明的实施例一为：

本实施例提供一种信息匹配方法，包括：

S1、删除一企业信息中的括号及括号内的字符；分词所述一企业信息，得到与所述一企业信息对应的第一分词有序集合。

可选地，所述S1具体为：获取所述一企业信息中与行政区域划分对应的字符，得到行政区划分词；获取所述一企业信息中与企业简称对应的字符，得到企业简称分词；获取所述一企业信息中与企业性质对应的字符，得到企业性质分词；获取所述一企业信息中与企业类型对应的字符，得到企业类型分词；根据所述行政区划分词、所述企业简称分词、所述企业性质分词和所述企业类型分词生成所述第一分词有序集合。

其中，对企业信息进行分词前，先将括号及括号内的字符删除。行政区划分词一般为省名称+县名称或者市名称+区名称，例如福建省或福建省思明区。企业性质分词一般为信息、电子商务、房地产等。企业类型分词一般为有限责任公司、股份有限公司、合伙企业等。

例如，一企业信息为，“福建省厦门市XXXX信息股份有限公司”。对该企业信息进行分词操作后得到，行政区划分词“福建省厦门市”，企业简称分词“XXXX”，企业性质分词“信息”，企业类型分词“股份有限公司”。上述分词在第一分词有序集合中有序排列，第一分词有序集合具体为{“福建省厦门市”，“XXXX”，“信息”，“股份有限公司”}。

S2、获取两个以上所述第一分词有序集合，得到企业信息集合。

例如，将多个企业信息进行分词操作后，形成企业信息库。

S3、分词预设的文本信息，得到第二分词集合。

其中，获取事件标题及事件内容作为文本信息。

可选地，若所述预设的文本信息中存在括号，且括号内的字符数少于10，则删除括号和括号内的字符。

其中，删除文本信息中的括号及括号内的字符，是为了与企业信息拆分时的操作一致，确保分词结果一致，提高企业信息与文本信息的匹配准确度。并且，企业名称中括号里面的内容基本不超过五个字，为防止误删除文本信息中其他部分的内容，当且仅当括号内的字符少于10个时才进行删除操作。

可选地，所述S3具体为：

分词预设的文本信息，得到初始分词集合；

其中，分词后过滤掉单字分词和纯数字分词，有效减少与企业信息库中企业信息匹配的循环次数，有利于提高匹配企业信息和文本信息的效率。

S4、从所述企业信息集合中获取一第一分词有序集合；根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数。具体地：

从所述第二分词集合中获取一分词，得到文本信息分词；

其中，由于文本信息取自于事件报道和舆论，未必会详细标准地写明企业名称等信息，因此，与企业信息对应的行政区划分词、企业性质分词和企业类型均有可能在文本信息中未出现，而企业简称分词是必然存在于文本信息中的。本发明，在企业信息库中，将企业简称分词作为关键字key，将企业完整名称#行政区划分词#企业性质分词#企业类型分词#行业名称分词#地址分词作为关键字对应的值value，只有当文本信息中的一分词与企业信息库中一个或多个企业信息对应的企业简称分词匹配时，才会进行进一步地匹配操作，极大地提高了匹配效率。

可选地，根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数，具体为：

例如，企业信息库中与一企业信息对应的第一分词有序集合为：{“福建省厦门市”，“XXXX”，“信息”，“股份有限公司”}。若文本信息中同时存在“福建省厦门市”，“XXXX”，“信息”，“股份有限公司”，则文本信息中所指的企业与该第一分词有序集合对应的企业信息完全符合，其匹配分数为100分。若文本信息中只存在“XXXX”，“信息”，“股份有限公司”，则文本信息中所指的企业与该第一分词有序集合对应的企业信息匹配度很高，其匹配分数为90分。若文本信息中只存在“XXXX”，“信息”，则文本信息中所指的企业与该第一分词有序集合对应的企业信息匹配度较高，其匹配分数为80分。若文本信息中只存在“XXXX”，则文本信息中所指的企业与该第一分词有序集合对应的企业信息基本符合，其匹配分数为50分。

其中，根据文本信息与企业信息各自分词的不同匹配程度进行评分，有利于提高匹配结果的准确度。

可选地，所述第一分词有序集合还包括地址分词和行业名称分词；

其中，若文本信息中包含地址分词，则匹配分数增加第五数值。若文本信息中包含行业名称分词，则匹配分数增加第六数值；若文本信息不包含行业名称分词，则对行业名称分词进一步进行分词操作，得到行业名称分词列表；遍历行业名称分词列表，依次判断文本信息中是否包含行业名称分词列表中的分词，每次命中则匹配分数相应增加，直至之遍历结束。

其中，地址不精确到门牌号，截取到路或者街道，例如：软件园二期观日路。

例如，将文本信息与一企业信息对应的第一分词有序集合中的行政区划分词、企业简称分词、企业性质分词和企业类型分词匹配后所得的分数为80分。若文本信息中包含与该企业信息对应的地址分词，则匹配分数增加5分得到85分。若文本信息中包含与该企业信息对应的行业名称分词，则匹配分数再加5分，得到90分。若文本信息与行业名称分词无法完全匹配，则将行业名称分词进一步细分，根据匹配情况相应地增加匹配分数。如，行业名称分词为信息系统集成服务，可进一步细划分为信息、系统集成、服务与文本信息进行匹配。

其中，通过匹配企业地址关键字和行业关键字有利于提高匹配文本信息和企业信息的准确度。

S5、重复执行步骤S4，直至所述企业信息集合中的所有元素均被遍历。

其中，具有最高匹配分数的企业信息是企业信息库中与文本信息所报道的事件或舆论最为匹配的企业的信息。

本发明通过提前建立包含企业信息分词的企业信息库，然后通过企业的关键信息快速匹配企业和事件报道文本，因此在事件进行关联操作的时候效率非常高，并且通过不同的匹配度来决定事件与企业关联度，后续可以根据实际需求获取不同关联度的企业信息。同时该方法还可以进行扩展，通过增加新的维度进行扩展匹配，提高准确度。

本发明的实施例二为：

本实施例提供一种信息匹配终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

例如，将多个企业信息进行分词操作后，形成企业信息库。

S3、分词预设的文本信息，得到第二分词集合。

其中，获取事件标题及事件内容作为文本信息。

可选地，所述S3具体为：

分词预设的文本信息，得到初始分词集合；

从所述第二分词集合中获取一分词，得到文本信息分词；

本发明的实施例三为：

本实施例本发明另提供一种计算机可读存储介质，其上存储有程序，所述程序在被计算机执行以下步骤：

例如，将多个企业信息进行分词操作后，形成企业信息库。

S3、分词预设的文本信息，得到第二分词集合。

其中，获取事件标题及事件内容作为文本信息。

可选地，所述S3具体为：

分词预设的文本信息，得到初始分词集合；

从所述第二分词集合中获取一分词，得到文本信息分词；

综上所述，由于将企业信息进行分词操作，其所得到的各个分词重要程度不同，本发明提供的一种信息匹配方法及终端将企业信息对应的分词有序排列在第一分词有序集合中，使得在将事件报道或舆论的文本信息依次与企业信息库中已分词的企业信息进行匹配时，能够通过二者匹配的分词数量以及所匹配的分词的重要程度生成匹配分数，从而可根据文本信息与企业信息库中各个企业信息的匹配分数得出与事件报道或舆论最为相关的企业的信息，极大程度上提高了文本信息与企业信息匹配的准确度。进一步地，由上述描述可知，根据文本信息与企业信息各自分词的不同匹配程度进行评分，有利于提高匹配结果的准确度。进一步地，通过匹配企业地址关键字和行业关键字有利于提高匹配文本信息和企业信息的准确度。进一步地，只有当文本信息中的一分词与企业信息库中一个或多个企业信息对应的企业简称分词匹配时，才会进行进一步地匹配操作，极大地提高了匹配效率。进一步地，分词后过滤掉单字分词和纯数字分词，有效减少与企业信息库中企业信息匹配的循环次数，有利于提高匹配企业信息和文本信息的效率。进一步地，删除文本信息中的括号及括号内的字符，是为了与企业信息拆分时的操作一致，确保分词结果一致，提高企业信息与文本信息的匹配准确度。并且，企业名称中括号里面的内容基本不超过五个字，为防止误删除文本信息中其他部分的内容，当且仅当括号内的字符少于10个时才进行删除操作。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息匹配方法，其特征在于，包括：

S1、分词一企业信息，得到与所述一企业信息对应的第一分词有序集合，其中所述第一分词有序集合包括行政区划分词、企业简称分词、企业性质分词和企业类型分词；

S3、分词预设的文本信息，得到第二分词集合；

S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息，

其中，所述步骤S4具体包括：

2.根据权利要求1所述的信息匹配方法，其特征在于，所述S1具体为：

3.根据权利要求1所述的信息匹配方法，其特征在于，所述第一分词有序集合还包括地址分词和行业名称分词；

4.根据权利要求1所述的信息匹配方法，其特征在于，根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号，计算匹配分数，具体为：

从所述第二分词集合中获取一分词，得到文本信息分词；

5.根据权利要求1所述的信息匹配方法，其特征在于，所述S3具体为：

分词预设的文本信息，得到初始分词集合；

6.根据权利要求1所述的信息匹配方法，其特征在于，所述S1之前，还包括：

删除所述一企业信息中的括号及括号内的字符；

7.一种信息匹配终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S3、分词预设的文本信息，得到第二分词集合；

S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息；

其中，所述步骤S4具体包括：

从所述第二分词集合中获取一分词，得到文本信息分词；

若所述文本信息分词与所述一第一分词有序集合中的所述企业简称分词相匹配，则：当所述第二分词集合包含所述一第一分词有序集合时，设置与所述一第一分词有序集合对应的匹配分数为第一数值；当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词、所述企业性质分词和所述企业类型分词时，设置与所述一第一分词有序集合对应的匹配分数为第二数值；当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业性质分词时，设置与所述一第一分词有序集合对应的匹配分数为第三数值；当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业类型分词时，设置与所述一第一分词有序集合对应的匹配分数为第四数值；所述第一数值大于所述第二数值；所述第二数值大于所述第三数值；所述第三数值大于所述第四数值。

8.根据权利要求7所述的信息匹配终端，其特征在于，所述S1具体为：

9.根据权利要求7所述的信息匹配终端，其特征在于，所述S1之前，还包括：删除所述一企业信息中的括号及括号内的字符；

所述S3具体为：

分词预设的文本信息，得到初始分词集合；

10.一种计算机可读存储介质，其上存储有程序，所述程序在被计算机执行时执行如权利要求1-6中任一项所述的方法。