CN113836378A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN113836378A CN113836378A CN202111067731.4A CN202111067731A CN113836378A CN 113836378 A CN113836378 A CN 113836378A CN 202111067731 A CN202111067731 A CN 202111067731A CN 113836378 A CN113836378 A CN 113836378A
- Authority
- CN
- China
- Prior art keywords
- speech
- keyword
- merchant
- merchant name
- brand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种数据处理方法及装置,该方法包括:对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;确定各设定词性在商户名称中的初始词性分布概率;确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。上述方法用于提高商户数据库中商户名称匹配到品牌关键词的数量,提高数据价值。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
近年来,由于计算机技术和网络技术的迅猛发展,大数据技术的应用愈加广泛。在大数据产业中,对海量数据的分析与利用,促进了相关行业的健康发展。如,银联的跨行交易数据是最具价值的海量数据之一,可以通过数据分析和建模等手段获取包含数据特征的分析结果,帮助用户进行相关决策。
现有技术中,银联的跨行交易数据中没有商户所属的品牌信息。因此,通过网页爬虫方式获取品牌信息,再通过分词算法获得品牌信息中的品牌关键词和商户名称,从而将该品牌关键词与银联商户库中的商户名称进行逐一匹配,建立商户库中商户名称与品牌关键词的关联关系。但该方式需要网页爬虫得到的品牌信息中包括品牌关键词,使得难以为商户库中所有商户名称均匹配到品牌关键词。
因此,现在亟需一种数据处理方法及装置,用于提高商户库中商户名称匹配到品牌关键词的数量。
发明内容
本发明实施例提供一种数据处理方法及装置,用于提高商户数据库中商户名称匹配到品牌关键词的数量,提高数据价值。
第一方面,本发明实施例提供一种数据处理方法,该方法包括:
对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;确定各设定词性在商户名称中的初始词性分布概率;确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。
上述方法中,对商户数据库中的第二商户名称进行分词获取第二商户名称对应的各关键词以及各关键词的词序,进一步确定各关键词对应的初始词性分布概率、词性转移概率矩阵和观测概率矩阵,确定第二商户名称的品牌关键词。如此,将商户数据库中没有品牌关键词的第二商户名称补全品牌关键词,提高商户数据库中商户名称匹配到品牌关键词的数量。
可选的,对商户数据库中的第二商户名称进行分词之前,还包括:抓取外部品牌数据,通过规则分词模型对所述外部品牌数据进行分词,得到外部关键词;从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,并作为所述第一商户名称的品牌关键词;将所述商户数据库中未匹配到所述外部关键词的商户名称,确定为第二商户名称。
上述方法中,通过根据规则分词模型对外部品牌数据分词获得外部关键词,并将该外部关键词的作为与其匹配的第一商户名称的品牌关键词。如此,提高商户名称与关联的品牌关键词的准确度,弥补根据历史商户数据确定的词性概率、初始词性分布概率和转移词性分布概率不准确导致的错误概率。
可选的,从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,包括:对各外部关键词构建字典树;将所述商户数据库中的商户名称分别与所述字典树进行匹配;确定包含所述字典树任一分支的第一商户名称,并将所述分支对应的外部关键词作为所述第一商户名称的品牌关键词。
上述方法中,通过字典树的方式,相比于现有技术中将外部关键词逐一与商户数据库中的第一商户名称匹配的方法,可以加快匹配速度。
可选的,确定包含所述字典树任一分支的第一商户名称,包括:确定包含所述字典树任一分支的商户名称;针对任一所述商户名称,若所述商户名称中包含所述分支对应的外部关键词的品牌关联词集中任一关联词,且所述商户名称中不包含所述分支对应的外部关键词的品牌非关联词集中任一非关联词,则确定所述商户名称为所述第一商户名称。
上述方法中,通过根据外部关键词的品牌关联词集和品牌非关联词集分别与外部关键词进行匹配。如此,可以将与外部关键词匹配,但实际与外部关键词为不同性质的商户名称剔除,这里不同性质为外部关键词对应的商户行业与商户名称的商户行业不同,如,衷琴为钟表行业,则对应的品牌关键词集为:专柜、钟表、专卖等,品牌非关键词集:KTV、服饰等。
可选的,基于如下公式,确定所述各关键词中作为所述第二商户名称的品牌关键词:
其中,i∈(reg,brand,ind,other)表示关键词i属于所述第二商户名称对应的地区词性/品牌词性/行业词性/其他词性;O(t)表示所述第二商户名称中第t个关键词的最大概率词性;init(i)表示所述第t个关键词为i的初始词性分布概率;Q(i|word)表示所述第t个关键词是i的观测概率;(i|O(t-1))表示所述第t个关键词与相邻关键词i对应的词性转移概率。
上述方法中,通过该公式可以将第二商户名称中各关键词中品牌词性概率最大的关键词获取,提高确定第二商户名称的品牌关键词的准确率。
可选的,所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵是通过样本数据学习得到的。
上述方法中,根据大量已经确定所包含各关键词词性的商户名称学习获取初始词性分布概率、词性转移概率矩阵和观测概率矩阵,提高数据处理的准确性。
可选的,所述初始词性分布概率是根据样本数据中各关键词对应的设定词性的分布概率确定的;所述词性转移概率矩阵是根据样本数据中处于相邻位置的关键词对应的设定词性分布概率确定的;所述观测概率矩阵是根据样本数据中关键词的设定词性的分布概率确定的。
上述方法中,根据样本数据中各关键词对应的设定词性的分布概率确定初始词性分布概率。如此,可以准确获取各关键词对应的初始词性分布概率。根据样本数据中处于相邻位置的关键词的分布概率确定词性转移概率矩阵。如此,可以准确获取相邻关键词词性转移概率,基于初始词性分布概率和相邻关键词词性转移概率综合影响关键词词性,提高最终获取的各关键词词性的准确性。根据样本数据中各关键词的分布概率确定观测概率矩阵。如此,基于关键词本身特征获取关键词词性概率。进一步提高最终获取的各关键词词性的准确性。
第二方面,本发明实施例提供一种数据处理装置,该装置包括:
确定模块,用于对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;
所述确定模块还用于,确定各设定词性在商户名称中的初始词性分布概率;
所述确定模块还用于,确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;
关联模块,用于基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。
第三方面,本申请实施例还提供一种计算设备,包括:存储器,用于存储程序;处理器,用于调用所述存储器中存储的程序,按照获得的程序执行如第一方面的各种可能的设计中所述的方法。
第四方面,本申请实施例还提供一种计算机可读非易失性存储介质,包括计算机可读程序,当计算机读取并执行所述计算机可读程序时,使得计算机执行如第一方面的各种可能的设计中所述的方法。
本申请的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理的系统架构示意图;
图2为本发明实施例提供的一种数据处理方法的流程示意图;
图3为本发明实施例提供的一种数据处理方法的流程示意图;
图4为本发明实施例提供的一种外部品牌数据示意图;
图5为本发明实施例提供的一种字典树示意图;
图6为本发明实施例提供的一种数据处理装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种数据处理系统架构,规则分词单元接收外部品牌数据源提供的外部品牌数据,外部品牌数据中可以包含第三商户名称和/或对应的品牌信息。规则分词单元中包含训练后获得的规则分词模型,规则分词模型可以根据外部品牌数据结构确定外部关键词品牌关键词位置,进而对外部品牌数据进行分词,并获取外部品牌数据的品牌关键词。第一数据关联单元将外部品牌数据的品牌关键词构建为字典树形式。商户数据库中包含第一商户名称及其对应的交易数据。第一数据关联单元通过字典树的方式,将字典树中的品牌关键词与商户数据库中的商户名称进行匹配,获取包含品牌关键词的至少一个商户名称。规则分词单元将至少一个商户名称中的任一商户名称,和品牌关键词对应的品牌关联词集中的关联词和品牌非关键词集的非关键词匹配。若存在匹配到关联词且匹配不到非关联词的商户名称,则确定该商户名称为第一商户名称。将第一商户名称与该第一品牌关键词关联。第二数据关联单元从商户数据库中获取没有品牌关键词的第二商户名称,根据结巴分词模型对该第二商户名称进行分词得到第二商户名称的多个关键词和该多个关键词的词序,进而确定这多个关键词对应的初始词性分布概率、观测概率矩阵和词性转移概率矩阵。基于各关键词在第二商户名称中的词序,通过初始词性分布概率、词性转移概率矩阵和观测概率矩阵,确定各关键词中作为第二商户名称的品牌关键词将品牌关键词与第二商户名称关联。如此,使得商户数据库中的商户名称均包含品牌信息,提高数据价值。其中,结巴分词模型根据结巴词库确定,结巴词库中包含至少包含地区关键词、品牌关键词、行业关键词和其它关键词。
基于此,本申请实施例提供了一种数据处理方法的流程,如图2所示,包括:
步骤201、对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;
步骤202、确定各设定词性在商户名称中的初始词性分布概率;
步骤203、确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;
步骤204、基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。
上述方法中,对商户数据库中的第二商户名称进行分词获取第二商户名称对应的各关键词以及各关键词的词序,进一步确定各关键词对应的初始词性分布概率、词性转移概率矩阵和观测概率矩阵,确定第二商户名称的品牌关键词。如此,将商户数据库中没有品牌关键词的第二商户名称补全品牌关键词,提高商户数据库中商户名称匹配到品牌关键词的数量。
本申请实施例提供了一种数据处理方法,对商户数据库中的第二商户名称进行分词之前,还包括:抓取外部品牌数据,通过规则分词模型对所述外部品牌数据进行分词,得到外部关键词;从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,并作为所述第一商户名称的品牌关键词;将所述商户数据库中未匹配到所述外部关键词的商户名称,确定为第二商户名称。也就是说,确定商户数据库中商户名称的品牌关键词,可以首先通过抓取外部品牌数据,并从外部品牌数据中分词获取外部关键词-品牌关键词与商户数据库中的商户名称匹配,将外部关键词与匹配到的商户名称关联,剩余的为关联到外部关键词的商户名称为第二商户名称。规则分词模型可以是根据大量网页、招聘软件等等的相关信息(如,多个外部品牌数据源中获得汽车、医院等多个行业的品牌信息,收集整理他们的品牌名,别名,公司名等)训练获取的,使得规则分词模型可以准确确定商家的品牌关键词写在什么位置,以在分词时准确获得外部关键词。此处,通过这种从外部获取外部品牌数据源的方式获取外部关键字,可以提高商户数据库中商户名称关联品牌关键词的准确性,且可以补充结巴词库中关键词(品牌词性关键词、地区词性关键词、行业词性关键词和其它此行关键词)。
本申请实施例提供了一种第一商户名称匹配外部关键词的方法,从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,包括:
对各外部关键词构建字典树;
将所述商户数据库中的商户名称分别与所述字典树进行匹配;
确定包含所述字典树任一分支的第一商户名称,并将所述分支对应的外部关键词作为所述第一商户名称的品牌关键词。这里通过将外部关键词构建字典树的方式,使得第一商户名称可以快速获取与其匹配的外部关键词。
本申请实施例提供了一种第一商户名称匹配外部关键词的方法,确定包含所述字典树任一分支的第一商户名称,包括:确定包含所述字典树任一分支的商户名称;针对任一所述商户名称,若所述商户名称中包含所述分支对应的外部关键词的品牌关联词集中任一关联词,且所述商户名称中不包含所述分支对应的外部关键词的品牌非关联词集中任一非关联词,则确定所述商户名称为所述第一商户名称。也就是说,为了防止发生外部关键词与商户名称匹配,但实际该外部关键词并不是商户名称的品牌关键词的情况。针对外部关键词设置对应的品牌关联词集和品牌非关联词集,若匹配该外部关键词的商户名称中包含品牌关联词集中的关联词且不包含品牌非关联词集中的非关联词,则确定该商户名称为第一商户名称,即,为可以与外部关键词关联的第一商户名称。若匹配该外部关键词的商户名称中包含品牌非关联词集中的非关联词,则确定该商户名称为非第一商户名称,即,为不可以与外部关键词关联的第一商户名称。
本申请实施例提供的一种数据处理方法,基于如下公式,确定所述各关键词中作为所述第二商户名称的品牌关键词:
其中,i∈(reg,brand,ind,other)表示关键词i属于所述第二商户名称对应的地区词性/品牌词性/行业词性/其他词性;O(t)表示所述第二商户名称中第t个关键词的最大概率词性;init(i)表示所述第t个关键词为i的初始词性分布概率;Q(i|word)表示所述第t个关键词是i的观测概率;(i|O(t-1))表示所述第t个关键词与相邻关键词i对应的词性转移概率。此处,可以通过隐马尔可夫模型计算第二商户名称中的品牌词性概率最大的关键词。
本申请实施例提供的一种数据处理方法,所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵是通过样本数据学习得到的。也就是说,在确定第二商户名称的品牌关键词之前,需要设置样本集,该样本集中包含关联品牌关键词的第三商户名称。
对样本集中第三商户名称分词获取多个关键词,分析各关键词的设定词性,如,样本集中包含的品牌词性的关键词、地区词性的关键词、行业词性的关键词、其它词性的关键词的分布概率,将对应设定词性的分布概率作为初始词性分布概率。
分析样本集中第三商户名称中各关键词的词序,确定各第三商户名称中相邻关键词,继而确定样本集中相邻关键词对应设定词性为品牌词性+品牌词性、品牌词性+地区词性、品牌词性+行业词性、品牌词性+其它词性、地区词性+地区词性、地区词性+品牌词性、地区词性+行业词性、地区词性+其它词性、行业词性+地区词性、行业词性+品牌词性、行业词性+行业词性、行业词性+其它词性、其它词性+地区词性、其它词性+品牌词性、其它词性+行业词性、其它词性+其它词性的分布概率,将相邻关键词对应设定词性的分布概率作为观测概率,进而确定根据上述16中组合设定词性的观测概率确定观测概率矩阵。
统计样本集中第三商户名称的关键词,针对每个关键词,统计该关键词为分别品牌词性、地区词性、行业词性、其它词性的概率,则将该关键词为设定词性的分布概率确定为观测概率,根据样本集中各关键词的设定词性的分布概率确定观测概率矩阵。
基于上述方法和流程,本申请实施例提供了一种数据处理方法的流程,如图3所示,包括:
步骤301、接收外部品牌数据。
此处,外部品牌数据可以是通过爬虫网页方式获取包含商户名称和商户名称对应的品牌信息的数据。商户名称和商户名称对应的品牌信息可以是美妆行业的,如,MBL美妆有限公司的品牌信息是MBL、AMN有限责任公司的品牌信息是AMN等等,又如,可以是汽车行业,如,DZ有限责任公司的品牌信息是DZ等等。如图4所示,衷琴品牌对应的网页数据结构-外部品牌数据结构。若多条外部品牌数据的品牌信息相同,商户名称相同,则可以融合。
步骤302、根据规则分词模型对该外部品牌数据进行分词,从该外部品牌数据的多个关键词中确定出外部关键词-品牌关键词。
此处,如图4中示例的外部品牌数据为:衷琴、钟表、畅销表、经典表、机械表、业态类型、扩展状态、上海衷琴钟表商业有限公司等。
则根据规则分词模型对该外部品牌数据进行分词可以获取关键字:衷琴、表、上海、钟表、商业、有限公司;进一步,根据网页数据结构确定外部关键词-品牌关键词:衷琴。需要说明的是,上述示例中分词方式、得到的关键词,以及匹配获取外部关键词-品牌关键词的方式只是一种示例,并不对本发明做限制,只用于清晰阐述本发明中的技术方案。
步骤303、针对至少一个外部关键词-品牌关键词构建字典树,通过字典树的方式,将外部关键词-品牌关键词和商户数据库中的商户名称匹配,确定包含外部关键词-品牌关键词的至少一个商户名称。
基于上述示例:外部关键词-品牌关键词:衷琴。从商户数据库中匹配到的至少一个商户名称为:上海衷琴钟表商业有限公司、杭州衷琴娱乐有限公司、衷琴(中国)服饰有限公司。
例如,根据外部关键词-品牌关键词“衷琴”和“衷致合”在字典树里面如图5所示,现在商户数据库里有一个商户的商户名称是“上海浦东新区衷琴世纪汇店”,那么它的匹配规则是将“上海浦东新区衷琴世纪汇店”的每个字进行字典查询。先查询“上”得到“未查得”结果、继续查询“海”得到“未查得”结果、继续查询“浦”得到“未查得”结果…直到查询“衷”,确定在字典中找到,进一步查询“衷琴”,确定在字典树中也找到了,即,匹配到外部关键词-品牌关键词,然后提取该外部关键词-品牌关键词。
其中,搜索字典项目的方法为:从字典树根结点开始一次搜索;取得要查找关键词的第一个字母Z(zhong-衷),并根据该字母选择对应的子树并转到该子树,如图5所示的子树,继续进行检索;在该子树上,取得要查找关键词的第二个字母Q(qin-琴),确定关键词-衷琴-的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
用这种方式,相比于现有技术中将每条品牌关键词分别与商户数据库中的每条商户名称逐一匹配的方式,可以加快查询速率。
如,N为商户数据库中商户名称数量,K为字典树中第一品牌关键词数量;现有技术需要查询次数为:N*K。本发明只需要查询次数为:N。
步骤304、将该至少一个商户名称分别与该外部关键词-品牌关键词对应的品牌关联词集和品牌非关联词集进行匹配,若从该至少一个商户名称中的商户名称值中匹配到品牌关联词集中包含的关联词,且未从该商户名称中匹配到品牌非关联词集中包含的非关联词,则将该商户名称确定为第一商户名称。
基于上述示例:“衷琴”对应的品牌关联词集中的关联词可以为:手表、钟表、专柜、表、专卖。“衷琴”对应的品牌非关联词集中的非关联词可以为:KTV、餐饮、娱乐、服饰。
“上海衷琴钟表商业有限公司”中的关键词“钟表”与品牌关联词集中的关联词“钟表”匹配,与品牌非关联词集中的非关联词均不匹配;
“杭州衷琴娱乐有限公司”中的关键词与品牌关联词集中的关联词均不匹配,与品牌非关联词集中的非关联词“娱乐”匹配;
“衷琴(中国)服饰有限公司”中的关键词与品牌关联词集中的关联词均不匹配,与品牌非关联词集中的非关联词“服饰”匹配;
则确定“上海衷琴钟表商业有限公司”为第一商户名称。
步骤305、将第一商户名称与该外部关键词-品牌关键词关联。
基于上述示例:外部关键词-品牌关键词:衷琴。第一商户名称为:上海衷琴钟表商业有限公司。将商户数据库中的“上海衷琴钟表商业有限公司”数据标记品牌“衷琴”。
步骤306、确定样本集中的第三商户名称包含的关键词和关键词对应的设定词性。
例如,样本集中包含1000条第三商户名称,每个第三商户名称的关键词均标记有关键词词性。
步骤307、将该样本集中关键词对应的设定词性的分布概率作为各词性的初始词性分布概率。
例如,样本集中关键词词性为地区词性的关键词分布概率=0.49,关键词词性为品牌词性的关键词分布概率=0.49,关键词词性为行业词性的关键词分布概率=0.01,关键词词性为其他词性的关键词分布概率0.01。
则初始词性分布概率如下表1:
关键词词性 | 分布概率 |
地区词性 | 0.49 |
品牌词性 | 0.49 |
行业词性 | 0.01 |
其它词性 | 0.01 |
表1
步骤308、将该样本集中相邻两个关键词对应的设定词性的分布概率作为词性转移概率。
例如,样本集中相邻关键词的关键词词性为地区词性和地区词性的分布概率=0.31(例如,上海、浦东新区),相邻关键词的关键词词性为地区词性和品牌词性的分布概率=0.6(例如,上海、衷琴),相邻关键词的关键词词性为地区词性和行业词性的分布概率=0.08,相邻关键词的关键词词性为地区词性和其它词性的分布概率=0.01…相邻关键词的关键词词性为其它词性和行业词性的分布概率=0.06,相邻关键词的关键词词性为其它词性和其它词性的分布概率=0.13。
则词性转移概率矩阵如下表:2:
地区词性 | 品牌词性 | 行业词性 | 其它词性 | |
地区词性 | 0.31 | 0.6 | 0.08 | 0.01 |
品牌词性 | 0.05 | 0.32 | 0.56 | 0.07 |
行业词性 | 0.01 | 0.09 | 0.25 | 0.65 |
其它词性 | 0.56 | 0.25 | 0.06 | 0.13 |
表2
此处,表2是针对每个关键词词性的相邻关键词词性计算分布概率,进而获取针对每个关键词词性的词性转移概率。如,针对地区词性的相邻关键词词性可以是地区词性、品牌词性、行业词性、其它词性,得到地区词性对应的分布概率为1,地区词性的相邻关键词词性为地区词性的分布概率为0.31、地区词性的相邻关键词词性为品牌词性的分布概率为0.6、地区词性的相邻关键词词性为行业词性的分布概率为0.08、地区词性的相邻关键词词性为其它词性的分布概率为0.01,0.31+0.6+0.08+0.01=1。需要说明的是,表2中的词性转移概率矩阵的计算方法只是一种示例,还可以是针对所有关键词词性计算相邻关键词词性的分布概率,这里对词性转移概率矩阵的计算方法不做限定。
步骤309、将该样本集中关键词的设定词性分布概率作为关键词概率得到观测概率矩阵。
例如,关键词:中国、太平洋、人寿、保险、黑龙江、分公司。对应的观测概率矩阵如下表3:
中国 | 太平洋 | 人寿 | 保险 | 黑龙江 | 分公司 | |
地区词性 | 0.47 | 0.4 | 0.01 | 0.01 | 0.97 | 0.01 |
品牌词性 | 0.51 | 0.58 | 0.08 | 0.08 | 0.01 | 0.01 |
行业词性 | 0.01 | 0.01 | 0.9 | 0.9 | 0.01 | 0.01 |
其它词性 | 0.01 | 0.01 | 0.01 | 0.01 | 0.01 | 0.97 |
表3
此处,如表3,在样本集中“中国”表征为地区词性的分布概率为0.47、表征为品牌词性的分布概率为0.51、表征为行业词性的分布概率为0.01、表征为其它词性的分布概率为0.01。需要说明的是,上述针对每个关键词计算关键词词性的分布概率得到观测概率矩阵只是一种示例,并不对观测概率矩阵的具体计算方式做限定。
步骤310、根据结巴分词模型对第二商户名称分词获取多个关键词和多个关键词的词序,第二商户名称为商户数据库中出第一商户名称外的商户名称,即,没有被关键品牌关键词的商户名称。
步骤311、根据该多个关键词和第二商户名称,确定多个关键词的对应的初始词性分布概率,和相邻两个关键词对应的词性转移概率矩阵中的词性转移概率,以及多个关键词对应的观测概率矩阵中的观测概率-关键词词性概率。
步骤312、将该第二商户名称的多个关键词的初始词性分布概率、相邻两个关键词词性对应的词性转移概率和关键词对应的关键词词性概率输入公式得到品牌词性概率最大的关键词。
基于上述示例,将中国、太平洋、人寿、保险、黑龙江、分公司各关键词的初始词性分布概率、词性转移概率和关键词词性概率代入下列公式:
获得品牌词性概率最大的关键词。
步骤313、将该品牌词性概率最大的关键词与该第二商户名称关联。
这里需要说明的是,上述流程步骤并不唯一,如,步骤306至步骤308对应的样本集分析获取初始词性分布概率、转移概率矩阵和观测概率矩阵的方法流程可以在步骤301之前执行。
基于相同的构思,本申请实施例还提供了一种数据处理装置,图6为本申请实施例提供的一种数据处理装置示意图,如图6示,包括:
确定模块601,用于对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;
所述确定模块601还用于,确定各设定词性在商户名称中的初始词性分布概率;
所述确定模块601还用于,确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;
关联模块602,用于基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。
可选的,所述确定模块601还用于,抓取外部品牌数据,通过规则分词模型对所述外部品牌数据进行分词,得到外部关键词;从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,并作为所述第一商户名称的品牌关键词;将所述商户数据库中未匹配到所述外部关键词的商户名称,确定为第二商户名称。
可选的,所述确定模块601具体用于,对各外部关键词构建字典树;
将所述商户数据库中的商户名称分别与所述字典树进行匹配;
确定包含所述字典树任一分支的第一商户名称,并通过所述关联模块602将所述分支对应的外部关键词作为所述第一商户名称的品牌关键词。
可选的,所述确定模块601还用于,确定包含所述字典树任一分支的商户名称;针对任一所述商户名称,若所述商户名称中包含所述分支对应的外部关键词的品牌关联词集中任一关联词,且所述商户名称中不包含所述分支对应的外部关键词的品牌非关联词集中任一非关联词,则确定所述商户名称为所述第一商户名称。
可选的,基于如下公式,确定所述各关键词中作为所述第二商户名称的品牌关键词:
其中,i∈(reg,brand,ind,other)表示关键词i属于所述第二商户名称对应的地区词性/品牌词性/行业词性/其他词性;O(t)表示所述第二商户名称中第t个关键词的最大概率词性;init(i)表示所述第t个关键词为i的初始词性分布概率;Q(i|word)表示所述第t个关键词是i的观测概率;(i|O(t-1))表示所述第t个关键词与相邻关键词i对应的词性转移概率。
可选的,所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵是通过样本数据学习得到的。
可选的,所述初始词性分布概率是根据样本数据中各关键词对应的设定词性的分布概率确定的;所述词性转移概率矩阵是根据样本数据中处于相邻位置的关键词对应的设定词性分布概率确定的;所述观测概率矩阵是根据样本数据中关键词的设定词性的分布概率确定的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;确定各设定词性在商户名称中的初始词性分布概率;
确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;
基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。
2.如权利要求1中所述的方法,其特征在于,对商户数据库中的第二商户名称进行分词之前,还包括:
抓取外部品牌数据,通过规则分词模型对所述外部品牌数据进行分词,得到外部关键词;
从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,并作为所述第一商户名称的品牌关键词;
将所述商户数据库中未匹配到所述外部关键词的商户名称,确定为第二商户名称。
3.如权利要求2中所述的方法,其特征在于,从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,包括:
对各外部关键词构建字典树;
将所述商户数据库中的商户名称分别与所述字典树进行匹配;
确定包含所述字典树任一分支的第一商户名称,并将所述分支对应的外部关键词作为所述第一商户名称的品牌关键词。
4.如权利要求3中所述的方法,其特征在于,确定包含所述字典树任一分支的第一商户名称,包括:
确定包含所述字典树任一分支的商户名称;
针对任一所述商户名称,若所述商户名称中包含所述分支对应的外部关键词的品牌关联词集中任一关联词,且所述商户名称中不包含所述分支对应的外部关键词的品牌非关联词集中任一非关联词,则确定所述商户名称为所述第一商户名称。
6.如权利要求1至5中任一项所述的方法,其特征在于,所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵是通过样本数据学习得到的。
7.如权利要求6所述方法,其特征在于,
所述初始词性分布概率是根据样本数据中各关键词对应的设定词性的分布概率确定的;
所述词性转移概率矩阵是根据样本数据中处于相邻位置的关键词对应的设定词性分布概率确定的;
所述观测概率矩阵是根据样本数据中关键词的设定词性的分布概率确定的。
8.一种数据处理装置,其特征在于,所述装置包括:
确定模块,用于对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;
所述确定模块还用于,确定各设定词性在商户名称中的初始词性分布概率;
所述确定模块还用于,确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;
关联模块,用于基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行权利要求1至7中任一项所述的方法。
10.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1至7任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067731.4A CN113836378A (zh) | 2021-09-13 | 2021-09-13 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067731.4A CN113836378A (zh) | 2021-09-13 | 2021-09-13 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836378A true CN113836378A (zh) | 2021-12-24 |
Family
ID=78959106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111067731.4A Pending CN113836378A (zh) | 2021-09-13 | 2021-09-13 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836378A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024055480A1 (zh) * | 2022-09-14 | 2024-03-21 | 中国银联股份有限公司 | 信息处理方法、装置、设备及存储介质 |
-
2021
- 2021-09-13 CN CN202111067731.4A patent/CN113836378A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024055480A1 (zh) * | 2022-09-14 | 2024-03-21 | 中国银联股份有限公司 | 信息处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718586B (zh) | 分词的方法及装置 | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN106407113B (zh) | 一种基于Stack Overflow和commit库的bug定位方法 | |
CN112148843B (zh) | 文本处理方法、装置、终端设备和存储介质 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
Sasidhar et al. | A survey on named entity recognition in Indian languages with particular reference to Telugu | |
CN111291571A (zh) | 语义纠错方法、电子设备及存储介质 | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN112667775A (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN114625748A (zh) | Sql查询语句的生成方法、装置、电子设备及可读存储介质 | |
CN115858773A (zh) | 适用于长文档的关键词挖掘方法、装置及介质 | |
CN113836378A (zh) | 一种数据处理方法及装置 | |
JP5780036B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
CN116414872B (zh) | 基于自然语言识别及知识图谱的数据搜索方法和系统 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN112748811A (zh) | 一种英文单词输入方法及装置 | |
CN111858860B (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN112541357B (zh) | 实体识别方法、装置及智能设备 | |
CN113139379B (zh) | 信息识别方法和系统 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
Sun et al. | Generalized abbreviation prediction with negative full forms and its application on improving chinese web search | |
CN111967248A (zh) | 拼音识别方法、装置、终端设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |