CN112632214A - 一种创建清单数据索引的方法和装置 - Google Patents
一种创建清单数据索引的方法和装置 Download PDFInfo
- Publication number
- CN112632214A CN112632214A CN202011551965.1A CN202011551965A CN112632214A CN 112632214 A CN112632214 A CN 112632214A CN 202011551965 A CN202011551965 A CN 202011551965A CN 112632214 A CN112632214 A CN 112632214A
- Authority
- CN
- China
- Prior art keywords
- index
- data
- manifest
- data entity
- manifest data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了创建清单数据索引的方法和装置,涉及计算机搜索技术领域。该方法的具体实施方式包括:将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;针对每个标准化清单数据实体标识,创建清单数据实体的索引。该实施方式降低了清单数据索引量和创建索引时间,提高了索引效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种创建清单数据索引的方法和装置。
背景技术
一般来说,索引用于系统地排列文档或其他实体。索引使用户能够在文档中快速地查找信息。索引集合用于解析和存储文档。索引是为了在查找所需文档时提高搜索查询的速度和性能。搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
目前,现在主流的搜索引擎主要包括:Lucene,Solr,ElasticSearch;它们的索引建立都是根据倒排索引的方式生成索引。
发明内容
有鉴于此,本发明实施例提供一种创建清单数据索引的方法和装置,能够通过对清单数据中文繁体、简体、英文大小写进行规格化处理可以有效减少索引,实现统一化管理。通过对清单实体标识去重后建索引,可以有效减少索引量,同时提升匹配效率。对清单原有中文数据不进行拼音转化,减少过多的多音字处理,不仅可以大量减少索引,同时避免清单筛查匹配中文转拼音多次匹配计算过程,提升效率。本发明的方案,综合考虑待筛查数据和清单数据特性,能够有效减少清单索引量,节省索引创建时间,提升索引效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种创建清单数据索引的方法。
根据本发明实施例的一个方面的创建清单数据索引的方法,包括:
将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;
对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;
针对每个标准化清单数据实体标识,创建清单数据实体的索引。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,所述对所述清单数据实体标识进行标准化处理包括至少以下中的一种或几种:
移除标点符号;
移除ASCII码;
移除停止词;
转化英语单词的大写和/或小写;
转化中文汉字的繁体和/简体。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,针对每个标准化清单数据实体标识,创建清单数据实体的索引,包括:
对每个标准化清单数据实体标识进行去重处理;
针对去重后的标准化清单数据实体标识,创建清单数据实体的索引。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,所创建的清单数据实体的索引是一个或多个。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,所述清单数据实体标识包括本国语言、非本国语言和别名。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,所述本国语言是中文,所述非本国语言是英语。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,在针对去重后的标准化清单数据实体标识,创建清单数据实体的索引时,使用Solr引擎来创建清单数据实体的索引。
根据本发明实施例的一个方面的创建清单数据索引的方法,其中,所述对所述清单数据实体标识进行标准化处理,不包括中文转拼音处理。
为实现上述目的,根据本发明实施例的一个方面,提供了一种创建清单数据索引的装置。
根据本发明实施例的一个方面的创建清单数据索引的装置,包括:
预处理模块,用于将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;以及对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;
索引模块,用于针对每个标准化清单数据实体标识,创建清单数据实体的索引。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,在对所述清单数据实体标识进行标准化处理时,所述预处理模块还用于至少以下中的一种或几种:
移除标点符号;
移除ASCII码;
移除停止词;
转化英语单词的大写和/或小写;
转化中文汉字的繁体和/简体。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,在针对每个标准化清单数据实体标识,创建清单数据实体的索引时,所述索引模块还用于:
对每个标准化清单数据实体标识进行去重处理;
针对去重后的标准化清单数据实体标识,创建清单数据实体的索引。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,所创建的清单数据实体的索引是一个或多个。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,所述清单数据实体标识包括本国语言、非本国语言和别名。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,所述本国语言是中文,所述非本国语言是英语。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,在针对去重后的标准化清单数据实体标识,创建清单数据实体的索引时,所述索引模块使用Solr引擎来创建清单数据实体的索引。
根据本发明实施例的一个方面的创建清单数据索引的装置,其中,在对所述清单数据实体标识进行标准化处理时,所述预处理模块不用于中文转拼音处理。
为实现上述目的,根据本发明实施例的一个方面,提供了一种创建清单数据索引的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述方法中任一所述的方法。
为实现上述目的,根据本发明实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如前述方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过对清单数据中文繁体、简体、英文大小写进行规格化处理可以有效减少索引,实现统一化管理。通过对清单对诸如客户名称的清单数据实体标识去重后建索引,可以有效减少索引量,同时提升匹配效率。对清单原有中文数据不进行拼音转化,减少过多的多音字处理,不仅可以大量减少索引,同时避免清单筛查匹配中文转拼音多次匹配计算过程,提升效率。本发明提出的方案,综合考虑待筛查数据和清单数据特性,有效减少清单索引量,节省索引创建时间,提升索引效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的创建清单数据索引的方法的主要流程的示意图;
图2是根据本发明实施例的创建清单数据索引的方法的另一流程的示意图;
图3是根据本发明实施例的创建清单数据索引的方法的另一流程的示意图;
图4a和图4b是根据本发明实施例的创建清单数据索引的效果的示意图;
图5是根据本发明实施例的创建清单数据索引的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
由于清单数据自有的特色,快速将清单的客户信息数据进行处理,并有效创建清单数据索引,可以为后续清单筛查匹配提供更好的数据基础服务。本发明提出了一种有效实现清单数据索引创建方法,以有效实现清单数据有效处理。
本发明所述实施例主要基于Solr来阐述,需要说明的是,本发明所述实施例的方法也可以应用于任何其他搜索引擎,而不仅限于Solr。使用Solr进行创建索引和搜索索引的实现方法如下:
1、创建索引:客户端(例如可以是浏览器或是Java程序)用POS T方法向Solr服务器发送一个描述Field及其内容的JSON、CSV、X ML文档,Solr服务器根据JSON、CSV、XML文档添加、删除、更新索引。
2、搜索索引:客户端(例如可以是浏览器或是Java程序)用GET方法向Solr服务器发送请求,然后对Solr服务器返回JSON、CSV、X ML等格式的查询结果进行解析,组织页面布局。Solr不提供构建页面U I的功能,但是提供了一个管理界面,通过管理界面可以查询Solr的配置和运行情况。
从JSON、CSV、XML等中选择所需的文档格式。在文本区域中键入要索引的文档,然后单击提交文档按钮。全文检索的索引创建过程一般有以下几步:
第一步:获取要索引的原文档(Document)。
第二步:将原文档传给分词组件(Tokenizer)。
分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize):
1.将文档分成一个一个单独的单词。
2.去除标点符号。
3.去除停词(Stop word)。
第三步:将得到的词元(Token)传给语言处理组件(Linguistic Proce ssor)。
语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。
对于英语,语言处理组件(Linguistic Processor)一般做以下几点:
1.变为小写(Lowercase)。
2.将单词缩减为词根形式,如“cars”到“car”等。这种操作称为:stemming。
3.将单词转变为词根形式,如“drove”到“drive”等。这种操作称为:lemmatization。
第四步:将得到的词(Term)传给索引组件(Indexer)。
1.利用得到的词(Term)创建一个字典。
2.对字典按字母顺序进行排序。
3.合并相同的词(Term)成为文档倒排(Posting List)链表。
而这种方式存在一些问题,例如,直接对清单数据创建Solr索引,未对清单客户数据性质进行分析,导致清单数据索引量大大增加,同时出现重复清单数据索引。比如“王吁吁”创建了“wang xu xu”、“w ang yu yu”、“wang xu yu”、“wang yu xu”等索引数据,可能导致后续清单匹配过程同音字误匹配情况。
对于清单数据索引创建方法,如何有效根据清单数据建立有效的索引,实现对清单数据有效、准确覆盖,同时减少清单索引量,是本发明首要解决的技术问题。
本发明的主要实现方法为,首先将清单数据进行结构化处理,然后根据清单数据实体的客户名称和别名(含本国语言和英文)经过中文繁体转化简体、去重等预处理后,不进行中文转拼音建立客户名称索引。
图1是根据本发明实施例的创建清单数据索引的方法的主要流程图,如图1所示,该方法包括步骤S101、S102、S103。
步骤S101:将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识。
直接获得的清单数据往往来源复杂,是非结构化数据。非结构化数据不便于进行索引。因此首先在该步骤中,将非结构化的路透所有清单机构的清单数据转化成结构化的数据。并且,可以提取出清单数据实体的标识,例如,清单数据实体的名称和别名等。客户名称可以是本国语言(例如,中文)、非本国语言(例如,英文)等。别名可以是清单数据实体名称的简称等。
步骤S102:对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识。
参考图2,在一种实施方式中,对所述清单数据实体标识进行标准化处理可以包括移除标点符号、移除ASCII码等。
另外可以包括移除停止词。如,在对公客户场景下,移除对公客户停止词(考虑到清单数据对公客户翻译等因素),对公客户停止词可以包括:corp、limited liabilitycompany、branch、incorporated、co mpany、sa、the、of、gmbh、ltd、inc、ab、llc、limited、ag、plc、cor poration、corprtion、oy、co、股份有限公司、有限责任公司、有限公司、有限股份公司、公司、分公司等;去除客户地址停止词:area、co untry、province city、zone、district、county、省、市、区、县等。
此外,标准化处理可以将英文单词所有单词转化为小写字母;将中文汉字由繁体转为简体。依据需要,也可以将所有单纯转化为大写字母,或者将中文汉字由简体转为繁体。
标准化处理的好处在于,可以减少对公客户如公司的不同翻译形式导致为清单匹配造成的分值误差;减少中文转拼音多音字对后续建索引量数据量;减少中文客户名称不同写法导致的清单漏匹配的问题;并且有效实现数据统一化处理。
步骤S103:针对每个标准化清单数据实体标识,创建清单数据实体的索引。
在该步骤中,将预处理初始化后的结构化的清单数据标识(名称)去重,然后用Solr引擎针对客户名称建路透清单索引。同时为减少Solr索引数据量,结合路透清单数据,对中文名称不按多音字进行拼音转换,从而有效减少路透清单Solr索引数据量。参考图3,该步骤的具体操作如下:
(1)将每个清单数据实体标识(ID、名称等)的本国语言和非本国语言名称(含别名)去掉重复数据;
(2)针对每个清单数据实体标识(ID、名称等)创建Solr索引。由于每个清单数据实体标识有本国语言和非本国语言且有可能有别名,因此每个实体标识可能有多个索引(例如,名称索引)。
通过以上去重和创建索引的步骤,可以将清单数据索引量有效减少原来近五分之一。例如,如果按照业务所需执行152个清单机构来计算,清单数据索引量减少为1.4%。
索引创建时间减少了近三分之二(运行环境为4C8G)。例如,如果按照业务所需执行152个清单机构来计算,执行时间减少为15%。
针对中文清单实体名称创建清单索引无需转拼音和多音字,因为筛查匹配时候,待筛查的实体会做拼音转化。针对中文名称不按多音字进行拼音转换,可以大量减少路透清单客户名称Solr索引数据量。
针对清单实体名称的中文繁体转简体、英文大写统一转化为小写,去除重名后,可以大量减少清单客户名称Solr索引。
参考图4a和图4b,图示了使用本发明实施例的方法后,路透清单Solr索引量维度和时间的变化。
在一种实施方式中,以上方法实施例所述的方法以及对索引的操作,可以用以下代码实现:
例如配置四个索引库,分别是全量全机构库amlwl(所有清单机构库),全量限制机构库amlwlLimit(152个清单机构),增量全机构库amlwlRep(所有清单机构日增量),增量限制机构库amlwlRepLimit(152个清单机构日增量)。
//若是增量导入,那么同时更新增量和全量索引库
1、清空增量库的数据。
2、删除全量库中对应增量实体的的数据。
3、删除全量库中,已被移出黑名单的实体
4、增量数据导入amlwl与amlwlRep
5、在用户限制清单机构内的实体,将导入amlwlLimit和amlwlRep Limit
//若是全量数据导入,那么只更新全量索引库
1、清空全量索引库
2、将全量索引导入。
具体操作如下:
/查询出用户限制的清单机构
List<Office>limitOffices=getUserLimitOffice()
//判断是增量或全量数据导入
List<SolrData>solrDatas=null;
If(isAll){
//查询全量数据
solrDatas=getAllSolrData()
}else{
//查询日增量数据
solrData=getDailySolrData()
}
//遍历数据
For(SolrData data:solrDatas){
//姓和名,需去掉ASCII码,转简体,去掉停止词和标点等特殊符号
String lastname=data.lastname
String firstname=data.firstname
//多个用户别名拼接字符串
String full_name=data.full_name
//将别名按;拆分
String[]names=full_name.Split(“;”)
//收集索引对象集合
List<SolrDocument>solrDocuments=new ArrayList<>()
For(String name:names){
//转换ASCII码
name=transferAscii(name)
//繁体转简体
name=toSimpleName(name)
//去除停止词和标点等特殊符号
name=removeSpecialWord(name)
//对处理后的名称去重之后,为每个别名创建一条索引数据
SolrDocument solrDocument=new SolrDocument();
solrDocument.setFullName(name)
//为了方便对搜索结果进行处理,此处给每个别名设置了国籍,性别等冗余属性
solrDocument.setOtherFields()
//添加到集合中
solrDocuments.add(solrDocument)
If(solrDocuments.size()>10000){
//每一万条插入一次
solrClient.putData(solrDocuments)
//清空集合
solrDocuments.clear()
}
图5是根据本发明实施例的创建清单数据索引的装置的主要模块的示意图。
图5所示,创建清单数据索引的装置,主要包括:
预处理初始化模块501,用于将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;以及对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;
索引模块502,用于针对每个标准化清单数据实体标识,创建清单数据实体的索引。
其中,在对所述清单数据实体标识进行标准化处理时,所述预处理初始化模块501还用于至少以下中的一种或几种:
移除标点符号;
移除ASCII码;
移除停止词;
转化英语单词的大写和/或小写;
转化中文汉字的繁体和/简体。
其中,在针对每个标准化清单数据实体标识,创建清单数据实体的索引时,所述索引模块502还用于:
对每个标准化清单数据实体标识进行去重处理;
针对去重后的标准化清单数据实体标识,创建清单数据实体的索引。
其中,所创建的清单数据实体的索引是一个或多个。
其中,所述清单数据实体标识包括本国语言、非本国语言和别名。
其中,所述本国语言是中文,所述非本国语言是英语。
其中,在针对去重后的标准化清单数据实体标识,创建清单数据实体的索引时,所述索引模块502使用Solr引擎来创建清单数据实体的索引。
其中,在对所述清单数据实体标识进行标准化处理时,所述预处理初始化模块501不用于中文转拼音处理。
图6示出了可以应用本发明实施例的创建清单数据索引的方法或创建清单数据索引的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种客户端应用,例如创建清单数据索引应用,搜索引擎等。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的应用提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的创建清单数据索引的方法一般由服务器605执行,相应地,创建清单数据索引的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括预处理初始化模块、索引模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,索引模块还可以被描述为“创建索引的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现:
将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;
对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;
针对每个标准化清单数据实体标识,创建清单数据实体的索引。
其中,所述对所述清单数据实体标识进行标准化处理包括至少以下中的一种或几种:
移除标点符号;
移除ASCII码;
移除停止词;
转化英语单词的大写和/或小写;
转化中文汉字的繁体和/简体。
其中,针对每个标准化清单数据实体标识,创建清单数据实体的索引,包括:
对每个标准化清单数据实体标识进行去重处理;
针对去重后的标准化清单数据实体标识,创建清单数据实体的索引。
其中,所创建的清单数据实体的索引是一个或多个。
其中,所述清单数据实体标识包括本国语言、非本国语言和别名。
其中,所述本国语言是中文,所述非本国语言是英语。
其中,在针对去重后的标准化清单数据实体标识,创建清单数据实体的索引时,使用Solr引擎来创建清单数据实体的索引。
其中,所述对所述清单数据实体标识进行标准化处理,不包括中文转拼音处理。
根据本发明实施例的技术方案,通过对清单数据中文繁体、简体、英文大小写进行规格化处理可以有效减少索引,实现统一化管理。通过对清单对诸如客户名称的清单数据实体标识去重后建索引,可以有效减少索引量,同时提升匹配效率。对清单原有中文数据不进行拼音转化,减少过多的多音字处理,不仅可以大量减少索引,同时避免清单筛查匹配中文转拼音多次匹配计算过程,提升效率。本发明提出的方案,综合考虑待筛查数据和清单数据特性,有效减少清单索引量,节省索引创建时间,提升索引效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (18)
1.一种创建清单数据索引的方法,其特征在于,包括:
将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;
对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;
针对每个标准化清单数据实体标识,创建清单数据实体的索引。
2.根据权利要求1所述的方法,其特征在于,所述对所述清单数据实体标识进行标准化处理包括至少以下中的一种或几种:
移除标点符号;
移除ASCII码;
移除停止词;
转化英语单词的大写和/或小写;
转化中文汉字的繁体和/简体。
3.根据权利要求1所述的方法,其特征在于,针对每个标准化清单数据实体标识,创建清单数据实体的索引,包括:
对每个标准化清单数据实体标识进行去重处理;
针对去重后的标准化清单数据实体标识,创建清单数据实体的索引。
4.根据权利要求1所述的方法,其特征在于,所创建的清单数据实体的索引是一个或多个。
5.根据权利要求1所述的方法,其特征在于,所述清单数据实体标识包括本国语言、非本国语言和别名。
6.根据权利要求1所述的方法,其特征在于,所述本国语言是中文,所述非本国语言是英语。
7.根据权利要求1所述的方法,其特征在于,在针对去重后的标准化清单数据实体标识,创建清单数据实体的索引时,使用Solr引擎来创建清单数据实体的索引。
8.根据权利要求2所述的方法,其特征在于,所述对所述清单数据实体标识进行标准化处理,不包括中文转拼音处理。
9.一种创建清单数据索引的装置,其特征在于,包括:
预处理初始化模块,用于将所述非结构化的清单数据转化成结构化数据,并提取出清单数据实体标识;以及对所述清单数据实体标识进行标准化处理,以生成标准化清单数据实体标识;
索引模块,用于针对每个标准化清单数据实体标识,创建清单数据实体的索引。
10.根据权利要求9所述的装置,其特征在于,在对所述清单数据实体标识进行标准化处理时,所述预处理初始化模块还用于至少以下中的一种或几种:
移除标点符号;
移除ASCII码;
移除停止词;
转化英语单词的大写和/或小写;
转化中文汉字的繁体和/简体。
11.根据权利要求9所述的装置,其特征在于,在针对每个标准化清单数据实体标识,创建清单数据实体的索引时,所述索引模块还用于:
对每个标准化清单数据实体标识进行去重处理;
针对去重后的标准化清单数据实体标识,创建清单数据实体的索引。
12.根据权利要求9所述的装置,其特征在于,所创建的清单数据实体的索引是一个或多个。
13.根据权利要求9所述的装置,其特征在于,所述清单数据实体标识包括本国语言、非本国语言和别名。
14.根据权利要求9所述的装置,其特征在于,所述本国语言是中文,所述非本国语言是英语。
15.根据权利要求9所述的装置,其特征在于,在针对去重后的标准化清单数据实体标识,创建清单数据实体的索引时,所述索引模块使用Solr引擎来创建清单数据实体的索引。
16.根据权利要求10所述的装置,其特征在于,在对所述清单数据实体标识进行标准化处理时,所述预处理初始化模块不用于中文转拼音处理。
17.一种创建清单数据索引的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011551965.1A CN112632214A (zh) | 2020-12-24 | 2020-12-24 | 一种创建清单数据索引的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011551965.1A CN112632214A (zh) | 2020-12-24 | 2020-12-24 | 一种创建清单数据索引的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632214A true CN112632214A (zh) | 2021-04-09 |
Family
ID=75324388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011551965.1A Pending CN112632214A (zh) | 2020-12-24 | 2020-12-24 | 一种创建清单数据索引的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632214A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113944601A (zh) * | 2021-10-15 | 2022-01-18 | 上海大学 | 一种用于风机高频海量数据实时采集传输及处理的方法 |
CN115309863A (zh) * | 2022-08-09 | 2022-11-08 | 中电金信软件有限公司 | 名单内容的扩充方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-12-24 CN CN202011551965.1A patent/CN112632214A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113944601A (zh) * | 2021-10-15 | 2022-01-18 | 上海大学 | 一种用于风机高频海量数据实时采集传输及处理的方法 |
CN115309863A (zh) * | 2022-08-09 | 2022-11-08 | 中电金信软件有限公司 | 名单内容的扩充方法、装置、电子设备及可读存储介质 |
CN115309863B (zh) * | 2022-08-09 | 2023-09-19 | 中电金信软件有限公司 | 名单内容的扩充方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10095690B2 (en) | Automated ontology building | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US11568142B2 (en) | Extraction of tokens and relationship between tokens from documents to form an entity relationship map | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
WO2023024975A1 (zh) | 文本处理方法、装置和电子设备 | |
CN112632214A (zh) | 一种创建清单数据索引的方法和装置 | |
Wu et al. | Searching services" on the web": A public web services discovery approach | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
US20170242907A1 (en) | Processing a data set that is not organized according to a schema being used for organizing data | |
US10546063B2 (en) | Processing of string inputs utilizing machine learning | |
CN111753029A (zh) | 实体关系抽取方法、装置 | |
CN111400436A (zh) | 一种基于用户意图识别的搜索方法以及装置 | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
CN111126073A (zh) | 语义检索方法和装置 | |
EP3825897A2 (en) | Method, apparatus, device, storage medium and program for outputting information | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
JP2022050011A (ja) | 情報処理装置及びプログラム | |
CN110083817B (zh) | 一种命名排歧方法、装置、计算机可读存储介质 | |
Rakholia et al. | Automatic language identification and content separation from Indian multilingual documents using unicode transformation format | |
CN106776772B (zh) | 一种数据检索的方法及装置 | |
CN115905297B (zh) | 用于检索数据的方法、设备和介质 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
Gupta et al. | Stemming Techniques on English Language and Devanagari Script: A Review | |
KR102640811B1 (ko) | 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |