CN112100313A - 一种基于最细粒度切分的数据索引方法及系统 - Google Patents

一种基于最细粒度切分的数据索引方法及系统 Download PDF

Info

Publication number
CN112100313A
CN112100313A CN202010779832.3A CN202010779832A CN112100313A CN 112100313 A CN112100313 A CN 112100313A CN 202010779832 A CN202010779832 A CN 202010779832A CN 112100313 A CN112100313 A CN 112100313A
Authority
CN
China
Prior art keywords
index
segmentation
indexing
keywords
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010779832.3A
Other languages
English (en)
Other versions
CN112100313B (zh
Inventor
孔平
靳占新
王刚
戚鲁凤
栾松涛
魏升吉
李玉华
董文杰
朱俞霖
柳明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Luneng Software Technology Co Ltd
Original Assignee
Shandong Luneng Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Luneng Software Technology Co Ltd filed Critical Shandong Luneng Software Technology Co Ltd
Priority to CN202010779832.3A priority Critical patent/CN112100313B/zh
Publication of CN112100313A publication Critical patent/CN112100313A/zh
Application granted granted Critical
Publication of CN112100313B publication Critical patent/CN112100313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最细粒度切分的数据索引方法及系统,包括:提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;按照各索引关键词的排序进行顺次索引。本发明索引过程中学习性较强,可以根据用户检索词汇类别权重进行有效的学习并更新存储;能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题。

Description

一种基于最细粒度切分的数据索引方法及系统
技术领域
本发明属于数据索引技术领域,尤其涉及一种基于最细粒度切分的数据索引方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
中文分词(Chinese Word Segmentation)就是将一个汉字序列切分成一个个单独的词的过程,它是进行数据索引的基础。在实际应用领域,分词能够更加细致、准确、快速的匹配、查询、获得结果集。
现有技术在进行数据索引时,往往采用分词器进行分词,基于词典中存储的词进行匹配实现分词,但是这种方式的分词结果准确性仅依赖于词典中的词汇量,往往偏离用户真正要表达的意思,从而导致数据检索结果不准确。比如:可能将“山东大学男”分词为“山东大”“学男”。
另外,在进行数据索引时,由于分词的准确性和有效性偏低,导致数据处理量大,搜索效率低下,对服务器的性能要求较高。
发明内容
本发明为了解决上述问题,提出了一种基于最细粒度切分的数据索引方法及系统,能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题,另外通过适配全业务数据中心,极大的保证了搜索结果的准确性和搜索效率。
在一些实施方式中,采用如下技术方案:
一种基于最细粒度切分的数据索引方法,包括:
提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
按照各索引关键词的排序进行顺次索引。
作为进一步地方案,单个索引关键词进行索引时,优先反馈权重最高的词汇类别对应的索引结果。
作为进一步地方案,按照各索引关键词的排序进行顺次索引,具体过程为:
在前一个索引关键词对应的索引结果的基础上,检索下一个索引关键词对应的检索结果。
作为进一步地方案,所述全业务数据中心包括词库,所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重,以及每一个关键词的索引路径。
作为进一步地方案,所述每一个关键词对应的优先级根据业务需求预先设定;所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。
作为进一步地方案,按照各索引关键词的排序进行顺次索引之后,基于用户对得到的索引结果的响应结果,对全业务数据中心中索引关键词所属词汇类别的权重进行更新。
作为进一步地方案,将新出现的关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心,并根据用户对每次索引结果的响应,对关键词所属词汇类别的权重进行更新。
在另一些实施方式中,采用如下技术方案:
一种基于最细粒度切分的数据索引系统,其特征在于包括:
数据切分模块:用于提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
数据匹配模块:用于将单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
关键词排序模块:用于按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
数据索引模块:用于按照各索引关键词的排序进行顺次索引。
在另一些实施方式中,采用如下技术方案:
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于最细粒度切分的数据索引方法。
在另一些实施方式中,采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于最细粒度切分的数据索引方法。
与现有技术相比,本发明的有益效果是:
本发明索引过程中学习性较强,可以根据用户检索词汇类别权重进行有效的学习并更新存储;能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题;
本发明对索引关键词组进行排序,并顺次检索,逐渐缩小数据索引的范围,减少了数据处理量,降低了对于处理器性能的要求,同时提高数据索引效率。
本发明通过匹配全业务数据中心这种数据中台级的应用架构,能够直接匹配出索引关键词、其优先级及所属词汇类别的权重,并且全业务数据中心在索引过程中实时更新,极大的保证了搜索结果的准确性并提高搜索效率。
附图说明
图1是本发明实施例中的基于最细粒度切分的数据索引方法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
在一个或多个实施方式中,公开了一种基于最细粒度切分的数据索引方法,参照图1,包括以下过程:
步骤1:提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
步骤2:所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
步骤3:按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
步骤4:按照各索引关键词的排序进行顺次索引。
具体地,采用最细粒度切分算法,将原文本的关键词按照最细粒度进行切分;最新粒度切分算法可以采用现有的算法,比如:IK正向迭代最细粒度切分算法。
单个候选微分词与全业务数据中心进行匹配,全数据业务中心存储有不同业务需求下的所有数据,比如:人资、物资和财务等等。同时,全数据业务中心包括词库,词库里面存储有关键词、关键词的优先级关键词所属不同词汇类别的权重以及关键词对应的索引路径。
其中,关键词的优先级根据业务需求进行预先设定,比如:“山东大学”优先级>“计算机学院”优先级>“男”优先级。
关键词所属不同词汇类别的权重根据客户对于不同词汇类别的索引结果的响应次数确定,比如:山东大学作为毕业院校类的词汇属性的索引结果,被用户点击的次数最多,则该词汇类别的权重最高。假如在后续的检索过程中,山东大学作为居住地址类的词汇属性的索引结果,被用户点击的次数最多,则更新该词汇类别的权重变为最高。
按照优先级顺序对索引关键词组中的各索引关键词进行排序,在进行索引时,按照各索引关键词的排序进行顺次索引;即,在前一个索引关键词对应的索引结果的基础上,检索下一个索引关键词对应的检索结果。比如:先检索“山东大学”关键词对应的索引结果,然后在此结果的基础上进一步检索“计算机学院”关键词对应的索引结果,然后再此结果的基础上,再进一步检索“男”关键词对应的索引结果;按照优先级排序进行检索,能够一步一步地缩小数据检索的范围,不断减少数据处理量,降低对于服务器性能的要求。
在单个索引关键词进行索引时,优先反馈权重最高的词汇类别对应的索引结果;然后根据用户对于索引结果的响应,比如:点击索引结果,不断更新每一个索引关键词所属词汇类别的权重,并存储至全数据业务中心。
同时,对于新出现的索引关键词,将该关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心,并根据用户对每次索引结果的响应,对该关键词所属词汇类别的权重进行更新。
通过全数据业务中心的不断自学习,不断提高索引结果的准确性和搜索效率。
实施例二
在一个或多个实施方式中,公开了一种基于最细粒度切分的数据索引系统,包括:
数据切分模块:用于提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
数据匹配模块:用于将单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
关键词排序模块:用于按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
数据索引模块:用于按照各索引关键词的排序进行顺次索引。
需要说明的是,上述各模块的具体工作方式采用实施例一中公开的方法实现,此处不再赘述。
实施例三
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于最细粒度切分的数据索引方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的基于最细粒度切分的数据索引方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于最细粒度切分的数据索引方法,其特征在于,包括:
提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
所述单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
按照各索引关键词的排序进行顺次索引。
2.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,单个索引关键词进行索引时,优先反馈权重最高的词汇类别对应的索引结果。
3.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,按照各索引关键词的排序进行顺次索引,具体过程为:
在前一个索引关键词对应的索引结果的基础上,检索下一个索引关键词对应的检索结果。
4.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,所述全业务数据中心包括词库,所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重,以及每一个关键词的索引路径。
5.如权利要求4所述的一种基于最细粒度切分的数据索引方法,其特征在于,所述每一个关键词对应的优先级根据业务需求预先设定;所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。
6.如权利要求4所述的一种基于最细粒度切分的数据索引方法,其特征在于,按照各索引关键词的排序进行顺次索引之后,基于用户对得到的索引结果的响应结果,对全业务数据中心中索引关键词所属词汇类别的权重进行更新。
7.如权利要求1所述的一种基于最细粒度切分的数据索引方法,其特征在于,将新出现的关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心,并根据用户对每次索引结果的响应,对关键词所属词汇类别的权重进行更新。
8.一种基于最细粒度切分的数据索引系统,其特征在于,包括:
数据切分模块:用于提取待处理的原文本的关键词,对关键词进行最细粒度的切分,形成若干单个候选微分词;
数据匹配模块:用于将单个候选微分词通过与全业务数据中心进行匹配,筛选得到索引关键词组;
关键词排序模块:用于按照优先级顺序对所述索引关键词组中的各索引关键词进行排序,确定每一个索引关键词所属词汇类别的权重;
数据索引模块:用于按照各索引关键词的排序进行顺次索引。
9.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于最细粒度切分的数据索引方法。
10.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的基于最细粒度切分的数据索引方法。
CN202010779832.3A 2020-08-05 2020-08-05 一种基于最细粒度切分的数据索引方法及系统 Active CN112100313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010779832.3A CN112100313B (zh) 2020-08-05 2020-08-05 一种基于最细粒度切分的数据索引方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010779832.3A CN112100313B (zh) 2020-08-05 2020-08-05 一种基于最细粒度切分的数据索引方法及系统

Publications (2)

Publication Number Publication Date
CN112100313A true CN112100313A (zh) 2020-12-18
CN112100313B CN112100313B (zh) 2024-04-12

Family

ID=73750232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010779832.3A Active CN112100313B (zh) 2020-08-05 2020-08-05 一种基于最细粒度切分的数据索引方法及系统

Country Status (1)

Country Link
CN (1) CN112100313B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208733A1 (en) * 2006-02-22 2007-09-06 Copernic Technologies, Inc. Query Correction Using Indexed Content on a Desktop Indexer Program
CN101162469A (zh) * 2007-11-09 2008-04-16 清华大学 基于快照的细粒度文件与目录版本管理方法
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
US20090222434A1 (en) * 2008-03-03 2009-09-03 Oracle International Corporation Inclusion of metadata in indexed composite document
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN111008200A (zh) * 2019-12-18 2020-04-14 北京数衍科技有限公司 数据查询方法、装置和服务器
CN111259171A (zh) * 2020-01-15 2020-06-09 青岛聚看云科技有限公司 一种基于分词索引搜索多媒体资源的方法及服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208733A1 (en) * 2006-02-22 2007-09-06 Copernic Technologies, Inc. Query Correction Using Indexed Content on a Desktop Indexer Program
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101162469A (zh) * 2007-11-09 2008-04-16 清华大学 基于快照的细粒度文件与目录版本管理方法
US20090222434A1 (en) * 2008-03-03 2009-09-03 Oracle International Corporation Inclusion of metadata in indexed composite document
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN111008200A (zh) * 2019-12-18 2020-04-14 北京数衍科技有限公司 数据查询方法、装置和服务器
CN111259171A (zh) * 2020-01-15 2020-06-09 青岛聚看云科技有限公司 一种基于分词索引搜索多媒体资源的方法及服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统

Also Published As

Publication number Publication date
CN112100313B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
JP5450842B2 (ja) 単語情報エントロピの決定
CN110717034A (zh) 一种本体构建方法及装置
US20220083874A1 (en) Method and device for training search model, method for searching for target object, and storage medium
US9275128B2 (en) Method and system for document indexing and data querying
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
US5553284A (en) Method for indexing and searching handwritten documents in a database
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN111832299A (zh) 一种中文分词系统
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
CN111160014B (zh) 一种智能分词方法
CN114090746B (zh) 一种基于知识图谱的答案查询方法、装置及电子设备
CN106815179B (zh) 一种文本相似度确定方法及装置
CN112100313A (zh) 一种基于最细粒度切分的数据索引方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111611471A (zh) 一种搜索方法、装置及电子设备
CN112800314B (zh) 搜索引擎询问自动补全的方法、系统、存储介质及设备
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN111159526B (zh) 查询语句处理方法、装置、设备及存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN110851560B (zh) 信息检索方法、装置及设备
CN112346876B (zh) 一种具备自主学习特性的通道分配方法及系统
WO2021051587A1 (zh) 基于语意识别的搜索结果排序方法、装置、电子设备及存储介质
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 185 Jingsi Road, Shizhong District, Jinan City, Shandong Province

Applicant after: Shandong luruan Digital Technology Co.,Ltd.

Address before: 185 Jingsi Road, Shizhong District, Jinan City, Shandong Province

Applicant before: SHANDONG LUNENG SOFTWARE TECHNOLOGY Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant