CN115617948A - 一种基于关键词的文档查询方法、装置、设备和存储介质 - Google Patents
一种基于关键词的文档查询方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN115617948A CN115617948A CN202211279616.8A CN202211279616A CN115617948A CN 115617948 A CN115617948 A CN 115617948A CN 202211279616 A CN202211279616 A CN 202211279616A CN 115617948 A CN115617948 A CN 115617948A
- Authority
- CN
- China
- Prior art keywords
- sliding
- characters
- character
- current
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融科技领域,特别地,涉及一种基于关键词的文档查询方法、装置、设备和存储介质。其中方法包括:将关键词拆分,得到至少一个关键字符;遍历所述当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。本发明能够在用户所输入的关键词不准确的情况下,仍然能够将相关的文档查询出来,以满足用户的实际需求。
Description
技术领域
本发明涉及金融科技领域,特别地,涉及一种基于关键词的文档查询方法、装置、设备和存储介质。
背景技术
在日常工作中,用户常常不知道某一文档的全部内容,仅知道其中的关键词,现有技术可以根据相应的关键词对所有文档进行查询后,定位包含该关键词的文档即为用户所需的文档。
但是实际工作中,用户所知道的关键词可能存在不准确的情况,例如,用户想要查询的关键词为“3D建模”,但实际上用户知道的关键词为“3D模”,此时若用户输入“3D模”对所有文档进行查询,则无法查询到包含“3D建模”的关键词的文档,导致无法满足用户的实际需求。
因此,现在亟需一种基于关键词的文档查询方法,能够在用户所输入的关键词不准确的情况下,仍然能够将相关的文档查询出来,以满足用户的实际需求。
发明内容
本文实施例的目的在于提供一种基于关键词的文档查询方法、装置、设备和存储介质,以在用户所输入的关键词不准确的情况下,仍然能够将相关的文档查询出来,以满足用户的实际需求。
为达到上述目的,一方面,本文实施例提供了一种基于关键词的文档查询方法,包括:
将关键词拆分,得到至少一个关键字符;
遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
优选的,所述按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号进一步包括:
将在当前文档中最先出现的字符进行编号;
按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号,其中相邻出现的两个字符编号之差为1。
优选的,所述通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符进一步包括:
滑动过程从当前文档中编号最小的字符开始,执行如下判断步骤:
判断当前一次滑动窗口中字符的最大编号是否小于等于当前文档中字符的最大编号;
若是,则提取该次滑动窗口对应的所有字符,将所述滑动窗口沿字符编号由小至大的方向滑动,滑动的距离为滑动步长,滑动后执行如上判断步骤;
若否,则提取该次滑动窗口对应的所有字符,提取后停止滑动。
优选的,所述滑动步长的确定方法包括:
判断当前一次滑动窗口中是否存在未标记的字符;
若是,则根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长;
若否,则根据当前文档中未标记的字符的编号确定所述滑动步长。
优选的,所述根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长进一步包括:
将当前一次滑动窗口中未标记的字符的最大编号作为第一选定编号;
将当前一次滑动窗口中字符的最小编号作为第二选定编号;
根据所述第一选定编号和所述第二选定编号,计算得到滑动步长。
优选的,所述根据所述第一选定编号和所述第二选定编号,计算得到滑动步长进一步包括:
通过如下公式计算得到滑动步长:
S=N-M+1;
其中S为滑动步长,N为第一选定编号,M为第二选定编号。
优选的,所述根据当前文档中未标记的字符的编号确定所述滑动步长进一步包括:
将沿字符编号由小至大的方向上位于当前一次滑动窗口后的第一个字符作为当前字符,执行如下判断步骤:
判断当前字符是否为未标记的字符;
若是,则停止判断,将当前字符的编号作为第一标定编号;
若否,则将沿字符编号由小至大的方向上位于当前字符后的第一个字符作为当前字符,执行如上判断步骤;
将当前一次滑动窗口中字符的最小编号作为第二标定编号;
根据所述第一标定编号和所述第二标定编号,计算得到滑动步长。
优选的,所述根据所述第一标定编号和所述第二标定编号,计算得到滑动步长进一步包括:
通过如下公式计算得到滑动步长:
S=N-M+1;
其中S为滑动步长,N为第一标定编号,M为第二标定编号。
优选的,所述关键字符为一个数字、字母、汉字、符号或标点。
优选的,所述根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档进一步包括:
组合每次滑动时滑动窗口对应的所有字符,得到该次滑动对应的字符串;
若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串;
根据整个滑动过程中的所有选定字符串,分析确定当前文档是否为用户所需的目标文档。
优选的,所述若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串进一步包括:
若所述字符串中已标记的字符的数量占所有字符数量的比值大于设定比值,则所述字符串与关键词的相关性大于设定相关性,将所述字符串确定为选定字符串。
另一方面,本文实施例提供了一种基于关键词的文档查询装置,所述装置包括:
拆分模块,用于将关键词拆分,得到至少一个关键字符;
标记模块,用于遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
编号模块,用于按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
滑动模块,用于通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
分析模块,用于根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
又一方面,本文实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
又一方面,本文实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本文实施例提供的技术方案可见,本文实施例通过本文的方法,用户在所输入的关键词不准确的情况下,仍旧能够在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符,分析提取到的字符与关键词之间的相关性,进而确定当前文档是否为用户所需的目标文档。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文实施例提供的一种基于关键词的文档查询方法的流程示意图;
图2示出了本文实施例提供的用于按照字符在当前文档的一段话中的出现顺序,依次将当前文档中所有字符进行编号的流程示意图;
图3示出了本文实施例提供的滑动过程从当前文档中编号最小的字符开始所执行的判断步骤;
图4示出了本文实施例提供的滑动步长的确定方法的流程示意图;
图5示出了本文实施例提供的根据当前一次滑动窗口中未标记的字符的编号确定滑动步长的流程示意图;
图6示出了本文实施例提供的将沿字符编号由小至大的方向上位于当前一次滑动窗口后的第一个字符作为当前字符所执行的判断步骤;
图7示出了本文实施例提供的根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档的流程示意图;
图8示出了本文实施例提供的一种基于关键词的文档查询装置的模块结构示意图;
图9示出了本文实施例提供的计算机设备的结构示意图。
附图符号说明:
100、拆分模块;
200、标记模块;
300、编号模块;
400、滑动模块;
500、分析模块;
902、计算机设备;
904、处理器;
906、存储器;
908、驱动机构;
910、输入/输出模块;
912、输入设备;
914、输出设备;
916、呈现设备;
918、图形用户接口;
920、网络接口;
922、通信链路;
924、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
在日常工作中,用户常常不知道某一文档的全部内容,仅知道其中的关键词,现有技术可以根据相应的关键词对所有文档进行查询后,定位包含该关键词的文档即为用户所需的文档。
但是实际工作中,用户所知道的关键词可能存在不准确的情况,例如,用户想要查询的关键词为“3D建模”,但实际上用户知道的关键词为“3D模”,此时若用户输入“3D模”对所有文档进行查询,则无法查询到包含“3D建模”的关键词的文档,导致无法满足用户的实际需求。
为了解决上述问题,本文实施例提供了一种基于关键词的文档查询方法。图1是本文实施例提供的一种基于关键词的文档查询方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参照图1,本文提供了一种基于关键词的文档查询方法,包括:
S101:将关键词拆分,得到至少一个关键字符;
S102:遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
S103:按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
S104:通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
S105:根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
其中关键词指的是用户实际输入的关键词,例如用户想要查询的目标关键词为“3D建模”,但实际输入关键词为“3D模”,将“3D模”拆分后得到“3”、“D”和“模”三个关键字符。
对当前文档来说,当前文档中一般记载了一段话,例如“现在的3D建模技术……”遍历这段话中的所有字符,对其中与关键字符一致的字符进行标记,则其中“3”、“D”和“模”会被标记。
参照图2,按照字符在当前文档的一段话中的出现顺序,依次将当前文档中所有字符进行编号,编号时具体为:
S201:将在当前文档中最先出现的字符进行编号;
S202:按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号,其中相邻出现的两个字符编号之差为1。
例如“现”是文档中最先出现的字符,编号为“0”,“在”的编号为“1”,“的”的编号为“2”,“3”的编号为“3”,“D”的编号为“4”等等。
然后依编号在当前文档中通过滑动窗口的滑动提取对应的字符,根据滑动过程中提取到的所有字符可以确定当前文档是否为用户所需的目标文档。其中滑动窗口指的是每次滑动取的长度,例如滑动窗口为2,一次滑动取两个字符。滑动步长指的是两次滑动之间的距离,例如滑动步长为1,两次滑动间隔一个字符。
通过本文的方法,用户在所输入的关键词不准确的情况下,仍旧能够在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符,分析提取到的字符与关键词之间的相关性,进而确定当前文档是否为用户所需的目标文档。
在本文实施例中,所述通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符进一步包括:
参照图3,滑动过程从当前文档中编号最小的字符开始,执行如下判断步骤:
S301:判断当前一次滑动窗口中字符的最大编号是否小于等于当前文档中字符的最大编号;
S302:若是,则提取该次滑动窗口对应的所有字符,将所述滑动窗口沿字符编号由小至大的方向滑动,滑动的距离为滑动步长,滑动后执行如上判断步骤;
S303:若否,则提取该次滑动窗口对应的所有字符,提取后停止滑动。
上述判断步骤可以防止在通过滑动窗口提取字符的过程中超出文档,其中文档中最大编号的字符为文档的最后一个字符,若滑动窗口中字符的最大编号大于文档中字符的最大编号,说明滑动窗口提取的字符超出文档。
在本文实施例中,参照图4,所述滑动步长的确定方法包括:
S401:判断当前一次滑动窗口中是否存在未标记的字符;
S402:若是,则根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长;
S403:若否,则根据当前文档中未标记的字符的编号确定所述滑动步长。
根据当前窗口中字符的情况,滑动步长的确定方法不同,滑动步长也不相同。
具体的,在本文一个实施例中,参照图5,所述根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长进一步包括:
S501:将当前一次滑动窗口中未标记的字符的最大编号作为第一选定编号;
S502:将当前一次滑动窗口中字符的最小编号作为第二选定编号;
S503:根据所述第一选定编号和所述第二选定编号,计算得到滑动步长。
例如滑动窗口为4,当前一次滑动窗口中的所有字符为“现在的3”,未标记的字符的最大编号是“的”的编号,编号为2,2为第一选定编号,字符的最小编号是“现”的编号,编号为0,0为第二选定编号,根据第一选定编号和第二选定编号计算滑动步长。
具体通过如下公式计算得到滑动步长:
S=N-M+1;
其中S为滑动步长,N为第一选定编号,M为第二选定编号。
S=2-0+1=3,则滑动步长为3,滑动窗口仍旧是4,下一次滑动窗口中的所有字符为“3D建模”。如此设置滑动步长的目的是使得下一次滑动取得的滑动窗口中的字符从当前一次滑动窗口中标记字符开始,相比于设置以定步长进行滑动来说,能够在保证效率的前提下尽可能的取得目标关键词。
在本文的另一个实施例中,所述根据当前文档中未标记的字符的编号确定所述滑动步长进一步包括:
将沿字符编号由小至大的方向上位于当前一次滑动窗口后的第一个字符作为当前字符,参照图6,执行如下判断步骤:
S601:判断当前字符是否为未标记的字符;
S602:若是,则停止判断,将当前字符的编号作为第一标定编号;
S603:若否,则将沿字符编号由小至大的方向上位于当前字符后的第一个字符作为当前字符,执行如上判断步骤;
S604:将当前一次滑动窗口中字符的最小编号作为第二标定编号;
S605:根据所述第一标定编号和所述第二标定编号,计算得到滑动步长。
该步骤执行的前提是当前一次滑动窗口中不存在未标记的字符,例如滑动窗口为2,当前一次滑动窗口中的字符为“3D”,则将“3D”后的第一个字符“建”作为当前字符,判断当前字符“建”是未标记的字符,则将当前字符“建”的编号5作为第一标定编号,假设当前字符“建”不是未标记的字符,则将位于“建”后的第一个字符“模”作为当前字符,判断字符“模”是否为未标记的字符。
将当前一次滑动窗口中字符的最小编号“3”的最小编号3作为第二标定编号,根据第一标定编号和第二标定编号,计算得到滑动步长。
所述根据所述第一标定编号和所述第二标定编号,计算得到滑动步长进一步包括:
通过如下公式计算得到滑动步长:
S=N-M+1;
其中S为滑动步长,N为第一标定编号,M为第二标定编号。
S=5-3+1=3,滑动步长为3,滑动窗口依旧为2,下一次滑动窗口中的所有字符为“模技”,这样设置后同样能够在保证效率的前提下尽可能的取得目标关键词。
在本文实施例中,所述关键字符为一个数字、字母、汉字、符号或标点。
在本文实施例中,参照图7,所述根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档进一步包括:
S701:组合每次滑动时滑动窗口对应的所有字符,得到该次滑动对应的字符串;
S702:若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串;
S703:根据整个滑动过程中的所有选定字符串,分析确定当前文档是否为用户所需的目标文档。
每次滑动窗口对应的所有字符依编号由小至大排列得到的就是该次滑动对应的字符串,根据字符串与关键词的相关性来确定字符串是否为选定字符串,进而确定当前文档是否为目标文档。
在本文实施例中,所述若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串进一步包括:
若所述字符串中已标记的字符的数量占所有字符数量的比值大于设定比值,则所述字符串与关键词的相关性大于设定相关性,将所述字符串确定为选定字符串。
设定比值可以根据实际工况进行设定,例如字符串为“3D建模”,其中已标记的字符的数量为3个,所有字符的数量为4个,比值为3/4,假设设定比值为1/2,则可以确定该字符串为选定字符串,当前文档为目标文档。
可以将目标文档中所有的选定字符串高亮显示,以提醒用户查看。
所有文档可以逐一通过本文的方法进行文档查询,确定其中的目标文档,将所有目标文档展示给用户查阅。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。且本申请实施例描述的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
基于上述所述的一种基于关键词的文档查询方法,本文实施例还提供一种基于关键词的文档查询装置。所述的装置可以包括使用了本文实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本文实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本文实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图8是本文实施例提供的一种基于关键词的文档查询装置一个实施例的模块结构示意图,参照图8所示,本文实施例提供的一种基于关键词的文档查询装置包括:拆分模块100、标记模块200、编号模块300、滑动模块400、分析模块500。
拆分模块100,用于将关键词拆分,得到至少一个关键字符;
标记模块200,用于遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
编号模块300,用于按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
滑动模块400,用于通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
分析模块500,用于根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
参照图9所示,基于上述所述的一种基于关键词的文档查询方法,本文一实施例中还提供一种计算机设备902,其中上述方法运行在计算机设备902上。计算机设备902可以包括一个或多个处理器904,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备902还可以包括任何存储器906,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器906上并可在处理器904上运行的计算机程序,所述计算机程序被所述处理器904运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器906可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备902的固定或可移除部件。在一种情况下,当处理器904执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备902可以执行相关联指令的任一操作。计算机设备902还包括用于与任何存储器交互的一个或多个驱动机构908,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备902还可以包括输入/输出模块910(I/O),其用于接收各种输入(经由输入设备912)和用于提供各种输出(经由输出设备914)。一个具体输出机构可以包括呈现设备916和相关联的图形用户接口918(GUI)。在其他实施例中,还可以不包括输入/输出模块910(I/O)、输入设备912以及输出设备914,仅作为网络中的一台计算机设备。计算机设备902还可以包括一个或多个网络接口920,其用于经由一个或多个通信链路922与其他设备交换数据。一个或多个通信总线924将上文所描述的部件耦合在一起。
通信链路922可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路922可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述方法。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
Claims (15)
1.一种基于关键词的文档查询方法,其特征在于,包括:
将关键词拆分,得到至少一个关键字符;
遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
2.根据权利要求1所述的基于关键词的文档查询方法,其特征在于,所述按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号进一步包括:
将在当前文档中最先出现的字符进行编号;
按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号,其中相邻出现的两个字符编号之差为1。
3.根据权利要求1所述的基于关键词的文档查询方法,其特征在于,所述通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符进一步包括:
滑动过程从当前文档中编号最小的字符开始,执行如下判断步骤:
判断当前一次滑动窗口中字符的最大编号是否小于等于当前文档中字符的最大编号;
若是,则提取该次滑动窗口对应的所有字符,将所述滑动窗口沿字符编号由小至大的方向滑动,滑动的距离为滑动步长,滑动后执行如上判断步骤;
若否,则提取该次滑动窗口对应的所有字符,提取后停止滑动。
4.根据权利要求3所述的基于关键词的文档查询方法,其特征在于,所述滑动步长的确定方法包括:
判断当前一次滑动窗口中是否存在未标记的字符;
若是,则根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长;
若否,则根据当前文档中未标记的字符的编号确定所述滑动步长。
5.根据权利要求4所述的基于关键词的文档查询方法,其特征在于,所述根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长进一步包括:
将当前一次滑动窗口中未标记的字符的最大编号作为第一选定编号;
将当前一次滑动窗口中字符的最小编号作为第二选定编号;
根据所述第一选定编号和所述第二选定编号,计算得到滑动步长。
6.根据权利要求5所述的基于关键词的文档查询方法,其特征在于,所述根据所述第一选定编号和所述第二选定编号,计算得到滑动步长进一步包括:
通过如下公式计算得到滑动步长:
S=N-M+1;
其中S为滑动步长,N为第一选定编号,M为第二选定编号。
7.根据权利要求4所述的基于关键词的文档查询方法,其特征在于,所述根据当前文档中未标记的字符的编号确定所述滑动步长进一步包括:
将沿字符编号由小至大的方向上位于当前一次滑动窗口后的第一个字符作为当前字符,执行如下判断步骤:
判断当前字符是否为未标记的字符;
若是,则停止判断,将当前字符的编号作为第一标定编号;
若否,则将沿字符编号由小至大的方向上位于当前字符后的第一个字符作为当前字符,执行如上判断步骤;
将当前一次滑动窗口中字符的最小编号作为第二标定编号;
根据所述第一标定编号和所述第二标定编号,计算得到滑动步长。
8.根据权利要求7所述的基于关键词的文档查询方法,其特征在于,所述根据所述第一标定编号和所述第二标定编号,计算得到滑动步长进一步包括:
通过如下公式计算得到滑动步长:
S=N-M+1;
其中S为滑动步长,N为第一标定编号,M为第二标定编号。
9.根据权利要求1所述的基于关键词的文档查询方法,其特征在于,所述关键字符为一个数字、字母、汉字、符号或标点。
10.根据权利要求1所述的基于关键词的文档查询方法,其特征在于,所述根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档进一步包括:
组合每次滑动时滑动窗口对应的所有字符,得到该次滑动对应的字符串;
若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串;
根据整个滑动过程中的所有选定字符串,分析确定当前文档是否为用户所需的目标文档。
11.根据权利要求10所述的基于关键词的文档查询方法,其特征在于,所述若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串进一步包括:
若所述字符串中已标记的字符的数量占所有字符数量的比值大于设定比值,则所述字符串与关键词的相关性大于设定相关性,将所述字符串确定为选定字符串。
12.一种基于关键词的文档查询装置,其特征在于,所述装置包括:
拆分模块,用于将关键词拆分,得到至少一个关键字符;
标记模块,用于遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
编号模块,用于按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
滑动模块,用于通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
分析模块,用于根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
13.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-11任意一项所述方法的指令。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-11任意一项所述方法的指令。
15.一种计算机程序产品,其特征在于,所述计算机程序产品被计算机设备的处理器运行时,执行根据权利要求1-11任意一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211279616.8A CN115617948A (zh) | 2022-10-19 | 2022-10-19 | 一种基于关键词的文档查询方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211279616.8A CN115617948A (zh) | 2022-10-19 | 2022-10-19 | 一种基于关键词的文档查询方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115617948A true CN115617948A (zh) | 2023-01-17 |
Family
ID=84865053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211279616.8A Pending CN115617948A (zh) | 2022-10-19 | 2022-10-19 | 一种基于关键词的文档查询方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115617948A (zh) |
-
2022
- 2022-10-19 CN CN202211279616.8A patent/CN115617948A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN109783495B (zh) | 一种多维度数据处理方法、装置及计算机设备 | |
CN102257487A (zh) | 分析事件 | |
CN110019640B (zh) | 涉密文件检查方法及装置 | |
CN104750791A (zh) | 一种图像检索方法及装置 | |
CN107085568A (zh) | 一种文本相似度判别方法及装置 | |
CN113728321A (zh) | 利用训练表的集合来准确预测各种表内的错误 | |
CN115687655A (zh) | 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质 | |
CN103324407B (zh) | 信息处理装置和信息处理方法 | |
CN115617948A (zh) | 一种基于关键词的文档查询方法、装置、设备和存储介质 | |
CN116306557A (zh) | 文本对齐方法和装置、电子设备及存储介质 | |
CN108984491A (zh) | 一种文档格式转换的方法和装置 | |
CN114168871A (zh) | 用于页面跳转的方法及装置、电子设备、存储介质 | |
US20140207440A1 (en) | Language recognition based on vocabulary lists | |
JP2010165141A (ja) | テキストログからの特定箇所抽出方法およびプログラム | |
CN107247708B (zh) | 一种姓名识别方法及系统 | |
CN112541505A (zh) | 文本识别方法、装置以及计算机可读存储介质 | |
TWI488058B (zh) | 顯示器用畫面資料編輯設備 | |
CN111782601A (zh) | 电子文件的处理方法、装置、电子设备及机器可读介质 | |
JP2021089696A (ja) | 入力支援装置、入力支援システム及びプログラム | |
CN115599655A (zh) | 一种聊天信息的提取方法、装置、设备、存储介质和产品 | |
CN104182458A (zh) | 图片的关联存储方法和查询方法以及装置 | |
CN110968677B (zh) | 文本寻址的方法及装置、介质和电子设备 | |
CN113377946A (zh) | 一种文档推送方法、装置、存储介质及电子设备 | |
Firth et al. | Divisions of the United Kingdom House of Commons, from 1992 to 2003 and Beyond |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |