CN115221266A - 生语料检索方法、装置、电子设备和存储介质 - Google Patents
生语料检索方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115221266A CN115221266A CN202210730990.9A CN202210730990A CN115221266A CN 115221266 A CN115221266 A CN 115221266A CN 202210730990 A CN202210730990 A CN 202210730990A CN 115221266 A CN115221266 A CN 115221266A
- Authority
- CN
- China
- Prior art keywords
- word
- retrieval
- corpus
- search
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,提供一种生语料检索方法、装置、电子设备和存储介质,其中方法包括:获取检索字符串;检索字符串包括检索关键字;基于检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;基于检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置;基于检索关键字的字符位置,确定检索关键字对应的语料检索结果;字检索表是基于生语料文档中的各个字以及各个字的出现次数确定的;字倒排索引是基于各个字在生语料文档中的字符位置确定的;字倒排索引中各个字的索引位置是基于字检索表确定的。本发明提供的方法和装置,减少了生语料文档的检索时间,提高了生语料文档的检索效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种生语料检索方法、装置、电子设备和存储介质。
背景技术
熟语料为在自然字上添加人工的标签标注后形成的语言资源集,例如经过分词、词性标注、命名实体识别、依存句法标注等形成的语料。生语料为直接收集而未经加工形成的语言资源集。
当前的自然语言处理(例如语言教学、语言研究等)主要是对熟语料进行检索分析。而熟语料的资源较少,限制了自然语言处理的效果。生语料的资源较为丰富,便于获取,但是数量通常较大。生语料的检索需要耗费大量的时间,检索效率较低。
因此,如何实现对生语料文件的快速检索成为业界亟待解决的技术问题。
发明内容
本发明提供一种生语料检索方法、装置、电子设备和存储介质,用于解决如何实现对生语料文件的快速检索的技术问题。
本发明提供一种生语料检索方法,包括:
获取检索字符串;所述检索字符串包括检索关键字;
基于所述检索关键字,以及生语料文档的字检索表,确定所述检索关键字在所述生语料文档的字倒排索引中的索引位置;
基于所述检索关键字的索引位置,确定所述检索关键字在所述生语料文档中的字符位置;
基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果;
其中,所述字检索表是基于所述生语料文档中的各个字,以及各个字在所述生语料文档中的出现次数确定的;所述字倒排索引是基于各个字在所述生语料文档中的字符位置确定的;所述字倒排索引中各个字的索引位置是基于所述字检索表确定的。
根据本发明提供的生语料检索方法,所述字检索表是基于如下步骤确定的:
获取生语料文档,确定所述生语料文档中出现的所有字;
确定各个字在所述生语料文档中的出现次数;
以各个字的字符编码为检索编号,按照检索编号从小到大的顺序,建立所述字检索表;
其中,所述字检索表中各个检索编号对应的检索值为各个检索编号之前所有检索编号对应的字的出现次数之和。
根据本发明提供的生语料检索方法,所述字倒排索引是基于如下步骤确定的:
确定各个字在所述生语料文档中的字符位置;
以任一字在所述字检索表中对应的检索值为所述任一字的首个索引位置,以所述字检索表中所述任一字的后一字的检索值与所述任一字的检索值之差确定所述任一字的索引位置偏移量,基于所述首个索引位置和所述索引位置偏移量确定所述任一字在所述字倒排索引中的索引位置;
基于各个字在所述字倒排索引中的索引位置,以及各个字在所述生语料文档中的字符位置,确定所述字倒排索引。
根据本发明提供的生语料检索方法,所述确定所述字倒排索引之后,所述方法包括:
基于所述生语料文档的语言单位层次结构,建立各个语言单位之间的对应关系;所述语言单位包括字、词、句、段和篇;
基于各个语言单位之间的对应关系,确定所述生语料文档的各个语言单位的数量统计信息。
根据本发明提供的生语料检索方法,所述检索字符串还包括位置指示符和/或检索连接符;
所述基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果,包括:
基于所述位置指示符确定各个检索关键字之间的位置关系,和/或,基于所述检索连接符确定各个检索关键字之间的连接关系;
基于所述检索关键字的字符位置,各个检索关键字之间的位置关系和/或连接关系,确定所述检索字符串对应的语料检索结果。
根据本发明提供的生语料检索方法,所述基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果之后,所述方法包括:
获取各个检索关键字对应的显示配置信息;所述显示配置信息包括显示颜色和/或显示格式;
基于各个检索关键字对应的显示配置信息,在所述语料检索结果中确定所述检索关键字的显示状态。
根据本发明提供的生语料检索方法,所述字符编码为Unicode编码。
本发明提供一种生语料检索装置,包括:
获取单元,用于获取检索字符串;所述检索字符串包括检索关键字;
索引位置确定单元,用于基于所述检索关键字,以及生语料文档的字检索表,确定所述检索关键字在所述生语料文档的字倒排索引中的索引位置;
字符位置确定单元,用于基于所述检索关键字的索引位置,确定所述检索关键字在所述生语料文档中的字符位置;
检索结果确定单元,用于基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果;
其中,所述字检索表是基于所述生语料文档中的各个字,以及各个字在所述生语料文档中的出现次数确定的;所述字倒排索引是基于各个字在所述生语料文档中的字符位置确定的;所述字倒排索引中各个字的索引位置是基于所述字检索表确定的。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述生语料检索方法。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述生语料检索方法。
本发明提供的生语料检索方法、装置、电子设备和存储介质,获取检索字符串;根据检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;根据检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置;根据检索关键字的字符位置,确定检索关键字对应的语料检索结果;由于根据生语料文档中各个字的出现次数和字符位置建立了生语料文档对应的字检索表和字倒排索引,实现了检索字符串到语料检索结果的快速获取,减少了生语料文档的检索时间,提高了生语料文档的检索效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的生语料检索方法的流程示意图之一;
图2是本发明提供的字检索表和字倒排索引的示意图;
图3是本发明提供的生语料检索方法的流程示意图之二;
图4是本发明提供的生语料检索装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明提供的生语料检索方法的流程示意图,如图1所示,该方法包括步骤110、步骤120、步骤130和步骤140。
步骤110、获取检索字符串;检索字符串包括检索关键字。
具体地,本发明实施例提供的生语料检索方法的执行主体为生语料检索装置。生语料检索装置可以通过软件实现,例如生语料检索软件;也可以为执行生语料检索方法的装置,例如移动终端、平板电脑、台式计算机或者服务器等。
生语料文档为未经过加工处理,直接用于作为自然语言处理的文档或者文档集合。例如,生语料文档可以包括新闻报道和学术论文等。检索字符串为用于在生语料文档中进行检索的多个字符组合。检索关键字为检索字符串中具有语义的字符,包括汉字、字母和数字等。
步骤120、基于检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;其中,字检索表是基于生语料文档中的各个字,以及各个字在生语料文档中的出现次数确定的;字倒排索引是基于各个字在生语料文档中的字符位置确定的;字倒排索引中各个字的索引位置是基于字检索表确定的。
具体地,倒排索引也常被称为反向索引,是一种索引方法,被用来存储在全文搜索下某个字在一个文档或者一组文档中的字符位置的映射。字符位置为字在文档中的排列位置。文档在存储时是按照各个字的字符位置进行存储的。各个字的字符位置与存储位置相对应。显然,各个字的字符位置的总数等于各个字的出现次数。
对于任一生语料文档,可以对文档中出现的字进行统计,确定该生语料文档中包含的各个字,以及各个字在生语料文档中的出现次数,进而确定字检索表,例如字检索表可以采用数组表示,数组中的元素可以采用二元组(字的序号,出现次数)来表示。此处的出现次数也可以替换为小于该字的序号的所有字的出现次数之和。
对于该生语料文档,可以进一步确定各个字在该生语料文档中的字符位置,从而建立起该生语料文档的字倒排索引,例如字倒排索引可以采用列表表示,列表中的每个表格可以采用二元组(字的索引位置,字的字符位置)来表示。索引位置为各个字在字倒排索引中的排列位置,可以根据字检索表确定,例如对于该生语料文档中的任一字,其出现三次,可以确定三个索引位置,三个索引位置分别对应三个不同的字符位置。
在建立了字检索表和字倒排索引之间的关系后,可以根据检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置。
步骤130、基于检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置。
具体地,在确定了检索关键字的索引位置后,根据字倒排索引,可以确定检索关键字在生语料文档中的字符位置。
步骤140、基于检索关键字的字符位置,确定检索关键字对应的语料检索结果。
具体地,根据检索关键字的字符位置,确定检索关键字对应的语料检索结果。语料检索结果可以为包含检索关键字的词语、句子、段落或者文档等。
本发明实施例提供的生语料检索方法,获取检索字符串;根据检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;根据检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置;根据检索关键字的字符位置,确定检索关键字对应的语料检索结果;由于根据生语料文档中各个字的出现次数和字符位置建立了生语料文档对应的字检索表和字倒排索引,实现了检索字符串到语料检索结果的快速获取,减少了生语料文档的检索时间,提高了生语料文档的检索效率。
基于上述实施例,字检索表是基于如下步骤确定的:
获取生语料文档,确定生语料文档中出现的所有字;
确定各个字在生语料文档中的出现次数;
以各个字的字符编码为检索编号,按照检索编号从小到大的顺序,建立字检索表;
其中,字检索表中各个检索编号对应的检索值为各个检索编号之前所有检索编号对应的字的出现次数之和。
具体地,对于任一生语料文档,可以先确定该文档中出现的所有字,以及各个字在该文档中的出现次数。
可以采用字符编码作为各个字在字检索表中的检索编号。例如,字符编码可以采用Unicode编码、UTF-8编码、ASCII编码等。然后,按照检索编号从小到大的顺序,建立字检索表。其中,字检索表中各个检索编号对应的检索值为各个检索编号之前所有检索编号对应的字的出现次数之和。
例如,对于任一生语料文档,字检索表中检索编号P的字为“我”,对应的检索值为2000。检索编号P的检索值表示检索编号0至检索编号P-1的字在生语料文档中的出现次数的总和为2000。在该生语料文档中,检索编号P+1的字为“握”,对应的检索值为3000。检索编号P+1的检索值表示检索编号0至检索编号P的字在生语料文档中的出现次数的总和为3000。
显然地,根据当前检索编号的检索值和下一检索编号的检索值,可以确定当前检索编号对应的字在生语料文档中的出现次数。例如,根据检索编号P的检索值和检索编号P+1的检索值,可以确定字“我”在生语料文档的出现次数为1000次。
基于上述任一实施例,字倒排索引是基于如下步骤确定的:
确定各个字在生语料文档中的字符位置;
以任一字在字检索表中对应的检索值为该字的首个索引位置,以字检索表中该字的后一字的检索值与该字的检索值之差确定该字的索引位置偏移量,基于首个索引位置和索引位置偏移量确定该字在字倒排索引中的索引位置;
基于各个字在字倒排索引中的索引位置,以及各个字在生语料文档中的字符位置,确定字倒排索引。
具体地,根据字检索表中各个检索编号对应的检索值,可以确定各个检索编号对应的字在字倒排索引中的索引位置,从而建立字检索表和字倒排索引之间的关系。
对于任一字,可以将该字在字检索表中对应的检索值为该字的首个索引位置,将该字的后一字的检索值与该字的检索值之差确定该字的索引位置偏移量,根据首个索引位置和索引位置偏移量可以确定该字在字倒排索引中的多个索引位置,然后将每个索引位置与该字在生语料文档中的每个字符位置对应起来,建立字倒排索引。
例如,字检索表中检索编号P的字为“我”,对应的检索值为2000,则可以将字倒排索引中的第2000个索引位置作为字“我”的首个索引位置。字“我”的后一字“握”的检索值与字“我”的检索值之差为1000,确定为字“我”的索引位置偏移量,从而确定了字“我”在字倒排索引中的中的索引位置为[索引位置2000,索引位置2001,…,索引位置2999]。由于索引位置的数量与字“我”的出现次数相等,可以实现一个索引位置对应一个字符位置。
图2是本发明提供的字检索表和字倒排索引的示意图,如图2所示,字检索表可以采用数组表示,包括检索编号,以及每一检索编号对应的检索值。字倒排索引采用采用表格表示,每个表格包含字的字符位置。表格的序号用于表示字的索引位置。字检索表中的检索值即为字的索引位置。
比如,要检索所有“我”字在生语料文档中出现的字符位置,则通过“我”字在字检索表中的检索编号P(可以为“我”字的Unicode编码),得到“我”字的检索值,也就可以得到“我”字的字符位置集合在字倒排索引中出现的首个索引位置2000,然后再通过“我”字的下一个字“握”字的检索值,得到“我”字出现的次数为3000-2000=1000,即字符位置的集合的偏移量,因此,“我”字出现的字符位置集合为字倒排索引中的索引位置2000至索引位置2999。
基于上述任一实施例,确定字倒排索引之后,方法包括:
基于生语料文档的语言单位层次结构,建立各个语言单位之间的对应关系;语言单位包括字、词、句、段和篇;
基于各个语言单位之间的对应关系,确定生语料文档的各个语言单位的数量统计信息。
具体地,语言单位是指组成生语料文档的组成单位。按照语言单位所包含的语义范围从小到大的顺序,语言单位可以包括字、词、句、段和篇。字可以组成词,词可以组成句,句可以组成段,段可以组成篇。一篇或者多篇文章可以组成生语料文档。例如,遍历字符为句号、问号、叹号、省略号以及下引号,以这些符号为断句的标准。对于段,有回车换行为一段。对于篇,每篇语料为一篇。
语言单位层次结构是指文档中的“字-词-句-段-篇”结构。对生语料文档的语言单位层次结构中各个层次进行分析,可以确定字对应的词,词对应的句,句对应的段和段对应的篇,即各个语言单位之间的对应关系。
根据各个语言单位之间的对应关系,可以确定生语料文档的各个语言单位的数量统计信息。例如,在字的层次上对生语料文档进行统计,可以得到生语料文档的字统计信息,包括所有字的总数量和字的种类数量(不同的字属于不同的种类)。在词的层次上对生语料文档进行统计,可以得到生语料文档的词统计信息。依此类推,可以得到的数量统计信息还包括句子数量、段落数量和篇章数量等。
基于上述任一实施例,检索字符串还包括位置指示符和/或检索连接符。相应地,步骤140包括:
基于位置指示符确定各个检索关键字之间的位置关系,和/或,基于检索连接符确定各个检索关键字之间的连接关系;
基于检索关键字的字符位置,各个检索关键字之间的位置关系和/或连接关系,确定检索字符串对应的语料检索结果。
具体地,检索字符串中除了检索关键字外,还可以包括位置指示符和/或检索连接符。
位置指示符用于对检索关键字在生语料文档中的字符位置进行限制,可以用来确定各个检索关键字之间的位置关系。位置指示符可以根据需要进行设置。例如,采用右双书名号“》”作为检索关键字开始位置的指示符,用于检索以检索关键字开头的句子;采用左双书名号“《”作为检索关键字结束位置的指示符,用于检索以检索关键字结尾的句子。
检索连接符用于对多个检索关键字之间的连接关系进行限制。检索连接符可以根据需要进行设置,可以用来确定各个检索关键字之间的连接关系。例如,采用单书名号“<>”作为两个检索关键字的连接符号。单书名号之间的数字代表两个检索关键字之间的间隔字数。
根据检索关键字的字符位置,各个检索关键字之间的位置关系和/或连接关系,确定检索字符串对应的语料检索结果。例如,表1为本发明实施例提供的检索字符串中包括位置指示符和/或检索连接符的用法说明。
表1位置指示符和/或检索连接符的用法说明
基于上述任一实施例,步骤140之后,该方法包括:
获取各个检索关键字对应的显示配置信息;显示配置信息包括显示颜色和/或显示格式;
基于各个检索关键字对应的显示配置信息,在语料检索结果中确定检索关键字的显示状态。
具体地,显示配置信息用于对各个检索关键字在语料检索结果中的显示状态进行配置。例如,显示配置信息可以包括显示颜色和显示格式。
显示颜色用于将检索关键字的颜色与其他字符进行区别。例如,可以将检索关键字的显示颜色设置为红色,其他字符的默认显示颜色为黑色。显示格式用于将检索关键字的文字格式与其他字符进行区别。例如,将检索关键字的显示格式设置为加粗、放大、倾斜或者添加下划线等,与其他字符进行区别。
通过对检索关键字进行区别显示,可以提高用户的检索体验。
基于上述任一实施例,字符编码为Unicode编码。
具体地,Unicode编码为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
基于上述任一实施例,图3是本发明提供的生语料检索方法的流程示意图之二,如图3所示,该方法包括:
步骤310、对用户通过客户端选取的生语料文档集合中的各个文档进行遍历,生成字-词-句-段-篇的倒排索引结构和字检索表。
步骤320、根据用户输入的检索字符串,确定是否包含位置指示符和/或检索连接符。若不包括,则确定为常规检索;若包括,则确定为模式匹配检索。分别执行上述实施例中的检索方法,确定语料检索结果。
步骤330、对语料检索结果进行显示。根据显示配置信息对检索关键字进行区别显示。
步骤340、根据各个语言单位之间的对应关系,生成生语料文档的各个语言单位的数量统计信息(例如字种数、字总数、句数、段数、篇数),并对用户进行展示。还可以设置是否显示文档的篇章属性(如篇名、作者、文章类型等,该部分信息通过使用格式化的篇名进行导入,如“茶馆-老舍-戏剧-近现代.txt”)等。
基于上述任一实施例,图4是本发明提供的生语料检索装置的结构示意图,如图4所示,该装置包括:
获取单元410,用于获取检索字符串;检索字符串包括检索关键字;
索引位置确定单元420,用于基于检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;
字符位置确定单元430,用于基于检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置;
检索结果确定单元440,用于基于检索关键字的字符位置,确定检索关键字对应的语料检索结果;
其中,字检索表是基于生语料文档中的各个字,以及各个字在生语料文档中的出现次数确定的;字倒排索引是基于各个字在生语料文档中的字符位置确定的;字倒排索引中各个字的索引位置是基于字检索表确定的。
本发明实施例提供的生语料检索装置,获取检索字符串;根据检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;根据检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置;根据检索关键字的字符位置,确定检索关键字对应的语料检索结果;由于根据生语料文档中各个字的出现次数和字符位置建立了生语料文档对应的字检索表和字倒排索引,实现了检索字符串到语料检索结果的快速获取,减少了生语料文档的检索时间,提高了生语料文档的检索效率。
基于上述任一实施例,该装置还包括:
字检索表确定单元,用于获取生语料文档,确定生语料文档中出现的所有字;确定各个字在生语料文档中的出现次数;以各个字的字符编码为检索编号,按照检索编号从小到大的顺序,建立字检索表;其中,字检索表中各个检索编号对应的检索值为各个检索编号之前所有检索编号对应的字的出现次数之和。
基于上述任一实施例,该装置还包括:
字倒排索引确定单元,用于确定各个字在生语料文档中的字符位置;以任一字在字检索表中对应的检索值为任一字的首个索引位置,以字检索表中任一字的后一字的检索值与任一字的检索值之差确定任一字的索引位置偏移量,基于首个索引位置和索引位置偏移量确定任一字在字倒排索引中的索引位置;基于各个字在字倒排索引中的索引位置,以及各个字在生语料文档中的字符位置,确定字倒排索引。
基于上述任一实施例,字倒排索引确定单元还用于:
基于生语料文档的语言单位层次结构,建立各个语言单位之间的对应关系;语言单位包括字、词、句、段和篇;
基于各个语言单位之间的对应关系,确定生语料文档的各个语言单位的数量统计信息。
基于上述任一实施例,检索字符串还包括位置指示符和/或检索连接符。检索结果确定单元具体用于:
基于位置指示符确定各个检索关键字之间的位置关系,和/或,基于检索连接符确定各个检索关键字之间的连接关系;
基于检索关键字的字符位置,各个检索关键字之间的位置关系和/或连接关系,确定检索字符串对应的语料检索结果。
基于上述任一实施例,该装置还包括:
显示单元,用于获取各个检索关键字对应的显示配置信息;显示配置信息包括显示颜色和/或显示格式;
基于各个检索关键字对应的显示配置信息,在语料检索结果中确定检索关键字的显示状态。
基于上述任一实施例,字符编码为Unicode编码。
基于上述任一实施例,图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:
获取检索字符串;检索字符串包括检索关键字;基于检索关键字,以及生语料文档的字检索表,确定检索关键字在生语料文档的字倒排索引中的索引位置;基于检索关键字的索引位置,确定检索关键字在生语料文档中的字符位置;基于检索关键字的字符位置,确定检索关键字对应的语料检索结果;
其中,字检索表是基于生语料文档中的各个字,以及各个字在生语料文档中的出现次数确定的;字倒排索引是基于各个字在生语料文档中的字符位置确定的;字倒排索引中各个字的索引位置是基于字检索表确定的。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种生语料检索方法,其特征在于,包括:
获取检索字符串;所述检索字符串包括检索关键字;
基于所述检索关键字,以及生语料文档的字检索表,确定所述检索关键字在所述生语料文档的字倒排索引中的索引位置;
基于所述检索关键字的索引位置,确定所述检索关键字在所述生语料文档中的字符位置;
基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果;
其中,所述字检索表是基于所述生语料文档中的各个字,以及各个字在所述生语料文档中的出现次数确定的;所述字倒排索引是基于各个字在所述生语料文档中的字符位置确定的;所述字倒排索引中各个字的索引位置是基于所述字检索表确定的。
2.根据权利要求1所述的生语料检索方法,其特征在于,所述字检索表是基于如下步骤确定的:
获取生语料文档,确定所述生语料文档中出现的所有字;
确定各个字在所述生语料文档中的出现次数;
以各个字的字符编码为检索编号,按照检索编号从小到大的顺序,建立所述字检索表;
其中,所述字检索表中各个检索编号对应的检索值为各个检索编号之前所有检索编号对应的字的出现次数之和。
3.根据权利要求2所述的生语料检索方法,其特征在于,所述字倒排索引是基于如下步骤确定的:
确定各个字在所述生语料文档中的字符位置;
以任一字在所述字检索表中对应的检索值为所述任一字的首个索引位置,以所述字检索表中所述任一字的后一字的检索值与所述任一字的检索值之差确定所述任一字的索引位置偏移量,基于所述首个索引位置和所述索引位置偏移量确定所述任一字在所述字倒排索引中的索引位置;
基于各个字在所述字倒排索引中的索引位置,以及各个字在所述生语料文档中的字符位置,确定所述字倒排索引。
4.根据权利要求3所述的生语料检索方法,其特征在于,所述确定所述字倒排索引之后,所述方法包括:
基于所述生语料文档的语言单位层次结构,建立各个语言单位之间的对应关系;所述语言单位包括字、词、句、段和篇;
基于各个语言单位之间的对应关系,确定所述生语料文档的各个语言单位的数量统计信息。
5.根据权利要求1至4任一项所述的生语料检索方法,其特征在于,所述检索字符串还包括位置指示符和/或检索连接符;
所述基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果,包括:
基于所述位置指示符确定各个检索关键字之间的位置关系,和/或,基于所述检索连接符确定各个检索关键字之间的连接关系;
基于所述检索关键字的字符位置,各个检索关键字之间的位置关系和/或连接关系,确定所述检索字符串对应的语料检索结果。
6.根据权利要求1至4任一项所述的生语料检索方法,其特征在于,所述基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果之后,所述方法包括:
获取各个检索关键字对应的显示配置信息;所述显示配置信息包括显示颜色和/或显示格式;
基于各个检索关键字对应的显示配置信息,在所述语料检索结果中确定所述检索关键字的显示状态。
7.根据权利要求1至4任一项所述的生语料检索方法,其特征在于,所述字符编码为Unicode编码。
8.一种生语料检索装置,其特征在于,包括:
获取单元,用于获取检索字符串;所述检索字符串包括检索关键字;
索引位置确定单元,用于基于所述检索关键字,以及生语料文档的字检索表,确定所述检索关键字在所述生语料文档的字倒排索引中的索引位置;
字符位置确定单元,用于基于所述检索关键字的索引位置,确定所述检索关键字在所述生语料文档中的字符位置;
检索结果确定单元,用于基于所述检索关键字的字符位置,确定所述检索关键字对应的语料检索结果;
其中,所述字检索表是基于所述生语料文档中的各个字,以及各个字在所述生语料文档中的出现次数确定的;所述字倒排索引是基于各个字在所述生语料文档中的字符位置确定的;所述字倒排索引中各个字的索引位置是基于所述字检索表确定的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述生语料检索方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述生语料检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210730990.9A CN115221266A (zh) | 2022-06-24 | 2022-06-24 | 生语料检索方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210730990.9A CN115221266A (zh) | 2022-06-24 | 2022-06-24 | 生语料检索方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115221266A true CN115221266A (zh) | 2022-10-21 |
Family
ID=83610021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210730990.9A Pending CN115221266A (zh) | 2022-06-24 | 2022-06-24 | 生语料检索方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221266A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391495A (zh) * | 2022-10-28 | 2022-11-25 | 强企宝典(山东)信息科技有限公司 | 在中文语境中检索关键词的方法、装置及设备 |
-
2022
- 2022-06-24 CN CN202210730990.9A patent/CN115221266A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391495A (zh) * | 2022-10-28 | 2022-11-25 | 强企宝典(山东)信息科技有限公司 | 在中文语境中检索关键词的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451153B (zh) | 输出结构化查询语句的方法和装置 | |
CN101467125B (zh) | 用于处理查询词语的方法和系统 | |
CN117056471A (zh) | 知识库构建方法及基于生成式大语言模型的问答对话方法和系统 | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
US20020165707A1 (en) | Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
WO2022033426A1 (zh) | 文档处理方法、文档处理装置和电子设备 | |
KR20220123736A (ko) | 문서 번역 방법 및 장치, 저장 매체 및 전자 디바이스 | |
CN110516251B (zh) | 一种电商实体识别模型的构建方法、构建装置、设备和介质 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN111046135A (zh) | 非结构文本处理方法、装置、计算机设备、存储介质 | |
KR102560521B1 (ko) | 지식 그래프 생성 방법 및 장치 | |
CN114416926A (zh) | 关键词匹配方法、装置、计算设备及计算机可读存储介质 | |
CN117539990A (zh) | 一种问题处理方法、装置、电子设备和存储介质 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN115221266A (zh) | 生语料检索方法、装置、电子设备和存储介质 | |
CN102024026B (zh) | 用于处理查询词语的方法和系统 | |
CN114860867A (zh) | 训练文档信息抽取模型、文档信息抽取的方法和装置 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 | |
CN110909117A (zh) | 一种科目识别实现方法、系统、存储介质和终端设备 | |
CN111914533A (zh) | 一种解析英语长句的方法及系统 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN109933799B (zh) | 语句拼接方法以及装置 | |
CN112270201B (zh) | 古籍汉字繁简转换方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |