CN115827826A - 文本检索系统的生成方法、文本检索方法及设备 - Google Patents

文本检索系统的生成方法、文本检索方法及设备 Download PDF

Info

Publication number
CN115827826A
CN115827826A CN202211624153.4A CN202211624153A CN115827826A CN 115827826 A CN115827826 A CN 115827826A CN 202211624153 A CN202211624153 A CN 202211624153A CN 115827826 A CN115827826 A CN 115827826A
Authority
CN
China
Prior art keywords
text
retrieval
text data
corpus
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211624153.4A
Other languages
English (en)
Inventor
王志涛
朱励
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Aipei Micro Technology Development Co ltd
Original Assignee
Shanghai Aipei Micro Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Aipei Micro Technology Development Co ltd filed Critical Shanghai Aipei Micro Technology Development Co ltd
Priority to CN202211624153.4A priority Critical patent/CN115827826A/zh
Publication of CN115827826A publication Critical patent/CN115827826A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请提供一种文本检索系统的生成方法、文本检索方法及设备,在生成时,通过获取输入的原始文本数据,并对原始文本数据进行识别处理,得到预设格式的文本数据,进而对预设格式的文本数据进行句对划分处理,得到句对,最终,根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,检索语料库包括专业术语检索语料库及语块检索语料库。在检索时,获取用户输入的待检索文本及用户确定的检索语料库,对待检索文本进行识别处理,得到预设格式的待检索文本,进而对预设格式的待检索文本进行句对划分处理,得到句对,响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据。本申请提高了检索效率,检索结果更准确性。

Description

文本检索系统的生成方法、文本检索方法及设备
技术领域
本申请涉及文本检索技术领域,尤其涉及一种文本检索系统的生成方法、文本检索方法及设备。
背景技术
随着互联网技术的飞速发展,文本数据在互联网上的数量越来越多,通过文本检索系统对目标文本进行检索,能够极大的提高检索效率。
现有技术中的文本检索系统只能针对某一格式的文本进行检索,当用户的待检索文本并非该格式时,需要借助第三方工具将其转换成该格式后,再将格式转换后的文本输入至检索系统中,检索系统通过全文匹配检索出与待检索文本相对应的文本数据。
但是现有技术检索效率低下,检索准确率较低,影响用户体验。
发明内容
本申请提供一种文本检索系统的生成方法、文本检索方法及设备,用以解决现有技术检索效率低下,检索准确率较低的问题。
第一方面,本申请提供一种文本检索系统的生成方法,包括:
获取输入的原始文本数据;
对所述原始文本数据进行识别处理,得到预设格式的文本数据;
对所述预设格式的文本数据进行句对划分处理,得到句对;
根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,所述检索语料库包括专业术语检索语料库及语块检索语料库。
可选的,所述对所述原始文本数据进行识别处理,得到预设格式的文本数据,包括:
对所述原始文本数据进行光学字符OCR识别,得到识别后的文本数据;
将所述识别后的文本数据进行格式转换处理,得到可编辑格式的文本数据。
可选的,所述对所述预设格式的文本数据进行句对划分处理,得到句对,包括:
识别所述预设格式的文本数据中的章节关键词;
根据所述章节关键词,对所述文本数据进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
可选的,对章节划分后的所述预设格式的文本数据进行章节号标注,以及,对段落划分后的所述每章节对应的文本内容进行段落号标注。
可选的,所述根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,包括:
识别所述句对中的关键词;
若所述关键词为专业术语,将包含所述句对的所述文本数据划分到所述专业术语检索语料库中;
若所述关键词为固定搭配词语,将包含所述句对的所述文本数据划分到所述语块检索语料库中。
可选的,还包括:
获取输入的所述原始文本数据的属性信息;
生成所述属性信息与所述句对的关联关系;
将所述关系联系存储到包含所述句对的所述检索语料库中。
第二方面,本申请提供一种文本检索方法,包括:
获取用户输入的待检索文本及用户确定的检索语料库;
对所述待检索文本进行识别处理,得到预设格式的待检索文本;
对所述预设格式的待检索文本进行句对划分处理,得到句对;
响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,所述检索语料库包括专业术语检索语料库及语块检索语料库。
可选的,所述对所述待检索文本进行识别处理,得到预设格式的待检索文本,包括:
对所述待检索文本进行光学字符OCR识别,得到识别后的待检索文本;
将所述识别后的待检索文本进行格式转换处理,得到可编辑格式的待检索文本。
可选的,所述对所述预设格式的待检索文本进行句对划分处理,得到句对,包括:
识别所述预设格式的待检索文本中的章节关键词;
根据所述章节关键词,对所述待检索文本进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
可选的,若所述检索语料库为专业术语检索语料库;
所述响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,包括:
将所述句对进行术语转换处理,得到与所述句对对应的专业术语;
根据所述专业术语,在所述专业术语检索语料库中搜索与所述专业术语匹配的至少一个语种的文本数据;
显示所述至少一个语种的文本数据、所述文本数据对应的章节号及段落号、以及所述文本数据的属性信息。
可选的,若所述检索语料库为语块检索语料库;
所述响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,包括:
将所述句对进行语块转换处理,得到与所述句对对应的固定搭配词语;
根据所述固定搭配词语,在所述语块检索语料库中搜索与所述固定搭配词语匹配的至少一个语种的文本数据;
显示所述至少一个语种的文本数据、所述文本数据对应的章节号及段落号、以及所述文本数据的属性信息。
第三方面,本申请提供一种文本检索系统的生成装置,包括:
获取模块,用于获取输入的原始文本数据;
识别模块,用于对所述原始文本数据进行识别处理,得到预设格式的文本数据;
划分模块,用于对所述预设格式的文本数据进行句对划分处理,得到句对;
处理模块,用于根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,所述检索语料库包括专业术语检索语料库及语块检索语料库。
第四方面,本申请提供一种文本检索装置,包括:
获取模块,用于获取用户输入的待检索文本及用户确定的检索语料库;
识别模块,用于对所述待检索文本进行识别处理,得到预设格式的待检索文本;
划分模块,用于对所述预设格式的待检索文本进行句对划分处理,得到句对;
匹配模块,用于响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,所述检索语料库包括专业术语检索语料库及语块检索语料库。
第五方面,本申请提供一种电子设备,包括:至少一个处理器、存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令来执行第一方面任一项所述的文本检索系统的生成方法。
第六方面,本申请提供一种电子设备,包括:至少一个处理器、存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令来执行第二方面任一项所述的文本检索方法。
第七方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时用于实现第一方面任一项所述的文本检索系统的生成方法,和/或,实现第二方面任一项所述的文本检索方法。
第八方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面任一项所述的文本检索系统的生成方法,和/或,实现第二方面任一项所述的文本检索方法。
本申请提供一种文本检索系统的生成方法、文本检索方法及设备,文本检索系统的生成通过获取输入的原始文本数据,并对原始文本数据进行识别处理,得到预设格式的文本数据,进而对预设格式的文本数据进行句对划分处理,得到句对,最终,根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,其中,检索语料库包括专业术语检索语料库及语块检索语料库。在检索时,获取用户输入的待检索文本及用户确定的检索语料库,对待检索文本进行识别处理,得到预设格式的待检索文本,进而对预设格式的待检索文本进行句对划分处理,得到句对,响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据。本申请的方法,提高了检索效率,检索结果准确性更高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例一提供的一种文本检索系统的生成方法的流程示意图;
图2为本申请实施例提供的一种对预设格式的文本数据进行句对划分处理的方法的流程示意图;
图3为本申请实施例提供的一种文本检索方法的流程示意图;
图4为本申请提供的一种从专业术语检索语料库中匹配出与句对对应的文本数据的方法的流程示意图;
图5为本申请实施例提供的一种检索显示界面图;
图6为本申请提供的一种从语块检索语料库中匹配出与句对对应的文本数据的方法的流程示意图;
图7为本申请实施例提供的一种文本检索系统的生成装置的结构示意图;
图8为本申请实施例提供的一种文本检索装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
检索技术就是从信息的集合中识别和获取信息的技术,随着互联网技术的飞速发展,文本数据在互联网上的数量越来越多,信息量激增,通过文本检索系统对目标文本进行检索,能够更广泛、更快捷、更全面地获取到用户所需的内容,满足用户使用。
现有技术中,目前的文本检索系统只能针对某一格式的文本进行检索,例如格式可以为docx格式,或者,txt格式,当用户的待检索文本并非该格式时,例如pdf格式,需要借助第三方工具将其转换成所需格式后,再将格式转换后的文本输入至检索系统中,检索系统获取到格式转换后的文本后,通过全文匹配检索出与待检索文本相对应的文本数据。
但是现有技术在格式转换过程中耗时较长,检索效率低下,且通过第三方工具在格式转换过程中容易出现错误,导致检索系统在全文匹配检索时准确率较低。此外,若用户想要获得检索出的文本数据更为详细的信息,例如,文本数据的出处、来源、对应章节段落等,需要用户从其他途径手工查阅,故现有技术无法满足人们的检索需求。
因此,针对现有技术的上述技术问题,本申请提出一种文本检索系统的生成方法、文本检索方法及设备。其中,文本检索系统的生成通过获取输入的原始文本数据,并对原始文本数据进行识别处理,得到预设格式的文本数据,进而对预设格式的文本数据进行句对划分处理,得到句对,最终,根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,其中,检索语料库包括专业术语检索语料库及语块检索语料库。文本检索时,通过获取用户输入的待检索文本及用户确定的检索语料库,对待检索文本进行识别处理,得到预设格式的待检索文本,进而对预设格式的待检索文本进行句对划分处理,得到句对,响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据。本申请的方法,通过生成的文本检索系统进行检索,使得检索效率更高,检索出的文献数据更加准确。
本申请的应用场景可以是用户通过将待检索文本输入该文本检索系统,该文本检索系统将待检索文本转换成预设格式的文本,并对其进行句对拆分,得到句对。然后响应于用户确定的检索语料库,若检索语料库为专业术语检索语料库,将句对进行术语转换处理,得到与句对对应的专业术语,根据专业术语,在专业术语检索语料库中搜索与专业术语匹配的至少一个语种的文本数据。若检索语料库为语块检索语料库,将句对进行语块转换处理,得到与句对对应的固定搭配词语,根据固定搭配词语,在语块检索语料库中搜索与固定搭配词语匹配的至少一个语种的文本数据。匹配出的至少一个语种的文本数据以便于用户进行学习,例如,进行翻译学习、翻译研究等。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例一提供的一种文本检索系统的生成方法的流程示意图,该方法的执行主体可以为具备文本检索系统生成功能的装置或设备,例如可以是个人计算机、服务器、智能手机、平板电脑等。本实施例中的方法可以通过软件、硬件或者软硬件结合的方式来实现。如图1所示,该方法具体包括以下步骤:
S101、获取输入的原始文本数据。
获取的原始文本数据可以是由文本检索系统的开发者输入,或者是由使用该文本检索系统的用户输入。
原始文本数据可以是书籍内容、论文内容、报纸内容、或者网页内容等。可以理解的是,上述原始文本数据仅用于举例说明,不因此作为对本申请的限制。
S102、对原始文本数据进行识别处理,得到预设格式的文本数据。
由于获取的原始文本数据由于传输媒介的不同,可能有不同的格式,因此,需要对格式进行识别转化。在本申请中,格式也可以理解为文本数据对应的扩展名。
在一种可能的实现方式中,对原始文本数据进行光学字符OCR识别,得到识别后的文本数据。将识别后的文本数据进行格式转换处理,得到可编辑格式的文本数据。
光学字符识别(Optical Character Recognition,OCR)是通过检测原始文本数据中文字的暗、亮部分来确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即针对印刷体字符,采用光学的方式将文档中的文字转换成为黑白点阵的图像文件,进而通过识别算法等将图像中的文字转换成文本格式。
示例性的,假设获取的原始文本数据其扩展名为pdf、jpg、jpeg、png、gif中的任一种,由于图片格式的文字具有不可编辑性,通过OCR识别,将其识别转换成可编辑的预设格式,例如,可以转换成扩展名为docx、doc、txt等的文本。
S103、对预设格式的文本数据进行句对划分处理,得到句对。
经过步骤S102得到预设格式的文本数据后,对其进行句对划分处理,先将其划分成章节,然后划分段落,最后得到段落中的句对。
S104、根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,检索语料库包括专业术语检索语料库及语块检索语料库。
在本实施例中,类别包括以下一种或多种:专业术语、固定搭配词语。
专业术语是指特定领域中对一些特定事物的统一的业内称谓。示例性的,电路领域专业术语,例如,集成电路称作IC(Integrated Circuit)、行输出变压器称作高压包、运算放大器简称运放等。计算机领域专业术语,例如,高级编码技术称作AAC(advanced audiocoding)、可用位速率称作ABR(available bit rate)等。
固定搭配词语是指常用搭配使用的词语或句子,示例性的,表示因果关系的句子,例如,因为/所以;表示转折关系的句子,例如,虽然/但是。成语,例如登峰造极、等量齐观等。歇后语,例如,百川归海-大势所趋等。
可理解的是,上述专业术语及固定搭配词语仅用于举例说明,不作为对本申请的限制。
因此,通过识别句对中的关键词,根据句对中关键词的所属类别,若所属专业术语,则将包含句对的文本数据划分到专业术语检索语料库。若所属固定搭配词语,则将包含句对的文本数据划分到语块检索语料库。
在本申请的上述实施例中,通过获取输入的原始文本数据,并对原始文本数据进行识别处理,得到预设格式的文本数据,进而对预设格式的文本数据进行句对划分处理,得到句对,最终根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,其中,检索语料库包括专业术语检索语料库及语块检索语料库。本实施例,通过对得到的原始文本数据进行格式转换,得到的预设格式的文本数据更加准确,且通过对其进行句对划分处理及根据句对中关键词的所属类别确定的检索语料库的内容更加全面准确,使得生成的文本检索系统功能更加强大。
进一步的,在上述实施例的基础之上,下面,通过本实施例说明对预设格式的文本数据进行句对划分处理,得到句对的过程。图2为本申请实施例提供的一种对预设格式的文本数据进行句对划分处理的方法的流程示意图,如图2所示,该方法可以包括以下步骤:
S201、识别预设格式的文本数据中的章节关键词。
假设预设格式的文本数据为书籍,识别书籍中的章节关键词,例如,关键词可以设置为“第1章”、“第2章”……“第n章”等。
S202、根据章节关键词,对文本数据进行章节划分,得到每章节对应的文本内容。
根据识别到的章节关键词,将书籍划分为各个章节,从而得到各个章节对应的文本内容。
对章节划分后的预设格式的文本数据进行章节号标注,通过对章节进行标注,便于后续检索中表明待检索文本在对应的检索书籍中的具体位置。
S203、对每章节对应的文本内容进行段落划分,得到每段落对应的文本内容。
得到各个章节对应的文本内容后,对每章节的文本内容划分段落,从而得到每段落对应的文本内容。
对段落划分后的每章节对应的文本内容进行段落号标注,通过对段落进行标注,便于后续检索中进一步的表明待检索文本在对应的检索书籍中的具体详细位置。
S204、对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
得到每段落对应的文本内容后,对于每一个段落,确定句对。其中,预设标识符号可以是句号、感叹号或者换行符等,将该预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
示例性的,假设某段文字为“君不见黄河之水天上来,奔流到海不复回。君不见高堂明镜悲白发,朝如青丝暮成雪。”则该段文字中包括两个句对,分别为“君不见黄河之水天上来,奔流到海不复回”和“君不见高堂明镜悲白发,朝如青丝暮成雪。”
在本申请的上述实施例中,通过识别预设格式的文本数据中的章节关键词,对每章节对应的文本内容进行段落划分,得到每段落对应的文本内容,并对每章节对应的文本内容进行段落划分,得到每段落对应的文本内容,对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。同时,对章节划分后的预设格式的文本数据进行章节号标注,以及,对段落划分后的每章节对应的文本内容进行段落号标注。本实施例的方法,通过对预设格式的文本数据进行章节划分、段落划分及标注,便于在后续的检索中表明待检索文本在对应的检索出的文本数据中的具体位置,方便用户查询。
进一步的,本申请为使用户在检索过程中获取到更多的与待检索文本相关的检索信息,可以为输入的原始文本数据增添其相关的属性信息。
一种可能的实现方式是,获取输入的原始文本数据的属性信息,并生成属性信息与句对的关联关系,生成起关联关系后,将该关系联系存储到包含句对的预设检索语料库中。
其中,属性信息包括但不限于:原始文本数据的标题、语种、领域、作者、来源、发布日期、公开信息等。属性信息的输入可以是文本检索系统的开发者,或者是由使用该文本检索系统的用户。需要注意的是,只有对应的输入人员对属性信息具有编辑的权限即用户不能编辑开发者输入的属性信息,开发者不能编辑用户输入的属性信息。
本申请的方法,可以基于区块链技术实现,由于区块链具有不可篡改性,从而保证了数据的真实性。
在上述实施例中,主要对文本检索系统的生成过程进行了说明,下面,说明该文本检索系统的应用。图3为本申请实施例提供的一种文本检索方法的流程示意图,如图3所示,该方法包括以下步骤:
S301、获取用户输入的待检索文本及用户确定的检索语料库。
其中,待检索文本可以是某格式的文本数据,或者,用户编辑输入的一段文字。
在该文本检索系统的显示界面上,显示有检索语料库,其中,检索语料库可以是专业术语检索语料库和语块检索语料库,用户可以选择其中一个检索语料库进行检索。
S302、对待检索文本进行识别处理,得到预设格式的待检索文本。
在一种可能的实现方式中,对待检索文本进行光学字符OCR识别,得到识别后的待检索文本,将识别后的待检索文本进行格式转换处理,得到可编辑格式的待检索文本。
示例性的,若用户输入的为不可编辑的图片格式的待检索文本,例如为pdf格式的文本,对其进行OCR识别,将其识别转换成可编辑的预设格式,例如为dcox格式的待检索文本。若用户本身输入的待检索文本为预设格式,则不需要进行格式的识别转换。
S303、对预设格式的待检索文本进行句对划分处理,得到句对。
具体的,
识别预设格式的待检索文本中的章节关键词。
根据章节关键词,对待检索文本进行章节划分,得到每章节对应的文本内容。
对每章节对应的文本内容进行段落划分,得到每段落对应的文本内容。
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
具体实现过程与上述图2实施例中的描述相同,请参见图2对应实施例内容,本申请不在重复赘述。
S304、响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据,检索语料库包括专业术语检索语料库及语块检索语料库。
若用户确定的检索语料库为专业术语检索语料库,从专业术语检索语料库中匹配出与句对对应的文本数据。
若用户确定的检索语料库为语块检索语料库,从语块检索语料库中匹配出与句对对应的文本数据。
在本申请的上述实施例中,通过获取用户输入的待检索文本及用户确定的检索语料库,对待检索文本进行识别处理,得到预设格式的待检索文本,对预设格式的待检索文本进行句对划分处理,得到句对,响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据。本实施,通过对用户输入的待检索文本进行格式转换,得到的预设格式的待检索文本更加准确,且通过句对划分处理后得到的句对及确定的检索语料库,匹配出的与句对对应的文本数据更加准确,提高了检索效率。
进一步的,在上述实施例的基础之上,说明响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据的过程。
图4为本申请提供的一种从专业术语检索语料库中匹配出与句对对应的文本数据的方法的流程示意图,如图4所示,该方法包括以下步骤:
S401、将句对进行术语转换处理,得到与句对对应的专业术语。
例如,若句对中包含文字“高压包”,将其进行术语转化,得到文字“行输出变压器”。
S402、根据专业术语,在专业术语检索语料库中搜索与专业术语匹配的至少一个语种的文本数据。
若在专业术语检索语料库中预先存储了两种语种的同一文本数据,专业术语在专业术语检索语料库中搜索时,可以获取到两种语种的与专业术语匹配的文本数据。如图5所示,图5为本申请实施例提供的一种检索显示界面图,在图5中“S”表示待检索文本,假设为中文,“T1”表示A语言对应的检索出来的文本数据,假设为英文,“T2”表示B语言对应的检索出来的文本数据,假设为日文。
S403、显示至少一个语种的文本数据、文本数据对应的章节号及段落号、以及文本数据的属性信息。
若获取到两种语种的与专业术语匹配的文本数据,该文本检索系统可以同时在界面显示出该两种语种的文本数据,且这两种语种的文本数据在内容上可以相互对齐。其中,对齐的方式包括段落对齐和句对对齐,用户可以则其一进行,通过对齐便于用户更好的浏览检索到的文献数据。
若两种语种的文本数据在某段或者某句没有对齐,用户可以手动调整使其相互对齐。可选的,用户选定未对齐的具体的段落或句对,通过删除、插入、合并、拆分、编辑等操作使其对齐。
同时,该文本检索系统的显示界面上,还会显示与用户输入的待检索文本对应的检索出来的文本数据的具体章节号及段落号,便于用户了解待检索文本在对应的检索文本数据中的具体详细位置。以及,与检索出来的文本数据对应的属性信息。其中,属性信息包括但不限于:原始文本数据的标题、语种、领域、作者、来源等。
图6为本申请提供的一种从语块检索语料库中匹配出与句对对应的文本数据的方法的流程示意图,如图6所示,该方法包括以下步骤:
S601、将句对进行语块转换处理,得到与句对对应的固定搭配词语。
S602、根据固定搭配词语,在语块检索语料库中搜索与固定搭配词语匹配的至少一个语种的文本数据。
S603、显示至少一个语种的文本数据、文本数据对应的章节号及段落号、以及文本数据的属性信息。
图6的实现过程与图4相似,为避免赘余,本申请不在重复说明,具体请参见图5所在的上述实施例。
在本申请的上述实施例中,通过响应于用户确定的检索语料库,从对应的检索语料库中匹配出与句对对应的文本数据,本实施例,提高了检索效率,检索结果准确性更高。
图7为本申请实施例提供的一种文本检索系统的生成装置的结构示意图,该装置包括:获取模块701、识别模块702、划分模块703、处理模块704。
获取模块701,用于获取输入的原始文本数据。
识别模块702,用于对原始文本数据进行识别处理,得到预设格式的文本数据。
划分模块703,用于对预设格式的文本数据进行句对划分处理,得到句对。
处理模块704,用于根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,检索语料库包括专业术语检索语料库及语块检索语料库。
一种可能的实现方式是,识别模块702具体用于:
对原始文本数据进行光学字符OCR识别,得到识别后的文本数据。
将识别后的文本数据进行格式转换处理,得到可编辑格式的文本数据。
一种可能的实现方式是,划分模块703具体用于:
识别预设格式的文本数据中的章节关键词。
根据章节关键词,对文本数据进行章节划分,得到每章节对应的文本内容。
对每章节对应的文本内容进行段落划分,得到每段落对应的文本内容。
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
一种可能的实现方式是,划分模块703还用于:
对章节划分后的预设格式的文本数据进行章节号标注,以及,对段落划分后的每章节对应的文本内容进行段落号标注。
一种可能的实现方式是,处理模块704具体用于:
识别句对中的关键词。
若关键词为专业术语,将包含句对的文本数据划分到专业术语检索语料库中。
若关键词为固定搭配词语,将包含句对的文本数据划分到语块检索语料库中。
一种可能的实现方式是,处理模块704还用于:
获取输入的原始文本数据的属性信息。
生成属性信息与句对的关联关系。
将关系联系存储到包含句对的检索语料库中。
本实施例提供的文本检索系统的生成装置,用于执行前述的文本检索系统的生成方法实施例,其实现原理与技术效果类似,对此不再赘述。
图8为本申请实施例提供的一种文本检索装置的结构示意图,该装置包括:获取模块801、识别模块802、划分模块803、匹配模块804。
获取模块801,用于获取用户输入的待检索文本及用户确定的检索语料库。
识别模块802,用于对待检索文本进行识别处理,得到预设格式的待检索文本。
划分模块803,用于对预设格式的待检索文本进行句对划分处理,得到句对。
匹配模块804,用于响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据,检索语料库包括专业术语检索语料库及语块检索语料库。
一种可能的实现方式是,识别模块802具体用于:
对待检索文本进行光学字符OCR识别,得到识别后的待检索文本。
将识别后的待检索文本进行格式转换处理,得到可编辑格式的待检索文本。
一种可能的实现方式是,划分模块803具体用于:
识别预设格式的待检索文本中的章节关键词。
根据章节关键词,对待检索文本进行章节划分,得到每章节对应的文本内容。
对每章节对应的文本内容进行段落划分,得到每段落对应的文本内容。
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
一种可能的实现方式是,若检索语料库为专业术语检索语料库,匹配模块804具体用于:
将句对进行术语转换处理,得到与句对对应的专业术语。
根据专业术语,在专业术语检索语料库中搜索与专业术语匹配的至少一个语种的文本数据。
显示至少一个语种的文本数据、文本数据对应的章节号及段落号、以及文本数据的属性信息。
一种可能的实现方式是,若检索语料库为语块检索语料库,匹配模块804具体用于:
将句对进行语块转换处理,得到与句对对应的固定搭配词语。
根据固定搭配词语,在语块检索语料库中搜索与固定搭配词语匹配的至少一个语种的文本数据。
显示至少一个语种的文本数据、文本数据对应的章节号及段落号、以及文本数据的属性信息。
本实施例提供的文本检索装置,用于执行前述的文本检索方法实施例,其实现原理与技术效果类似,对此不再赘述。
图9为本申请实施例提供的一种电子设备的结构示意图,如图9所示,该设备可以包括:至少一个处理器901和存储器902。
存储器902,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器902可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器901用于执行存储器902存储的计算机执行指令,以实现前述文本检索系统生成方法实施例所描述的方法。其中,处理器901可能是一个中央处理器(CentralProcessing Unit,简称为CPU),或者是特定集成电路(Application Specific IntegratedCircuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,该电子设备还可以包括通信接口903。在具体实现上,如果通信接口903、存储器902、处理器901独立实现,则通信接口903、存储器902、处理器901可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口903、存储器902、处理器901集成在一块芯片上实现,则通信接口903、存储器902、处理器901可以通过内部接口完成通信。
本实施例提供的电子设备,用于执行前述文本检索系统的生成方法,其实现原理与技术效果类似,对此不再赘述。
图10为本申请实施例提供的一种电子设备的结构示意图,如图10所示,该设备可以包括:至少一个处理器1001和存储器1002。
存储器1002,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器1002可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1001用于执行存储器1002存储的计算机执行指令,以实现前述文本检索方法实施例所描述的方法。其中,处理器1001可能是一个中央处理器(Central ProcessingUnit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,该电子设备还可以包括通信接口1003。在具体实现上,如果通信接口1003、存储器1002、处理器1001独立实现,则通信接口1003、存储器1002、处理器1001可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1003、存储器1002、处理器1001集成在一块芯片上实现,则通信接口1003、存储器1002、处理器1001可以通过内部接口完成通信。
本实施例提供的电子设备,用于执行前述文本检索方法,其实现原理与技术效果类似,对此不再赘述。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质其上存储有程序程序指令,程序指令用于上述文本检索系统的生成方法,和/或,文本检索方法。
本申请还提供一种计算机程序产品,该程序产品包括可执行指令,该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的上述文本检索系统的生成方法,和/或,文本检索方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (17)

1.一种文本检索系统的生成方法,其特征在于,包括:
获取输入的原始文本数据;
对所述原始文本数据进行识别处理,得到预设格式的文本数据;
对所述预设格式的文本数据进行句对划分处理,得到句对;
根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,所述检索语料库包括专业术语检索语料库及语块检索语料库。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始文本数据进行识别处理,得到预设格式的文本数据,包括:
对所述原始文本数据进行光学字符OCR识别,得到识别后的文本数据;
将所述识别后的文本数据进行格式转换处理,得到可编辑格式的文本数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述预设格式的文本数据进行句对划分处理,得到句对,包括:
识别所述预设格式的文本数据中的章节关键词;
根据所述章节关键词,对所述文本数据进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
4.根据权利要求3所述的方法,其特征在于,对章节划分后的所述预设格式的文本数据进行章节号标注,以及,对段落划分后的所述每章节对应的文本内容进行段落号标注。
5.根据权利要求4所述的方法,其特征在于,所述根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,包括:
识别所述句对中的关键词;
若所述关键词为专业术语,将包含所述句对的所述文本数据划分到所述专业术语检索语料库中;
若所述关键词为固定搭配词语,将包含所述句对的所述文本数据划分到所述语块检索语料库中。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
获取输入的所述原始文本数据的属性信息;
生成所述属性信息与所述句对的关联关系;
将所述关系联系存储到包含所述句对的所述检索语料库中。
7.一种文本检索方法,其特征在于,包括:
获取用户输入的待检索文本及用户确定的检索语料库;
对所述待检索文本进行识别处理,得到预设格式的待检索文本;
对所述预设格式的待检索文本进行句对划分处理,得到句对;
响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,所述检索语料库包括专业术语检索语料库及语块检索语料库。
8.根据权利要求7所述的方法,其特征在于,所述对所述待检索文本进行识别处理,得到预设格式的待检索文本,包括:
对所述待检索文本进行光学字符OCR识别,得到识别后的待检索文本;
将所述识别后的待检索文本进行格式转换处理,得到可编辑格式的待检索文本。
9.根据权利要求8所述的方法,其特征在于,所述对所述预设格式的待检索文本进行句对划分处理,得到句对,包括:
识别所述预设格式的待检索文本中的章节关键词;
根据所述章节关键词,对所述待检索文本进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
10.根据权利要求9所述的方法,其特征在于,若所述检索语料库为专业术语检索语料库;
所述响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,包括:
将所述句对进行术语转换处理,得到与所述句对对应的专业术语;
根据所述专业术语,在所述专业术语检索语料库中搜索与所述专业术语匹配的至少一个语种的文本数据;
显示所述至少一个语种的文本数据、所述文本数据对应的章节号及段落号、以及所述文本数据的属性信息。
11.根据权利要求9所述的方法,其特征在于,若所述检索语料库为语块检索语料库;
所述响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,包括:
将所述句对进行语块转换处理,得到与所述句对对应的固定搭配词语;
根据所述固定搭配词语,在所述语块检索语料库中搜索与所述固定搭配词语匹配的至少一个语种的文本数据;
显示所述至少一个语种的文本数据、所述文本数据对应的章节号及段落号、以及所述文本数据的属性信息。
12.一种文本检索系统的生成装置,其特征在于,包括:
获取模块,用于获取输入的原始文本数据;
识别模块,用于对所述原始文本数据进行识别处理,得到预设格式的文本数据;
划分模块,用于对所述预设格式的文本数据进行句对划分处理,得到句对;
处理模块,用于根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,所述检索语料库包括专业术语检索语料库及语块检索语料库。
13.一种文本检索装置,其特征在于,包括:
获取模块,用于获取用户输入的待检索文本及用户确定的检索语料库;
识别模块,用于对所述待检索文本进行识别处理,得到预设格式的待检索文本;
划分模块,用于对所述预设格式的待检索文本进行句对划分处理,得到句对;
匹配模块,用于响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,所述检索语料库包括专业术语检索语料库及语块检索语料库。
14.一种电子设备,其特征在于,包括:至少一个处理器、存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求1至6任一项所述的文本检索系统的生成方法。
15.一种电子设备,其特征在于,包括:至少一个处理器、存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求7至11任一项所述的文本检索方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的文本检索系统的生成方法,和/或,实现如权利要求7至11任一项所述的文本检索方法。
17.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的文本检索系统的生成方法,和/或,实现如权利要求7至11任一项所述的文本检索方法。
CN202211624153.4A 2022-12-15 2022-12-15 文本检索系统的生成方法、文本检索方法及设备 Pending CN115827826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211624153.4A CN115827826A (zh) 2022-12-15 2022-12-15 文本检索系统的生成方法、文本检索方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211624153.4A CN115827826A (zh) 2022-12-15 2022-12-15 文本检索系统的生成方法、文本检索方法及设备

Publications (1)

Publication Number Publication Date
CN115827826A true CN115827826A (zh) 2023-03-21

Family

ID=85516348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211624153.4A Pending CN115827826A (zh) 2022-12-15 2022-12-15 文本检索系统的生成方法、文本检索方法及设备

Country Status (1)

Country Link
CN (1) CN115827826A (zh)

Similar Documents

Publication Publication Date Title
US11308278B2 (en) Predicting style breaches within textual content
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN110083805A (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN110909122B (zh) 一种信息处理方法及相关设备
US10936667B2 (en) Indication of search result
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
WO2012016505A1 (zh) 一种文件处理方法及文件处理装置
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN111259645A (zh) 一种裁判文书结构化方法及装置
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
US20220301285A1 (en) Processing picture-text data
Chimalamarri et al. Linguistically enhanced word segmentation for better neural machine translation of low resource agglutinative languages
CN115827826A (zh) 文本检索系统的生成方法、文本检索方法及设备
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114579796A (zh) 机器阅读理解方法及装置
CN113515949A (zh) 使用一般和目标领域知识的弱监督语义实体识别
CN112507737A (zh) 一种基于标签的文本翻译系统
CN111435405A (zh) 一种文章关键句自动标注方法及装置
JPH11272671A (ja) 機械翻訳装置及び機械翻訳方法
CN113553435B (zh) 智能标签的确定方法、装置、设备及存储介质
KR102646428B1 (ko) 인공지능 학습 모델을 이용한 유사 글자 추출 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination