CN115438147A - 面向轨道交通领域的信息检索方法及系统 - Google Patents
面向轨道交通领域的信息检索方法及系统 Download PDFInfo
- Publication number
- CN115438147A CN115438147A CN202210928367.4A CN202210928367A CN115438147A CN 115438147 A CN115438147 A CN 115438147A CN 202210928367 A CN202210928367 A CN 202210928367A CN 115438147 A CN115438147 A CN 115438147A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- rail transit
- search engine
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向轨道交通领域的信息检索方法及系统,方法包括:基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各源文本是对各原始文本进行清洗后得到的;基于向量搜索引擎,从各源文本中,获取与查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;根据各第一候选文本和各第二候选文本,确定查询语句相似度最高的目标文本。所述系统执行所述方法。本发明提供了面向轨道交通领域的信息检索的能力,基于本发明提供的全文搜索引擎以及向量搜索引擎能够有效提升轨道交通领域的信息检索的能力与效率。
Description
技术领域
本发明涉及轨道交通技术领域,尤其涉及一种面向轨道交通领域的信息检索方法及系统。
背景技术
随着城市轨道交通领域企业的发展,企业内部存在大量结构化与非结构化的文本数据,测试的Excel信息可能条理分明地陈列在各行和各列之中,但是其中数据却是杂乱无章。Word与PDF格式文本文档没有清晰的内部结构,PowerPoint演示文稿也是如此;企业内部的电子邮件可以由用户进行组织、建立索引和分门别类,但是其中的内容却是非结构化的,经常包含附加的文本、演示文稿或电子表格文件。具体来说,企业内部的文档数据有以下的一系列特点:
第一,文档格式多样性。企业内部的文档数据往往具有各种各样的格式,例如PDF、Word、PowerPoint、Excel、扫描件、HTML、PNG 等各种形式的数据。这些非结构化的数据通常解析与信息抽取往往需要采用专业的工具进行。
第二,文档种类多种多样。企业内部文档种类各式各样,如财报年报、各式各样的汇报的PPT以及同一个PPT经过微小改动后的各种版本。
第三,信息利用程度不高。随着人工智能与大数据的兴起,蕴含有大量领域相关知识的企业内部的文档数据并没有被充分挖掘潜能,辅助以企业相关业务的开展。
第四,信息提取相对困难,进而导致检索相对困难。由于各类数据都是以非结构化的形式存储,如何对这么大量的数据建立索引,建立文档内容文本搜索引擎,甚至是理解搜索人意图的智能搜索引擎,从而方便企业内部员工对信息进行检索是一件困难的工作。
发明内容
本发明提供的面向轨道交通领域的信息检索方法及系统,用于解决现有技术中存在的上述问题,提供了面向轨道交通领域的信息检索的能力,基于本发明提供的全文搜索引擎以及向量搜索引擎能够有效提升轨道交通领域的信息检索的能力与效率。
本发明提供的一种面向轨道交通领域的信息检索方法,包括:
基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
根据本发明提供的一种面向轨道交通领域的信息检索方法,所述基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,包括:
对所述查询语句进行预处理,获取所述查询语句中的第一文本信息;
基于所述全文搜索引擎,获取各所述源文本中与所述第一文本信息的相似度高于所述第一预设动态阈值的一个或多个第二文本信息;
根据所述第二文本信息的倒排索引对应的候选源文本,确定所述第一候选文本,所述倒排索引是根据所述全文搜索引擎确定的。
根据本发明提供的一种面向轨道交通领域的信息检索方法,所述基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本,包括:
对所述查询语句进行预处理,获取所述查询语句中的第一语义向量信息;
基于所述向量搜索引擎,获取各所述源文本中与所述第一语义向量信息的相似度高于所述第二预设动态阈值的一个或多个第二语义向量信息;
根据所述第二语义向量信息的向量索引对应的候选源文本,确定所述第二候选文本,所述向量索引是根据所述向量搜索引擎确定的。
根据本发明提供的一种面向轨道交通领域的信息检索方法,所述对各原始文本进行清洗,包括:
基于正则表达式匹配算法对解析出的各所述原始文本的文本内容进行清洗;
基于预设文本查重算法,从各所述原始文本中,去除与任意一个所述原始文本的文本内容重复的冗余文本。
根据本发明提供的一种面向轨道交通领域的信息检索方法,所述方法,还包括:
抽取所述源文本中的关键词信息和关键字信息;
基于所述关键词信息和所述关键字信息,获取所述源文本中的文本信息和语义向量信息。
根据本发明提供的一种面向轨道交通领域的信息检索方法,所述基于所述关键词信息和所述关键字信息,获取所述源文本中的文本信息和语义向量信息,包括:
将所述关键词信息和所述关键字信息输入到预训练语言模型,获取所述文本信息和所述语义向量信息;
其中,所述预训练语言模型是通过对预设词向量模型以及预设语义编码模型进行训练后得到的。
本发明还提供一种面向轨道交通领域的信息检索系统,包括:第一获取模块、第二获取模块以及检索查询模块;
所述第一获取模块,用于基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
所述第二获取模块,用于基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
所述检索查询模块,用于根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现如上述任一种所述面向轨道交通领域的信息检索方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向轨道交通领域的信息检索方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向轨道交通领域的信息检索方法。
本发明提供的面向轨道交通领域的信息检索方法及系统,提供了面向轨道交通领域的信息检索的能力,基于本发明提供的全文搜索引擎以及向量搜索引擎能够有效提升轨道交通领域的信息检索的能力与效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的面向轨道交通领域的信息检索方法的流程示意图之一;
图2是本发明提供的面向轨道交通领域的信息检索方法的流程示意图之二;
图3是本发明提供的文本解析结构框架文本解析示意图;
图4是本发明提供的段落Paragraph对象的结构示意图;
图5是本发明提供的最小哈希算法Minhash的原理示意图;
图6是本发明提供的智能信息提取工具流程示意图;
图7是本发明提供的语义编码模型训练过程示意图;
图8是本发明提供的面向轨道交通领域的信息检索系统的结构示意图;
图9是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的面向轨道交通领域的信息检索方法,针对企业内部轨道交通领域信息检索过程中解析、抽取与索引困难的问题。首先,面向轨道交通领域的原始文本与语料数据,构建了一套自动化的对文档进行解析与清洗,对原始文本中的元信息进行抽取入库,得到源文本;其次,设计了关键句信息抽取算法与关键词抽取算法,对源文本中元信息中的关键句信息与关键词信息进行抽取,同时,利用深度学习算法训练了BERT-like模型(即预训练语言模型),获取了源文本的语义向量信息和文本信息;最后利用抽取的关键信息与关键词信息,基于Elasticsearch全文搜索引擎与Milvus向量搜索引擎,构建基于倒排索引的轨道交通领域信息检索工具与基于语义向量的信息检索工具,从而有效提升轨道交通领域的信息检索的能力与效率,具体实现如下:
图1是本发明提供的面向轨道交通领域的信息检索方法的流程示意图之一,如图1所示,方法包括:
步骤100、基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本;
步骤200、基于向量搜索引擎,从各源文本中,获取与查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
步骤300、根据各第一候选文本和各第二候选文本,确定查询语句相似度最高的目标文本;
其中,各源文本是对各原始文本进行清洗后得到的。
需要说明的是,上述方法的执行主体可以是计算机设备。
可选地,参见图2,轨道交通领域的原始文本被清洗后得到源文本,并对源文本抽取关键词信息与关键句信息后,源文本的文本信息被送入全文搜索引擎Elasticsearch构建倒排索引,经过预设词向量模型如BERT模型编码后的语义向量信息被送入向量搜索引擎Milvus 构建向量索引,对于给定查询语句(Query)的内容,采用同样的方式进行处理与信息提取、向量编码,获取查询语句中的文本信息以及语义向量信息,然后可以通过Elasticsearch与Milvus进行近似文档查询,从而获取查询结果。
进一步地,在一个实施例中,对各原始文本进行清洗,可以具体包括:
基于正则表达式匹配算法对解析出的各原始文本的文本内容进行清洗;
基于预设文本查重算法,从各原始文本中,去除与任意一个原始文本的文本内容重复的冗余文本。
各原始文本一般存储在企业内部数据库,存储的文本类型数量众多,docx、pptx、pdf以及xlsx类型文本数量占全部文本数量的92%以上,文件数量达到百万级。且数据库中存储的多格式文本存在大量相同或相似的冗余文件。如员工在公司不同内部服务器中上传的相同文件,或同一文件的不同版本。这些文件存在大量的相同或相似的文本内容,会严重拖慢下游搜索任务的执行效率。轨道交通领域文档信息解析与清洗主要目的在于有效提高文本内容解析质量,同时对数据库中多来源多格式的文件进行查重和筛选可以有效提高下游任务的执行效率。具体来说主要包括以下工作:
多格式文档解析:多格式文档解析的目的在于对不同格式的文档提取文档的内容。多格式文本解析是一切工作的前提,高质量的解析内容可以提高一切下游检索任务的性能上限。
文本清洗:对解析出的文本内容进行清洗,通过正则去除无用的文本内容以及影响信息检索效率与信息理解效率的复杂标志符,可以提高文本内容质量。
面向亿级的多格式文本查重算法:对解析出的文本内容进行查重,可以去除相同或相似的冗余文件,避免在相同或相似文件上进行重复性的工作,提高下游任务执行效率以及性能上限。
首先,对于多格式文档解析技术而言,主要包括以下几个关键技术:WORD解析技术、PDF解析技术、PPT解析技术、EXCEL解析技术以及其他文本解析技术。这几项工作的主要目的在于解析不同格式的原始文本,提取原始文本中的文本信息与元信息。
具体来说对于Microsoft的文档(WORD,PPT与EXCEL)而言,其格式主要如图3所示,多文档内容解析工具主要将该类型原始文本中的内容信息、段落信息等文本信息提取出来;对于PDF格式而言,其组织结构如图4所示,多文档内容解析工具主要将该类型原始文本中的段落文字信息提取出来。
其次,对于提取的文档内容而言,仍然有大量的多余占位符与其他多余符号。采用正则表达式匹配算法,对文本中的多余内容进行清洗,以将多余的换行符、空格、非GBK与ASCII符号进行了滤除。
最后,由于企业数据库内部存在大量重复文本与同一文本的不同版本(与原始文本相比仅仅只有细微区别),因此需要对提取的文档进行去重操作,基于预设文本查重算法,从各原始文本中,去除与任意一个原始文本的文本内容重复的冗余文本。
在一个实施例中,去重操作主要面向两种类型的重复文档进行去重:第一种类型是完全重复文本,该类文本在内容上完全相同,可能在标题上或者签名上有些许不同;第二种类型为内容大部分相同的文本,该类文本通常是某个原始文本的不同版本,对于文本内容而言,仅仅是少许的字符不一样。因此,针对两类文本的特点,去重操作主要包括两个环节:
第一个环节是使用MD5摘要算法,对文本内容形成摘要然后去重。MD5摘要算法的特性是将数据(如汉字)运算为另一固定长度值,该算法常用于文件校验,不管文件多大,经过MD5摘要算法后都能生成唯一的MD5值。获取文本的MD5摘要值以后,通过哈希算法能够经过常数次运算,找出与给定文本的文本内容相同的其他文本。经过MD5算法后,数据库中所有具有完全相同内容的冗余文本都将被标记并且去除。
第二个环节是使用局部敏感哈希算法进行近似去重。经过第一个环节以后,数据库中任何具有完全相同内容的冗余文本都被滤除,但是仍然存在很多内容有非常小不一样的文本,通过MD5摘要算法无法找出这些近似相同的文档。因此需要采用局部敏感哈希算法(LSH 算法)进行二次去重。LSH算法的思想是将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果对原始数据进行一些hash映射后,希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,显然计算量下降了很多。
在一个实施例中,通过如图5所示的最小哈希算法的原理示意图,通过LSH算法,就能将近似相同的其余冗余文本都找出来。
在一个实施例中,根据输入到全文搜索引擎Elasticsearch搜索栏的查询语句Query,从经过上述清洗过程的各原始文本对应的各源文本中获取与查询语句的相似度高于第一预设动态阈值的一个或多个候选文本(即第一候选文本)。
例如,分别计算查询语句中的文本信息与各源文本中的文本信息之间的相似度,并根据Elasticsearch设置的每页最大显示查询结果数,按照相似度从高到低对各第一候选文本降序排列,其中,第一预设动态阈值可以根据Elasticsearch每页最后一个查询结果对应的第一候选文本中的文本信息与查询语句中的文本信息之间的相似度进行设置。
在一个实施例中,根据输入到向量搜索引擎Milvus搜索栏的查询语句Query,从经过上述清洗过程的各原始文本对应的各源文本中获取与查询语句的相似度高于第二预设动态阈值的一个或多个候选文本(即第二候选文本)。
例如,分别计算查询语句中的语义向量信息与各源文本中的语义向量信息之间的相似度,并根据Milvus设置的每页最大显示查询结果数,按照相似度从高到低对各第二候选文本降序排列,其中,第二预设动态阈值可以根据Milvus每页最后一个查询结果对应的第二候选文本中的语义向量信息与查询语句中的语义向量信息之间的相似度进行设置。
根据获得的上述第一候选文本与查询语句之间的相似度以及上述第二候选文本与查询语句之间的相似度,得到与查询语句相似度最高的目标文本。
本发明提供的面向轨道交通领域的信息检索方法,提供了面向轨道交通领域的信息检索的能力,基于本发明提供的全文搜索引擎以及向量搜索引擎能够有效提升轨道交通领域的信息检索的能力与效率。
进一步地,在一个实施例中,步骤100可以具体包括:
步骤1001、对查询语句进行预处理,获取查询语句中的第一文本信息;
步骤1002、基于全文搜索引擎,获取各源文本中与第一文本信息的相似度高于第一预设动态阈值的一个或多个第二文本信息;
步骤1003、根据第二文本信息的倒排索引对应的候选源文本,确定第一候选文本,倒排索引是根据全文搜索引擎确定的。
可选地,采用与原始文本同样的处理方法对查询语句进行预处理,得到查询语句的文本信息(即第一文本信息)。
根据输入到全文搜索引擎Elasticsearch搜索栏的查询语句Query,从经过上述清洗过程的各原始文本对应的各源文本中获取与查询语句中的第一文本信息的相似度高于第一预设动态阈值的一个或多个第二文本信息。
将第二文本信息的倒排索引对应的候选源文本作为第一候选文本。
在一个实施例中,第二文本信息的倒排索引可以通过查询所有源文本的文本信息对应的倒排索引表得到。
在一个实施例中,利用得到的源文本的文本信息,构建索引,具体来说利用Elasticsearch实现全文检索功能:基于文本内容的全文检索,使用Elasticsearch先对每个文本信息进行分词,随后根据分词结果建立倒排索引表,最后根据倒排索引的词检索结果来对源文本进行索引。
本发明提供的面向轨道交通领域的信息检索方法,面向轨道交通的领域文本与语料数据,自动化的对文本进行解析与清洗,利用被清洗后的文本以及全文搜索引擎实现对轨道交通领域的信息检索奠定了基础。
进一步地,在一个实施例中,步骤200,可以具体包括:
步骤2001、对查询语句进行预处理,获取查询语句中的第一语义向量信息;
步骤2002、基于向量搜索引擎,获取各源文本中与第一语义向量信息的相似度高于第二预设动态阈值的一个或多个第二语义向量信息;
步骤2003、根据第二语义向量信息的向量索引对应的候选源文本,确定第二候选文本,向量索引是根据向量搜索引擎确定的。
可选地,采用与原始文本同样的处理方法对查询语句进行预处理,得到查询语句的语义向量信息(即第一文本信息)。
根据输入到向量搜索引擎Milvus搜索栏的查询语句Query,从经过上述清洗过程的各原始文本对应的各源文本中获取与查询语句的第一语义向量信息的相似度高于第二预设动态阈值的一个或多个第二语义向量信息。
将第二语义向量信息的向量索引对应的候选源文本作为第二候选文本。
在一个实施例中,第二语义向量信息的向量索引可以通过查询所有源文本的语义向量信息对应的向量索引。
在一个实施例中,利用得到的源文本的语义向量信息,构建索引,具体来说利用Milvus实现语义向量检索功能:语义向量检索技术通过对词向量的使用,能够检索内容语义上与待检索文章相似的相关文章。此处采用基于Milvus的高性能向量检索工具实现。
本发明提供的面向轨道交通领域的信息检索方法,面向轨道交通的领域文本与语料数据,自动化的对文本进行解析与清洗,利用被清洗后的文本以及向量搜索引擎实现对轨道交通领域的信息检索奠定了基础。
进一步地,在一个实施例中,所述方法,还可以具体包括:
步骤1、抽取源文本中的关键词信息和关键字信息;
步骤2、基于关键词信息和关键字信息,获取源文本中的文本信息和语义向量信息。
进一步地,在一个实施例中,步骤2,可以具体包括:
将关键词信息和关键字信息输入到预训练语言模型,获取文本信息和语义向量信息;
其中,预训练语言模型是通过对预设词向量模型以及预设语义编码模型进行训练后得到的。
可选地,抽取经过上述清洗过程的原始文本以进一步用于构建企业级的全文搜索引擎。但是对于经过简单处理后的富文本信息而言,由于文档本身存储格式的复杂性,对于下游检索任务有益的信息与无益的信息相对混杂。对于某源文本而言,源文本标题与正文内容对于信息检索至关重要,而源文本目录(即其他信息部分)则对于建立全文检索目录意义不大。因此需要进一步设计相关方法对源文本的文本内容信息进行提取,以便于后续的各项任务的开展。同时,关键词句信息对于后续文本的检索命中也具有重要意义,因此抽取源文本关键词句信息也是重要工作之一。针对语义检索任务而言,源文本的语义向量表示也是至关重要的一步。
基于预训练语言模型的复杂文本关键词句信息抽取与文本表示工具,着眼于使用基于深度学习的预训练语言模型技术,对源文本内容的自然语义段落进行分割(例如标题、目录、表格、正文、参考文献、关键词句等),并且获取源文本的语义表示。具体来说,关键信息智能提取工具的构建着眼于以下的一系列工作:
关键信息智能提取工具模型训练:基于预训练语言模型,训练关键信息智能提取工具模型部分,用于实际的关键信息提取工作与关键词句信息提取工作。
训练文档编码模型:着眼于训练文档编码深度学习模型,获取源文本的语义向量信息。
针对关键信息提取工具模型训练而言,主要由图6的关键步骤组成。整个步骤分为离线与在线两个步骤:离线部分,根据标注好的语料数据,利用BERT、RoBERTa等预设词向量模型,微调下游关键词句信息提取任务;在线部署部分,使用Triton Inference Server利用 Docker将信息抽取模型全流程进行部署。
语义编码模型则采用Masked-language的方式进行训练。该步骤主要包括以下两个步骤:首先,针对每一个文档而言,抽取其15%的字符做以下的处理:80%的字符将其变为“[M]”符号,10%的字符将其用其他任意字符替代,10%的字符维持原样。如图7所示,“道岔在进路闭锁状态下出现四开”这段话,被处理为了“道[M]在进路 [M]锁里态下哦现[M]开”。第二,抽取另外一段文档,与每一段文档进行拼接,其中50%的可能性,该文档为当前文档的语言上的下一段; 50%的可能性则是随机抽取的与当前文档无关的文档,两段文档之间以符号“[SEP]”分开。最后,利用经过前两部分处理的数据被送入 Transformer模型进行训练。最后给定源文本经过语义编码模型编码后的“[CLS]”向量即为源文本的编码向量(即第二语义向量信息)。
本发明提供的面向轨道交通领域的信息检索方法,使用深度学习算法抽取文档关键词,并解析文档结构;采用BERT-like预训练方式,训练并获取文档向量;基于Elasticsearch与Milvus,构建基于倒排索引的轨道交通领域信息检索工具与基于语义的信息检索工具,有效提升轨道交通领域的信息检索的能力与效率。
下面对本发明提供的面向轨道交通领域的信息检索系统进行描述,下文描述的面向轨道交通领域的信息检索系统与上文描述的面向轨道交通领域的信息检索方法可相互对应参照。
图8是本发明提供的面向轨道交通领域的信息检索系统的结构示意图,如图8所示,包括:
第一获取模块810、第二获取模块811以及检索查询模块812;
所述第一获取模块810,用于基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
所述第二获取模块811,用于基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
所述检索查询模块812,用于根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
本发明提供的面向轨道交通领域的信息检索系统,提供了面向轨道交通领域的信息检索的能力,基于本发明提供的全文搜索引擎以及向量搜索引擎能够有效提升轨道交通领域的信息检索的能力与效率。
图9是本发明提供的一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口 (communication interface)911、存储器(memory)912和总线(bus) 913,其中,处理器910,通信接口911,存储器912通过总线913完成相互间的通信。处理器910可以调用存储器912中的逻辑指令,以执行如下方法:
基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的面向轨道交通领域的信息检索方法,例如包括:
基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的面向轨道交通领域的信息检索方法,例如包括:
基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种面向轨道交通领域的信息检索方法,其特征在于,包括:
基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
2.根据权利要求1所述的面向轨道交通领域的信息检索方法,其特征在于,所述基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,包括:
对所述查询语句进行预处理,获取所述查询语句中的第一文本信息;
基于所述全文搜索引擎,获取各所述源文本中与所述第一文本信息的相似度高于所述第一预设动态阈值的一个或多个第二文本信息;
根据所述第二文本信息的倒排索引对应的候选源文本,确定所述第一候选文本,所述倒排索引是根据所述全文搜索引擎确定的。
3.根据权利要求1所述的面向轨道交通领域的信息检索方法,其特征在于,所述基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本,包括:
对所述查询语句进行预处理,获取所述查询语句中的第一语义向量信息;
基于所述向量搜索引擎,获取各所述源文本中与所述第一语义向量信息的相似度高于所述第二预设动态阈值的一个或多个第二语义向量信息;
根据所述第二语义向量信息的向量索引对应的候选源文本,确定所述第二候选文本,所述向量索引是根据所述向量搜索引擎确定的。
4.根据权利要求1所述的面向轨道交通领域的信息检索方法,其特征在于,所述对各原始文本进行清洗,包括:
基于正则表达式匹配算法对解析出的各所述原始文本的文本内容进行清洗;
基于预设文本查重算法,从各所述原始文本中,去除与任意一个所述原始文本的文本内容重复的冗余文本。
5.根据权利要求1-4任一项所述的面向轨道交通领域的信息检索方法,其特征在于,所述方法,还包括:
抽取所述源文本中的关键词信息和关键字信息;
基于所述关键词信息和所述关键字信息,获取所述源文本中的文本信息和语义向量信息。
6.根据权利要求5所述的面向轨道交通领域的信息检索方法,其特征在于,所述基于所述关键词信息和所述关键字信息,获取所述源文本中的文本信息和语义向量信息,包括:
将所述关键词信息和所述关键字信息输入到预训练语言模型,获取所述文本信息和所述语义向量信息;
其中,所述预训练语言模型是通过对预设词向量模型以及预设语义编码模型进行训练后得到的。
7.一种面向轨道交通领域的信息检索系统,其特征在于,包括:第一获取模块、第二获取模块以及检索查询模块;
所述第一获取模块,用于基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;
所述第二获取模块,用于基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;
所述检索查询模块,用于根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。
8.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述面向轨道交通领域的信息检索方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述面向轨道交通领域的信息检索方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向轨道交通领域的信息检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210928367.4A CN115438147A (zh) | 2022-08-03 | 2022-08-03 | 面向轨道交通领域的信息检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210928367.4A CN115438147A (zh) | 2022-08-03 | 2022-08-03 | 面向轨道交通领域的信息检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438147A true CN115438147A (zh) | 2022-12-06 |
Family
ID=84243578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210928367.4A Pending CN115438147A (zh) | 2022-08-03 | 2022-08-03 | 面向轨道交通领域的信息检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438147A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272995A (zh) * | 2023-11-21 | 2023-12-22 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
-
2022
- 2022-08-03 CN CN202210928367.4A patent/CN115438147A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272995A (zh) * | 2023-11-21 | 2023-12-22 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
CN117272995B (zh) * | 2023-11-21 | 2024-01-30 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
Gao et al. | Navigating the data lake with datamaran: Automatically extracting structure from log datasets | |
US20170235841A1 (en) | Enterprise search method and system | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN107688616B (zh) | 使实体的独特事实显现 | |
WO2025006030A1 (en) | Systems and methods for structure discovery and structure-based analysis in natural language processing models | |
Duwairi et al. | A framework for Arabic sentiment analysis using supervised classification | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
Mazari et al. | Automatic Construction of Ontology from Arabic Texts. | |
Packer et al. | Extracting person names from diverse and noisy OCR text | |
Beheshti et al. | Big data and cross-document coreference resolution: Current state and future opportunities | |
Jain et al. | Context sensitive text summarization using k means clustering algorithm | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
CN117539990A (zh) | 一种问题处理方法、装置、电子设备和存储介质 | |
Kunilovskaya et al. | Text preprocessing and its implications in a digital humanities project | |
Li et al. | Automatic extraction for product feature words from comments on the web | |
Fatima et al. | New graph-based text summarization method | |
CN115438147A (zh) | 面向轨道交通领域的信息检索方法及系统 | |
Makrynioti et al. | PaloPro: a platform for knowledge extraction from big social data and the news | |
CN118779404A (zh) | 一种企业知识库智能文档查询方法和系统 | |
CN114547233B (zh) | 数据查重方法、装置及电子设备 | |
KR20240057666A (ko) | 문서 내의 범주형 문장을 추출 및 요약하는 방법 및 시스템 | |
Chavan et al. | Curating stopwords in Marathi: a TF-IDF approach for improved text analysis and information retrieval | |
US20240119547A1 (en) | Generating legal research recommendations from an input data source | |
Büchler et al. | Scaling historical text re-use |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |