CN115757743A - 文档的检索词匹配方法及电子设备 - Google Patents

文档的检索词匹配方法及电子设备 Download PDF

Info

Publication number
CN115757743A
CN115757743A CN202211517909.5A CN202211517909A CN115757743A CN 115757743 A CN115757743 A CN 115757743A CN 202211517909 A CN202211517909 A CN 202211517909A CN 115757743 A CN115757743 A CN 115757743A
Authority
CN
China
Prior art keywords
word
text
blocks
participle
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211517909.5A
Other languages
English (en)
Inventor
姚贡之
程文渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongji Information Technology Co Ltd
Original Assignee
Shanghai Hongji Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongji Information Technology Co Ltd filed Critical Shanghai Hongji Information Technology Co Ltd
Priority to CN202211517909.5A priority Critical patent/CN115757743A/zh
Publication of CN115757743A publication Critical patent/CN115757743A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文档的检索词匹配方法及电子设备,该方法包括:通过对文档进行解析,获得包含文本内容的候选文字块;根据接收到的检索词,将每个候选文字块的文本内容与检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度;从所有候选文字块中筛选出匹配度大于阈值的有效文字块;进而根据已构建的语义词库和有效文字块的文本内容,删除满足预设条件的有效文字块。该方案在基于匹配度筛选有效文字块的基础上,进一步基于语义词库,对有效文字块进行了过滤,降低了误召回率。

Description

文档的检索词匹配方法及电子设备
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种文档的检索词匹配方法及电子设备。
背景技术
在文档检索领域,对非结构化的文档如PDF(Portable Document Format,便携文件格式)、图片等文档进行查询往往会先采用一个通用文档解析模块(工具解析或OCR(Optical Character Recognition,光学字符识别)解析)进行文档的数字化后再根据检索词进行文本匹配。
由于文档解析模块可能会由于噪音的原因(文档清晰度不够或者解析工具版式兼容性问题)产生一些错误的文本内容,所以该类型的文本匹配通常会设置一定的置信度阈值来容错从而提高召回,但是这样的方法在大多数场景下无法做到语义层面的理解。
发明内容
本申请实施例提供了一种文档的检索词匹配方法,用以降低误召回率。
本申请实施例提供了一种文档的检索词匹配方法,包括:
对文档进行解析,获得包含文本内容的候选文字块;
根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度;
从所有候选文字块中筛选出匹配度大于阈值的有效文字块;
根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块。
在一实施例中,所述根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度,包括:
根据接收到的检索词,将所述检索词拆分成多个子关键词;
针对每个候选文字块,确定所述候选文字块的文本内容与每个子关键词之间的相似度;
根据所述候选文字块的文本内容与每个子关键词之间的相似度,确定所述候选文字块与所述检索词之间的匹配度。
在一实施例中,所述语义词库包括基础词库,所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块,包括:
根据所述基础词库中的业务词,若任一有效文字块的文本内容仅包含所述基础词库中的业务词,且所述文本内容与去除停用词后的所述检索词不相同,则删除所述有效文字块。
在一实施例中,所述语义词库包括对立词库,所述对立词库包括多个对立词集,每个对立词集包括多个对立词;所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块,包括:
根据所述对立词库,若任一有效文字块的文本内容的分词与所述检索词的分词位于同一个对立词集中,则删除所述有效文字块。
在一实施例中,所述语义词库包括基础词库,在所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块之前,所述方法还包括:
获取非结构化文档;
对所述非结构化文档进行解析,获得包含文本内容的目标文字块;
去除文本内容仅包含数字或符号的目标文字块,并对剩余目标文字块的文本内容进行分词操作,得到第一分词集合;
对所述第一分词集合进行过滤,得到所述基础词库。
在一实施例中,所述对所述第一分词集合进行过滤,得到所述基础词库,包括:
去除所述第一分词集合中不在预设长度范围内的分词以及停用词,得到第二分词集合;
根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库。
在一实施例中,所述根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库,包括:
从所述第二分词集合中筛选出IDF逆向文档频率值最大的预设数量个分词,构建所述基础词库。
在一实施例中,所述IDF逆向文档频率值通过以下公式计算得到:
IDF=lg[D/(1+d)];
其中,D表示去除文本内容仅包含数字或符号的目标文字块后的所述目标文字块的总数,d表示目标文字块中出现某个分词的目标文字块数量。
在一实施例中,所述根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库,包括:
从所述第二分词集合中,筛选出在所述第二分词集合出现次数最大的预设数量个分词,构建所述基础词库。
在一实施例中,所述对所述第一分词集合进行过滤,得到所述基础词库,包括:
基于关键字提取方式,从所述第一分词集合进行过滤,得到所述基础词库。
在一实施例中,所述语义词库还包括对立词库,在所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块之前,所述方法还包括:
从所述第二分词集合中删除位于所述基础词库中的词汇,得到第三分词集合;
从所述第三分词集合中筛选出多个对立词集,得到由多个对立词集构成的对立词库;每个对立词集包括多个对立词,所述多个对立词包含相同字符且相同字符位于不同字符的同一侧。
在一实施例中,所述从所述第三分词集合中筛选出多个对立词集,得到由多个对立词集构成的对立词库,包括:
从所述第三分词集合中筛选出多个对立词集;
针对每个对立词集,去除所述对立词集中与其余对立词之间的相似度不在预设范围内的目标对立词,得到由多个对立词集构成的对立词库。
本申请实施例还提供了一种文档的检索词匹配装置,该装置包括:
文档解析模块,用于对文档进行解析,获得包含文本内容的候选文字块;
文本匹配模块,用于根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度;
文字块筛选模块,用于从所有候选文字块中筛选出匹配度大于阈值的有效文字块;
文字块过滤模块,用于根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述文档的检索词匹配方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述文档的检索词匹配方法。
本申请上述实施例提供的技术方案,通过对文档进行解析,获得包含文本内容的候选文字块;根据接收到的检索词,将每个候选文字块的文本内容与检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度;从所有候选文字块中筛选出匹配度大于阈值的有效文字块;进而根据已构建的语义词库和有效文字块的文本内容,删除满足预设条件的有效文字块。该方案在基于匹配度筛选有效文字块的基础上,进一步基于语义词库,对有效文字块进行了过滤,降低了误召回率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的一种文档的检索词匹配方法的流程示意图;
图3是图2对应实施例中步骤S220的细节流程图;
图4是本申请实施例提供的基础词库的构建过程;
图5是本申请实施例提供的对立词库的构建过程;
图6是本申请实施例提供的对文档进行解析的结果示意图;
图7是本申请实施例提供的匹配得到的有效文字块的示意图;
图8是本申请实施例提供的最终匹配结果的示意图;
图9是本申请实施例提供的一种文档的检索词匹配装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
机器流程自动化(Robotic Process Automation,RPA)技术可以模拟员工在日常工作中通过键盘、鼠标对计算机的操作,可以代替人类执行登录系统、操作软件、读写数据、下载文件、读取邮件等操作。以自动化机器人作为企业的虚拟劳动力,可以将员工从重复、低价值的工作中解放出来,将精力投入到高附加值的工作上,从而可以使企业在数字化智能化转型的同时又做到降低成本、增加效益。
RPA是一种使用软件机器人取代业务流程中的人工任务,并且像人一样与计算机的前端系统进行交互,因此RPA可以看作是一种运行在个人PC机或服务器中的软件型程序机器人,通过模仿用户在电脑上进行的操作来替代人类自动重复这些操作,例如检索邮件、下载附件、登录系统、数据加工分析等活动,快速、准确、可靠。虽然和传统的物理机器人一样都是通过设定的具体规则来解决人类工作中速度和准确度的问题,但是传统的物理机器人是软硬件结合的机器人,需要在特定的硬件支持下配合软件才能执行工作;而RPA机器人是纯软件层面的,只要安装了相应的软件,就可以部署到任意一台PC机和服务器中来完成规定的工作。
也就是说,RPA是一种利用“数字员工”代替人进行业务操作的一种方式及其相关的技术。本质上RPA是通过软件自动化技术,模拟人实现计算机上系统、软件、网页和文档等对象的无人化操作,获取业务信息、执行业务动作,最终实现流程自动化处理、人力成本节约和处理效率提升。从描述可知,为了实现RPA,需要先从文档或屏幕中找到待操作的目标内容,才能自动对这些内容进行操作。故基于输入的检索词,在文档中进行快速找到该检索词成为实现RPA所关注的技术之一。
本申请发明人研究了解到,针对企业内部使用最多的表格类数据举例来说,1:检索词为“手动泥浆阀”,表格某行某单元格内的内容为“电动泥浆阀”(情况1)或“泥浆阀”(情况2),如果阈值设置为0.7(为了保证召回不能设置太高,实际可能更低)使用dice相似度计算依然会落在阈值内(情况1为0.8,情况2为0.75),从而无法从语义上对检索词和文档的匹配度进行区分,具体来说:情况1“手动”和检索词“电动”其实是截然相反的语义;情况2单元格内容里面并没有包含“手动”字样,从而误召回率较高。
基于上述现状,本申请提供了一种文档的检索词匹配方法,可以降低误召回率,下面通过一些实施例来描述本申请提供的文档的检索词匹配方法。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的文档的检索词匹配方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的文档的检索词匹配方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的文档的检索词匹配方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的文档的检索词匹配方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的文档的检索词匹配方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、服务器、台式电脑、车载设备等智能终端。
图2是本申请实施例提供的一种文档的检索词匹配方法的流程示意图。如图2所示,该方法包括以下步骤S210-步骤S240。
步骤S210:对文档进行解析,获得包含文本内容的候选文字块。
示例性地,文档中可以包括字符串,也可以包含表格等内容。例如,该文档可以是文本文档,也可以是表格文档。
其中,表格文档可以是包含表格的非结构化文档,例如PDF文档、图片文档。对表格文档进行解析,可以采用第三方解析工具,例如PDF解析器或OCR工具实现,可以得到每个候选文字块的坐标位置信息和文本内容。候选文字块是指表格文档中每个字符串的最小外接矩形框,可以记为O。每个候选文字块的坐标位置信息可以包括该最小外接矩形框的左上顶点坐标和右下顶点坐标。文本内容是指候选文字块包含的具体字符内容,可能是一串数字或一串文字。
步骤S220:根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度。
其中,检索词可以由用户输入或者从外部设备接收得到,举例来说,检索词可以是“手动泥浆阀”。其中,匹配度用于表征候选文字块的文本内容与检索词之间的相似度,具体的,可以通过模糊匹配算法实现。
在一实施例中,如图3所示,上述步骤S220具体包括:步骤S221-步骤S223。
步骤S221:根据接收到的检索词,将所述检索词拆分成多个子关键词;
具体的,可以对检索词(记为Q)进行分词操作,例如使用ngram算法(n元语言模型)将检索词拆分成多个片段,每个片段可以称为子关键词。
步骤S222:针对每个候选文字块,确定所述候选文字块的文本内容与每个子关键词之间的相似度。
其中,相似度的计算可以基于jaccard、dice等相似度函数。举例来说,假设子关键词有Q1,Q2……QN,则可以计算出Q1与候选文字块O之间的相似度,Q2与候选文字块O之间的相似度……QN与候选文字块O之间的相似度。
步骤S223:根据所述候选文字块的文本内容与每个子关键词之间的相似度,确定所述候选文字块与所述检索词之间的匹配度。
其中,confidence(Q,O)=max(sim(Q1,O),sim(Q2,O),……sim(QN,O))。
confidence(Q,O)表示检索词与候选文字块之间的匹配度,max()表示逗号间隔的若干值取最大值,sim(QN,O)表示子关键词QN与候选文字块O之间的相似度。故候选文字块与检索词之间的匹配度可以是候选文字块的文本内容与每个子关键词之间的相似度的最大值。
步骤S230:从所有候选文字块中筛选出匹配度大于阈值的有效文字块。
举例来说,阈值可以是0.7、0.75等,有效文字块是指与检索词之间的匹配度大于阈值的候选文字块,为进行区分,称为有效文字块。
步骤S240:根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块。
为了降低误召回率,在筛选出有效文字块之后,本申请实施例进一步根据已构建好的语义词库,通过语义理解,对有效文字块进行了过滤,删除了满足预设条件的有效文字块,从而可以降低误召回率。
在一实施例中,语义词库可以包括基础词库和/或对立词库。当语义词库包括基础词库时,上述步骤S240具体可以包括:根据所述基础词库中的业务词,若任一有效文字块的文本内容仅包含所述基础词库中的业务词,且所述文本内容与去除停用词后的所述检索词不相同,则删除所述有效文字块。
需要说明的是,基础词库中的业务词可以认为是领域内的常见业务词,例如“泥浆阀”。如果某个有效文字块仅包含基础词库中的业务词(也就是不包含其他词汇了),并且该有效文本块的文本内容与检索词不完全相同,则需要剔除该有效文字块。
举例来说,假设某个有效文字块的文本内容是“泥浆阀”,而检索词是“手动泥浆阀”,由于该有效文字块的文本内容仅包含基础词库中的业务词,由于检索词不完全相同,所以该有效文字块“泥浆阀”需要被删除,从而降低误召回率。
在一实施例中,当语义词库包括对立词库时,上述步骤S240可以包括:根据所述对立词库,若任一有效文字块的文本内容的分词与所述检索词的分词位于同一个对立词集中,则删除所述有效文字块。
其中,所述对立词库包括多个对立词集,每个对立词集包括多个对立词。对立词是指语义矛盾的两个词汇。举例来说,“电动”、“手动”就是两个对立词。举例来说,“电动、手动”可以构成一个对立词集。如果某个有效文字块的文本内容的任一分词与检索词的任一分词位于同一个对立词集中,则需要剔除该有效文字块。举例来说,如果某个有效文字块的文本内容是“手动泥浆阀”,其包含分词“手动”和“泥浆阀”。假设检索词是“电动泥浆阀”,其包含分词“电动”和“泥浆阀”。由于“手动”和“电动”位于同一个对立词集中,所以该有效文字块“手动泥浆阀”需要被剔除,从而降低误召回率。
下面对语义词库的构建过程展开详细描述。语义词库的构建过程可以包括基础词库的构建和对立词库的构建。
如图4所示,基础词库的构建过程包括以下步骤S410-步骤S440。
步骤S410:获取非结构化文档。
其中,非结构化文档可以是指包含表格的图片或PDF格式文档,为与上文待检索的表格文档进行区分,用于构建语义词库的表格文档称为非结构文档。非结构化文档可以从知识库中获取得到。
步骤S420:对所述非结构化文档进行解析,获得包含文本内容的目标文字块。
对非结构化文档的解析可以参照步骤S210,通过第三方解析工具(如PDF解析器、OCR工具等)实现。为进行区分,非结构化文档中的文字块称为目标文字块。
步骤S430:去除文本内容仅包含数字或符号的目标文字块,并对剩余目标文字块的文本内容进行分词操作,得到第一分词集合。
首先,去除文本内容仅包含数字或符号等特殊类型字符,不包含其他字符的目标文字块,例如去除发票号对应的文字块,金额对应的文字块。然后对过滤后剩余的目标文字块的文本内容进行细粒度分词操作,即切分到最小粒度,具体的,可以基于词典(例如基于trie树词典的正向最大切分方法)或统计模型进行分词操作。对剩余的目标文字块的文本内容进行分词操作,可以得到大量词汇,这些词汇构成第一分词集合。
步骤S440:对所述第一分词集合进行过滤,得到所述基础词库。
可选地,步骤S440可以包括:去除所述第一分词集合中不在预设长度范围内的分词以及停用词,得到第二分词集合;根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库。
其中,预设长度范围可以是[2~4],也就是包含2到4个字符的分词。如果第一分词集合中某个分词少于2个字符或者多于4个字符,则进行删除,如果某个分词位于停用词表中,则该分词属于停用词,也进行删除,剩余的分词,可以构成第二分词集合。
该停用词表时预先设置的一个词表,该停用词表中的停用词可以是一些无意义词,例如,该停用词可以是助词、语气词等词汇。可以理解的是,使用场景不同,该停用词表中所包含的停用词也可能会不同,具体可以根据实时的使用场景设置该停用词表。
示例性地,可以从所述第二分词集合中筛选出IDF逆向文档频率值最大的预设数量个分词,构建所述基础词库。
其中,IDF值(逆向文档频率值)具体计算公式为:IDF=lg[D/(1+d)]。D表示步骤S430中剩余目标文字块的总数,d表示剩余目标文字块中出现某个分词的目标文字块数量,公式中的1是为了防止分母为0的情况,lg是以10为底的对数。基于第二分词集合中每个分词的IDF值,可以按照IDF值从大到小对第二分词集合中的分词进行排序,选取排序靠前的K(即预设数量,K可以根据经验和最终效果确定)个分词,构建基础词库,基础词库中的分词就是领域内常见的业务词。
示例性地,可以从所述第二分词集合中,筛选出在所述第二分词集合出现次数最大的预设数量个分词,构建所述基础词库。
可选地,步骤S440可以包括:基于关键字提取方式,从所述第一分词集合进行过滤,得到所述基础词库。
示例性地,该关键字提取方式可以是textrank算法、LDA(Latent DirichletAllocation,隐含狄利克雷分布)算法,提取第一分词集合中的关键字,以得到基础词库。
举例来说,假设目标文字块有“电动的泥浆阀”,“手动的泥浆阀”,“混动泥浆阀”,那么第二分词集合S=“电动/泥浆阀”,“手动/泥浆阀”,“混动/泥浆阀”(“/”表示分词间隔);基础词库B=“泥浆阀”。
在一实施例中,语义词库还可以包括对立词库,在上述构建基础词库的基础上,如图5所示,进一步还可以执行以下步骤:S510-步骤S520。
步骤S510:从所述第二分词集合中删除位于所述基础词库中的词汇,得到第三分词集合。
具体的,遍历第二分词集合中所有的分词,如果第二分词集合中的某个分词位于基础词库中,则该分词进行删除,第二分词集合中剩余的分词构成第三分词集合。
步骤S520:从所述第三分词集合中筛选出多个对立词集,得到由多个对立词集构成的对立词库;每个对立词集包括多个对立词,所述多个对立词包含相同字符且相同字符位于不同字符的同一侧。
举例来说,“电动,手动,混动”都包含相同字符“动”且相同字符“动”都在“电,手,混”的同一侧,因此,“电动,手动,混动”可以看成是多个对立词,构成一个对立词集。从第三分词集合中可以筛选出所有对立词集,构成对立词库。
在一实施例中,上述步骤S520具体包括:从所述第三分词集合中筛选出多个对立词集;针对每个对立词集,去除所述对立词集中与其余对立词之间的相似度不在预设范围内的目标对立词,得到由多个对立词集构成的对立词库。
其中,其余对立词是指对立词集中除目标对立词以外剩余的对立词。目标对立词是指对立词集中与其余对立词之间的相似度不在预设范围内的对立词。具体的,相似度的计算可以通过将对立词集中的对立词转换为词向量,然后计算词向量之间的相似度(例如余弦相似度)。其中,将对立词转换为词向量利用采用word2vec等文本/词表征模型。
进一步,为了提高对立词库的准确性,还可以根据业务规则进行对立词库的审核,比如“混动”和“手动”可能不是对立的,可以共存,不应加入到一个对立词集中,则可以从“对立词集”中删除“混动”。
下面以一个具体实施例,本实施例将结合图6所示的文档进行解析的结果示意图对本申请实施例提供的文档的检索词匹配方法进行说明,其中,图6所示的实例是以文档为表格文档为例。
步骤1:从知识库获取非结构化文档;
步骤2:对非结构化文档进行解析,得到如图6所示的目标文字块;
步骤3:基于目标文字块,进行过滤、分词、选取IDF值最大的K个分词等系列操作,构建基础词库和对立词库。例如,基础词库包括:蝶阀、伸缩接头、止回阀……;对立词库包括:[手动、电动],……
步骤4:获取待检索的文档,并对文档进行解析,同样可以得到如图6所示的候选文字块;
步骤5:接收检索词,例如电动蝶阀;
步骤6:将检索词与候选文字块的文本内容进行匹配,找出匹配度大于阈值(例如0.6)的有效文字块,结果如图7所示,有效文字块有“电动蝶阀”、“手动蝶阀”。
步骤7:根据基础词库和对立词库,并通过对比检索词和有效文字块的文本内容,对满足预设条件的有效文字块进行过滤。结果如图8所示,“手动蝶阀”被过滤掉,“电动蝶阀”是最终的匹配结果。
需要说明的是,采用基于OCR识别结果的相关匹配方法可以显著减少系统构建时间和复杂度,但是往往可能缺少对文字尤其是中文词粒度的语义层面的理解。而本申请实施例提供的技术方案可以在类似的匹配方法的基础上提供进一步的语义理解,增强检索词与检索结果的匹配度,降低误召回率,同时提升一定的智能性。
下述为本申请装置实施例,可以用于执行本申请上述文档的检索词匹配方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请一种文档的检索词匹配方法实施例。
图9为本申请一实施例示出的文档的检索词匹配装置的框图。如图9所示,该装置包括:
文档解析模块910,用于对文档进行解析,获得包含文本内容的候选文字块;
文本匹配模块920,用于根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度;
文字块筛选模块930,用于从所有候选文字块中筛选出匹配度大于阈值的有效文字块;
文字块过滤模块940,用于根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块。
上述装置中各个模块的功能和作用的实现过程具体详见上述文档的检索词匹配方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (13)

1.一种文档的检索词匹配方法,其特征在于,包括:
对文档进行解析,获得包含文本内容的候选文字块;
根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度;
从所有候选文字块中筛选出匹配度大于阈值的有效文字块;
根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块。
2.根据权利要求1所述的方法,其特征在于,所述根据接收到的检索词,将每个候选文字块的文本内容与所述检索词进行匹配,确定每个候选文字块的文本内容与所述检索词之间的匹配度,包括:
根据接收到的检索词,将所述检索词拆分成多个子关键词;
针对每个候选文字块,确定所述候选文字块的文本内容与每个子关键词之间的相似度;
根据所述候选文字块的文本内容与每个子关键词之间的相似度,确定所述候选文字块与所述检索词之间的匹配度。
3.根据权利要求1所述的方法,其特征在于,所述语义词库包括基础词库,所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块,包括:
根据所述基础词库中的业务词,若任一有效文字块的文本内容仅包含所述基础词库中的业务词,且所述文本内容与去除停用词后的所述检索词不相同,则删除所述有效文字块。
4.根据权利要求1所述的方法,其特征在于,所述语义词库包括对立词库,所述对立词库包括多个对立词集,每个对立词集包括多个对立词;所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块,包括:
根据所述对立词库,若任一有效文字块的文本内容的分词与所述检索词的分词位于同一个对立词集中,则删除所述有效文字块。
5.根据权利要求1所述的方法,其特征在于,所述语义词库包括基础词库,在所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块之前,所述方法还包括:
获取非结构化文档;
对所述非结构化文档进行解析,获得包含文本内容的目标文字块;
去除文本内容仅包含数字或符号的目标文字块,并对剩余目标文字块的文本内容进行分词操作,得到第一分词集合;
对所述第一分词集合进行过滤,得到所述基础词库。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一分词集合进行过滤,得到所述基础词库,包括:
去除所述第一分词集合中不在预设长度范围内的分词以及停用词,得到第二分词集合;
根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库,包括:
从所述第二分词集合中筛选出IDF逆向文档频率值最大的预设数量个分词,构建所述基础词库。
8.根据权利要求7所述的方法,其特征在于,所述IDF逆向文档频率值通过以下公式计算得到:
IDF=lg[D/(1+d)];
其中,D表示去除文本内容仅包含数字或符号的目标文字块后的所述目标文字块的总数,d表示目标文字块中出现某个分词的目标文字块数量。
9.根据权利要求6所述的方法,其特征在于,所述根据所述第二分词集合中各个分词的频率,从所述第二分词集合中筛选出预设数量个分词,构建所述基础词库,包括:
从所述第二分词集合中,筛选出在所述第二分词集合出现次数最大的预设数量个分词,构建所述基础词库。
10.根据权利要求5所述的方法,其特征在于,所述对所述第一分词集合进行过滤,得到所述基础词库,包括:
基于关键字提取方式,从所述第一分词集合进行过滤,得到所述基础词库。
11.根据权利要求6所述的方法,其特征在于,所述语义词库还包括对立词库,在所述根据已构建的语义词库和所述有效文字块的文本内容,删除满足预设条件的有效文字块之前,所述方法还包括:
从所述第二分词集合中删除位于所述基础词库中的词汇,得到第三分词集合;
从所述第三分词集合中筛选出多个对立词集,得到由多个对立词集构成的对立词库;每个对立词集包括多个对立词,所述多个对立词包含相同字符且相同字符位于不同字符的同一侧。
12.根据权利要求11所述的方法,其特征在于,所述从所述第三分词集合中筛选出多个对立词集,得到由多个对立词集构成的对立词库,包括:
从所述第三分词集合中筛选出多个对立词集;
针对每个对立词集,去除所述对立词集中与其余对立词之间的相似度不在预设范围内的目标对立词,得到由多个对立词集构成的对立词库。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-12任意一项所述的文档的检索词匹配方法。
CN202211517909.5A 2022-11-29 2022-11-29 文档的检索词匹配方法及电子设备 Pending CN115757743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211517909.5A CN115757743A (zh) 2022-11-29 2022-11-29 文档的检索词匹配方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211517909.5A CN115757743A (zh) 2022-11-29 2022-11-29 文档的检索词匹配方法及电子设备

Publications (1)

Publication Number Publication Date
CN115757743A true CN115757743A (zh) 2023-03-07

Family

ID=85341002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211517909.5A Pending CN115757743A (zh) 2022-11-29 2022-11-29 文档的检索词匹配方法及电子设备

Country Status (1)

Country Link
CN (1) CN115757743A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备
CN116628129A (zh) * 2023-07-21 2023-08-22 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备
CN116628129A (zh) * 2023-07-21 2023-08-22 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统
CN116628129B (zh) * 2023-07-21 2024-02-27 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN108875040B (zh) 词典更新方法及计算机可读存储介质
CN108776709B (zh) 计算机可读存储介质及词典更新方法
KR20190062391A (ko) 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법
CN115757743A (zh) 文档的检索词匹配方法及电子设备
CN110162630A (zh) 一种文本去重的方法、装置及设备
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
US20190130030A1 (en) Generation method, generation device, and recording medium
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN115795061B (zh) 一种基于词向量和依存句法的知识图谱构建方法及系统
CN112487824A (zh) 客服语音情感识别方法、装置、设备及存储介质
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Mezghanni et al. CrimAr: A criminal Arabic ontology for a benchmark based evaluation
CN111950261B (zh) 提取文本关键词的方法、设备和计算机可读存储介质
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
CN117149955A (zh) 一种保险条款咨询自动回答的方法、介质及系统
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
CN114707003A (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination